Skip to content
mimi

DevOps/Platform Expert

Cloudiax AG

Remote (Global) Full-time 1mo ago

About the role

About Cloudiax

Cloudiax ist ein führender Anbieter von Cloud-Technologien mit mehr als 280 internationalen Partnern und über 1100 SAP-Kunden in 90 Ländern. Wir ermöglichen kleinen und mittelständischen Unternehmen weltweit die Nutzung von Anwendungen wie SAP Business One und KI-Lösungen in unserer Cloud. Als globaler Marktführer bieten wir eine sichere, schnelle und zuverlässige Cloud-Plattform – Made in Germany. Mit Rechenzentren in Deutschland, Kanada und Singapur stellen wir rund um die Uhr höchste Servicequalität sicher.

Zur Verstärkung unseres Teams suchen wir dich – engagiert, technisch stark und bereit, Verantwortung zu übernehmen. Ab sofort und Remote.

Aufgaben

Cloud-Native & Infrastruktur

  • Tiefe Erfahrung in Cluster-Orchestrierung, GPU-Scheduling, Device-Plugins und Mandanten-Isolierung in Rechenzentren.
  • Praktische Erfahrung mit Multi-Instance GPU (MIG) zur effizienten, sicheren Aufteilung physischer GPUs auf unterschiedliche Kunden-Workloads.
  • Sicherer Betrieb von Managed Postgres und Skalierung von Vektor-Datenbanken für performante Retrieval-Architekturen.
  • Kenntnisse in Keycloak, Kong API Gateway oder vergleichbaren Tools für sicheren Zugriff und exakte Abrechnung.
  • Erfahrung mit Git, CI/CD-Pipelines und Infrastructure-as-Code für schnelle, zuverlässige und dokumentierte Deployments.

KI-Expertise & Inferenz-Logik

  • Erfahrung mit KV-Caching, Batching, Quantisierung und Serving-Frameworks wie vLLM oder NVIDIA Triton.
  • Wissen, wie kleine spezialisierte und große Generalisten-Modelle kombiniert werden, um Kosten und Latenz zu optimieren – Open und Closed Models.
  • Techniken zur Reduzierung von Halluzinationen, z. B. Retrieval-Augmented Generation (RAG) und Bereitstellung valider Datenkontexte auf Infrastruktur-Ebene.
  • Operationalisierung von LangChain, LangGraph oder AutoGen sowie Management komplexer Deep Agents, die autonom mehrere Schritte ausführen.

Monitoring & Skalierung (AI-Native)

  • Tracing für Agenten-Entscheidungen (z. B. OpenTelemetry, LangSmith), um Abläufe im Rechenzentrum nachvollziehbar zu machen.
  • Skalierung basierend auf Token-Durchsatz oder Modell-Kontext-Auslastung, nicht nur CPU-Metriken.

Qualifikation

  • Du musst kein Prompt-Engineer sein, aber du verstehst, wie KI „arbeitet“.
  • Wichtig ist, dass du neue Ansätze (z. B. Inferenzmethoden oder Agenten-Strukturen) schnell erfassen und in stabile, mandantenfähige Rechenzentrums-Infrastrukturen integrieren kannst.
  • Experimentierfreude: Freude an Systemen, die nicht immer deterministisch reagieren.
  • Security & Safety: Bewusstsein für AI-Security (Sandboxing, Schutz vor Prompt-Injections) bei jedem System.

Benefits

  • 100% Remote-Arbeitsplatz mit großer zeitlicher Flexibilität
  • attraktives Jahresgehalt, sowie automatische KPI-basierte Gehaltserhöhungen und attraktive Jahresboni.
  • 30+ Tage Erholungsurlaub.
  • Voll ausgestatteter Premium-Homeoffice-Arbeitsplatz.
  • Firmen-(e)Bike, betriebliche Kranken-Zusatzversicherung und weitere Corporate Benefits.
  • Arbeiten in einem internationalen Umfeld bei einem der weltweit führenden Cloud-Provider im SAP-Umfeld.

Haben wir dein Interesse geweckt? Dann lade hier gerne deine vollständigen Bewerbungsunterlagen hoch (Lebenslauf, Zeugnisse, Gehaltsvorstellung, frühestmöglicher Eintrittstermin).

Skills

API GatewayAuto-ScalingAutoGenCI/CDCloud-NativeDockerGitGPUInfrastructure-as-CodeKeycloakKongKubernetesLangChainLangGraphManaged PostgresMIGNVIDIA TritonOpenTelemetryPostgresRAGSAPvLLM

Don't send a generic resume

Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.

Get started free