Skip to content
mimi

Platform Operations Engineer – SRE & Infrastructure Automation (m/w/d)

Rocken AG

On-site Full-time 1w ago

About the role

Rolle

Zwischen Code und Betrieb liegt eine Disziplin, die beides vereint: Site Reliability Engineering. Gesucht wird eine Fachkraft, die Systeme nicht nur am Leben erhält, sondern sie durch Automatisierung, Observability und kontinuierliches Verbessern auf ein neues Zuverlässigkeitsniveau hebt.

Verantwortung

  • Design und Betrieb von Multi-Infrastruktur-Deployments über On-Prem-, Private-Cloud- und Public-Cloud-Umgebungen hinweg
  • Entwicklung und Pflege von IaC-Lösungen zur vollständigen Automatisierung von Provisionierung, Updates und Kunden-Onboardings
  • Aktive Rolle im Incident Management: Ursachenanalyse, Eskalationshandling und nachhaltige Problemlösung durch gezielte Log- und Datenbankanalysen
  • Aufbau eines umfassenden Observability-Systems inkl. SLI/SLO-Framework, Alerting-Logik, Runbooks und automatisierter Incident-Reaktion
  • Technische Verantwortung für den Onboarding-Prozess neuer Kunden – von der Infrastrukturbereitstellung bis zur betrieblichen Übergabe
  • Enge Zusammenarbeit mit Entwicklungsteams zur Verbesserung von Systemarchitektur, Resilienz und Deploymentgeschwindigkeit
  • Erarbeitung verbindlicher Betriebsrichtlinien und technischer Standards für externe Dienstleister und Partner

Qualifikationen

  • Solide Entwicklungserfahrung in Kotlin, Java oder Python – du verstehst Code und kannst ihn lesen, anpassen und debuggen
  • Tiefes Linux-Know-how und sicherer Umgang mit der Kommandozeile inkl. komplexem Shell-Scripting
  • Praktische Erfahrung mit Container-basierten Architekturen (Docker, idealerweise auch Kubernetes)
  • SQL-Kenntnisse für die eigenständige Analyse produktiver Datenbanken im Incident-Kontext
  • Fundiertes Verständnis von Netzwerkkonzepten: TLS-Zertifikate, DNS-Architektur, Firewall-Regeln, Routing
  • Erfahrung mit Konfigurationsmanagement und Automatisierung (Ansible, Terraform o. ä.)
  • Ausgeprägtes SRE-Mindset: Fehlerbudgets, Toil-Reduktion, Reliability als Engineering-Disziplin
  • Präzise, strukturierte Dokumentationskultur – du hältst fest, was du tust und warum

Skills

AnsibleDockerJavaKotlinKubernetesLinuxPythonSQLTerraform

Don't send a generic resume

Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.

Get started free