NG
Senior Site Reliability Engineer
Natuvion GmbH
Remote · Germany Senior Yesterday
About the role
Deine Rolle im Team
- Als Senior Site Reliability Engineer übernimmst du die Verantwortung für den stabilen, sicheren und skalierbaren Betrieb unserer Kubernetes- und Cloud-Infrastruktur - hands-on, eigenständig und mit echtem Ownership.
- Betrieb und Optimierung von Kubernetes-Clustern (EKS) und AWS-Infrastruktur.
- Debugging komplexer Probleme (Performance, Scheduling, OOM, CrashLoops).
- Aufbau und Betrieb von Self-Hosted Services (z. B. Istio, OpenSearch, RabbitMQ).
- Umsetzung von GitOps (ArgoCD/Flux) und Observability (Logging, Metrics, Tracing).
- Definition von SLIs/SLOs sowie Alerting-Strategien.
- Entwicklung von Backup- und Disaster-Recovery-Konzepten (inkl. RTO/RPO).
- Analyse und Verbesserung von Systemarchitekturen (Skalierung, Sicherheit, SPOFs).
Unser Angebot
- Ein Umfeld, dass jederzeit offen für Veränderungen und Optimierungen ist.
- Ein "das war schon immer so" gibt es bei uns nicht.
- Du hast die Chance dein Wissen einzubringen, Prozesse zu gestalten, vorhandenen Themen zu standardisieren oder Abläufe zu optimieren.
- Sei Impulsgeber und bringe uns mit deiner Expertise noch weiter nach vorne!
- Home-Office Verträge & absolute Flexibilität durch freie Gestaltung der Arbeitszeit.
- Unbefristete Festanstellung und 30 Tage Urlaub.
- FlexWork: Bis zu 3 Monate pro Jahr remote aus dem europäischen Ausland arbeiten.
- Monatliches Budget für individuell wählbare Benefits aus über 50 möglichen Angeboten über emplu, verschiedene Angebote über Corporate Benefits, sowie Fahrrad- und Autoleasing per Gehaltsumwandlung.
- Mental Health Benefit 'Nilo' - 10 kostenlose Sessions mit Psycholog:innen jährlich sowie Zugang zu Meditationen und Kursen.
- Wir unterstützen dich gezielt bei deiner fachlichen und persönlichen Entwicklung bei Natuvion.
- Mentorenprogramm für eine strukturierte und persönliche Einarbeitung.
- Werde Teil des #teamgreen - Bei Natuvion arbeitest du an innovativen Projekten als Teil eines Teams, das füreinander einsteht.
- Wir setzen auf Zusammenarbeit, Offenheit und Vertrauen.
- Modernes Equipment und zentrale Büros in Walldorf, Berlin, München und Leipzig.
- Uns ist deine langfristige Perspektive wichtig, deshalb bezuschussen wir deine betriebliche Altersvorsorge sowie vermögenswirksame Leistungen.
Technologien und Skills
- linkerd
- ArgoCD
- PostgreSQL
- Prometheus
- VPC
- GitOps
- Istio
- Kubernetes
- Grafana
- OpenSearch
- OpenTelemetry
- Amazon EKS
- Helm
- Flux
- AWS
- RDS
Unsere Erwartungen an dich:
Qualifikationen
- Sicher im Umgang mit Helm, GitOps und Container-Technologien.
- Know-how in Netzwerkarchitektur und Security (IAM, Least Privilege).
- Sehr gute Englischkenntnisse.
- PostgreSQL-Administration (inkl. pgbouncer).
- Service Mesh (Istio, Linkerd).
- Incident Management & Post-Mortems.
Erfahrung
- Mehrjährige Erfahrung mit Kubernetes (inkl. Internals) und AWS (EKS, VPC, RDS, IAM).
- Erfahrung mit Observability-Stacks (z. B. Prometheus, Grafana, OpenTelemetry).
- Erfahrung im Betrieb stateful Workloads (z. B. OpenSearch, PostgreSQL).
- CI/CD & Developer Experience Themen.
Benefits
- Bildungskarenz/Auszeit
- Handy zur Privatnutzung
- Gute Anbindung
- Snacks, Süßigkeiten
- Flexible Arbeitszeiten
- Extra Urlaubstage
- Notebook zur Privatnutzung
- Betr. Altersvorsorge
- Home Office
- Team Events
- Frisches Obst
- Mitarbeitervergünstigungen
- Kaffee, Tee o. Ä
Requirements
- Sicher im Umgang mit Helm, GitOps und Container-Technologien.
- Know-how in Netzwerkarchitektur und Security (IAM, Least Privilege).
- Sehr gute Englischkenntnisse.
- PostgreSQL-Administration (inkl. pgbouncer).
- Service Mesh (Istio, Linkerd).
- Incident Management & Post-Mortems.
- Mehrjährige Erfahrung mit Kubernetes (inkl. Internals) und AWS (EKS, VPC, RDS, IAM).
- Erfahrung mit Observability-Stacks (z. B. Prometheus, Grafana, OpenTelemetry).
- Erfahrung im Betrieb stateful Workloads (z. B. OpenSearch, PostgreSQL).
- CI/CD & Developer Experience Themen.
Responsibilities
- Als Senior Site Reliability Engineer übernimmst du die Verantwortung für den stabilen, sicheren und skalierbaren Betrieb unserer Kubernetes- und Cloud-Infrastruktur - hands-on, eigenständig und mit echtem Ownership.
- Betrieb und Optimierung von Kubernetes-Clustern (EKS) und AWS-Infrastruktur.
- Debugging komplexer Probleme (Performance, Scheduling, OOM, CrashLoops).
- Aufbau und Betrieb von Self-Hosted Services (z. B. Istio, OpenSearch, RabbitMQ).
- Umsetzung von GitOps (ArgoCD/Flux) und Observability (Logging, Metrics, Tracing).
- Definition von SLIs/SLOs sowie Alerting-Strategien.
- Entwicklung von Backup- und Disaster-Recovery-Konzepten (inkl. RTO/RPO).
- Analyse und Verbesserung von Systemarchitekturen (Skalierung, Sicherheit, SPOFs).
Benefits
health insurancedental insurancevision insuranceBildungskarenz/AuszeitHandy zur PrivatnutzungGute AnbindungSnacks, SüßigkeitenFlexible ArbeitszeitenExtra UrlaubstageNotebook zur PrivatnutzungBetr. AltersvorsorgeHome OfficeTeam EventsFrisches ObstMitarbeitervergünstigungenKaffee, Tee o. ÄMental Health Benefit 'Nilo'betriebliche Altersvorsorgevermögenswirksame Leistungen
Skills
Amazon EKSArgoCDAWSFluxGitOpsGrafanaHelmIstioKubernetesLinkerdOpenSearchOpenTelemetryPostgreSQLPrometheusVPC
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free