HH
Senior SRE Engineer - Kubernetes
Harry Hope. Canada
Montreal · On-site Full-time Senior 1w ago
About the role
SRE Senior — Spécialiste Plateforme Kubernetes
Mission
En tant qu’Ingénieur(e) senior SRE – Plateforme Kubernetes, tu seras responsable de la fiabilité, de la scalabilité et de l’évolution de notre plateforme d’orchestration de conteneurs (OKD/Kubernetes).
Ton objectif principal sera d’assurer que la plateforme de production soit résiliente, auto-réparatrice et capable de supporter des charges de travail distribuées à fort volume.
Tu agiras comme référence technique sur l’architecture Kubernetes et travailleras étroitement avec les équipes de développement et d’infrastructure afin d’améliorer la stabilité de la plateforme et la sécurité des déploiements.
Responsabilités principales
Kubernetes & fiabilité de la plateforme (cœur du rôle)
- Concevoir, maintenir et faire évoluer l’architecture de la plateforme Kubernetes (OKD)
- Améliorer la résilience, la disponibilité et la tolérance aux pannes des clusters
- Mettre en place des mécanismes d’auto-réparation et de reprise
- Gérer les mises à niveau, le cycle de vie et la stratégie de versions des clusters
- Supporter les charges de production et les services critiques exécutés sur Kubernetes
- Diagnostiquer des problématiques complexes de clusters (ordonnancement, réseau, stockage, performance)
- Définir les bonnes pratiques d’exploitation des microservices en environnement Kubernetes
Automatisation & infrastructure
- Automatiser les opérations de plateforme et réduire les tâches manuelles
- Gérer les déploiements avec Helm
- Améliorer la fiabilité des déploiements CI/CD et les stratégies de retour arrière (rollback)
- Participer à la planification de capacité et à l’optimisation des performances
- Collaborer avec les développeurs pour améliorer l’exploitabilité des applications
Ingénierie de fiabilité
- Définir des standards opérationnels et des pratiques de fiabilité
- Contribuer à la gestion des incidents et aux analyses post-incident
- Réduire le MTTR grâce à l’automatisation et aux améliorations de la plateforme
- Travailler étroitement avec les équipes d’observabilité afin d’assurer la visibilité de la plateforme
Sécurité & accès
- Participer à la stratégie RBAC et à la gestion des accès
- Sécuriser les communications de la plateforme et la gestion des secrets (OpenBao)
- Intégrer les bonnes pratiques de sécurité dans les opérations de la plateforme
Environnement technique
- Kubernetes (OKD)
- Helm
- Juniper
- Systèmes distribués cloud-native
- Prometheus (utilisation/consommation, non-propriété)
- OpenBao (gestion des secrets)
- Environnements de production à fort trafic
Profil recherché
- Solide expérience pratique en administration et architecture Kubernetes
- Expérience d’exploitation de clusters en production (et pas uniquement de déploiements)
- Excellentes compétences en diagnostic et débogage de systèmes distribués
- Expérience d’astreinte ou de support de production
- Scripting ou programmation (Python, Bash ou Go)
- Une expérience en environnement SaaS ou à grande échelle constitue un atout majeur
Requirements
- Solide expérience pratique en administration et architecture Kubernetes
- Expérience d’exploitation de clusters en production (et pas uniquement de déploiements)
- Excellentes compétences en diagnostic et débogage de systèmes distribués
- Expérience d’astreinte ou de support de production
- Scripting ou programmation (Python, Bash ou Go)
Responsibilities
- Concevoir, maintenir et faire évoluer l’architecture de la plateforme Kubernetes (OKD)
- Améliorer la résilience, la disponibilité et la tolérance aux pannes des clusters
- Mettre en place des mécanismes d’auto-réparation et de reprise
- Gérer les mises à niveau, le cycle de vie et la stratégie de versions des clusters
- Supporter les charges de production et les services critiques exécutés sur Kubernetes
- Diagnostiquer des problématiques complexes de clusters (ordonnancement, réseau, stockage, performance)
- Définir les bonnes pratiques d’exploitation des microservices en environnement Kubernetes
- Automatiser les opérations de plateforme et réduire les tâches manuelles
- Gérer les déploiements avec Helm
- Améliorer la fiabilité des déploiements CI/CD et les stratégies de retour arrière (rollback)
- Participer à la planification de capacité et à l’optimisation des performances
- Collaborer avec les développeurs pour améliorer l’exploitabilité des applications
- Définir des standards opérationnels et des pratiques de fiabilité
- Contribuer à la gestion des incidents et aux analyses post-incident
- Réduire le MTTR grâce à l’automatisation et aux améliorations de la plateforme
- Travailler étroitement avec les équipes d’observabilité afin d’assurer la visibilité de la plateforme
- Participer à la stratégie RBAC et à la gestion des accès
- Sécuriser les communications de la plateforme et la gestion des secrets (OpenBao)
- Intégrer les bonnes pratiques de sécurité dans les opérations de la plateforme
Skills
BashGoHelmJuniperKubernetesOpenBaoPrometheusPython
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free