Site Reliability Engineer
Energisme
About the role
L'environnement
Nous sommes un éditeur SaaS B2B spécialisé dans la gestion de l'énergie. Notre plateforme collecte et traite chaque mois des volumes massifs de données issues de sources hétérogènes : compteurs intelligents (Enedis, GRDF), capteurs IoT, relevés manuels et données open data. Nous permettons à nos clients (grands comptes, collectivités, gestionnaires de patrimoine) de piloter leur performance énergétique via des tableaux de bord, des alertes et des moteurs d'analyse avancés. Notre infrastructure repose sur Microsoft Azure. Nous opérons des clusters Kubernetes managés qui hébergent l'ensemble de nos services applicatifs et data. La couche applicative est construite sur des microservices conteneurisés. Nous développons également une brique IA multi-agents pour l'analyse énergétique automatisée. L'équipe technique compte environ 20 personnes, organisées en pôles : Platform/DevOps, Data & IA, Applications et partner data acquisition. Les pipelines CI/CD tournent sur GitLab CI, les déploiements sont orchestrés via Helm et ArgoCD dans une logique GitOps. Le monitoring repose sur Prometheus et Grafana. L'infrastructure est provisionnée en Infrastructure as Code. C'est un environnement exigeant : données critiques, SLA clients, volumes importants, et une stack en pleine évolution. Tu rejoins une équipe à taille humaine où chaque action a un impact direct sur la production.
Les missions
Gestion de l'infrastructure Cloud Azure
- Tu administres et optimises l'ensemble de nos ressources Azure : clusters Kubernetes, bases de données, stockage, networking.
- Tu provisionnes les environnements via IaC et tu pilotes les évolutions d'architecture en lien avec les besoins métier et data.
- Tu assures la haute disponibilité et la scalabilité de la plateforme, y compris lors des pics de collecte de données.
Kubernetes & Containerisation
- Tu gères le cycle de vie de nos clusters : déploiement, scaling, upgrades, gestion des namespaces.
- Tu maintiens et fais évoluer nos pipelines de déploiement dans une logique GitOps.
- Tu accompagnes les développeurs dans la containerisation de leurs services et tu veilles au respect des bonnes pratiques.
CI/CD & Automatisation
- Tu conçois et maintiens nos pipelines CI/CD, du build au déploiement en production.
- Tu automatises tout ce qui peut l'être : provisioning d'environnements, backups, rotation de secrets, nettoyage de ressources.
- Tu mets en place des pratiques de déploiement continu fiables avec rollback automatisé.
Monitoring, Observabilité & Gestion des incidents
- Tu déploies et fais évoluer notre stack de monitoring et d'observabilité.
- Tu définis les SLIs et SLOs en collaboration avec les équipes produit.
- Tu configures des alertes pertinentes qui anticipent les problèmes avant qu'ils n'impactent les utilisateurs.
- Tu participes à l'astreinte et à la gestion des incidents, incluant les postmortems.
Sécurité & Conformité
- Tu gères les accès et les secrets.
- Tu appliques le principe du moindre privilège, tu audites les accès et tu participes aux démarches de conformité ISO 27001 et RGPD, en lien avec le RSSI sur les sujets réglementaires.
Support & Documentation
- Tu es le point de référence infra pour les équipes de développement.
- Tu les débloques rapidement, tu documentes les procédures opérationnelles, tu maintiens les runbooks à jour et tu diffuses les bonnes pratiques DevOps/SRE au quotidien.
Compétences techniques requises
- Tu es à l'aise sur Microsoft Azure (AKS, Virtual Networks, Storage, Key Vault, Entra ID, Azure Monitor)
- Tu sais administrer des clusters Kubernetes en conditions réelles : scaling, upgrades, RBAC, namespaces, node pools
- Tu utilises Helm pour packager et déployer des applications
- Tu as déjà travaillé avec ArgoCD dans une logique GitOps
- Tu sais concevoir et maintenir des pipelines CI/CD sur GitLab CI
- Tu provisionnes l'infrastructure as Code avec Terraform (ou Bicep/Pulumi)
- Tu maîtrises Prometheus et Grafana pour le monitoring et l'alerting, PromQL inclus
- Tu as de l'expérience avec une stack de logging centralisée (Loki, ELK ou équivalent)
- Tu gères les secrets et les accès proprement (Key Vault, sealed secrets, moindre privilège)
- Tu connais le networking Azure : VNets, peering, NSGs, Private Endpoints, Application Gateway ou Front Door
- Tu scriptes en Bash et Python pour automatiser le quotidien
- Tu es sensible aux enjeux de conformité ISO 27001 et RGPD
- Tu as une vraie culture SRE : gestion d'incidents, postmortems, runbooks
- Tu justifies d'au moins 4 ans d'expérience sur un poste similaire (DevOps, Platform Engineer, SRE)
C'est un plus si…
- Tu connais les architectures lakehouse (Iceberg, Spark, Trino)
- Tu as touché à Argo Workflows ou à l'orchestration de jobs batch sur Kubernetes
- Tu as exploré OpenTelemetry ou le tracing distribué
- Tu as déjà fait du capacity planning ou de l'optimisation de coûts cloud
Skills
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free