Site Reliability Engineer

Energisme

Fresnes · On-site Contract 3w ago

About the role

L'environnement

Nous sommes un éditeur SaaS B2B spécialisé dans la gestion de l'énergie. Notre plateforme collecte et traite chaque mois des volumes massifs de données issues de sources hétérogènes : compteurs intelligents (Enedis, GRDF), capteurs IoT, relevés manuels et données open data. Nous permettons à nos clients (grands comptes, collectivités, gestionnaires de patrimoine) de piloter leur performance énergétique via des tableaux de bord, des alertes et des moteurs d'analyse avancés. Notre infrastructure repose sur Microsoft Azure. Nous opérons des clusters Kubernetes managés qui hébergent l'ensemble de nos services applicatifs et data. La couche applicative est construite sur des microservices conteneurisés. Nous développons également une brique IA multi-agents pour l'analyse énergétique automatisée. L'équipe technique compte environ 20 personnes, organisées en pôles : Platform/DevOps, Data & IA, Applications et partner data acquisition. Les pipelines CI/CD tournent sur GitLab CI, les déploiements sont orchestrés via Helm et ArgoCD dans une logique GitOps. Le monitoring repose sur Prometheus et Grafana. L'infrastructure est provisionnée en Infrastructure as Code. C'est un environnement exigeant : données critiques, SLA clients, volumes importants, et une stack en pleine évolution. Tu rejoins une équipe à taille humaine où chaque action a un impact direct sur la production.

Les missions

Gestion de l'infrastructure Cloud Azure

Tu administres et optimises l'ensemble de nos ressources Azure : clusters Kubernetes, bases de données, stockage, networking.
Tu provisionnes les environnements via IaC et tu pilotes les évolutions d'architecture en lien avec les besoins métier et data.
Tu assures la haute disponibilité et la scalabilité de la plateforme, y compris lors des pics de collecte de données.

Kubernetes & Containerisation

Tu gères le cycle de vie de nos clusters : déploiement, scaling, upgrades, gestion des namespaces.
Tu maintiens et fais évoluer nos pipelines de déploiement dans une logique GitOps.
Tu accompagnes les développeurs dans la containerisation de leurs services et tu veilles au respect des bonnes pratiques.

CI/CD & Automatisation

Tu conçois et maintiens nos pipelines CI/CD, du build au déploiement en production.
Tu automatises tout ce qui peut l'être : provisioning d'environnements, backups, rotation de secrets, nettoyage de ressources.
Tu mets en place des pratiques de déploiement continu fiables avec rollback automatisé.

Monitoring, Observabilité & Gestion des incidents

Tu déploies et fais évoluer notre stack de monitoring et d'observabilité.
Tu définis les SLIs et SLOs en collaboration avec les équipes produit.
Tu configures des alertes pertinentes qui anticipent les problèmes avant qu'ils n'impactent les utilisateurs.
Tu participes à l'astreinte et à la gestion des incidents, incluant les postmortems.

Sécurité & Conformité

Tu gères les accès et les secrets.
Tu appliques le principe du moindre privilège, tu audites les accès et tu participes aux démarches de conformité ISO 27001 et RGPD, en lien avec le RSSI sur les sujets réglementaires.

Support & Documentation

Tu es le point de référence infra pour les équipes de développement.
Tu les débloques rapidement, tu documentes les procédures opérationnelles, tu maintiens les runbooks à jour et tu diffuses les bonnes pratiques DevOps/SRE au quotidien.

Compétences techniques requises

Tu es à l'aise sur Microsoft Azure (AKS, Virtual Networks, Storage, Key Vault, Entra ID, Azure Monitor)
Tu sais administrer des clusters Kubernetes en conditions réelles : scaling, upgrades, RBAC, namespaces, node pools
Tu utilises Helm pour packager et déployer des applications
Tu as déjà travaillé avec ArgoCD dans une logique GitOps
Tu sais concevoir et maintenir des pipelines CI/CD sur GitLab CI
Tu provisionnes l'infrastructure as Code avec Terraform (ou Bicep/Pulumi)
Tu maîtrises Prometheus et Grafana pour le monitoring et l'alerting, PromQL inclus
Tu as de l'expérience avec une stack de logging centralisée (Loki, ELK ou équivalent)
Tu gères les secrets et les accès proprement (Key Vault, sealed secrets, moindre privilège)
Tu connais le networking Azure : VNets, peering, NSGs, Private Endpoints, Application Gateway ou Front Door
Tu scriptes en Bash et Python pour automatiser le quotidien
Tu es sensible aux enjeux de conformité ISO 27001 et RGPD
Tu as une vraie culture SRE : gestion d'incidents, postmortems, runbooks
Tu justifies d'au moins 4 ans d'expérience sur un poste similaire (DevOps, Platform Engineer, SRE)

C'est un plus si…

Tu connais les architectures lakehouse (Iceberg, Spark, Trino)
Tu as touché à Argo Workflows ou à l'orchestration de jobs batch sur Kubernetes
Tu as exploré OpenTelemetry ou le tracing distribué
Tu as déjà fait du capacity planning ou de l'optimisation de coûts cloud

Skills

AKSArgoCDArgo WorkflowsAzureAzure MonitorBashBicepDockerELKEntra IDGitLab CIGrafanaHelmIcebergInfrastructure as CodeISO 27001Key VaultKubernetesLokiOpenTelemetryPrometheusPythonPulumiRGPDSparkTerraformTrino

Don't send a generic resume

Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.

Get started free