Senior Site Reliability Engineer
Scalingo
About the role
À propos de Scalingo
Scalingo est une startup technologique en forte croissance. Notre plateforme cloud européenne, robuste et souveraine, libère les équipes techniques des contraintes d'infrastructure, pour leur permettre de se concentrer sur ce qui compte vraiment : créer, innover et délivrer.
Notre PaaS permet de déployer et d'héberger facilement des applications web et des bases de données, sans avoir à gérer l'administration système ou l'infrastructure sous-jacente.
Nous accompagnons une grande diversité de clients - startups, scale-ups, grands groupes et institutions publiques - parmi lesquels le Ministère de l'Intérieur ou ENGIE, avec une exigence élevée en matière de fiabilité, de sécurité et de qualité de service.
Ton rôle chez Scalingo
En tant que Senior Site Reliability Engineer, tu occupes une position clé à l'interface des équipes développement, infrastructure, sécurité et support.
A terme, nous envisageons une évolution vers un rôle managérial.
Ton rôle est à la fois :
- technique, avec un fort impact sur la fiabilité et la performance de la plateforme,
- structurant, en faisant évoluer les pratiques et les outils SRE et al. ,
- fédérateur, en accompagnant et faisant monter en compétence une équipe SRE de 2 personnes.
Tu interviens aussi bien sur le fonctionnement quotidien de l'activité SRE que sur les projets stratégiques liés à la croissance de la plateforme. Référent ou référente technique, tu incarnes les bonnes pratiques SRE et contribues à diffuser une culture de la fiabilité, de l'automatisation et de l'excellence opérationnelle au sein de Scalingo.
Pourquoi ce rôle est essentiel
- Garantir la stabilité, la disponibilité et la résilience des systèmes en production.
- Anticiper les défaillances et structurer des réponses efficaces aux incidents.
- Industrialiser et automatiser l'exploitation de la plateforme.
- Maintenir un haut niveau de qualité de service vis-à-vis de nos clients et de nos engagements contractuels (SLA).
Leadership technique et animation de l'équipe SRE
- Encadrer techniquement l'équipe SRE au quotidien : accompagnement, priorisation, revue des choix techniques et des implémentations.
- Guider, former et faire monter en compétence les membres de l'équipe, en favorisant l'autonomie et la prise d'initiative.
- Transmettre les bonnes pratiques SRE (fiabilité, observabilité, gestion d'incidents, automatisation).
- Être moteur dans l'organisation du travail de l'équipe (processus, rituels, documentation).
- Porter la vision technique SRE et la décliner dans les projets structurants.
Fiabilisation et amélioration continue des services
- Analyser les performances, identifier les points de contention et proposer des améliorations pour optimiser l'utilisation des ressources et la montée en charge.
- Définir, mettre en place et améliorer les outils d'observabilité (monitoring, métriques, logs, alerting), avec une approche proactive de la détection d'incidents.
- Rédiger des processus d'exploitation, les maintenir et les faire évoluer.
- Assurer une veille technologique continue afin de proposer des évolutions pertinentes de l'infrastructure.
Gestion des incidents et support
- Assurer en partie le support client de niveau 3, en lien avec les équipes support et selon les SLA.
- Participer activement à la gestion des incidents, ainsi qu'aux cycles d'astreintes (environ une demi‑semaine toutes les trois semaines).
- Intervenir rapidement lors des incidents critiques afin d'en limiter l'impact et d'assurer la continuité des services.
- Piloter et animer les rétrospectives d'incidents (post‑mortem), en identifiant les causes racines et en définissant des actions correctives durables.
- Rédiger et publier les rapports post‑mortem à la suite des incidents majeurs.
- Assurer la coordination et la communication de crise, en interne comme auprès des clients.
Sécurité, conformité et continuité d'activité
- Veiller au respect des engagements de service (SLA, RPO, RTO) sur le périmètre SRE.
- Mettre en place des indicateurs de mesure de la qualité des services (SLO).
- Contribuer activement à la conformité ISO 27001 et HDS : respect des processus, participation aux audits internes et externes.
- Planifier, exécuter et analyser les tests réguliers des dispositifs de continuité et de reprise d'activité (PCA/PRA).
- Collaborer étroitement avec les équipes de développement afin d'intégrer les exigences d'exploitabilité (fiabilité, performance, sécurité opérationnelle) dès la conception.
- Être force de proposition auprès des équipes produit et techniques sur les sujets de fiabilité, d'expérience client et des outils d'administration.
- Contribuer à la rédaction, à la structuration et au maintien d'une documentation opérationnelle claire et à jour.
Collaboration interne et contribution transverse
- Collaborer étroitement avec les équipes de développement afin d'intégrer les exigences d'exploitabilité dès la conception.
Vos compétences
Ce que tu sais faire en arrivant :
- Une solide expertise des environnements cloud et infrastructures distribuées, avec une culture forte de la haute disponibilité et de la fiabilité en production.
- Une maîtrise des pratiques d'observabilité (logs, métriques, alerting) et une capacité de diagnostic structurée sur des incidents complexes.
- Une bonne compréhension des environnements conteneurisés et de leurs enjeux opérationnels.
- Des compétences confirmées en bases de données en production : fiabilité, sauvegardes, restauration, réplication et montée en charge.
- Une pratique de l'Infrastructure as Code et de l'automatisation des environnements.
- Une sensibilité aux enjeux de sécurité opérationnelle.
- Une aisance dans l'utilisation des outils d’Intelligence Artificielle pour gagner en efficacité au quotidien.
- Une capacité à évoluer dans des.
Skills
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free