Site Reliability Engineer (SRE) - Systèmes Distribués
CLEVER CLOUD SAS
About the role
À propos de Clever Cloud
Clever Cloud est une plateforme française d’hébergement et d’automatisation Cloud (PaaS) créée en 2010.
Notre mission : permettre aux développeurs de déployer leurs applications simplement, sans avoir à gérer l’infrastructure.
Concrètement, nous développons et opérons une plateforme capable de lancer, superviser, réparer et faire évoluer automatiquement des applications en production.
Mise à l’échelle, redémarrage, résilience, bases de données, sécurité ou métriques : tout est géré par la plateforme.
Nous opérons notre propre infrastructure en Europe et nos clients vont de startups à des services publics en passant par des PME et des grands groupes. L’équipe (≈100 personnes) est majoritairement tech ; une grande partie de notre travail consiste à résoudre des problèmes d’exploitation par du logiciel plutôt que par des procédures humaines.
Nous défendons activement un numérique plus responsable : souveraineté technologique, sobriété énergétique et transparence technique.
Dans un contexte de croissance, nous renforçons l'équipe et recrutons un Site Reliability Engineer spécialisé en systèmes distribués.
Équipe et contexte
Dans cette annonce, Alexandre, membre de l'équipe pour laquelle nous recrutons, te fait découvrir l’équipe et le projet.
Je suis Site Reliability Engineer depuis 2 ans. Je suis responsable des systèmes distribués de Clever Cloud, avec le soutien ponctuel d'autres ingénieurs et de l'équipe infrastructure.
Je travaille aux côtés de Alban (Développeur), Pierre (Lead Tech Systèmes Distribués), Enora (Développeuse), Baptiste (Développeur) sous la gestion de Geo.
C'est une équipe soudée où la collaboration est au cœur de notre façon de travailler.
Domaines d'intervention
- Materia : Notre projet phare de R&D ! On développe des couches de compatibilité (ETCD, Vault, Redis) au-dessus de FoundationDB. Un vrai défi technique avec un impact direct sur le produit. Tu accompagneras l'équipe sur les déploiements, la CI et la livraison de features opérationnelles (métriques, config…).
- Télémétrie : Le système nerveux de Clever Cloud. Tu participeras à la gestion de flux de données massifs et au développement d'outils autour de FoundationDB et Warp10. Tu dirigeras aussi des sujets long terme : cycle de vie des données et architecture des métriques pour un IaaS.
- Streaming : Nos clusters Apache Pulsar sont au cœur de l'orchestration. Tu contribueras à leur fiabilisation, à l'anticipation des dérives d'usage et à l'auto‑remédiation. Tu pourras aussi participer à des contributions Open Source.
Responsabilités
Materia / FoundationDB
Monitorer, fiabiliser et automatiser nos clusters FoundationDB et les services stateless au-dessus (Materia ETCD, Materia KMS, MateriaKV). C’est le cœur de notre innovation produit.Télémétrie
Notre plateforme de métriques est critique – elle alimente les dashboards clients, nos équipes, les systèmes automatisés et la facturation.- 160 millions de séries nominales
- 30 To de données chaudes
Tu participeras à sa fiabilisation, à la gestion du cycle de vie des données et à l’automatisation.
Streaming (Apache Pulsar)
Nos clusters fonctionnent avec Apache Zookeeper et Apache Bookkeeper. Ils traitent :- 80 000 messages/seconde
- 50 To en stockage chaud
- 100 To en stockage froid
Tu contribueras à améliorer leur résilience et auras l’opportunité de contribuer en Open Source sur des bugs identifiés.
Après une période d’intégration et de montée en compétences, tu rejoindras la rotation d’astreinte : 1 semaine sur 4, compensée.
Environnement technique
- Technologies : FoundationDB, Warp10, Apache Pulsar, Zookeeper, Bookkeeper
- Stack : Rust, Scala, Ansible, Terraform, GitLab
Ce qui rend le poste particulièrement intéressant
- Autonomie : tu es maître de ton temps et de tes priorités
- Impact : tes décisions ont des répercussions concrètes sur la plateforme
- Exploration : tu as la liberté d’investiguer de nouveaux sujets pertinents pour l’évolution de l’entreprise
- Variété : la diversité des domaines (Materia, Télémétrie, Streaming) garantit qu’on ne s’ennuie jamais
Compétences / qualités requises
- Excellente communication : échanges techniques avec les équipes d’ingénierie et vulgarisation auprès du support, des clients et des directions
- Capacité à collaborer avec des interlocuteurs variés et à rechercher activement l’information auprès d’autres équipes
- Humilité, curiosité et volonté d’apprentissage continu
- Esprit d’équipe
Compétences techniques et méthodologiques
- Capacité d’analyse fonctionnelle pour comprendre des problématiques métier complexes et proposer des solutions fiables
- Esprit d’investigation pour diagnostiquer et résoudre des problèmes complexes sur des systèmes distribués
- Polyvalence : comprendre les enjeux de la production tout en étant capable de fiabiliser des plateformes et de participer aux réflexions sur l’avenir de la plateforme
Compétences techniques
- Maîtrise d’un langage courant (Java, Rust, Go…) – Rust ou langages JVM sont un plus
- Expérience avec au moins un système distribué (Kafka, Pulsar, Cassandra, FoundationDB, Spark…)
- Expérience dans le tuning de systèmes Linux (kernel, réseau, stockage)
- Capacité à investiguer en profondeur des problèmes de performance, de stockage ou de réseau
- Familiarité avec les outils d’observabilité (métriques, logs, traces)
Pourquoi rejoindre Clever Cloud ?
Peu d’entreprises offrent des défis techniques de cette envergure avec une vraie volonté d’investir dans l’approche logicielle. Chez Clever Cloud, on ne se contente pas de faire tourner des infrastructures : on construit des outils, on innove, on contribue à l’Open Source.
Ce qui fait la différence
- Liberté technique : on choisit les outils qui nous semblent les plus adaptés
- Impact réel : nos travaux ont des répercussions directes sur le produit et les clients
- Ambiance : une équipe bienveillante où l’entraide est naturelle
- Croissance : l’entreprise grandit, les sujets aussi – c’est le bon moment pour nous rejoindre
Avantages
- Flexibilité : full remote possible, ou mode hybride flexible si tu es proche d’un bureau (Paris, Nantes, Brest, Pau)
- DevRel encouragé : possibilité de présenter à des conférences et de promouvoir Clever Cloud lors de salons
- Communauté : participation au podcast MACI et à la vie de la communauté tech
Détails du poste
- Type d’emploi : Temps plein, CDI
- Lieu du poste : Télétravail
Requirements
- Excellent communication skills: technical exchanges with engineering teams and popularization with support, clients and management.
- Ability to collaborate with various stakeholders and actively seek information from other teams.
- Humility, curiosity and willingness for continuous learning.
- Team spirit.
- Functional analysis skills to understand complex business problems and propose reliable solutions.
- Investigative mindset to diagnose and solve complex problems on distributed systems.
- Versatility: understand production stakes while being able to make platforms reliable and participate in platform future reflections.
- Proficiency in a common language (Java, Rust, Go...) - Rust or JVM languages are a plus.
- Experience with at least one distributed system (Kafka, Pulsar, Cassandra, FoundationDB, Spark...).
- Experience in tuning Linux systems (kernel, network, storage).
- Ability to deeply investigate performance, storage, or network problems.
- Familiarity with observability tools (metrics, logs, traces).
Responsibilities
- Monitor, fiabilize and automate our FoundationDB clusters and stateless services.
- Participate in the fiabilization of the metrics platform, data lifecycle management and automation.
- Contribute to improving the resilience of Apache Pulsar clusters and anticipate usage drifts and self-remediation.
- Participate in Open Source contributions on identified bugs.
Benefits
Skills
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free