Lead Data Engineer

LeHibou

Colombes · On-site Contract Lead 2mo ago

About the role

Dans le cadre d’un programme de replatforming B2C, une organisation internationale construit une Data Platform centralisée à l’échelle mondiale, aujourd’hui fragmentée. L’objectif est de mettre en place une plateforme cloud-native, data-centric et scalable, au service des équipes data de plusieurs géographies, notamment la France, la Belgique et l’Australie.

Le Core Model du programme repose sur un modèle de données unifié couvrant notamment les données clients, contrats et facturation. Le Lead Data Engineer intervient comme référent technique de la data platform, avec une responsabilité complète sur l’architecture, le delivery et la qualité des données.

Stack technique

Data Platform : Databricks (lakehouse), Amazon S3, Amazon Managed Apache Flink
Gouvernance des données : Unity Catalogue, Collibra
Visualisation : Power BI
Cloud : AWS
Streaming : Confluent Kafka
Langages : Python, SQL
IA & coding : GitHub Copilot, Claude Code, outils LLM
Collaboration : Jira, Confluence, SonarQube

Missions principales

Stratégie & Architecture Data

Définir l’architecture de la data platform greenfield (lakehouse, zones bronze/silver/gold, data contracts)
Co-construire le Core Data Model commun aux différentes géographies tout en intégrant les spécificités locales
Mettre en place la gouvernance des données, la qualité et l’observabilité
Répondre aux besoins analytiques et fonctionnels des équipes métier via une approche de type catalogue as a service

Leadership & Delivery

Être le référent technique data du programme
Choisir les partenaires et structurer une feature team de 5 à 6 personnes
Assurer la responsabilité end-to-end des pipelines, de l’ingestion à la restitution
Gérer le monitoring, la performance et l’optimisation FinOps des workloads data
Mettre en place les pratiques DataOps : automatisation des tests, CI/CD data, infrastructure as code

IA & Vélocité

Exploiter GitHub Copilot, Claude Code ou équivalents pour accélérer le développement des pipelines et modèles
Intégrer des cas d’usage IA/ML dans la data platform, incluant data science, feature store et jeux de données prêts pour les LLM
Automatiser la génération de code, les tests de qualité des données et la documentation
Conserver la maîtrise technique tout en augmentant la vélocité grâce à l’IA

Profil recherché

Compétences indispensables

Expertise avancée Databricks, incluant Delta Lake, Unity Catalogue, Spark et workflows
Solide expérience AWS en environnement data, incluant S3, Glue, Kinesis ou Flink, IAM et sécurité cloud
Mindset IA natif avec usage actif de GitHub Copilot ou équivalent comme outil principal de développement
Maîtrise experte de Python, notamment PySpark, pandas et APIs
Expérience de conception d’une data platform from scratch
Culture DataOps : tests automatisés, CI/CD data, observabilité des pipelines
Approche lean et responsabilité end-to-end
Leadership et capacité à embarquer et structurer une équipe data

Compétences appréciées

Expérience Unity Catalogue et gouvernance des données à l’échelle
Connaissance de Confluent Kafka et du streaming
Familiarité avec Collibra ou équivalent
Expérience en data modelling dans un contexte B2C
Déploiements IA/ML en production, incluant MLflow, feature engineering et pipelines LLM
Expérience de contextes multi-pays ou de data platform cross-entités

Skills

AWSAWS GlueAWS IAMAWS KinesisAWS S3Claude CodeCollibraConfluent KafkaDatabricksDelta LakeFlinkGitHub CopilotJiraLakehouseLLMMLflowPandasPower BIPythonPySparkSparkSQLSonarQubeUnity Catalogue

Don't send a generic resume

Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.

Get started free