Data Engineer
Hexateam
About the role
📢 Offre d’emploi – Data Engineer (Databricks / AWS)
Localisation : [Ville / Télétravail] – Type de contrat : CDI – Expérience : 3 à 7 ans
🎯 Contexte & enjeux
Dans le cadre de notre forte croissance, nous recherchons un(e) Data Engineer capable de concevoir, développer et maintenir des pipelines de données robustes sur Databricks (AWS). Vous interviendrez sur l’ingestion, la transformation et la fiabilité des données, en assurant la mise à disposition d’un Data Lake performant (S3 / Delta Lake) pour les équipes data et business.
🚀 Missions principales
| Domaine | Actions clés |
|---|---|
| Développement & ingestion | • Concevoir et coder des pipelines Python + Spark sur Databricks. • Mettre en place les flux d’ingestion depuis des sources externes (ex. : Oracle) vers le Data Lake (S3/Delta Lake). • Optimiser les traitements (partitionnement, caching, broadcast joins, etc.) pour réduire les temps d’exécution et les coûts. |
| Orchestration & qualité | • Orchestrer les workflows avec AWS Airflow (DAGs, dépendances, retries). • Implémenter des contrôles qualité (tests de schéma, contraintes d’unicité, métriques de complétude). • Développer des outils de monitoring (CloudWatch, DBR‑Metrics, alerting) et de gestion des anomalies. |
| MCO (Maintien en Condition Opérationnelle) | • Garantir la disponibilité et la performance des pipelines (SLA / SLI). • Diagnostiquer, analyser et corriger les incidents (logs, traces, Spark UI). • Contribuer à l’amélioration continue (refactoring, automatisation, documentation). |
| Contribution & partage | • Animer les ateliers techniques avec les équipes Data, DevOps et Métiers. • Documenter les pipelines, architectures et bonnes pratiques (Confluence, README, diagrammes). • Promouvoir les standards Data & Big Data (naming, versionning, tests). |
👤 Profil recherché
| Expérience | 3 à 7 ans en Data Engineering, idéalement sur des projets Cloud (AWS). |
|---|---|
| Compétences techniques obligatoires | • Python (pandas, pySpark, boto3) • Apache Spark (optimisation, Structured Streaming) • Databricks (notebooks, Jobs, Delta Lake) • SQL (analytique, performance tuning) |
| Compétences techniques requises | • AWS : S3, Glue, Airflow, Lambda, IAM, CloudWatch • CI/CD : Git / GitLab (pipelines) • Gestion de projet : JIRA, Confluence, Méthodologie Agile (Scrum) |
| Certifications obligatoires | • Databricks Data Engineer Associate ou Professional (certification à jour). |
| Qualités attendues | • Rigueur & sens du détail (qualité des données). • Esprit d’équipe & bonnes capacités de communication. • Proactivité dans la résolution d’incidents et l’amélioration continue. |
📄 Processus de recrutement
- Entretien RH – Présentation du poste, de la culture d’entreprise et des attentes.
- Technical Screening – Questions sur Python/Spark, design de pipelines, optimisation et bonnes pratiques AWS.
- Case Study / Live Coding – Construction d’un mini‑pipeline d’ingestion (Oracle → S3 → Delta Lake) avec Airflow.
- Entretien avec le manager – Approche produit, priorisation, gestion d’incidents.
- Validation de la certification Databricks (si non déjà fournie).
📌 Pourquoi nous rejoindre ?
- Projets à forte valeur ajoutée : vous travaillerez sur des volumes de données critiques pour la prise de décision.
- Environnement Cloud moderne : Databricks, AWS, CI/CD – vous avez la liberté d’expérimenter les dernières technologies.
- Culture d’apprentissage : budget formation, certifications, conférences (Spark‑Summit, Databricks Days).
- Équipe agile & collaborative : scrum, daily stand‑ups, rétrospectives orientées amélioration continue.
📧 Candidature
Envoyez votre CV, votre certification Databricks et une lettre de motivation (max 300 mots) à recrutement@votreentreprise.com avec l’objet « Data Engineer – Databricks AWS ».
🔧 Exemple de questions d’entretien (pour vous préparer)
| Thème | Questions possibles |
|---|---|
| Python / Spark | • Comment éviter les “shuffle” inutiles dans un job Spark ? • Expliquez la différence entre DataFrame.persist(StorageLevel.MEMORY_AND_DISK) et cache(). |
| Databricks | • Quels sont les avantages de Delta Lake par rapport à un simple parquet ? • Comment mettre en place le “job‑cluster” vs “all‑purpose‑cluster” et quand choisir l’un ou l’autre ? |
| AWS | • Décrivez le rôle d’AWS Glue dans un pipeline d’ingestion. • Comment sécuriser l’accès à un bucket S3 depuis Databricks ? |
| Airflow | • Comment gérer les dépendances dynamiques entre les tâches ? • Que fait le paramètre retries et comment le combiner avec retry_delay ? |
| Qualité & Monitoring | • Quels types de tests automatisés mettez‑vous en place pour valider un pipeline ? • Comment alerter en cas de “data drift” ou d’anomalie de volume ? |
| MCO | • Décrivez votre démarche de post‑mortem après un incident de pipeline. • Quels KPI suivez‑vous pour mesurer la santé d’un pipeline ? |
Prêt(e) à relever le défi ?
Rejoignez‑nous et participez à la construction d’une plateforme data fiable, scalable et orientée business.
Cette offre est confidentielle et réservée aux candidats qualifiés.
Skills
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free