C
Data Engineer
Collective.work
Paris · On-site Contract Senior 2w ago
About the role
Description du poste
Dans le cadre d'un besoin d'un de ses clients, Visian recherche un Data Engineer.
Expertise opérationnelle sur les plateformes Data/IA
- Challenger et améliorer concrètement les plateformes Dagster (orchestration) et Trino (requêtage distribué) : diagnostiquer les problèmes de performance, optimiser les configurations, revoir les patterns d'utilisation.
- Concevoir et optimiser les pipelines d'ingestion et de processing de données basées sur Spark : performance des jobs, gestion des volumétries, stratégies de partitionnement et formats de stockage (Delta Lake, Iceberg).
- Intervenir directement sur les évolutions techniques pour accompagner la montée en charge (volumétrie, nombre d'utilisateurs, complexité des pipelines).
- Contribuer à la gouvernance technique par la pratique : établir les standards à partir de cas concrets, documenter les décisions techniques.
- Évaluer et prototyper l'intégration de nouveaux composants dans l'écosystème (formats de stockage, outils de catalogue, moteurs de calcul).
Industrialisation & Scalabilité
- Industrialiser les pipelines Data et IA/ML : fiabilité, observabilité, reproductibilité — en mettant en œuvre soi-même les solutions, pas uniquement en les spécifiant.
- Concevoir et implémenter les patterns de déploiement et d'exploitation à l'échelle en collaboration avec les équipes support et l'équipe d'ingénierie de production.
- Mettre en place concrètement les mécanismes de monitoring, d'alerting et de capacity planning adaptés aux workloads Data/IA.
- Structurer le support de niveau 3 (expertise) et accompagner l'équipe de production sur le support de niveaux 1 et 2.
Accompagnement & Montée en compétence
- Conseiller et accompagner les équipes de développement et de data science dans l'utilisation optimale des plateformes.
- Assurer un rôle de référent technique opérationnel au sein de l'équipe — par l'exemple et le pair-working, pas uniquement par le conseil.
- Participer à la veille technologique et réaliser des POCs sur des évolutions pertinentes pour l'écosystème Data/IA.
Environnement fonctionnel
La prestation se déroulera au sein du service en charge :
- Des plateformes Data & IA/ML (Dagster, Trino, Delta Lake/Iceberg, Superset, OpenMetadata)
- Des plateformes Kubernetes (on-prem et Cloud) servant de socle d'hébergement
- Des outils DevOps (intégration continue, déploiement, observabilité)
- Des projets de R&D visant à moderniser le SI (POCs, présentations)
- De l'accompagnement des initiatives IA/ML du groupe
- Des outils de monitoring
Environnement technique
- Data / Orchestration : Dagster, Trino, Apache Spark, Hive, Delta Lake/Iceberg, Superset, OpenMetadata
- IA / ML : Workloads IA/ML sur Kubernetes, outils MLOps
- Hébergement : Kubernetes (Rancher RKE on-prem, AKS Azure), Docker
- DevOps / Observabilité : ArgoCD, Jenkins, Grafana, Prometheus, Sysdig
- Langages : Python, Go
- Versioning / Stockage : GitLab, Artifactory, S3
Livrables attendus
- Mise en œuvre des sujets précités
- Recommandations techniques documentées sur Dagster, Trino et autres outils, appuyées sur des diagnostics concrets
- Plans de scalabilité et roadmap d'évolution du socle Data/IA
Profil recherché
Compétences indispensables
- Orchestration de données (Dagster ou équivalent) : Expert
- Moteur de requêtage distribué (Trino ou équivalent) : Expert
- Ingestion & processing de données (Apache Spark) : Maîtrise à Expert
- Écosystème Data/Big Data (Delta Lake/Iceberg, Hive) : Maîtrise à Expert
- Mise à l'échelle de plateformes Data en production : Expert
- Python : Maîtrise
- Systèmes Unix/Linux : Maîtrise
Compétences appréciées
- Conteneurisation (Docker) et orchestration (Kubernetes) : Maîtrise
- Plateformes cloud (Azure AKS) : Connaissance à Maîtrise
- Infrastructure as Code et GitOps : Connaissance à Maîtrise
- Outils MLOps / déploiement de modèles IA : Connaissance
- Développement applicatif (Go, Java) : Connaissance
Skills
AKSApache SparkArgoCDAzureDagsterDelta LakeDockerGitLabGoGrafanaHiveIcebergJenkinsKubernetesLinuxMLOpsOpenMetadataPrometheusPythonRancherSparkSupersetSysdigTrinoUnix
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free