Data Engineer stagiaire
SoftNext
About the role
À propos de SoftNext
SoftNext, plateforme tech et logiciels BtoB, engagée sur le long terme.
En reprenant des éditeurs à fort potentiel, SoftNext les accompagne dans leurs projets et continue ainsi son développement par croissance externe et organique.
En tant que partenaire des entrepreneurs et des cédants, SoftNext opère une poursuite de leur projet, tout en les intégrant à une communauté d’experts. SoftNext, renforce chaque nouvelle acquisition en les adossant à ses différents pôles d’expertise (Retail, Tourisme loisir & culture, Telecom, Média, etc.)
Dans le cadre de son développement, SoftNext recherche un(e) stagiaire pour nous accompagner à partir de Mai 2025 pour une durée de 6 mois minimum
Contexte de la mission
Dans un contexte de forte croissance externe, SoftNext souhaite franchir un cap dans le pilotage data de ses 70 entités. L'objectif : consolider la donnée financière, business et RH dans un Datalake centralisé sur Microsoft Fabric pour gagner en visibilité, en réactivité et en fiabilité à l’échelle du groupe. En tant que Data Engineer stagiaire, vous serez au cœur de ce projet fondateur. Vous ne venez pas « aider » — vous êtes garant(e) de la fiabilité et de la pérennité des pipelines de données qui alimenteront toute la BI du groupe.
Votre mission
Votre rôle est de construire et maintenir la dataplateforme du groupe sur Microsoft Fabric, en architecture Medallion. Concrètement, cela se traduit par :
1 · Ingestion — connecter les 70 entités (couche Bronze)
- Cartographier les sources de données (financières, business, RH) de chaque filiale : formats, fréquences, volumes, systèmes d’information en place.
- Développer des pipelines d’ingestion (Data Factory, Notebooks Spark) pour rapatrier la donnée brute dans le Lakehouse, sans transformation, avec traçabilité complète.
- Évaluer au cas par cas l’opportunité de déléguer l’ingestion à des connecteurs managés (Fivetran, Airbyte) quand c'est plus pertinent que du développement custom — et assumer ce choix technique.
2 · Nettoyage et normalisation (couche Silver)
- Construire les notebooks de transformation qui nettoient, normalisent, dédupliquent et alignent les schémas entre filiales.
- Faire en sorte que la donnée devienne comparable et exploitable d'une entité à l’autre, malgré l’hétérogénéité des SI sources.
- Mettre en place des contrôles de qualité systématiques (freshness, complétude, cohérence inter-filiales).
3 · Modélisation métier (couche Gold)
- Créer les notebooks de transformation avancée où l’on vient ajouter de l’intelligence métier : agrégations, calculs de KPIs, règles de gestion groupe.
- Produire des modèles prêts à consommer par Power BI et les équipes de direction (indicateurs financiers, métriques business, tableaux de bord RH).
- Itérer avec le Responsable BI pour que les modèles Gold répondent précisément aux besoins analytiques du management.
4 · Gouvernance et coûts
- Surveiller la consommation de Capacity Units (CU) et optimiser en continu (partitionnement, scheduling intelligent, choix entre Dataflow Gen2 et Notebooks selon le cas d'usage) pour que la plateforme reste économiquement viable à mesure que le groupe grandit.
- Rédiger une documentation technique claire (dictionnaire de données, schémas d’architecture, runbooks) pour assurer la transmission et la maintenabilité.
Évolution du périmètre
Le cœur du poste est l’ingestion et la transformation de la donnée. Mais selon votre montée en compétences et l’avancement du projet, le scope pourra s’élargir à :
- Recueil des besoins auprès des dirigeants de pôles — aux côtés du Responsable BI, rencontrer les 20+ dirigeants, recueillir leurs besoins, présenter des dashboards, itérer sur les feedbacks et construire un langage commun autour de la donnée à l’échelle du groupe.
- La création de dashboards Power BI à destination des dirigeants et du management.
- L’accompagnement du Responsable BI / Rev Ops sur des sujets systèmes d’information : harmonisation des CRM, mise en place de process communs aux filiales, amélioration des remontées de données à la source. L’idée est simple : plus la donnée est bien captée en amont dans les outils métier, plus le Datalake est fiable en aval. Vous aurez l’opportunité de travailler sur toute la chaîne.
Profil recherché
Formation
- Dernière année d’école d’ingénieur ou Master 2 spécialisé en Data Engineering, Big Data, BI ou informatique décisionnelle.
Compétences techniques
- Bonne maîtrise de SQL et de Python. Excel + Power BI (DAX) apprécié
- Compréhension des architectures data modernes (Lakehouse, Medallion, ELT).
- Sensibilité à la gouvernance des données et à l’optimisation des coûts cloud.
Qualités humaines
- Rigueur et sens de la responsabilité — vous serez garant(e) de la donnée du groupe, pas simple exécutant(e).
- Autonomie et débrouillardise — 70 entités signifie 70 contextes différents ; vous devrez investiguer, poser les bonnes questions, et avancer.
- Communication — savoir parler à un dirigeant de pôle comme à un développeur, présenter un dashboard, et documenter clairement pour ceux qui viendront après vous.
- Curiosité — envie de comprendre ce que la donnée raconte (finance, RH, business), pas seulement de la déplacer.
Pour postuler : envoyer CV + quelques lignes sur votre motivation et ce que vous avez déjà construit (projets perso, stages, Kaggle, contributions open-source…).
Rémunération du stage : oui
Skills
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free