AC
Data Engineer - Google Cloud Platform - Scripting Bash - Requêtes complexes SQL (IT) / Freelance
ARKAMA CS
France · On-site 3w ago
About the role
Conception, Développement et Optimisation de Pipelines de Données sur GCP
- Concevoir, développer et maintenir des pipelines robustes et performants de collecte, transformation et chargement de données à partir de diverses sources (Oracle, fichiers, APIs, etc.) vers BigQuery et d'autres destinations.
- Utiliser et orchestrer les services Google Cloud Platform (Dataflow, Dataproc, Cloud Composer/Airflow, Pub/Sub, Cloud Storage, BigQuery) pour construire des architectures de données scalables et fiables.
- Assurer l'automatisation des traitements, la gestion des dépendances et l'ordonnancement des jobs de données.
- Optimiser les performances des pipelines et la consommation des ressources GCP.
Modélisation et Gestion des Données
- Participer à la conception et à l'évolution des modèles de données dans BigQuery, en collaboration avec les Data Analysts et les équipes métier.
- Assurer la qualité, la cohérence et l'intégrité des données stockées et mises à disposition.
- Mettre en place et gérer des stratégies de versioning des schémas de données et de cycle de vie des données.
Run Opérationnel, Maintenance et Support N2/N3
- Assurer le support opérationnel de niveau 2/3 du produit Topase dans ensemble (GCP + Solution éditeur).
- Développer et maintenir des scripts Bash pour l'automatisation des tâches opérationnelles, la supervision des flux, l'extraction/transformation de données et les tâches de maintenance système.
- Écrire, optimiser et exécuter des requêtes SQL complexes pour l'analyse, la qualification, le diagnostic d'incidents, la manipulation et la restitution de données dans BigQuery et Oracle.
- Gérer les incidents en collaboration avec l'éditeur et les équipes internes.
- Participer à la qualification des livraisons de patchs éditeur impactant les flux de données.
- Gérer les incidents éditeur sur son CRM et participer aux ateliers de suivi.
Monitoring, Logging et Alerting des Données
- Mettre en place et maintenir des solutions de supervision spécifiques aux flux de données, à la qualité des données, aux performances des traitements et à l'utilisation des ressources GCP (Stackdriver, Grafana, Looker Studio).
- Définir et implémenter des alertes pertinentes pour détecter proactivement les anomalies de données ou de pipelines.
- Créer des dashboards visuels pour le suivi des KPI opérationnels et métier liés à la donnée.
Infrastructure as Code (IaC) pour la Data
- Participer à la définition et à l'implémentation de l'infrastructure de données (bases de données, services GCP) via des outils IaC (Terraform).
- Garantir la reproductibilité et la traçabilité des environnements de données (Dev, Recette, Pré-Prod, Prod).
Collaboration et Conseil
- Travailler en étroite collaboration avec les Data Scientists, Data Analysts, Product Owners et les équipes métier pour comprendre les besoins en données et proposer des solutions techniques adaptées.
- Conseiller sur les meilleures pratiques d'ingénierie des données, l'utilisation des services GCP et l'optimisation des architectures de données.
- Participer aux rituels Agile/Kanban de l'équipe produit.
Profil candidat
- Cloud Public (GCP): Expertise avérée et significative sur les services data de Google Cloud Platform (BigQuery, Dataflow, Cloud Storage, Pub/Sub, Cloud Composer/Airflow, Stackdriver, Data Catalog).
- Bases de données: Maîtrise avancée de SQL (requêtes complexes, optimisation), expérience avec BigQuery et Oracle 19. Connaissance d'autres bases de données (MySQL, PostgreSQL) est un plus.
- Scripting et Programmation: Maîtrise de Bash (indispensable pour le run opérationnel)
- Systèmes d'exploitation: Connaissances avancées de Linux (RedHat).
- IaC & Configuration Management: Maîtrise de Terraform pour la gestion d'infrastructures cloud.
- CI/CD: Expertise sur au moins un outil majeur (GitLab CI) pour l'automatisation des déploiements de code data.
- Monitoring & Logging: Expérience avec Stackdriver (GCP), Grafana, ELK Stack (Elasticsearch, Logstash, Kibana) et Looker Studio.
- Gestion de Versions: Maîtrise d?outils type Git (GitLab).
- Réseaux: Connaissances solides en réseau (TCP/IP, HTTP/S, DNS, Load Balancers, Firewalls) dans un environnement cloud.
- Concepts Data Engineering: Maîtrise des principes ETL/ELT, Data Warehousing, Data Lake, streaming de données.
Skills
BashBigQueryCloud ComposerCloud StorageData CatalogDataflowDataprocELK StackElasticsearchGitGitLab CIGrafanaGCPHTTP/SInfrastructure as CodeKibanaLinuxLogstashLooker StudioLoad BalancersMySQLOraclePostgreSQLPub/SubPythonRedHatSQLStackdriverTCP/IPTerraform
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free