B
Data Engineer – KI-Anwendungsentwicklung und Datenanalyseplattformen (m/w/d)
Bundesdruckerei-Gruppe
On-site 2w ago
About the role
About
Zum nächstmöglichen Zeitpunkt suchen wir Sie als Data Engineer – KI-Anwendungsentwicklung und Datenanalyseplattformen für den Standort Berlin.
Responsibilities
- Verantwortung, Implementierung und Betrieb der Dateninfrastruktur in einem Softwareentwicklungsprojekt zur Realisierung eines KI-Assistenten für den öffentlichen Sektor
- Anbindung weiterer Datenquellen an den KI-Assistenten
- Verantwortung für den Entwurf und die (Weiter-)Entwicklung von komplexen anwendungsfallspezifischen Dateninfrastrukturen, Datenarchitekturen und Datenmodellen auf einer Datenanalyseplattform für Endkunden
- Entwurf, Entwicklung, Test und Monitoring von Prozessen zur Extraktion, Transformation und Laden von Daten aus Quellsystemen in Data Warehouse, Data Lake (ETL/ELT-Pipelines) und Data Lakehouse
- Gestaltung automatisierter Qualitätsprozesse zur Sicherstellung der Software- und Datenqualität sowie der Datenverfügbarkeit zur Einhaltung von Service Level Agreements
Requirements
- Erfolgreich abgeschlossenes Studium der (Wirtschafts-)Informatik, Mathematik, Statistik oder eines vergleichbaren Studiengangs, alternativ eine Ausbildung in einem entsprechenden IT-Bereich mit relevanter Berufserfahrung
- Fundierte Berufserfahrung in der Mitarbeit an (agilen) Projekten und Produkten im Kontext Data Engineering
- Tiefgehende praktische Kenntnisse in der Python- und SQL-Entwicklung (PostgreSQL) sowie in Softwareentwicklungsstandards, Best Practices und Testing (Unit-Tests, Testframeworks, Mocking)
- Fortgeschrittenes Fachwissen in Bezug auf Datenprozesse (z. B. ETL-Tools wie Apache Airflow, Argo Workflows und dbt), Data Warehousing und Datenmodellierung/-architektur sowie in Datenschnittstellen/APIs (u. a. REST, MQTT)
- Praxis im Betrieb von Dateninfrastrukturen, Containerisierung, Kubernetes (Red Hat OpenShift), CI/CD (GitLab), Infrastructure as Code (IaaC, z. B. ArgoCD), Linux und Bash
- Erfahrungen bei der Implementierung von KI-Anwendungen und RAG-Systemen sowie in der Nutzung von Vektordatenbanken (z. B. pgvector) und der Anbindung und Nutzung der Schnittstelle von Atlassian Confluence sind wünschenswert
- Ausgeprägte analytische Fähigkeiten, strukturierte und lösungsorientierte Arbeitsweise sowie hohe Eigenständigkeit und Verantwortungsbewusstsein
- Sehr gute Kommunikationsfähigkeit, Teamorientierung, Innovationsbereitschaft sowie sehr gute Deutsch- und Englischkenntnisse (mindestens B2-Niveau)
Requirements
- Fundierte Berufserfahrung in der Mitarbeit an (agilen) Projekten und Produkten im Kontext Data Engineering
- Tiefgehende praktische Kenntnisse in der Python- und SQL-Entwicklung (PostgreSQL) sowie in Softwareentwicklungsstandards, Best Practices und Testing (Unit-Tests, Testframeworks, Mocking)
- Fortgeschrittenes Fachwissen in Bezug auf Datenprozesse (z. B. ETL-Tools wie Apache Airflow, Argo Workflows und dbt), Data Warehousing und Datenmodellierung/-architektur sowie in Datenschnittstellen/APIs (u. a. REST, MQTT)
- Praxis im Betrieb von Dateninfrastrukturen, Containerisierung, Kubernetes (Red Hat OpenShift), CI/CD (GitLab), Infrastructure as Code (IaaC, z. B. ArgoCD), Linux und Bash
Responsibilities
- Verantwortung, Implementierung und Betrieb der Dateninfrastruktur in einem Softwareentwicklungsprojekt zur Realisierung eines KI-Assistenten für den öffentlichen Sektor
- Anbindung weiterer Datenquellen an den KI-Assistenten
- Verantwortung für den Entwurf und die (Weiter-)Entwicklung von komplexen anwendungsfallspezifischen Dateninfrastrukturen, Datenarchitekturen und Datenmodellen auf einer Datenanalyseplattform für Endkunden
- Entwurf, Entwicklung, Test und Monitoring von Prozessen zur Extraktion, Transformation und Laden von Daten aus Quellsystemen in Data Warehouse, Data Lake (ETL/ELT-Pipelines) und Data Lakehouse
- Gestaltung automatisierter Qualitätsprozesse zur Sicherstellung der Software- und Datenqualität sowie der Datenverfügbarkeit zur Einhaltung von Service Level Agreements
Skills
Apache AirflowArgoCDArgo WorkflowsBashCI/CDContainerisierungConfluenceData LakeData WarehousedbtGitLabInfrastructure as CodeKubernetesLinuxMQTTOpenShiftPostgreSQLPythonRAGRESTSQLVektordatenbanken
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free