Data Engineer Senior - R&D

  • CDI
  • Temps plein
  • Au moins 5 ans d'expérience
  • Master, Bac+5
  • Informatique / Systèmes d’information

Contexte

Fondée en 1969, Cegedim est une entreprise innovante de technologies et de services spécialisée dans la gestion des flux numériques de l’écosystème santé et BtoB, ainsi que dans la conception de logiciels métier destinés aux professionnels de santé et de l’assurance. Cegedim compte plus de 6 700 collaborateurs dans plus de 10 pays et a réalisé un chiffre d’affaires de 654 millions d’euros en 2024. 

GERS Data est la référence française des données pharmaceutiques, filiale du Groupe Cegedim. Nos plateformes alimentent les outils de pilotage commercial, les études épidémiologiques et les entrepôts de données de santé utilisés par les plus grands laboratoires français et européens.

Vous rejoindrez une équipe d’ingénierie Data en pleine transformation, au cœur du passage vers des architectures modernes : Data Platform cloud-native, pipelines scalables.

Missions

En tant que Data Engineer Senior, vous êtes un pilier technique de la Data Platform de GERS Data. Vos responsabilités couvrent l’ensemble du cycle de vie de la donnée :

  • Concevoir, développer et maintenir des pipelines de données robustes et scalables (ETL/ELT) depuis les sources LGO officinales jusqu’aux datamarts métier
  • Architecturer et optimiser les entrepôts de données (SQL Server, ClickHouse) : modélisation, partitionnement, indexation, performance des requêtes
  • Orchestrer les flux de traitement avec Apache Airflow : définition des DAGs, gestion des dépendances, monitoring et alerting
  • Contribuer à la qualité des données : implémenter des systèmes de détection d’anomalies, de scoring de fiabilité et de réconciliation sur les flux journaliers
  • Participer à la stratégie de migration et d’évolution de la plateforme data (Elasticsearch → ClickHouse, SQL Server, cloud)
  • Collaborer étroitement avec les Product Managers et les équipes d’analyse pour traduire les besoins métier en solutions techniques
  • Contribuer à la culture d’ingénierie : revues de code, documentation, pair programming, mentorat des profils juniors

Environnement technique

  • Bases de données : SQL Server, ClickHouse, Elasticsearch
  • Orchestration : Apache Airflow
  • Langages : Python, SQL, TypeScript/Node.js
  • Infra : Docker, Kubernetes, CI/CD GitLab
  • Outils : Git, Jira, Confluence

Ce que nous offrons

  • Un rôle clé dans la modernisation d’une Data Platform traitant des milliards de lignes de données pharmaceutiques
  • Un environnement technique exigeant et stimulant, avec une vraie autonomie
  • Une équipe R&D structurée (Développement, Data Engineering, Product, UX/UI)
  • La sécurité d’un grand groupe (Cegedim) avec l’agilité d’une équipe produit
  • Télétravail partiel, équipement de qualité, mutuelle, tickets restaurant, primes (intéressement, vacances).

Profil

Vous êtes un ingénieur Data expérimenté, à l’aise aussi bien sur les aspects bas niveau (SQL, optimisation) que sur l’architecture globale des systèmes de données.

  • De formation Bac +5 en Ecole d'ingénieur ou Master Big Data ou équivalent
  • Une expérience de 5 ans minimum sur des missions de Data Engineering (sans compter des stages ou alternances)

Compétences techniques

  • SQL avancé : optimisation de requêtes complexes, procédures stockées, tuning sur SQL Server et/ou ClickHouse
  • Python maîtrisé : développement de pipelines, scripting, manipulation de données (pandas, polars, sqlalchemy)
  • Orchestration : Apache Airflow (DAGs, XComs, pools, connexions)
  • Modélisation : expertise DWH et datamart (schémas étoile/flocon, conception de datamarts métier, gestion de l’historisation)
  • Conteneurisation et CI/CD : Docker, Git, pipelines de déploiement
  • Notions Kubernetes appréciées (déploiement, sizing, monitoring)

Soft skills

  • Rigueur et sens de la qualité de la donnée
  • Autonomie et capacité à prendre des décisions techniques
  • Curiosité et capacité d’adaptation dans un environnement en évolution rapide
  • Bon communicant, capable d’échanger avec des profils non techniques.

Compétences

Python
Git
CI/CD
SQL Server
clickhouse
Apache Airflow
CI/CD
Docker
Kubernetes