CV de Data Scientist en France 2026 : ce que cherchent vraiment Doctolib, Criteo, Datadog et les équipes data des grands groupes

Le marché Data Scientist en France est devenu sophistiqué. Doctolib, Criteo, Datadog (équipe France), Mirakl, Qonto, Alan recrutent en volume. Les grands groupes (BNP, Sanofi, AXA, Engie) ont tous des équipes data internes aujourd'hui. Avec ce volume vient une exigence : les CV génériques "Data Scientist · Python · ML" ne passent plus l'ATS - Applicant Tracking System, parce que le marché s'est segmenté en sous-rôles que les moteurs notent différemment.

Ce guide décrit ce que Workday et Greenhouse cherchent réellement pour les rôles data en France en 2026, et comment construire un CV qui ne se fait pas filtrer faute de spécialisation.

La segmentation que la plupart des CV ignorent

"Data Scientist" en 2026 ne désigne plus un seul métier. Workday's parser tag les CV dans l'une de ces sous-catégories selon les mots-clés présents :

Data Analyst — SQL, Tableau / Looker / Power BI, dashboards, ad-hoc analysis
Data Engineer — Airflow, dbt, Snowflake, BigQuery, Spark, pipelines
Data Scientist (Product/Marketing) — A/B testing, causal inference, experimentation
Machine Learning Engineer — production ML, feature stores, model serving, MLOps
ML Researcher — papers, novel architectures, frontier research

Si votre CV cite des mots-clés des 5 sous-rôles, votre CV ne match aucun fortement. Workday vous classe dans le sous-rôle dominant et les autres mots-clés deviennent du bruit. Choisissez votre angle et appuyez dessus.

Les mots-clés que les ATS pondèrent en 2026

Les fiches de poste data en France évoluent. Voici les mots-clés actuellement les plus pondérés par Workday et Greenhouse, selon notre échantillonnage de 200+ JDs - Job Descriptions sur le marché français en Q1 2026.

Data Scientist Product/Growth

Causal inference — pondéré x2 vs il y a 3 ans
Experimentation platform / A/B testing infrastructure — chez Doctolib, Mirakl, Qonto
Bayesian inference, bandit algorithms — pondéré pour Criteo, Voodoo
Counterfactual analysis — apparaît dans ~30% des fiches Senior
Product analytics (Amplitude, Mixpanel) — must-have

Machine Learning Engineer

Feature store (Feast, Tecton)
Model serving (BentoML, KServe, Triton)
Real-time inference vs batch
Vector databases (Pinecone, Weaviate, pgvector)
LLM fine-tuning, RAG, agent frameworks

Data Engineer

dbt (Data Build Tool) — became standard
Airflow ou Dagster
Snowflake ou BigQuery ou Databricks — un de ces trois quasi systématiquement
Lakehouse architecture, medallion (bronze/silver/gold)
Data contracts, schema evolution

Les CV qui n'utilisent pas ces termes spécifiques scorent bas même si le candidat a fait le travail. L'ATS ne sait pas que vous saviez : il sait seulement ce que vous écrivez.

Le pitfall français : trop de "soft skills" en haut

Beaucoup de CV data français commencent par un paragraphe de présentation type :

❌ "Data scientist passionné par la valorisation de la donnée, doté d'une excellente capacité analytique et d'un bon esprit d'équipe."

Cette phrase a zéro valeur sémantique pour Workday. Et pour le recruteur humain qui scanne en 6 secondes, elle ne dit rien que vos lignes d'expérience ne diraient mieux.

Remplacez par un Summary technique :

✅ "Data scientist · 5 ans · ML production en e-commerce (Mirakl, 2.4Md GMV) · spécialisé experimentation et causal inference · Python/PyTorch/dbt · papers acceptés ICLR Workshop 2024."

Ce summary contient 11 mots-clés ATS valorisés et 2 signaux de seniority (volume GMV, paper accepté). Différence de score Greenhouse : ~25 points.

Quantifier les bullets data — la question du "quoi quantifier"

Les Data Scientists ont du mal à quantifier autrement que par "amélioré le modèle de X%". Élargissez :

Volume traité : "Pipeline traitant 80M events/jour"
Latence d'inférence : "Modèle servant 8K req/s à p99 = 35ms"
Impact business : "Modèle de churn → 4.2M€ ARR retenue annuelle"
Adoption interne : "Notebook publié → 180 vues internes / 40 forks dans 6 semaines"
Réduction de temps : "Dashboard ad-hoc remplacé par self-service → -12h/semaine pour l'équipe data"
Qualité de prédiction : "Précision @top-10 passée de 0.42 à 0.61 sur dataset de 1.2M users"

iCIMS et Lever pondèrent fortement les bullets quantifiés. Un bullet data avec 2 chiffres bat 3 bullets descriptifs.

Les mentions techniques qui aident l'ATS

Soyez explicite sur les versions et les modules. Workday matche les chaînes exactes :

❌ "Python machine learning"
✅ "Python (pandas 2.x, polars, scikit-learn, PyTorch 2.x), Jupyter, MLflow"
❌ "Cloud expérience"
✅ "AWS (S3, EMR, SageMaker, Lambda), GCP (BigQuery, Vertex AI)"
❌ "SQL"
✅ "SQL avancé (window functions, CTE récursives), dbt, BigQuery / Snowflake / Postgres"

Listez les outils qui apparaissent dans la fiche de poste cible dans la même casse et ordre quand vous les avez utilisés. C'est le levier le plus simple pour gagner 10+ points de score Workday.

Doctorat / thèse : à mentionner ou pas ?

En France, ~25% des Data Scientists en équipe produit ont un PhD. Si c'est votre cas :

✅ Mentionner dans Education : "PhD in Statistics, ENS Paris-Saclay (2022) — thesis on Bayesian inference for sparse high-dimensional data"
✅ Lier la thèse à un Github / preprint si publique
❌ Ne pas créer une section "Recherche académique" séparée si vous postulez à un poste produit — ça déconnecte votre profil du focus produit

À l'inverse, si vous postulez à un rôle de ML Researcher, la section "Publications" devient critique. Format APA, lien arXiv pour chaque paper.

Languages section : technique, pas linguistique

Au-delà des langues humaines, ajoutez explicitement vos langues de programmation comme catégorie distincte si l'ATS le détecte :

Languages
- Programming: Python (expert), SQL (expert), R (intermediate), Scala (basic)
- Spoken: French (native), English (C1), Spanish (B1)

Workday tag les deux séparément quand la mise en page est claire. Avantage : votre CV match les fiches qui demandent "fluent in English and French".

Tester votre CV

L'analyseur gratuit donne des scores Workday, Greenhouse, Lever et Taleo. Pour les profils data, l'analyseur identifie en plus quelles compétences techniques sont absentes par rapport à votre rôle cible. Tout tourne dans votre navigateur (DevTools → Network le confirme).

Le marché data français en 2026 récompense la spécialisation explicite. Un CV ciblé sur un sous-rôle scoré sur 12 mots-clés battra un CV "généraliste" qui couvre 30 mots-clés en surface.