CHEN, M. Marc (2025) Veolia et la Donnée : Un parcours transversal entre Data Engineering, Data Science et Métiers de la Data PFE - Projet de fin d'études, ENSTA.

Fichier(s) associé(s) à ce document :

[img]
Prévisualisation
PDF
5Mb

Résumé

Ce rapport d’alternance retrace mon parcours au sein de Veolia, où j’ai successivement intégré les équipes Application Data Analytics, Dataplatform et Data Science. À travers ces trois expériences, j’ai développé un large éventail de compétences, allant de la définition du besoin métier à l’industrialisation de solutions de Data Science. La première partie détaille la mise en œuvre de flux de données de bout en bout, comme pour le projet Rydoo, illustrant la collaboration avec les métiers pour répondre à des besoins de reporting et d’analyse. La seconde partie se concentre sur des missions de Data Engineering au sein de la Dataplatform, où j’ai contribué à la gestion de l’infrastructure sur Google Cloud via Terraform, à l’amélioration des chaînes de CI/CD et à l’orchestration de pipelines avec Airflow. Un développement notable fut la création d’un opérateur déférable personnalisé pour optimiser l’utilisation des ressources. J’y aborde également la mise en place de contrôles de qualité et de gouvernance des données avec dbt. La dernière partie est consacrée à mon expérience en Data Science, marquée par une contribution significative au projet \textit{Fourth}, un package Python pour l’analyse de séries temporelles. Mes travaux ont porté sur la fiabilisation du code, le développement d’une API avec FastAPI, la création d’un client Python et l’enrichissement fonctionnel de l’outil. Enfin, le rapport propose une analyse réflexive sur les stratégies d’apprentissage, les enjeux organisationnels tels que le \textit{rightshoring} et les choix technologiques, ainsi que l’impact de l’IA générative sur ma productivité.

Type de document:Rapport ou mémoire (PFE - Projet de fin d'études)
Mots-clés libres:Data Engineering, Data Science, MLOps, Google Cloud Platform, Python, Airflow, dbt, Terraform, CI/CD, Infrastructure as Code, Time Series, API, FastAPI, Data Quality, Agile, Gouvernance des données, Automatisation
Sujets:Sciences et technologies de l'information et de la communication
Code ID :10747
Déposé par :Marc CHEN
Déposé le :06 oct. 2025 17:07
Dernière modification:06 oct. 2025 17:07

Modifier les métadonnées de ce document.