AYMONIER, M. Maloe (2025) Vers une Nouvelle Architecture de LLM : Viabilité de l’Adaptation de Petits Modèles de Langage à des Domaines Spécifiques PRE - Projet de recherche, ENSTA.
Fichier(s) associé(s) à ce document :
![]()
| PDF 1536Kb |
Résumé
Ce rapport présente les travaux de recherche effectués dans la période de Mars à Juin 2025 au X-Lance de L’université Jiao-Tong de Shanghai. J’ai rejoint pendant ce stage une équipe de recherche tout juste formée, travaillant sur un projet visant à construire un grand modèle de langage (LLM) basé sur une architecture de Mélange d’Experts (MoE) afin d’en réduire les coûts d’inférence. La mission s’est concentrée sur l’ingénierie de données pour la création de petits modèles experts spécialisés. Plusieurs approches ont été explorées, suivant différents résultats de recherche récents : une première tentative de génération de données par auto-instruction (Self-Instruct) sur des problèmes mathématiques s’est heurtée à la difficulté de valider les réponses générées, ainsi qu’à un problème plus fondamental vis à vis du type de données. Une seconde méthode, basée sur la génération de scripts Python paramétrables à partir du dataset gsm8k, a été développée. Les tentatives de Fine-Tuning Supervisé (SFT) d’un modèle Qwen sur ces données ont révélé d’importants défis techniques d’intégration et des résultats peu concluants. En conséquence, le projet a été réorienté vers une approche de pré-entraînement continu (CPT) sur des corpus thématiques.
Type de document: | Rapport ou mémoire (PRE - Projet de recherche) |
---|---|
Mots-clés libres: | Grand Modèle de Langage (LLM), Mélange d’Experts (MoE), FineTuning Supervisé (SFT), Ingénierie de Données, Auto-Instruction (Self-Instruct), Pré-entraînement Continu (CPT) |
Sujets: | Sciences et technologies de l'information et de la communication |
Code ID : | 10529 |
Déposé par : | Maloë AYMONIER |
Déposé le : | 20 août 2025 14:13 |
Dernière modification: | 20 août 2025 14:13 |