CORLAY, M. Maxime (2025) Efficacité des Paramètres dans les Grands Modèles de Language : Etude sur le Pruning et les Attention Sinks PFE - Projet de fin d'études, ENSTA.
Aucun fichier n'a encore été téléchargé pour ce document.
Résumé
Les grands modèles de langage (Large Language Models, LLMs) contiennent des milliards de paramètres et opèrent dans des espaces latents de plusieurs milliers de dimensions. Leur taille considérable entraîne des besoins importants en mémoire et en calcul lors de l'inférence. Cela soulève la question de savoir si tous les paramètres sont effectivement utilisés. Des travaux récents ont identifié des attention sinks, un phénomène où certains tokens spécifiques (appelés sink tokens) reçoivent systématiquement des poids d'attention disproportionnés. Nous étudions les mécanismes sous-jacents et explorons leur potentiel pour la compression de modèles. Nous remarquons que certaines têtes d'attention produisent systématiquement des attention sinks lorsque des sink tokens sont présents, ce que nous appelons têtes sink-spécialisées. En nous appuyant sur des travaux antérieurs, nous observons que les attention sinks résultent de la norme inhabituellement élevée et de la sparsité des sink tokens. En particulier, nous nous concentrons sur le token de début de séquence (BOS). Nous proposons une approche d'élagage ciblé : nous identifions les composantes de plus forte magnitude des représentations BOS et ne conservons que les colonnes correspondantes dans les matrices de projection clé et requête des têtes sink-spécialisées (les autres colonnes sont mises à zéro). Malgré cet élagage agressif, nous constatons que les motifs d'attention sont bien préservés, comme en témoigne la faible erreur de reconstruction de Frobenius. Ensuite, nous évaluons cette approche en appliquant l'élagage simultanément sur plusieurs couches. Nos expériences sur Llama-2-7B indiquent qu'une sélection soigneuse des couches permet de conserver 91 % de la précision, tout en ne gardant que k=10 composantes par tête sink-spécialisée. Nos résultats révèlent le rôle critique des caractéristiques BOS de forte magnitude dans la formation des attention sinks. Notamment, les attention sinks peuvent être reconstruits efficacement en utilisant seulement un petit sous-ensemble de ces caractéristiques, suggérant des pistes prometteuses pour la compression de modèles basée sur l'attention.
Type de document: | Rapport ou mémoire (PFE - Projet de fin d'études) |
---|---|
Mots-clés libres: | Large Language Model (LLM), Attention Sink, Pruning, Emergent Large Magnitude Features (ELMF), Sink-Specialized Heads |
Sujets: | Sciences et technologies de l'information et de la communication Mathématiques et leurs applications |
Code ID : | 10853 |
Déposé par : | Maxime CORLAY |
Déposé le : | 13 oct. 2025 09:51 |
Dernière modification: | 13 oct. 2025 09:51 |