LE BAIL, M. Mathis (2024) Extracting influential and interpretable concepts in the context of text classification with Large Language Models PFE - Projet de fin d'études, ENSTA.

Fichier(s) associé(s) à ce document :

[img]
Prévisualisation
PDF
5Mb

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus adoptés dans de nombreux cas d'utilisation dans le domaine de l'analyse et de la génération de texte. Récemment, leur déploiement dans des environnements industriels est apparu. Cependant, le manque d'explicabilité de ces approches concernant leur circuit de raisonnement entrave leur adoption plus générale dans des secteurs sensibles. En particulier, les modèles étant appelé à prendre des décisions telles que la classification dans des secteurs comme la défense ou la finance doivent être capables de fournir une explication fiable sur le raisonnement ayant amené à cette décision. Les réseaux de neurones sont des composants fondamentaux des grands modèles de langages (LLMs). Cependant, la compréhension de leurs activations internes est un défi et cela requiert une analyse en profondeur. Ce rapport introduit une pipeline permettant d'identifier et interpréter les concepts exploités par un modèle de langage pour résoudre une décision de classification. Nous enrichissons cette extraction de concepts avec une stratégie de sélection de features, une évaluation de causalité conjointe et un dispositif permettant d'assigner automatiquement une explication textuelle à chaque feature capturée. Notre approche s'appuie sur l'utilisation des "Sparse AutoEncoders" (SAEs) qui ont démontré un potentiel intéressant pour la découverte non-supervisée de features interprétables depuis des embeddings denses. Nous adaptons leur entrainement et leur processus d'évaluation dans le contexte d'un problème de classification. Nous fournissons également de nouvelles métriques pour évaluer notre pipeline. Nous montrons l'utilité de notre approche dans le cas pratique de l'étude d'un LLM avec une architecture "decoder-only". On fournit à celui-ci un prompt lui demandant de résoudre une tâche de classification sur le dataset {\rmfamily AG News}. Nos expériences montrent qu'il est possible d'identifier des directions pertinentes dans l'espace latent du modèle qui sont associées à des notions causales et interprétables plus nuancées que les grandes catégories parmi lesquelles le modèle doit choisir. De plus, nous utilisons les concepts extraits avec le SAE pour deux nouvelles applications pratiques. D'abord, nous nous en servons pour réaliser une analyse visuelle du phénomène d'affinage. Deuxièmement, ils servent d'entrées à un arbre de décision dont la tâche est d'obtenir les mêmes prédictions que le modèle de langage. Nous concluons en discutant des limitations actuelles de notre méthode et des directions à prendre pour les dépasser.

Type de document:Rapport ou mémoire (PFE - Projet de fin d'études)
Mots-clés libres:Grand Modèle de Langage, Explicabilité, Extraction de concepts
Sujets:Sciences et technologies de l'information et de la communication
Mathématiques et leurs applications
Code ID :10442
Déposé par :Mathis Le bail
Déposé le :28 oct. 2024 14:55
Dernière modification:28 oct. 2024 14:55

Modifier les métadonnées de ce document.