HERSART DE LA VILLEMARQUÉ, M. Mahé (2024) Usage des LLMs à des fins d’évaluation PFE - Projet de fin d'études, ENSTA.
Fichier(s) associé(s) à ce document :
| PDF 2109Kb |
Résumé
Ce rapport expose les démarches entreprises et les résultats obtenus lors de mon stage de fin d’études. Celui-ci s’est déroulé en deux phases : lors de la première, j’ai cherché à exploiter différentes techniques de détection des hallucinations produites par les LLMs lors de la génération de résumés. Le but était de détecter les hallucinations portant sur des résumés de procédure judiciaire. Dans un second temps, j’ai mis en place une méthode d’évaluation basée sur la technique LLM-as- a-judge. L’objectif était d’évaluer un système de RAG. Pour cela, il fallait évaluer la pertinence des documents renvoyés par le RAG lorsqu’une question d’utilisateur était envoyée au LLM. J’ai constaté que les LLMs en source ouverte utilisés n’étaient pas capable d’identifier les hallucina- tions de manière fiable. La sensibilité à la requête est forte et la même requête donne des performances différentes pour différents LLMs. Cela rend difficile la tâche d’optimisation de la requête. Les méthodes alternatives testées (Vectara, KnowHalu) se sont révélées infructueuses. La décomposition factuelle réalisée avec KnowHalu est très sensible au LLM utilisé, et nous n’avons pas réussi à atteindre les bons résultats du modèle Starling avec le modèle Llama3.1. Les meilleurs résultats sont atteints avec la méthode LLM-as-a-judge en décomposant le résumé phrase par phrase. Cependant, ces scores restent insuffisant pour permettre une détection fiable des différents types d’hallucinations rencontrés. L’évaluation de la pertinence des documents renvoyés par le RAG donne quant à elle de bien meilleurs résultats. La capacité des LLMs à identifier la pertinence d’un document informatif vis-à-vis d’une requête est confirmée par l’observation des matrices de confusion. Des méthodes permettant d’améliorer l’alignement du LLM avec les préférences humaines existent et permettraient d’augmen- ter les résultats pour atteindre des performances plus élevées encore. La méthode RAHF basée sur l’apprentissage par renforcement a été testée mais les coûts en espace sur GPU n’ont pas permis de la mettre en oeuvre jusqu’au bout.
Type de document: | Rapport ou mémoire (PFE - Projet de fin d'études) |
---|---|
Mots-clés libres: | Hallucination, Classification, LLM-as-a-judge, RAG, Alignement sur les préférences humaines |
Sujets: | Sciences et technologies de l'information et de la communication Mathématiques et leurs applications |
Code ID : | 10436 |
Déposé par : | Mahé HERSART DE LA VILLEMARQUÉ |
Déposé le : | 28 oct. 2024 12:22 |
Dernière modification: | 28 oct. 2024 12:22 |