HERSART DE LA VILLEMARQUÉ, M. Mahé (2024) Usage des LLMs à des fins d’évaluation PFE - Project Graduation, ENSTA.

[img]
Preview
PDF
2109Kb

Abstract

Ce rapport expose les démarches entreprises et les résultats obtenus lors de mon stage de fin d’études. Celui-ci s’est déroulé en deux phases : lors de la première, j’ai cherché à exploiter différentes techniques de détection des hallucinations produites par les LLMs lors de la génération de résumés. Le but était de détecter les hallucinations portant sur des résumés de procédure judiciaire. Dans un second temps, j’ai mis en place une méthode d’évaluation basée sur la technique LLM-as- a-judge. L’objectif était d’évaluer un système de RAG. Pour cela, il fallait évaluer la pertinence des documents renvoyés par le RAG lorsqu’une question d’utilisateur était envoyée au LLM. J’ai constaté que les LLMs en source ouverte utilisés n’étaient pas capable d’identifier les hallucina- tions de manière fiable. La sensibilité à la requête est forte et la même requête donne des performances différentes pour différents LLMs. Cela rend difficile la tâche d’optimisation de la requête. Les méthodes alternatives testées (Vectara, KnowHalu) se sont révélées infructueuses. La décomposition factuelle réalisée avec KnowHalu est très sensible au LLM utilisé, et nous n’avons pas réussi à atteindre les bons résultats du modèle Starling avec le modèle Llama3.1. Les meilleurs résultats sont atteints avec la méthode LLM-as-a-judge en décomposant le résumé phrase par phrase. Cependant, ces scores restent insuffisant pour permettre une détection fiable des différents types d’hallucinations rencontrés. L’évaluation de la pertinence des documents renvoyés par le RAG donne quant à elle de bien meilleurs résultats. La capacité des LLMs à identifier la pertinence d’un document informatif vis-à-vis d’une requête est confirmée par l’observation des matrices de confusion. Des méthodes permettant d’améliorer l’alignement du LLM avec les préférences humaines existent et permettraient d’augmen- ter les résultats pour atteindre des performances plus élevées encore. La méthode RAHF basée sur l’apprentissage par renforcement a été testée mais les coûts en espace sur GPU n’ont pas permis de la mettre en oeuvre jusqu’au bout.

Item Type:Thesis (PFE - Project Graduation)
Uncontrolled Keywords:Hallucination, Classification, LLM-as-a-judge, RAG, Alignement sur les préférences humaines
Subjects:Information and Communication Sciences and Technologies
Mathematics and Applications
ID Code:10436
Deposited By:Mahé HERSART DE LA VILLEMARQUÉ
Deposited On:28 oct. 2024 12:22
Dernière modification:28 oct. 2024 12:22

Repository Staff Only: item control page