Ratnamogan, M. Pirashanth (2018) On using monolingual corpora and ensembling in machine translation PFE - Projet de fin d'études, ENSTA.
Fichier(s) associé(s) à ce document :
PDF Restricted to Accès restreint 3295Kb |
Résumé
Depuis bientôt un an, l’équipe Analytics Consulting de BNP Paribas développe et met à disposition un outil de traduction interne qui permet de traduire sans avoir à partager les données de la banque avec l’extérieur. L’outil se base sur des algorithmes supervisés relevant de l’état de l’art qui sont basés sur des millions d’exemples de traductions. Ces données étant rares et chères l’équipe explore l’utilisation de méthodes alternatives. Ce stage a été l’occasion d’explorer plusieurs sujets liés à la traduction automatique. Mon stage s’est d’abord axé sur les méthodes purement non supervisées qui permettent de créer un traducteur automatique sans aucun exemple d’entrainement. Je me suis ensuite interessé à des approches semi-supervisées basées sur le reinforcement learning. Enfin j’ai exploré des méthodes ensemblistes pour combiner l’information obtenue par des modèles différents et j’ai construit une pipeline qui permet d’extraire des données parallèles depuis le Common Crawl. Ce stage a donné lieu à plusieurs extensions de l’outil en place mais également à la recherche d’améliorations pour les algorithmes utilisés.
Type de document: | Rapport ou mémoire (PFE - Projet de fin d'études) |
---|---|
Sujets: | Mathématiques et leurs applications |
Code ID : | 7174 |
Déposé par : | Pirashanth Ratnamogan |
Déposé le : | 27 mars 2019 14:57 |
Dernière modification: | 27 mars 2019 14:57 |