Généralisation, test et optimisation du logiciel Phoebus de détection de réutilisations entre des textes littéraires. - ENSTA

HAMROUN, Sabrine (2016) Généralisation, test et optimisation du logiciel Phoebus de détection de réutilisations entre des textes littéraires. PRE - Projet de recherche, ENSTA.

Fichier(s) associé(s) à ce document :

Prévisualisation

PDF
872Kb

Résumé

Dans le cadre du développement des humanités numériques, Phoebus est un logiciel en cours de développement dans les laboratoires du Lip6, ACASA, visant à extraire les réutilisations entre les textes littéraires. Il vient en premier lieu comme une réponse au besoin de la détection automatique des réutilisations dans le corpus Balzacien. La recherche des réutilisations dans les corpus littéraires dépasse donc le cadre du plagiat vers la mise en forme d'un réseau de différentes inspirations ou réutilisations d'autres textes littéraires contribuant à la mise en place d'une oeuvre littéraire particulière. Cette analyse fondée sur l'intelligence artificielle non supervisée appliquée aux humanités numériques se base sur l'algorithme de l'empreinte digitale. Ce travail de recherche, ciblant une grande masse textuelle, et se positionnant donc dans le cadre du big data demande un travail laborieux d'optimisation du temps et de la mémoire. En outre, la performance de notre logiciel Phoebus se base essentiellement sur les critères de précision et de rappel qu'on cherche à optimiser selon la taille de la fenêtre de comparaison, en l'occurrence formée par la somme de la taille de la séquence des mots et la taille des trous, le respect de l'ordre de mots, la taille des motifs raboutés et la distance entre les motifs.

Type de document:	Rapport ou mémoire (PRE - Projet de recherche)
Mots-clés libres:	PRE,Corpus, réutilisation, plagiat, humanités numériques, intelligence arti- cielle, big data, corpus annoté, mots utiles, racinisation , précision, rappel, indexation, Balzac, algorithme de l'empreinte digitale.
Sujets:	Sciences et technologies de l'information et de la communication
Code ID :	6742
Déposé par :	Sabrine Hamroun
Déposé le :	13 oct. 2016 11:03
Dernière modification:	13 oct. 2016 11:03

Modifier les métadonnées de ce document.

École Nationale Supérieure de Techniques Avancées

Résumé

École Nationale Supérieure de
Techniques Avancées