de Maricourt, Claire (2018) Collecte et analyse d'offres d'emploi en ligne PFE - Projet de fin d'études, ENSTA.

Fichier(s) associé(s) à ce document :

[img]
Prévisualisation
PDF
Available under License Creative Commons Attribution Non-commercial No Derivatives.

1458Kb

Résumé

Dans un contexte de multiplication des sites Internet relayant des offres d'emploi en ligne, il est nécessaire pour la Dares de diversifier le champ des offres utilisées pour établir ses statistiques (jusqu'alors réduit à Pôle Emploi). Pour ce faire, il faut tout d'abord collecter les offres diffusées sur les sites cibles en développant des outils de collecte et de formatage automatique des offres mises en ligne sur Internet. Ensuite, il faut classer les offres collectées dans différentes catégories (appelées codes ROME) afin de pouvoir étudier le marché du travail par groupe de métiers. Dans ce rapport la classification testée repose sur l'analyse textuelle des titres des offres permettant un appariement à un code ROME par mesure de similarité. Plusieurs fonctions de similarité sont comparées (similarité de Damerau-Levenshtein, similarité de Jaro-Winkler avec comparaison mot à mot, similarité cosinus avec Tf-Idf) et leurs résultats sur des données étiquetées sont présentés.

Type de document:Rapport ou mémoire (PFE - Projet de fin d'études)
Mots-clés libres:Offres d'emploi, marché du travail, \textit{web-scraping}, code ROME, analyse automatique du langage, mesure de similarité, appariement textuel, comparaison de chaînes de caractères, Damerau-Levenshtein, Jaro-Winkler, Tf-Idf, similarité cosinus
Sujets:Sciences et technologies de l'information et de la communication
Mathématiques et leurs applications
Code ID :7287
Déposé par :Claire De Maricourt
Déposé le :27 mars 2019 11:00
Dernière modification:27 mars 2019 11:00

Modifier les métadonnées de ce document.