de Maricourt, Claire (2018) Collecte et analyse d'offres d'emploi en ligne PFE - Projet de fin d'études, ENSTA.
Fichier(s) associé(s) à ce document :
| PDF Available under License Creative Commons Attribution Non-commercial No Derivatives. 1458Kb |
Résumé
Dans un contexte de multiplication des sites Internet relayant des offres d'emploi en ligne, il est nécessaire pour la Dares de diversifier le champ des offres utilisées pour établir ses statistiques (jusqu'alors réduit à Pôle Emploi). Pour ce faire, il faut tout d'abord collecter les offres diffusées sur les sites cibles en développant des outils de collecte et de formatage automatique des offres mises en ligne sur Internet. Ensuite, il faut classer les offres collectées dans différentes catégories (appelées codes ROME) afin de pouvoir étudier le marché du travail par groupe de métiers. Dans ce rapport la classification testée repose sur l'analyse textuelle des titres des offres permettant un appariement à un code ROME par mesure de similarité. Plusieurs fonctions de similarité sont comparées (similarité de Damerau-Levenshtein, similarité de Jaro-Winkler avec comparaison mot à mot, similarité cosinus avec Tf-Idf) et leurs résultats sur des données étiquetées sont présentés.
Type de document: | Rapport ou mémoire (PFE - Projet de fin d'études) |
---|---|
Mots-clés libres: | Offres d'emploi, marché du travail, \textit{web-scraping}, code ROME, analyse automatique du langage, mesure de similarité, appariement textuel, comparaison de chaînes de caractères, Damerau-Levenshtein, Jaro-Winkler, Tf-Idf, similarité cosinus |
Sujets: | Sciences et technologies de l'information et de la communication Mathématiques et leurs applications |
Code ID : | 7287 |
Déposé par : | Claire De Maricourt |
Déposé le : | 27 mars 2019 11:00 |
Dernière modification: | 27 mars 2019 11:00 |