Ben Debba, M. Ahmed (2018) Extraction automatique de contenu web "pertinent" PFE - Projet de fin d'études, ENSTA.
Fichier(s) associé(s) à ce document :
PDF Restricted to Accès restreint 3212Kb |
Résumé
L’extraction du contenu des pages web est un domaine de recherche de grande importance. Les méthodes utilisées pour parser une page web et extraire de l’information se basent essentiellement sur le code HTML .Ces méthodes ne sont pas efficaces pour tous les sites web. Chaque site web a son propre "template" HTML. Ainsi, nous avons opté pour une méthode plus générique. Notre approche se base sur l’image de la page web au lieu du code HTML. Ainsi, elle n’est pas limité à certains "template". Dans ce cadre, J’ai conçu un réseau de neurones CNN qui prend l’image et extrait les features de cette image avant de détecter la position des éléments qu’on cherche. J’ ai créé un outil qui permet de générer le jeu de données nécessaire pour entraîner le modèle. Ensuite, j’ai changé la fonction de loss du modèle et j’ai utilisé la méthode de partitionnement de données k-means pour améliorer les résultats.
Type de document: | Rapport ou mémoire (PFE - Projet de fin d'études) |
---|---|
Mots-clés libres: | Vision par ordinateur Intelligence artificielle Réseau neuronal convolutif Apprentissage automatique Apprentissage profond Partitionnement de données |
Sujets: | Sciences et technologies de l'information et de la communication |
Code ID : | 7252 |
Déposé par : | Ahmed Ben Debba |
Déposé le : | 05 avr. 2019 10:31 |
Dernière modification: | 05 avr. 2019 10:31 |