Ben Debba, M. Ahmed (2018) Extraction automatique de contenu web "pertinent" PFE - Project Graduation, ENSTA.

[img]PDF
Restricted to Registered users only

3212Kb

Abstract

L’extraction du contenu des pages web est un domaine de recherche de grande importance. Les méthodes utilisées pour parser une page web et extraire de l’information se basent essentiellement sur le code HTML .Ces méthodes ne sont pas efficaces pour tous les sites web. Chaque site web a son propre "template" HTML. Ainsi, nous avons opté pour une méthode plus générique. Notre approche se base sur l’image de la page web au lieu du code HTML. Ainsi, elle n’est pas limité à certains "template". Dans ce cadre, J’ai conçu un réseau de neurones CNN qui prend l’image et extrait les features de cette image avant de détecter la position des éléments qu’on cherche. J’ ai créé un outil qui permet de générer le jeu de données nécessaire pour entraîner le modèle. Ensuite, j’ai changé la fonction de loss du modèle et j’ai utilisé la méthode de partitionnement de données k-means pour améliorer les résultats.

Item Type:Thesis (PFE - Project Graduation)
Uncontrolled Keywords: Vision par ordinateur Intelligence artificielle Réseau neuronal convolutif Apprentissage automatique Apprentissage profond Partitionnement de données
Subjects:Information and Communication Sciences and Technologies
ID Code:7252
Deposited By:Ahmed Ben Debba
Deposited On:05 avr. 2019 10:31
Dernière modification:05 avr. 2019 10:31

Repository Staff Only: item control page