Goffettre, Roland (2007) Vision robotique : intégration d’information géométrique dans la classification de scènes pas sacs de mots PFE - Projet de fin d'études, ENSTA.

Fichier(s) associé(s) à ce document :

[img]PDF
Restricted to Administrateur de l'archive uniquement

1920Kb

Résumé

Un problème majeur de la robotique autonome est la construction de systèmes offrant au robot une représentation de son environnement et la possibilité de se repérer en son sein. Ces deux exigences sont souvent honorées dans un seul système de localisation et de cartographie de l’environnement. On parle alors de Simultaneous Localisation And Mapping (SLAM). Le laboratoire de robotique cognitive de l’ENSTA travaille à la mise au point d’un SLAM topologique purement visuel, incrémental, discontinu et rapide. Il s’agit de déduire qualitativement le lieu où se trouve le robot à partir d’images prises ponctuellement par celui-ci. Ce système atteint actuellement des taux de reconnaissance de plus de 80 % au bout d’une centaine de tentatives de localisation, chacune d’entre elles prenant moins de 2 secondes. On utilise les techniques de sacs de mots visuels : un vocabulaire de détails visuels significatifs est construit progressivement. Le système mémorise les pièces où ces mots ont été vus, et un système de vote permet la reconnaissance de la scène observée. L’apprentissage est semi-dirigé, l’utilisateur pouvant répondre au robot en cas de perplexité ou corriger des reconnaissances erronées. Notre travail consistait à introduire la structure géométrique composée par les détails visuels. La solution retenue se base sur les segments orientés formés par les mots. Les temps de calcul n’augmentent que d’un facteur inférieur à 2, et l’on constate une forte robustesse aux variations de certains paramètres du vocabulaire élémentaire. De plus, la solution produite est assez indifférente aux rotations de l’image et peut être implémentée pour divers types de vocabulaires visuels existant ou avenir. Les expériences ici relatées ont principalement utilisé un vocabulaire SIFT ou des histogrammes de couleurs. Bien que n’ayant pas produit d’amélioration absolue des performances du système, les résultats présentés ont permis d’approfondir la compréhension des paramètres essentiels du système de vision créé, et ouvrent des voix de recherche prometteuses.

Type de document:Rapport ou mémoire (PFE - Projet de fin d'études)
Sujets:Sciences et technologies de l'information et de la communication
Mathématiques et leurs applications
Unité d'appartenance:
Code ID :3876
Déposé par :Julien Karachehayas
Déposé le :02 juill. 2008 02:20
Dernière modification:16 mai 2014 15:00

Modifier les métadonnées de ce document.