CALANDRAS, Alexia (2016) Copula-based mixture models for clustering applications. PRE - Projet de recherche, ENSTA.

Fichier(s) associé(s) à ce document :

[img]PDF
Restricted to Accès restreint

2371Kb

Résumé

Le partitionnement de données (ou «data clustering») est une méthode très largement répandue d’analyse statistique de données visant à regrouper des objects dans des groupes (clusters) selon leurs caractéristiques observées. A priori, le nombre de groupes et leur composition ne sont pas des données observables. L’étude réalisée au cours de ce projet porte sur un échantillon de 493 joueurs de NBA, que l’on cherche à classer selon leurs performances. Grâce à la théorie sur les modèles de mélange et les copules gaussiennes, mais aussi grâce à la théorie sur la décomposition de Cholesky des matrices de corrélation, 20 modèles sont envisagés pour classer les joueurs (quatre différentes initialisations des matrices de corrélation, et de 1 à 5 clusters considérés pour chaque cas). Il existe de nombreux algorithmes de classification non supervisée, mais l’étude proposée ici se focalise sur l’utilisation d’un algorithme EM (Espérance-Maximisation) dans le but d’estimer les paramètres de chaque modèle. Enfin, le calcul du Critère d’Information Bayésien pour chaque modèle permet de sélectionner la meilleure description de l’échantillon.

Type de document:Rapport ou mémoire (PRE - Projet de recherche)
Mots-clés libres:Clustering - Modèle de mélange - Copule normale - Matrice de corrélation - Décomposition de Cholesky - Algorithme EM - Critère d’Information Bayésien
Sujets:Mathématiques et leurs applications
Code ID :6720
Déposé par :Alexia Calandras
Déposé le :07 mars 2017 10:59
Dernière modification:07 mars 2017 10:59

Modifier les métadonnées de ce document.