CALANDRAS, Alexia (2016) Copula-based mixture models for clustering applications. PRE - Projet de recherche, ENSTA.
Fichier(s) associé(s) à ce document :
PDF Restricted to Accès restreint 2371Kb |
Résumé
Le partitionnement de données (ou «data clustering») est une méthode très largement répandue d’analyse statistique de données visant à regrouper des objects dans des groupes (clusters) selon leurs caractéristiques observées. A priori, le nombre de groupes et leur composition ne sont pas des données observables. L’étude réalisée au cours de ce projet porte sur un échantillon de 493 joueurs de NBA, que l’on cherche à classer selon leurs performances. Grâce à la théorie sur les modèles de mélange et les copules gaussiennes, mais aussi grâce à la théorie sur la décomposition de Cholesky des matrices de corrélation, 20 modèles sont envisagés pour classer les joueurs (quatre différentes initialisations des matrices de corrélation, et de 1 à 5 clusters considérés pour chaque cas). Il existe de nombreux algorithmes de classification non supervisée, mais l’étude proposée ici se focalise sur l’utilisation d’un algorithme EM (Espérance-Maximisation) dans le but d’estimer les paramètres de chaque modèle. Enfin, le calcul du Critère d’Information Bayésien pour chaque modèle permet de sélectionner la meilleure description de l’échantillon.
Type de document: | Rapport ou mémoire (PRE - Projet de recherche) |
---|---|
Mots-clés libres: | Clustering - Modèle de mélange - Copule normale - Matrice de corrélation - Décomposition de Cholesky - Algorithme EM - Critère d’Information Bayésien |
Sujets: | Mathématiques et leurs applications |
Code ID : | 6720 |
Déposé par : | Alexia Calandras |
Déposé le : | 07 mars 2017 10:59 |
Dernière modification: | 07 mars 2017 10:59 |