Classification avec un modèle de mélange gaussien dans Excel
Ce tutoriel explique comment calculer et interpréter la classification avec un modèle de mélange gaussien avec Excel en utilisant XLSTAT.
Classification à l'aide d'un modèle de mélange gaussien
Ces modèles sont utilisés pour estimer les paramètres d’une distribution de variables aléatoires en les modélisant par une densité mélange. Usuellement, ils sont employés en classification (supervisée ou non) et on considère que chaque composant du mélange caractérise une classe. Ces modèles présentent deux avantages principaux :
- Il s’agit d’une méthode probabiliste permettant d’obtenir une classification des observations. Une probabilité d’appartenance à chacune des classes est calculée et une classification est généralement obtenue en affectant chacune des observations à la classe la plus probable. Ces probabilités permettent également d’interpréter certaines classifications suspectes.
- Ils offrent une grande flexibilité de modélisation et permettent donc de modéliser un grand nombre de phénomènes.
Le but des modèles de mélange est de structurer un jeu de donnée en plusieurs classes en s’appuyant sur une modélisation par un mélange de distributions. XLSTAT propose l’utilisation des distributions gaussiennes.
Jeu de données pour réaliser une classification avec les modèles de mélange gaussiens
Les données correspondent aux iris de Fisher qui ont été étudiées dans [Fisher, R. A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Part II, 179–188]. Il s’agit d’une mesure de la longueur et la largeur en centimètres des pétales de 150 fleurs issues de 3 espèces d’iris (setosa, versicolor, et virginica).
Le but est d’ajuster un modèle de mélange et de retrouver les 3 espèces d’iris dans les données. On suppose le nombre d’espèces et la forme du modèle inconnus.
Paramétrer un modèle de mélange
Une fois XLSTAT ouvert, sélectionnez la commande XLSTAT / XLSTAT-MX / Modèles de mélange gaussiens, ou cliquez sur le bouton correspondant dans la barre de menu.
La boîte de dialogue Modèle de mélange gaussien apparaît.
Les données sont présentées sous forme d’un tableau constitué de 150 lignes et 2 colonnes. On suppose qu’aucun des groupes n’est connu et que toutes les lignes ont le même poids. On souhaite réaliser une classification des iris en fonction de la longueur et de la largeur des pétales, on choisit donc l’option Multidimensionnel.
Dans l’onglet Options(1), on trouve plusieurs algorithmes d’inférence avec des critères de sélection et des méthodes d’initialisation différents. On trouve également la possibilité de régler le nombre d’itération maximal de l’algorithme ainsi que son seuil de convergence. Nous choisissons ici un nombre de deux répétitions pour l’initialisation aléatoire et laissons l’ensemble des autres paramètres aux valeurs par défaut.
Dans l’onglet Options(1), la liste de l’ensemble des modèles de mélange gaussiens est disponible. On trouve également la possibilité de définir le nombre maximum et minimum de classes ainsi que de contraindre les proportions du mélange à être égales. On choisit ici de tester les modèles EEE et EEV pour un nombre de classes variant de 2 à 5.
Lancez les calculs en cliquant sur OK. Les résultats sont affichés dans une nouvelle feuille Excel.
Interpréter les résultats d'une classifiaction par les modèles de mélange
Les premiers résultats affichés sont les statistiques descriptives pour chaque variable (longueur et largeur). Ensuite vient la valeur du critère de sélection pour l’ensemble des modèles pour un nombre de classes variant de 2 à 5.
On sélectionne donc 4 classes. Ensuite apparaît la valeur estimée des différents paramètres du modèle (proportions, moyennes et variances)
Un tableau présentant les caractéristiques du modèle retenu est ensuite affiché (BIC, AIC, log-vraisemblance, NEC, …).
Dans le tableau ci-dessous sont présentés les résultats en termes d’estimation de probabilités et de classification pour les premières observations du jeu de données disponibles. La classification est déduite à partir de la valeur des probabilités par la règle du MAP (Maximum A Posteriori).
Enfin, un graphique représentant le jeu de données avec la classification MAP obtenue est fourni.
La classification par les modèles de mélange gaussiens avec XLSTAT permet par ailleurs de fixer la classe d'appartenance de certaines observations, d'ajouter des poids aux observations et de tester différents critères d'optimisation du nombre de classes et différents algorithmes d'inférence des mélanges de distribution.
Cet article vous a t-il été utile ?
- Oui
- Non