Solution d'analyse de données

Classification avec un modèle de mélange gaussien dans Excel

20/10/2017

Classification à l'aide d'un modèle de mélange gaussien

Ces modèles sont utilisés pour estimer les paramètres d’une distribution de variables aléatoires en les modélisant par une densité mélange. Usuellement, ils sont employés en classification (supervisée ou non) et on considère que chaque composant du mélange caractérise une classe. Ces modèles présentent deux avantages principaux :

  • Il s’agit d’une méthode probabiliste permettant d’obtenir une classification des observations. Une probabilité d’appartenance à chacune des classes est calculée et une classification est généralement obtenue en affectant chacune des observations à la classe la plus probable. Ces probabilités permettent également d’interpréter certaines classifications suspectes. 
  • Ils offrent une grande flexibilité de modélisation et permettent donc de modéliser un grand nombre de phénomènes.

Le but des modèles de mélange est de structurer un jeu de donnée en plusieurs classes en s’appuyant sur une modélisation par un mélange de distributions. XLSTAT propose l’utilisation des distributions gaussiennes.

Jeu de données pour réaliser une classification avec les modèles de mélange gaussiens

Les données correspondent aux iris de Fisher qui ont été étudiées dans [Fisher, R. A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Part II, 179–188]. Il s’agit d’une mesure de  la longueur et la largeur en centimètres des pétales de 150 fleurs issues de 3 espèces d’iris (setosa, versicolor, et virginica).

Une feuille Excel contenant à la fois les données et les résultats peut être téléchargée en cliquant ici.

Le but est d’ajuster un modèle de mélange et de retrouver les 3 espèces d’iris dans les données. On suppose le nombre d’espèces et la forme du modèle inconnus.

Paramétrer un modèle de mélange

Une fois XLSTAT ouvert, sélectionnez la commande XLSTAT / XLSTAT-MX / Modèles de mélange gaussiens, ou cliquez sur le bouton correspondant dans la barre de menu.

menu modèles de mélange

La boîte de dialogue Modèle de mélange gaussien apparaît.

Les données sont présentées sous forme d’un tableau constitué de 150 lignes et 2 colonnes. On suppose qu’aucun des groupes n’est connu et que toutes les lignes ont le même poids. On souhaite réaliser une classification des iris en fonction de la longueur et de la largeur des pétales, on choisit donc l’option Multidimensionnel.

boite de dialogue modèles de mélange general

Dans l’onglet Options(1), on trouve plusieurs algorithmes d’inférence avec des critères de sélection et des méthodes d’initialisation différents. On trouve également la possibilité de régler le nombre d’itération maximal de l’algorithme ainsi que son seuil de convergence. Nous choisissons ici un nombre de deux répétitions pour l’initialisation aléatoire et laissons l’ensemble des autres paramètres aux valeurs par défaut.

boite de dialogue modèles de mélange options

Dans l’onglet Options(1), la liste de l’ensemble des modèles de mélange gaussiens est disponible. On trouve également la possibilité de définir le nombre maximum et minimum de classes ainsi que de contraindre les proportions du mélange à être égales. On choisit ici de tester les modèles EEE et EEV pour un nombre de classes variant de 2 à 5.

boite de dialogue modèles de mélange options

Lancez les calculs en cliquant sur OK. Les résultats sont affichés dans une nouvelle feuille Excel.

Interpréter les résultats d'une classifiaction par les modèles de mélange

Les premiers résultats affichés sont les statistiques descriptives pour chaque variable (longueur et largeur). Ensuite vient la valeur du critère de sélection pour l’ensemble des modèles pour un nombre de classes variant de 2 à 5.

modèle de mélange évlution bic

 On sélectionne donc 4 classes. Ensuite apparaît la valeur estimée des différents paramètres du modèle (proportions, moyennes et variances)

modèle de mélange proportions moyennes

modèle de mélange covariances

Un tableau présentant les caractéristiques du modèle retenu est ensuite affiché (BIC, AIC, log-vraisemblance, NEC, …).

Dans le tableau ci-dessous sont présentés les résultats en termes d’estimation de probabilités et de classification pour les premières observations du jeu de données disponibles. La classification est déduite à partir de la valeur des probabilités par la règle du MAP (Maximum A Posteriori). 

modèle de mélange probabilités a posteriori classes

Enfin, un graphique représentant le jeu de données  avec la classification MAP obtenue est fourni. 

modèle de mélange classification MAP

La classification par les modèles de mélange gaussiens avec XLSTAT permet par ailleurs de fixer la classe d'appartenance de certaines observations, d'ajouter des poids aux observations et de tester différents critères d'optimisation du nombre de classes et différents algorithmes d'inférence des mélanges de distribution.

 

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283