Classification d'un grand jeu de données avec k-means puis CAH
Ce tutoriel vous permettra d'effectuer une classification dans un gros jeu de données en deux étapes : classification k-means suivie d'une Classification Ascendante Hiérarchique (CAH).
Jeu de données pour faire une classification ascendante hiérarchique sur une grande table de données
Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.
Le but est ici de créer des groupes homogènes d'Etats. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP), de la classification k-means et de la classification ascendante hiérarchique (CAH).
Remarque : si vous essayez de faire l'analyse proposée ci-dessous sur les mêmes données, il est possible que vous n'obteniez pas les mêmes résultats. En effet, la méthode des nuées dynamiques implique un tirage aléatoire.
Paramétrer la classification k-means
Une fois que XLSTAT est activé, cliquez sur Analyse de données / Classification k-means dans le menu XLSTAT, ou cliquez sur le bouton correspondant de la barre Analyse de données (voir ci-dessous).
Une fois le bouton cliqué, la boîte de dialogue de la classification k-means apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Il y a plusieurs façons de sélectionner les données dans les boîtes de dialogue de XLSTAT (voir le tutoriel sur le sujet).
Dans l'exemple étudié ici, les données commencent dès la première ligne et il est donc plus rapide de choisir le mode de sélection par colonnes.
C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous forme de colonnes. Nous sélectionnons les colonnes C à H.
Fixez le nombre de classes à créer à 25. Dans le cas d’un jeu de données plus important vous pouvez utiliser un nombre de groupe plus élevé.
Le critère de classification à sélectionner est le Déterminant(W) car il permet de s’affranchir de l’effet d’échelle des variables.
Dans l’onglet Options augmentez le nombre de répétitions à 50 pour améliorer la stabilité et la qualité des résultats.
Dans l’onglet Sorties choisissez seulement les options Barycentres qui nous serviront pour la classification ascendante hiérarchique, ainsi que les résultats par classe et par objet pour connaitre la répartition des échantillons dans les 25 groupes.
Une fois que vous avez clique sur le bouton OK, les résultats apparaissent dans une nouvelle feuille Excel.
Résultats de la classification k-means
Nous allons utiliser le tableau Barycentres des classes.
Un autre résultat important est le tableau présentant la distribution des états dans les différents groupes: Résultats par classe.
Cette information se trouve aussi dans le tableau des résultats par objet.
Paramétrer la Classification Ascendante Hiérarchique
Sélectionnez maintenant l’option XLSTAT / Analyse des données / Classification Ascendante Hiérarchique (CAH) .
Dans l’onglet Général sélectionnez les données à regrouper : les barycentres des classes selon leur description dans l’espace des données originelles. Sélectionnez la description des 25 barycentres par les variables d'origine soit de Migration domestique à Pop < 65 ans.
Le format des données est un tableau observations/variables. Nous utilisons le type de proximité Dissimilarités ainsi que la méthode de Ward comme méthode d’agrégation.
Le nom des variables est inclu dans la sélection donc l’option Libellés des colonnes doit restée cochée. Nous allons inclure les Libellés des lignes qui sont les numéros des groupes de la classification k-means allant de 1 à 25.
Nous devons mettre un poids sur les lignes correspondant à la colonne Somme des poids dans la table Barycentre des classes.
Les résultats seront affichés dans une nouvelle feuille Excel comme l’option Feuille est sélectionnée.
Dans l’onglet Options nous laissons l’option Regrouper les lignes sélectionnée car nous voulons regrouper les groupes de la classification k-means. Cependant nous devons inclure l’information sur la variance intra-classe. La colonne à sélectionner est la colonne Variance intra-classe dans le tableau Barycentre des classes.
Dans l’onglet Sorties tous les résultats peuvent être sélectionnés.
Enfin, dans l’onglet Graphiques, selectionnez aussi toutes les options. Notez que le type du dendrogramme est Vertical.
Interpréter les résultats de la Classification Ascendante Hiérarchique
Parmi les résultats de la classification CAH, on peut analyser les deux dendrogrammes qui présentent la composition des 3 groupes et comment les 25 groupes ont eux-mêmes été regroupés.
Vous pouvez aussi regarder comment se décompose la variance totale.
Vous pouvez enfin utiliser le tableau obtenu à l'issue de la CAH pour recoder le tableau de classification obtenu en classification k-means.
Finaliser les résultats d'une classification ascendante hiérarchique sur une grande table de données
Allez à XLSTAT / Préparation des données / Codage.
Ensuite vous devez sélectionner la colonne Classe de la table résultats par objet obtenue en classification k-means en tant que variable à recoder. Ensuite vous sélectionnez le tableau résultats par objet obtenu avec la CAH en incluant le nom des colonnes en tant que tableau de codage. Cochez l’option Libellés des colonnes.
Pour accoler les résultats à la table des données sélectionnez l’option Plage et la première cellule à côté de la table de données. Décochez l’option Afficher l’en-tête du rapport.
Après avoir cliqué sur OK, vous obtenez les résultats de la classification en 3 groupes pour tous les Etats.
Cet article vous a t-il été utile ?
- Oui
- Non