Classification d'un grand jeu de données avec k-means puis CAH

Ce tutoriel vous permettra d'effectuer une classification dans un gros jeu de données en deux étapes : classification k-means suivie d'une Classification Ascendante Hiérarchique (CAH).

Jeu de données pour faire une classification ascendante hiérarchique sur une grande table de données

Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

Le but est ici de créer des groupes homogènes d'Etats. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP), de la classification k-means et de la classification ascendante hiérarchique (CAH).

Remarque : si vous essayez de faire l'analyse proposée ci-dessous sur les mêmes données, il est possible que vous n'obteniez pas les mêmes résultats. En effet, la méthode des nuées dynamiques implique un tirage aléatoire.

Paramétrer la classification k-means

Une fois que XLSTAT est activé, cliquez sur Analyse de données / Classification k-means dans le menu XLSTAT, ou cliquez sur le bouton correspondant de la barre Analyse de données (voir ci-dessous).

XLSTAT menu Analyse de Données, k-means

Une fois le bouton cliqué, la boîte de dialogue de la classification k-means apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Il y a plusieurs façons de sélectionner les données dans les boîtes de dialogue de XLSTAT (voir le tutoriel sur le sujet).

Dans l'exemple étudié ici, les données commencent dès la première ligne et il est donc plus rapide de choisir le mode de sélection par colonnes.

C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous forme de colonnes. Nous sélectionnons les colonnes C à H.

Fixez le nombre de classes à créer à 25. Dans le cas d’un jeu de données plus important vous pouvez utiliser un nombre de groupe plus élevé.

Le critère de classification à sélectionner est le Déterminant(W) car il permet de s’affranchir de l’effet d’échelle des variables.

XLSTAT Classification k-means, boîte de dialogue, onglet Général

Dans l’onglet Options augmentez le nombre de répétitions à 50 pour améliorer la stabilité et la qualité des résultats.

XLSTAT Classification k-means, boîte de dialogue, onglet Options

Dans l’onglet Sorties choisissez seulement les options Barycentres qui nous serviront pour la classification ascendante hiérarchique, ainsi que les résultats par classe et par objet pour connaitre la répartition des échantillons dans les 25 groupes.

XLSTAT Classification k-means, boîte de dialogue, onglet Sorties

Une fois que vous avez clique sur le bouton OK, les résultats apparaissent dans une nouvelle feuille Excel.

Résultats de la classification k-means

Nous allons utiliser le tableau Barycentres des classes.

classification k-means : barycentres des classes

Un autre résultat important est le tableau présentant la distribution des états dans les différents groupes: Résultats par classe.

classification k-means : résultats par classe

Cette information se trouve aussi dans le tableau des résultats par objet.

Paramétrer la Classification Ascendante Hiérarchique

Sélectionnez maintenant l’option XLSTAT / Analyse des données / Classification Ascendante Hiérarchique (CAH) .

XLSTAT menu analyse de données, CAH

Dans l’onglet Général sélectionnez les données à regrouper : les barycentres des classes selon leur description dans l’espace des données originelles. Sélectionnez la description des 25 barycentres par les variables d'origine soit de Migration domestique à Pop < 65 ans.

Le format des données est un tableau observations/variables. Nous utilisons le type de proximité Dissimilarités ainsi que la méthode de Ward comme méthode d’agrégation.

Le nom des variables est inclu dans la sélection donc l’option Libellés des colonnes doit restée cochée. Nous allons inclure les Libellés des lignes qui sont les numéros des groupes de la classification k-means allant de 1 à 25.

Nous devons mettre un poids sur les lignes correspondant à la colonne Somme des poids dans la table Barycentre des classes.

Les résultats seront affichés dans une nouvelle feuille Excel comme l’option Feuille est sélectionnée.

XLSTAT Classification Ascendante Hiérarchique (CAH), onglet général

Dans l’onglet Options nous laissons l’option Regrouper les lignes sélectionnée car nous voulons regrouper les groupes de la classification k-means. Cependant nous devons inclure l’information sur la variance intra-classe. La colonne à sélectionner est la colonne Variance intra-classe dans le tableau Barycentre des classes.

XLSTAT Classification Ascendante Hiérarchique (CAH), onglet options

Dans l’onglet Sorties tous les résultats peuvent être sélectionnés.

XLSTAT Classification Ascendante Hiérarchique (CAH), onglet Sorties

Enfin, dans l’onglet Graphiques, selectionnez aussi toutes les options. Notez que le type du dendrogramme est Vertical.

XLSTAT Classification Ascendante Hiérarchique (CAH), onglet graphiques

Interpréter les résultats de la Classification Ascendante Hiérarchique

Parmi les résultats de la classification CAH, on peut analyser les deux dendrogrammes qui présentent la composition des 3 groupes et comment les 25 groupes ont eux-mêmes été regroupés.

CAH Excel, dendrogramme

Vous pouvez aussi regarder comment se décompose la variance totale.

CAH, décomposition de la variance

Vous pouvez enfin utiliser le tableau obtenu à l'issue de la CAH pour recoder le tableau de classification obtenu en classification k-means.

Finaliser les résultats d'une classification ascendante hiérarchique sur une grande table de données

Allez à XLSTAT / Préparation des données / Codage.

Ensuite vous devez sélectionner la colonne Classe de la table résultats par objet obtenue en classification k-means en tant que variable à recoder. Ensuite vous sélectionnez le tableau résultats par objet obtenu avec la CAH en incluant le nom des colonnes en tant que tableau de codage. Cochez l’option Libellés des colonnes.

Pour accoler les résultats à la table des données sélectionnez l’option Plage et la première cellule à côté de la table de données. Décochez l’option Afficher l’en-tête du rapport.

classification de grands jeux de données, manipulations finales

Après avoir cliqué sur OK, vous obtenez les résultats de la classification en 3 groupes pour tous les Etats.

classification de grands jeux de données, résultat final

Cet article vous a t-il été utile ?