Aller au contenu principal

Classification k-means dans Excel

Ce tutoriel vous aidera à configurer et interpréter une Classification k-means dans Excel avec le logiciel XLSTAT.

Jeu de données pour réaliser une classification avec la méthode des nuées dynamiques (k-means clustering)

Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 États des États-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel

Le but est ici de créer des classes homogènes d'États. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP) et dans le tutoriel sur la classification ascendante hiérarchique (CAH).

Remarque : si vous essayez de faire l'analyse proposée ci-dessous sur les mêmes données, il est fort probable que vous n'obteniez pas les mêmes résultats. En effet, la méthode des nuées dynamiques implique un tirage aléatoire. Pour obtenir les mêmes résultats, vous devrez fixer la graine des nombres aléatoires à 4414218 dans les Options/Avancées de XLSTAT.

Paramétrer une classification avec la méthode des nuées dynamiques (k-means clustering)

Une fois XLSTAT lancé, cliquez sur Analyse de données / Classification k-means comme indiqué ci-dessous :
Graphical user interface, text, application  Description automatically generated

Une fois que vous avez cliqué sur le bouton, la boîte de dialogue de la classification k-means apparaît. Sélectionnez les données dans la feuille Excel.

Dans l’onglet Général, sélectionnez les variables quantitatives qui vont permettre de classifier les États : - IMMIGRATION DOMESTIQUE NETTE ;

  • AMÉRICAINS MIGRANTS AVEC L'ÉTRANGER ;

  • IMMIGRATION INTERNATIONALE NETTE ;

  • TAUX DE NAISSANCE ;

  • TAUX DE MORTALITÉ ;

  • POP < 65 ANS.

La variable POPULATION TOTALE n'a pas été sélectionnée car seuls les aspects dynamiques de la population nous intéressent ici.

La dernière colonne (POP > 65 ANS) n'a pas non plus été sélectionnée, car nous avons vu avec l'analyse en composantes principales que les deux dernières colonnes sont parfaitement corrélées.

Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée.

Le nombre de classes à créer est fixé à 4.

Le critère d'optimisation choisi est le Déterminant(W), qui permet de supprimer les effets d'échelle des variables. La distance Euclidienne est choisie comme indice de dissimilarité étant la distance classique utilisée pour une classification k-means.

Enfin, sélectionnez la colonne ETAT dans les Libellés des lignes.
Graphical user interface, application  Description automatically generated
Dans l'onglet Options nous fixons le nombre de répétitions à 10. L'algorithme sera alors lancé 10 fois, avec à chaque fois un nouveau point de départ aléatoire.
Graphical user interface, text, application  Description automatically generated
Dans l’onglet Sorties, sélectionnez les sorties comme indiqué ci-dessous :
Graphical user interface, text, application  Description automatically generated
Les calculs démarrent lorsque vous cliquez sur OK. Les résultats sont ensuite affichés.

Interpréter les résultats d'une classification avec la méthode des nuées dynamiques (k-means clustering)

Après les statistiques descriptives des variables sélectionnées, et la synthèse des différentes répétitions, XLSTAT indique comment se décompose l’inertie pour la classification optimale. La décomposition de l’inertie pour la meilleure partition parmi les répétitions est affichée. (Rappel : Inertie Totale = Inertie inter-classes + Inertie intra-classe).
Table  Description automatically generated
Après une série de tableaux donnant les barycentres des classes, la distance entre chaque barycentre, les objets centraux (il s’agit des États les plus proches des barycentres), un tableau réparti les États par classe.

Le tableau ci-dessous indique pour chaque classe les États qui lui ont été affectés.
Table  Description automatically generated
Un tableau présente ensuite pour chaque État, l'identifiant de classe auquel il a été affecté. Une partie du tableau est présentée ci-dessous. On pourra ensuite fusionner ces données avec le tableau initial pour d'éventuelles analyses complémentaires (une analyse discriminante par exemple).

Les options Corrélations avec les barycentres et Coefficients de silhouette étant activées, les colonnes associées se retrouvent dans ce même tableau : Table  Description automatically generated
Un graphique correspondant au coefficient de silhouette permet de juger visuellement l’appartenance d’une observation à une classe. Si le coefficient de silhouette est proche de 1, l’observation est jugée bien classée. À contrario, si le coefficient est proche de -1, l’observation est alors moyennement plus proche en distance d’une autre classe.
Chart  Description automatically generated
Les coefficients de silhouette moyens par classe peuvent être comparés afin de connaître quelle classe est la plus homogène selon ce coefficient.
Chart, bar chart  Description automatically generated
La classe 1 est la classe avec le coefficient de silhouette le plus élevé. Cependant, la classe 2 possède un coefficient proche de 0, il serait alors judicieux de modifier le nombre de classes. En effet, dans le tutoriel sur la Classification Ascendante Hiérarchique CAH, on montre qu'il serait plus pertinent de regrouper les États en trois classes plutôt qu'en quatre.

La vidéo ci-dessous vous montre comment réaliser ce tutoriel sur les nuées dynamiques.

Cet article vous a t-il été utile ?

  • Oui
  • Non