Solution d'analyse de données

Classification k-means dans Excel

19/12/2017
Ce tutoriel vous aidera à configurer et interpréter une Classification k-means dans Excel avec le logiciel XLSTAT.
Ce guide vous permettra de choisir une méthode d'analyse multivariée appropriée en fonction de votre question et vos données.

Jeu de données pour réaliser une classification avec la méthode des nuées dynamiques (k-means clustering)

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel sur la classification avec la méthode des nuées dynamiques (k-means clustering)

Le but est ici de créer des groupes homogènes d'Etats. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP) et dans le tutoriel sur la classification ascendante hiérarchique (CAH).

Remarque : si vous essayez de faire l'analyse proposée ci-dessous sur les mêmes données, il est fort probable que vous n'obteniez pas les mêmes résultats. En effet, la méthode des nuées dynamiques implique un tirage aléatoire. Pour obtenir les mêmes résultats, vous devrez fixer la graine des nombres aléatoires à 910837696 dans les Options/Avancées de XLSTAT.

Paramétrer une classification avec la méthode des nuées dynamiques (k-means clustering)

Une fois que XLSTAT est activé, cliquez sur Analyse de données / Classification k-means dans le menu XLSTAT.

Menu XLSTAT

Une fois le bouton cliqué, la boîte de dialogue de la classification k-means apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel.

Il y a plusieurs façons de sélectionner les données dans les boîtes de dialogue de XLSTAT (voir le tutoriel sur le sujet).

Dans l'exemple étudié ici, les données commencent dès la première ligne et il est donc plus rapide de choisir le mode de sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous les sélections apparaissent sous forme de colonnes.

Boîte de dialogue XLSTAT pour la classification k-means

La variable "Population totale" n'a pas été sélectionnée car seuls les aspects dynamiques de la population nous intéressent ici.

La dernière colonne n'a pas non plus été sélectionnée, car nous avons vu avec l'analyse en composantes principales que les deux dernières colonnes sont parfaitement corrélées.

L'option Libellés des variables est laissée activée, car la première ligne de données contient le nom des variables, et les libellés des individus sont sélectionnés.

Le nombre de groupes à créer est fixé à 4.

Le critère d'optimisation choisi est le Déterminant(W), qui permet de supprimer les effets d'échelle des variables.

Dans l'onglet Options nous fixons le nombre de répétitions à 50. L'algorithme sera alors lancé 50 fois, avec à chaque fois un nouveau point de départ aléatoire.

Boîte de dialogue XLSTAT pour la classification k-means

Les calculs commencent lorsque vous cliquez sur le bouton OK.

Interpréter les résultats d'une classification avec la méthode des nuées dynamiques (k-means clustering)

Après les statistiques descriptives des variables sélectionnées, et la synthèse des différentes répétitions, XLSTAT indique comment se décompose la variance pour la classification optimale.

Sorties XLSTAT :Décomposition de la variance pour la classification optimale

Le tableau ci-dessous indique pour chaque groupe les observations qui lui ont été affectées.

Sorties XLSTAT :Résultats par classe

Un tableau présente ensuite pour chaque Etat, l'identifiant du groupe auquel il a été affecté. Un partie du tableau est présentée ci-dessous. On pourra ensuite fusionner ces données avec le tableau initial pour d'éventuelles analyses complémentaires (une analyse discriminante par exemple).

Sorties XLSTAT :Résultats par object

Dans le tutoriel sur la Classification Ascendante Hiérarchique (CAH), on montre qu'il serait plus pertinent de regrouper les Etats en trois groupes plutôt qu'en quatre.

La vidéo ci-dessous vous montre comment réaliser ce tutoriel sur les nuées dynamiques.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283