Solution d'analyse de données

Classification Ascendante Hiérarchique CAH dans Excel

19/12/2017
Ce tutoriel vous aidera à configurer et interpréter une Classification Ascendante Hiérarchique (CAH) dans Excel avec le logiciel XLSTAT.
Ce guide vous permettra de choisir une méthode d'analyse multivariée appropriée en fonction de votre question et vos données.

Jeu de données sur la Classification Ascendante Hiérarchique

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Les données proviennent du US Census Bureau. Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées et, afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel sur la Classification Ascendante Hiérarchique

Le but est ici de créer des groupes homogènes d'Etats. Ces données sont aussi utilisées pour le tutoriel de l'Analyse en Composantes Principales (ACP) et de la classification k-means.

Paramétrer une Classification Ascendante Hiérarchique

Une fois que XLSTAT est activé, cliquez sur Analyse de données / Classification Ascendante Hiérarchique (CAH) dans le menu XLSTAT.
XLSTAT Menu

Une fois le bouton cliqué, la boîte de dialogue correspondant à la CAH apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel.

Il y a plusieurs façons de sélectionner les données dans la boîtes de dialogue XLSTAT (voir le tutoriel sur le sujet).

Dans l'exemple étudié ici, les données commencent dès la première ligne; il est donc plus rapide de choisir le mode de sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous les sélections apparaissent sous forme de colonnes.

La variable "Population totale" n'a pas été sélectionnée car seuls les aspects dynamiques de la population nous intéressent ici.

La dernière colonne n'a pas non plus été sélectionnée, car nous avons vu avec l'analyse en composantes principales que les deux dernières colonnes sont parfaitement corrélées.

L'option Libellés des variables est laissée activée, car la première ligne de données contient le nom des variables, et les libellés des lignes sont sélectionnés.

XLSTAT Boîte de dialogue CAH, onglet général

Dans l'onglet Options les options Centrer et Réduire sont activées de manière à éviter que l'échelle des variables n'influe sur les résultats.

La troncature automatique est demandée. Cela signifie que l'on laisse XLSTAT déterminer automatiquement un nombre de groupes. Le critère utilisé pour la troncature est basé sur l'entropie; il reste néanmoins subjectif et ne doit pas vous empêcher de fixer un nombre de groupes différents en fonction de vos connaissances a priori ou de vos objectifs opérationnels.

XLSTAT Boîte de dialogue CAH, onglet options

Les calculs commencent lorsque vous cliquez sur le bouton OK.

Interpréter les résultats d'une Classification Ascendante Hiérarchique

Une fois les statistiques descriptives des variables affichées, le premier résultat sont le tableau récapitulant les différentes étapes de l'algorithme, et le diagramme des niveaux des noeuds. Sa forme donne des informations sur la structure des données. Lorsque des sauts importants sont observés, on a une agrégation de structures homogènes.

Diagramme des niveaux CAH

Le graphique ci-dessous est le dengrogramme. Il représente de manière claire la façon dont l'algorithme procède pour regrouper les individus puis les sous-groupes. Au final, l'algorithme a progressivement regroupé toutes les observations. La ligne en pointillé représente la troncature et permet de visualiser que trois groupes homogènes ont été identifiés. Le premier groupe est plus homogène que le troisième groupe (le dendrogramme est plus plat pour les premier groupe). Le deuxième groupe regroupe les Etats d'Hawaï et d'Alaska.

Dendogramme CAH

Le tableau ci-dessous indique pour chaque groupe les observations qui lui ont été affectées.

Résultats par classe CAH

Un tableau présente ensuite pour chaque Etat, l'identifiant du groupe auquel il a été affecté. Un partie du tableau est présentée ci-dessous. On pourra ensuite fusionner ces données avec le tableau initial pour d'éventuelles analyses complémentaires (une analyse discriminante par exemple).

Résultats par objet

La vidéo ci-dessous vous montre comment réaliser ce tutoriel.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283