Aller au contenu principal

Filtrer des observations et des variables dans des graphiques d'ACP

Ce tutoriel explique comment filtrer des observations et des variables dans des graphiques d'ACP avec Excel en utilisant XLSTAT.

Jeu de données pour réaliser une Analyse en Composantes Principales

Les données proviennent du US Census Bureau.

Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel

Le but est ici d'analyser les corrélations entre les variables et d'identifier des états se différenciant fortement des autres. Ces données sont aussi utilisées pour le tutoriel de la Classification Ascendante Hiérarchique (CAH).

Nous nous concentrons sur les graphiques obtenues lors d'une ACP. XLSTAT vous permet de filtrer les variables et les observations en fonction de leur qualité de représentations en utilisant le cosinus carré (cos²).

Paramétrer une Analyse en Composantes Principales

XLSTAT / Analyse de données / Analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la barre Analyse de données(voir ci-dessous).

Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse en composantes principales apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel. L'option Libellés des variables est activée, car la première ligne de données contient le nom des variables.

Le Format des données choisi ici est Observations/Variables car c'est bien le format des données de départ.

Le Type d'ACP choisi est Pearson (n), ce qui signifie que les calculs seront basés sur une matrice composée des coefficients de corrélation de Pearson, le coefficient de Pearson étant le coefficient de corrélation classiquement utilisé.

Dans l'onglet Graphiques, les options d’Étiquettes sont toutes activées afin que les libellés des variables et des observations soient bien affichés.

L'option de filtrage des observations à afficher est activée en choisissant l'option somme(cos²)>0,5. Ainsi uniquement les variables et observations bien représentées seront conservées.

boite dialogue acp charts

boite dialogue acp charts

Les calculs commencent lorsque vous cliquez sur le bouton OK.

Si vous avez choisi dans le panneau des options XLSTAT l'option Demander la confirmation des sélections, XLSTAT vous demande de confirmer le nombre de lignes et de colonnes des sélections.

Puis une nouvelle boîte vous permet de choisir les axes pour lesquels les graphiques doivent être affichés. Dans notre cas, le pourcentage de variabilité représenté sur les deux premiers axes n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc aussi demandé.

’’’’

Graphiques filtrés en analyse en composantes principales

Les résultats classiques de l'ACP sont affichés. Pour un tutoriel détaillé sur ces sorties, veuillez cliquer ici.

Nous nous intéressons donc au graphiques et au tableaux des cosinus carrés.

Concernant les variables, nous voyons que deux variables ont des cosinus carrés plus petits que 0.5 pour les 2 premiers axes. Ces variables sont mal représentées et elles n'apparaitront donc pas sur les graphiques.

tableau des cosinus carré

Le cercle des corrélations en ACP est le suivant :

graphique des cosinus carrés acp

Concernant les observations, on peut voir que certains états sont mal représentés.

tableau des cosinus carré

Par exemple, le district de Columbia et Hawaii n'apparaitront pas sur ce graphique car leur cosinus carrés pour les deux premiers axes sont trop faibles.

graphique des cosinus carrés acp

Cet outil vous permet donc de filtrer les observations et variables dans les graphiques d'ACP en prenant en compte leur qualité de représentation par le biais de la somme des cosinus carrés.

Cet article vous a t-il été utile ?

  • Oui
  • Non