Solution d'analyse de données

Filtrer des observations et des variables dans des graphiques d'ACP

20/10/2017

Jeu de données pour réaliser une Analyse en Composantes Principales

Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici.

Les données proviennent du US Census Bureau (le fichier original peut-être obtenu sur http://eire.census.gov/popest/states_dataset.csv).

Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.

But de ce tutoriel

Le but est ici d'analyser les corrélations entre les variables et d'identifier des états se différenciant fortement des autres. Ces données sont aussi utilisées pour le tutoriel de la Classification Ascendante Hiérarchique (CAH).

Nous nous concentrons sur les graphiques obtenues lors d'une ACP. XLSTAT vous permet de filtrer les variables et les observations en fonction de leur qualité de représentations en utilisant le cosinus carré (cos²).

Paramétrer une Analyse en Composantes Principales

XLSTAT / Analyse de données / Analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la barre Analyse de données(voir ci-dessous).

barpca1f.gif

Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse en composantes principales apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel. L'option Libellés des variables est activée, car la première ligne de données contient le nom des variables.

Le Format des données choisi ici est Observations/Variables car c'est bien le format des données de départ.

Le Type d'ACP choisi est Pearson (n), ce qui signifie que les calculs seront basés sur une matrice composée des coefficients de corrélation de Pearson, le coefficient de Pearson étant le coefficient de corrélation classiquement utilisé.

boite general acp

Dans l'onglet Graphiques, les options d’Étiquettes sont toutes activées afin que les libellés des variables et des observations soient bien affichés.

L'option de filtrage des observations à afficher est activée en choisissant l'option somme(cos²)>0,5. Ainsi uniquement les variables et observations bien représentées seront conservées.

boite dialogue acp charts

boite dialogue acp charts

dialog box biplots pca

Les calculs commencent lorsque vous cliquez sur le bouton OK.

Si vous avez choisi dans le panneau des options XLSTAT l'option Demander la confirmation des sélections, XLSTAT vous demande de confirmer le nombre de lignes et de colonnes des sélections.

Puis une nouvelle boîte vous permet de choisir les axes pour lesquels les graphiques doivent être affichés. Dans notre cas, le pourcentage de variabilité représenté sur les deux premiers axes n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc aussi demandé.

Analyse en Composantes Principales’’’’Analyse en Composantes Principales excel

Graphiques filtrés en analyse en composantes principales

Les résultats classiques de l'ACP sont affichés. Pour un tutoriel détaillé sur ces sorties, veuillez cliquer ici.

Nous nous intéressons donc au graphiques et au tableaux des cosinus carrés.

Concernant les variables, nous voyons que deux variables ont des cosinus carrés plus petits que 0.5 pour les 2 premiers axes. Ces variables sont mal représentées et elles n'apparaitront donc pas sur les graphiques.

 tableau des cosinus carré

Le cercle des corrélations en ACP est le suivant :

graphique des cosinus carrés acp

Concernant les observations, on peut voir que certains états sont mal représentés.

tableau des cosinus carré

Par exemple, le district de Columbia et Hawaii n'apparaitront pas sur ce graphique car leur cosinus carrés pour les deux premiers axes sont trop faibles.

graphique des cosinus carrés acp

Cet outil vous permet donc de filtrer les observations et variables dans les graphiques d'ACP en prenant en compte leur qualité de représentation par le biais de la somme des cosinus carrés.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283