Aller au contenu principal

Analyse factorielle de données mixtes (PCAmix) avec Excel

Ce tutoriel vous aidera à configurer et interpréter une Analyse factorielle de données mixtes dans Excel avec le logiciel XLSTAT.

Jeu de données pour réaliser une Analyse factorielle de données mixtes

Ces données sont un extrait de données récoltées par le Centre de recherche INRA d'Angers. On a demandé à des experts de noter 21 vins selon différents descripteurs sensoriels (14 variables quantitatives), on dispose également de l’origine des vins ainsi que de la nature du sol où le raisin a poussé (2 variables qualitatives).

Le but est ici d'analyser les liens entre les descripteurs (variables) et les proximités entre les vins (observations).

Qu'est ce que la méthode PCAmix ?

L'analyse factorielle de données mixtes (PCAmix) permet d’analyser un tableau de données où des observations sont décrites à la fois par des variables quantitatives et par des variables qualitatives. Cette méthode permet :

  • d'étudier et visualiser les liens entre les variables,
  • d'obtenir des facteurs non corrélés qui sont des combinaisons linéaires des variables de départ,
  • de visualiser les observations dans un espace à deux ou trois dimensions.

L'analyse factorielle de données mixtes est une méthode initialement développée par Hill et Smith (1972). Différentes variantes de cette méthode ont ensuite été développées (Escofier 1979, Pagès 2004). La méthode utilisée dans Xlstat est la méthode appelée PCAmix développée par Chavent et al (2014). Cette méthode peut être vue comme un mélange de deux méthodes d'analyse factorielle bien connues : l'analyse en Composantes Principales (ACP) qui permet d'étudier un tableau observations/variables quantitatives et l'analyse des correspondances multiples (ACM) qui elle permet l'étude d'un tableau observations/variables qualitatives.

La méthode PCAmix permet l'analyse d'un tableau de n observations décrites par des variables quantitatives et par des variables qualitatives. Comme les autres méthodes d'analyse factorielle, la méthode PCAmix permet de réduire la dimensionnalité des données et ainsi identifier les proximités entre les variables mais également les proximités entre les observations.

Paramétrer une analyse PCAmix avec XLSTAT

Une fois que XLSTAT est ouvert, choisissez XLSTAT / Analyse de données / PCAmix (voir ci-dessous) : Une fois le bouton cliqué, la boîte de dialogue correspondant à PCAmix apparaît. Sélectionnez les colonnes D-P dans le champ Observations/variables quantitatives et les colonnes B-C dans le champ Observations/variables qualitatives. L'option Libellés des variables est laissée activée car la première ligne des colonnes sélectionnées comprend le nom des variables. Ensuite, sélectionnez la colonne A dans le champ Libellés des observations. On choisit ici d’afficher tous les résultats pour les variables et pour les observations. On choisit ici de colorer les observations en fonction d’une variable de groupe. Cette variable qualitative est un recodage de la variable quantitative « qualité globale », cette coloration pourra nous permettre de distinguer des groupes d’observations. On laisse les options par défaut pour les autres sous-onglets des graphiques. Ce dernier onglet permet de choisir les couleurs utilisées pour l’affichage des différents résultats.

Interpréter les résultats de PCAmix

XLSTAT affiche tout d’abord les statistiques descriptives des variables sélectionnées. Dans le tableau suivant sont affichées les valeurs propres non nulles et le % d'inertie correspondant. Ensuite sont affichées les coordonnées des variables quantitatives et des modalités sur les axes factoriels, ainsi que leurs cosinus carrés, leurs contributions et les « squared loadings ». Les mêmes types de résultats sont affichés ensuite pour les observations. Avant d'interpréter la proximité entre deux variables et/ou observations, on doit vérifier qu'il ne s'agit pas uniquement d'un effet de projection. Pour cela on pourra vérifier que les cosinus ou les contributions sont élevés pour les axes et les variables/observations concernés. Les graphiques ci-dessous sont très utiles pour interpréter les liens entre les variables, les observations et les axes factoriels : Les trois premiers graphiques concernent les variables quantitatives, les variables qualitatives et leurs liens avec les axes factoriels. Ces graphiques permettent ainsi de donner un sens aux axes factoriels :

  • L’axe 1 est fortement corrélé négativement avec les variables suivantes : Fruité, Floral, Arome-Intensité, Arome-Persistance, Arome-qualité, Equilibre, Douceur, Intensité, Harmonie, Qualité globale. Cela veut dire que des vins ayant des valeurs négatives sur ce premier axe sont des vins avec des valeurs importantes sur ces variables.
  • L’axe 2 est corrélé positivement avec les variables Odeur-intensité et Epicé et corrélé négativement avec la variable Floral. Cela veut dire qu’un vin avec une valeur importante sur l’axe 2 est un vin qui a une note importante sur Odeur-intensité et Epicé mais une valeur faible sur Floral. On remarque également que la variable qualitative Sol est assez liée à l’axe 2, par exemple les vins possédant la modalité Sol-Env4 sont des vins avec des valeurs importantes sur l’axe 2.

Grâce à l’interprétation des axes et à la carte des observations, on peut ainsi avoir une idée des caractéristiques de chaque vin en regardant la position de chacun sur la carte. De plus la coloration des vins en fonction de leur note de qualité globale permet d’identifier clairement les trois groupes. On voit que les vins les mieux notés (en vert sur le graphique) sont des vins ayant des valeurs négatives sur l’axe 1 et des valeurs assez faibles sur l’axe 2, les vins moyens sont principalement au centre du graphique et les vins les moins bien notés (en bleu) sont des vins ayant des valeurs fortes sur l’axe 2 donc assez épicé, avec une odeur assez intense et ayant un sol de type Env4 mais aussi les vins avec une forte valeur sur l’axe 1.

Aller plus loin : lancer une Classification Ascendante Hiérarchique (CAH) depuis une PCAmix

Vous pouvez également lancer une CAH en cliquant sur le bouton situé sous le tableau des coordonnées principales. Une flèche orange vous permet d'accéder directement à la fin du tableau si celui-ci comporte de nombreuses variables.

En cliquant sur ce bouton, la boite de dialogue de la CAH est alors automatiquement configurée et vous n'avez plus qu'à cliquer sur le bouton OK afin de lancer l'analyse.

Cliquez ici pour voir comment interpréter les résultats de l'analyse CAH.

Cet article vous a t-il été utile ?

  • Oui
  • Non