Solution d'analyse de données

Analyse Factorielle Discriminante AFD dans Excel

19/12/2017
Ce tutoriel vous aidera à configurer et interpréter une Analyse Factorielle Discriminante (AFD) dans Excel avec le logiciel XLSTAT.
Ce guide vous permettra de choisir une méthode d'analyse multivariée appropriée en fonction de votre question et vos données.

Jeu de données pour réaliser une Analyse Factorielle Discriminante

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données
Les données proviennent de [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] et correspondent à 150 fleurs d'Iris, décrites par 4 variables quantitatives (longeur des sépales, largeur des sépales, longueur des pétales, largeur des pétales, et par leur espèce.

Trois différentes espèces font partie de cette étude : setosa, versicolor and virginica. Notre but est de tester si les quatre variables descriptives permettent de distinguer les espèces, puis de représenter les données dans l'espace factoriel, afin de vérifier visuellement si les espèces sont bien discriminées.

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris setosa, versicolor et virginica.

Paramétrer une Analyse Factorielle Discriminante

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Analyse des données / Analyse Factorielle Discriminante ou cliquez sur le bouton Analyse Factorielle Discriminante de la barre d'outils Analyse des données.

XLSTAT Menu Analyse de données, AFD

Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse Factorielle Discriminante (AFD) apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel. La variable dépendante qualitative, qui correspond à la variable à modéliser, est dans ce cas précis, l'"espèce d'Iris".

Les variables explicatives sont les quatre variables dont on dispose.

L'option Libellés des variables est laissée activée car la première ligne des colonnes sélectionnées comprend le nom des variables.

XLSTAT Boîte de dialogue Analyse Factorielle Discriminante (AFD), onglet général

Dans l'onglet des options, nous avons décoché l'option Egalité des matrices de covariance intra-classes, car comme nous le verrons plus loin (test de Box), cette hypothèse n'est pas acceptable au seuil de 5%.

XLSTAT Boîte de dialogue Analyse Factorielle Discriminante (AFD), onglet options

De très nombreux résultats sont proposés par XLSTAT. Comme on peut le voir ci-dessous, l'utilisateur peut choisir d'afficher ou non certains résultats.

XLSTAT Boîte de dialogue Analyse Factorielle Discriminante (AFD), onglet Sorties

Au niveau de l'onglet Graphiques, nous avons choisi de ne pas afficher les étiquettes des observations afin de ne pas alourdir les graphiques.

XLSTAT Boîte de dialogue Analyse Factorielle Discriminante (AFD), onglet Graphiques

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats d'une Analyse Factorielle Discriminante

Après les statistiques descriptives concernant les différentes variables, XLSTAT affiche les matrices de covariance impliquées dans les calculs. Les deux tests de Box permettent de confirmer que l'on ne peut pas faire l'hypothèse que les matrices de covariance sont identiques pour les 3 espèces. XLSTAT Résultats AFD, Test de Box et autres Le test du Lambda de Wilks permet de tester si les vecteurs des moyennes pour les différentes groupes sont égaux ou non (ce test peut être compris comme un équivalent multidimensionnel du test LSD de Fisher ou du test HSD de Tukey). On voit ici que la différence entre les vecteurs est significative au niveau de signification de 0.05. XLSTAT AFD, Lambda de Wilks Le tableau suivant fournit les valeurs propres et le % de variance correspondant. On peut voir que 99% de la variance sont représentés par le premier facteur. Il n'y a ici que deux facteurs, ce qui n'est pas surprenant : en effet, le nombre maximum de facteurs non nuls vaut k-1, lorsque n>p>k, où n est le nombre d'observations, p le nombre de variables explicatives et k le nombre de groupes.
XLSTAT AFD, Tableau des Valeurs propres
Le graphique suivant montre comment les quatre variables initiales sont corrélées avec les deux facteurs obtenus (ce graphique est contruit à partir du tableau des coordonnées des variables). On peut voir que le facteur F1 est corrélé avec Long. Sép., Long. Pét. et Larg. Pét. et que F2 est corrélé avec Larg. Pét. La longueur des pétales semble être la variable la plus discriminante. XLSTAT AFD, cercle des corrélations
Dans le tableau suivant sont affichées les fonctions discriminantes. Lorsque l'on suppose que les matrices de covariance sont égales, ces fonctions sont linéaires. Dans le cas contraire, elles sont quadratiques, ce qui est ici le cas. La règle fondée sur ces fonctions est telle que l'on attribue un individu au groupe dont la fonction discriminante donne la valeur la plus élevée.
XLSTAT AFD, Fonctions de Classement
Le tableau suivant liste pour chaque fleur, ses coordonnées factorielles, la probabilité d'affectation à chacun des groupes, et le carré des distances de Mahalanobis au centroïde de chacun des groupes. Chaque observation est reclassée dans le groupe pour lequel la probabilité est maximale. Les probabilités sont des des probabilités a posteriori qui prennent en compte les probabilités a priori au travers de la formule de Bayes. On remarque que les observations (5,9,12) ont été reclassées. If peut y avoir plusieurs raisons pour cela: soit la personne qui a fait mes mesures a fait une erreur d'enregistrement, soit les iris correspondant à ces données ont eu une croissance anormale pour des raisons inconnues, soit le critère de classement utilisé par le spécialiste n'est pas correcte, soit il manque de l'information pour discriminer parfaitement les espèces entre elles.
da7f.gif
Sur le graphique suivant sont affichés les individus sur les axes factoriels. Ce graphique permet de confirmer que les individus sont bien discriminés sur les axes factoriels obtenus à partir des variables explicatives initiales. Le graphique étant bien orthonormé, on peut constater que c'est bien le premier axe qui discrimine le mieux les trois espèces. Les barycentres des trois espèces sont affichés, ainsi que les ellipses de confiance.
XLSTAT AFD, graphique des observations
a matrice de confusion résume l'information concernant les reclassements d'observations, et on peut en déduire les taux de bon et mauvais classement. Le "% correct" correspond au rapport du nombre d'observations bien classées, sur le nombre total d'observations. da9f.gif
L'option correspondante ayant été activée dans l'onglet "Sorties", la validation croisée est appliquée à l'ensemble des données sélectionnées. Cette méthode consiste à recalculer le modèle et la prévision pour chaque observation "i", cette dernière n'entrant pas dans les calculs. On évite ainsi qu'une observation influence trop sa prévision. On voit que dans ce cas, au lieu d'avoir 3 observations mal classées, nous en avons 4.
da10f.gif

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283