ANCOVA ou analyse de covariance dans Excel
Ce tutoriel explique comment mettre en place et interpréter une analyse ANCOVA dans Excel en utilisant XLSTAT.
Jeu de données sur l'Analyse de la Covariance ou ANCOVA
Les données proviennent de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants, décrits par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre = 0.45 kg).
But de ce tutoriel sur l'Analyse de la Covariance ou ANCOVA
En utilisant l'analyse de covariance (ANCOVA), notre but est d'étudier comment le poids varie en fonction du sexe (variable qualitative prenant la valeur f ou m), de la taille et de l'âge de l'enfant, et de vérifier si une relation linéaire a un sens.
L'ANCOVA est une méthode proche de la régression linéaire ou de l'ANOVA, faisant aussi partie de la famille GLM (Generalized linear models). Sa spécificité est de mélanger des variables quantitatives et qualitatives.
Dans deux autres tutoriels sur la Régression linéaire, cet exemple est traité avec seulement la taille puis l'âge comme variables explicatives.
Paramétrer une Analyse de la Covariance ou ANCOVA
Une fois XLSTAT lancé, choisissez la commande XLSTAT / Modélisation des données / ANCOVA.
Une fois le bouton cliqué, la boîte de dialogue correspondant à l'ANCOVA apparaît.
Vous pouvez alors sélectionner les données sur la feuille Excel.
La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis le "poids".
Les variables quantitatives explicatives sont ici la "taille" et l'"âge", tandis que la variable qualitative est le "sexe".
L'option Libellés des variables est laissée activée car la première ligne des colonnes comprend le nom des variables.
Les options des autres onglets sont laissées à leur valeur par défaut.
Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.
Interpréter les résultats d'une Analyse de la Covariance ou ANCOVA
Le premier tableau de résultats fournit les coefficients d'ajustement du modèle. Le R² (coefficient de détermination) donne une idée du % de variabilité de la variable à modéliser, ici le poids, expliqué par les variables explicatives. Plus ce coefficient est proche de 1, meilleur est le modèle.
Dans notre cas, 63% de la variabilité est expliquée par la taille, l'âge et le sexe. Le reste de la variabilité est dû à des effets (autres variables explicatives) qui ne n'ont pas été mesurés ou mesurables au cours de l'expérience. Des effets génétiques et nutritifs sont de toute évidence impliqués, mais néanmoins une recherche plus poussée pourrait donner de meilleurs résultats en utilisant des transformations des variables utilisées ici.
Le tableau d'analyse de la variance est un résultat qui doit être analysé attentivement (voir ci-dessous). C'est à ce niveau que l'on teste si l'on peut considérer que les variables explicatives sélectionnées (la taille et l'âge) apportent une quantité d'information significative au modèle (hypothèse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la variable à modéliser (le poids) suffirait à décrire les résultats obtenus ou non.
Le test du F de Fisher est utilisé. Etant donnée que la probabilité associée au F est dans ce cas inférieure à 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en concluant que les variables explicatives apportent une quantité d'information significative au modèle.
Les deux tableaux suivants correspondent aux analyses Type I SS et Type III SS. Le premier permet pour chaque variable d'évaluer son impact lorsqu'elle est ajoutée aux variables précédemment ajoutées. Les valeurs de ce tableau sont donc dépendantes de l'ordre dans lequel ont été sélectionnées les variables. Plus la probabilité associée au F de Fisher est faible, plus fort est l'impact de la variable sur la qualité du modèle. Nous voyons donc ici que l'impact de la variable Sexe est particulièrment faible.
Le second tableau (Type III SS) permet pour chaque variable d'évaluer sa contribution au modèle en évaluant l'impact de sa suppression du modèle. Contrairement au précédent, ce tableau n'est donc pas dépendant de l'ordre dans lequel ont été sélectionnées les variables. Plus la probabilité associée au F de Fisher est faible, plus fort est l'impact de la variable sur la qualité du modèle. Nous voyons ici aussi que la variable Sexe n'a qu'un faible impact.
Le tableau suivant fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions, des simulations ou s'il doit être comparé à d'autres résultats. Nous voyons que la p-value associé au test de Student pour le sexe est de 0.83, et que l'intervalle de confiance à 95% associé au sexe comprend la valeur 0. Cela confirme le très faible impact du sexe sur le modèle. Si l'on s'en tient à la valeur du paramètre associé au sexe féminin, il semblerait que pour une taille et un âge donnés, le fait d'être une fille ait un impact légèrement positif sur le poids.
Le tabeau qui suit présente l'analyse des résidus. Une attention particulière doit être portée aux résidus centrés réduits, qui, étant données les hypothèses liées à l'ANCOVA, doivent être distribués suivant une loi normale N(0,1). Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donné le faible nombre de données dont on dispose ici, toute valeur en dehors de cet intervalle est révélatrice d'une donnée suspecte. Afin de mettre en évidence rapidement les valeurs se trouvant hors de l'intervalle [-1.96, 1.96], nous avons utilisé l'outil DataFlagger de XLSTAT.
Nous pouvons ici identifier seize observations suspectes, sur 237 observations (soit 6% au lieu de 5%). Bien que l'écart soit faible, cette analyse des résidus pourrait invalider l'hypothèse de normalité. Une étude plus poussée de la normalité de ces résidus fait l'objet d'un tutoriel sur l'ajustement d'une loi de probabilité.
Le graphique ci-dessous permet de comparer les prévisions et les valeurs observées. Des courbes de confiance permet d'identifier les individus atypiques.
L'histogramme des résidus centrés réduits permet de repérer rapidement et visuellement la présence de valeurs hors de l'intervalle [-2, 2].
En conclusion, la taille, l'âge et le sexe permettent d'expliquer 63% de la variabilité du poids. Une part importante de la variabilité du poids reste donc inexpliquée par le modèle d'ANCOVA.
Cet article vous a t-il été utile ?
- Oui
- Non