Solution d'analyse de données

Régression linéaire simple dans Excel

12/03/2018

Ce tutoriel explique comment mettre en place et interpréter une régression linéraire simple dans Excel avec XLSTAT. 

Jeu de données pour réaliser une régression linéaire simple

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Les données proviennent de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants, décrits par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre = 0.45 kg).

But de ce tutoriel sur la régression linéaire simple

En utilisant la régression linéaire simple, notre but est d'étudier comment le poids varie en fonction de la taille, et si une relation linéaire a un sens.

Nous nous limitons ici au cas des filles. Il s'agit ici d'une régression linéaire simple, car une seule variable explicative est utilisée (la taille).

Dans un tutoriel sur la Régression multiple cet exemple est repris afin d'étudier l'influence de l'âge sur cette relation.

Un tutoriel sur l'ANCOVA reprend cet exemple afin d'ajouter le sexe (variable qualitative) comme variable explicative, et les données concernant les garçons sont alors prises en compte.

Paramétrer une régression linéaire simple

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Modélisation / Régression linéaire.
XLSTAT Menu

Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis le "poids".

La variable quantitative explicative est ici la "taille". On veut ici expliquer la variabilité du poids par celle de la taille.

L'option Libellés des colonnes est activée car la première ligne des colonnes comprend le nom des variables.

Nous laissons l'option Résidus sélectionnée car nous analyserons les prédictions et les résidus pour valider l'hypothèse de normalité de la régression, et pour identifier des valeurs extrêmes.

reg1f.gif

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats de la régression linéaire simple

Le premier tableau de résultats fournit les coefficients d'ajustement du modèle. Le R² (coefficient de détermination) donne une idée du % de variabilité de la variable à modéliser, expliqué par l a variable explicative. Plus ce coefficient est proche de 1, meilleur est le modèle.

reg2f.gif

Dans notre cas, 56% de la variabilité du poids est expliquée par la taille. Le reste de la variabilité est dû à des effets (autres variables explicatives) qui ne sont pas pris en compte dans cet exemple.

Le tableau d'analyse de la variance est un résultat qui doit être analysé attentivement (voir ci-dessous). C'est à ce niveau que l'on teste si l'on peut considérer que la variable explicative sélectionnée (la taille) apporte une quantité d'information significative au modèle (hypothèse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la variable à modéliser (le poids) suffirait à décrire les résultats obtenus ou non.

reg3f.gif

Le test du F de Fisher est utilisé. Etant donnée que la probabilité associée au F est dans ce cas inférieure à 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en concluant que la variable explicative apporte une quantité d'information significative au modèle.

Le tableau suivant fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions, des simulations ou s'il doit être comparé à d'autres résultats, par exemple les coefficients que l'on obtiendrait pour les garçons. Nous voyons que si le paramètre de la taille a un intervalle de confiance assez étroit, celui de la constante du modèle est assez large. L'équation du modèle est donnée sous le tableau. Le modèle indique que dans les limites de l'intervalle de variation de la variable taille données par les observations, à chaque fois que la taille augmente d'un inch, le poids augmente de 4 livres.

reg4f.gif

Le tabeau suivant présente l'analyse des résidus. Une attention particulière doit être portée aux résidus centrés réduits, qui, étant données les hypothèses liées à la régression linéaire, doivent être distribués suivant une loi normale N(0,1). Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donné le faible nombre de données dont on dispose ici, toute valeur en dehors de cet intervalle est révélatrice d'une donnée suspecte. Afin de mettre en évidence rapidement les valeurs se trouvant hors de l'intervalle [-1.96, 1.96], nous avons utilisé l'outil DataFlagger de XLSTAT.

Sur les 111 observations, cinq (26, 38, 64, 69, 77) sont hors de l'intervalle [-1.96, 1.96]. Cette analyse des résidus n'invalide donc pas l'hypothèse de normalité.

Le premier graphique permet de visualiser les données, la droite de régression, et les deux intervalles de confiance (le plus proche de la courbe est l'intervalle autour de la moyenne de l'estimateur, le second est l'intervalle autour de l'estimation ponctuelle aussi appelé intervalle de prédiction). On voit ainsi clairement une tendance linéaire, mais avec une forte variabilité autour de la droite. Les 5 valeurs suspectes sont en dehors du second intervalle de confiance.

reg5f.gif

Le troisième graphique semble indiquer que les résidus croissent en fonction du poids.

reg6f.gif

L'histogramme des résidus centrés réduits permet quant à lui de repérer rapidement et visuellement la présence de valeurs hors de l'intervalle [-2, 2].

reg7f.gif

En conclusion, la taille permet d'expliquer 56% de la variabilité du poids. Pour expliquer la variabilité restante, d'autres sources de variabitité doivent donc être prises en compte dans le modèle. Dans le tutoriel sur la régression linéaire multiple, l'âge est ajouté comme seconde variable explicative.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283