Solution d'analyse de données

Régression linéaire multiple dans Excel

01/11/2017

Ce tutoriel explique comment mettre en place et interpréter une régression linéaire multiple dans Excel avec XLSTAT.

Jeu de données pour la réalisation d'une régression linéaire multiple

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Les données proviennent de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants, décrits par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre = 0.45 kg).

But de ce tutoriel sur la régression linéaire multiple

En utilisant la régression linéaire multiple, notre but est d'étudier comment le poids varie en fonction de la taille et de l'âge, et si une relation linéaire a un sens. Nous nous limitons ici au cas des filles.

Il s'agit ici d'une régression linéaire multiple, car deux variables explicatives sont utilisées (la taille et l'âge).

Dans un tutoriel sur la Régression simple cet exemple est traîté avec seulement la taille comme variable explicative. Un tutoriel sur l'ANCOVA reprend cet exemple afin d'ajouter le sexe (variable qualitative) comme variable explicative, et les données concernant les garçons sont alors prises en compte.

Paramétrer une régression linéaire multiple

Une fois XLSTAT lancé, choisissez la commande XLSTAT / Modélisation / Régression linéaire.
XLSTAT Menu

Une fois le bouton cliqué, la boîte de dialogue correspondant à la régression apparaît.

Dans l'onglet Général, vous pouvez alors sélectionner les données sur la feuille Excel.

La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis le "poids".

Les variables quantitatives explicatives sont ici la "taille" et l'"âge". On veut ici expliquer la variabilité du poids par celle de la taille et de l'âge.

L'option Libellés des variables est laissée activée car la première ligne des colonnes comprend le nom des variables.

Dans l'onglet Sorties, nous laissons l'option Prédictions et résidus sélectionnée car nous analyserons les prédictions et les résidus pour valider l'hypothèse de normalité de la régression, et pour identifier des valeurs extrêmes.

Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.

Interpréter les résultats de la régression linéaire multiple

Le premier tableau de résultats fournit les coefficients d'ajustement du modèle. Le R² (coefficient de détermination) donne une idée du % de variabilité de la variable à modéliser, expliqué par les variables explicatives. Plus ce coefficient est proche de 1, meilleur est le modèle.

reg22f.gif

Dans notre cas, 59% de la variabilité est expliquée par la taille et l'âge. Le reste de la variabilité est dû à des effets (autres variables explicatives) qui ne sont pas pris en compte dans cet exemple. Dans le tutoriel sur la régression simple, nous avons vu que l'utilisation de la taille dans le modèle expliquait déjà 56%. L'apport de la variable âge est donc faible.

Le tableau d'analyse de la variance est un résultat qui doit être analysé attentivement (voir ci-dessous). C'est à ce niveau que l'on teste si l'on peut considérer que les variables explicatives sélectionnées (la taille et l'âge) apportent une quantité d'information significative au modèle (hypothèse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la variable à modéliser (le poids) suffirait à décrire les résultats obtenus ou non.

reg23f.gif

Le test du F de Fisher est utilisé. Etant donnée que la probabilité associée au F est dans ce cas inférieure à 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en concluant que les variables explicatives apportent une quantité d'information significative au modèle.

Le tableau suivant fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions, des simulations ou s'il doit être comparé à d'autres résultats, par exemple les coefficients que l'on obtiendrait pour les garçons. Nous voyons que la p-value associé au test de Student pour l'âge est d'environ 0.01, et que l'intervalle de confiance à 95% associé frôle la valeur 0. Cela confirme le faible impact de l'âge sur le modèle. L'équation du modèle est donnée sous le tableau. Le modèle indique que dans les limites de l'intervalle de variation de la variable taille et de la variable âge données par les observations, à chaque fois que la taille augmente d'un inch, le poids augmente de 3.6 livres, et à chaque fois que l'âge augmente d'un mois, le poids augmente de 0.2 livres.

reg24f.gif

Le tabeau suivant présente l'analyse des résidus. Une attention particulière doit être portée aux résidus centrés réduits, qui, étant données les hypothèses liées à la régression linéaire, doivent être distribués suivant une loi normale N(0,1). Cela signifie, entre autres, que 95% des résidus doivent se trouver dans l'intervalle [-1.96, 1.96]. Etant donné le faible nombre de données dont on dispose ici, toute valeur en dehors de cet intervalle est révélatrice d'une donnée suspecte. Afin de mettre en évidence rapidement les valeurs se trouvant hors de l'intervalle [-1.96, 1.96], nous avons utilisé l'outil DataFlagger de XLSTAT. Nous pouvons ici identifier huit observations suspectes sur 111 observations, soit 7% au lieu de 5%, ce qui ne semble pas aberrant, mais qui pourrait nécessiter une analyse plus poussée.

Le premier graphique permet de visualiser les résidus centrés réduits en fonction du Poids. Il semble indiquer que les résidus croissent en fonction du poids. L'histogramme des résidus centrés réduits permet de repérer rapidement et visuellement la présence de valeurs hors de l'intervalle [-2, 2].

reg25f.gif

En conclusion, la taille et l'âge permettent d'expliquer 59% de la variabilité du poids. Néanmoins l'âge n'a pas permis d'améliorer sensiblement le résultat obtenu avec la seule variable taille. D'autres variables doivent donc être prises en compte dans le modèle pour expliquer les variations du poids. Dans le tutoriel sur l'ANCOVA, le sexe est ajouté comme variable qualitative explicative.

La vidéo ci-dessous vous montre comment faire une régression multilinéaire dans XLSTAT.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283