Aller au contenu principal

Tests d'hétéroscedasticité (Breusch-Pagan / White) dans Excel

Jeu de données pour les tests d’hétéroscédasticité de Breusch-Pagan et de White avec XLSTAT

Dans ce tutoriel, nous utilisons un jeu de données généré artificiellement afin de comparer un modèle présentant une homoscédasticité des résidus à un autre modèle avec des résidus caractérisés par une forte hétéroscédasticité. Les données correspondent à une expérience dont le but est de tester l’effet de l’âge sur la teneur en sucre et sur la taille d’une nouvelle variété de fruit.

Deux régressions linéaires simples ont été effectuées en considérant l’âge en tant que variable explicative. Les deux régressions avaient pour variable à expliquer la teneur en sucre et la taille, respectivement. Les résidus issus des deux régressions sont affichés dans le jeu de données.

La première régression (teneur en sucre) présente de l’homoscédasticité et la deuxième une forte hétéroscédasticité.

Afin de comprendre la manière dont les données ont été générées techniquement, veuillez vous référer à la dernière section de ce tutoriel.

But de ce tutoriel

Le but de ce tutoriel est d’examiner si la variabilité d’une variable à expliquer (exemples : teneur en sucre ou taille) change en fonction d’une variable explicative (exemple : âge) au sein d’une régression linéaire. Techniquement, on se demande si les résidus sont hétérogènement répartis le long de la variable explicative. Si tel est le cas, on parle d’hétéroscédasticité. Souvent, la taille d’un organisme peut devenir de plus en plus variable avec l’âge. Il suffit de comparer des bébés à des adultes : les bébés ont des tailles très « standard » alors que l’on observe une bien plus grande variabilité de taille chez les adultes. Il s’agit d’un cas typique d’hétéroscédasticité.

Nous utiliserons les tests d’hétéroscédasticité de Breusch-Pagan et de White dans deux situations extrêmes : homoscédasticité et forte hétéroscédasticité.

Tests d’hétéroscédasticité de Breusch-Pagan et de White : quelle est l'hypothèse testée?

Les tests d’hétéroscédasticité impliquent les deux hypothèses suivantes :

H0 (hypothèse nulle) : homoscédasticité.

Ha (hypothèse alternative) : hétéroscédasticité.

Par conséquent, si la p-value associée à un test d’hétéroscédasticité se trouve en-dessous d’un certain seuil (exemple : 0.05), on pourra dire que les données s’écartent significativement de l’homoscédasticité.

Tests d’hétéroscédasticité de Breusch-Pagan et de White : pratique avec XLSTAT

Après avoir ouvert le menu XLSTAT, cliquez sur XLSTAT-Time / Tests d’hétéroscédasticité. Sélectionnez la colonne Résidus(Sucre) dans la boîte Résidus et la colonne Age dans la boîte variables explicatives. Activez l’option « test de White » puis cliquez sur OK pour lancer les calculs. Les résultats de cette première analyse s’affichent dans une nouvelle feuille.

Heteroscedasticity tests dialog box fr

Répétez la même démarche en utilisant la colonne Résidus(Taille) dans la boîte Résidus.

Interprétation

Pour la variable teneur en sucre, le graphique des résidus / Age affiche une répartition relativement homogène des résidus le long de l’axe représentant l’âge.

Heteroscedasticity: Sugar fr residuals/Age chart

De plus, les deux tests fournissent des p-values élevées (0,322 pour le test de Breusch-Pagan et 0,296 pour le test de White), suggérant ainsi que nous ne pouvons pas rejeter l’hypothèse nulle d’homoscédasticité des résidus.

Heteroscedasticity: BP test result for sugar content fr

Pour la variable Taille, le graphique des résidus / Age montre une nette augmentation de la variabilité des résidus en fonction de l’âge. Cette forme de cône que peut prendre la répartition des résidus en fonction d’une variable explicative est un cas courant d’hétéroscédasticité.

Heteroscedasticity: Size fr residuals/Age chart

Enfin, les p-values associées aux deux tests sont nettement inférieures au seuil de 0,05. Ceci nous pousse à rejeter l’hypothèse nulle d’homoscédasticité des résidus, confirmant ainsi l’idée qui ressort du graphique.

Heteroscedasticity: BP test result for size fr

Informations supplémentaires : comment le jeu de données a été construit

La variable à expliquer « teneur en sucre » a été générée en additionnant le double de l’âge et une quantité aléatoire issue d’une loi normale centrée sur zéro. Ceci constitue un cas typique où les résidus (la quantité aléatoire) sont indépendants et répartis de manière homogène. La variable Taille a été générée de la même manière, sauf que la quantité aléatoire est multipliée par l’âge à chaque fois. Dans ce cas, les résidus ne sont plus indépendants. Pour plus d’information, veuillez jeter un coup d’œil sur la feuille d’information supplémentaire comprise dans le jeu de données associé au tutoriel.

Cet article vous a t-il été utile ?

  • Oui
  • Non