Aller au contenu principal

Test de Shapiro-Wilk et d'autres tests de normalité dans Excel

Ce tutoriel explique comment mettre en place et interpréter un test de Shapiro-Wilk ainsi que d'autres tests de normalité dans Excel avec XLSTAT.

Jeu de données pour mettre en place un test de Shapiro-Wilk et d'autres tests de normalité

Les données contiennent les notes moyennes de deux groups d'élèves en mathématiques. Chaque groupe inclut 1000 élèves et provient d'une école différente. Le but est d'utiliser les tests de normalité pour tester la normalité des deux échantillons.

But de ce tutoriel

Le but de ce tutoriel est de savoir si cet ensemble de données suit une distribution normale.

Paramétrer un test de Shapiro-Wilk et d'autres tests de normalité

  • Une fois XLSTAT ouvert, cliquez sur Décrire les données / Tests de normalité.

  • Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît.

  • Sélectionnez les deux échantillons dans le champ Données.

  • Dans l'onglet Graphiques, l'option Q-Q plot est activée pour nous permettre de vérifier visuellement la normalité des échantillons.

  • Les calculs commencent une fois que vous avez cliqué sur le bouton OK, et les résultats sont affichés sur une nouvelle feuille.

Interprétation des résultats des tests de normalité

Il est utile de se rappeler pourquoi nous devons effectuer un test de normalité. Les tests de normalité permettent de savoir si votre ensemble de données suit une distribution normale. De plus, la normalité des résidus est une hypothèse requise dans des méthodes de modélisation courantes. Les tests de normalité impliquent l'hypothèse nulle selon laquelle la variable dont l'échantillon est tiré suit une distribution normale. Ainsi, une valeur p faible indique un faible risque de se tromper en affirmant que les données ne sont pas normales. En d'autres termes, si la valeur p < seuil de risque alpha, les données sont significativement non normales. Et, comment fonctionnent les tests de normalité ?
Nous calculons la statistique de test ci-dessous sur notre ensemble de données :

W=(i=1naix(i))2i=1n(xixˉ)2W=\dfrac{(\sum_{i=1}^na_ix_{(i)})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}

Si ses valeurs sont inférieures aux limites définies dans le tableau de Shapiro-Wilk pour un seuil alpha donné, alors la valeur p associée est inférieure à alpha et l'hypothèse nulle est rejetée, ce qui signifie que les données ne suivent pas une distribution normale.

Les résultats sont d'abord fournis pour le premier échantillon, puis pour le second.

Le premier résultat affiché est le Q-Q plot pour le premier échantillon. Le Q-Q plot permet de comparer la fonction de répartition de l'échantillon (en abscisse) à celle qu'aurait une loi normale de même moyenne et même variance (en ordonnées). Dans le cas d'un échantillon issu d'une distribution normale, on doit observer un alignement presque parfait avec la première bissectrice du plan. Dans le cas contraire des écarts doivent être observés.


Nous voyons ici que la fonction de répartition empirique est très proche de la bissectrice.

Les tests de Shapiro-Wilk et de Jarque-Bera confirment que l'on ne peut pas rejeter l'hypothèse de normalité de l'échantillon. On notera qu'avec le test de Shapiro-Wilk, le risque de se tromper en rejetant l'hypothèse serait plus important qu'avec le test de Jarque-Bera.


Les résultats qui suivent concernent le second échantillon, avec dans un premier temps, le Q-Q plot.

Contrairement à ce que nous avons observé pour le premier échantillon, nous remarquons ici un fort écart à la normalité.

Cet écart est confirmé par les tests ci-dessous qui permettent d'affirmer sans hésitation que l'on doit rejeter l'hypothèse de normalité de l'échantillon.

Conclusion

En conclusion, dans ce tutoriel, nous avons appliqué les tests de Shapiro-Wilk et celui de Jarque-Bera pour tester la normalité de deux échantillons. Les tests n'ont pas rejeté l'hypothèse de normalité pour le premier échantillon, alors qu'ils l'ont infirmée pour le second échantillon.

Cet article vous a t-il été utile ?

  • Oui
  • Non