Pasar al contenido principal

Pruebas de normalidad en Excel

En este tutorial vamos a ejecutar pruebas de normalidad sobre ambas muestras en Excel usando XLSTAT.

Conjunto de datos de ejecución de una prueba de normalidad

Los datos representan dos muestras, cada una de las cuales contiene la puntuación media en matemáticas de 1000 alumnos.

Objetivo de este tutorial

El objetivo de este tutorial es saber si este conjunto de datos sigue una distribución normal.

Configuración de la prueba de normalidad

  • Una vez abierto XLSTAT, haga clic en Describir datos / Pruebas de normalidad.

  • Una vez que haya hecho clic en el botón, aparecerá el cuadro de diálogo.

  • Seleccione las dos muestras en el campo Datos.

  • En la pestaña Gráficos, la opción Gráfico Q-Q está activada para permitirnos comprobar visualmente la normalidad de las muestras.

  • Los cálculos comienzan una vez pulsado el botón OK, y los resultados se muestran en una nueva hoja.

Interpretación de los resultados de la prueba de normalidad

Conviene recordar por qué es necesario realizar una prueba de normalidad. Las pruebas de normalidad permiten saber si el conjunto de datos sigue una distribución normal. Además, la normalidad de los residuos es un supuesto necesario en los métodos habituales de modelización estadística. Las pruebas de normalidad implican la hipótesis nula de que la variable de la que se extrae la muestra sigue una distribución normal. Así, un valor p bajo indica un riesgo bajo de equivocarse al afirmar que los datos no son normales. En otras palabras, si el valor p < umbral de riesgo alfa, los datos son significativamente no normales. ¿Y cómo funcionan las pruebas de normalidad?

Calculamos el estadístico de la prueba a continuación en nuestro conjunto de datos :

W=(i=1naix(i))2i=1n(xixˉ)2W=\dfrac{(\sum_{i=1}^na_ix_{(i)})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}

Si sus valores están por debajo de los límites definidos en la tabla de Shapiro-Wilk para un umbral alfa establecido, entonces el valor p asociado es inferior a alfa y se rechaza la hipótesis nula y los datos no siguen una distribución normal.

Los resultados se muestran primero para la primera muestra y luego para la segunda muestra.

El primer resultado que aparece es el gráfico Q-Q para la primera muestra. El gráfico Q-Q permite comparar la función de distribución acumulativa (CDF, cumulative distribution function) de la muestra (eje de abscisas) con la función de distribución acumulativa de una distribución normal con la misma media y desviación estándar (eje de ordenadas). En el caso de una muestra que siga una distribución normal, se debe observar una alineación con la primera línea bisectriz. En los demás casos se deben observar algunas desviaciones de la línea bisectriz.


Podemos ver aquí que la función de distribución empírica está muy cerca de la línea bisectriz. Las pruebas de Shapiro-Wilk y Jarque-Bera confirman que no podemos rechazar la hipótesis de normalidad de la muestra. Nos damos cuenta de que con la prueba de Shapiro-Wilk, el riesgo de equivocarse al rechazar la hipótesis nula es mayor que con la prueba de Jarque-Bera.

Los siguientes resultados corresponden a la segunda muestra. Al contrario de lo que hemos observado en la primera muestra, nos percatamos de que en en el gráfico Q-Q hay dos desviaciones fuertes que indican que la distribución es muy probablemente no normal.


Esta brecha es confirmada por las pruebas de normalidad (ver más abajo) que permiten afirmar sin dudas que tenemos que rechazar la hipótesis de que la muestra podría tener una distribución normal.

Conclusión

A modo de conclusión, en este tutorial hemos visto cómo generar dos muestras, una ajustada a una distribución normal, y otra ajustada a una distribución uniforme. A continuación confirmamos sobre estas muestras la validez de las pruebas de Shapiro-Wilk y Jarque-Bera: estas pruebas han confirmado la hipótesis de normalidad para la primera muestra, y nos han permitido rechazarla para la segunda muestra.

¿Ha sido útil este artículo?

  • No