Su solución de análisis de datos

Regresión Lineal Simple: tutorial en Excel

06/06/2017

Este tutorial le mostrará cómo configurar e interpretar una regresión lineal simple en Excel usando el software XLSTAT. La regresión lineal simple se basa en los  Mínimos Cuadrados Ordinarios (Ordinary Least Squares, OLS)
¿No está seguro si esta característica de modelado es la que está buscando? Consulte por favor esta guía.

Datos para ejecutar una regresión lineal simple

Una hoja Excel que contiene los datos y de resultados de este ejemplo puede ser descargado haciendo clic aquà­. Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Corresponden a 237 niños detallados por su sexo, su edad en meses, su estatura en inch (1 inch = 2.54 cm), y su peso en libras (1 libra = 0.45 kg).
 

Objetivo de este tutorial

En utilizar la regresión lineal simple, nuestro objetivo es estudiar como el peso varà­a en función de la estatura, y si una relación lineal tiene una orientación. Se trata aquà­ de una regresión lineal simple, porque una sola variable explicativa es utilizada (la estatura). En un tutorial sobre la regresión lineal multiple, este ejemplo es reproducido con el fin de estudiar la influencia de la edad sobre está relación. Un tutorial sobre el ANCOVA reproduce este ejemplo con el fin de añadir el sexo (variable cualitativa) como variable explicativa, y los datos que corresponden a los varones son entonces tomados en cuenta.
 

Configuración de una regresión lineal simple

Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelación de datos/Regresión o haga clic en el botón "Regresión" de la barra de herramientas "Modelación".

barrege.gif

Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a la regresión. Puede elegir entonces los datos en la hoja Excel. La "Variable dependiente" corresponde a la variable explicada, es decir en este caso preciso, el peso. La variable cuantitativa explicativa es aquà­ la estatura. Queremos explicar aquà­ la variabilidad del peso por la de la estatura. La opción "Etiquetas de las variables" se deja activada ya que la primera là­nea de columnas incluye el nombre de las variables.

reg1e.gif

Una vez que haga clic en el botón OK, los cálculos empiezan y los resultados son visualizados.

Interpretación de los resultados de una regresión lineal simple

El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R’² (coeficiente de determinación) proporciona una idea del % de variabilidad de la variable a modelizar, explicado por la variable explicativa. Mientras más cerca está de 1 este coeficiente, mejor es el modelo.

reg2e.gif

En nuestro caso, 60% de la variabilidad del peso es explicada por la estatura. El resto de la variabilidad es debido a efectos (variables explicativas) que no son tenidos en cuenta en este ejemplo.

El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado (ver a continuación). Es en este nivel que comprobamos si podemos considerar que la variable explicativa seleccionada (la estatura) originan una cantidad de información significativa al modelo (hipótesis nula H0) o no. En otros términos, es una manera de comprobar si la media de la variable a modelizar (el peso) bastarà­a con describir los resultados obtenidos o no.

reg3e.gif

La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso, es inferior de 0.0001, significa que nos arriesgamos de menos del 0.01% concluyendo que la variable explicativa origina una cantidad de información significativa al modelo.

El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el modelo debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a otros resultados, por ejemplo los coeficientes que obtendrà­amos para los varones. Vemos que si el parámetro de la estatura tiene un intervalo de confianza bastante restringido, el de la constante del modelo es bastante importante. La ecuación del modelo es proporcionada abajo del cuadro. El modelo enseña que en los là­mites proporcionados por las observaciones del intervalo de la variable tamaño, cada vez que la estatura aumenta de un inch, el peso aumenta de 3.8 libras.

reg4e.gif

El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos deben tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal, deben ser distribuidos según una ley normal N(0,1). Eso significa, entre otros, que 95% de los residuos deben encontrarse en el intervalo [-1.96, 1.96]. Dado que el escaso número de datos del que disponemos aquà­, cualquier valor fuera de este intervalo es revelador de un dato sospechoso. Hemos utilizado la herramienta DataFlagger de XLSTAT, con el fin de demostrar rápidamente los valores que se encuentran fuera del intervalo [-1.96, 1.96].

Podemos aquà­ identificar nueve observaciones dudosas, en 237 observaciones. Este análisis de los residuos no anula la hipótesis de normalidad.

El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos de confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva, el segundo es el intervalo alrededor de la estimación puntual). Vemos asà­ claramente una tendencia lineal, pero con una intensa variabilidad alrededor de la recta. Los 9 valores sospechosos están fuera del segundo intervalo de confianza.

reg5e.gif

El tercer grafico permite analizar si hay una relación entre la variable explicativa y los residuos. Una de las hipótesis del modelo, es que no debe haber ninguna relación.

reg6e.gif

El grafico siguiente permite comparar las prediccionses con la observaciones.

reg7e.gif

El histograma de los residuos estandarizados permite señalar rápidamente y visualmente la presencia de valores fuera del intervalo [-2, 2].

reg8e.gif

Conclusión de esta regresión lineal simple

En conclusión, la estatura permite explicar 60% de la variabilidad del peso. Para explicar la variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el modelo. En el tutorial sobre la regresión lineal múltiple, la edad es añadida como segunda variable explicativa.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283