Regresión Ridge en Excel
Esta guía nos explica como configurar e interpretar la regresión Ridge en Excel usando el programa XLSTAT.
Juego de datos para la Regresión Ridge
Los datos provienen de Osborne and al. (1984). El juego de datos contiene las discretizaciones de los infrarrojos cercanos de 30 cookies. La longitud de onda de cada espectro varía desde 1100 hasta 2460 nanómetros con un paso de 40 nanómetros. Así tenemos 35 variables explicativas en el juego de datos. La tabla de datos también contiene la proporción de agua en cada cookie.
Objetivo de la guia
El objetivo de esta guía es configurar e interpretar una regresión Ridge en el juego de datos de los cookies.
Configurar una regresión Ridge en XLSTAT
Después de haber abierto XLSTAT, haga clic en Modelación de datos/Regresión Ridge.
El cuadro de diálogo de la regresión Ridge aparece.
Ahora puede seleccionar sus datos en la hoja de Excel. Aquí, la variable dependiente (o variable a modelar) es la proporción de agua en los cookies.
Las variables cuantitativas explicativas corresponden a las columnas L1 hasta L35. Aquí queremos explicar la variabilidad de la proporción de agua en los cookies en función de los espectros.
Solo los 20 primeros cookies del juego de datos son seleccionados para la modelación. Vamos a utilizar los otros para predecir.
Tenemos que activar la casilla Etiquetas de las variables, y también la casilla Etiquetas de las Observaciones para seleccionar las etiquetas de los cookies.
En la pestaña Opciones, tenemos que utilizar la Validación cruzada para encontrar el parámetro lambda optimal para la regularización. Elegimos 5 bloques para la Validación cruzada y probar 100 valores de lambda diferentes.
En la pestaña Predicción, selecciona los datos que sirven para la predicción. Aquí vamos a seleccionar los últimos 10 cookies en el juego de datos.
Configura la pestaña Resultados así:
En la pestaña Gráficos, puede activar la opción Evolución de la MSE (Validación cruzada) que permite observar la evolución de la MSE (Error cuadrático medio) dependiendo del parámetro de regularización.
Las computaciones empiezan después de haber hecho clic en el botón OK.
Interpretar la régression Ridge
La tabla “Parámetros del modelo” nos da detalles sobre el modelo. Esta tabla sirve cuando necesitamos predecir o analizar la importancia de cada variable en el modelo. Podemos ver que todas las 35 variables han sido conservadas en el modelo con coeficientes demasiado pequeños y homogéneos.
El siguiente gráfico muestra la evolución de la MSE dependiendo del parámetro de regularización Lambda. La valor de Lambda seleccionada por XLSTAT es la que minimiza el MSE, aproximadamente 0.133.
La última tabla nos muestra las predicciones del modelo de la proporción de agua en los 10 últimos cookies.
Conclusion sobre la régression Ridge
Por fin, la regresión Ridge es diferente de la regresión LASSO y ha modelado la proporción de agua en los cookies basándose en todas las 35 variables. También, contrariamente a la regresión LASSO, ninguna variable se distingue con un coeficiente largo en el modelo construido por la regresión Ridge.
¿Ha sido útil este artículo?
- Sí
- No