Pasar al contenido principal

TUTORIAL DEL MODELO MULTINOMIAL LOGIT EN EXCEL

Este tutorial lo ayudará a configurar e interpretar un Regresión multinomial Logit en Excel utilizando el software XLSTAT. ¿No está seguro de que esta sea la función de modelado que está buscando? Consulte esta guía.

¿Qué es un modelo logit multinomial?

El modelo logit multinomial es una generalización del modelo logit clásico para las variables a explicar con más de dos modalidades (este método también se puede llamar regresión logística politómica).

El principio de este modelo es el siguiente: queremos comprender o predecir el efecto de una o más variables sobre una variable cualitativa con múltiples respuestas. Esta variable debe ser una variable categórica desordenada. Todos los cálculos se realizan con relación a una modalidad de referencia (categoría base) que el usuario debe seleccionar. Esto nos ayudará a comprender el impacto de la elección de una modalidad según las variables explicativas con relación a una modalidad fija.

El modelo logit multinomial se utiliza para modelar la probabilidad de que ocurra un evento dados los valores de un conjunto de variables descriptivas cuantitativas y / o cualitativas.

Conjunto de datos para ejecutar un modelo logit multinomial en XLSTAT

El conjunto de datos que utilizamos proviene del libro "Multivariate interpretation of clinical laboratory data” de Adelin Albert y Eugene K. Harris. Este conjunto de datos contiene 218 observaciones de pacientes con enfermedades hepáticas (Plomteux, 1980).

Los pacientes se dividieron en cuatro grupos correspondientes a cuatro tipos de enfermedades hepáticas:

  • Hepatitis viral aguda (grupo 1: 57 pacientes);
  • Hepatitis crónica persistente (grupo 2:44 pacientes);
  • Hepatitis crónica agresiva (grupo 3: 40 pacientes);
  • Cirrosis posnecrótica (grupo 4: 77 pacientes).

El diagnóstico se basó en cuatro enzimas hepáticas (U / L):

  • Aspartato aminotransferasa (X1: abrevia AST);
  • Alanina aminotransferasa (X2: ALT);
  • Glutamato deshidrogenasa (X3: GLDH);
  • y Ornitina carboniltransferasa (X4: OCT).

El diagnóstico de hepatitis viral aguda se basó en los signos clínicos-biológicos clásicos, mientras que todos los demás pacientes fueron diagnosticados después de los hallazgos de la laparoscopia y la biopsia.

Objetivo de este modelo logit multinomial

En nuestro ejemplo, queremos predecir la probabilidad de que un paciente tenga una de las cuatro enfermedades. La variable explicativa incluye cuatro modalidades (grupos) correspondientes a las cuatro enfermedades.

Configuración de un modelo logit multinomial

Para activar el cuadro de diálogo del modelo logit multinomial, inicie XLSTAT, luego seleccione XLSTAT / Modelación de datos / Regresión logística. imagen.png Una vez que haya hecho clic en el botón, aparecerá el cuadro de diálogo. El modelo logit multinomial se activa seleccionando la opción multinomial como Tipo de respuesta.

Seleccione los datos en la hoja de Excel. El dato de la(s) Variable(s) respuesta corresponde a la columna en la que se ubica la variable a explicar, en este caso la columna Group.

En este ejemplo, hay cuatro variables explicativas cuantitativas correspondientes a las cuatro enzimas AST, ALT, GLDH, OCT.

Como hemos seleccionado las etiquetas de las variables, debemos activar la opción Etiquetas de las variables.

Seleccionamos la Modalidad 4 como modalidad de control. Esto no influye en los cálculos y predicciones, sino solo en la forma en que se escriben las ecuaciones del modelo. imagen.png Hay muchas otras opciones disponibles en el resto de las pestañas del cuadro de diálogo (para obtener más detalles, consulte la Ayuda de XLSTAT).

Una vez que haya hecho clic en el botón OK, comienzan los cálculos y se muestran los resultados.

Interpretar los resultados de un modelo logit multinomial

La tabla de estadísticas de bondad del ajuste proporciona varios indicadores de la calidad del modelo. Estos resultados son equivalentes al R² de la regresión lineal y la tabla ANOVA. El valor más importante es el Chi² asociado con la relación logarítmica (L.R.). Es el equivalente de la prueba F de Fisher del modelo lineal: tratamos de evaluar si las variables proporcionan una cantidad significativa de información para explicar la variabilidad de la variable de respuesta. En nuestro caso, como la probabilidad es inferior a 0,0001, podemos concluir que las variables aportan una cantidad significativa de información.

imagen.png A continuación, la tabla de análisis de Tipo II proporciona los primeros detalles sobre el modelo. Es útil para evaluar la contribución de las variables a la explicación de la variable de respuesta.

imagen.png Según la probabilidad asociada a las pruebas de Chi-cuadrado, las variables que más influyen en la elección del grupo son las enzimas hepáticas AST y ALT.

La tabla de parámetros del modelo nos permite probar, no cada variable globalmente, sino su influencia en cada una de las modalidades en comparación con la de referencia (aquí 4). Así, vemos que, en comparación con la modalidad de referencia, las modalidades 2 y 3 están influenciadas por la variable GLDH, debido a que el coeficiente es significativo (respectivamente 0.048 y 0.018), lo que no es el caso de la modalidad 1 (0.756). Además, tener un valor de GLDH alto influye en tener una mayor probabilidad de tener la enfermedad 3 en comparación con 4 (ya que el coeficiente es positivo, 0,058 y el valor p significativo, 0,018).

imagen.png A continuación, puede ver la tabla Predicciones y residuos. Vemos que la cuarta observación está asociada con el grupo 1, pero el modelo predice que debería pertenecer al grupo 2. De hecho, la probabilidad de estar en el grupo 2 es la más importante y se estima en 0.443 mientras que la probabilidad de estar en el grupo 1, 3 y 4 se estima en 0,122, 0,131 y 0,304 respectivamente.

La columna Cambio significativo indica si la diferencia entre la probabilidad del grupo predicho y la del grupo real es significativa. La última columna Significativo muestra si la probabilidad del grupo predicho es significativamente diferente a las probabilidades estimadas para el resto de los grupos (modalidades). Por ejemplo, en la observación 18, el cambio es significativo más la probabilidad estimada para el grupo 2 (0,667) es significativamente mayor que la de los otros grupos (0,304, 0,019 y 0,011).

Tenga en cuenta que estas dos columnas aparecen si se ha marcado la opción Análisis de significancia en la pestaña "Resultados" del cuadro de diálogo.

imagen.png La tabla de clasificación para la muestra de aprendizaje (también llamada matriz de confusión) muestra el porcentaje de observaciones que están bien clasificadas para cada modalidad (verdaderos positivos y verdaderos negativos). Por ejemplo, las observaciones de las modalidades 1, 2 y 4 estaban bien clasificadas respectivamente en 87,72%, 84,09% y 89,61%, mientras que las observaciones de la modalidad 3 estaban bien clasificadas solo en el 45% de los casos.

El Confusion plot muestra la tabla anterior de forma sintética. Los cuadrados grises en la diagonal representan las observaciones reales para cada modalidad. Los cuadrados naranjas representan las observaciones predichas para cada modalidad. Podemos ver que las superficies de los cuadrados se superponen casi completamente para la modalidad 1 (50 observaciones predichas de 57 observaciones observadas), modalidad 2 (37 observaciones predichas de 44 observaciones observadas) y modalidad 4 (69 observaciones predichas de 77 observaciones observadas contrariamente a la modalidad 3 (18 observaciones predichas de 40 observaciones observadas). imagen.png Finalmente, las dos últimas tablas consideran la incertidumbre. La primera tabla muestra que, para 12 observaciones, el valor inicial es la modalidad 3, el valor de predicción es la modalidad 4 y el significado es "Sí" (consulte la tabla Predicciones y residuales para encontrar estos números). En otras palabras, hay 12 observaciones para las que la modalidad predicha es significativa.

Aproximadamente la mitad (52,50%) de los valores predichos por el modelo para la modalidad 3 pueden considerarse inciertos, mientras que en el caso de la modalidad 1 los valores predichos por el modelo son los menos inciertos ya que el porcentaje de incertidumbre se estima en 12,28%. imagen.pngFinalmente, la última tabla indica que el 62,39% de las observaciones estaban bien clasificadas (verdaderos positivos), el 26,61% tenían una clasificación incierta y el 11,01% estaban mal clasificadas (falsos positivos y falsos negativos). El GCI (Goodness of Classification Index) es del 64,68%, lo que significa que la calidad predictiva de este modelo de clasificación es satisfactoria. imagen.png

¿Ha sido útil este artículo?

  • No