Su solución de análisis de datos

Modelo cluster de clases latentes en Excel

17/05/2016

Este tutorial le mostrará cómo ejecutar un Modelo de clusters de clases latentes (Latent Class cluster model) en Excel usando el software estadístico XLSTAT.

Modelos cluster de Clases Latentes: descripción general

En este tutorial, usaremos 4 indicadores categóricos para mostrar cómo estimar modelos de clusters de Clases Latentes e interpretar los resultados. Si desea consultar análisis relacionados con estos datos, puede ver McCutcheon (1987), Magidson & Vermunt (2001) , and Magidson & Vermunt (2004).
En este tutorial aprenderá a:
  • Configurar y estimar modelos tradicionales (clusters) de clases latentes
  • Explorar qué modelos se ajustan mejor a los datos
  • Generar e interpretar resultados y gráficos
  • Obtener ecuaciones de regresión para calificar nuevos casos

Datos para estimar modelos cluster de Clases Latentes en XLSTAT

Puede descargar una hoja de Excel con los datos y resultados haciendo clic aquí.
Los datos consisten en respuestas de 1202 casos a cuatro variables categóricas (FINALIDAD, EXACTITUD, COMPRENSIÓN y COOPERACIÓN). La variable FREC se usa para denotar la frecuencia observada en cada patrón de respuesta específico. En la Figura 1 se ofrece una muestra de los datos.

lg cluster data

Figura 1: Datos (se muestran las primeras 12 columnas)*

*Fuente: 1982 General Social Survey Data National Opinion Research Center

Objetivo de este tutorial sobre modelos cluster de Clases Latentes

Identificar claramente diferentes tipos de respondientes a la encuesta (clusters) utilizando dos variables que se cercioran sobre la opinión del entrevistado acerca de la finalidad de las encuestas (FINALIDAD) y cuán precisas son (EXACTITUD), y dos variables adicionales que son las evaluaciones hechas por el entrevistador acerca de los niveles que los encuestados tienen de comprensión de las preguntas de la encuesta (COMPRENSIÓN) y la cooperación que se muestran en responder a las preguntas (COOPERACIÓN). Más específicamente, nos centraremos en los criterios para elegir el número de clases (grupos), y cómo los encuestados son clasificados en estos grupos.

Configuración de un modelo cluster de Clases Latentes en XLSTAT

Para activar el cuadro de diálogo de los modelos XLSTAT cluster de clases latentes, seleccione el comando XLSTAT-LatentClass / Clasificación por clases latentes en el menú Excel (véase Figura 2).

lg menu

Figura 2: Abrir Clasificación por clases latentes XLSTAT
Tras hacer clic en el botón, se muestra el cuadro de diálogo XLSTAT-Clasificación por clases latentes.
Se abre el cuadro de diálogo que contiene 5 pestañas (véase Figura 3).

lg cluster dialog box

Figura 3: Pestaña General

Para este análisis, usaremos las 4 variables (FINALIDAD, EXACTITUD, COMPRENSIÓN y COOPERACIÓN) como indicadores. Puesto que estos 4 indicadores con variables categóricas con un pequeño número de categorías, usaremos la variable opcional ponderada “FREC”, que agrupa muchos patrones duplicados de respuesta, reduciendo el tamaño de los datos de entrada a un número de registros relativamente pequeño. De forma alternativa, podríamos obtener resultados equivalentes usando 1 registro de datos para cada uno de los 1202 casos.

En el campo Tabla de observaciones / Nominales seleccionamos las variables FINALIDAD, EXACTITUD, COMPRENSIÓN y COOPERACIÓN.

En el campo Pesos de las observaciones, seleccionamos la variable FREC.

Para determinar el número de clusters, vamos a estimar 4 modelos de clusters diferentes, especificando para cada uno un número de clusters diferente. Como norma general, una buena forma de empezar es estimar todos los modelos entre 1 y 4 clusters.

Debajo de Número de clusters, en la caja titulada “de:” escribimos “1”; en la caja titulada “a:” escribimos 4. Así, solicitamos la estimación de 4 modelos de 1, 2, 3 y 4 clusters.

El cuadro de diálogo debería ser así:

lg cluster dialog box filled

Figura 4: Pestaña General

Tras hacer clic en OK, comienzan los cálculos.

Interpretación del resultado del modelo de análisis cluster de Clases Latentes

Cuando XLSTAT-LatentClass completa la estimación, se producen 5 hojas de cálculo: una hoja con el resumen de los clusters, y una para cado uno de los modelos estimados (modelo de 1 clase (LCC-1 Class), de 2 clases (LCc-2 Classes), de 3 clases (LCC-3 classes) y de 4 clases (LCC-4 classes)).

La hoja de resumen de cluster de clases latentes ofrece un resumen de todos los modelos estimados. El estadístico L2, como se muestra en la Figura 5 en la columna denominada “L2”, indica la cantidad de asociación entre las variables que permanece sin explicar después de estimar el modelo; mientras más bajo sea el valor, mejor es el ajuste del modelo a los datos. Un criterio para determinar el número de clusters es examinar la columna “valor p”, que proporciona el valor p de cada modelo bajo la asunción de que el estadístico L2 sigue una distribución chi-cuadrado, y seleccionar el modelo más parsimonioso (modelo con menor número de parámetros) que proporcione un ajuste adecuado (p > .05). Usando este criterio, el mejor modelo es el número 3, esto es, el modelo de 3 clusters con 20 parámetros (p = 0.105).

Los más generales Criterios de Información (BIC, AIC, AIC3) también favorecen a los modelos parsimoniosos, pero este enfoque no requiere que L2 siga una distribución chi-cuadrado, y es válido incluso cuando uno o más indicadores sean continuos o los datos estén dispersos debido a la existencia de muchos indicadores. Usando este enfoque simplemente tendríamos que seleccionar el modelo con el valor más bajo. Por ejemplo, el modelo con menor BIC es de nuevo el de 3 clases (BIC = 5651.121).


lg latent class clustering output

Figura 5. Resumen de los modelos estimados

Haga clic en la hoja “LCC-3 Clusters” para ver la salida del modelo de 3 clusters.

A continuación de los estadísticos resumen para el modelo de 3 clases, se presentan varios resultados adicionales, incluyendo la salida Perfil, en la que los parámetros del modelo para cada clase se expresan como probabilidades condicionales.

Desplácese hacia abajo desde el resumen de estadísticos para ver la salida del Perfil (véase Figura 6).

lg latent class clustering output 2

Figura 6. Salida de perfil del modelo de 3 clusters
Los clusters se ordenan automáticamente de acuerdo con el tamaño de la clase. En conjunto, el cluster 1 contiene el 62% de los casos, el cluster 2 contiene el 20% y el restante 18% está en el cluster 3. Las probabilidades condicionales muestran las diferencias en los patrones de respuesta que diferencian los clusters. Por ejempo, los respondientes del cluster 3 tienen una probabilidad mucho más alta de responder que las encuestas son una pérdida de tiempo (FINALIDAD = “3” / FINALIDAD = “pérdida de tiempo”) y que los resultados de la encuesta no son verdaderos (PRECISIÓN = “2” / PRECISIÓN = “no verdadero”) que los otros 2 clusters. Para ver estas probabilidades gráficamente, desplácese hacia abajo hasta Gráfico del Perfil.
Se muestra el gráfico de perfil del modelo de 3 clusters:

lg latent class clustering profile plot

Figura 7: Gráfico de perfil del modelo de 3 clusters

Clasificación de casos en clusters utilizando la asignación modal

Desplácese hacia abajo para ver la salida de Clasificación:

lg latent class clustering: classification output

Figura 8: Clasificación del modelo de 3 clusters

La primera fila de la salida Clasificación muestra que Obs1, que representa todos los casos con el patrón de respuesta (FINALIDAD = buena/1, PRECISIÓN = muy verdadero/1, COMPRENSIÓN = buena/1, COOPERACIÓN = buena/1) es clasificada en el cluster 1 porque la probabilidad de pertenecer a esta clase es la más alta (.920). En la columna titulada “Cluster”, Obs1 se le da el valor “1”, indicando su asignación al cluster 1.

Observe que, cuando los casos se clasifican en clusters usando la regla de asignación modal, está presente cierta cantidad de error que hace la clasificación incorrecta. El error de clasificación esperado puede calcularse mediante una clasificación cruzada de las clases modales por las clases probabilísticas reales. Esto se hace en la Tabla de Clasificación. En la Figura 9 puede verse la tabla correspondiente al modelo de 3 clases. Para este modelo, la regla de asignación modal esperaría clasificar correctamente 704.0219 casos del verdadero cluster 1, 163.8089 del cluster 2 y 176.2545 del cluster 3 para un total esperado de 1044.085 clasificaciones correctas de los 1202 casos. Esto representa una tasa de clasificación errónea del 13.13% [(1 - 1044.085)/1202]. 

lg latent class summary classification table

Figura 9: Tabla de clasificación del modelo de 3 clusters

Observe también que los tamaños esperados de los clusters nunca son perfectamente reproducidos por la asignación modal. La Tabla de Clasificación de la Figura 9 muestra que 67.0% de los casos totales (805 de los 1202) son asignados al cluster 1 usando la asignación modal, comparados con el 61.7% esperado para este cluster. (Si los casos fueran asignados a los clusters proporcionalmente a sus probabilidades de formar parte del cluster, esperaríamos que el 61.7% debería clasificarse en el cluster 1).
 

Interpretación de los residuos bivariados en los modelos clusters de clases latentes

Además de las diferentes medidas globales de ajuste del modelo, tenemos disponibles medidas locales (denominadas residuos bivariados) para medir el grado en que la(s) asociaciones de 2 vías entre cada par de indicadores están explicada por el modelo.

Desplácese hacia abajo para ver la salida de los residuos bivariados:

lg latent class clustering BVR

Figura 10: Salida de residuos bivariados para el modelo de 3 clusters

Los residuos bivariados (BVR) corresponden al chi-cuadrado de Pearson dividido por los grados de libertd (DF). El chi-cuadrado se calcula sobre las frecuencias observadas en una tabla de 2 vías usando las frecuencias esperadas obtenidas del modelo estimado. Puesto que el valor esperado de chi-cuadrado bajo la asunción de que las asunciones del modelo son correctas resulta ser igual a los grados de libertad, si el modelo fuera verdadero, los BVRs no deberían ser sustancialmente mayores que 1. El BVR de 2.4 en la Figura 10 sugiere que el modelo de 3 clusters puede quedarse un poco corto en la reproducción de la asociación entre COOPERACIÓN y COMPRENSIÓN.

Por el contrario, los BVRs asociados con el modelo de 4 clusters (se muestra a continuación en la Figura 11) son todos menores que 1. Esto sugiere que el modelo de 4 clusters puede proporcionar una mejora significativa sobre el modelo de 3 clusters en el ajuste del modelo. De este modo, podrían estar justificadas las soluciones tanto de 3 como de 4 clusters, la solución de 3 cluster por BIC y la solución de 4 cluster por los BVRs.

lg latent class cluster model: BVR for 4-class

Figura 11: Salida de residuos bivariados para el modelo de 4 clusters

Interpretación de la ecuación de puntuación

Podemos usar la ecuación de Puntuación para obtener ecuaciones de regresión que posibiliten la calificación de nuevos casos.

Desplácese hacia abajo para ver la salida de la ecuación de Puntuación:

lg latent class clustering scoring equation

Figura 12: Ecuación de puntuación del modelo de 3 clusters

En cada cluster está puntuado cada uno de los patrones de respuesta, y es asignado al cluster con puntuación más alta. Por ejemplo, los casos con el patrón de respuesta Obs1:

Finalidad = 1, Exactitud = 1, Comprensión = 1, Cooperación = 1

pueden puntuarse basándose en los coeficientes resaltados arriba en amarillo. Esto resulta en las siguientes puntuaciones logit:

Puntuación Cluster 1 = 2.916, Puntuación Cluster 2 = 0.457, Puntuación Cluster 3 = -3.373.

Por tanto, este patrón de respuesta es asignado al Cluster 1, el cluster con la puntuación logit más alta. Para obtener puntuaciones más significativas, podemos generar las probabilidades de membresía posteriores que  aparecieron en la salida Clasificación (véase más arriba) usando la fórmula que proporcionamos a continuación. Esto resulta en las siguientes probabilidades asociadas con el patrón de respuesta Obs1:

Probabilidad 1 = 0.9196, Probabilidad 2 = 0.0787, Probabilidad 3 = 0.0017
La fórmula usada para convertir las puntuaciones logit a probabilidades es:

Probabilidad (k) = exp[puntuación(k)]/ [ exp(puntuación1) + exp(puntuación2) + exp(puntuación3)]   k=1,2,3.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283