Su solución de análisis de datos

Modelo de regresión de clases latentes Excel

17/05/2016

Este tutorial le mostrará cómo ejecutar un Modelo de regresión de clases latentes (Latent Class regression model) en Excel utilizando el software estadístico XLSTAT.

¿Qué son los modelos de regresión de clases latentes?

Este tutorial muestra cómo desarrollar modelos de regresión de clases latentes. Usted aprenderá a:

  • Seleccionar la variable dependiente y especificar su tipo de escala
  • Determinar el número de clases latentes (i.e., segmentos)
  • Explorar la salida de los Parámetros
Además, este ejemplo ilustra varias opciones avanzadas en la herramienta de XLSTAT-LatentClass – Regresión de clases latentes. Usted aprenderá a:
  • Utilice la variable de identificación de caso opcional (case ID) para especificar observaciones repetidas
  • Clasificar los casos en segmentos latentes

Datos para la estimación de modelos de regresión de clases latentes

Puede descargar una hoja de Excel que contiene los datos para su uso en este tutorial haciendo clic aquí.
Los datos para este ejemplo se obtienen de un hipotético estudio de mercado conjunto que involucra medidas repetidas, en el que se pidió a los encuestados que informaran sobre la probabilidad de otorgar distintas calificaciones de compra en cada uno de varios escenarios diferentes. Una lista parcial de los datos se muestra en la Figura 1.
 

latent class regression data

Figure 1:  Partial Listing of Conjoint Data

Como se sugiere en la figura 1, hay 8 registros para cada caso (hay 400 casos en total); un registro por cada celda en este diseño factorial 2x2x2 completo de diferentes escenarios para la compra de un producto:
Tal como se sugiere en la Figura 1, hay 8 registros por cada caso (hay 400 casos en total); un registro por cada celda en este diseño factorial completo 2x2x2 de los diferentes escenarios para la compra de un producto:

  • FASHION (1 = Traditional; 2 = Modern) MODA (1 = Tradicional; 2 = Moderno)
  • QUALITY (1 = Low; 2 = High) CALIDAD (1 = Baja, 2 = Alta)
  • PRICE (1 = Lower; 2 = Higher) PRECIO (1 = Más bajo; 2 = Más alto)
La variable dependiente (CALIFICACIÓN, RATING) es la puntuación del intento de compra en una escala de cinco puntos. Los tres atributos listados más arriba se usarán como variables predictivas en el modelo.

Objetivo de este tutorial sobre modelos de regresión de clases latentes

Use la regresión de clases latentes XLSTAT-LatentClass para identificar los segmentos latentes que difieren con respecto a la estimación de la importancia que se concede a cada uno de los tres atributos, que influyen en la decisión de compra de un individuo. El modelo de regresión de clases latentes permite el hecho de que estas estimaciones pueden ser diferentes para diferentes segmentos. Es decir, para un segmento, el precio y solo el precio puede influir en la decisión, mientras que en un segundo segmento puede estar influenciado por la calidad y el aspecto moderno, pero es insensible al precio. Vamos a tratar CALIFICACIÓN como una variable dependiente ordinal y comparar varios modelos para determinar el número de segmentos.

Configuración de modelos de regresión de Clases Latentes en XLSTAT-LatentClass

Para activar el cuadro de diálogo de la regresión de clases latentes XLSTAT-LatentClass, seleccione el comando XLSTAT / XLSTAT-LatentClass / Regresión de clases latentes en el menú Excel (véase Figura 2).

lg menu

Figura 2: Abrir XLSTAT-LatentClass/Regresión de clases latentes
Tras hacer clic en el botón, se muestra el cuadro de diálogo XLSTAT-LG / Regresión de clases latentes.
Se abre el cuadro de diálogo del análisis de regresión de clases latentes, que contiene 5 pestañas (véase Figura 3).

lg regression dialog box empty

Figura 3: Cuadro de diálogo del modelo de regresión de clases latentes

Para este análisis, CALIFICACIÓN será la variable dependiente.
En el campo Y / Variable dependiente, seleccione la variable CALIFICACIÓN (RATING).
También es preciso indicar el tipo de escala  de la variable dependiente. Para este ejemplo, vamos a utilizar el tipo de escala (ordinal-fijo) que tiene en cuenta el orden natural entre los 5 niveles de intención de compra. Por defecto, se utilizan las puntuaciones fijas en los datos (1, 2, 3, 4 y 5) de modo que ordenan los niveles y establecen una distancia igual entre niveles adyacentes.
En el menú emergente Tipo de respuesta, seleccione “Ordinal”.
Como se explicó más arriba, los datos contienen observaciones repetidas para cada encuestado (caso). Por lo tanto, tenemos que indicar qué registros pertenecen a cada caso. Esto se logra utilizando una variable de identificación del caso (Case ID), que contiene un número de identificación único para cada caso. A todos los registros que pertenecen a un mismo caso se les asigna el mismo identificador ID único.
Marque la casilla “Etiquetas de las observaciones” y luego, en el campo correspondiente, seleccione la variable ID.
A continuación, vamos a seleccionar los predictores. Los predictores se utilizan como variables independientes en el modelo de regresión. En el presente ejemplo, se utilizan los atributos del producto MODA, CALIDAD y PRECIO precio como predictores.
Debajo de Variables explicativas, marque la casilla “Nominales” y luego, en el campo correspondiente, seleccione las variables “MODA” (FASHION), “CALIDAD” (QUALITY) y “PRECIO” (PRICE).
El modelo de regresión de clases latentes estima simultáneamente un modelo de regresión por separado para cada clase. Un modelo de 1 clase estima un único modelo de regresión. Esto cumple el supuesto de homogeneidad estándar de que un único modelo de regresión es válido para todos los casos. En el ejemplo actual, vamos a empezar por la estimación de un modelo de 1 clase y obtener un estadístico de log-verosimilitud (log-likelihood) que será utilizado como base. A continuación, vamos a estimar modelos adicionales, que incrementan sucesivamente el número de clases por 1 y evalúan la importancia de cada clase adicional.
Una evaluación consiste en una verificación de si el cambio en la LL (log-likelihood)  para cada par de modelos sucesivos no disminuye por una cantidad significativa como se determina mediante el estadístico Criterio de Información de Bayes, BIC, o Bayesian Information Criterion. (Así, podría seleccionarse el modelo que tiene el BIC más bajo.) Una segunda evaluación es utilizar el valor p asociado con el estadístico de ajuste L2.
Vamos a solicitar la estimación de 4 modelos de regresión LC diferentes, de 1, 2, 3 y 4 clases:
Escriba, debajo de Número de clases, “1” (en el campo “de:”) y “4” (en el campo “a:”).
El cuadro de diálogo del análisis debería tener este aspecto: 

lg regression dialog box filled

Figura 4: Cuadro de diálogo del análisis de regresión con ajustes iniciales

En cuanto haga clic en OK comenzarán los cálculos.

Interpretación del resultado del modelo de regresión de clases latentes en XLSTAT-LatentClass

Cuando XLSTAT-LatentClass completa la estimación, se producen 5 hojas de cálculo: una hoja con el resumen de la regresión, y una para cado uno de los modelos estimados (modelo de 1 clase (LCR-1 Class), de 2 clases (LCR-2 Classes), de 3 clases (LCR-3 classes) y de 4 clases (LCR-4 classes)).

lg regression summary statistics

Figura 5: Resumen de los modelos estimados
 
Esta salida proporciona estadísticos que le ayudarán a determinar el número correcto de clases -los valores loglikelihood (LL), los valores BIC, y el número de parámetros en los modelos estimados-. Es importante determinar el número correcto de clases debido a que especificar muy pocas ignora las diferencias entre las clases, mientras especificar demasiadas puede ocasionar que el modelo sea inestable. Mientras que el valor LL aumenta cada vez que se incrementa el número de clases, el valor mínimo BIC se observa en el modelo 3 (BIC = 8312.057), lo que sugiere que la solución de 3 clases es el mejor de los cuatro modelos estimados.
En ocasiones es posible obtener una solución local (subóptima). Para estos datos, es posible obtener una solución local para el modelo de 4 clases, obteniendo un valor LL = -4080.318 en lugar de -4075.922. Si esto ocurre, vuelva a estimar el modelo de 4 clases.

Nota: Advierta que los valores p basados en el modelo L2 y los grados de libertad (df) no son evaluaciones válidas del ajuste, debido a que se trata de datos dispersos.

Examinaremos ahora con detalle la salida de la solución de 3 clases.
Haga clic en la hoja “LCR-3 Classes” para ver la salida del modelo de 3 clases.
El resultado se presenta después de la sección de resumen de estadísticos.

Salida de parámetros

Veamos en primer lugar la salida de los parámetros
Desplace la pantalla hasta la salida Parámetros (véase Figura 6).

lg regression output

Figura 6: Salida de parámetros del modelo de 3 clases
 
El parámetro beta para cada predictor es una medida de la influencia de ese predictor en la variable dependiente CALIFICACIÓN. Las estimaciones del efecto beta bajo la columna titulada “Clase 1” sugieren que el segmento 1 está influenciado de manera positiva por los productos para los que MODA = 2 (beta = 0.967), de una manera negativa por un precio más alto (beta = -0.509), y en absoluto por una mayor calidad (beta es de aproximadamente 0). También vemos que el segmento 2 ( “Clase 2”) está influenciado por los 3 atributos, mostrando preferencia por aquellas opciones de productos que son modernas (beta = 0.585), y de una mayor calidad (beta = 0.461), pero, al igual que el segmento 1, su preferencia también disminuye en función del precio (beta = -0.525). Los miembros del segmento 3 prefieren productos de calidad más altos (beta = 1.031), pero su preferencia también disminuye en función del precio (beta = -0.461), y no están influenciados por la MODA.

Tenga en cuenta que el PRECIO tiene más o menos la misma influencia sobre los tres segmentos. El estadístico Wald (=) indica que las diferencias en estos efectos beta a través de las clases no son significativas (p = 0.67, que es mucho mayor que .05, el nivel estándar para evaluar la significación estadística). Esto significa que los 3 segmentos denotan sensibilidad a los precios en el mismo grado. Esto se confirma cuando se estima un modelo en el que se especifica que este predictor sea independiente de la clase (marque la opción correspondiente en la pestaña Opciones). El valor de p para el estadístico de Wald para PRECIO es de 0.000 fijado a 3 cifras decimales. Al hacer clic en este valor, vemos que el valor p, más precisamente, es 2.4x10-106, lo que indica que la cantidad de la sensibilidad al precio es muy significativa.
En lo concerniente al efecto de los otros dos atributos, encontramos grandes diferencias entre los segmentos. El predictor MODA tiene una fuerte influencia en el segmento 1, un efecto menor en el segmento 2, y prácticamente ningún efecto sobre el segmento 3. La CALIDAD tiene un fuerte efecto en el segmento 3, un efecto menor en el segmento 2, y prácticamente ningún efecto sobre el segmento 1. El hecho de que la influencia de la MODA y la CALIDAD difiera significativamente entre los 3 segmentos es confirmado por los valores de p significativos asociados con las estadísticas de Wald (=) de estos atributos. Por ejemplo, para MODA, el valor de p = 6.2x10-38.
En resumen, el segmento 1 se podría etiquetar como “segmento orientado a la moda”, el segmento 3 “Segmento orientado a la calidad”, y el segmento 2 es el segmento que tiene en cuenta los 3 atributos en su decisión de compra.

Copyright ©2015 Statistical Innovations Inc. All rights reserved.

 

 

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283