Su solución de análisis de datos

Clusters de modelo de mezclas gaussianas en Excel

20/10/2017

Este tutorial le mostrará cómo configurar e interpretar un Modelo de Mezclas Gaussianas (Gaussian Mixture Model, GMM) en Excel usando el software XLSTAT.

¿No está seguro si esta es la herramienta de clusterización que necesita? Consulte por favor esta guía.

Modelos de mezclas gaussianas para clusterización

Estos modelos se usan habitualmente con propósitos de clusterización. Pueden proporcionar un marco para evaluar las particiones de los datos considerando que cada componente representa un cluster. Estos modelos tienen dos ventajas principales:
  • Se trata de un método probabilístico para obtener una clasificación borrosa de las observaciones. Se calcula la probabilidad de pertenencia a cada cluster, y se alcanza normalmente una clasificación asignando cada observación al cluster más probable. Estas probabilidades pueden ser también usadas para interpretar clasificaciones sospechadas.
  • Los modelos de mezclas son muy flexibles.

Datos para el modelo de mezclas gaussianas

Los datos corresponden a las famosas flores iris de Fisher presendos en [Fisher, R. A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics7, Part II, 179–188].
Estos datos proporcionan las medidas (en centímetros) de la longitud y anchura de los pétalos de 150 flores de 3 especies de iris (setosaversicolor, and virginica).
Puede descargar una hoja Excel con los datos y resultados utilizados en este tutorial haciendo clic aquí.
El objetivo consiste en ajustar un modelo mixto gaussiano y recobrar la estructura de los datos en tres clusters.

Configuración de un modelo de mezclas gaussianas

Una vez activado XLSTAT, seleccione el comando XLSTAT / Análisis de datos / Modelos de mezclas gaussianas, o bien haga clic en el botón correspondiente de la barra de herramientas Análisis de datos.

menu mixture models

Tras hacer clic en el botón, aparece el cuadro de diálogo.

Los datos se presentan en una tabla de 150 filas y 2 columnas. Se asume que las etiquetas son desconocidas y que el peso de cada fila es el mismo. Puesto que la clasificación de los datos se lleva a cabo de acuerdo con la longitud y la anchuta de los pétalos del iris, se elige la opción Multidimensional.

dialog box mixture models general

En la pestaña Opciones (1), se proponen tres algoritmos de inferencia con cuatro criterios de selección y tres métodos de inicialización. El usuario puede asimismo fijar el número máximo de iteraciones del algoritmo de inferencia y su umbral de convergencia. Aquí, elegimos una inicialización aleatoria con dos réplicas, y dejamos el resto de las opciones con sus valores predeterminados.

dialog box mixture models options

En la pestaña Opciones (2), está disponible una lista de todos los modelos de mezclas gaussianas. Podemos modificar el número mínimo y máximo de clases, y podemos forzar que las proporciones de mezclas sean iguales. Aquí, elegimos poner a prueba los modelos EEE y EEV para un número de clases que varía de 2 a 5.

dialog box mixture models options 2

Los cálculos comienzan tras hacer clic en OK. Los resultados se muestran a continuación en una hoja nueva.

Interpretación de los resultados de un modelo de clusterización de mezclas gaussianas

Los primeros resultados corresponden a los estadísticos de las diferentes variables (longitud y anchura). A continuación, se muestran el valor del criterio de selección para todos los modelos y para un número de clases que varía de 2 a 5.

mixture models bic criterion

Seguidamente se proporcionan los parámetros del modelo seleccionado (proporciones, medias y varianzas).

 mixture models proportions means

mixture models covariance

Se presenta a continuación una tabla en la que aparecen las características del modelo (BIC, AIC, log likelihood, NEC,…)

En la tabla siguiente se muestran los resultados en términos de estimación y clasificación de la probabilidad para las primeras observaciones de los datos. La clasificación se calcula de acuerdo con las probabilidades vía la regla MAP (Maximum A Posteriori). Podemos ver que han sido seleccionadas las 3 clases.

Posterior probability classes mixture models

Finalmente, se proporciona un gráfico con los datos agrupados (“clusterizados”).

MAP classification mixture models

Disponemos de muchas otras características y opciones en los modelos mixtos con XLSTAT, incluyendo pesos de las observaciones, etiquetado parcial, algoritmo 14 de inferencia...

Contacto

Email ventas

Contactar con nuestro soporte técnico : support@xlstat.com

https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283