Clusters de modelo de mezclas gaussianas en Excel
Este tutorial le mostrará cómo configurar e interpretar un Modelo de Mezclas Gaussianas (Gaussian Mixture Model, GMM) en Excel usando el software XLSTAT.
¿No está seguro si esta es la herramienta de clusterización que necesita? Consulte por favor esta guía.
Modelos de mezclas gaussianas para clusterización
Estos modelos se usan habitualmente con propósitos de clusterización. Pueden proporcionar un marco para evaluar las particiones de los datos considerando que cada componente representa un cluster. Estos modelos tienen dos ventajas principales: - Se trata de un método probabilístico para obtener una clasificación borrosa de las observaciones. Se calcula la probabilidad de pertenencia a cada cluster, y se alcanza normalmente una clasificación asignando cada observación al cluster más probable. Estas probabilidades pueden ser también usadas para interpretar clasificaciones sospechadas.
- Los modelos de mezclas son muy flexibles.
Datos para el modelo de mezclas gaussianas
Los datos corresponden a las famosas flores iris de Fisher presendos en [Fisher, R. A. (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Part II, 179–188]. Estos datos proporcionan las medidas (en centímetros) de la longitud y anchura de los pétalos de 150 flores de 3 especies de iris (setosa, versicolor, and virginica). El objetivo consiste en ajustar un modelo mixto gaussiano y recobrar la estructura de los datos en tres clusters.
Configuración de un modelo de mezclas gaussianas
Una vez activado XLSTAT, seleccione el comando XLSTAT / Análisis de datos / Modelos de mezclas gaussianas, o bien haga clic en el botón correspondiente de la barra de herramientas Análisis de datos.
Tras hacer clic en el botón, aparece el cuadro de diálogo.
Los datos se presentan en una tabla de 150 filas y 2 columnas. Se asume que las etiquetas son desconocidas y que el peso de cada fila es el mismo. Puesto que la clasificación de los datos se lleva a cabo de acuerdo con la longitud y la anchuta de los pétalos del iris, se elige la opción Multidimensional.
En la pestaña Opciones (1), se proponen tres algoritmos de inferencia con cuatro criterios de selección y tres métodos de inicialización. El usuario puede asimismo fijar el número máximo de iteraciones del algoritmo de inferencia y su umbral de convergencia. Aquí, elegimos una inicialización aleatoria con dos réplicas, y dejamos el resto de las opciones con sus valores predeterminados.
En la pestaña Opciones (2), está disponible una lista de todos los modelos de mezclas gaussianas. Podemos modificar el número mínimo y máximo de clases, y podemos forzar que las proporciones de mezclas sean iguales. Aquí, elegimos poner a prueba los modelos EEE y EEV para un número de clases que varía de 2 a 5.
Los cálculos comienzan tras hacer clic en OK. Los resultados se muestran a continuación en una hoja nueva.
Interpretación de los resultados de un modelo de clusterización de mezclas gaussianas
Los primeros resultados corresponden a los estadísticos de las diferentes variables (longitud y anchura). A continuación, se muestran el valor del criterio de selección para todos los modelos y para un número de clases que varía de 2 a 5.
Seguidamente se proporcionan los parámetros del modelo seleccionado (proporciones, medias y varianzas).
Se presenta a continuación una tabla en la que aparecen las características del modelo (BIC, AIC, log likelihood, NEC,…)
En la tabla siguiente se muestran los resultados en términos de estimación y clasificación de la probabilidad para las primeras observaciones de los datos. La clasificación se calcula de acuerdo con las probabilidades vía la regla MAP (Maximum A Posteriori). Podemos ver que han sido seleccionadas las 3 clases.
Finalmente, se proporciona un gráfico con los datos agrupados (“clusterizados”).
Disponemos de muchas otras características y opciones en los modelos mixtos con XLSTAT, incluyendo pesos de las observaciones, etiquetado parcial, algoritmo 14 de inferencia...
¿Ha sido útil este artículo?
- Sí
- No