Su solución de análisis de datos

Clusters de k-means: tutorial en Excel

20/10/2017

Este tutorial muestra cómo configurar e interpretar un Clusters de k-means en Excel usando el software estadístico XLSTAT.
¿No está seguro sobre si esta es la herramienta de clusterización que necesita? Consulte esta guía.

Datos para los clusters de k-means

Una hoja Excel que contiene a la vez los datos y los resultados puede ser descargado haciendo clic aquà­. Los datos proceden del US Census Bureau (se puede obtener el archivo de origen en la página web http://eire.census.gov/popest/states_dataset.csv). Corresponden a la medición de parámetros demográficos en 51 Estados de los Estados Unidos en 2000 y 2001. En el marco de este tutorial, solos los datos del año 2001 fueron conservados, y con el fin de suprimir los efectos de escala, las variables iniciales fueron convertidas en à­ndices por 1000 habitantes. El objetivo aquà­ es crear grupos homogéneos de Estados. Estos datos también son utilizados para el tutorial del Análisis de Componentes Principales (ACP) y en el tutorial sobre la Clasificación Ascendente Jerárquica (CAJ).

Nota : si pretende hacer el análisis presentado a continuación con los mismos datos, es seguramente posible que Ud. no obtendrá los mismos resultados. En efecto, el método de las nubes dinámicas implica un sorteo aleatorio.

Configuración de los clusters de k-means

Una vez que XLSTAT es activado, haga clic en el menú XLSTAT/Análisis de datos/Clusters de k-means, o haga clic en el botón correspondiente de la barra análisis de datos (ver a continuación).

barkmc.gif

Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a las nubes dinámicas. Puede entonces seleccionar los datos en la hoja Excel. Existen varias maneras de seleccionar los datos en el cuadro de diálogo XLSTAT (ver el tutorial sobre este tema). En el ejemplo estudiado aquà­, los datos empiezan desde la primera fila; entonces es más rápido elegir el modo de selección por columnas. Por esta razón, en el cuadro de diálogo a continuación las selecciones aparecen en forma de columnas.

La variable "Población total" no fue seleccionada ya que solos los aspectos dinámicos de la población nos interesa aquà­. La última columna no fue seleccionada tampoco, ya que hemos visto con el Análisis de Componentes Principales que las dos últimas columnas están perfectamente correladas. La opción "Etiquetas de las columnas" se deja activada, ya que la primera fila de datos incluye el nombre de las variables, y las etiquetas de las observaciones están seleccionadas. El número de grupos a crear está fijado a 4.

La opción "Estandarizar" está activada de manera a evitar que la escala de las variables no influye sobre los resultados. Las opciones avanzadas (activadas haciendo clic en el botón "Más" que se convierte luego "Menos") son solicitadas. El número de repeticiones y el número máximo de iteraciones están fijados a 100 con el fin de aumentar la calidad y la estabilidad de los resultados.

kmc1.gif

Los cálculos empiezan cuando haga clic en el botón OK

Interpretación de los clusters de k-means

Si Usted ha elegido en el panel de las opciones de XLSTAT la opción Introducción asistida, XLSTAT le pide confirmar el número de filas y columnas.

El primer resultado visualizado es el cuadro de las inercias para la mayor solución entre las repeticiones. La mayor solución es la que maximiza la inercia inter-grupos (o que minimiza la inercia intra-grupos: en efecto, tenemos [ Inercia Total = Inercia Inter-grupos + Inercia Intra-grupos). La inercia es proporcional a la varianza de la población (basta con dividir la inercia por el tamaño de la población para obtener la varianza da la población).

kmc2.gif

Un cuadro presenta luego para cada Estado, el indicador del grupo al cual ha sido asignado. Una parte del cuadro está presentada a continuación. Este cuadro presenta también los grupos estables que muestran asà­ los Estados que están asignados a menudo a los mismos grupos en el conjunto de las repeticiones. Podrán después fusionar las informaciones sobre los grupos con el cuadro inicial para eventuales análisis complementarios (un análisis discriminante por ejemplo).

kmc3.gif

El cuadro visualiza para cada grupo las observaciones que le fueron asignadas.

kmc4.gif

Si se compara estos resultados con los del tutorial sobre la Clasificación Ascendente Jerárquica, se nota que los dos métodos dan resultados diferentes, aunque para la mayorà­a de los Estados, el grupo de asignación es el mismo (para comparar se utiliza el tamaño de los grupos). Por ejemplo, en el grupo que incluye 31 estados en los dos casos, 25 estados son idénticos entre los dos métodos.

El cuadro a continuación corresponde a los centroides de los grupos. Para cada grupo las observaciones más cerca del centroide son identificadas.

kmc5.gif

Por último, aparece una sà­ntesis para las 10 mejores repeticiones. Se puede ver que el algoritmo converge muy rápidamente para cada repetición. Notaremos la evolución de la inercia intra-grupos de la primera a la última iteración.

kmc6.gif

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283