Filtrar observaciones y variables gráficos PCA
Este tutorial muestra cómo implementar un Análisis de Componentes principales (ACP) sobre un subconjunto de observaciones particulares.
Datos para ejecutar un análisis de componentes principales
Los datos provienen de la Oficina del Censo de los Estados Unidos (US Census Bureau) y describen los cambios en la población de 51 estados entre 2000 y 2001. La base de datos inicial ha sido transformada a tasas por 1000 habitantes, utilizando los datos de 2001 como foco para el análisis.
Objetivo de este tutorial
Nuestro objetivo es analizar las correlaciones entre las variables y encontrar si los cambios en la población en algunos estados son muy diferentes de los cambios en otros estados. Aquí está disponible un tutorial sobre cómo ejecutar un análisis de componentes principales con XLSTAT.
Centramos nuestra atención en los gráficos mostrados en un ACP. XLSTAT ofrece una opción para filtrar las observaciones y las variables con respecto a los cosenos al cuadrado (cos2). Esta medida evalúa la calidad de la representación de la observación en los mapas.
Configuración de un análisis de componentes principales
Una vez activado XLSTAT, seleccione el comando XLSTAT / Análisis de datos / Análisis de componentes principales, o bien haga clic en el botón correspondiente de la barra de herramientas Análisis de datos (véase más abajo).
Aparece el cuadro de diálogo Análisis de Componentes Principales.
Seleccione los datos en la hoja de Excel. El Formato de datos elegido es Observaciones/variables debido al formato de los datos de entrada.
El tipo de ACP que se usará durante los cálculos es la matriz de correlaciones de Pearson, que corresponde a los coeficientes de correlación clásicos.
En la pestaña Gráficos, deseamos filtrar las observaciones y las variables con suma de cosenos al cuadrado mayor de 0.5. Para hacerlo, active la opción Filtro y seleccione >cos², introduciendo el valor 0.5.
Los cálculos comienzan tras hacer clic en OK. Se le pide que confirme el número de filas y columnas.
A continuación, debería confirmar los ejes en los que desea que se muestren los gráficos. En este ejemplo, el porcentaje de variabilidad representada por los dos primeros factores no es muy alta (67.72%); para evitar una interpretación errónea de los resultados, recomendamos investigar también el tercer eje. Para hacerlo, ejecute el análisis una vez y seleccione una configuración de los ejes que incluya PC3.
Gráficos filtrados para el análisis de componentes principales
Se muestran todos los resultados clásicos. Si desea consultar un tutorial sobre la interpretación de estos resultados, consulte por favor aquí.
Estamos interesados en las tablas de cosenos al cuadrado y en los gráficos ACP.
En lo tocante a las variables, podemos ver que dos variables tienen cosenos al cuadrado menores de 0.5 en los dos primeros factores (Federal/Civilian mode... / Net Int Migration). Estas variables están mal representadas por el ACP. No aparecerán en el gráfico de correlaciones ACP.
El gráfico de las correlaciones ACP obtenidas es el siguiente:
En lo que atañe a las observaciones, podemos ver que algunos estados no están bien representados.
Por ejemplo, los Distritos de Columbia y Hawaii no aparecerán en el gráfico de observaciones, dado que tienen un coseno al cuadrado menor de 0.5 en los dos primeros factores.
Esta sencilla herramienta le permite filtrar observaciones en los gráficos ACP para hacer los gráficos más legibles.
¿Ha sido útil este artículo?
- Sí
- No