Su solución de análisis de datos

¿Qué método de análisis de datos multivariante elegir?

04/05/2017

Cómo seleccionar una técnica de análisis de datos multivariante

Aquí definimos los datos multivariados (o multidimensionales) como tablas de datos que contienen más de 2 variables (por lo general almacenadas en columnas) medidas en más de 2 unidades estadísticas (personas, pacientes, ubicaciones...) por lo general almacenados en filas. Las técnicas de análisis de datos multidimensionales se utilizan para extraer información interesante en grandes conjuntos de datos que difícilmente se pueden leer en su formato original. Esas herramientas se conocen a menudo como herramientas de minería de datos.
 
The following grid will guide you through the choice of an appropriate data mining method according to the type of questions you want to investigate using your data (exploratory or decisional) as well as the structure of your data. The list is not exhaustive. However, it contains the most commonly used methods, all available in XLSTAT.
 
La tabla siguiente le guiará en la elección de un método de minería de datos (exploratorio o de toma de decisiones), apropiado al tipo de preguntas que desee investigar en sus datos, así como la estructura de los datos. La lista no es exhaustiva. Sin embargo, contiene los métodos más comúnmente utilizados, todos disponibles en XLSTAT.
 
Hemos dividido las preguntas en dos tipos:
  • Las preguntas exploratorias permiten investigar conjuntos de datos multivariantes sin considerar la validación de ninguna hipótesis particular. Las herramientas de análisis de datos multivariados exploratorios a menudo implican una reducción de la dimensionalidad de grandes conjuntos de datos que hacen la exploración de los datos más conveniente.
  • Las preguntas que tienen que ver con la toma de decisiones implican someter a prueba la relación entre dos conjuntos de variables (correlación), o bien la explicación de una variable o de un conjunto de variables por otro conjunto de variables (causalidad).
 
Pregunta Número de tablas Descripción de los datos Herramienta Observaciones
Exploratoria 1 Solo variables cuantitativas Análisis de Componentes Principales (PCA) Considera toda la varianza de los datos, los componentes no necesariamente reflejan fenómenos reales
Exploratoria 1 Solo variables cuantitativas Análisis Factorial (FA) Considera solo la covarianza entre las variables; los factores latentes reflejan fenómenos reales
Exploratoria 1 Matriz de proximidad Escalamiento Multidimensional (MDS)/Análisis de Coordenadas Principales (PCoA)  
Exploratoria 1 Tabla de contingencia (2 variables cualitativas) Análisis de Correspondencias (CA)  
Exploratoria 1 Solo variables cualitativas Análisis de Correspondencias Múltiples (MCA)  
Exploratoria ≥2 Tablas de variables cualitativas y/o tablas de variables cuantitativas Análisis Factorial Múltiple (MFA)  
Exploratoria ≥2 Tablas de variables cuantitativas Análisis Procrusteano Generalizado (GPA) Podría incluir una parte inferencial (la prueba de consenso)
Exploratoria (clusterización) 1 Solo variables cuantitativas Herramientas de clusterización (AHC, k-medias...) Los métodos de clusterización clásicos podrían aplicarse indirectamente a una tabla de variables cuantitativas, usando las puntuaciones de fila en las dimensiones de un Análisis de Correspondencias Múltiples
Decisiones (causalidad) 1 Una variable dependiente y varias variables cuantitativas y/o cualitativas explicativas Herramientas de modelado estadístico (regresión, ANCOVA…)  
Decisiones (correlación)
o exploratoria
2 Dos tablas de variables cuantitativas Análisis de Correlación Canónica Relaciones lineales entre las dos tablas
Decisiones (causalidad)
o exploratoria
2 Una tabla de contingencia Y (a menudo una matriz de datos sitio-especie) y una tabla X de variables cuantitativas y/o cualitativas Análisis de Correspondencias Canónicas Relaciones unimodales entre X e Y; podría usarse para representar los nichos de las especies a lo largo de gradientes ambientales
Decisiones (causalidad) 2 Una tabla de variables cuantitativas dependientes (Y) y una tabla de variables cuantitativas y/o cualitativas explicativas (X) Análisis de Redundancia (RDA) Relaciones lineales entre X e Y
Decisiones (causalidad) 2 Una tabla de variables cuantitativas dependientes (Y) y una tabla de variables cuantitativas y/o cualitativas explicativas (X) Regresión de Mínimos Cuadrados Parciales (PLS) Usado especialmente para predicción
Decisiones (causalidad) ≥2 Varias tablas de variables manifiestas, cada tabla representa una variable latente Modelos de Ecuaciones Estructurales por Mínimos Cuadrados Parciales (PLS-PM)  
1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283