Su solución de análisis de datos

¿Qué modelo estadístico debería elegir?

04/01/2019

Si usted se acerca por primera vez al modelado estadístico, esta sencilla y corta introducción puede resultarle útil antes de explorar la tabla que se presenta más adelante.

Una guía para elegir la herramienta de modelado estadístico apropiada a la situación

La elección de un modelo estadístico no es sencilla. Es erróneo pensar que cada conjunto de datos dispone de su propio modelo adaptado. Si usted se acerca por primera vez al modelado estadístico, esta sencilla y corta introducción puede resultarle útil antes de explorar la rejilla que se presenta más adelante.
Cada herramienta de modelado responde a preguntas específicas. Por ejemplo, la glucemia vinculada a una diabetes específica puede explicarse por una variable cualitativa (el sexo, por ejemplo). En esta situación, podría utilizarse el modelo ANOVA. También podemos utilizar los datos de edad (variable cuantitativa) para ver si hay una tendencia lineal creciente o decreciente de la glucemia de acuerdo con la edad de los pacientes, utilizando los mismos datos. En esta situación podríamos utilizar la regresión lineal.
La elección de un modelo estadístico también puede ser guiada por la forma de las relaciones entre las variables dependiente y explicativa. Una exploración gráfica de estas relaciones puede resultar muy útil. A veces, estas formas pueden ser curvas. En tales casos, los modelos polinomiales o no lineales pueden ser más apropiados que los lineales.
La elección de un modelo también puede estar íntimamente ligada a la pregunta muy concreta que se está investigando. Por ejemplo, la estimación de los parámetros Vmax y Km de la cinética enzimática de Michaelis-Menten implica la consideración específica de la ecuación de Michaelis-Menten que une la velocidad de reacción (variable dependiente) a la concentración de sustrato (variable explicativa) de una forma no lineal.
Si el propósito del estudio se centra únicametne en hacer predicciones a partir de un conjunto grande de variables, pueden considerarse soluciones distintas a los modelos paramétricos. La Regresión de Mínimos Cuadrados Parciales (PLS), por ejemplo, es una herramienta específica adaptada para predecir una variable dependiente a partir de un número ilimitado de variables explicativas posiblemente correlacionadas. El uso de la regresión PLS es muy popular en la quimiometría, en la cual las salidas con frecuencia son pronosticadas por un amplio espectro de longitudes de onda.

¿Qué número de parámetros deberían incluirse en el modelo?

Una vez que elija la herramienta de modelización adecuada, en muchas situaciones, podríamos preguntarnos cuántos parámetros deberíamos incluir en el modelo. Cuanto mayor sea el número de parámetros que incluyamos, mejor será el ajuste del modelo a los datos (i.e., el menores serán los residuos y, en consecuencia, mayor será el estadístico R²). Así, ¿debería maximizarse el número de parámetros del modelo de manera que los residuos fueran lo más pequeños posible? En realidad, no. Un modelo que se ajuste mucho a los datos será demasiado representativo de la muestra particular utilizada, y la generalización a toda la población será menos precisa.
La calidad del modelo, medida como el equilibrio entre un ajuste razonable de los datos y un número mínimo de parámetros, se puede evaluar usando índices como el Criterio de Información de Akaike (AIC) o el Criterio de Información Bayesiano (BIC o SBC). Al comparar varios modelos paramétricos entre sí, el modelo con el índice más bajo es el que presenta la mejor calidad en el conjunto de modelos evaluados. La interpretación de estos índices no tiene sentido en un contexto absoluto, esto es, cuando se toma en consideración un solo modelo.

La rejilla

La rejilla o tabla de más abajo puede ayudarle a elegir un modelo estadístico adecuado a su situación (tipos y número de variables dependientes y explicativas). La tabla incluye asimismo una columna con un ejemplo de cada situación.
Las condiciones de validez de los modelos paramétricos se listan en el párrafo que sigue a la tabla.
Las soluciones que se presentan son las herramientas más frecuentemente usadas  en estadística. Todas ellas están disponibles en XLSTAT. La lista no es exhaustiva (existen muchas otras soluciones).
Variable dependiente Variable(s) explicativas Ejemplo Modelos paramétricos Condiciones de validez Otras soluciones
Una variable cuantitativa Una variable cualitativa (= factor) con dos niveles Efecto de la contaminación (sí / no) en la concentración de un elemento de traza en una planta ANOVA unifactorial con dos niveles 1 ; 2 ; 3 ; 4 Prueba de Mann-Whitney
  Una variable cualitativa con k niveles Efecto del sitio (4 fábricas) en la concentración de un elemento de traza en una planta ANOVA unifactorial 1 ; 2 ; 3 ; 4 Prueba de Kruskal-Wallis
Varias variables cualitativas con varios niveles Efectos combinatorios del sitio (4 fábricas) y las especies de plantas sobre la concentración de un compuesto en el tejido de la planta ANOVA multifactorial (diseños factoriales) 1 ; 2 ; 3 ; 4  
Una variable cuantitativa Efecto de la temperatura sobre la concentración de una proteina Regresión lineal simplemodelos no lineales (depende de la forma de la relación entre las variables dependiente y explicativa)  1 - 3 Regresión no paramétrica(*); Regresión cuantil; Árboles de clasificación y de regresión(*); K Vecinos Más Próximos(*)
Varias variables cuantitativas Efecto de la concentración de diversos contaminantes sobre la biomasa de las plantas Regresión lineal múltiplemodelos no lineales  1 - 6 Regresión PLS (*); K Vecinos Más Próximos(*)
Mezcla de variables cualitativas y cuantitativas Efectos combinatorios del sexo y la edad en la glucemia asociada a un tipo de diabetes ANCOVA  1 - 6 Regresión PLS(*); Regresión cuantil; Árboles de clasificación y de regresión(*); K Vecinos Más Próximos(*)
         
Varias variables cuantitativas Variable(s) cualitativa(s) y/o cuantitativa(s) Efecto de una matriz de variables ambientales sobre el transcriptoma MANOVA 1 ; 4 ; 7 ; 8 Análisis de Redundancia; Regresión PLS(*)
Una variable cualitativa Variable(s) cualitativa(s) y/o cuantitativa(s) Efecto de la dosis en la supervivencia / muerte de ratones individuales Regresión logística (binomial u ordinalmultinomial) 5 ; 6 PLS-DA(*); Análisis Discriminante(*); Árboles de clasificación y de regresión(*); K Vecinos Más Próximos(*)
Una variable de frecuencia (con muchos ceros) Variable(s) cualitativa(s) y/o cuantitativa(s) Efectos de la dosis en el número de necrosis en ratones Regresión log-lineal (Poisson) 5 ; 6  
(*) soluciones diseñadas preferentemente para la predicción

Condiciones de validez

Las condiciones de validez que proponemos son reglas generales. No existen normas precisas en la literatura, por lo que le recomendamos encarecidamente que siga las recomendaciones específicas de su campo de estudio.
Condiciones de validez
1) Los individuos son independientes.
2) La varianza es homogénea.
3) Los residuos siguen una distribución normal.
4) Al menos 20 individuos (recomendado).
5) Ausencia de multicollinealidad (si el propósito es estimar los parámetros del modelo).
6) No hay más variables explicativas que individuos.
7) Normalidad multivariante de los residuos.
8) La varianza es homogénea dentro de cada variable dependiente. Las correlaciones entre variables dependientes son homogéneas.
 
 

Contacto

Email ventas

Contactar con nuestro soporte técnico : support@xlstat.com

https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283