Expresión diferencial (OMICS): tutorial en Excel
Este tutorial le mostrará cómo configurar e interpretar un análisis de expresión diferencial en Excel usando el software estadístico XLSTAT.
Este análisis permite de detectar el rasgo expersado de la manera la más diferente dependiendo de variables explicativas dentro de una tabla Rasgos/individuos de alta dimension. Por ejemplo puede estar utilizado para estudiar los efectos de variables explicativas sobre la producción de proteinas o la regulación metabolica en el contexto de datos de alta velocidad.
Datos para ejecutar el análisis de expresión diferencial en XLSTAT
Para este tutorial hemos utilizado una tabla de datos simulados correspondientes a 36 muestras biológicas de individuos sanos y enfermos correspondientes a tres genotipos diferentes. Para cada muestra, se ha medido la expresión de 1561 genes a través de cuantificación RNA.
Las RNA se almacenan en filas, y las muestras en columnas. A la derecha de la matriz de datos se han añadido un factor de genotipo y un factor de estado de salud. Los números de fila de los factores corresponden al número de muestras (número de columnas de la matriz de datos).
El propósito de este tutorial es usar la herramienta de expresión diferencial de XLSTAT para identificar genes expresados diferencialmente de acuerdo con dos factores: genotipo (tres niveles: BB, BK y KK) y estado de salud (dos niveles: saludable y enfermo).
Expresión diferencial en XLSTAT: configuración de los análisis
Para llevar a cabo el análisis de expresión diferencial, haga clic en XLSTAT-OMICs / Expresión diferencial.
El cuadro de diálogo de Expresión diferencial aparece.
En la pestaña General, seleccione la matriz de datos en el campo de la tabla Rasgos / individuos. Aquí, los individuos están representados por nuestras muestras. No es preciso modificar la opción Rasgos en filas, ya que los genes están almacenados en filas en la base de datos.
En el campo de las variables explicativas, seleccione las dos columnas que contienen la afiliación de cada muestra a los niveles de los factores.
En la pestaña Opciones, seleccione el tipo de prueba Paramétrica. Esta opción producirá un ANOVA de una vía por factor y por característica. Para números de muestra pequeños, recomendamos en cambio usar el método no paramétrico, que reemplaza los ANOVAs de una vía por pruebas de Kruskal-Wallis.
En las correcciones post-hoc, elija el procedimiento Benjamini-Hochberg, que es comúnmente utilizado en estudios de expresión diferencial. Es parte de la familia de correciones en el valor p de la FDR (False Discovery Rate). Es muy adecuado en estudios que implican el cálculo de un número grande de valores p, dado que es menos estricto que las correcciones que son parte de la familia FWER (Family Wise Error Rate), tales como la corrección de Bonferroni.
Ajuste el número de valores p para mantener a 30, para evitar que se muestre una lista enorme de valores p en los resultados (valores p altos no son en absoluto interesantes en el contexto de nuestro estudio).
Active la opción comparaciones múltiples por pares y seleccione Tukey(HSD) para obtener comparaciones múltiples por pares entre los niveles de genotipo para cada gen.
Finalmente, active la opción de filtrado no específico, elija %(Desv. est.) con un umbral del 50% para eliminar al 50% de los genes basándose en el criterio de desviaciones estándar más bajas antes de los análisis.
En la pestaña Gráficos, active las opciones Histograma de los valores p y Gráfico de volcán (Volcano plot).
Las dos opciones siguientes representan dos formas de representar los efectos biológicos en el eje x del gráfico de volcán. Elegiremos Log2(razón de las medias), porque nuestros datos no están transformados.
Active la opción Identificar rasgos. XLSTAT usará por tanto un color especial para los rasgos altamente significativas tanto en la escala estadística como en la biológica, y de acuerdo con los dos umbrales siguientes. Elija 1 para Umbral(x). Un log2(razón de medias) de 1 significa que la media del numerador es dos veces la media del denominador. De forma inversa, un log2(razón de medias) de -1 significa que la media del denominador es dos veces la media del numerador. Un log2(razón de medias) de 2 o de -2 representa un FOLD cambio de 22, y así sucesivamente.
Elija un umbral de valor p de 0.001 en la ventana Umbral(y). Esto significa que el umbral de significación estadística será –log10(0.001).
Haga clic en el botón OK para que empiecen las computaciones.
Expresión diferencial en XLSTAT: interpretación de los resultados
Después de un resumen sobre las diferentes opciones usadas en el análisis, aparecerá el número de rasgos que fueron eliminadas por el filtrado no específico. A continuación se muestra un análisis por factor.
En primer lugar, se ofrece una tabla que muestra las 30 rasgos más significativos ordenados de acuerdo con los valores p en orden ascendente. La tabla contiene el nombre de la característica o rasgo, los valores p penalizados, el nivel de significación, y las medias de cantidad RNA para cada nivel del factor. Si un valor p es significativo, el usuario puede estar interesado en llevar a cabo comparaciones múltiples por pares representadas por las letras asociadas a las medias. Dos niveles que comparten la misma letra no son significativamente diferentes. Dos niveles que no comparten la misma letra son significativamente diferentes.
En el caso del factor genotipo, no hay valores p significativos con alfa = 0.05. En este caso, interpretar comparaciones múltiples no es relevante para ninguno de los rasgos.
El histograma de los valores p muestra que están distribuidos de forma inhomogénea, con un pico a 1.
El factor de estado de salud (sano o enfermo) parece afectar a la expresión de dos genes: T1157.01 y T106.02. El primero tiene una mayor expresión en muestras sanas, y el segundo tiene una mayor expresión en las muestras enfermas.
Ambos rasgos pueden visualizarse en el gráfico de volcán (volcano plot):
Los rasgos situados en las esquinas superior izquierda y superior derecha de la gráfica están etiquetados. Se corresponden con los rasgos que se apoderan de los umbrales de significación biológica y estadística (líneas discontinuas).
Observe que los valores p usados para calcular –log10(p-values) en el gráfico de volcán son los valores p brutos, no corregidos.
¿Ha sido útil este artículo?
- Sí
- No