Su solución de análisis de datos

Expresión diferencial (OMICS): tutorial en Excel

03/03/2017

Este tutorial le mostrará cómo configurar e interpretar un análisis de expresión diferencial en Excel usando el software estadístico XLSTAT.

Datos para ejecutar el análisis de expresión diferencial en XLSTAT

Para este tutorial hemos utilizado una tabla de datos simulados correspondientes a 36 muestras biológicas de individuos sanos y enfermos correspondientes a tres genotipos diferentes. Para cada muestra, se ha medido la expresión de 1561 gener a través de cuantificación RNA.
Las RNA se almacenan en filas, y las muestras en columnas. A la derecha de la matriz de datos se han añadido un factor de genotipo y un factor de estado de salud. Los números de fila de los factores corresponden al número de muestras (número de columnas de la matriz de datos).
Puede descargar aquí una hoja de Excel con los datos y los resultados.

Objetivo de este tutorial

El propósito de este tutorial es usar la herramienta de expresión diferencial de XLSTAT para identificar genes expresados diferencialmente de acuerdo con dos factores: genotipo (tres niveles: BB, BK y KK) y estado de salud (dos niveles: saludable y enfermo). Para cada factor, deseamos:
1)     Llevar a cabo un filtrado no específico para eliminar los rasgos con variabilidad muy baja.
2)     Ejecutar automáticamente ANOVAs clásicos de una vía sobre cada una de los rasgos restantes y extraer los valores p.
3)    Corregir los valores p usando métodos apropiados para evitar efectos significativos por azar.
Los rasgos (genes representados por las RNAs) asociadas a los valores p más bajos son aquellas que están más significativamente afectadas por el factor estudiado. Esta herramienta es muy útil para detectar conjuntos de genes que están vinculados a una enfermedad, por ejemplo.
En el caso de factores de más de dos niveles (e.g., genotipo) podemos llevar a cabo múltiples comparaciones por pares para cada característica.
En el caso de factores de dos niveles (e.g., estado de salud), podemos generar gráficos de volcán para visualizar tanto las significaciones estadísticas como las biológicas asociadas a todos los rasgos.
Advierta que la herramienta de expresión diferencial en XLSTAT puede asimismo usarse para estudiar los efectos de variables explicativas en la producción de proteinas o en la regulación metabólica en un contexto de datos OMICs de alto rendimiento. 

Expresión diferencial en XLSTAT: configuración de los análisis

Para llevar a cabo el análisis de expresión diferencial, haga clic en XLSTAT-OMICs / Expresión diferencial. En la pestaña General, seleccione la matriz de datos en el campo de la tabla Rasgos / individuos. Aquí, los individuos están representados por nuestras muestras. No es preciso modificar la opción Rasgos en filas, ya que los genes están almacenados en filas en la base de datos. Es obligatorio seleccionar la primera columna de la base de datos que contiene la característica IDS. XLSTAT necesita esta información para que el usuario pueda identificar rasgos interesantes con sus nombres en la salida del análisis. En el campo de las variables explicativas, seleccione las dos columnas que contienen la afiliación de cada muestra a los niveles de los factores.

differential expression general tab

En la pestaña Opciones, seleccione el tipo de prueba Paramétrica. Esta opción producirá un ANOVA de una vía por factor y por característica. Para números de muestra pequeños, recomendamos en cambio usar el método no paramétrico, que reemplaza los ANOVAs de una vía por pruebas de Kruskal-Wallis. En las correcciones post-hoc, elija el procedimiento Benjamini-Hochberg, que es comúnmente utilizado en estudios de expresión diferencial. Es parte de la familia de correciones en el valor p de la FDR (False Discovery Rate). Es muy adecuado en estudios que implican el cálculo de un número grande de valores p, dado que es menos estricto que las correcciones que son parte de la familia FWER (Family Wise Error Rate), tales como la corrección de Bonferroni. Ajuste el número de valores p para mantener a 30, para evitar que se muestre una lista enorme de valores p en los resultados (valores p altos no son en absoluto interesantes en el contexto de nuestro estudio). Active la opción comparaciones múltiples por pares y seleccione Tukey(HSD) para obtener comparaciones múltiples por pares entre los niveles de genotipo para cada gen. Finalmente, active la opción de filtrado no específico, elija %(Desv. est.) con un umbral del 50% para eliminar al 50% de los genes basándose en el criterio de desviaciones estándar más bajas antes de los análisis.

differential expression options tab

En la pestaña Gráficos, active las opciones Histograma de los valores p y Gráfico de volcán (Volcano plot).

Las dos opciones siguientes representan dos formas de representar los efectos biológicos en el eje x del gráfico de volcán. Elegiremos Log2(razón de las medias), porque nuestros datos no están transformados. Active la opción Identificar rasgos. XLSTAT usará por tanto un color especial para los rasgos altamente significativas tanto en la escala estadística como en la biológica, y de acuerdo con los dos umbrales siguientes. Elija 1 para Umbral(x). Un log2(razón de medias) de 1 significa que la media del numerador es dos veces la media del denominador. De forma inversa, un log2(razón de medias) de -1 significa que la media del denominador es dos veces la media del numerador. Un log2(razón de medias) de 2 o de -2 representa un FOLD cambio de 22, y así sucesivamente. Elija un umbral de valor p de 0.001 en la ventana Umbral(y). Esto significa que el umbral de significación estadística será –log10(0.001).

differential expression charts tab

Haga clic en el botón OK.

Expresión diferencial en XLSTAT: interpretación de los resultados

Después de un resumen sobre las diferentes opciones usadas en el análisis, aparecerá el número de rasgos que fueron eliminadas por el filtrado no específico. A continuación se muestra un análisis por factor.

En primer lugar, se ofrece una tabla que muestra las 30 rasgos más significativos ordenados de acuerdo con los valores p en orden ascendente. La tabla contiene el nombre de la característica o rasgo, los valores p penalizados, el nivel de significación, y las medias de cantidad RNA para cada nivel del factor. Si un valor p es significativo, el usuario puede estar interesado en llevar a cabo comparaciones múltiples por pares representadas por las letras asociadas a las medias. Dos niveles que comparten la misma letra no son significativamente diferentes. Dos niveles que no comparten la misma letra son significativamente diferentes.

En el caso del factor genotipo, no hay valores p significativos con alfa = 0.05. En este caso, interpretar comparaciones múltiples no es relevante para ninguno de los rasgos.

differential expression results

El histograma de los valores p muestra que están distribuidos de forma homogénea.

differential expression p-values histogram

El factor de estado de salud (sano o enfermo) parece afectar a la expresión de dos genes: T1157.01 y T106.02. El primero tiene una mayor expresión en muestras sanas, y el segundo tiene una mayor expresión en las muestras enfermas.

differential expression result

Ambos rasgos pueden visualizarse en el gráfico de volcán (volcano plot):

differential expression volcano plot

Los rasgos situados en las esquinas superior izquierda y superior derecha de la gráfica están etiquetados. Se corresponden con los rasgos que se apoderan de los umbrales de significación biológica y estadística (líneas discontinuas).

Observe que los valores p usados para calcular –log10(p-values) en el gráfico de volcán son los valores p brutos, no corregidos.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Cargando
hace #{num} segundos
hace un minuto
hace #{num} minutos
hace una hora
hace #{num} horas
hace un día
Hace #{num} días
sobre
false
Se han encontrado caracteres no válidos
/customer/portal/articles/autocomplete
9283