Solution d'analyse de données

Expression différentielle (OMICS) dans Excel

03/03/2017

Jeu de données pour faire une analyse d’expression différentielle avec XLSTAT

Pour ce tutoriel, nous utilisons un jeu de de données simulé correspondant à 36 échantillons biologiques d’individus sains ou malades appartenant à trois génotypes différents. Pour chaque échantillon, l’expression de 1561 gènes est mesurée via une quantification d’ARN.

Les gènes sont rangés en lignes et les échantillons en colonnes. Deux facteurs (génotype et état) décrivant les échantillons sont placés à droite du tableau de données. Le nombre de lignes des facteurs correspond au nombre de colonnes du tableau de données.

Une feuille Excel contenant les données et les résultats peut être téléchargée en cliquant ici.

 

But de ce tutoriel

Le but de ce tutoriel est d’utiliser l’outil d’analyse d’expression différentielle dans XLSTAT afin d’identifier les gènes différentiellement exprimés en fonction de deux facteurs : génotype (trois niveaux : BB, BK et KK) et état (sain et malade). Pour chaque facteur :

  1. Nous procéderons à un filtrage non-spécifique afin d’éliminer les caractères peu variables
  2. Nous effectuerons des ANOVA à un facteur classique automatiquement sur chacun des caractères restants
  3. Nous corrigerons les p-values calculées par des méthodes appropriées afin d’éviter la détection à tort d’effets significatifs.

Les caractères (gènes représentés par des ARN) associés aux p-values les plus faibles sont les plus significativement affectés par le facteur étudié. L’analyse d’expression différentielle est ainsi très utile pour détecter des gènes liés à une maladie par exemple.

Pour des facteurs comportant plus de deux modalités (génotype par exemple), nous serons capables d’effectuer des comparaisons multiples par paires pour chaque caractère.

Pour les facteurs à deux modalités (état par exemple), nous pourrons générer des volcano plots qui permettront de visualiser à la fois les effets biologique et statistique pour tous les caractères.

Notez que l’outil d’expression différentielle dans XLSTAT peut également être utilisé pour étudier les effets de variables explicatives sur la production de protéines ou la régulation de métabolites dans un contexte de données OMICs obtenues à haut débit.

 

Expression différentielle dans XLSTAT : paramétrage de l’analyse

Pour effectuer une analyse d’expression différentielle, cliquer sur OMICs / Expression différentielle. Dans l’onglet  Général, sélectionner le tableau de données dans le champ Tableau caractères/individus. Ici, les individus sont représentés par nos échantillons. L’option caractères en lignes ne doit pas être modifiée, car les gènes sont rangés en lignes au sein du tableau. Il est obligatoire de sélectionner la première colonne du tableau de données (contenant les identifiants des gènes). XLSTAT a besoin de ces informations pour permettre à l’utilisateur de repérer les caractères intéressants avec leurs identifiants dans les sorties de l’analyse. Dans le champ de variables explicatives, sélectionner les deux colonnes contenant les affiliations de chaque échantillon à des niveaux de facteurs.

 

differential expression general tab

 

Dans l’onglet Options, sélectionner un type de test Paramétrique. Cette option produira une ANOVA à un facteur par facteur et par caractère. Pour de petits effectifs d’échantillons, nous recommandons plutôt la méthode non-paramétrique, qui remplace les ANOVAs à un facteur par des tests de Kruskal-Wallis. Pour les corrections post-hoc, choisir la procédure de Benjamini-Hochberg, couramment utilisée dans les études d’expression différentielle. Elle fait partie de la famille de correction de p-values appelée False Discovery Rate ( FDR ). Il s’agit d’une famille de corrections adaptées à des études impliquant le calcul d’un très grand nombre de p-values. Ces corrections sont moins sévères que les corrections faisant partie de famille Family Wise Error Rate ( FWER ), telle que la correction de Bonferroni. Programmer 30 p-values à conserver pour éviter l’affichage de grandes listes de p-values dans les sorties (les p-values élevées ne sont pas intéressantes dans le contexte de notre étude). Activer les comparaisons multiples par paires et choisir Tukey (HSD) pour obtenir des comparaisons multiples 2 à 2 parmi les modalités du facteur génotype pour chaque gène. Enfin, activer le filtrage non-spécifique, sélectionner le critère %(Ecart-type) avec un seuil de 50%. Ceci éliminera la moitié des gènes sur le critère de la variabilité mesurée par l’écart type en amont des analyses.

 

differential expression options tab

 

Dans l’onglet Graphiques, activer les options Histogramme des p-values et Volcano plot.

Les deux options qui suivent représentent deux formes possibles d’effets biologiques à représenter sur l’axe des abscisses. Sélectionner Log2(rapport des moyennes) car les données ne sont pas transformées. Activer l’option Identifier les caractères. XLSTAT utilisera une couleur spéciale pour les caractères intéressants aux niveaux statistique et biologique à la fois, en fonction des deux seuils qui suivent. Choisir 1 pour Seuil(x). Un log2(rapport des moyennes) de 1 signifie que la moyenne au numérateur est deux fois plus grande que la moyenne au dénominateur. Inversement, un log2(rapport des moyennes) de -1 signifie que la moyenne au dénominateur est deux fois plus grande que la moyenne au numérateur. Un log2(rapport des moyennes) de 2 ou -2 signifie qu’une des moyennes est 2² fois plus grande que l’autre et ainsi de suite. Choisir une p-value de 0.001 dans la case Seuil(y). Cela signifie que le seuil de significativité statistique sera placé à –log10(0.001).

 

differential expression charts tab

 

Cliquer sur le bouton OK.

 

Analyse d’expression différentielle dans XLSTAT : interprétation des résultats

Après un résumé des différentes options paramétrées en amont de l’analyse, le nombre de caractères éliminés via le filtrage non-spécifique est affiché. Ensuite, une analyse est présentée par facteur.

D’abord, un tableau  contenant les 30 caractères les plus significatifs rangés par ordre croissant de p-value est affiché. Le tableau contient les noms des caractères, les p-values pénalisées, la significativité ainsi que les moyennes de quantité d’ARN pour chaque niveau du facteur. Si une p-value est significative, l’utilisateur peut s’intéresser aux comparaisons multiples par paires, représentées par les lettres associées aux moyennes. Deux niveaux partageant la même lettre ne sont pas significativement différents. Deux niveaux n’ayant aucune lettre en commun sont significativement différents.

Pour le facteur génotype, il n’y a pas de p-value significative au seuil alpha = 0.05. Dans ce cas, l’interprétation des comparaisons multiples par paires n’a pas de sens. 

differential expression results

 

L’histogramme des p-values montre que les p-values sont distribuées de manière homogène.

 

differential expression p-values histogram

 

Le facteur état semble avoir un impact sur deux gènes : T1157.01 et T106.02. Le premier a une expression plus importante pour les échantillons « sains » et le deuxième a une expression plus importante pour les échantillons « malades ».

 

differential expression result

 

Ces deux caractères peuvent être repérés sur le volcano plot :

differential expression volcano plot

 

Les caractères se trouvant dans les rectangles en haut à gauche et en haut à droite au sein du volcano plot sont étiquetés. Ils correspondent aux caractères dépassant les seuils de significativités biologique et statistique (lignes pointillées).

Noter que les p-values utilisées pour calculer les –log10(p-values) du volcano plot sont les p-values brutes, non-corrigées.

 

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283