Expression différentielle (OMICS) dans Excel
Ce tutoriel vous explique comment configurer et interpréter une analyse d’expression différentielle dans Excel à l’aide du logiciel statistique XLSTAT.
Cet outil permet de détecter les caractères les plus différentiellement exprimés selon les variables explicatives au sein d’un tableau de données caractères/individus pouvant atteindre de très grandes dimensions. Par exemple il peut être utilisé pour étudier les effets de variables explicatives sur la production de protéines ou la régulation de métabolites dans un contexte de données OMICs obtenues à haut débit.
Jeu de données pour faire une analyse d’expression différentielle avec XLSTAT
Pour ce tutoriel, nous utilisons un jeu de de données simulé correspondant à 36 échantillons biologiques d’individus sains ou malades appartenant à trois génotypes différents. Pour chaque échantillon, l’expression de 1561 gènes est mesurée via une quantification d’ARN.
Les gènes sont rangés en lignes et les échantillons en colonnes. Deux facteurs (génotype et état) décrivant les échantillons sont placés à droite du tableau de données. Le nombre de lignes des facteurs correspond au nombre de colonnes du tableau de données.
Le but de ce tutoriel est d’utiliser l’outil d’analyse d’expression différentielle dans XLSTAT afin d’identifier les gènes différentiellement exprimés en fonction de deux facteurs : génotype (trois niveaux : BB, BK et KK) et état (sain et malade).
Paramétrer une analyse d’expression différentielle avec XLSTAT
Pour effectuer une analyse d’expression différentielle, cliquer sur XLSTAT / Analyse de données de laboratoire / Expression différentielle comme sur l’image ci-dessous.
Une fois que vous cliquez sur la commande, la boîte de dialogue Expression différentielle apparaît.
Dans l’onglet Général, sélectionnez le tableau de données dans le champ Tableau caractères/individus. Dans cet exemple les individus sont représentés par nos échantillons. L’option caractères en lignes est choisie car les gènes sont rangés en lignes au sein du tableau.
Puis sélectionnez les variables explicatives correspondant aux facteurs génotype et état et les libellés des observations donnés dans la colonne A du fichier.
Dans l’onglet Options, sélectionnez le type de test Paramétrique. Cette option produira une ANOVA à un facteur par facteur et par caractère. Pour de petits effectifs d’échantillons, nous recommandons plutôt la méthode non-paramétrique, qui remplace les ANOVAs à un facteur par des tests de Kruskal-Wallis.
Pour les corrections post-hoc, choisir la procédure de Benjamini-Hochberg, couramment utilisée dans les études d’expression différentielle. Elle fait partie de la famille de correction de p-values appelée False Discovery Rate ( FDR ). Il s’agit d’une famille de corrections adaptées à des études impliquant le calcul d’un très grand nombre de p-values. Ces corrections sont moins sévères que les corrections faisant partie de famille Family Wise Error Rate ( FWER ), telle que la correction de Bonferroni.
Programmer 30 p-values à conserver pour éviter l’affichage de grandes listes de p-values dans les sorties (les p-values élevées ne sont pas intéressantes dans le contexte de notre étude).
Activer les comparaisons multiples par paires et choisir Tukey (HSD) pour obtenir des comparaisons multiples 2 à 2 parmi les modalités du facteur génotype pour chaque gène.
Enfin, sélectionnez le filtrage non-spécifique et choisissez le critère %(Ecart-type) avec un seuil de 50%. Ceci éliminera la moitié des gènes sur le critère de la variabilité mesurée par l’écart type en amont des analyses.
Dans l’onglet Graphiques, activer les options Histogramme des p-values et Volcano plot.
Les deux options qui suivent représentent deux formes possibles d’effets biologiques à représenter sur l’axe des abscisses. Sélectionner Log2(rapport des moyennes) car les données ne sont pas transformées.
Activer l’option Identifier les caractères. XLSTAT utilisera une couleur spéciale pour les caractères intéressants aux niveaux statistique et biologique à la fois, en fonction des deux seuils qui suivent.
Choisir la valeur un pour le Seuil(x). Un log2(rapport des moyennes) de 1 signifie que la moyenne au numérateur est deux fois plus grande que la moyenne au dénominateur. Inversement, un log2(rapport des moyennes) de -1 signifie que la moyenne au dénominateur est deux fois plus grande que la moyenne au numérateur. Un log2(rapport des moyennes) de 2 ou -2 signifie qu’une des moyennes est 2² fois plus grande que l’autre et ainsi de suite.
Choisir une p-value de 0.001 dans la case Seuil(y). Cela signifie que le seuil de significativité statistique sera placé à –log10(0.001).
Une fois que vous avez cliqué sur le bouton OK, les calculs commencent puis les résultats sont affichés.
Interpréter les résultats d’une analyse d’expression différentielle avec XLSTAT
Après un résumé des différentes options paramétrées en amont de l’analyse, le nombre de caractères éliminés via le filtrage non-spécifique est affiché. Ensuite, une analyse est présentée par facteur.
D’abord un tableau contenant les 30 caractères les plus significatifs rangés par ordre croissant de p-value est affiché. Le tableau contient les noms des caractères, les p-values pénalisées, la significativité ainsi que les moyennes de quantité d’ARN pour chaque niveau du facteur. Si une p-value est significative, l’utilisateur peut s’intéresser aux comparaisons multiples par paires, représentées par les lettres associées aux moyennes. Deux niveaux partageant la même lettre ne sont pas significativement différents. Deux niveaux n’ayant aucune lettre en commun sont significativement différents.
Pour le facteur génotype, il n’y a pas de p-value significative au seuil alpha = 0.05. Dans ce cas, l’interprétation des comparaisons multiples par paires n’a pas de sens.
Ci-dessous l’histogramme des p-values montre que les p-values sont distribuées de manière inhomogène avec un fort pic à 1.
Le facteur état semble avoir un impact sur deux gènes : T1157.01 et T106.02. Le premier a une expression plus importante pour les échantillons « sains » et le deuxième a une expression plus importante pour les échantillons « malades ».
Ces deux caractères peuvent être repérés sur le volcano plot :
Les caractères se trouvant dans les rectangles en haut à gauche et en haut à droite au sein du volcano plot sont étiquetés. Ils correspondent aux caractères dépassant les seuils de significativités biologique et statistique (lignes pointillées).
Noter que les p-values utilisées pour calculer les –log10(p-values) du volcano plot sont les p-values brutes, non-corrigées.
Cet article vous a t-il été utile ?
- Oui
- Non