メインコンテンツに移動

Excelでの差次的発現分析チュートリアル

XLSTATで差次的発現分析を実行するデータセット

このチュートリアルでは、3種類の遺伝子型に属する病気の個体と健康な個体の36個の生物学的標本のシミュレートされたデータ表を用います。各標本について、1561 個の遺伝子の発現がRNA 定量測定を用いて測定されています。

RNAは行に標本は列に格納されています。 genotype(遺伝子型)因子とhealth status(健康状態)因子が、データ・マトリクスの右側に追加されています。因子の行番号は、標本の番号(データ・マトリクスの列の数)です。

データと結果のExcel シートは、こちらをクリックしてダウンロードできます。

このチュートリアルの目的

このチュートリアルの目的は、2つの因子、genotype (3水準: BB, BK, KK) と health status (2水準: healthy とdiseased)によって、差次的発現を識別するために、XLSTATの差次的発現ツールを使用することです。各因子について、我々は次のことを行ないます:

  1. 変動がとても低い特性を除去するために非特異性フィルタリングを実行する。

  2. 残ったすべての特性のそれぞれで従来の one-way ANOVを自動で実行し、p値を抽出する。

  3. 偶然に有意な効果として検出されるのを避けるために適切な手法を用いて p値を補正する。

最も低いp値に関連づけられた特性(RNAで表現された遺伝子)が、調査されている因子に最も有意に影響される特性です。このツールは、たとえば病気に関連するたくさんの遺伝子を検出するのにとても便利です。

2水準よりも多い因子(たおえば、遺伝子型)では、我々は、特性ごとに多重対比較を実行することができます。

2水準の因子(たとえば、健康状態)では、我々は、すべての特性に関係する統計的有意度と生物学的有意度の両方を可視化するvolcano プロットを生成することができます。

XLSTATの差次的発現ツールは、ハイスループットなOMICsデータでのタンパク質の産出や代謝産物の調整での説明変数の効果を調査するためにも使用できることに注意してください。

XLSTATでの差次的発現: 分析のセットアップ

差次的発現分析を実行するには、XLSTAT-OMICs / 差次的発現をクリックします。 一般タブでは、個体/特性の表フィールドでデータ・マトリクスを選択してください。ここでは、個体は、我々の標本で表されます。遺伝子がデータセット中の行に格納されているので、行に特性オプションを変更する必要はありません。 特性IDを格納するデータセットでは、最初の列を選択することが必須です。分析のアウトプットでユーザーが名前で興味のある特性を識別できるようにするために、 XLSTATはこの情報が必要です。説明変数のフィールドでは、因子の水準への各標本の親和を格納する2列を選択してください。

differential expression general tab

オプションタブでは、検定タイプをパラメトリックに選択します。このオプションは、因子と特性ごとに1つのone-way ANOVAを行います。小規模な標本では、one-way ANOVAをKruskal-Wallis検定に置き換えるノン・パラメトリック手法を用いることを推奨します。 事後補正では、差次的発現分析にとても一般的に使用されている Benjamini-Hochberg 手順を選びます。これは、False Discovery Rate ( FDR :偽発見率) p値補正ファミリーの1つです。Bonferroni 補正のようなFamily Wise Error Rate ( FWER )ファミリーの補正ほど厳密ではないので、多数のp値の計算を伴う分析によく適しています。 アウトプットに膨大なp値のリストを表示することを避けるために、保持するp値を30に設定します(高いp値はこの分析ではまったく興味がありません)。各遺伝子での遺伝子型水準の間での多重対比較を得るために、多重対比較オプションを有効にしてTukey (HSD) を選びます。最後に、非特異性フィルタリング・オプションを有効にして、50%のしきい値で%(標準偏差) を選び、分析に先立ち最も低い標準偏差に基づいて50%の遺伝子を除去します。

differential expression options tab

チャート・タブでは、p値のヒストグラムvolcano プロット オプションを有効にします。

以下の2つのオプションは、volcano プロットの x 軸に生物学的効果を表現する2つの方法を提供します。データが変換されていないので、我々は、Log2(平均比) を選びます。特性を識別オプションを有効にします。したがって、XLSTATは、統計的スケールと生物学的スケールの両方で、以下の2つのしきい値によって、高い有意度の特性に特別な色を使用します。 **しきい値(x)**に1を選びます。 1のlog2(平均比) は、分母の平均が高いだけ分子の平均が2倍されることを意味します。逆に-1の log2(平均比) は、分子の平均が高いだけ分母の平均が2倍されることを意味します。2 または -2 のlog2(平均比) は、 2²のfold change(比)を表します。 しきい値(y) のボックスで0.001のp値を選びます。これは、統計的有意度のしきい値が–log10(0.001)になることを意味します。

differential expression charts tab

OK ボタンくをクリックします。

XLSTATでの差次的発現: 結果の解釈

分析に使用したさまざまなオプションの要約の後、非特異性フィルタリングで除去された特性の数が表示されます。そして、因子ごとに1つの分析が表示されます。

まず、p値の昇順で30個の最も有意な特性が表示される表を表示します。この表は、各因子の水準ごとに特性名、ペナルティ化p値、有意度、RNA測定値の平均を格納しています。p値が有意であるなら、平均に関連づけられた記号で表される多重対比較に興味があるでしょう。同じ記号を共有する2つの水準は、有意に異なりません。記号を共有しない2つの水準は、有意に異なります。

genotype(遺伝子型)因子では、 alpha = 0.05で有意なp値がありません。この場合、どの特性に関しても多重比較の解釈は適切でありまません。.

differential expression results

p値のヒストグラムは、p値が一様に分布していることを示しています。

differential expression p-values histogram

健康または病気の因子は、2つの遺伝子T1157.01と T106.02の発現に影響しているようです。1番目の遺伝子は健康な標本で高い発現があり、2番目の遺伝子は病気の標本で高い発現があります。

differential expression result

2つの特性は、volcano プロットで可視化できます:

differential expression volcano plot

グラフの左上と右上の隅に置かれた特性がラベルづけされています。それらは、生物学的および統計的有意度のしきい値(点線)を上回る特性です。

volcano プロットで–log10(p値) を計算するために用いたp値は生のp値であり、補正されていないことに注意してください。

この記事は役に立ちましたか?

  • ウイ
  • いいえ