メインコンテンツに移動

Excelでの主成分の判別分析

このチュートリアルは、XLSTAT-RによりExcel内で主成分の判別分析(DAPC: discriminant analysis of principal components)をセットアップして解釈する方法を説明します。

主成分の判別分析は、合成変数を用いて、クラスタおよびそれらの間の関係を説明することです。また、オブザベーションがクラスタに属する確率を計算することもできます。

XLSTAT-Rにより主成分の判別分析を実行するデータセット

データは、adegenet パッケージからの引用です。我々は、dapcIllus (Jombart et al.)の最初のデータセットを使用します。これは、30か所での140の対立遺伝子の数と、その個体が属するグループ(1から6)を指定して、600の個体の遺伝子型の記述が含まれます。各行は、個体(オブザベーション)を表し、各列はある場所での対立遺伝子を表します。

我々の目的は、個体の各グループを説明し、グループ内およびグループ間のリンクを探索することです。

XLSTAT-Rによる主成分の判別分析のセットアップ

XLSTATを起動して、XLSTAT-R カテゴリの dapc ボタンをクリックします (adegenet パッケージ)。ribbon.png

DAPC ダイアログ・ボックスが現れます。

generalEN.png

一般タブでは、Excelシートからデータを選択します。データフィールドは、列A から ELのすべてのデータを含まなければなりません。

グループフィールドは、グループを含まなければなりません。我々の事例では、各個体が属するクラスタの番号を指定する列 EL を含まなければなりませんn。

変数ラベルを選択したので、変数ラベルオプションを有効にします。さらに、個体の番号も選択したので、オブザベーション・ラベル(列A)をチェックします。

optionsEN.png

オプションタブでは、直接(軸の数(PCA)) または説明される分散の最小パーセンテージ(分散の% )を指定して間接的に、PCAを実行するための軸の数を選ぶことができます。ここで、我々は分散の 60% を説明するように選びます。

また、**軸の数 (DA)**により、分析の基礎となる軸または合成変数の数を選びます。

donneesmanquantesEN.png

欠損値タブでは、欠損値を採用しないオブザベーションを除去または、平均、最頻値、最近傍のいずれかにより欠損値を推定を選ぶことができます。

sortiesEN.png

出力タブでは、表示sしたいすべての結果をチェックできます。ここで、我々は、可能なすべての出力を説明するために、すべてをチェックするように選びました。

チャートタブでは、各グループまたはすべてのグループの周辺個体のみを、それらをリンクするツリーとともに表示することもできます。

OKをクリックすると、計算が開始して、結果が表示されます。

XLSTAT-Rによる主成分の判別分析の結果の解釈

主成分の判別分析は、表やグラフの複数の結果を返します。

まず、オブザベーションの数、欠損値の数、量的変数の最小、最大、平均、標準偏差など、データに関する記述統計の表があります。

たとえば、場所 1 の03対立遺伝子(loc1.03)では600の個体があります。それらの数字は、0から 2の範囲です。

quantiEN.png

また、質的変数のモダリティ、カウント、有効性および、各モダリティが表す割合が表示されます。

たとえば、データの中でグループが均等に分布しています。

qualiEN.png

そして、合成変数に関するすべての情報にアクセスできます。

まず、5つの最初の合成変数に関連する5つの最も大きな固有値があります。これらの合計はイナーシャ(または分散)で、固有値が大きいほど、説明する分散のパーセンテージが大きくなります。したがって、我々の事例では、最初の5つの変数が分散の最大のパーセンテージを説明します。

eigenvalues.PNG

次に、PCAによって説明される分散のパーセンテージがあります (ここでは、我々は60%に設定しました)。

PCA-variance-EN.PNG

そして、負荷量の表が表示されます。 判別分析で使用される合成変数は、実際、PCAからの主成分の線形結合です。ここで、Observations の列に(分散の60%を説明するために必要な)これらの 35 次元があります。他の2列には、合成変数を作成するために、各次元に対応する係数(負荷量ともいう)があります(変数ごとに1列)。

loadingEN.PNG

次に、新しい判別分析の軸での各個体の座標の表があります。

coordind.png

各グループの座標を見ることもできます。

coordgroupes.png

そして、各オブザベーションのグループに属する事後確率を格納する表が表示されます。

posteriorEN.PNG

負荷量と判別分析の各成分への変数寄与度を表す最後の2つの表が表示されます。

前と同じように、負荷量は、判別分析の軸を得るために、オブザベーションの値に乗算する係数なのですが、今回は、オブザベーションが変数を表しています。

loadingvarEN.PNG

変数寄与度は、ある変数がある軸を構築するために寄与したパーセンテージを表す値です。この値が大きいほど、その変数の値の推移が、その軸上で直接的に読み取れるようになります。

contribvarEN.png

最後に、2つのグラフが表示されます。最初のそれは、判別分析の2つの主要な成分で定義される座標系でのすべてのグループを表します。また、グループの中心の間の2乗距離に基づいてグループをリンクする最小限ツリーがあります。ここで、一般的にクラスタは区別されますが、グループ1と2(青色と薄紫色)は部分的にか重なっており、グループ5と(オレンジ色と赤色)も同様です。グループ4(黄色)は、よく定義されています。

graphcluster.png

2番目のグラフは、各クラスタの周辺個体の位置と、それらが属するクラスタを示しています。

graphindiv.pngグラフの端に、この座標系が判別分析の最初に2成分で定義されるのを見ることができます(我々は2軸のみを保持するとうに選びました)。我々は、これらの表現が分散(クラスタと個体の間の距離)の60%のみを保持していることに留意しなければなりません。

結論

結論として、我々は各場所での遺伝子の数によって、個体をグループ化しました。これは、個体間の遺伝的類似性を識別することを可能にします。さらに、各軸への変数の寄与度を見ることにより、どの変数がこれらの類似性を構成しているかを観察することができます。

この記事は役に立ちましたか?

  • ウイ
  • いいえ