メインコンテンツに移動

Excelでの偏最小2乗 (PLS) 判別分析チュートリアル

偏最小2乗判別分析を実行するデータセット

このチュートリアルで使用するデータと結果のExcelシートは、こちらをクリックしてダウンロードできます。

データは、 [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, 179 -188] からの引用で、4つの変数(sepal length:がく片長さ, sepal width:がく片幅, petal length:花びら長さ, petal widthand:花びら幅)とそれらの品種(species)で記述された150 個のアヤメです。この調査には、3つの品種が含まれます:setosa, versicolor および virginica。

この事例での偏最小2乗判別分析の目的

我々の目的は、4つの変数が種類を判別できるかをテストし、グループがどのように分かれているかをできる限り示す2次元のマップにオブザベーションを可視化することです。これは偏最小2乗法に基づき、多重共線性データ、欠損値、わずかのオブザベーションと多数の変数を持つデータ集合を取り扱うことができます。

偏最小2乗判別分析のセットアップ

偏最小2乗判別分析をセットアップするには、偏最小2乗回帰ダイアログ・ボックスを使用します。 XLSTATを起動して、ExcelメニューのXLSTAT / データ・モデリング / PLS回帰 コマンドを選択するか、データ・モデリングメニューの対応するボタンをクリックしてください。

ボタンをクリックするとPLS回帰ダイアログ・ボックスが表示されます。

従属変数フィールドでは、マウスでspeciesを選択します。

量的変数フィールドでは、説明変数を選択します。我々のケースでは、アヤメの物理的記述子です。

使用する手法は、偏最小2乗判別分析のPLS-DA です。

ダイアログ・ボックスのオプションタブでは、自動が有効になっていることを確認してください。

最後に、チャートタブで、グラフを読みやすくするために、色づきラベルオプションが有効にされました。

OKをクリックすると計算が始まります。 そして、結果が表示されます。

判別分析の結果の解釈

最初の結果は、説明変数とspeciesの間の従来のPLS回帰の結果です(各specie が1つの応答変数を表現)。

表の後に、基本統計量が表示され、選択されたすべての変数間の相関(従属変数は青で、量的説明変数は黒で表示)、PLS回帰特有の結果が提供されます。

Model quality PLS discriminant analysis

Q² 累積インデックスは、3つのモデル(各specieごとに1つ)の全体的な適合度と予測品質を定量化します。

XLSTAT は、4つの成分を自動で選択しました。4つの成分ででも、 Q² がまだ低いことがわかります(理想的には、それは1に近いべきです)。これは、適合の品質がspecieによって大きく変動することを暗示します。

説明変数 (X) および従属変数 (Y) と成分の間の相関に対応するR²Y cum および R²X cum が、4つの成分でとても1に近いです。これは、偏最小2乗回帰によって生成された4つの成分が、XとYの両方をよく要約することを示しています。

最初の相関マップは、最初の2つの成分について、Xと成分、および Yと成分の間の相関を可視化できます。

Correlation map PLS dicriminant analysis

我々は、相関プロット内で、species と説明変数を可視化できます。

従来のPLS 回帰の出力が表示されると、PLS判別分析特有の出力が表示されます。

次の表は、分類プロセスを要約します。各オブザベーションは、関数が最も高いグループに分類されています。 2つのオブザベーション (3,5) が再分類されたことに気づきます。これらの結果を複数の方法で解釈できます:値を記録するときに測定する人が間違ったか、対応するアヤメの花がとても異常な成長をしたか、speciesを決定するためにスペシャリストが用いた基準が十分に正確でなかったか、 花を判別するために必要ないくつかの情報がここでは利用できなかったか、のいずれかです。

Classification table PLS discriminant analysis

下記のグラフは、t 軸上にオブザベーションを表現します。これは、オリジナルの説明変数から抽出された因子軸上で、species がとてもよく判別されていることが確認できます。

Discriminant plot PLS discriminant analysis

混同行列は、オブザベーションの再分類を要約し、オブザベーションの合計数上での、正しく分類されたオブザベーションの数の比率である、正しく分類されたオブザベーションの % が素早くわかります。ここでは、それは 85%です。

Confusion matrix PLS discriminant analysis

XLSTATは、値を予測することができ、PLS 判別分析のための一連の検証を使用することができます。

この記事は役に立ちましたか?

  • ウイ
  • いいえ