Excelでの判別分析チュートリアル
このチュートリアルは、XLSTATソフトウェアを用いてExcel内で判別分析 (DA) をセットアップして解釈することを支援します。
判別分析を実行するデータセット
データと結果のExcelシートは、下記のボタンをクリックしてダウンロードできます:
データは [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, pp 179 -188] からで、150個のアイリス(アヤメ)の花に対応しており、4つの変数(がく片長さ、がく片幅、花びら長さ、花びら幅)とそれらの品種(species)記述されていま す。 この中には3つの品種が含まれています:setosa, versicolor 及び virginica。
判別分析の目的
我々のゴールは、4つの変数が品種を判別することを可能にするかどうかをテストし、そして、どのようにグループが分かれているかを可能な限り示す2次元のマップ上に、オブザベーションを可視化することです。
Iris setosa, versicolor および virginica.
判別分析のセットアップ
XLSTATを開いて、XLSTAT|データ解析|判別分析 コマンドを選択するか、"データ解析"ツールバー(下図)の対応するボタンをクリックしてください。
ボタンをクリックすると、判別分析ダイアログ・ボックスが現れます。質的従属変数は、ここでは、species(品種)変数です。質的説明変数は、4つの記述変数です。
Box検定で、3つの種の共分散が等しいという仮定が誤りであることがわかるので、共分散行列の等質性のチェックをはずします。
たくさんの結果がXLSTATによってオプションで表示されます。この事例ではどのオプションが有効にされたかを数に示します。
プロットにたくさんの情報を盛り込みすぎるのを防ぐために、チャートタブでラベルオプションのチェックをはずしました。
OKを クリックすると計算が始まります。そして結果が表示されます。
判別分析の結果の解釈
1番目の結果は、計算に使われたさまざまな行列を表示 します。2つのBox検定が、グループ間で共分散行列が等しいという帰無仮説を棄却することが必要であることを確認します。
Wilkのラムダ検定は、異なるグループの平均のベクトルが等しいかどうかを検定することができます(これはFisher's LSDまたは Tukey's HSD 検定の多次元バージョンとして理解できるはずです)。我々は、グループの平均ベクトル間の差が有意であることがわかります。
次の表は、固有値と分散の対応する%を示します。1番目の因子によって分散の99%が説明されていることがわかります。2つの因子だけです:因子の 最大の数は、n>p>kのとき、k-1に等しいです。ただし、n はオブザベーションの数で、pは説明変数の数、kはグループの数です。
以下のグラフは、元の変数が2つの因子と相関していることを示します(このチャートは因子負荷量の表に対応します)。因子F1はSepal length, Petal length,及び Petal width と相関しており、F2 はSepal widthと相関しています。
以下の表は、判別関数を示します。共分散行列の等質性を仮定する場合、判別関数は線形です。このチュートリアルのケースのように、等質性を仮定しな い場合、判別関数は2次です。これらの関数に基づくルールは、最大値を与える関数に対応するグループにオブザベーションを割り当てることです。これらの関 数は、新しいオブザベーションをグループに割り当てる予測モデルとして使うことができます。
次の表は、各オブザベーションの因子スコア(新しい空間におけるオブザベーションの座標)、各グループに属する確率、グループの重心へのマハラノビ ス平方距離を一覧しています。各オブザベーションは、最も所属する確率の高いグループに分類されています。この確率は、ベイズの公式によって事前確率を考慮した事後確率です。3つのオブザベーション(5,9,12) が、再分類されていることに気づきます。これらの結果が解釈される複数の方法があります:測定をした人が値を記録するときに間違ったか、対応するアイリス の花がとても異常に成長したか、品種を決定するために専門家が使った基準が十分に正確でなかったか、花を判別するために必要ないくつかの情報がここに利用 可能でないか、のいずれかです。
以下のグラフは因子軸上のオブザベーションを示してします。これで元の説明変数から抽出した因子軸上で、種類をとてもよく判別できることが確認で きます。
混同行列は、オブザベーションの再分類を要約し、正しく分類されたオブザベーションの%(オブザベーションの合計数のうちの正しく分類されたオブザベーションの比率)を素早く知ることを可能にします。ここでは、それは98%でした。
ダイアログ・ボックスの出力タブで対応するオプションが有効にされたので、クロス・バリデーションのための予測値が計算されています。クロス・バリデーションは、クロス・バリデーションは、あるオブザベーションが推定標本から脱落している場合、その予測値がどうなるかを知ることを可能にします。ここでは、1つのオブザベーション (Obs8) だけが誤分類されていることがわかります。
クロス・バリデーションの混同行列を下記に表示します。
お問合わせは、マインドウエア総研へ。
この記事は役に立ちましたか?
- ウイ
- いいえ