メインコンテンツに移動

Excelでの主成分分析(PCA)チュートリアル

主成分分析を実行するデータセット

このデータ は、 米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。

この主成分分析の目的

我々の目的は、変数間の相関を分析することと、いくつかの州で他の州よりとても異なる変化があるかどうかを発見することです。この事例は、階層型クラスタリングのチュートリアルでも用いてます。

主成分分析

主成分分析は、M個のオブザベーション- N個 の変数 の表にまとめられた数値データを分析するのにとても便利な手法です。それは次のようなことができます:

  • N個の変数間の相関を素早く可視化し分析する。

  • M個のオブザベーション(もともとはN個の変数で記述される)を低次元のマップ、分散基準の最適な表示で、可視化し分析する。

  • 他の統計手法(回帰分析など)の入力として再利用できるP個の非相関係数 (P

主成分分析の限界は、それが射影の方法であることに由来します。そして、ときどきその可視化は間違った解釈を導きます。ただし、これらの落とし穴を避 けるためのいくつかのトリックはあります。

主成分分析のセットアップ

XLSTAT-Proを起動したら、XLSTAT - データ解析 主成分分析コマンドを選択するか、データ解析ツールバーの対応するボタン(下図)をクリックしてください。
rtaImage_0_0.png
主成分分析ダイアログ・ボックスが現れます。
Excelシート上でデータを選択してください。
注意: XLSTATでのデータの選択には複数の方法があります。 詳細は、XLSTATのチュートリアルのデータの選択のセクションを確認してください。
この事例では、データは最初の行から始まっていますので、列選択を使うのが速くて簡単です。これは、列に対応する文字が選択ボックスの中に表示される理由を説明します。
選ばれたデータ形式は、入力データの形式により、オブザベーション-変数です。
計算の際に使用するPCAタイプは、伝統的な相関係数に対応するPearsonの相関行列です。
rtaImag_2.png
出力タブでは、有意な相関を太字で表示するオプション”有意度の検定”を有効にするように選びます。
rtaIma_2.png
チャートタブでは、すべてのチャートにラベルを表示し、すべてのオブザベーションを表示(オブザベーション・チャートとバイプロット)するために、フィルタ・オプションのチェックをはずします。たくさんのデータがあるは、ラベルの表示は、結果の全体表示を遅くするかもしれません。すべてのオブザベーションの表示は、結果を読みにくくするかもしれません。その場合、表示するオブザベーションのフィルタリングを推奨します。
rtaImagex_1.pngrtaImagexx_2.pngrtaImaged_1.png
OKをクリックすると計算が始まります。 行数と列数を確認うする画面が表示されます。
注意: このメッセージは、XLSTAT オプション・パネルで、”選択確認の要求”を非選択にして回避できます。
そして、プロットを表示したい軸を確認します。この事例では、最初の2軸で説明されるばらつき(変動)のパーセンテージが、67.72%ととても高いです。結果の誤解釈を避けるために、我々は、軸1と軸3上の2つめのチャートによって結果を補完することにします。

Article-Inline-81820907_1.pngArticle-Inline-81821008_1.png

主成分分析の結果の解釈

注目するべき最初の結果は、相関行列です。65歳より上と下の人々の比率が負に相関していている(r = -1)ことがわかります。結果の品質への影響なしに、2つの変数のどちらかを除去することができたでしょう。 また、Net Domestic Migration は、Net International migrationを含む他の変数と低い相関を持つこともわかります。これは、米国民および非米国民がさまざまな理由で州を移動しているであろうこを意味しています。
rtaImagexxx_1.png
次の表と対応するチャートは、N次元の元の表(この事例ではN=7)からより低い時限への写像の品質を反映する固有値という数学的なオブジェクトに関係しています。この事例では、1番目の固有値は、3.567 に等しく、ばらつきの合計の51%を説明していることがわかります。 これは、もし我々がそのたった1つの軸上でデータを説明した場合、データのばらつきの合計の何パーセントをまだ見ることができるかを意味します。
各固有値は因子に対応しており、各因子は1つの次元に対応しています。因子は、元の変数の線形重ね合わせになっており、すべての因子は非相関(r=0) です。固有値と対応する因子は、それらが元の分散をどれだけ説明するか(%に変換)により降順に並び替えられています。
rtaImagexxxx_1.pngrtaImageeee_1.png
理想的には、最初の2つか3つの固有値が高い分散に対応し、最初の2つか3つの因子に基づくマップが、元の多次元の表の品質のよい写像であることを 保証するでしょう。この事例では、最初の2つの因子で、データの元の分散の 67.72%を説明することができます。 これは良い結果ですが、いくらかの情報が次の因子に隠れているかも知れないので、マップを解釈するときには注意深くなければなりません。もとは7つの変数 を持っていましたが、因子の数は6だということがわかります。 これは、負の相関(-1)を持つ2つの年齢の変数のためです。"役に立つ"次元の数が、自動的に探索されます。
1番目のマップは、相関円(correlation circle)と呼ばれます(下図のF1とF2軸上)。それらは因子空間での元の変数の写像です。2つの変数が中央から遠くて、もしそれらが: お互いに接近していたら、それらは有意に正の相関である (r が1に近い)、 もしそれらが直交していたら、それらは相関していない (rが0に近い)、 もしそれらが中央をはさんで反対側にあれば、それらは有意に負の相関である(rが-1に近い) 、と解釈できます。
変数が中央に近い場合、それはいくらかの情報が他の軸に乗っていて、どのような解釈も危険であることを意味します。たとえば、変数 Net Domestic migration とNet International Migrationの間の相関を解釈するように誘惑されるかも知れませんが、実際には、相関はありません。これは相関行列を見るか、F1と F3軸上の相関円で見て確認することができます。
rtaImagexxxe_1.png
相関円は軸の意味を解釈するのに役立ちます。この事例では、水平の軸は年齢 と 人口の更新、垂直の軸は国内移住にリンクしています。これらの傾向は、次のマップを解釈するのに役立ちます。変数が軸によくリンクしていることを確かめるために、cos2乗の表をご覧ください: cos2乗がより大きいほど対応する軸へのリンクがより大きいことを意味します。任意の変数のcos2乗がよりゼロに近いほど、対応する軸上のトレンドの観点から結果を解釈するときはより慎重でなければなりません。 この表を見て、我々は、国際移住のトレンドはF2-F3軸上で最もよく見えることがわかります。
rtaImagee_0.png
次のチャートは、主成分分析(PCA)の究極の目的かもしれません。それは2次元のマップでデータを見て、トレンドを識別することを可能にします。ネバダ州とフロ リダ州の人口統計はユニークで、ユタ州とアラスカ州の人口統計がそうであるように、共通の特徴を持っている2つの州だとわかります。。表に帰って、ユタ州 とアラスカ州が65歳を超える人々の人口比率が低いことを確認できます。ユタ州は米国で最高の出生率で、アラスカ州も高くランクされています。
rtaImageeeeee_0.png
XLSTAT-3DPlotで生成された最初の3つの軸上の3D可視化をご覧になるにはクリックしてください。

主成分分析の使用上の注意

主成分分析は、回帰分析の前に相関した変数の使用を避けるために、またはデータをクラスタリングする前に変数の概観をより良く得るために、しばしば用いられます。よくマップに基づいてクラスタの数を簡単に推定したります。 上記の人口データは、階層クラスタリングのチュートリアルでも使用されました。変数">65 pop" は、その内容が分析における年齢変数の重みを2重にするので削除されました。

さらなる分析

PCAに補助変数を追加

PCAが計算された後、補助変数を追加することができます。これは解釈の品質を向上することに役立つでしょう。XLSTATでは、PCAダイアログ・ボックスの追加データタブから選択できます。補助変数は2種類に分けられます:

  • 質的補助変数: オブザベーションが属するカテゴリに応じて、それらを色づけできます。このチュートリアルの事例では、ある州で共和党が優勢か、民主党が優勢かを定義する列を追加すること もできます。

  • 量的補助変数: これらの変数は、PCAを構築するのに使用した変数のグループとそれらがどのように相関しているかを見るために追加できます。回帰の前にPCAが実行される場合、説明変数はPCAを構築するのに使用できますが、一方、従属変数は補助変数として追加できます。これは、どの説明変数が従属変数に最も強い効果を持つかを大雑把に検出することに役立つでしょう。

PCA後に凝集型階層クラスタリング AHC を実行

因子得点の表の下にあるボタンをクリックして、AHCを起動することもできます。オレンジ色の矢印は、多数の変数がある場合に、表の最後にダイレクトに行くことを可能にします。 
rtaImaeeeege.png
ボタンをクリックすると、AHCダイアログ・ボックスが自動で設定されて、OKボタンをクリックするだけで分析を立ち上げることができます。 
rteaImaeeeege.pngAHC分析の結果の解釈の仕方を見るには、こちら  をクリックしてください。

PCA分析に関する動画をご覧ください

下の動画は、PCAとXLSTATでのその実装をよりよく理解するのに役立ちます。

この記事は役に立ちましたか?

  • ウイ
  • いいえ