メインコンテンツに移動

Excelでの分割表からのコレスポンデンス分析 (CA)チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてExcel内でコレスポンデンス分析 (CA) iをセットアップして解釈することを助けます。 これがあなたの必要とする正しい多変量データ解析であるかどうか確かでない場合は、こちらのガイド を確認してください。

コレスポンデンス分析を実行するデータセット

データと結果のExcelシートは、上のリンクでダウンロードできます。

データは、映画ファンに彼らが見たばかりのフィルムについての意見を聞き取り調査したものです。観衆は年齢のカテゴリも訊かれました。

コレスポンデンス分析のセットアップ

XLSTAT を開いて、XLSTAT / データ解析 / コレスポンデンス分析 コマンドを選択してください。

ボタンをクリックすると、コレスポンデンス分析ダイアログ・ボックスが現れます。

Excelシートでデータを選択してください。データが(下の事例のように)ピボット・テーブル形式なら、2元表形式を選択してください。データがオブザベーション/変数 形式なら、対応するオプションを選択してください。

注意: 分割表のカテゴリの名前が含まれる場合は、ラベルを含む オプションを選択してください。

オプション タブでは、高度な分析 オプションで、なしを選択してください。

非対称分析オプションは選択しないで、距離でカイ2乗を選びます。このオプションの組み合わせは、伝統的なコレスポンデンス分析(CA)の計算を可能にします。

注意: 非対称コレスポンデンス分析 (NSCA: non-symmetrical correspondence analysis)を実行するには、(カイ2乗距離のみが利用可能な)非対称分析 オプションを選択します。 Hellinger 距離 (HD)に基づくコレスポンデンス分析を実行するには、非対称分析オプションを選択し、かつ距離に Hellinger を選びます。

チャートタブのマップ サブ・タブで、3とおりの結果のマッピング方法があります。行と列の対称マップがもっともよく使われます。チュートリアルの目的にために、すべてのマッピングが選ばれました。

行オプション サブ・タブと列オプションサブ・タブでは、信頼楕円オプションを選択してください。

OK ボタンをクリックしてください。ダイアログ・ボックスが現れます。コレスポンデンス分析(このチュートリアルではF1とF2)と検証のグラフィカル表現で表示する軸 を選択します。

コレスポンデンス分析の解釈

コレスポンデンス分析の目的は、2つの変数(分割表の行と列)の間の関連性と各変数のカテゴリ(それぞれ行と列)の間の類似性を調査することです。

解釈を始める前に、プロファイルのコンセプトを導入しましょう。実際のとろろ、コレスポンデンス分析は、プロファイル分析に基づきます。プロファイルとは、それらの合計で割った度数(つまり、相対度数)の集合です。言い換えると、プロファイルは、ある変数のカテゴリが、他の変数のカテゴリによって変化する仕方を反映します。

最初に表示される結果は、カイ2乗統計に基づく、行と列の間の独立の検定です。観察されたカイ2乗値が臨界値よりも大きいならば、p値は選んだ水準アルファより下で、表の行と列が有意に関連していると結論づけることができます。我々の事例では、鑑賞プロファイルの項目において、年齢グループ間に実際の差が存在している可能性がとても高いです。

固有値は各因子(次元)で抽出された分散に一致します。分析の品質は固有値の表またはスクリー・プロットを見て評価することができます。最初の2つ(またはいくつか)の固有値の合算が合計に近いなら、分析の品質はとても高いです。この事例のコレスポンデンス分析は、最初の2つの固有値の合算が合計イナーシャの 97%なので、良い品質です。

そして、表の一覧が行ごと(そして列ごとにそれぞれ)表示されます。

最初の表は、重み、距離、そして原点までの2乗距離、行の(そして列の)イナーシャおよび相対イナーシャを示します。重みは、距離を計算するときにポイント・プロファイルを重みづけするために使用される限界比率です。原点への距離が大きいほど、カテゴリ・プロファイルと平均プロファイル の間の非類似度がより大きくなります(より多くのカテゴリが2つの変数間の従属に関与します。)年齢グループ 25-34、35-44 および 45-54 は、原点への距離が最も短く、これらのグループ・プロファイルが平均プロファイルに近いことを示しています。

そして、行(そして列)プロファイル、さらに平均プロファイルが表示されます。我々の事例では、年齢グループ 25-34、35-44および45-54のプロファイルが、お互いに、そして平均プロファイルに近いです。後者は原点までの短い距離で予見されました。

2つの行(そして列)の間の距離は、カテゴリ間の類似性に関する情報を与えます。再び、年齢グループ 35-34、35-44 および 45-54は、0.2を下回る距離で類似しています。

そして、行(しして列)の主座標および標準座標の表が表示されます。標準座標は、主座標を対応する因子の固有値の平方根で割ったものです。標準座標の重み付き平方和は、各因子で1に等しくなります。

次は、行(そして列)の寄与度の表です。寄与度は、各因子(次元)での各カテゴリの重要度です。寄与率の合計は各因子で1に等しいです。Iは行数(それぞれ1 / J、Jは列数)で、 経験則として、寄与率が1 / Iより大きい場合、そのカテゴリは特定の因子にとって重要です。 この例では、因子F1では16-24グループが重要であり、因子F2ではグループ65-74および75+が重要です。

次の表は、行(そして列)の2乗コサインを示します。2乗コサインは、各カテゴリでの各因子の重要度を表します。2乗コサインの和は 、特定のカテゴリで1に等しくなります。我々の事例では、 16-24 グループのほぼすべての分散が因子 F1に帰属します。

そして、さまざまなマップが表示されます。

対象プロット またはフレンチ・プロットが、もっともよく使用されます。行プロファイルおよび列プロファイルが、1つの表示に(両方とも主座標に)重ねて表示されます。この表示は、行ポイントと列ポイントの両方が均等に散らばっているので、とても便利です。行ポイント(そして列ポイント)間の距離は、行間(そして列間)カイ2乗距離を近似します。年齢グループ 25-34、35-44 および 45-54 は、とても類似したプロファイルを示して、対象マップ上でほとんど重なり合っています。

行ポイントと列ポイントの間の近接性は、直接解釈することができません。

対称行プロットに示されるように、対称プロットに信頼楕円を追加できます。特定のカテゴリの楕円内に原点がある場合、このカテゴリは変数間の従属ぬ寄与しません。我々の事例では、楕円は年齢グループ25-34、34-45および45-54が変数間の従属に寄与しないことを確認します。年齢グループ16-24は、変数間の従属に寄与しています。

対称行プロットは、行空間で表現された列(標準座標からの列および主座標からの行)を示します。逆に、対称列プロットは、列空間で表現された行に対応します。行と列の距離は、列ベクトル上に行ポイントを射影して解釈されるべきです。行または列のどちらの観点で軸を解釈するかは、解釈がどの程度適切かによります。我々の事例では、鑑賞空間で年齢グループを解釈することを選択します。

最初の次元は、good から badに転じます。16-24 グループでは、他の年齢グループでの “good” の割合と比較して、高い割合でgoodと評価されました。しかしながら、それは “good” の評価が16-24グループでの他の評価と比べて、最も高い割合を持っていたということは意味しません。行プロファイルは平均プロファイルから大きくはずれていません(行ポイントは原点に近い)。

そして、行と列の寄与座標が表示されます。寄与座標は、標準座標を特定のカテゴリの質量の平方根で割って得られます。

寄与バイプロット(行)では行は寄与座標、列はI主座標にあり、そして寄与バイプロット(列)では逆です。行(そして列)寄与バイプロットでは、行(そして列)ポイントの原点への距離は、マップへのそれらの寄与に関係します。我々の事例では、行寄与バイプロット上で、行ポイントの位置は、対称プロットと比較して変化しません。ただし、列ポイントは原点により近くなります(2つのマップの尺度を参照)。

コレスポンデンス分析は、2元表を分析するのにとても有効なテクニックです。調査で2個より多くのカテゴリカル変数 を使用する場合、多重コレスポンデンス (MCA: Multiple Correspondence analysis)を使用するのがベストです。

下の動画はCAの理論とXLSTATでの実装を説明します。

この記事は役に立ちましたか?

  • ウイ
  • いいえ