あなたの分析ソリューション

Excelでのピアソン相関係数

20/04/2018
このチュートリアルは、XLSTATを用いてExcelでピアソン(Pearson)相関係数 を計算して解釈することを支援します。あたが探している統計機能がこれかどうかわからない場合は、こちらのガイドをチェックしてみてください。

ピアソン相関係数を計算するデータセット

データと結果のExcelシートは、以下のリンクをクロックしてダウンロードできます:
データをダウンロード

このデータは、オンライン・ショップの顧客の標本を表します。行が顧客で列は彼らが費やした金額とその他の特性(たとえば、靴のサイズ、体重...)です。

このチュートリアルの目的

ここでのゴールは、オンライン・ストアで費やした金額とさまざまな属性との間の相関を計算することです。相関係数は、2つの量的変数の間の正または負の関係性の強さを表します。我々のデータは、連続変数で構成されているので、我々はピアソン相関係数を使用します。我々はまた、相関の有意度の検定も行います。

そして、我々は2種類のグラフを生成します:

  • 相関を視覚的に探索するための相関マップ、および
  • 変数のすべての可能な対の間の関係性を可視化するための散布図のマトリックス

 XLSTATでのピアソン相関係数の計算のセットアップ

1. XLSTATを開くと、下図のように 相関/属性相関の検定 / 相関係数の検定 コマンドを選択してください。

 2. 相関係数の検定 ダイアログが現れます。

3. 一般タブのオブザベーション/量的変数 フィールドで列A-Eを選択します。そして、ドロップダウン・リストから Pearson 相関係数 を選びます。最初の行がヘッダーなので、変数ラベル オプションをチェックしたままにしておきます。

4. 出力タブで、以下のオプションを有効にします。
Set up a Pearson correlation test with XLSTAT, outputs tab
相関係数が0に等しいという帰無仮説を検定するために、各係数についてp値が計算されます。

決定係数は相関係数の2乗です。決定係数は、相関が負であれ正であれ、相関の強さを定量化します。変数をフィルタオプションを用いて、我々は他の変数とのR2の合計が最も高い4つの変数のみを表示するように選択します。

最後にBAE(Bound Energy Algorithm)を 用いて、変数を並べ替えします。この手法は、行での類似した値を持つ列がお互いに近づくように正方行列の行と列に並べ替えを適用します。

5. チャートタブで、以下のオプションを有効にします。

Set up a Pearson correlation test with XLSTAT, charts tab

画像タブでは、相関行列を画像で表示するように選べます。このオプションは、相関行列がたくさんの変数を含む場合に、どの変数が同じ構造を持つかを素早く見るのに役立ちます。


ピアソン相関係数の結果の解釈

最初の結果は、すべての変数の記述統計です。そして、相関行列が表示されます:

Pearson correlation matrix with XLSTAT
相関係数は-1 から 1 の間の値をとります。負値は負の相関、正値は正の相関を示します。ゼロに近い値は、相関がないことを反映します。

Invoice amount(請求額)と属性 Height と Weight の間の相関は、正で強い(1に近い)です。一方、Time spent と Invoice amount の間で負の相関が観察され、ウェブサイトでより長い時間をかける顧客はあまり多くを出費しないことを示唆します。

すべての係数が0.05有意水準で有意であるとなっています(太字の値)。言い換えると、帰無仮説(係数=0)が真であるにもかかわらず棄却されるリスクが5%よりも小さいです。これは下記のp値の表で確認できます (p値 < 0.0001)。

shoe sizeは相関行列に表示されていないことに注意してください。この変数は、R2の合計がすべての変数のなかで最も低いので除外されました。

P-values for Pearson correlation coefficients with XLSTAT
次のグラフは、相関を青-赤(冷-温)スケールで表示する相関マップです。青色は、-1 に近い相関(たとえば、 Time spent on site 対 Invoice amount) で、赤色は1に近い相関(たとえば Height 対 Invoice amount)です。  

Correlation map with XLSTAT


続くグラフは、プロットの行列です。各変数でヒストグラムが表示され(対角線)、すべての変数の組み合わせで散布図が表示されます。

散布図のポイントの色は、正(赤)か負(青)かを明らかにします。散布図で見られるパターンは、2つの変数の間の関係性のタイプと同時にその強さを示します。たとえば、 shoe size は、他のすべての属性と関係性が乏しく(行列の最後の列または最後の行)、ゼロに近い相関を含意します。

次にするべきこと: 主成分分析で量的変数を探索

主成分分析 (PCA) は、変数間の関係性をさらに探索し、顧客を変数と関係づけたり、顧客と顧客を関係づけたりすることのできる多変量階s系手法です。 

お問い合わせ

弊社の営業チームにご連絡ください。ここをクリック

弊社のテクニカル・サポート・チームにご連絡ください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283