メインコンテンツに移動

Excelでのピアソン相関係数チュートリアル

このチュートリアルは、XLSTATを用いてExcelでピアソン(Pearson)相関係数 を計算して解釈することを支援します。あたが探している統計機能がこれかどうかわからない場合は、こちらのガイドをチェックしてみてください。

ピアソン相関係数を計算するデータセット

このデータは、オンライン・ショップの顧客の標本を表します。行が顧客で列は彼らが費やした金額とその他の特性(たとえば、靴のサイズ、体重...)です。

このチュートリアルの目的

ここでのゴールは、オンライン・ストアで費やした金額とさまざまな属性との間の相関を計算することです。相関係数は、2つの量的変数の間の正または負の関係性の強さを表します。我々のデータは、連続変数で構成されているので、我々はピアソン相関係数を使用します。我々はまた、相関の有意度の検定も行います。
そして、我々は2種類のグラフを生成します:

  • 相関を視覚的に探索するための相関マップ、および

  • 変数のすべての可能な対の間の関係性を可視化するための散布図散布図のマトリックス

少しだけ理論 : ピアソン相関係数の計算方法は?

今日、たくさんの相関係数の計算が利用可能ですが、線形相関係数は、自分で簡単に計算できます。
ピアソン相関係数は、以下の式を用いて計算されます:

r=n(xy)(x)(y)[nx2(x)2][ny2(y)2]r=\dfrac{n(\sum xy)-(\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}

相関の解釈の仕方は?

相関係数は、2つの変数の線形の関係性の強さを表します。
その値が -1に近いほど、変数間の負の関係性がより強く: 一方が増えると、もう一方が減ります。
その値が 1に近いほど、変数間の正の関係性がより強く: 両方の変数が同時に増えたり減ったりします。 1 の相関係数は、変数間の完全な正の線形関係を表します。
相関係数が 0に近い場合、2変数の間に関係がないことを意味します。

有意度はどのように検定されるのか?

検定統計量は、n-2 の自由度を持つスチューデント分布に従う下記の式で計算されます。

tn2=r1r2n2t_{n-2}=\dfrac{r}{1-r^2}\sqrt{n-2}

これらの値が、alpha = 0.05の値で定義される範囲外になるなら、帰無仮説が棄却され、ピアソン相関係数は 0から有意に異なる。

XLSTATでのピアソン相関係数の計算のセットアップ

  • XLSTATを開く

  • 相関 /属性相関検定 / 相関検定 コマンドを選択する。

  • 一般 タブのオブザベーション/量的変数 フィールドで列A-Eを選ぶ。そして、ドロップ・ダウン・リストからピアソン相関係数を選ぶ。 .

Correlation tests dialog box.png

  • 出力タブで、p値、決定係数(R2)の表示、R2に応じた変数のフィルタリングおよび並べ替えを有効にする。

Outputs tab of the Correlation tests dialog box

  • OKをクリックすると計算が始まる。.

ピアソン相関検定の結果の解釈の仕方は?

XLSTATでの最初の結果は、すべての変数の記述統計量(平均、標準偏差など)です。 そして、相関行列が表示され、続いて相関係数の95% 下限および上限信頼限界が表示されます。1つ表が上限を表示し、もう1つが下限を表示します。単一の表に両限界を表示させることもできます。

Pearson correlation matrix
Confidence intervals for the correlation matrix

Invoice amountと属性 Height および Weight の間の相関は、正で強い(1に近い)です。一方、Time spent と Invoice amount の間で負の相関が観察され、ウェブサイトでより長い時間をかける顧客はあまり多くを出費しないことを示唆します。
すべての係数が0.05有意水準で有意であるとなっています(太字の値)。言い換えると、帰無仮説(係数=0)が真であるにもかかわらず棄却されるリスクが5%よりも小さいです。これは下記のp値の表で確認できます (p値 < 0.0001)。
shoe sizeは相関行列に表示されていないことに注意してください。この変数は、R2の合計がすべての変数のなかで最も低いので除外されました。

Correlation matrix p-values

決定係数は、相関が負であれ正であれ、相関の強さを定量化します。変数をフィルタ・オプションを用いて、我々は他の変数とのR2の合計が最も高い4つの変数のみを表示するように選択します。

Determination coefficients Pearson

さらにBAE(Bound Energy Algorithm)を 用いて、変数を並べ替えします。この手法は、行での類似した値を持つ列がお互いに近づくように正方行列の行と列に並べ替えを適用します。FPC (First Principal Component)も利用可能です。
次のグラフは、相関を青-赤(冷-温)スケールで表示する相関マップです。青色は、-1 に近い相関(たとえば、 Time spent on site 対 Invoice amount) で、赤色は1に近い相関(たとえば Height 対 Invoice amount)です。.

Correlation map

続くグラフは、プロットの行列です。各変数でヒストグラムが表示され(対角線)、すべての変数の組み合わせで散布図が表示されます。
散布図のポイントの色は、正(赤)か負(青)かを明らかにします。散布図で見られるパターンは、2つの変数の間の関係性のタイプと同時にその強さを示します。たとえば、 shoe size は、他のすべての属性と関係性が乏しく(行列の最後の列または最後の行)、ゼロに近い相関を含意します。

Graph matrix returned by Pearson correlation

次にするべきこと: 主成分分析で量的変数を探索

主成分分析 (PCA) は、変数間の関係性をさらに探索し、顧客を変数と関係づけたり、顧客と顧客を関係づけたりすることのできる多変量解析手法です。

この記事は役に立ちましたか?

  • ウイ
  • いいえ