あなたの分析ソリューション

2つの分布を比較する Kolmogorov-Smirnov 検定の実行

20/10/2017

2つの分布を比較する Kolmogorov-Smirnov 検定を実行するためのデータセット

データと結果のExcel シートは、こちらをクリックしてダウンロードできます。

データは、靴の2つのブランド(ブランドAとブランドB)の品質を測定したスコア (0 – 30) です。スコアはどちらかのブランドを使用した顧客への調査に基づいて計算されました。15 人の顧客がブランドAniついて回答し、8人の異なる顧客がブランドBについて回答しました。 

 

このチュートリアルの目的

このチュートリアルは2つの部分に分かれています:

最初のパートでは、我々は理論分布(たとえば正規分布)の仮定をせずに2つの標本の分布を比較します。我々は、このケースによく適しているノン・パラメトリック Kolmogorov-Smirnov 検定を使用します。

2番目のパートでは、我々は1つの標本の分布を理論分布と比較するためにKolmogorov-Smirnov 検定を使用します。

 

パート 1: 観察された2つの分布を比較するKolmogorov-Smirnov 検定の実行

ここで、我々は2つの標本の分布を比較することに興味があります。

まず最初に、これらの分布はどのように見えますか? ヒストグラムは連続分布を可視化するのに良いツールです: XLSTAT / データ可視化 / ヒストグラム一般タブで、データのフィールドで両方の標本のセル範囲を選択してください。オプションタブでは、 最小オプションを有効にして、ボックスの中に0を入れてください。 これは、ヒストグラムのx軸の下限を揃えて、比較を簡単にします。OK ボタンをクリックします。

Preliminary histogram

 

結果のシートにヒストグラムが現れます:

 

Preliminary Histograms - 2

 

どのような理論的仮定もせずに、 標本Bの分布は、標本Aの分布と比較してより下限方向に偏っていることが言えます。我々は、2つの分布を比較するために、Kolmogorov-Smirnov ノン・パラメトリック検定を使用します:XLSTAT / ノン・パラメトリック検定 / 2分布の比較

Kolmogorov 2 - samples setting up

標本1でブランドAの列を、標本2でブランドBの列を選んでください。Kolmogorov-Smirnov 検定は、我々のデータのように標本が非釣り合いであっても構いません:標本Bは標本Aよりもスコアの数が少ないです。 オプションタブで、片側対立仮説や正確なp値の計算を選択できることに留意してください。チャートタブで、累積ヒストグラム・オプションを有効にしてください。OKボタンをクリックします。

結果のシートは、簡単に抽出できるKolmogorov-Smirnov 統計量 (0.475) を格納しています(さらに累積ヒストグラムのチャートを見てください)。この統計量は p値(0.133) に関係づけられていて、2つの分布がアルファ = 0.05で有意に異ならないことを示しています。

Kolmogorov 2 samples summary statistics

Cumulative frequencies

累積分布チャートは、x軸上に調査された変数(調査スコア)を示します。x軸上の任意の点で、ブランドの累積相対度数は 、そのブランドのスコアの中でのこの点より小さなスコアの比率です。したがって、前にヒストグラムで示されたように、ブランド B はブランドAよりもx軸で早く累積スコアが開始しているようです。中央値に注目してください。それは、 0.5.の累積相対度数に対応するスコアです。 ブランドBの中央スコア (~20) は、ブランドAの中央スコア(~17)よりも高いようです。

Kolmogorov-Smirnovの D 統計量は、2つの曲線の間で起きる最高の偏差です。我々の事例では、中央の領域にありますが、これは他のデータを用いた場合には必ずしも当てはまりません。D 統計量が高いほど、p値がより低く、2つの分布の間の差がより有意になります。

 

パート 2: 観察された分布と理論分布を比較する Kolmogorov-Smirnov 検定の実行

ブランドAの品質スコアがフランスで得られたものとしましょう。 米国の顧客では、このスコアは、平均 21.5 と標準偏差 2.3 の正規分布に従います。我々は、フランスのスコア分布が、米国のスコアの理論分布から有意に異なるかどうかを問うことができます。ここで再び、我々はKolmogorov-Smirnov 検定を用います。前のパートと異なるのは、2つの異なる分布を比較するのではなく、観察された分布を理論分布と比較しようとしていることだけです。

XLSTAT / ノン・パラメトリック検定 / 分布の適合一般 タブで、ブランドAのデータ、正規分布を選び、投入オプションを有効にして、次のパラメータを入れてください: µ = 21.5 および sigma = 2.3。チャート・タブで、累積ヒストグラム・オプションを有効にしてください。 OK ボタンをクリックします。

Kolmogorov mono-sample setting up

 

結果のシートで、(左下の)ヒストグラムは、観察された分布は、米国のスコア分布を反映する理論曲線(赤い線)と比較して、低いスコアに偏っていることがわかります。

Kolmogorov mono-sample charts

Kolmogorov mono-sample summary statistics

Kolmogorov-Smirnov 検定は、p値 0.000 に関連づけられていて、観察分布が理論分布からアルファ = 0.05で有意に異なることを示しています。

 

お問い合わせ

弊社の営業チームにご連絡ください。ここをクリック

弊社のテクニカル・サポート・チームにご連絡ください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9201