あなたの分析ソリューション

オブザベーションをグループ化するk-meansクラスタリング

19/12/2017

このチュートリアルは、XLSTATソフトウェアを用いてExcel内でk-meansクラスタリングをセットアップして解釈することを支援します。
これが必要とされる正しい多変量データ解析ツールであるかどうか確かでない場合は、こちらのガイドを確認してください。

k-meansクラスタリングのためのデータセット

データと結果のExcelシートは、下記のボタンをクリックしてダウンロードできます:
データをダウンロード

このデータは米国国勢調査局もので、2000年と2001年の間の51州の人口変化を記述しています。元のデータ集合は、分析の焦点である2001年のデータとの1000人ごとの比率に変形されています。我々の目的は、利用可能な人口統計データに基づい て、州の均質なクラスタを作成することです

注意:k-means法はランダムなクラスタ選択からスタートするので、同じデータについて下記の同じ分析を再実行しても、ここで使用するのと同じ乱数のシード(910837696)を使用しない限り、ほとんどの場合、下記とは異なる結果が得られます。シードを固定するには、XLSTATオプションの高度な設定タブで”シードを固定”をチェックします。

k-meansクラスタリングのセットアップ

XLSTAT-Proを有効にして、 XLSTAT / データ解析 / k-meansクラスタtリングを選択するか、データ解析 ツールバー(下図)の対応するボタンをクリックしてください。

k-means clustering function in XLSTAT

ボタンをクリックすると、k-meansクラスタリング・ダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。

注意:XLSTATでの データ選択にはいくつかの方法があります。詳細は、 XLSTATチュートリアルのデータ選択のセクションを見てください。 .

この事例では、データが1行目から始まっているので、列選択を使うのが速くて簡単です。これはなぜ列に対応する 文字が選択ボックスの中に表示されるのかを説明します。

我々は人口のダイナミクスに興味があるので、変数Total population は選択しませんでした。最後の列は、その前の列と完全に相関しているので選択しませんでした。

オブザベーション・ラベルが利用可能なので選択されました。我々は作成するグループの数を4としました。選択された基準は、行列式(W)で、これは変数の尺度効果を除去します。

k-means XLSTAT dialog box (general tab)

結果の品質と安定性を増すために、オプションタブで、繰り返しの数を50に増やしました。

k-means XLSTAT dialog box (options tab)

k-meansクラスタリングの解釈

選択された変数の基本記述統計の後、表示される1番目の結果は、最適化の要約と初期クラス内分散と最終クラス内分散です。

選択された基準での最適解がクラス内分散を最小化しないことに気づきます(最小が113.27より小さいとき、123.76)。これは、基準自体が、内分散ではなく、 Wのdeterminant(行列式)であるからです。ここで W は、クラス内分散行列です。

繰り返し間での最適解の分散分解表が表示されます。(注意: 合計分散 = クラス間分散 + クラス内分散)

kmc2.gif

クラス・セントロイド(重心)、クラス・セントロイド間の距離、中心オブジェクト(ここではクラス・セントロイドで最も近い州)を含む一連の表の後、州が各クラスタに分類された表が表示されます。

kmc3.gif

そして、各州についてグループIDを持つ表が表示されます。以下にサンプルを示します。クラスタ IDは、さらなる分析(たとえば判別分析)のために、初めの表と融合できます。

kmc4.gif

凝集型階層クラスタリング (AHC)のチュートリアルでは、 州が3つのグループにうまくクラスタされることがわかります。

k-meansクラスタリングで標本をグループ化する方法をビデオで示します。

お問合わせは、マインドウエア総研へ。

お問い合わせ

弊社の営業チームにご連絡ください。ここをクリック

弊社のテクニカル・サポート・チームにご連絡ください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283