あなたの分析ソリューション

XLSTATでの凝集型階層クラスタリングの実行

19/12/2017

XLSTATで凝集型階層クラスタリングを実行するためのデータセット

データと結果のExcelシートは、下記のボタンをクリックしてダウンロードできます:
データをダウンロード

こ のデータは、 米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。我々の目的は、利用可能な人口統計データに 基づいて、州の均質なクラスタを作成することです。

凝集型階層クラスタリングのセットアップ

XLSTATを起動して、XLSTATデータ解析凝集型階層クラスタリングを選択するか、 "データ解析" ツールバー(下図)の対応するボタンをクリックしてください。

XLSTAT Toolbar

階層型クラスタリング・ダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。

注意:XLSTATに よってデータを選択する方法は複数あります。詳細は、 XLSTATチュートリアルのデータ の選択 のセクションを確認してください。

この事例では、データが1行目から始まっているので、列選択を使うのが早くて簡単です。これはなぜ列に 対応する文字が選択ボックスの中に表示されるのかを説明します。我々は人口のダイナミクスに興味があるので、変数Total population は選択されませんでした。最後の列は、その前の列と完全に相関しているので、選択されませんでした。

XLSTAT dialog box for AHC, general tab

オプションタブでは、グループ作成が尺度効果による影響を持つことを避けるために、中心化/削減 オプションが選択されました。

我々は、各オブザベーションが属するグループを結果に示すようにするた めに、自動打ち切りオプションを選択しました。自動打ち切りはエントロピーに基づき、均質なグループを作成しようとします。ただし、実行上の制約または事前の知識により、異なるグループ数を使用することを抑制するべきではありません。

XLSTAT dialog box for AHC, options tab

OKをクリックすると計算が始まります。

凝集型階層クラスタリングの結果の解釈

1番目の結果は、レベル棒グラフです。その形は、データの構造に関する多くのことを明らかにします。非類似度が大きい場合、我々がグ ルーピングしたグループがすでに均質になっています。 自動打ち切りは、いつオブザベーションを集めるのを(またはオブザベーションのグループ分け)を止めるかを決定するために使用します。

AHC graph: Levels bar chart

下図は、デンドログラムです。これはアルゴリズムがどのように働いて、オブザベーションをグループ分けして、サブ・グループができる かを示します。ご覧のように、アルゴリズムはすべてのオブザベーションをグループ分けすることに成功しています。点線は、自動打ち切りを示していて、3つのグループを導いています。

AHC Dendogram

2つのグループがほぼ同じサイズで、3つめは、2つの州だけです。最初のグループ(青色で表示)は、3つめよりも均質です(それは、デンドログラム上でより平坦です)。それは、クラス内の変数を見て確認されます。3つめのグループは、1つめよりもかなり高いです。

下表は、各クラスタに分類された州を示します。

AHC output: Results by class

各州のクラスIDを持つ表が、結果シートに表示されます。以下にサンプルを示します。この表は、たとえば、判別分析や平行座標法など、さらなる分析のために最初の表と融合できるので便利です。

AHC output: Results by object

このチュートリアルの実行方法をビデオで示します。

お問合わせは、マインドウエア総研へ。

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283