XLSTATでの凝集型階層クラスタリングの実行
XLSTATで凝集型階層クラスタリングを実行するためのデータセット
データと結果のExcelシートは、記のボタンをクリックしてダウンロードできます:DemoHAC_EN.xlsm
こ のデータは、 米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。我々の目的は、利用可能な人口統計データに 基づいて、州の均質なクラスタを作成することです。
凝集型階層クラスタリングのセットアップ
XLSTATを起動して、XLSTAT|データ解析|凝集型階層クラスタリングを選択するか、 "データ解析" ツールバー(下図)の対応するボタンをクリックしてください。
階層型クラスタリング・ダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。
注意:XLSTATに よってデータを選択する方法は複数あります。詳細は、 XLSTATチュートリアルのデータ の選択のセクションを確認してください。
この事例では、データが1行目から始まっているので、列選択を使うのが早くて簡単です。これはなぜ列に 対応する文字が選択ボックスの中に表示されるのかを説明します。我々は人口のダイナミクスに興味があるので、変数Total population は選択されませんでした。最後の列は、その前の列と完全に相関しているので、選択されませんでした。
オプションタブでは、グループ作成が尺度効果による影響を持つことを避けるために、中心化/削減 オプションが選択されました。
我々は、各オブザベーションが属するグループを結果に示すようにするた めに、自動打ち切りオプションを選択しました。自動打ち切りはエントロピーに基づき、均質なグループを作成しようとします。ただし、実行上の制約または事前の知識により、異なるグループ数を使用することを抑制するべきではありません。
OKをクリックすると計算が始まります。
凝集型階層クラスタリングの結果の解釈
1番目の結果は、レベル棒グラフです。その形は、データの構造に関する多くのことを明らかにします。非類似度が大きい場合、我々がグ ルーピングしたグループがすでに均質になっています。 自動打ち切りは、いつオブザベーションを集めるのを(またはオブザベーションのグループ分け)を止めるかを決定するために使用します。
下図は、デンドログラムです。これはオブザベーションをグループ分けし、そして、オブザベーションのサブグループをグループ分けするために、アルゴリズムがどのように働いているかを表します。ご覧のように、アルゴリズムはすべてのオブザベーションをグループ分けすることに成功しています。点線は、自動打ち切りを示していて、2個のグループを導いています。
1番目のグループ(青色で表示)は2番目より均質です(デンドログラム上でより平坦)。これは、クラス内分散を見て確認されます。2番目のグループは、1番目よりもかなり高いです。
下表は、各クラスタに分類された州を示します。
各州のクラスIDを持つ表が、結果シートに表示されます。以下にサンプルを示します。この表は、たとえば、判別分析や平行座標法など、さらなる分析のために最初の表と融合できるので便利です。
このチュートリアルの実行方法をビデオで示します。
この記事は役に立ちましたか?
- ウイ
- いいえ