どのクラスタリング手法を選ぶべきか?
このチュートリアルの目的
このチュートリアルの目的は、ユーザーのデータを分析するために適切なクラスタ分析ツールを選ぶべるようにXLSTATユーザーを助けることです。
クラスタ分析とは何か?
クラスタ分析手法は、他のクラスに属するオブジェクト(オブザベーションまたは個体)よりも、同じクラスのオブジェクトがより類似しているように、オブジェクトを集めることを可能にします。オブジェクト間の近接がすべてのオブジェクトで定量化された変数の集合に基づきます。クラスタ分析手法は、探索的データマイニング手法で広く使用されています。ここにいくつかの事例があります:
発現データ(トランスクリプトミクス、プロテオミクス、メタボロミクスなど)で、それらの手法は、類似した発現プロファイルを持つ個体、または類似した発現パターンを持つ特性を検出することを可能にします。
マーケティング・りさーつで、クラスタリング手法は、調査データを用いてさまざまな消費者のプロファイルを検出することを可能にします。
生態学では、それらの手法は、類似したコミュニティを持つサイトのグループを識別することを助けます。
XLSTATで利用可能な手法
XLSTAT はデータ分析ボタンに格納された4種類のクラスタリング手法を提供します:
凝集型階層クラスタリング(AHC: Agglomerative hierarchical clustering)
さらに、XLSTAT-LG オプションで1つの手法:
これらの手法は、(潜在クラス・クラスタ・モデルを除き)量的変数でのみ動作します。AHCではバイナリ変数も使用できます。質的変数に基づいてオブジェクトをクラスタする必要がある場合は、我々はまず、多重コレスポンデンス分析 を実行して、第1からいくつかの軸(因子)のスコアをクラスタリング用のデータセットとして使用することを推奨します。
同じ意味で、コレスポンデンス分析 を含む探索分析のどれかで提供されるオブザベーション・スコアを使用することもできます。
どのクラスタリング手法を選ぶか
下記の表にそれぞれの手法の特徴を要約しました。
AHC | k-means | ガウス混合 | 単変量クラスタリング | 潜在クラス・クラスタ・モデル | |
---|---|---|---|---|---|
変数の数 | 最小で1 | 最小で1 | 最小で1 | 最大で1 | 最小で1 |
入力変数の種類 | 量的連続値 | 量的連続値 | 量的連続値 | 量的連続値 | 量的連続値、量的順序、名義値 |
計算の前にクラスの数を選ばなければならないか? | 選択 | 必須 | 必須 | 必須 | 必須(ただし、最適クラス数がモデルによって決定できる) |
結果: クラス・メンバーシップ* | 決定論的 | 決定論的 | 確率的 | 決定論的 | 確率的 |
結果: 特別な機能 | デンドログラム、プロファイル・プロット | プロファイル・プロット | クラスのパラメータ推定、混合モデル・プロット、MAPクラス分類プロット | - | 各クラスへの変数寄与度、新しいオブザベーションのクラス・メンバーシップを予測することが可能(スコアリング方程式) |
さらなる分析 計算の後、それぞれのオブザベーションのクラスタ・メンバーシップが、クラスタリング手法ごとに異なる方法で提供されます。決定論的方法は、各オブジェクトを単一のクラスに割り当てますが、一方、確率的方法は、各クラスへのオブザベーションのメンバーシップ確率を表示します。
とても大きなデータセットは、異なる手法の組み合わせによって取り扱えます。たとえば、k-means で得られたクラスタを、凝集型階層クラスタリング内のオブザベーションとして使用することができます。こちらのチュートリアル 参考になります。
この記事は役に立ちましたか?
- ウイ
- いいえ