あなたの分析ソリューション

Excelでのファジィ k-means クラスタリング

25/09/2018

このチュートリアルは、XLSTATソフトウェアを用いてExcel内でファジィ k-means クラスタリング を設定して解釈することを助けます。

ファジィ k-means クラスタリングのためのデータセット

データと結果のExcelシートは、下のボタンをクリックしてダウンロードできます:
データをダウンロード 

このチュートリアルでは、XLSTATの特徴抽出 機能で複数のEコマース・プラットフォームに残された女性のコメントの寄せ集めのテキスト・データから収集されたドキュメント-検索語行列を使用します。分析は、意図的にデータセットの最初の 5000行に制限されまたした。

注意: 同じデータで下記と同じ分析を再実行しても、k-means 法はランダムに選択されたクラスタから開始するので、乱数のシードをここで使用するのと同じ値y (123456789)に固定しない限り、たぶんほとんどの場合、下記とは異なる結果を得ることとなります。 シードを固定するには、 XLSTAT オプションに行って、"シードを固定"オプションをチェックしてください。

ファジィ k-means クラスタリングの設定

XLSTAT を起動して、XLSTAT / 高度な機能 / テキスト・マイニング / ファジィk-meansクラスタリング コマンド(下図)を選択してください。

ボタンをクリックすると、ファジィ k-means クラスタリングのダイアログ・ボックスが現れます。そして、検索語頻度行列 のフィールドからデータを選択(セル範囲選択)できます。データの最初に列に文書の名前が入っているので、ドキュメント・ラベルオプションは有効にします。データの最初に行に検索語の名前が入っているので、ワード・ラベルオプションも有効にします。

ここで選択される非類似度指標は、2検索語ベクトル間のコサインに基づく距離 («1 - Cosine similarity»)で、これは分類されるベクトルの標準化を可能して、サイズが異なるが検索語の比率が同等なドキュメントの解離を避けます。 
 
 
オプションタブでは、結果の品質と安定性を増加させるために、繰り返しの数を 50 に増やします。アルゴリズムは毎回新しいランダムな開始点で20回起動されます。

初期の分割は、kmeans ++のより高速な実装であるアルゴリズム K|| [Bahmani2012]で定義されます。この初期化は、すでに選ばれた中心からできるだけ遠くに、次のグループの中心を選びます。したがって、初期化の際に異常なポイントによる望ましくない効果を制限することを可能にします。


ここでは、クラスの数 30 が選択されました。ただし、これは説明される分散ゲイン(クラス間分散と合計分散の比)が減少し始める瞬間に対応する変曲点を決定するために、(異なる中心(k)の数に応じて)基準の進展のプロットを観察してから調整できます(Elbow 法)。

ここで、あるグループの周辺にある特定のオブザベーションが同時に複数の異なるグループに属すること(ソフト・クラスタリング)を可能にするために、1.10 のファジィ係数が適用されます。この係数は、外れ値の効果を低減することも可能にします。

OKをクリックすると計算が始まります。

ファジィ k-means クラスタリングの解釈

選択された変数の基本記述統計の後、XLSTATはオプションの分類基準で分散がどのように分解されるかを示します。
 
The following table shows the terms assigned to each group.

生成されるクラスタは、同じ文書で頻繁に現れる検索語に関係づけられます。たとえば、 クラスタ 11 は、検索語 "run" "large" "small" を含んでおり、これらのワードを否定的な感情に結び付け、すべてのレビューで "大きさの問題" のテーマにこれらを位置づけます。

メンバーシップ 表は、各ワードについて、それが割り当てられたグループの識別子を提供します。後者は、検索語のメンバーシップ確率が最大であるグループを選んで計算されます(デモ・ファイルのレポート内のメンバーシップ確率表を参照)。表の一部をしたに示します。
クラスタ 17 は、いくつかの肯定的な感情を含みます。

そして、生成されたグループまたは"トピック" を予測したい従属変数に関連づけて、追加の分析に使用することができます(たとえば、コメントに関係づけられた感情での、サポート・ベクトル・マシンを用いた教師あり分類)。

下図は、各オブザベーションのそのクラスに関する類似度を示すシルエット・プロットです。これらの値が 1に近いほど、より良い分類です。これらの値の平均は、もう1つの全体的品質の指標です。高い平均類似度を持つ各クラスタ内のオブザベーション数をハイライトする文字は、これらの各グループ内で強く相関する検索語の存在を示しています。

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9201