メインコンテンツに移動

ExcelでのDBSCANクラスタリング

このチュートリアルは、XLSTATソフトウェアを用いてExcel内でDBSCANクラスタリングをセットアップして解釈する方法を示します。

DBSCANクラスタリングのためのデータセット

データは [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, 179 -188] からの引用で、4個の変数(sepal length, sepal width, petal length, petal width)で記述された150個のアヤメの花と、それらの品種です。

この研究では3種類の品種が含まれます: setosa、versicolor、virginica。さらにデータセットは各3品種からの50個のオブザベーションを含んでいます。

このチュートリアルの目的

このチュートリアルの目的は、DBSCANクラスタリングをセットアップして解釈することと、アヤメのデータセットでクラスタリングがいかによくクラスタリングを実行できるかを見ることです。

XLSTATでのDBSCANクラスタリングのセットアップ

XLSTATを開くと、機械学習 / DBSCANをクリックしてください:

Graphical user interface, text, application  Description automatically generated DBSCAN ダイアログ・ボックスが現れます。Excel シートでデータを選択してください。

一般タブで、量的変数チェックボックスをクリックして、以下の列を選択してます: - sepal length

  • sepal width
  • petal length
  • petal width

各変数の名前が表の上部に表示されているので、我々は変数ラベルチェックボックスをチェックしなければなりません。ポイントがどのようにクラスタされるかを見るために、オブザベーション・ラベルチェックボックスをチェックして、speciesの列を選択します。

Graphical user interface, application  Description automatically generated オプションタブで、DBSCANパラメータをセットアップします: - イプシロン: この事例では、我々は 0.85を入力します。イプシロンの値が高すぎると、1個のクラスがすべてのオブザベーションを含むことになります。しかしながら、イプシロンが低すぎると、すべてのオブザベーションがノイズとしてみなされます。

  • 最小ポイント: XLSTATは、さまざまな数の最小ポイントで複数の分析を実行できるようにします。ここで、我々は 3 と 4 の最小ポイントを使用します。

イプシロンに等しい半径内の近傍を探索するために、距離行列法が使用されます。最後に、ユークリッド距離を選びます。 Graphical user interface, application, Word  Description automatically generated

最後に、出力タブで、1個または複数の出力表を表示するように選ぶことができます。 Graphical user interface, text, application  Description automatically generated

DBSCAN クラスタリングの解釈

最初の表は、データセットに含まれるノイズに関する概観と最小ポイントに応じたクラスごとのオブザベーションの数を示します。3個の最小ポイントでは、 class 1が 50個のオブザベーション、class 2が100個のオブザベーションを含みますが、ノイズとみなされたオブザベーションはありませんでした。4個の最小ポイントでは、1個のオブザベーションのみがノイズとして識別されます。

Table  Description automatically generated 選択された最小ポイントに応じての結果も表示されます。我々はクラスの数とオブザベーションごとにシルエット・スコアを得ることができます。ここで、最初の 10個のアヤメ setosa が class 1に割り当てられます。 Table  Description automatically generated シルエット・スコアを表すグラフで、クラスタリングの良さを視覚的に調査できます。スコアが 1に近いほど、そのオブザベーションはクラスの中によく入っています。反対に、スコアが -1に近いほど、そのオブザベーションは間違ったクラスに割り当てられています。

ここで、 class 1 に割り当てられたオブザベーションが、2に割り当てられたオブザベーションよりも高いシルエット・スコアを持っています。 Chart  Description automatically generated 最後の表は、ノイズとクラスごとに並べ替えられたオブザベーションの概観を示します。表の最初の 10 行と最後の 5 行は、DBSCANがclass 1内のすべてのSetosaオブザベーションをclass 2に割り当てられた他のすべてのオブザベーションから分離していることを示します。 Table  Description automatically generated

同じ表とグラフが、4 個の最小ポイントで表示されます。

DBSCANクラスタリングに関する結論

DBSCANアルゴリズムは、3つのアヤメの品種の中で2個のグループを生成します。それにもかかわらず、class 1 はすべての *setosa オブザベーションを含み、*class 2 は他の2品種を含みます。

DBSCAN アルゴリズムは、setosa 種を versicolor 種と virginica 種から分離するには良いクラスタリングですが、他のクラスタリング手法よりもよく3品種を分離することはできません。

この記事は役に立ちましたか?

  • ウイ
  • いいえ