Excelでの自己組織化マップ(SOM)チュートリアル
このチュートリアルは、XLSTAT-Rエンジンを用いてExcelで自己組織化マップ(SOM:Self-Organizing Maps)をセットアップして解釈することを支援します。
自己組織化マップ: 教師なし機械学習メソッド
自己組織化マップ は、1980年にKohonenが開発した教師なし機械学習(unsupervised machine learning)****です。 それは多変量データの次元を通常2次元の低次元空間に削減します。 オブザベーションが類似するオブザベーションのノードに割り当てられます。そして、ノードはお互い隣にクラスタされた類似するノードとともに2次元のマップに広がります。 各ノードは、それが負っているオブザベーションの数や、それらのオブザベーションのさまざまな入力変数の代表値に関する情報を格納しています。これらの値は、変数ごとに1つのヒートマップで、ヒートマップの形式で見ることができます。ヒートマップを観察すると、ノードにおけるクラスタ・パターンや、隠された知見が明らかになります。 ヒートマップを比較することで、ノードのクラスタの評価に関する有用な情報が得られます。 XLSTAT-Rで開発されたSOM関数は、Rの som function from the kohonen package (Ron Wehrens and Johannes Kruisselbrink)を呼び出します。
XLSTAT-RでSOM分析を立ち上げるデータセット
データと結果のExcelシートは、下のボタンをクリックしてダウンロードできます: データをダウンロード https://help.xlstat.com/admin/content-management/attachments/125538/original.xls?1513099632 データは、イタリアのピエモンテ地方の177種のワイン・サンプルで測定した化学特性(量的変数および分光変数からなる)です [M. Forina, C. Armanino, M. Castino and M. Ubigli. Vitis, 25:189-201 (1986)]。このデータは UCI Machine Learning Repository [Lichman, M. (2013). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science.]にあります。 我々の目的は、自己組織化マップを用いて素早くデータの洞察を得ることです。
XLSTAT-RでのSOM分析のセットアップ
**XLSTAT-R / kohonen / Kohonen SOM(som)**を開いてください。
一般タブでは、Data フィールドでデータを選択します。
オプションタブでは、大きな分散を持つ変数の影響がより大きくなるのを防ぐために、Standardize data を有効にします。 Presentation times を100に設定します。これは、SOMアルゴリズムが実行する繰り返しの数です。Grid(グリッド)の次元は、 SOM のマップを X 軸 (xdim) と Y 軸 (ydim)で表現するノードの数を表します。ノードの数 (xdim*ydim)は、 常にデータ内のオブザベーションの数より低くなければなりません。(訳者註:より本格的な実装では、オブザベーションの数よりノード数が多い場合でも適切に補間法が働きます。)
Hexagonal(六角形) **topology(トポロジー)**を選択します。このトポロジーは、各ノードが6個のノードに隣接することを含意します。rectangular(四角形)トポロジーでは、この数が 4に減ります。
自己組織化マップの解釈
まず、classification results の表は、各オブザベーションとそれが属するノード(クラス)を示します。
Training Progress チャートは、繰り返しを通してSOMアルゴリズムが収束したかどうかを示します。もし線が右端でまだ下がっているなら、presentation timesの回数を増やしてもう1度SOMを立ち上げるべきです。
Codes plot は、fan diagrams.の形式で各ノードでの各変数の正規化された値を示します。 我々の事例では変数が多いので、codes plot の可読性が少々複雑です。
Counts plot は、各ノードに含まれるオブザベーションの近似数を表示します。通常、我々は、できるだけ均等なCounts plot を持とうとします。
最後に、Variables influence plot または heatmaps は、マップの各ノードでの各変数の正規化された値を示します。(訳者註:正規化の逆算をして元の単位で表示しているはずです。)ここで、我々は、左上隅のノードのクラスタは、alcohol と proline が乏しくash alkalinityが高いことがわかります。 右下のクラスタは、重要な OD280/OD315 比で特徴づけられ、nonflavanoid phenolsの濃度が乏しいです。
全体のチャートの次元がSOM関数のためのXLSTAT-R XMLファイル内でカスタマイズできることに注意してください。このファイルは通常、次の場所に格納だれています: %AppData%\ADDINSOFT\XLSTAT\XLSTAT-R\groups\kohonen.
コード・エディタ (たとえば、Notepad++)を用いてファイルを開いてください。チャートを生成して、 rplotwidth & rplotheight 引数を修正するコード・ラインを置いてください。例: <Result text="Variables influence plot" chartname="properties" charttype="r" rplotformat="emf" rplotwidth="10" rplotheight="10"…
XMLファイルを保存してください。XLSTATに行って、XLSTAT-Rメニューを開き、Refreshをクリックして、新しい次元でチャートえを得るために分析を再び立ち上げてください。
この記事は役に立ちましたか?
- ウイ
- いいえ