ExcelでのCHAIDクラス分類木チュートリアル
CHAIDクラス分類木を作成するデータセット
このチュートリアルで使用するExcel sheetはこちらからダウンロードできます。
データは. [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, 179 -188] のもので、4変数(ガクの長さ、ガクの幅、花びらの長さ、花びらの幅)とそれらの種を記述した150個のIris(アヤメ)に対応します。この研究では、3つの異なる種が含まれています:(setosa、versicolor、virginica)
Iris setosa, versicolor and virginica.
このCHAID クラス分類木の目的
我々の目的は、4つの記述変数によって、ある花がどの種に対応するのかを効率的に予測できるかどうかを検定することです、このケースでは、4変数を元に花を分類するのを支援するルールを識別することです。
注意:判別分析についてのチュートリアルで、 同じケースが扱われています。
CHAID クラス分類木を生成するためのダイアログ・ボックスのセットアップ
XLSTATを開いて、XLSTAT│機械学習│分類木・回帰木コマンドを選択するか、機械学習ツールバーの対応するボタンをクリックします(下図参照)。
ボタンをクリックすると、ダイアログ・ボックスが現れます。ここでは質的従属変数は、変数”Species"です。
量的説明変数は、4つの記述変数です。
CHAIDアルゴリズムを選択し、複雑なツリーになりすぎないように、最大ツリー深度(depth)を3に設定します
オプションタブでは、数個のテクニカルな選択肢で、ツリーの構築方法をよりコントロールできます。
各ノードで種の分布を表示するために、まずチャートタブで棒グラフを選択します。
後で述べるように、このチュートリアルでは円グラフも使われています。
OKをクリックすると計算が始まります。それから結果が表示されます。
CHAID クラス分類木の結果の解釈
すべての選択された変数の簡単な統計の下に、XLSTATは、ツリー構造の情報を表示します。これには、各ノード、分割のp値、各ノードのオブジェクト数、親ノードと子ノードとの一致%、分割変数、分割変数の値や間隔、このノードでの従属変数の支配的なカテゴリーに属するオブジェクトが何%であるかを示す純度が含まれています。
次に表示される結果は分類ツリーです。
このダイアグラムは、CHAIDアルゴリズムが従属変数のカテゴリーを最もよく分割できる変数を識別している連続のステップを可視化できます。したがって、花びらの長さを用いるだけで、アルゴリズムがsetosa種のIrisを完全に分けることができるルールを見つけているのが見えます。もし、花びらの長さが10-24.5ならば、その種はsetosaです。
各ノードで利用できる情報は、以下に説明されています。
アルゴリズムは、追加のルールが見つからなくなったり、ユーザーによって決められた制限(親や子のノードのオブジェクト数、最大ツリー深度、分割のためのp値のしきい値)のどれかに達したら止まります。
XLSTATは、クラシフィケーション・ツリーを可視化するための2つめの方法を提供します。棒グラフを用いるかわりに、円グラフを用います。従属変数に多くのノード、多くのカテゴリがあるときは、後者のほうが読みやすくなります。内側の円は、ノードに内包されたオブジェクトが対応するカテゴリの相対度数に対応します。外側の円は、親ノードでのカテゴリの分布を示しています。
次の表は、アルゴリズムによって構築されたルールを含んでおり、あまり可視化はされていませんが、読み取りやすい方法です。このルールは、自然言語で書かれています。純度は、ノード・レベルでの主要なカテゴリに対応する%を示します。カテゴリに対応するオブジェクト数も表示されます。
この方法では、"If PETAL LENGHT is in the interval [30; 49.5[ and PETAL WIDTH is in the interval [10; 16.5[ then SPECIES is Versicolor in 100% of cases"が見えます。このルールは、47本の花で証明されています。
葉に対応する(末端のノード)ルールによって、葉レベルでのカテゴリの分布に依存する確率によって、各オブザベーションに対する予測値を計算することができます。これらの結果は、 "Results by object(オブジェクトごとの結果)"の表に表示されます。
我々は、このアルゴリズムによって、3つのオブザベーションが誤分類されていることに気づきます。この結果は、判別分析で得られた誤分類のオブザベーションが5、9、12である結果とほとんど同じです。
confusion matrix(混同行列)は、オブザベーションの再分類を要約し、正しく分類されたオブザベーション数の全オブザベーション数での比率によって、正しく分類されたオブザベーションの%をすばやく見られるようにします。ここでは、98%になっています。
XLSTATで生成されたツリーは、部分的にダイナミックです。すべてのブランチについて任意のレベルでツリーを枝刈りでき、あるいは、任意の1つの枝だけを刈ることもできます。ツリーを枝刈りするには、まずノードをクリックします。そのノードの周りに6つの灰色のドットが表れたら、状況メニューを表示させるため、右後クリックをしてください。
サブ・ツリーを非表示すると、選択されたノードから始まる枝なしでツリーが再構築されます。ノードの輪郭が、赤色で表示されます。
もちろん、あとで同じポップアップ・メニューを用いて、非表示のサブ・ツリーを再び表示することもできます。
この記事は役に立ちましたか?
- ウイ
- いいえ