分類木 C&RT
このチュートリアルはXLSTATソフトウェアを用いてExcel内でC&RT 分類木 をセットアップして解釈することを支援します。 これがお探しの教師ある機械学習機能かどうか不確かであれば、こちらのガイド .をチェックしてください。
C&RT 分類木を作成するデータセット
データと結果のExcelシートは上のリンクをクリックしてダウンロードできます。
このデータの出処は、National Institute of Diabetes and Digestive and Kidney Diseases(国立糖尿病および消化器および腎臓病研究所)です。このチュートリアルの目的は、データセットに含まれる特定の診断測定値に基づいて、患者が糖尿病であるか否かを診断的に予測することです。とくに、ここのすべての患者は、21歳以上のピマ・インディアンの女性です。データセットは、複数の医学的な予測(独立)変数と1個の目的(従属変数)、 Outcomeからなります。独立変数には 患者の妊娠回数、BMI、インスリンレベル、年齢などが含まれます。
C&RT 分類木を生成するためのダイアログ・ボックスのセットアップ
XLSTATを開いて、XLSTAT / 機械学習 / 分類および回帰木 コマンドを選択してください。
ボタンをクリックすると、回帰木ダイアログ・ボックスが現れます。 一般タブで、質的従属変数フィールドに列 Diabetes を選択してください。値 Yes が患者が糖尿病であることを示します。それ以外は、値が Noです。残りの変数を量的説明変数として選択してください。 我々は木を構築するために、C&RT アルゴリスムを使用することを選びます。データセットの 最初の行に変数名が提供されているとみなすために、変数ラベル・オプションを選択してください。
オプション・タブで、複雑すぎる木になるのを防ぐために、木の最大深さを3 に設定し、複雑度パラメータ (CP) の値を 0,001に変更します。つまり、全体の不純度が少なくともCP係数だけ減少しない限り、木の構築は継続しません。
チャートタブでは、各ノードでの糖尿病の分布を表示するのに棒グラフオプションを選択します。 OKをクリックすると計算が始まります。そして結果が表示されます。
C&RT 分類木の結果の解釈
すべての変数の要約統計と相関行列が最初に表示され、オブザベーションの再分類を要約する混同行列が続きます。後者は、正しく分類できたオブザベーションの%を素早く見ることができます。それはオブザベーションの合計数に対する正しく分類できたオブザベーション数の比です。ここで、それは 77,3%に等しいです。
次に、木の構造に関する情報が提供されます。各ノードで、それは各ノードでのオブジェクト数、対応する%、ノード内のオブザベーション数×ノードの分割による不純度の減少に対応する改善度、そのノードでの従属変数の主要なカテゴリに属するオブジェクトの%が示す純度、親ノードと子ノード、後者の値または区間、ノードで予測されるクラスを表します。
続く表は、アルゴリズムによって構築され、自然言語で書かれたルールを格納します。各ノードで、予測されたクラスに対応するルールが表示されます。ノード内のオブザベーションの % は、特定のノードのレベルで予測されたカテゴリに対応する%を示します。
この方法で、"If Glucose <= 127.5 then Diabetes = No in 63,2% of cases" だとわかります。木構造の表でわかるように、このルールは、ノード純度80.6で、485 個のオブザベーション (データセットの63%) により検証されます。 次の結果は、分類木のパートです。
この図は、従属変数のカテゴリの最良分割を可能にする変数をC&RTアルゴリズムが識別する連続したステップを可視化します。 アルゴリスムは追加のルールを発見できなくなったとき、またはユーザーが設定した限界(親ノードまたは子ノードのオブジェクト数、木の最大深度、しきい値CP <=ユーザー定義値)の1つに到達したときに停止します。 XLSTATは、分類木を視覚化する第2の選択を提供します。棒グラフを使用する代わりに、円グラフを使用できます。これはたくさんのノードがあって、従属変数にたくさんのカテゴリがある場合に、図を読みやすくします。
この記事は役に立ちましたか?
- ウイ
- いいえ