メインコンテンツに移動

ExcelでのQUEST分類木チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてQUEST分類木 を設定して解釈することを支援します。

これがあなたの探している教師あり機械学習機能であるか不確かな場合は、こちらのガイド をチェックしてください

QUEST分類木を作成するデータセット

データと結果のExcelシートは、上のリンクをクリックしてダウンロードできます。

このデータセットの出処は、National Institute of Diabetes and Digestive and Kidney Diseasesです。チュートリアルの目的は、データセットに含まれる測定値に基づいて、患者が糖尿病であるか否かを診断的に予測することです。とくに、ここでの患者はすべてピマ・インディアンの血を受け継ぐ21歳以上の女性です。 データセットは、複数の医学的予測(独立)変数と1個の目的(従属)変数、アウトカム(結果)からなります。独立変数には、患者の妊娠経験回数、BMI、インスリンレベル、年齢などが含まれます。

XLSTATでのQUEST分類木を生成するダイアログ・ボックスのセットアップ

XLSTATを開いて、XLSTAT / 機械学習 / 分類および回帰木コマンドを選択してくだしさい。

ボタンをクリックすると、分類および回帰木ダイアログ・ボックスが現れます。

一般タブで、量的従属フィールドに列 Diabetes を選択します。値 Yes は、患者が糖尿病であることを示します。それ以外は、値が Noです。残りの変数を量的説明変数として選択します。ツリーを構築するのにQUESTアルゴリズムを使用するように選びます。データセットの最初の行に変数名が提供されているとみなすように、変数ラベルを選択してください。

オプション/一般 タブで、モデルの最適パラメータを見つけるために自動を選びます いくつかの技術的なオプションにより、ツリーの構築方法をより適切に制御できます。

チャートタブでは、各ノードでの糖尿病の分布を表示するのに棒グラフオプションを選択します。 OKをクリックすると計算が始まります。そして結果が表示されます。

XLSTATでのQUEST分類木の結果の解釈

すべての変数の要約統計と相関行列が最初に表示されて、オブザベーションの再分類を要約する混同行列が続きます。後者は、正しく分類されたオブザベーションの%を素早く見ることができます。それは、オブザベーションの合計数での正しく分類されたオブザベーションの比率です。ここでは、それが75,0%に等しいです。

次に、木構造に関する情報が提供されます。各ノードで、これは各ノードでのオブジェクトの数、対応する%、分割での統計的検定、そのノードでの従属変数の優勢なカテゴリに属するオブジェクトの%を示す純度、親ノードと子ノード、分割変数とその値または後者の区間、およびノードごとの予測されたクラスを表します。 続く表は、自然言語で書かれたアルゴリズムによって構築されたルールを格納します。各ノードで、予測されたクラスに対応するルールが表示されます。ノード内のオブザベーションのパーセンテージは、特定のノード水準で予測されるカテゴリに対応するパーセンテージを提供します。 この方法で、 "If Glucose <= 143.592 then Diabetes = No in 77,1% of cases" であることがわかり、このルールは、木構造の表でわかるように、純度76.01のノードにより、592個のオブザベーション(データセットの77%)により検証されます。

次に、続く表は、我々のモデルの検定されたすべてのパラメータと区分パラメータ(太字)が、それぞれ交差検証スコアとともに格納されています。

我々のアルゴリズムの4番目の反復で、最適なパラメータがあることがわかります: - 最小親サイズ: 108

  • 最小子サイズ: 24
  • 最大深度: 5

24,9%の最小誤差。そして、我々は我々のツリーにこのパラメータを使用します。

次の結果は、分類木です。

このダイアグラムは、QUEST アルゴリズムが従属変数のカテゴリの最良分割を可能にする変数を識別する際の連続ステップを可視化します。

アルゴリズムは、追加のルールがそれ以上見つからないか、限界の1つに達したとき(親または子ノードでのオブジェクト数、最大木深度、しきい有意水準 <= ユーザー定義値)自動で停止します。

XLSTATは、分類木を可視化する2番目の可能性を提供します。棒グラフの代わりに、円グラフも使用できます。後者は、たくさんのノードや従属変数にたくさんのカテゴリがある場合に、読みやすくなります。

この記事は役に立ちましたか?

  • ウイ
  • いいえ