メインコンテンツに移動

Excelでのランダム・フォレスト・クラス分類チュートリアル

このチュートリアルは、XLSTAT統計ソフトウェアを用いてExcel内でランダム・フォレスト分類器をセットアップして訓練することを支援します。

ランダム・フォレスト分類器をセットアップするデータセット

データと結果のExcelシートは、下のボタンをクリックして ダウンロードできます: データをダウンロード このチュートリアルで使用するデータセットは、有名なデータサイエンス・プラットフォームであるKaggleでの"Titanic: Machine Learning from Disaster" という機械学習コンペから抽出されました。これは1912に沈没した遠洋定期船 Titanic に関するデータです。この惨事では、救命ボートの数が足りなかったために、2,224名の乗客のうちの1,500名が命を失いました。

このデータセットは、このアドレスでアクセスできます。それは 1309名の乗客の一覧とその特性を含みます。それらの特性は:

  • survived: 生存l (0 = No; 1 = Yes)
  • pclass: 乗客クラス (1 = 1st; 2 = 2nd; 3 = 3rd)
  • name: 名前
  • sex: 性別 (male; female)
  • age: 年齢
  • sibsp: 兄弟/配偶者の乗船数
  • parch: 親/子供の乗船数
  • fare: 運賃
  • cabin: 客室
  • embarked: 搭乗の港 (C = Cherbourg; Q = Queenstown; S = Southampton)

ここでの目的は、Titanic データセットでランダム・フォレスト分類器をセットアップして訓練することです。

XLSTATでのランダム・フォレスト分類器のセットアップ

XLSTATを開いて、下図のようにXLSTAT/ 機械学習 / ランダム・フォレスト分類器および回帰コマンドを選択してください。: ランダム・フォレスト・ダイアログボックスが現れます: 応答変数フィールドで変数 **ppclass (列B) を選択してください。ppclass は乗客のクラスを表しているので、応答タイプは質的データになります。

そして、 列 E-H を量的説明変数として、残りの列を質的説明変数として選びます。

変数名がデータセットの最初の行で提供されているので、変数ラベルを選択します。 最後に passengers’ names (列 C) をオブザベーション・ラベルとして選択します。

オプションタブでは、下図のように分類器パラメータを設定します: データセットに欠損値がありますので、欠損値タブでこれらのオブザベーションを除去するように選びます。

出力 タブでは、下図のオプションを選択します: チャート タブでは、構築されるツリーの数に応じてOOB (Out Of Bag)誤差の推移を表示するように OOB誤差の推移オプションを有効にします。 OKをクリックすると計算が始まります。

ランダム・フォレスト分類器の結果の解釈

最初のアウトプットは、ランダム・フォレストのOOB 誤差率 です。これは、トレーニング集合の各OOB標本に関係した平均分類誤差です。我々はすべての Out-Of-Bag オブザベーションからなる標本をOOB標本と呼びます。より詳細はヘルプで説明します。

次の表は、混同行列を表示します。その行列は、我々の分類器がどれだけよく働くか(Out-Of-Bag データに基づく予測)を我々に示します。ここで、アルゴリズムは観察されたクラスの 94.92% を正しく予測しました。

2番目の表は、後者がOut-Of-Bagのとき、トレーニング集合の各オブザベーションについて、予測されたクラスを表示します。

次の表は、各オブザベーションについて、応答変数のさまざまなカテゴリに属する確率を (Out-Of-Bag データに基づいて)格納しています。

オブザベーションが ‘out-of-bag’ である(そして、OOB 誤差推定の計算に使用される) 回数も表示されます:

最後の表は、ツリーの数による OOB 誤差率の推移を表します。 i番目の要素は、i番目までのすべてのツリーでのOOB 誤差です。

上記の表のグラフ表現が下図に与えられます:

この記事は役に立ちましたか?

  • ウイ
  • いいえ