Excel でのランダム・フォレスト回帰チュートリアル
このチュートリアルは、XLSTAT統計解析ソフトウェアを用いてExcel内でランダム・フォレスト 回帰をセットアップして訓練することを支援します。
ランダム・フォレスト回帰を実行するデータセット
データと結果のExcelシートは、下のボタンをクリックしてダウンロードできます: データをダウンロード このチュートリアルで使用するデータセットは、有名なデータサイエンス・プラットフォームKaggleでの"Titanic: Machine Learning from Disaster" という機械学習コンペから抽出されています。 Titanic データセットは、このアドレスでアクセスできます。これは1912年に沈没した遠洋定期船 Titanic に関するデータです。この惨事では、救命ボートの数が足りなかったために、2,224名の乗客のうちの1,500名が命を失いました。
このデータセットは、1309名の乗客の一覧とその特性を含みます。それらの特性は: - survived: 生存 (0 = No; 1 = Yes)
- pclass: 乗客クラス (1 = 1st; 2 = 2nd; 3 = 3rd)
- name: 名前
- sex: 性別 (male; female)
- age: 年齢
- sibsp: 兄弟/配偶者の乗船数
- parch: 親/子供の乗船数
- fare: 運賃
- cabin: 客室
- embarked: 搭乗の港 (C = Cherbourg; Q = Queenstown; S = Southampton)
このチュートリアルの目的は、Titanic データセットでランダム・フォレスト回帰 (RDF: Random Forest regressor) をセットアップして訓練することです。
XLSTATでのランダム・フォレスト回帰のセットアップ
XLSTATを開くと、下図のように、機械学習 / ランダム・フォレスト・クラス分類および回帰をクリックしてください:
RDF ダイアログ・ボックスが現れます。
一般タブで、上図に示すように複数のフィールドでデータを選択します。応答タイプ・フィールドでは、予測したい変数のタイプを選択します(ここでは量的変数)。我々の事例では、これは乗客の 運賃情報を与える列です。
データセットの最初の行で提供される変数名を考慮に入れるために変数ラベルを選択します。最後に、乗客の名前をオブザベーション・ラベルとして選択します。
オプションタブでは、複数のパラメータがツリーを構築する方法をよりよくコントロールすることを可能にします。XLSTATが100ツリーごとにアルゴリズムが収束しているか、したがってOOBgosa が安定化しているかをチェックできるように、収束オプションを有効にして、それを 100 に設定します。
最後に、出力およびチャートタブを下図のように設定します:
OK ボタンをクリックすると、計算が始まります。
ランダム・フォレスト回帰の結果の解釈
最初に表示される結果は、OOB 誤差です。この誤差は、学習集合の各OOB標本に関する平均予測誤差に一致します。
下の表は、学習集合の各オブザベーションに関係する応答と予測値を表示します(それらがOOBであるツリーのみを用いてなされた予測)。
2番目の表は、学習集合の各オブザベーションについて、オブザベーションがOOBであるすべてのツリーによって予測された値の最小、最大、平均および標準偏差を表示します。
続く表は、ツリーの数によるOOB誤差の推移を表示します。表の行 i は、i番目までのすべてのツリーを考慮して関係するOOB誤差です。
下のグラフは、前の表の情報を要約します。
OOB 誤差は素早く減少しえ安定することがわかります。我々は100ツリーごとに収束をチェックするので、 200 ツリーでOOB誤差がもうそれ以上変化せず、アルゴリズムが停止します。
次の表は、各変数について、その基準化された(標準偏差で基準化)変数重要度測度を格納します。
上の表のグラフィカルな表現を下に示します:
これからわかるように、最も重要な変数は乗客のclass情報です。したがって、我々は、運賃と乗客のclassの間にリンクがあることを示唆できます。
各変数について、その変数の重要度測度の標準偏差も表示されます:
この記事は役に立ちましたか?
- ウイ
- いいえ