Excelでのエクストリーム勾配ブースティング(XGBOOST:Extreme Gradient Boosting )
このチュートリアルは、統計解析ソフトウェアXLSTATを用いてXGBOOSTクラス分類器をセットアップして訓練する方法を示します。
エクストリーム勾配ブースティング・モデル(XGBOOST)をセットアップするデータセット
このチュートリアルで使用するデータセットは、データサイエンス・プラットフォーム Kaggle から抽出されたもので、こちらのアドレス.でアクセスできます。
“Banknotes”データセットは、いくつかの情報を含む200の紙幣のリストで構成されています: このデータセットは6個の変数からは成ります; 1 つは質的で紙幣の真正性に関するもので、その他は量的で紙幣の形状に関連するものです。
Counterfeit(偽造): 紙幣が本物の場合は“0”を、逆に紙幣が偽造である場合は“1”を入れます。このデータセットでは、100 枚の紙幣が偽物で、残りの100枚が本物です。Length, Left, Right, Bottom, Top は量的変数です。
XLSTATによるXGBOOSTモデルのセットアップ
-
XLSTATを開く。
-
XLSTAT/ 機械学習 / エクストリーム勾配ブースティングを選択します。ダイアログ・ボックスがポップアップします。
-
応答変数フィールドで、"Counterfeit" 変数を選択します。
-
応答変数は、2個の異なる値のみを持つので、応答タイプにはバイナリを選択します。
-
量的説明変数では、データセット内の残りのすべての変数を選択します。
-
オプションタブでは、モデルをセットアップするためのたくさんのパラメータがあります。ここでは、デフォルトのパラメータを用います。
-
検証タブでは、新しいデータでモデル性能をテストできるように、30 個のオブザベーションをランダムに保持するように選びます。
-
出力タブに行って、混同行列を有効にして、重要度タイプを利得に設定した変数重要度およびオブジェクトごとの結果を有効にして、対応する結果を表示するようにします。
-
OK をクリックすると、計算が実行され、結果が表示されます。
XGBOOSTの結果の解釈
誤分類率は、トレーニングと検証の両方の集合で、モデルがどれだけ良く実行されるかの指標を与えます。ここでは、トレーニング集合での誤分類率は 2,4%で、検証集合 では6,7%です。
そして、トレーニング標本での混同行列 がレポートに表示されます。この表は、各モダリティについて、正しく分類されたオブザベーション(真陽性と真陰性)のパーセンテージを示します。 たとえば、モダリティ 0 (本物)のオブザベーションは 96.34% 正しく分類され、一方、モダリティ1 (偽物)のオブザベーションは 98.86%正しく分類されました。
混同プロット は、合成的にこの表を可視化できます。対角線上の灰色の四角形は、各モダリティで観察された数を表します。オレンジ色の四角形は、各モダリティでの予測された数を表します。したがって、四角形の面が2つのモダリティで完全に重なっていることがわかります( モダリティ 0 の 82 個の観測されたオブザベーションのうち、 79 個が正しく予測されたオブザベーションで、モダリティ 1 の 88 個の観察されたオブザベーションのうち、 87 個が正しく予測されたオブザベーション)。
オブジェクトごとの結果の表は、各オブザベーションについて、本当のクラス、予測されたクラス、応答変数のさまざまなカテゴリに属する確率を含みます。
次に、我々は変数重要度の表とチャートを見て、どの変数が紙幣の真正性の予測で最も重要であるかを知ることができます。
利得メトリクスは、モデルへの特徴量の相対寄与度に相当します。他の特徴量と比較して、このメトリクスが高いほど、予測を生成する上でそれがより重要であることを示唆します。たとえば、真正性の予測で最も重要な特徴量は、ここでは特徴量 BOTTOMであることがわかります。 したがって、紙幣の真正性とBottom margin width(下縁)の間に関係性があることが示唆されます。
XLSTATによるこのXGBOOST 分類の結論
この事例では、 97.65% の正しく分類されたオブザベーションを得て、真正性を検証する最も重要な特徴は、紙幣の下縁であることを確認します。また、 93.3% の正しく分類されたオブザベーションの率による検証フェーズは、モデルが新しいデータに一般化されることを確認できます。
この記事は役に立ちましたか?
- ウイ
- いいえ