メインコンテンツに移動

Excelでの予測モデルのための性能指標

このチュートリアルは、XLSTATソフトウェアを用いてExcel内でさまざまな予測モデルを比較する方法を示します。

モデリング性能指標を計算するデータセット

abalone(アワビ)という名前のデータセットは、海洋腹足類の軟体動物であるアワビの特徴量を格納しています。アワビの年齢を予測するには、年輪を染色して顕微鏡で数える必要があり、それは時間のかかる作業です。我々がより簡単に得られる測定量でアワビの年齢を予測したい理由は、そのためです。

2つの予測モデル — SVR (Support Vector Regression) および CART (Classification and Regression Trees — を実行した後、我々はアワビの物理的特徴からその年齢を最もよく予測できるモデルを選択しようとしています。

モデリング性能指標のためのダイアログ・ボックスのセットアップ

XLSTATを開くと、下図の示すモデル性能指標をクリックします: XLSTAT drop-down menu モデル性能指標 ダイアログ・ボックスが現れます。 General tab of the dialog box

一般タブで、変数 "Rings"に対応する応答を選択します。予測値フィールドで、使用されたさまざまなモデルでなされた予測 (SVR-Pred および TREE-Pred) を選択します。そして、我々のモデルの構築で使用された変数の数を指定する説明変数オプションをチェックします。この情報は、一部の指標 (調整済みR², AIC, SBC)の計算に便利です。ここではデータセットのすべての変数 (8) が使用されました。

選択された列の最初の行が変数の名前を格納しているので、変数ラベルオプションが選択されています。

Output tab of the XLSTAT dialog box

出力タブでは、複数の指標が提案されており、表示したいそれを選択します。

予測モデルの性能指標の解釈

XLSTAT results for model performance indicators

最初の表は、各モデルの選択された指標の値を一目で提供します。

RMSE のような誤差測度は、2番目のモデルの性能が良いことを示します。この差が大きいかどうかを判断するために、0から1の間の指標であるR2を見ることができます。これはモデルの決定係数に対応し、モデルによって説明される説明変数の変動の比率として解釈されます。 R² が1に近いほど、より良いモデルです。我々の事例では、SVRを用いたモデルで変動の約57%が説明されており、2番目のモデルの 約40%と比較されています。

SVRを用いたモデルでは調整済みR² が0.49で回帰木を使ったモデルでは 0.28 です。 予測値と残差を見る前に、まず回帰チャートを見ましょう。各モデルで複数のチャートが表示されますが、このチュートリアルでは、それらの2 に注目します。

**1. 応答変数 vs 予測値:**このチャートは、予測値と観察値を比較することができます。モデルによって説明される分散が大きいほど、点が回帰線により近くなっています。 C_Pred.PNG

2. 応答変数 VS 標準化残差:C_Res.PNG

このグラフを見ると、次のことに気づきます:

  • 回帰木を使ったモデルは、SVRモデルによってなされた予測よりも誤差の変動がより大きい
  • 最も若いアワビ (RINGS <= 15) でSVRモデルがよい性能(小さな残差)で、最も年齢が高いアワビでより低い性能。
  • 孤立したオブザベーション(右上)の存在。このオブザベーションは最も年齢の高いアワビ (RING = 29)に対応する。予測値と残差の表は、このオブザベーションをより詳細に見ることができる。

一般に、残差が0に近いほど、モデルがデータにより適合します。

下表は、予測値と残差の分析の一部を示しています。 C5.PNG

Residuals(残差)の列 で、0からの偏差が最も小さい (または、最も大きい) 残差は、緑色(または赤色)でマークされています。これは、各オブザベーションで、どれが最良(または、最悪)の予測値であるかを見ることができる。

オブザベーション 32 (Obs32) は、2つのモデルで、予測値と観察値の間の差が最も大きいオブザベーションです。 これは、我々のデータで最も年齢の高いアワビにも一致します。

このオブザベーションを詳しく見ると、図2 (応答変数 VS 標準化残差) での孤立したオブザベーションに対応しており、関連する残差が非定型として検出されていることを示しています。ある残差が他の残差よりも有意に高ければ、それは非定型としてマークされます。したがって、このオブザベーションに関連する予測値は注意して取り扱われなければなりません。

結論

結論として、ここで比較された2つでのベスト・モデルは、SVR (Support Vector Regression)を使用したモデルです。このモデルはアワビの年齢の変動の57%を説明し、使用された2番目のモデルよりも良いがさの分布を示します。しかしながら、これがアワビの年齢を予測するのに最も適したモデルではないことは確かです。なぜなら、これはアワビの年齢が15より高いと、あまりよく機能しないからです。我々の事例でのベスト・ソリューションは、SVRモデルと2番目のモデルに組み合わせるか、アワビの年齢を予測することにおいてより有効になる新しいモデルの構築を試みることのいずれかでしょう。

この記事は役に立ちましたか?

  • ウイ
  • いいえ