Excelでの弾性ネット回帰
このチュートリアルは,XLSTAT統計解析ソフトウェアを用いてExcel内で弾性ネット回帰をセットアップして解釈する方法を説明します.
弾性ネット回帰のためのデータセット
元データは,Osborne and al. (1984)からの引用です.このデータセットは,30個のクッキーについての近赤外線スペクトルの離散化を含みます.各スペクトルは,1100 から 2460ナノメートルの範囲の波長で, 40 ナノメートル間隔で観察されます.これによりデータセットには35 個の説明変数が得られます.データ表には,各クッキーの小麦粉組成も含まれます.
目的は,さまざまなクッキーの小麦粉組成を予測することです.
このチュートリアルの目的
このチュートリアルの目的は,クッキー・データセットで弾性ネット回帰をセットアップして解釈することです.
XLSTATでの弾性ネット回帰のセットアップ
-
XLSTATを開くと、下図のようにデータ・モデリング / 弾性ネット回帰を選択する:
-
Excelシートでデータを選択する。従属変数(またはモデルする変数)は、クッキーの小麦粉組成(flour composition)。
-
量的説明変数は、 L1 から L35の番号のすべての列。ここで、我々は、クッキーの小麦粉組成の変動をスペクトルの関数として説明しようとしている。
-
データセットの最初の20個のクッキーを選択し、その他を予測のために使用する。
-
各変数の名前が表の上部に表示されているので、変数ラベルチェックボックスをチェックする。
-
オブザベーション・ラベルのボックスをチェックして、さまざまなクッキーの名前を選択する。
-
オプション・タブで、最適なアルファおよびラムダ・パラメータを見つけるためにクロス・バリデーションを使用する。クロス・バリデーションに5 フォルドを形成し、各パラメータの100 個の値を検定するように選ぶ。
-
.予測タブでは、予測値を得たいデータを選択する。ここで我々は、データセットの中の最後の 10個のクッキーを選択する。
弾性ネット回帰の解釈
“クロス・バリデーションの結果”の表は、クロス・バリデーションで保持されたパラメータの値を提供します : XLSTATで選択された2つの値(ラムダ;アルファ)は、 MSEを最小化するそれで、ここでは2つの値は (0.012 ; 0.616)です。
“モデル・パラメータ” の表は、モデルの詳細を提供します。 この表は、予測値が必要な場合、またはモデル内の変数の重要度を分析するのに役立ちます。35個の変数のうちの15個のみがモデリングで保持され、その他はゼロの係数であることがわかります。
モデルの推定に続く、最後の表は、予測データセットを用いて、10個のクッキーの小麦粉組成の予測値を提供します。
弾性ネット回帰の結論
最後に、弾性ネット回帰は、35個の利用可能な変数のうちの15個のみでさまざまなクッキーの小麦粉組成をモデルしました: その他の変数は、十分に説明しないか。またはすでに選択された変数のどれかと類似しすぎた情報を持つと判断されました。
同じデータセットを前提にすると、 LASSO回帰はモデル内に11個の変数を保持し、一方、Ridge回帰は35個の利用可能なすべての変数を保持します。この事実は、弾性ネット回帰がRidge および LASSO回帰の間の折衷手法であることを確認します。
この記事は役に立ちましたか?
- ウイ
- いいえ