ExcelでのLASSO回帰
このチュートリアルは、XLSTAT統計解析ソフトウエアを使用して、Excel内でLASSO回帰をセットアップして解釈する方法を説明します。
LASSO回帰のためのデータセット
元データは、Osborne and al. (1984)のものです。データセットは、30個のクッキーについての近赤外 スペクトルの離散化を格納しています。スペクトルは、1100~2460ナノメートルのすべての波長で観測され、各波長の間隔は40ナノメートルで、データセットの説明変数は35個になります。 また、データ表には、各クッキーの水分組成が記載されています。
目的は、さまざまなクッキーの水分組成を予測することです。
このチュートリアルの目的
このチュートリアルの目的は、クッキーのデータセットでLASSO回帰をセットアップして解釈することです。
XLSTATでのLASSO回帰のセットアップ
XLSTATを開いたら、下図のようにデータ・モデリング / LASSO回帰 を選択します:
LASSO回帰ダイアログ・ボックスが現れます。
そして、Excelシートでデータを選択できます。ここで従属変数(またはモデルする変数)は、クッキーの水分組成です。
量的説明変数は、L1 から L35に番号付けされたすべての列です。ここで我々は、クッキーの水分含有量のバラツキをスペクトルの関数として説明しようとしています。
データセットの最初の20個のクッキーだけが 、モデリングに関与するように選択され、その他は予測のために使用されます。
各変数の名前が表の上部に表示されているので、我々は変数ラベルチェックボックスにチェックを入れなければなりません。
オブザベーション・ラベルをチェックして、さまざまなクッキーの名前を選択することもできます。
オプションタブでは、交差検証を使用して、最適なラムダ正則化パラメータを見つけます。我々は、交差検証に5 フォールドを構成して、100個のラムダ値をテストすることを選びます。
予測タブでは、予測を得たいデータを選択します。ここで我々はデータセットの中の最後の10個のクッキーを選択します。
出力タブでは、以下のように設定します:
チャートタブでは、 MSE の推移(交差検証) オプションを有効にできます。これは正則化による MSE (平均2乗誤差) の推移へのアクセスを可能にします。
OK ボタンをクリックすると、計算が始まります。
LASSO 回帰の解釈
表 “Model parameters”は、モデルの詳細を提供します。この表は、予測が必要ときか、モデル内の変数の重要度を分析するために有用です。 35 個の変数のうちの9個だけがモデリングに保持され、その他はゼロ係数になっていることがわかります。
下図は、ラムダ正則化パラメータによる MSE の推移を示します。 XLSTAT によって選択されたラムダ値は、 MSEを最小化するそれで、ここでは値 0.01です。
最後の表は、モデルの推定に続いて、予測データセットを構成する10個のクッキーの水分組成の予測を提供します。
LASSO回帰に関する結論
最終的に、LASSO 回帰は35個の利用可能な変数のうち9個だけを用いて、さまざまなクッキーの水分組成をモデルしました: その他の変数は、説明力が不十分であるか、すでに選択された変数ととても類似した情報を含むと判断されました。
この記事は役に立ちましたか?
- ウイ
- いいえ