メインコンテンツに移動
XLSTATはLumiveroグループに参加しています。詳しくはこちら

Excelでの線形重回帰チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてExcel内で線形重回帰をセットアップして解釈することを支援します。線形回帰は、最小2乗法 (OLS)に基づきます。
これがお探しの機能であるか不確かな場合は、こちらのガイド.を確認してください。

線形重回帰とは何か?

線形重回帰は、教師あり学習アルゴリズムによって推論された線形関係に基づき、1個の変数を他の複数の変数によって予測することを可能にします。2個のみの変数間の線形関係を構築したい場合は、線形単回帰のチュートリアルを確認してください。

XLSTATで線形重回帰を実行する方法は?

線形重回帰を実行するデータセット

データはLewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.の中で得られたものです。彼らは、237人の子供について、性別、年齢(月)、身長(インチ:1 inch = 2.54 cm)、 体重(ポンド:1 pound = 0.45 kg)を記述しました。

このチュートリアルの目的

線形重回帰を用いて、児童の体重が身長と年齢によりどのように変化するか調べ、線形モデルが妥当であるかどうかを検証します。ここで、従属変数はweightで、説明変数はheightと ageです:それらが2つあるので、線形重回帰を選びます。
線形回帰法は、ANOVAと同様に、一般化線形モデル(GLM : Generalized Linear Models)と呼ばれるモデルの大分類に属します。このデータセットは、線形単回帰および ANCOVAでも使用されます。

線形重回帰のセットアップ

  • XLSTATを開く

  • リボンでXLSTAT > データ・モデリング > 線形回帰を選択する。

  • Excelシートでデータを選択する。 ここで従属変数(モデルする変数)は "Weight"です。量的説明変数は "Height"と "Age"です。

  • 変数の列経タイトルがすでに選択されているので、変数ラベルオプションを有効のままにしておきます。

XLSTAT dialog box for setting up a Linear regression (general tab)

  • 出力タブに行って、対応する結果を表示するためにType I/III SSオプションを有効にします。XLSTAT dialog box for setting up a Linear regression (outputs tab)

  • OKをクリックすると計算が始まります。

XLSTATでの線形重回帰の結果を解釈する方法は?

最初の表は、モデルlの係数の適合度を表示します。 R² (決定係数)は、説明変数によって説明された従属変数の変動の % を示します。 R² が 1 に近いほど、よりよく適合しています。
XLSTAT Goodness of fit statistics results

この事例では、重みの変動の63 %が身長、年齢、性別によって説明されます。変動の残りは、この実験で測定されなかったいくつかの効果(他の説明変数)によるものです。これらの効果は、性別、地理的地域、生活習慣などである可能性があります。
分散分析表(下図)で結果を検討することは重要です。この結果は、説明変数がモデルのための有意な情報(帰無仮説H0)をもたらすかどうかを決定す ることができます。言い換えれば、全体集団を記述するのに平均を用いることが有効であるかどうか、または説明変数によってもたらされる情報に価値があるかどうかを検討する方法です。

XLSTAT Analysis of variance results

フィッシャーのF検定を用います。F値に対応する確率が0.0001よりも低いことは、帰無仮説(2つの説明変数の効果がない)は正しくないという 仮定が0.01%よりも低いリスクであることを意味します。したがって、この2つの変数は有意な情報量をもたらすと確信を持って結論づけることができます。
次の表はType Iおよび Type III SS(平方和)を表示します。これらの結果は、すべての変数がすでにモデルに含まれると、ある変数が有意な情報をもたらすか否かを示します。

XLSTAT Type I-III results

以下の表はモデルの詳細です。この表は予測が必要な場合、または任意の母集団についてのモデルの係数と他の母集団でのそれを比較する(ここでは 女子と男子についてのモデルを比較することにそれが使われます。)ことが必要な場合に役立ちます。Height (身長)パラメータの95%の信頼範囲はとても狭く、一方、Age(年齢)パラメータのp値がHeightパラメータのそれよりもとても大きいこと、そし てAgeの信頼区間はほとんど0を含むことがわかります。これはAgeの効果がHeightの効果よりも弱いことを示します。モデルの数式は以下の表に書 かれます。与えられた身長において、年齢は体重に正の効果を持ちます:年齢が1ヶ月増えるごとに体重が0.23ポンド増えます。

XLSTAT Model parameters of the linear regression model

下記の表とグラフは、標準化回帰係数(ベータ係数ともいう)です。これらは、従属変数での説明変数の相対影響度、およびそれらの有意度を直接比較することを可能にします。

XLSTAT standardized coefficients the linear regression modelXLSTAT Standardized coefficients plot

次の表は残差を示します。それは標準残差のそれぞれを詳細にみることを可能にします。これらの残差は正規に分布しているはずだという線形回帰モデル の仮定が与えられており、区間[-1.96, 1.96]内に残差の95%が入っているはずだということを意味します。この区間の外側のすべての値は、潜在的なはずれ値であるか、もしくは正規性の仮定 が間違いであるかもしれないことを示唆します。 XLSTATの DataFlagger(データ・フラッガー)を使って、 [-1.96, 1.96]区間の中にない残差を抽出することできます。
237のうちから、 [-1.96, 1.96] の範囲の外にある15個の残差を識別できます。それは5%ではなく6.3%です。残差のより深い分析は、 ANCOVA のチュートリアルで行います。下図は、予測値と観察値を比較することを可能にします。

Plot of Predicted Weights vs Weights
残差のヒストグラムは、範囲 [-2, 2]の外にある残差を素早く可視化することを可能にします。

Plot of Standardized residuals vs Weights

この線形重回帰の結論

結論として、身長と年齢は、体重の変動の63%を説明します。我々が用いたモデルによって有意な情報量は説明されません。 ANCOVAのチュートリアルでは適合の品質を改善するために性別が追加されます。

下のビデオは、XLSTATでの線形重回帰の実行方法を説明します。

この記事は役に立ちましたか?

  • ウイ
  • いいえ