あなたの分析ソリューション

XLSTATでの線形重回帰

30/01/2019

線形重回帰を実行するためのデータ

データと結果のExcelシートは、下記のボタンをクリックしてダウンロードできます:
<データをダウンロード>

このデータは、Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.の中で得られたものです。彼らは 237人の子供について、その性別、年齢(月)、身長(インチ:1 inch = 2.54 cm)、体重(ポンド:1 pound = 0.45 kg)を記述しました。

このチュートリアルの目的

線形重回帰を使って、体重が身長及び年齢によって説明され、線形モデルが有効であることを確認します。

線形回帰モデルは、ANCOVAANOVAを行う一般化線形モデル(GLM:Generalized Linear Models)と呼ばれる大分類に属します。このデータセットは、性別を追加の説明変数としてANCOVAのチュートリアルでも使用されます。

線形重回帰のセットアップ

XLSTATを開いて、XLSTATデータ・モデリング線形回帰 コマンドを選択するか、"データ・モデリング" ツールバー(下図)の対応するボタンをクリックしてください。

XLSTAT Linear regression function

ボタンをクリックすると、線形回帰ダイアログ・ボックスが現れます。

Excelシート上のデータを選択してください。従属変数(または目的変数、モデルする変数)は、ここではWeight(体重)です。

量的説明変数は、Height (身長)とAge(年齢)です。

変数の列タイトルが選択されたので、 変数ラベル オプションは有効のままにしておきます。.

XLSTAT dialog box for setting up a Linear regression (general tab)

 出力タブでは、対応する結果を表示するために、Type I/III SS オプションを有効にします。

XLSTAT dialog box for setting up a Linear regression (outputs tab)

OKをクリックすると計算が始まります。 そして、結果が表示されます。

線形重回帰の結果の解釈

1番目の表は、モデルの係数の適合の良さを示します。R2(決定係数)は、 説明変数によって説明された従属変数の変動の%を示します。R2が1に近づくほど、より良い適合です。

reg22.gif

このケースでは、体重の変動の63%が身長と年齢によって説明されます。変動の残りは、この分析には含まれていないいくつかの効果(他の説明変数)によるものです。

分散分析表(下図)で結果を検討することは重要です。この結果は、説明変数がモデルのための有意な情報(帰無仮説H0)をもたらすかどうかを決定す ることができます。言い換えれば、全体集団を記述するのに平均を用いることが有効であるかどうか、または説明変数によってもたらされる情報に価値があるかどうかを検討する方法です。

reg23.gif

フィッシャーのF検定を用います。F値に対応する確率が0.0001よりも低いことは、帰無仮説(2つの説明変数の効果がない)は正しくないという 仮定が0.01%よりも低いリスクであることを意味します。したがって、この3つの変数は有意な情報量をもたらすと確信を持って結論づけることができます。

次の表はType Iおよび Type III SS(平方和)を表示します。これらの結果は、すべての変数がすでにモデルに含まれると、ある変数が有意な情報をもたらすか否かを示します。reg232.gif

以下の表はモデルの詳細です。この表は予測が必要な場合、または任意の母集団についてのモデルの係数と他の母集団でのそれを比較する(ここでは 女子と男子についてのモデルを比較することにそれが使われます。)ことが必要な場合に役立ちます。Height (身長)パラメータの95%の信頼範囲はとても狭く、一方、Age(年齢)パラメータのp値がHeightパラメータのそれよりもとても大きいこと、そし てAgeの信頼区間はほとんど0を含むことがわかります。これはAgeの効果がHeightの効果よりも弱いことを示します。モデルの数式は以下の表に書 かれます。与えられた身長において、年齢は体重に正の効果を持ちます:年齢が1ヶ月増えるごとに体重が0.23ポンド増えます。

reg24.gif

下記の表とグラフは、標準化回帰係数(ベータ係数ともいう)です。これらは、従属変数での説明変数の相対影響度、およびそれらの有意度を直接比較することを可能にします。

reg242.gifreg243.gif

次の表は残差を示します。それは標準残差のそれぞれを詳細にみることを可能にします。これらの残差は正規に分布しているはずだという線形回帰モデル の仮定が与えられており、区間[-1.96, 1.96]内に残差の95%が入っているはずだということを意味します。この区間の外側のすべての値は、潜在的なはずれ値であるか、もしくは正規性の仮定 が間違いであるかもしれないことを示唆します。 XLSTATの DataFlagger(データ・フラッガー)を使って、 [-1.96, 1.96]区間の中にない残差を抽出することできます。

237のうちから、 [-1.96, 1.96] の範囲の外にある15個の残差を識別できます。それは5%ではなく6.3%です。残差のより深い分析は、 ANCOVAのチュートリアルで行います。下図は、予測値と観察値を比較することを可能にします。

reg25.gif

残差のヒストグラムは、範囲 [-2, 2]の外にある残差を素早く可視化することを可能にします。

reg26.gif

この線形重回帰の結論

結論として、身長と年齢は、体重の変動の63%を説明します。我々が用いたモデルによって有意な情報量は説明されません。  ANCOVAのチュートリアルでは適合の品質を改善するために性別が追加されます。

下のビデオは、XLSTATでの線形重回帰の実行方法を説明します。

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283