あなたの分析ソリューション

XLSTATでの線形単回帰の実行

12/03/2018

線形回帰を実行するデータセット

データと結果のExcelシートは、下記のボタンをクリックしてダウンロードできます:
<データをダウンロード>

データはLewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. の中で得られたものです。彼らは、237人の子供について、性別、年齢(月)、身長(インチ:1 inch = 2.54 cm)、 体重(ポンド:1 pound = 0.45 kg)を記述しました。

このチュートリアルの目的

線形単回帰を使って、我々は子供の体重がどのように身長ともに変化するか、線形モデルが有効であることを確認します。

線形回帰法は、ANCOVAANOVA を行う一般化線形モデル(GLM:Generalized Linear Models)と呼ばれるモデルの大分類の属します。このデータ集合は、説明変数として身長、年齢、性別とともに線形重回帰とANCOVAの2つのチュー トリアルでも用います。

線形単回帰のセットアップ

XLSTATを開いて、XLSTATデータ・モデリング線形回帰コマンドを選択するか、 データ・モデリングツールバー(下図)の対応するボタンをクリックしてください。

XLSTAT Ribbon

ボタンをクリックすると、線形回帰ダイアログ・ボックスが現れます。

Excelシート上のデータを選択してください。従属変数(または目的変数、モデルする変数)は、ここでは "Weight"(体重)です。量的説明変数は "Height"(身長)です。

変数の列ヘッダが選択されたので、変数ラベルオプションを有効にします。

XLSTAT dialog box for running a linear regression

OKをクリックすると、計算が始まります。

線形単回帰の結果の解釈

そして結果が表示されます。1番目の表は、モデルの係数の適合の良さを示します。R2(決定係数)は、 説明変数によって説明される従属変数の変動の%を示します。より1に近いR2は、より良く適合しています。

reg2.gif

このケースでは、体重の変動の60 %が身長によって説明されています。変動の残りは、この分析には含まれていないいくつかの効果(他の説明変数)によるものです。

分散分析表(下図)の結果を検討することは重要です。その結果は説明変数がモデルのための有意な情報(帰無仮説H0)をもたらすかどうかを決定する ことができます。言い換えると、それは全体集団を記述するのに平均を使用することが有効かどうか、または説明変数によってもたらされる情報に価値があるかど うかを検討する方法です。

reg3.gif

F値に対応する確率は0.0001よりも小さいということは、帰無仮説(2つの変数に関係がない)が正しくないと いう仮定が0.01%よりも低いリスクであることを意味します。したがって、この3つの変数は有意な情報量をもたらすということを確信持って結論づけるこ とができます。

以下の表は、モデルの詳細を与えます。この表は、予測が必要なとき、もしくは任意の集団と別の集団で係数を比較することが必要なときに役立ちます。Height(身長)パラメータの95%の信頼範囲がとても狭く、一方 モデルの切片についてのそれは広いことがわかります。

モデルの数式は、以下の表に書かれています。変数Heightの範囲内において、それを考慮に入れ て、身長が1インチ増えるごとに体重が3.8ポンド増えることがわかります。

reg4.gif

次の表は残差を示します。それは標準化残差のそれぞれをより詳細に見ることができます。これらの残差は、正規に分布しているはずだという線形回帰モ デルの仮定が与えられており、残差の95%は [-1.96, 1.96]の区間に入っているはずだということを意味しています。

この区間の外側のすべての値は、潜在的なはずれ値であるか、または正規性の仮定が間違い であることを示唆するかも知れません。[-1.96, 1.96]区間に入っていない残差を抽出するために XLSTATのDataFlagger(データ・フラッガー)を使用しました。

237人のうちから [-1.96, 1.96] の範囲の外側に9つの残差 (26, 38, 64, 69, 77)を識別でき、分析は正規性の仮定を棄却することをい導きません。より詳細な残差分析については、ANCOVAのチュートリアルを見てください。

1番目のグラフ(下図参照)は、データ、回帰線(適合したモデル)、及び2つの信頼区間を視覚化できます:身長の与えられた値についての予測の平 均の信頼区間は、線の近くにあります。

もう1つは、身長の与えられた値についての単一の予測の信頼区間です。線形的なトレンドがあることがはっきりとわか りますが、線の周辺には高いばらつきがあります。また [-1.96, 1.96]区間の外側にある9つのオブザベーションは、2番目の信頼区間の外側でもあります。

reg5.gif

3番目のグラフ(下図)は標準化残差 対 体重を視覚化します。この事例ではあてはまりませんが、説明変数に対して残差をプロットする場合、もしトレンドが識別されるなら、それは、パラメトリックな線形回帰の仮定の1つに反して、残差に自己相関があり、モデルが正しくないことを示します。

reg6.gif

次のグラフは、予測値と観察値の比較を可能にします。信頼限界は、上記の回帰プロットと同様、はずれ値の識別を可能にします。

reg7.gif

残差のヒストグラムは、範囲[-2, 2]の外にある残差を素早く視覚化します。

reg8.gif

線形回帰の結論

結論は、身長が体重の変動の60%を説明するということです。我々が使ったモデルでは、有意な情報量は説明されません。線形重回帰のチュートリ アルで、適合の品質を改善するために年齢の変数が追加されます。

お問合わせは、マインドウエア総研へ。

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283