メインコンテンツに移動

Excelでの線形単回帰チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてExcel内で 線形単回帰 をセットアップして解釈することを支援します。線形単回帰は、最小2乗回帰 (OLS)に基づきます。
これがお探しのモデリング機能であるか不確かな場合は、こちらのガイドを確認してください。

線形単回帰とは何か?

線形単回帰は、教師あり学習アルゴリズムにより推論された線形関係に基づいて、1つの変数を他の変数によって予測することを可能にします。
1つの変数を複数の他の変数によって予測しようとする場合、線形重回帰に関するチュートリアルを参照してください。

XLSTATでの線形単回帰を実行する方法?

線形回帰を実行するデータセット

データはLewis T. and Taylor L.R. (1967), Introduction to Experimental Ecology, New York: Academic Press, Inc.で取得されました。性別、月数での年齢、インチでの身長(1 inch = 2.54 cm)、ポンドでの体重 (1 pound = 0.45 kg)で記述された237人の児童に関するデータです。

このチュートリアルの目的

線形単回帰を用いて、彼らの身長によって体重がどのように変化するかを調べて、線形モデルが有効かどうかを検証しようとしています。ここで、従属変数が weightで、説明変数が heightです。
線形回帰法は、ANOVAと同様に、一般化線形モデル(GLM : Generalized Linear Models)と呼ばれるモデルの大分類に属します。このデータセットは、 Height、Age、Genderを説明変数として 線形重回帰および ANCOVAでも使用されます。

線形単回帰のセットアップ

  • XLSTATを開く

  • リボンでXLSTAT > データ・モデリング > 線形回帰を選択する。一般 タブで、従属変数フィールドに "Weight"変数を、量的説明変数に"Height" 変数を選択する。

  • 変数の列タイトルがすでに選択されているので、変数ラベル オプションを有効のままにしておきます。

image.png

  • OK をクリックすると計算が実行されます。

XLSTATでの線形単回帰の結果の解釈の仕方?

1番目の表は、モデルの係数の適合の良さを示します。R²(決定係数)は、 説明変数によって説明される従属変数の変動の%を示します。より1に近いR²は、より良く適合しています。

このケースでは、体重の変動の60 %が身長によって説明されています。変動の残りは、この分析には含まれていないいくつかの効果(他の説明変数)によるものです。
分散分析表(下図)の結果を検討することは重要です。その結果は説明変数がモデルのための有意な情報(帰無仮説H0)をもたらすかどうかを決定する ことができます。言い換えると、それは全体集団を記述するのに平均を使用することが有効かどうか、または説明変数によってもたらされる情報に価値があるかど うかを検討する方法です。.

F値に対応する確率は0.0001よりも小さいということは、帰無仮説(2つの変数に関係がない)が正しくないと いう仮定が0.01%よりも低いリスクであることを意味します。したがって、この3つの変数は有意な情報量をもたらすということを確信持って結論づけるこ とができます。
以下の表は、モデルの詳細を提供します。この表は、予測が必要なとき、もしくは任意の集団と別の集団で係数を比較することが必要なときに役立ちます。Height(身長)パラメータの95%の信頼範囲がとても狭く、一方 モデルの切片についてのそれは広いことがわかります。
モデルの数式は、以下の表に書かれています。変数Heightの範囲内において、それを考慮に入れ て、身長が1インチ増えるごとに体重が3.8ポンド増えることがわかります。

次の表は残差を示します。それは標準化残差のそれぞれをより詳細に見ることができます。これらの残差は、正規に分布しているはずだという線形回帰モ デルの仮定が与えられており、残差の95%は [-1.96, 1.96]の区間に入っているはずだということを意味しています。
この区間の外側のすべての値は、潜在的なはずれ値であるか、または正規性の仮定が間違い であることを示唆するかも知れません。[-1.96, 1.96]区間に入っていない残差を抽出するために XLSTATのDataFlagger(データ・フラッガー)を使用しました。
237人のうちから [-1.96, 1.96] の範囲の外側に9つの残差 (26, 38, 64, 69, 77)を識別でき、分析は正規性の仮定を棄却することをい導きません。より詳細な残差分析については、ANCOVAのチュートリアルを見てください。
1番目のグラフ(下図参照)は、データ、回帰線(適合したモデル)、及び2つの信頼区間を視覚化できます:身長の与えられた値についての予測の平 均の信頼区間は、線の近くにあります。
もう1つは、身長の与えられた値についての単一の予測の信頼区間です。線形的なトレンドがあることがはっきりとわか りますが、線の周辺には高いばらつきがあります。また [-1.96, 1.96]区間の外側にある9つのオブザベーションは、2番目の信頼区間の外側でもあります。

3番目のグラフ(下図)は標準化残差 対 体重を視覚化します。この事例ではあてはまりませんが、説明変数に対して残差をプロットする場合、もしトレンドが識別されるなら、それは、パラメトリックな線形回帰の仮定の1つに反して、残差に自己相関があり、モデルが正しくないことを示します。

次のグラフは、予測値と観察値の比較を可能にします。信頼限界は、上記の回帰プロットと同様、はずれ値の識別を可能にします。

残差のヒストグラムは、範囲[-2, 2]の外にある残差を素早く視覚化します。.

XLSTATでのこの線形回帰の結論

結論は、身長が体重の変動の60%を説明するということです。我々が使ったモデルでは、有意な情報量は説明されません。線形重回帰のチュートリ アルで、適合の品質を改善するために年齢の変数が追加されます。

この記事は役に立ちましたか?

  • ウイ
  • いいえ