あなたの分析ソリューション

統計的モデリングとは何か?

25/07/2017

統計的モデリングとは何か?

簡単に言えば、統計的モデリングは、現実(すなわちデータを生成するもの)を近似するために、単純化し、数学的に形式化された方法であり、場合によっては、この近似から予測を行うための方法です。統計的モデルは、そこで使用される数式です。

これは基本的な事例です。ある種類のポテトの重量をレポートしたいとしましょう。我々は、それをするための難しい方法と易しい方法を考えましょう。難しい方法は、何年もかけて、その種類のポテトを世界中で計測して、エンドレスなExcelスプレッドシートでデータをレポートすることです。簡単な方法は、その種類を代表する30個のポテトの標本を選択して、その平均と標準偏差を計算して、この重量近似的記述として、それらの2つの数字だけをレポートすることです。平均と標準偏差の量をレポートすることは、統計的モデリングのとても単純な形式です。

もう1つの事例は、土壌の湿気の増加に対すて植物のサンプルを提示する実験の結果、傾きと切片で特徴づけられる直線で、土壌水分量(soil water content )による植物の高さを表現しようとすることです。この特別なモデルは、線形単回帰(simple linear regression).と呼ばれます。

Simple linear regression

従属変数および説明変数とは何か?

ほとんどの場合、統計的モデルは、説明変数と従属変数を含意します。

従属変数は、我々が、記述したい、説明したい、予測したいそれです。大ざっぱに言えば、従属変数は、しばしば1個で、モデリング・グラフではY軸で表現します。植物の高さの事例では、従属変数は、plant height(植物の高さ)です。

説明変数は、独立変数とも呼ばれ、従属変数を説明するために、記述するために、予測するために使用するそれです。説明変数は、しばしばX軸で表現されます。植物の高さの事例では、量的な説明変数が1個だけあります: soil water content(土壌水分量)。

従属変数と説明変数は、両方とも、1個でも複数でもよく、量的変数でも質的変数でもかまいません。さまざまな状況に応じたモデルがあります。 

モデル・パラメータとは何か?

伝統的に、パラメトリック・モデルは、モデル・パラメータと呼ばれる量が関与する数式(モデル)によって、従属変数が説明変数に関係づけられます。植物の高さの線形単回帰の事例では、パラメータは、切片と傾きです1。式は、次のように書けるでしょう:

高さ = 切片 + 傾き*土壌水分量

統計的モデリングの背後の計算は、モデル・パラメータの推定を可能にして、さらに従属変数の予測を可能にします。

1線形単回帰は、3つめのパラメータ、残差の分散も関与します(下記参照)。

モデルの残差とは何か?

技術的には、モデル残差(または誤差)は、データ・ポイントとモデル(植物の高さの線形回帰の事例では直線で表現)の間の距離です。

Model residuals

モデル残差は、モデルが捉えられなかったデータ内の分散の一部を表します。 R² 統計量は、モデルで説明された変動の一部です。したがって、残差が引地ほど、R² 統計量が高くなります。

Comparison between two r square

どの統計的モデルを選ぶべきか?

このグリッド は、従属変数と独立変数のタイプや数によって、使用されるモデルの最も一般的な選択をガイドします。パラメトリック・モデル以外の解決策も提案します。

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283