どの統計的モデルを選択するべきか?
状況に応じて統計的モデリング・ツールを選ぶためのガイド
統計的モデルの選択は単純ではありません。あらゆるデータセットがそれに適合するモデルを持つと考えるのは間違いです。統計的モデリングの初心者は、下記のグリッドを探索する前に 、こちらの簡単で短いイントロダクションが便利かもしれません。
あらゆるモデリング・ツールは特定の質問に答えるのみです。たとえば、特定の糖尿病に関連する血糖は、質的変数(たとえば性別)で説明できます。この状況では、ANOVAモデルを使用できます。また、同じデータを用いて、患者の年齢によって 血糖の線形的な増加または減少傾向があるかどうか見るために年齢データ(量的変数)を使用するかもしれません。この状況では、線形回帰を使用するでしょう。
統計的モデルの選択は、従属変数と説明変数の間の関係性の形によってもガイドできます。 これたの関係性のグラフィカルな説明は、とても便利かもしれません。ときどき、これらの形はカーブになっているかもしれません。したがって、線形のモデルよりも、多項モデルや非線形モデルがより適切かもしれません。
モデルの選択は、調査しているとても特定な質問に密接に関係している場合があります。たとえば、Michaelis-Menten 酵素動力学のVmaxおよびKmパラメータの推定は、非線形の方法で基質の濃度(説明変数)に反応率(従属変数)を関係づける特別なMichaelis-Menten 方程式の考慮を含意します。
調査の目的が変数の大規模な集合から予測をすることだけなら、パラメトリック・モデル以外の解決策が考えられます。たとえば、PLS回帰は 、無制限な数の恐らく相関している 説明変数から従属変数を予測することに特化したツールです。PLS回帰の使用は、しばしば大規模な波長スペクトルから結果が予測される軽量化学ではとても一般的になっています。
いくつのパラメータをモデルに含めるべきか?
適切なモデリング・ツールを選択すると、多くの場合、いくつのパラメータをモデルに含めるべきかが問題になるでしょう。より多くのパラメータをモデルに含めると、データにより良く適合するモデルになります(すなわち、残差が低く、高い R² 統計量)。したがって、残差が極めて最小化されるように、モデル内のパラメータの数は最大化されるべきでしょうか? いいえ、じつはそうではありません。データに適合しすぎるモデルは、使用している特定の標本を表現しすぎていて、母集団への汎化の精度が低くなります。
データへの正しい適合と最小のパラメータ数の間のバランスで定量化されるモデル品質は、赤池情報量基準(AIC)やベイジアン情報量基準(BICまたはSBC)などの指標を用いてアクセスできます。複数のパラメトリック・モデルを相互に比較する場合、最も低い指標のモデルが、その集合の中でベスト・クォリティを持ちます。これらの指標の解釈は、 絶対的な文脈、言い換えると、たった1個のモデルだけを考慮する場合、意味を成しません。
グリッド
下記のグリッドは、状況(従属変数と説明変数のタイプと数)に適切であろう統計的モデルを選択するのを支援します。またグリッドには、各状況での事例の列もあります。
パラメトリック・モデルの有効性の条件が、以下のグリッドのパラグラフに一覧されています。
表示されている解決策は、統計で最もよく使用されるツールです。それらは、すべてXLSTATで利用可能です。リストは網羅的ではありません。他にもたくさんの解決策が存在します。
従属変数 | 説明変数 | 事例 | パラメトリック・モデル | 有効性の条件 | その他の解決策 |
---|---|---|---|---|---|
1個の量的変数 | 2水準を持つ1個の質的変数(= 要因) | 植物内の追跡要素の濃度への汚染物質(yes / no)の効果 | 2水準のOne-way ANOVA(一元配置分散分析) | 1 ; 2 ; 3 ; 4 | Mann-Whitney 検定 |
k個の水準を持つ1個の質的変数 | 植物内の追跡要素の濃度へのサイト (4要因) の効果 | One-way ANOVA | 1 ; 2 ; 3 ; 4 | Kruskal-Wallis 検定 | |
複数の水準を持つ複数の質的変数 | 植物組織内の分子の濃度へのサイト (4 要因) と植物種の組み合わせ効果 | Multi-way ANOVA (要因計画) | 1 ; 2 ; 3 ; 4 | ||
1個の量的変数 | たんぱく質の濃度への温度の効果 | 線形単回帰; 非線形モデル (従属変数と説明変数の間の関係性の形による) | 1 - 3 | ノンパラメトリック回帰(*); クラス分類木と回帰木 (*); K最近傍法(*) | |
複数の量的変数 | 植物バイオマスへの複数の汚染物質の濃度の効果 | 重回帰分析; 非線形モデル | 1 - 6 | PLS回帰(*); K 最近傍法(*) | |
質的変数と量的変数の混合 | 糖尿病のタイプに関連する血糖への性別と年齢の組み合わせ効果 | ANCOVA | 1 - 6 | PLS回帰(*); クラス分類木と回帰木(*); K 最近傍法(*) | |
複数の量的変数 | 質的変数 &/or 量的変数 | トンスクリプトームへの環境変数行列の効果 | MANOVA | 1 ; 4 ; 7 ; 8 | 冗長性分析; PLS回帰(*) |
1個の質的変数 | 質的変数 &/or 量的変数 | マウス個体の生存/脂肪への投与効果 | ロジスティック回帰 (二項または 多項) | 5 ; 6 | PLS-DA(*); 判別分析(*);クラス分類木と回帰木(*); K最近傍法(*) |
1個のカウント変数(たくさんのゼロを持つ) | 質的変数 &/or 量的変数 | マウス内の壊死の数への投与効果 | 対数線形回帰 (ポアソン) | 5 ; 6 |
(*) より予測向きの解決策
有効性の条件
我々が提案する有効性の条件は、おおまかなルールです。文献には厳密なルールはありません。各特定分野での推奨を参照することを強く薦めます。
有効性の条件
-
個体が独立であること。
-
分散が均一であること。
-
残差が正規分布に従うこと。
-
少なくとも 30 個の個体があること。
-
多重共線性 がないこと(目的がモデル・パラメータの推定である場合)。
-
個体数よりも説明変数の数が少ないこと。
-
残差の多変量正規性。
-
すべての従属変数に内で分散が均一であること。従属変数間の相関が均一であること。
この記事は役に立ちましたか?
- ウイ
- いいえ