メインコンテンツに移動
XLSTATはLumiveroグループに参加しています。詳しくはこちら

Excelでの多項ロジット・モデル・チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてExcel内で 多項ロジット回帰 をセットアップして解釈することを支援します。この手法がお探しの手法かどうか不確かな場合は、こちらのガイド をチェックしてください。

多項ロジット・モデルとは何か?

多項ロジット・モデル(multinomial logit model)は、3個以上のモダリティで記述される変数に対応するために、伝統的なロジット・モデルを一般化したものです(この手法は、多分割ロジスティック回帰:polytomous logistic regression)とも呼ばれます。)

このモデルの原理は、次のとおりです:複数の応答を持つ質的変数で、1個または複数の変数の効果を理解したり予測したいとします。この変数は、非順序のカテゴリカル変数でなければなりません。すべての計算は、ユーザーが選択しなければならない参照モダリティに関連して行われます。これは、固定モダリティとの関係で、説明変数の選択による影響を理解するのに役立ちます。

多項ロジット・モデルは、質的または量的説明変数の集合の値を与えて、生じるイベントのか確率をモデルするために使用されます。

XLSTATで多項ロジット・モデルを実行するデータセット

我々が使用するデータセットは、Adelin Albert and Eugene K. Harrisの書籍"multivariate interpretation of clinical laboratory data" からの引用です。このデータセットは、肝疾患を患者の218個のオブザベーションを含みます (Plomteux, 1980)。

患者は、肝疾患の4つの対応に応じて、4つのグループに分けられました: - 急性ウイルス性肝炎:Acute Viral Hepatitis (グループ 1: 57 人);

  • 慢性持続性肝炎:Chronic Persistent Hepatitis (グループ 2: 44 人);
  • 侵攻性慢性肝炎:Aggressive Chronic Hepatitis (グループ 3: 40 人);
  • 壊死後の肝硬変:Post-necrotic Cirrhosis (グループ 4: 77 人).

診断は4つの肝酵素に基づきました (U/L): - アスパラギン酸アミノトランスフェラーゼ:aspartate aminotransferase (X1: abbreviates AST);

  • アラニンアミノ基転移酵素:alanine aminotransferase (X2: ALT);
  • グルタミン酸デヒドロゲナーゼ:glutamate dehydrogenase (X3: GLDH);
  • オルニチンカルボニルトランスフェラーゼ:ornithine carbonyltransferase (X4: OCT).

急性ウイルス性肝炎の診断は、臨床生物学的兆候に基づき、一方、その他の患者は、腹腔鏡検査および生検所見に従って診断されました。

この多項ロジット・モデルの目的

我々の事例では、患者が4つの疾患のうちの1つを持つ確率を予測することとします。説明しようとしている変数は、4つの疾患に対応する4つのモダリティ(グループ)を含みます。

多項ロジット・モデルのセットアップ

多項ロジット・モデル・ダイアログ・ボックスを有効にするために、XLSTATを起動して、XLSTAT / データ・モデリング / ロジスティック回帰を選択します。

ボタンをクリックすると、ダイアログ・ボックスが現れます。応答タイプとして、多項オプションを選択することにより、多項ロジット・モデルが有効になります。

Excelシートでデータを選択します。応答データは、説明しようとしている変数が置かれている列に対応します。この事例ではGroup 列です。

この事例では、4つの酵素AST, ALT, GLDH, OCTに対応する4つの質的説明変数です。

我々は変数のラベルを選択したので、変数ラベルオプションを有効にしなければなりません。

我々は、モダリティ 4 を対照モダリティとして選択します。これは、計算や予測には影響しませんが、モデル式の記述方法のみに影響します。

ダイアログ・ボックスの残りのタブには、他のたくさんのオプションがあります(詳細は、XLSTATヘルプを参照)。 OK ボタンをクリックすると、計算が開始して結果が表示されます。

多項ロジット・モデルの結果の解釈

適合度統計の表は、モデルの品質の複数の指標を提供します。これらの結果は線形回帰やANOVA表のR²に相当します。 最も重要な値は、**対数比(L.R)**に関連する Chi² (カイ2乗)です。これは線形モデルでのFisherのF検定に相当します:我々は変数が応答変数の変動を説明するのに有意な情報量を提供するかどうかを評価しようとします。我々の事例では、確率が0.0001より低いので、変数が有意な情報量をもたらすと結論づけることができます。

次に、Type II分析の表が、モデルの最初の詳細を提供します。これは、応答変数の説明への変数の寄与度を評価するのに有用です。

カイ2乗検定に関連する確率によると、グループの選択に最も影響する変数は、肝酵素AST とALです。

そして、モデル・パラメータの表は、各変数を全体的に検定するのではなく、参照モダリティと比較して各モダリティへの影響を検定できます(ここでは4)。したがって、参照モダリティと比較して、モダリティ2と3が、GLDH変数の影響を受けます。なぜなら、 それらの係数が有意(それぞれ、0.048 と 0.018)で、モダリティ1には当てはまりません (0.756)。 さらに、高いGLDH値を持つことは、 疾患4と比較して、疾患3を持つ確率が 高くなります(係数が正で0.058、およびp値が0.018)。

次に、予測値と残差の表が表示されます。4番目のオブザベーションはグループ1に関連していますが、モデルはそれがグループ2に属すると予測します。実際、グループ2にある確率は最も重要で0.443 と推定されていますが、一方、グループ1、3、4にある確率はmそれぞれ 0.122、0.131、0.304です。

有意な変化は、予測されたグループの確率と実際のグループの確率の差が有意であるかどうかを示します。最後の列有意度は、予測されたグループの確率がそのグループ(モダリティ)の残りで推定された確率より有意に異なっているかどうかを示します。たとえば、18番目のオブザベーションで、変化が有意で、プラス、グループ2で推定された確率 (0.667) が、他のグループのそれ (0.304、 0.019、0.011)よりも有意に高いです。

これらの2列は、ダイアログ・ボックスの"出力"タブで有意度分析オプションがチェックされた場合に現れることに注意してください。

トレーニング標本での分類表 (混同行列ともいう)は、各モダリティで正しく分類された(真陽性および真偽性)オブザベーションのパーセンテージを示します。たとえば、モダリティ1、2、4のオブザベーションは、それぞれ87.72%、84.09%、89.61%正しく分類されましたが、一方、モダリティ3のオブザベーションは、ケースの45%だけが正しく分類されました。

混同プロットは、上記の表を合成的に可視化します。対角線上の灰色の四角形は、各モダリティでの実際のオブザベーションを表します。 オレンジの四角形は、各モダリティでの予測されたオブザベーションを表します。モダリティ3(40個の観察されたオブザベーション中、18個の予測されたオブザベーション)とは対照的に、モダリティ1(57個の観察されたオブザベーション中、50個の予測されたオブザベーション)、モダリティ2(44個の観察されたオブザベーション中、37個の予測されたオブザベーション)、モダリティ4(77個の観察されたオブザベーション中、69個の予測されたオブザベーション)では四角形の面積がほとんど完全に重なっています。

そして、最後の2つの表は、不確実性を考慮します。1番目の表は、12個のオブザベーションについて、最初の値がモダリティ3で、予測値がモダリティ4、そして有意度が "Yes" です(これらの数字を見つけるには予測値と残差の表を参照)。言い換えると、予測されたモダリティが有意である12個のオブザベーションがあるということです。

モダリティ3に関するモデルによって予測された値の約半分 (52.50%) が、不確実と考えられますが、モダリティ1の場合、不確実性のパーセンテージが12.28%と推定されているので、そのモデルによる予測値は最も不確実性が低いです。

最後の表は、オブザベーションの62.39%が正しく分類され(真陽性)、26.61%が不確実な分類で、11.01%が誤分類 (偽陽性および偽陰性)であったことを示します。 GCI (Goodness of Classification Index:正分類率) は 64.68%で 、それはこの分類モデルの予測品質が良好であることを意味します。

この記事は役に立ちましたか?

  • ウイ
  • いいえ