あなたの分析ソリューション

XLSTAT-LatentClassでの潜在クラス・クラスタ・モデルの推定

17/05/2016

潜在クラス・クラスタ・モデル: 概観

このチュートリアルでは、潜在クラス・クラスタ・モデルの計算と結果の出力うの解釈の仕方を説明するために4 個のカテゴリカル・インジケータを使用します。これらのデータの詳細は、McCutcheon (1987), Magidson and Vermunt (2001)Magidson and Vermunt (2004) を参照してください。

このチュートリアルで、以下のことを行ないます::

  • 従来の潜在クラス(クラスタ)モデルのセットアップと計算
  • データにベスト・フィットするモデルの探索
  • 出力とグラフの生成と解釈
  • 新しいケースをスコアリングするための回帰式を得る
 

 XLSTATでの潜在クラス・クラスタ・モデルを計算するためのデータセット

このチュートリアルで使用するデータを含むExcel シートは、こちら.をクリックしてダウンロードできます。

このデータは、4つのカテゴリカル変数(PURPOSE, ACCURACY, UNDERSTA, COOPERAT)での1202ケースの応答からなります。 変数 FRQ は、特定の応答パターンが観察された度数を記述するために使用されています。データの一部を図 1 に示します。

lg cluster data

図 1: gss82white.xls データ(最初の12 レコードを示す)*

* ソース: 1982 General Social Survey Data National Opinion Research Center

潜在クラス・クラスタ・モデルに関するこのチュートリアルの目的

調査の目的に関する回答者の意見 (PURPOSE)、それらがどれだけ正確か (ACCURACY)を確定する2つの変数、および回答者が調査の質問を理解するレベル(UNDERSTA)と質問への回答で示される協力度(COOPERAT)をインタビューアが評価する2つの追加変数を用いて、調査の回答者のさまざまなタイプ(クラスタ)を明確に識別します。とくに、クラス(クラスタ)の数を決定する基準と、これらのクラスタに回答者を分類する方法に焦点を当てます。

 

XLSTATでの潜在クラス・クラスタ・モデル分析のセットアップ

XLSTAT-LatentClass クラスタ・ダイアログ・ボックスを開くには、ExcelメニューでXLSTAT / XLSTAT-LatentClass / 潜在クラス・クラスタリング コマンドを選択します(図 2)。.

lg menu

図 2: XLSTAT-LatentClass クラスタを開く

ボタンをクリックすると、XLSTAT-LatentClass クラスタリング・ダイアログが表示されます。

5つのタブからなるLC クラスタ分析ダイアログ・ボックスが開かれます(図 3)。
 
lg cluster dialog box

図 3: 一般タブ 
 
 
この分析では、インジケータとして4個の変数(PURPOSE, ACCURACY, UNDERSTA, COOPERAT)のすべてを使用します。 これらの 4 個のインジケータは、少ない数のカテゴリを持つカテゴリカル変数なので、我々はオプショナル・ケース重み変数‘FRQ’を使用して、たくさんの同じ応答パターンをグループして、入力データのサイズを比較的少ない数のレコードに削減できます。あるいは、1,202ケースのそれぞれが1データレコードになっているデータでも同等の結果が得られます。.


オブザベーション / 名義 フィールドで、変数 PURPOSE, ACCURACY, UNDERSTA,  COOPERATを選択します。

ケース重み フィールドで、変数 FRQを選択します。


クラスタ数を決定するために、それぞれ異なるクラスタ数を指定して 4 種類のクラスタ・モデルを計算します。要約の一般的ルールとして、手始めに1 から 4 クラスタの間のすべてのモデルを計算します。

クラスタ数の下の‘下限:’ というボックスで ‘1’ をタイプして、‘上限’ のボックスで ‘4’ をタイプして、 4個のモデル( 1-クラスタ・モデル、2-クラスタ・モデル、3-クラスタ・モデル、4-クラスタ・モデル)の計算をリクエストします。

ダイアログ・ボックスは、現在、下記のようになっているはずです: 

lg cluster dialog box filled

図 4: 一般タブ

OKをクリックすると高速な計算が始まります。

 

潜在クラス・クラスタ分析モデルの出力の解釈

Latent GOLD が計算を完了したら、5 つのスプレッドシートが生成されます – クラスタ要約シート(潜在クラス・クラスタリング)、計算された各クラスタ・モデルごとのシート(1-クラスタ・モデル (LCC-1 Cluster)、2-クラスタ・モデル (LCC-2 Clusters)、3-クラスタ・モデル (LCC-3 Clusters)、 4-クラスタ・モデル (LCC-4 Clusters))。

潜在クラス・クラスタリング 要約シートは、計算されたすべてのモノ出るの要約をレポートします。図 5 に示す ‘L² ’とラベルづけされた列内のモデル L² 統計は、モデルが計算された後でまだ説明されていない変数間の関係性の量を示します。この値が小さいほど、モデルがデータによりよくフィットしています。クラスタ数を決定するための1つの基準が‘p値’ の列にあり、L² 統計量がカイ2乗分布に従うという仮定のもとでの各モデルのp値を提供し、十分な適合 (p>.05)を提供する最も節減的なモデル(最も少ない数のパラメータによるモデル)を選択します。 この基準を用いて、Model 3、すなわち20個のパラメータを含む 3-クラスタ・モデル( 0.105のp値)によって、べスト・モデルが提供されています。

より一般的な情報量基準 (BIC, AIC, AIC3) も節減的モデルを支持しますが、このアプローチは、L² がカイ2乗分布に従うことを必要とせず、1つまたは複数のインジケータが連続である場合や、多数のインジケータのためにデータがスパース(疎)である場合でも有効です。このアプローチを用いて、我々は最も低い値のモデルを簡単に選べます。たとえば、最小の BIC 値のモデルは、やはり 3-クラス・モデル (BIC=5651.121)です。


lg latent class clustering output

図 5. 計算されたモデルの要約

 

シート ‘LCC-3 Clusters’ をクリックして、3-クラスタ・モデルのモデル出力を表示させます。

3-クラス・モデルの以下の要約統計では、さまざまな追加の出力が提示され、各クラスのモデル・パラメータが条件付き確率として表現されるプロファイル出力を含みます。



要約統計からスクロールダウンして、プロファイル出力(図 6 )を表示させます。
lg latent class clustering output 2

図 6. 3-クラスタ・モデルのプロファイル出力

 

 

クラスタは、クラス・サイズによって、自動で並べられます。全体として、クラスタ 1 はケースの 62% を含み、クラスタ 2 は20% を含み、残りの18% はクラスタ 3に含まれます。条件付き確率が、クラスタを識別する応答パターンでの差を示します。たとえば、クラスタ 3 は、他の2つのクラスタよりも調査が時間の無駄になりそうで (PURPOSE = ‘3’  / PURPOSE = ‘waste’) 、調査の結果は真実でありません (ACCURACY = ‘2’ / ACCURACY = ‘not true’)。 これらの確率をグラフィカルに表示するために、プロファイル・プロットにスクロール・ダウンしてください。

3-クラスタ・モデルのプロファイル・プロットが表示されます。

lg latent class clustering profile plot

図 7: 3-クラスタ・モデルのプロファイル・プロット

 

モーダル割り当てを用いてケースをクラスタに分類

スクロールダウンして、分類出力を表示してください: 

lg latent class clustering: classification output

図 8: 3-クラスタ・モデルの分類出力

 

クラス分類出力の最初の行では、応答パターン (PURPOSE = good/1, ACCURACY =mostly true/1, UNDERSTA = good/1, and COOPERAT = good/1) を持つすべてのケースを表すObs1が、クラスタ 1 に分類されています。このクラスに存在する確率が最も高いからです (.9196)。‘Cluster’とラベルづけされた列で、 Obs1 はクラスタ ‘1’に割り当てられることを示す値 ‘1’ を与えられています。
 
モーダル割り当てルールを用いてケースがクラスタに分類されるとき、分離誤差の量が提示されていることに留意してください。期待分類誤差が、実際の確率クラスによるモーダル・クラスへのクロス分類によって計算されます。これは、図 9に示す3-クラス・モデルの分類表で行われます。このモデルでは、モーダル割り当てルールが、クラスタ1から704.0219 ケースを、クラスタ2から 163.8089 ケースを、クラスタ3から176.2545 ケースを正しく分類し、合計1,202ケースを1,044.085 ケース正しく分類すると期待されます。 これは、期待分類誤差が13.13% [(1 - 1,044.085)/1,202]であることを表します。

lg latent class summary classification table

図 9: 3-クラスタ・モデルの分類表


期待クラスタ・サイズが、モーダル割り当てによって完全には再現されないことに留意してください。図 9 の分類表は、モーダル割り合ってを用いて合計ケースの 67.0% がクラスタ1に分類される(1,202ケース中805ケース)ことを示し、それに対して、このクラスタに存在する期待値は61.7% であることを示します。(ケースがそれらの61.7%がクラスタ1に存在すると期待されるメンバーシップ確率に比例してクラスタに割り当てられた場合)。

 

潜在クラス・クラスタ・モデルでの2変量残差の解釈

さまざまな全体のモデル適合測度に加えて、2変量残差というローカルな測度も利用可能で、インジケータのあらゆる対の間の2元の関連性がどの程度モデルによって説明されるかを評価できます。

スクロールダウンして、2変量残差の出力を表示させてください: 

lg latent class clustering BVR

図 10: 3-クラスタ・モデルの2変量残差出力


BVR は、ピアソン・カイ2乗を自由度(DF)で割ったものに一致します。計算されたモデルから得られる推定期待カウントを用いて、2元表の観察カウントで、カイ2乗が計算されます。 モデルの仮定が正しいという仮定のもとでのカイ2乗の期待値は自由度に等しいことがわかっているので、モデルが真であれば、BVRは1よりも大幅に大きくないはずです。図10 の2.4のBVR は、3-クラスタ・モデルが COOPERATE と UNDERSTAND の間の関連性を再現するのにわずかに及ばないことを示唆します。 
 
一方、4-クラスタ・モデルに関するBVR(図11)は、すべて1よりも小さいです。これは 4-クラスタ・モデルがモデル適合において、3-クラスタ・モデルを上回る有意な改善を提供することを示唆します。したがって、3- および 4-クラスタの解の両方が正当化されます。BICによる 3-クラスタ解とBVRによる4-クラスタ解です。

lg latent class cluster model: BVR for 4-class

図 11: 4-クラスタ・モデルの2変量残差出力

 

スコアリング式の解釈

我々は、新しいケースのスコアリング用の回帰式を得るために、スコアリング式出力を使用できます。

スクロールダウンしてスコアリング式出力を表示させてください:

lg latent class clustering scoring equation

図 12: 3-クラスタ・モデルのスコアリング式出力

 

各応答パターンが各クラスタについてスコアされ、最も高いスコアを持つクラスタに割り当てられます。たとえば、Obs1 の応答パターンを持つケース:

Purpose = 1, Accuracy = 1, Understa = 1, Cooperat = 1

が、上図で黄色にハイライトされた係数に基づいてスコアできます。こ れにより、下記のロジット・スコアが計算できます:

Cluster 1 score = 2.916, Cluster 2 score = 0.457, Cluster 3 score = -3.373.

したがって、この応答パターンは、最も高いロジット・スコアを持つクラスタであるクラスタ 1に割り当てられます。より意味のあるスコアを得るために、我々は、下記に提供される式を用いて、上記のクラス分類出力に示された事後メンバーシップ確率を生成できます。 これは、Obs1 応答パターンに関する下記の確率を産出します:

Probability 1 = 0.9196, Probability 2 = 0.0787, Probability 3 = 0.0017
ロジット・スコアを確率に変換するのに使用した式は: 
 
Probability (k) = exp[score(k)]/ [ exp(score1) + exp(score2) + exp(score3)]   k=1,2,3.

お問い合わせ

販売部門にEメール

当社の技術サポートチームに連絡してください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283