Excelでの傾向スコア・マッチング・チュートリアル
このチュートリアルでは、XLSTAT統計ソフトウエアを用いてExcelで**傾向スコア・マッチング(propensity score matching)**をセットアップして実行することを支援します。
傾向スコア・マッチングを実行するデータセット
データと結果のExcelシートは、下記のボタンをクリックしてダウンロードできます。
データをダウンロード
このチュートリアルは、もともと Robert Lalonde (1986) で公開され Dehejia and Wahba (1999)で再考されたデータセットのランダムな副標本を使用します。
オリジナルの研究は、1978年に個人の収入について、特定の職業訓練プログラムへの参加者の効果を調査することを目的としていました。研究結果に深刻なバイアスを与えるいくつかの交絡変数が疑われていて、我々はその効果を定量化して、あらかじめこのバイアスを低減する副標本を構築したいわけです。これは、**傾向スコア・マッチング(Propensity Score Matching)**を用いて交絡変数の観点から類似した個人をペアリングして実現されます。
オリジナルの研究では、10個の変数が使用されました。最初の変数は、職業訓練プログラムの参加した(1) または参加しない (0)を示す Participation in job training と名付けられたバイナリ変数です。これが、我々のグループ変数です。我々は、1人の参加者が職業訓練プログラムに参加する確率はランダムではなく、交絡変数である程度説明できると考えます。
疑わしい交絡変数は、以下の8個の変数です:
-
Age: 参加者の年齢;
-
Years of education: 参加者の教育年数;
-
Afro-American: 参加者がアフリカ系アメリカ人なら1 、それ以外は 0;
-
Hispanic-American: 参加者がヒスパニック系アメリカ人なら1、それ以外は 0;
-
Married: 参加者が既婚なら1、それ以外は 0;
-
No degree: 参加者が何等かの学位を持つなら1、それ以外は 0 ;
-
Earnings in 1974: 1987年のドルでの1974年の参加者の収入;
-
Earnings in 1975: 1978年のドルでの1975年の参加者の収入;
-
Age、years of education、earnings in 1974 および 1975 は量的データです。残りの変数はバイナリのカテゴリ・データです。
そして、Earnings in 1978 という名前の最後の変数は、1978年での参加者の収入です。これがオリジナルの研究では興味の対象の変数でしたが、このチュートリアルでは使用しません。
このチュートリアルで使用される副標本は、200 人の参加者からなり、そのうちの 82 人が職業訓練プログラムに参加しました。
傾向スコア・マッチングのセットアップ
まず、ダウンロードしたファイルをExcelで開き、XLSTATを起動してください。XLSTATを起動すると、XSTAT / 高度な機能 / 生存時間分析 / 傾向スコア・マッチング を選択してください(下記参照)。
ボタンをクリックすると、ダイアログ・ボックスが現れます。
まず、グループ変数に列Aの Participation in job training を選択してください。処置モダリティも選択してください。我々の事例では、このモダリティは 1です。スプレッドシートでデータを選択すると、処置モダリティは自動で検出されるはずです。そうならない場合は、ドロップダウン・ボックスの右側にあるリフレッシュボタンをクリックしてください。
そして、交絡要因であると疑われる説明変数を選択してください。量的変数フィールドを有効にするために量的変数のチェックボックスをクリックして、変数age、years of education、 earnings in 1974、earnings in 1975 respectivelyに対応する列 B、C、H、Iを選択してください。 複数の列を選択するにはCtrl ボタンを使用します。同様に、質的変数フィールドを有効にするために質的変数のチェックボックスをクリックして、列lD、E、 F、G (Afro-american、 Hispanic-American、Married、No Degree)を選択してください。各変数にラベルがあるので、変数ラベルのチェックボックスを有効にします。
一般タブの設定が終わると、ダイアログ・ボックスは上図のようになっているはずです。
それでは、オプションタブに行って、下図のようにマッチング法を設定しましょう。
左側のオプションは触らないでそのままにします。右側で、最適アルゴリスムを有効にして、すぐ下のドロップダウン・ボックスでマハラノビス距離を選択します。マッチの数で1対1マッチを選択して。キャリパーオプションを有効にします。すぐ下のドロップダウン・ボックスで 0.10 * sigmaを選択してください。オプションタブができました。
欠損値タブで、下図のようにオブザベーションを除去オプションが有効なままにしておきます。
オプションタブで、下図のようにオプションを有効にします。
最後に、チャートタブで、下図のように正規化係数と箱ひげ図を選択します。
これで、OK をクリックして計算を開始できます。
傾向マッチングの結果の解釈
選択された変数の基本記述統計の後に、最初の結果は、標準化係数を表示する表で、次の図はそのチャートです。
それらは、選択されたデータセットで修正されたロジスティック回帰の係数です。これは、各参加社に関する傾向スコアを計算するために使用されたモデルです。
下に示す次の表は、マッチングの要約を表示します。
この表で、処置群の参加者の7%が対照群のどの参加者にもマッチしなかったことがわかります。これは、0.10 * sigmaのキャリパー半径内に候補者が見つからなかたことを意味します。すぐ下の表で、マッチング・オペレーションの合計コストを見ることができます。これは、各参加者ペアの間の距離の合計です。この基準は、特定のマッチング・オペレーションの有効性を評価するのに便利です。
そして、傾向スコアとその下限と上限が下図のように表示されます。
また、傾向スコアのロジットが、その境界値とともに表示されます。これは、すぐ下に示される距離行列を計算するのに使用された実際の値です。
距離行列では、処置群の参加者が行に、対照群の参加者が列です。マッチされた参加者のペアが、距離行列内に太字の距離値で示されます。
下図に示す箱ひげ図では、各群内の傾向スコアの分布の複数のパラメータで、マッチング・オペレーションの効果がわかります。 マッチングの後の方が、その前よりも、分布の違いが出ています。
そして、最後の表は、下図に示すように各群の参加者間の詳しいマッチを表示します。傾向スコアのロジットの観点で、2人の参加者の間の距離も与えられています。
結論
XLSTAT統計解析ソフトウェアを用いて、ある研究の参加者に関する傾向スコアをExcel内で計算して、傾向スコアを基づいて参加者間のマッチング・オペレーションを実行することができました。
この記事は役に立ちましたか?
- ウイ
- いいえ