Excelでのベイジアンネットワークの構築チュートリアル
このチュートリアルは、XLSTATソフトウェアを用いてExcel内でベイジアン・ネットワーク(BN)を構築して分析する方法を説明します。
ベイジアン・ネットワークは、非循環有向グラフと確率表に基づく統計解析ツールです。人工知能で非常に人気があり、知識とその不確実性を表現するために使用することができます。これは、主要な機能が変数間の因果関係を明らかにすることであるような意思決定ツールです。
ベイジアン・ネットワーク分析を実行するためのデータセット
データは書籍 “Bayesian Networks with R” からの引用で、集団ごとに特定の交通手段の利用を説明する要因を決定するために使用されます。6個の変数があります: 個人の年齢 (Age)、性別 (S)、教育水準 (E)、リベラルと非リベラルでの職業のタイプ (Prof)、出身地のサイズ (D) 、最も利用される交通手段のタイプ (T)。最初の変数は量的変数ですが、残りは質的変数です。それらは、下記のモダリティを持っています:
このチュートリアルの目的は、交通手段(car, train, etc)の利用に関する集団の特徴を識別することです。
XLSTATでのベイジアン・ネットワークの構築と分析
我々はまず問題を表現するベイジアン・ネットワークを構築しなければなりません。それはグラフを描いて、確率表を定義することです。我々は、書籍 Bayesian Networks with Rでの1つの提案を選びました。
XLSTAT を起動して、新しいプロジェクトを開くために、下図のように高度な機能 / ベイジアン・ネットワーク / 新規プロジェクト をクリックします。
ダイアログ・ボックスオプションが現れます。
クラシック・モードでベイジアン・ネットワークを表示するように選びました。それはデータセットの使用が必要です。またはエキスパート・モードでは、ユーザーがステップ・バイ・ステップでデータを定義することができます。このチュートリアルでは、クラシック・モードを選びます。
2個のシートのあるワークブックが開きます。最初の Dataというシートは、データをコピー/ペーストするのに使用し、2番目のBNGraphというシートは、グラフを描くのに使用します。
ドローイング・シートでは、8個のボタンからなるツールバーが表示されます。それは BNの構築および分析のさまざまなステージで役立ちます。
A. ベイジアン・ネットワークのグラフを描く
ツールバーの最初にあるノード・ボタンを使って6個の変数を置くことから始めます。それをするには、ノード・ボタンをクリックして、それからノードを置きたいドローイング・シートに行きます。ノードに名前をつけることを求めるウィンドウが開きます。下のような変数のレイアアウトを得るまで、各ノードでこの動作を繰り返します:
MAC ユーザーの場合: 技術的な制約のため、ノードの名付けウィンドウは、ツールバーの2番目のボタンでのみ開きます。これを使用するには、Ctrl +左クリックでノードを選択する必要があります。
次のステップは、ツールバーの3番目のアーク・ボタンを使って、変数間の因果関係を描くことです。それをするには、Ctrlキーと左クリックで、原因の変数、つまり親ノードを選択します。同じ方法で、効果変数、または子ノードを選択します。正しい方向で2つのノードが事前に選択されると、すぐにアーク・ボタンをクリックしてください。すると、2つのノードの間に矢印が現れます。このチュートリアルでは、ノードEでモデルされる教育水準は、 年齢に従属します。この関係性は、 ノード Ageから始まりノード Eで終わる矢印で表されます。.下のようなグラフを得るまで矢印を作成してください:
B. 確率表の定義
すべての変数について、それらの従属構造に応じて、各モダリティの値を定義しなければなりません。ノード E は2個のモダリティ、 l1と l2を持ちノード Age とノード Sに従属します。したがって、ノードSのモダリティMとWおよび集団のさまざまな年齢クラスを知りつつ、モダリティ l1の確率、そして l2の確率も定義することが必要です。これらの値は、ツールバーの5番目の Dataボタンをクリックすると自動で計算されます。
2個のタブのあるダイアログ・ボックスが現れます。
一般タブでは、Data シートからデータ範囲を選択します。ここでは質的変数フィールドで列 Bから to Fが、量的変数フィールドで列Aが選択されます。
欠損値タブでは、欠損値が存在するとき計算を停止させる最初のオプションを選択します。
そしてOKボタン をクリックして計算を立ち上げます。Probability tablesと名付けられた新しいExcelシートが現れて、ここに各変数の確率分布やデータの記述統計があります。
たとえば、変数 Ageは10個のモダリティがあり、27 から 31 の年齢範囲がこのデータセットで最も頻度の高いクラスであることがわかります。
すべての確率表が計算されると。ベイジアン・ネットワークは分析できる準備が整いました。
C. ベイジアン・ネットワーク分析を立ち上げる
Probability table シートの表の下の分析を実行ボタンまたはツールバーの7番目のボタンを直接クリックしてください。
4個のタブのあるダイアログ・ボックスが現れます。一般タブで、確率表を格納している事前選択されたデータソースの名前を確認してください。
欠損値、出力およびグラフィック・タブでは、デフォルトでチェックされたオプションを保持してください。
OK ボタンをクリックして計算を開始します。Bayesian Network Analysisと名付けられた新しいシートに結果が表示されます。
ベイジアン・ネットワーク分析の結果の解釈
結果は、各ノードの周辺確率分布、各クリークの同時確率分布、および条件付き確率分布を表す表とグラフです。
自動車の利用が、他の交通手段と比べてより高いです。
他の変数の周辺確率は、集団の半分が女性で、l2 と評価された個人の数が l1よりも重要 (それぞれ69% 対 31% )ですが、リベラルと非リベラル職業の比率はほぼ同じ(それぞれ47.9% 対 52.1% )です。そして、大都市に住む人々が小都市の人々よりも多い(それぞれ61.9% 対38.1%9)です。
条件付き確率 は、より正確な情報を提供します。たとえば、下の表の最初の行と4行目を比較すると、リベラル職業の人は非リベラル職業の人よりも頻繁に自動車を利用することがわかります:
さらに、この表の最初と4行目を見ると、l2の教育水準を持つ lib 個人の比率は、l1の教育水準を持つ lib 個人の比率と比較して、わずかに高いことがわかります:
ベイジアン・ネットワークでさらに
新しい結果を得るために、編集ボタンを使用して、BNを再起動して、1個または複数の確率値を修正することが可能です。
それをするには、Ctrl + 左クリックでBNGraphシートのノードを選択して、ボタンをクリックしてください。すると、ウィンドウが開きます。ノード Jobでは以下のようになります:
我々はノードEの2つのモダリティで、確率をそれぞれ 0 と 1に変更して、合計が1に等しくなるように保ちます。それをするには、最初の値を選択して、編集をクリックします。新しい値を入れて、 OKをクリックします。同様に、他の3つの値を変更して、新しい確率表を得ます:
probability tables シートでこれらの新しい値を反映させるために、再度OKをクリックしてください。そして、ノードの新しい周辺確率値を考慮に入れて、新しい分析を実行することができます。
新しいベイジアン・ネットワークでは、鉄道の利用が自動車の利用よりもわずかに高い比率で好まれます。
注意1:このツールで作成したプロジェクトを保存したExcelファイルを開くときは、さきにXLSTATを起動してください。(ファイルをクリックして開くとエラーが出ます) 注意2:異なる言語モードで作成したプロジェクトを開いた場合、確率表の再計算ができません。
この記事は役に立ちましたか?
- ウイ
- いいえ