メインコンテンツに移動

Excelでの単純ベイズ・クラス分類チュートリアル

このチュートリアルは、XLSTATを用いてExcel内で単純ベイズクラス分類をセットアップする方法を説明します。 これがお探しの教師あり気化器学習機能であるかどうかわからない場合は、こちらのガイドで確認してください。

XLSTATによってExcel内で単純ベイズ分類器をセットアップするためのデータセット

このチュートリアルは、Center for Machine Learning and Intelligent Systemsが提供するデータセットを使用します。彼らの機械学習リポジトリは、こちらのアドレス でアクセス可能で、機械学習に関する多数の洞察に満ちたデータセットを収集しています。

このチュートリアルの目的

ナイーブベイズ分類器は、アルゴリズム自身によって決定されたルールの集合によって、オブザベーションの集合を分類できるようにする教師あり機械学習アルゴリズムです。この分類器は、まず、どの入力に対してはどのクラスが期待されるかを示すトレーニング・データセットで訓練されます。

トレーニング・フェーズでは、アルゴリズムがこのトレーニング・データセットで、予測データセットのオブザベーションを分類するために予測フェーズで使用する分類ルール構築します。

このチュートリアルでは、PC-Beagle program.を解説するために1990年にRichard Forsyth が作成したZoo database というタイトルのデータセットを使用します。これは、行に101個の動物の一覧を格納しており、それらに関連する属性が17個の質的変数(列)で記述されています:hair, feathers, eggs, milk, airborne, aquatic, predator, toothed, backbone, breathes, venomous, fins, legs, tail, domestic, catsize.

これらの変数はブール値で、tail とか teethのような対応する属性が、その動物で観察される場合は1の値をとり、それ以外は 0 の値をとります。 残りの変数、legs 属性は、0, 2, 4, 5, 6 および 8のいずれかの値をとります。

最後に18番目の列は、1 から 7 の整数値で、その動物が属するタイプまたはサブ・グループを示します。

この type 値が、単純ベイズ分類器に予測させたいクラスです。そして、データセットは2つのサブ・グループに分割されます。1つめは、最初の94行を含み、分類器を訓練するために使用されます。2つめは、予測を行う7 個だけのオブザベーションを収集します。

XLSTATでの単純ベイズ分類器のセットアップ

XLSTATを起動すると、XLSTAT / 機械学習 / 単純ベイズ分類器 コマンドを選択してください。

単純ベイズ分類器ダイアログ・ボックスが現れます。

まず、Y / 質的変数フィードでトレーニング・セットの出力クラスを選択してください。我々のケースでは、出力クラスは、データセットの18番目の列に一覧されている動物のタイプです。

上記のように、最初の94 行だけがトレーニング・データセットとして使用されるので、選択は適切に行われなければなりません。

次に、X / 説明変数 を選択します。我々のケースでは、質的変数のみを使用しています。質的変数のチェックボックスを有効にして、我々のトレーニング・セットの17個の変数を選択します。

そして、一覧の下部にある9個の動物からなる予測データセットを選択します。

オプション・タブでは、 量的データを用いている場合や条件付き確率を推定するために経験分布を用いている場合、複数のパラメトリック分布から選ぶこともできます。 ただし、質的データの場合、経験分布のみが道理にかなっており、したがって、下図のように分布の選択は無効になります。

新しいオブザベーションを分類するときに、質的変数によって分類器をよりロバスト(堅牢)にするために、スムージング・パラメータを0以外の整数値に設定して、ラプラス平滑化を適用したいかも知れません。我々のケースでは、この値を1に設定します。

最後に、我々は、下図のように、出力タブで7個の出力すべてを有効にします。

OKをクリックすると計算が始まります。

XLSTATでの単純ベイズ分類器の結果の解釈

最初の2つの表は、トレーニング・セット内の出力クラスと属性の観察度数と相対度数分布を表示します。

最初の表で、動物のtype 1 クラスが、41.935%でトレーニング・データセット内で最も度数の多いそれであることがわかります。 下記の次の表では、我々は、トレーニング・セットでは、 5 legged (5本足の)動物の例はなかったことがわかります。

しかしながら、次の表では、予測セットでの観察度数分布は、予測セット内に5本足の動物が含まれることを示しています。

トレーニング・セットでは提示されなかったこの新しいモダリティに、我々の分類器がどうして反応するのかを知ることは、とても興味深いでしょう。

しかし、まず、次に表示される2つの混同行列によって、トレーニング・データセットでの我々の分類器の性能を見てみしょう。 下図で、分類器は両方の行列で真陽性の結果の高いレートを示しており、とても勇気づけられます。

最後に、我々の予測セットでの分類が、下に示すように2つの表で表示されます:

最初の表では、結果はクラスごとに与えられており、2番目の表では各オブザベーションごとに与えられています。PredObs4 とラベルされたオブザベーションは、type 7のクラスに分類されていることがわかります。 これは、前に少し触れた5 本足の動物のことです。これは、スターフィッシュで、カニや二枚貝、ザリガニなどとともに、実際、type 7に属します。 したがって、ラプラス平滑化のおかげで、我々の分類器は、このオブザベーションを正しくラベルづけしました。

最後に、各クラスでの事後確率が、予測セットの各オブザベーションについて与えられます:

この記事は役に立ちましたか?

  • ウイ
  • いいえ