あなたの分析ソリューション

XLSTATでK 最近傍クラス分類 (KNN) を実行する

20/10/2017

K 最近傍クラス分類を実行するデータセット

このチュートリアルで使用するデータと結果のExcel シートは、こちらをクリックしてダウンロードできます。

このデータセットは、Dr. William H. Wolberg (University of Wisconsin Hospitals, Madison).によって提案されたデータセットの一部です。各行は良性または悪性の乳癌(列Bで定義されるクラス)の患者で測定された9個の変数(列CからK)で説明される組織試料です。完全なデータセットは、こちらにあります: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29


 

このチュートリアルの目的

このチュートリアルの目的は、The goal of this tutorial is to use the K 最近傍 (KNN) クラス分類法を用いて、どの乳房の組織が良性か悪性かを判断することです。我々は、最初の100 個のオブザベーションを学習データセットとして使用し、最後の20個のオブザベーションを予測データセットとして使用します。したがって、最後の20個のオブザベーションでは癌のクラスが目的のために消去されています。

K 最近傍 クラス分類は、以下の説明学習変数を用いて実行されます:

1. Clump Thickness: 良性の細胞は単層でグループされる傾向があるのに対して、癌の細胞はしばしば多層でグループされる。 
2. Uniformity of Cell Size: 癌の細胞は、サイズが不均一な傾向がある。
3. Uniformity of Cell Shape: 癌の細胞は、形が不均一な傾向がある。
4. Marginal Adhesion:  通常の細胞は、密着する傾向がある。癌の細胞は、この能力を失う傾向がある。しtがって、接着の喪失は、悪性のサインである。 
5. Single Epithelial Cell Size:  は、上記の均一性に関係している。著しく拡大された上皮細部は、悪性細胞の可能性がある。
6. Bare Nuclei: 細胞質(細胞の核以外)で囲われていない核。それは良性腫瘍に典型的にみられる。
7. Bland Chromatin: 良性の細胞で見られる均一な核の"テクスチャ" を説明。癌の細胞では、クロマチンがより粗い傾向がある。
8. Normal Nucleoli: 核で核小体の小さな構造が見られる。通常の細胞では、核小体は通常とても小さく、ほとんど見えない。癌の細胞では、核小体が突き出して、たくさんある場合がある。 
9. Mitosis: 核分裂プラス細胞質分裂で、2つの同じ娘細胞を生成。

従属変数 は、オブザベーションのクラス(良性または悪性)。

 

XLSTATでのK最近傍クラス分類のセットアップ

XLSTATを起動すると、XLSTAT / 機械学習 / K 最近傍 コマンド(下図)を選択します。

 K 最近傍 ダイアログが現れます。

knn general

Y / 質的変数フィールドで学習集合のクラスを選択します。学習集合に関係する説明変数が、X / 説明変数 / 量的 フィールドで選択されなければなりません。予測集合 フィールドでは、データセットの下部の20個のオブザベーションを選択します。近傍の数 を 3に設定します。

オプション タブでは、複数のアルゴリズム・パラメータが選択・修正できます。たとえば、類似度を計算するためにカーネル関数を使うのか距離関数を使うのかを指定できます。 

knn options

OK.をクリックすると、計算が始まります。

 

XLSTATでの K 最近傍クラス分類の結果の解釈

最初の表は、学習集合での従属変数の2つのカテゴリ(benign, malignant)の度数とパーセンテージを表示します 

2番目の表は、学習集合での説明変数に関する統計量を表示し、3遍目の表は予測集合のそれを表示します。

knn results 1

 

クロスバリデーション(交差検証)で推定された誤差率は 0.04で、良好です。

 

knn results 2

 

予測集合のクラス予測が、クラスごとに表示されます。

knn results 3

…そしてオブザベーションごとに:

knn results 4

 

そして、追跡された各オブザベーションについて、近傍のクラスと追跡されたオブザベーションへの個々の距離が、下記の表で要約されます。下記では、我々は最初に2つのオブザベーションに関する追跡情報を見ることができます:

knn results 5

 

 

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283