メインコンテンツに移動
XLSTATはLumiveroグループに参加しています。詳しくはこちら

教師あり機械学習とは何か?

この記事は、予測の目的でアルゴリスムを最適化するのに使用される教師あり機械学習プロセス(Supervised Machine Learning process)を紹介します。

機械学習とは何か?

機械学習はデータに内在するパターンからタスクを学習するコンピュータ・アルゴリズムの集まりで、たとえば、過去の購買行動データに基づいてオンラインで記事を推奨することに用いられています。機械学習は、人間の学習認知能力を模倣するという意味で、人工知能の一部です。

教師ありと教師なし機械学習の違いは何か?

教師なしおよび教師あり機械学習は、最もよく使用されている2種類の機械学習です。

教師なし機械学習

教師なし機械学習は、消費者、顧客、患者、環境試料、またはあらゆるオブジェクトの集合をマップしたり、それらを類似したオブジェクトのグループにクラスタしたりすることができます。予測するアウトカムはありません。一般的は教師なし機械学習ツールには、k-meansクラスタリング、凝集型階層クラスタリング(Agglomerative Hierarchical Clustering)、主成分分析(PCA: Principal Component Analysis)などがあります。適切な手法を選択するには。こちらのガイド をチェックしてください。

教師あり機械学習

教師あり学習は、予測変数の集合からアウトカムを予測する方法をコンピュータが学習することを可能するアルゴリズムの集合です。データ集合内に従属またはY変数がなければなりません。この変数は、我々がコンピュータに予測の方法を学習させたいそれです。その他の変数は予測変数(Predictors)で、X変数とも呼ばれ、 Yを予測できるモデルを構築するために、コンピュータによって使用されます。.

Yが質的(すなわち、カテゴリカル)変数であるとき、我々はクラス分類タスクに取り組むことになります。Yが量的であれば、回帰タスクです。

教師あり機械学習: クラス分類タスクの例

Eコマース

コンピュータは、購買履歴や他の顧客のプロファイルを含む過去データに基づいて、顧客に記事を推奨することを学習します。

保険での不正検出

コンピュータは、不正/非不正が確認されているケースにリンクされた過去の行動データに基づいて、不正を検出することを学習します。

医学

コンピュータは、疾患/非疾患が確認されている症例に関連する遺伝的データに基づいて、疾患の素因を予測することを学習します。

ウェブ・マーケティング

コンピュータは、過去の行動データに基づいて顧客損失のリスクを予測することを学習します。これは離反分析(churn analysis)としても知られています。

製造業

コンピュータは、さまざまな信号に関連づけられた過去の不良品および良品データに基づいて、製造工程の将来の不良品を予測する方法を学習します。これは不良品を防ぐために、十分早く、エンジニアや技能者が介入できるようにします。これは、予知保全(predictive maintenance)とも呼ばれ、インダストリ 4.0の主要な要素となったテクニックです。

教師あり機械学習: 回帰タスクの例

金融

コンピュータは、不動産物件の特徴とその地域で最近販売された他の物件の販売価格に基づいて、価格を予測する方法を学習します。

どの教師あり機械学習アルゴリズムを選ぶべきか?

こちらの記事 のアルゴリズムのグリッドに示すように、それぞれの状況に沿って選ぶことができる多数のアルゴリズムがあります。どれを選ぶべきでしょうか?

さらに、各アルゴリズムは、我々がハイパーパラメータと呼ぶアルゴリズム特有のパラメータをさまざまな方法で調整することができます。どのチューニング設定を保持するべきでしょうか?

その答えは、すべてのケースで他のすべての組み合わせよりも優れた、完全な単一のアルゴリズムとチューニングの組み合わせは存在しないということです。今日、データサイエンティストたちは、作業をしているデータセットで、さまざまなアルゴリズム内のさまざまなチューニングの性能をテストしています。究極的に、彼らは最良の予測性能を示す調整されたアルゴリズムを保持します。

教師あり機械学習アルゴリズムの性能を測定する方法は?

クロス・バリデーション

教師あり機械学習アルゴリズムの性能は、クロス・バリデーションを用いて計測されます。主要なアイデアは1つの予測モデルを構築して、それを未知のデータでテストすることです。これは、モデルがデプロイ(展開)されて、予測ツールとして活用される現実世界の状況を模倣しています。データは、2つのオブザベーションの集合に分割されます:トレーニング・セット、または学習セットとも呼ばれ、通常、最も大きい集合と、テスト・セットです。コンピュータは、予測モデルを構築するために、トレーニング・セットを使用します。そして、テスト・セットを用いて、モデルの予測性能に挑戦します。モデルの予測値 Y は、テスト・セットのXデータに基づいてアウトカム(産出)されます。もし予測値と実際に観察された Y データがよくマッチするなら、そのアルゴリズムは良い性能を持つということになります。アルゴリズムの性能を測定する指標がいくつかあります。

予測性能は、トレーニング・セットでも測定されます。これは分散を評価するのに便利です(詳細は下記参照)。

クラス分類タスクでの性能指標

クラス分類タスクでは、各Yカテゴリでの予測の成功と失敗の数を表示する混同行列からほとんどの指標が計算されます。バイナリのY (生存/死亡、不正/非不正…)では、混同行列は4つのセルを持ちます。下の行列では、2個のバイナリ・アウトカムを 1 と 0でコードします。

この行列から抽出される最も直観的な指標は正確度で、それは予測の成功率です:

この指標は、データ内のYカテゴリに強い非釣り合いがある場合、信頼性が低くなります。これはアルゴリズムが不正の抽出を学習しているときに起こります。そこでは非不正の履歴ケースが不正のケースよりもしばしば多いからです。クラスの非釣り合いの場合、正確度の代わりに他の指標が使用されます。たとえば、ROC(Receiver Operating Characteristic)に基づくAUC(Area Under the Curve)指標。

特定の状況では、再現率(recall)または精度(precision)または特異度(specificity)などの他の指標がより適切かもしれません。

回帰タスクでの性能指標

回帰タスクでは、二乗平均平方根誤差(RMSE: Root Mean Square Error )が一般的に使用されます。これは観察されたYと予測されたYの間の平均二乗差の平方根を定量化します。この値が低いほど良いとされます。

モデル性能: バイアスと分散の評価

性能の良いモデルは低いバイアス(偏り)と低い分散を持ちます。

バイアスは、正しいYアウトカムと機械学習モデルの予測値の間の差を定量化します。高いバイアスを持つモデルは、単純すぎるか、トレーニング・データで十分に訓練されていない可能性があります。バイアスは、トレーニング・セットとテスト・セットの両方で予測性能が悪いことを反映しています。

分散は、予測にどれぐらいノイズがあるかを定量化します。高い分散を持つモデルは、トレーニング・データ(のノイズ)に過適合していて、新しいデータでよく汎化しません。分散は、トレーニング・セットでの性能がテスト・セットでの性能よりもはるかに良いことを反映しています。

教師あり機械学習プロセスの主要なステップとは?

質問を立てて性能目標を設定する

質問をとても正確に立てることが重要です。そして、それはたとえば、到達しようとする性能指標値の観点から性能目標を設定することに役立ちます。たとえば、クラス分類タスクで 0.95の正確度に到達することという具合です。

そして、アルゴリズム候補の集合が選択されます。こちらのガイド は、XLSTATで利用可能な複数のアルゴリズムを比較しています。

データ前処理:

データ前処理は、教師あり機械学習プロセスで決定的なステップです。これは、データ・クリーニング、欠損値 の取り扱い、特徴エンジニアリングでより情報価値のある予測変数を作成 (事例 )、クラス分類問題での非釣り合いクラスの取り扱い、予測変数間の多重共線性 の取り扱い...などを含みます。 最も性能の良いアルゴリズムを選択してチューニングする

さまざまな方法で調整されたハイパーパラメータによるさまざまなアルゴリズムの性能を比較するには、クロス・バリデーションを用います。バイアスと分散の観点から最も性能の良いものを維持します。

モデルを使用して予測を行う

そして、現実の世界でYアウトカム(たとえば、推奨する記事、不正のリスク、病気の可能性など)を予測するのに最適モデルが使用できます。

最新のケースでモデルの性能を再評価する

既知のY値に関連付けられている最新のケースに挑戦することにより、モデルの予測品質を定期的に評価することをお勧めします。 これがモデルの品質の低下を示している場合は、クロス・バリデーションを使用してより最適なモデルを探索することを検討ようにお勧めします。

この記事は役に立ちましたか?

  • ウイ
  • いいえ