あなたの分析ソリューション

XLSTATでのノンパラメトリック回帰(kernel回帰)の実行

20/10/2017

Kernel回帰は、ノンパラメトリック回帰法に属するものです。平滑法と関連付けられることも時々あります。Kernel回帰は通常3つのフェーズを要します。;

  • fitting step(あてはめ):テスト標本を用いてモデル・タイプ、カーネル関数、帯域幅(bandowidth)の最適な組み
    合わせ を見つけだす。
  • validation phase(検証):予測値がわかっている新規のオブザべーションでモデルを検証する;
  • application phase(適用):予測値がわかっていない新規のデータ集合にモデルを適合する。

注意:ノンパラメトリック回帰には、モデルを構築するときには使用していないオブザベーションを与えて予測値を生成するようなvalidation phase(検証フェーズ)が含まれています。ただし、モデルのロバスト性をチェックするために、検証フェーズだけに使用するためのサブ標本をさらに分離することができます。

伝統的な線形回帰に反して、その目的は、現象を描写・説明・予測する唯一のモデルを見つけ出すことではなく、効率的な予測モデルを得ることにあります。ノンパラメトリック回帰は一種のブラックボックスです。各オブザベーションについて新規のモデルが計算されるので、計算集約的です(Robust Lowess回帰では、3つまでのモデルが、各オブザベーションについて計算されます) 。

カーネル回帰のためのデータ

このチュートリアルで扱われる例は、非常に単純なケースであり、説明に役立つことだけを考えています。ノンパラメトリック回帰は、金融の時系列データや、ある日からその次の日までの大気汚染、ある4半期から次の4半期までの犯罪といった複雑な現象を予測するのに役立ちます。

例では、線形回帰のチュートリアルで用いられたものと同じデータを使用します。

このチュートリアルで使用するExcelのシートは、こちらからダウンロードできます。

データは[Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.]で得られたものです。彼らは、性別、年齢(月単位)・身長(インチ(1インチ=2.54cm))・体重(ポンド(1ポンド=0.45kg))で記述された237名の未成年者を対象にしています。

この研究は2つのフェーズ(217名が用いられたfitting phase、20名(女児10名、男児10名)が対象になっているvalidation phase)に分けられています。

カーネル回帰のセットアップ

XLSTATを開き、XLSTATデータ・モデリングノンパラメトリック回帰コマンドを選択するか、データ・モデリングツールバーの対応するボタンをクリックします(下図)。

barkern.gif

ボタンをクリックすると、ノンパラメトリック回帰ダイアログボックスが現れます。それからExcelシートのデータを選択します。

従属変数とは、説明される必要がある変数(もしくはモデル化する変数)に対応するもので、ここではWeight(体重)になります。

説明変数はHeight(身長)、Age(年齢)(定量的データ)、性別(Gender)(定性的データ)になります。

このデータは最初の行から始まっているので、選択は列で行います。変数の名前が最初の行に入っているので、"Variable labels"オプションをチェックします。

我々は、をガウシアン・カーネルに基づく重みと、変数の標準偏差に基づくbandwidth(幅)を伴って、すべてのデータ(予測されているものは除く)を用いて、1次の多項式関数を選びました。変数の標準差に基づいたbandwidthは、計算の際の尺度効果を避けることができます。

注意:ANCOVAモデルに非常に近くなっており、対応する予測に使用するオブザベーションをモデル中で使用しない場合と、予測するオブザベーションへの距離によってモデル中のオブザベーションを重みづけする場合で差が生じます。

kern1.gifkern2.gifkern3.gif

OKをクリックすると計算が始まります。そして、その後結果が表示されます。

カーネル回帰の結果の解釈

適合度係数により、モデルの性能を評価して、複数のモデルを比較することができます。  R’² (決定係数)は、説明変数によって説明された変数Weightの変動の%を示します。 R’² が1に近いほど、よいモデルです。

kern4.gif

予測値と残差の表は、各個人についての入力データ、予測値、および残差を可視化することができます。残差は、0.01(45番)と40(195番)との間の絶対値で変化します。表の第2の部分に表示された検証データについて、残差も大きく変化することがわかります。229番と235番の予測が優れています。224番の予測はかなり悪くなっています。

kern5.gif

お問合わせは、マインドウエア総研へ。

お問い合わせ

弊社の営業チームにご連絡ください。ここをクリック

弊社のテクニカル・サポート・チームにご連絡ください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283