Excelでの偏最小2乗(PLS)回帰チュートリアル
偏最小2乗回帰を実行するデータセット
このチュートリアルは、[Tenenhaus, M., Pages, J., Ambroisine L. and & Guinot, C. (2005). 『嗜好性判定と製品特性の間の関係性の研究のためのPLS法』[PLS methodology for studying relationships between hedonic judgements and product characteristics). Food Quality an Preference. 16, 4, pp 315-325]の中で拡張的に分 析されたデータに基づきます。
この論文で使われたデータは、16個の物理化学的な特性と96人の審査員に評価された6種類のオレンジ・ジュースに対応し ます。
この事例での偏最小2乗回帰の目的
偏最小2乗(PLS)回帰は、審査員、記述子、製品の同時マップを得て、そして、何人かの審査員について、どの記述子が彼らの嗜好に関係するかを分析することを可能にします。
偏最小2乗回帰のセットアップ
PLS回帰のダイアログ・ボックスを使用するには、まずXLSTATを起動して、XLSTAT / データ・モデリング / PLS回帰コマンドを選択するか、またはデータ・モデリングツールバーの対応するボタンクリックします。
ボタンをクリックすると、PLS回帰ダイアログ・ボックスが表示されます。
従属変数のフィールドに、96個の判定レーティングをマウスで選択します 。
レーティングは、判定によって与えられたレーティングを説明したいので、モデルの "Y"(目的変数)です。
量的変数のフィールドでは、説明変数を選択します。我々の事例では物理化学的な特性です。
オレンジ・ジュースの名前が、”オブザベーション・ラベル”とし て選択されました。
ダイアログ・ボックスのオプション・タブで、”自動”が有効になっているのを確認します。
最後に、チャートを読みやすくするために、” チャート”タブで、”色づけラベル”オプションが有効にされました。ベクトル・オプションは、グラフを散らかさないようにするために、チェックを入れません。
OKをクリックするときわめて速い計算が始まります。マップの軸を選択するために、結果の表示が一時停止します。
最初の2つの軸についてのみを表示させるように”完了”を押すだけです。
PLS回帰の結果の解釈
96個の従属変数の表やチャートがたくさんあるので、結果を表示するのに数秒かかります。
基本統計量とすべての選択された変数の間の相関係数が表示される表(従属変数は青、量的説明変数は黒で表示)の後に、PLS回帰特有の結果が表 示されます。
最初の表と対応する棒グラフは、成分数の関数としてPLS回帰の品質を可視化することができます。
Q²累積指数は、全体的な適合度と96個のモデルの予測品質を測定します。
XLSTATは、4つの成分を自動的に選択しま した。我々は、Q²が4つの成分ですべて低いことがわかります(理想的には1に近いのが良い)。 これは、適合の品質が審査員によってさまざまであることを示唆しております。
説明変数(X)および従属変数(Y)と成分の間の相関に対応するR²Y cum 及びR²X cumは、 4つの成分で1にとても近いです。これは、PLS回帰によって生成された 4つの成分が、XとYの両方をよく要約していることを示します。
1番目の相関マップは、最初の2つの成分の上で、Xと成分、Yと成分の間の相関を可視化することができます。
我々は、マップの中央に表示される何人かの審査員で、相関が低いことがわかります。対応する表を見て、たとえば、J54の審査員は第4の成分のみに相関しており、それは全体的には説明変数とわずかな相関しかない、というようなことがわかります。
説明変数について、我々は、ビタミンCは最初の2次元ではあまりよく表現されていないことに気づきます。我々は、これを、この変数が審査員の嗜好を少ししか説明していないということとして解釈できます。それは、味、または審査員の嗜好に影響しやすい他の基準に、あまり強い効果がないので、驚くべきことではありません。我々は、果糖( fructose )とグルコース(glucose)の間、2つのpHの間の強い相関、およびpHおよび酸性度(acidity )と滴定濃度( titer)の間の負の相関に気づきます。また、さまざまな審査員が、相関円のどこか1ヶ所に集中するのではなく、全体によく散 らばっている、ということもわかります。
cベクトル上の従属変数とw* ベクトル上の説明変数を表示するマップが、変数間の全体的な関係性を可視化することを可能にします。w* は、モデル中の変数の重みに関係します。
従属変数のベクトル(もし従属変数が50より少ないときだけそのベクトルが表示されます)上に説明変数を投影すると、我々は従属変数のモデリ ングにおける説明変数の影響について知ることができます。
t座標の空間中のオレンジ・ジュースの座標は、表の中にあって、マップに表示されます。我々は製品がよく区別されていることに気づきます。
新しい相関マップは、製品を前の相関マップに重ねることができます。我々は、ポイントの1つをクリックして系列を選択して、Excelツール バーで系列名を修正することによって、凡例の "Obs"を "Juices"に置き換えています。ほとんどの場合、 XLSTAT では、チャートはExcelチャートであり、簡単に修正できます。
クラスタされたデータで第2のPLS回帰を実行
彼らの論文では、Tenenhausらが、このチャートを詳しく解釈しています。彼らは、これから判定のクラスタをよく識別する4つのクラスタを推論しています。彼らは、これらの各グループで、さらにPLS回帰を実行することを助言しています。この方法で彼らは、よりよいQ²とR²を得ました。最初のグループについては、R²Yが、我々がすべての判定で得た0.53ではなく、0.63でした。
そして、u成分とu~成分の結果の2つの表が表示されます。グラフは、u~の空間中のオブザベーション(我々の例ではジュース)を可視化します。
続く表は、各従属変数のQ² と累積Q² 指数を成分数の関数として可視化します。我々は、複数の変数について、累積Q² の最大が、1つか2つの成分だ けで得られることに気づきます(たとえば、 J5, J6, J7)。
各入力変数のR²とt成分の一連の表が、オプショナルで表示されます。デフォルトでは、オプションは有効ではありません。そして、その表はこのチュートリアルでは考慮されていません。
続く表は、成分数の増加に伴う各説明変数でのVIP(射影のための変数重要度)を表示します。これはどの説明変数がモデルに最もよく寄与しているか を素早く識別することができます。1個の成分によるモデルでは、Vitamin C(ビタミンC)、Sweetening power(甘味の強さ)、Odor intensity(臭いの強さ)、Taste intensity(味の強さ)のモデルへの影響が低いことがわかります。
次の表は、各従属変数に対応するモデルのパラメータ(または回帰係数)を表示します。モデルの方程式が下の表に表示されます。方程式は、あとでシ ミュレーションや予測の目的で再利用することができます。
各モデルについて、XLSTATは、回帰係数の適合度、 標準化回帰係数表、及び予測値と残差の表を表示します。 judge J1に対応するモデルの分析は、 モデルがよく適合している(R’²が0.88)と結論づけることができます。しかしながら、自由度の数は低く、過適合の問題に直面しているかもしれません。 これは、信頼区間が広く0を含む各回帰係数についての標準化回帰係数で見ても確認されます。我々は、このモデルに対応する累積 Q’² が、2成分でその最大値に達していることに気づいたので、2つの成分のみによるモデルがより良いと思われます。
我々は、J1 を従属変数として用いて、成分数を2に強制して(オプション・タブを参照)、新たなPLS分析を実行しました。その結果は、PLS2 シート上に表示されています。下記のチャートは、新しいモデルの標準化回帰係数です。
我々はここで、"Smell intensity" および "Odor typicity"についてのみ、回帰係数がゼロから有意に異なることがわかります。予測と残差の表は、judge 1によって与えられる評価が、モデルによってよく再現されていることを証明することができます。
最後に、潜在的なはずれ値を素早く識別することのできる DModX とDModYの表、及びそれに対応するグラフが表示されます。我々の事例では、すべての値が、DCritX または DCritYよりも低いので、どのようなはずれ値もありませんでした。
デモンストレーションのビデオをご覧ください。
この記事は役に立ちましたか?
- ウイ
- いいえ