XLSTATを用いてPLS回帰をどのように実行しますか?
このチュートリアルは、[Tenenhaus, M., Pages, J., Ambroisine L. and & Guinot, C. (2005). 『嗜好性判定と製品特性の間の関係性の研究のためのPLS法』[PLS methodology for studying relationships between hedonic judgements and product characteristics). Food Quality an Preference. 16, 4, pp 315-325]の中で拡張的に分 析されたデータに基づきます。この論文で使われたデータは、16個の物理化学的な特性と96個の判定基準で評価された6種類のオレンジ・ジュースに対応し ます。PLS回帰は、判定のマップ、説明変数と製品のマップを同時に得て、したがって説明変数が彼らの好みに関係するいくつかの判定を分析することを可能 にします。このチュートリアルで使用されるデータと結果のExcelシートは、こちらをダブルクリックするとダウンロードで きます。
PLS回帰のダイアログ・ボックスを使用するには、まずExcelツールバーの
ボタンをクリックしてXLSTAT-PLSを起動します。そ れからExcelメニューの XLSTAT-PLS / PLS回帰コマンドを選択するか、またはXLSTAT-PLSツールバーの対応するボタンクリックします。

ボタンをクリックすると、PLS回帰ダイアログ・ボックスが表示されます。従属変数のフィールドに、96個の判定レーティングをマウスで選択します (これについては、データ選択の仕方
のチュートリアルを見てください)。レーティングは、判定によって与えられたレーティングを説明したいので、モデルの "Y"(目的変数)です。 量的変数のフィールドでは、説明変数を選択します。我々の事例では物理化学的な特性です。オレンジ・ジュースの名前が、”オブザベーション・ラベル”とし て選択されました。ダイアログ・ボックスのオプション・タブで、”自動”が有効になっているのを確認します。最後に、チャートを読みやすくするために、” チャート”タブで、”色づけラベル”オプションが有効にされました。ベクトル・オプションは、チャートを飽和させないために、チェックを入れません。

OKをクリックするときわめて速い計算が始まります。マップの軸を選択するために、結果の表示が一時停止します。

最初の2つの軸についてのみを表示させるように”終了”を押すだけです。 96個の従属変数の表やチャートがたくさんあるので、結果を表示するのに2分ほどかかります。
基本的な統計量とすべての選択された変数の間の相関係数が表示される表(従属変数は青、量的説明変数は黒で表示)の後に、PLS回帰特有の結果が表 示されます。
最初の表と対応する棒グラフは、要素数の関数としてPLS回帰の品質を可視化することができます。

Q2累積指数は、全体的な適合度と96個のモデルの予測品質を測定します。XLSTAT-PLSは、4つの要素を自動的に選択したま した。我々は、Q2が4つの要素ですべて低いことがわかります(理想的には1に近いのが良い)。 これは、適合の品質が判定によってさまざまであることを示唆しております。累積R2Y 及び累積R2Xは、 説明変数(X)と4つの要素でとても1に近い要素を持つ従属変数(Y)の間の相関係数に対応するそれを累積します。これは、PLS回帰によって収集された 4つの要素が、XとYの両方をよく要約していることを示します。
最初の相関マップは、最初の2つの要素での、Xと要素、及びYと要素の間の相関を可視化します。

我々は、マップの中央に表示されるいくつかの判定について、相関が低いことがわかります。対応する表を見て、たとえば、J54の判定は第4の要素の みに相関しており、それは全体的には説明変数とわずかな相関しかない、というようなことがわかります。説明変数について、我々は、ビタミンCは最初の2次 元ではあまりよく表現されていないことに気づきます。我々は、これを、この変数が判定の好みを少ししか説明していないということとして解釈できます。それ は、味や判定の好みに影響しやすい他の基準にあまり強い影響がなにので、驚くべきことではありません。我々は、果糖とグルコース、2つのpHが強い相関 で、pHと酸性度と滴定濃度が負の相関であることに気づきます。また、さまざまな判定が、相関サークルのどこか1ヶ所に集中するのではなく、全体によく散 らばっている、ということもわかります。
ベクトル上の従属変数とw* ベクトル上の説明変数を表示するマップが、変数間の全体的な関係性を可視化することを可能にします。w* は、モデル中の変数の重みに関係します。

もし従属変数のベクトル上に説明変数を投影するなら(もし従属変数が50より少ないときだけそのベクトルが表示されます)、我々は従属変数のモデリ ングにおける説明変数の影響について知ることができます。
座標の空間中のオレンジ・ジュースの座標は、表の中にあって、マップに表示されます。我々は製品がよく区別されていることに気づきます。

新しい相関マップは、製品を前の相関マップに重ねることができます。我々は、ポイントの1つをクリックしてシリーズを選択して、Excelツール バーでシリーズ名を修正することによって、記述では "Obs"を "Juices"に置き換えています。ほとんどの場合、 XLSTAT では、チャートはExcelチャートであり、簡単に修正できます。

彼らの論文では、Tenenhausらが、このチャートを詳しく解釈しています。彼らは、これから判定のクラスタをよく識別する4つのクラスタを推 論しています。彼らは、これらの各グループで、さらにPLS回帰を実行することを助言しています。この方法で彼らは、よりよいQ2とR2を得ました。最初 のグループについては、R2Yが、我々がすべての判定で得た0.53ではなく、0.63でした。
2つの表が、uについての結果を与え、そしてu~要素が表示されます。チャートは、u~の空間中のオブザベーション(我々の例ではジュース)を可視 化します。
続く表は、各従属変数のQ2と累積Q2指数を要素数の関数として可視化します。我々は、複数の変数について、累積Q2の最大が、1つか2つの要素だ けで得られることに気づきます(たとえば、 J5, J6, J7)。
要素による各入力変数についてのR2 の表の系列が、オプショナルで表示されます。デフォルトでは、オプションは有効ではありません。そして、その表はこのチュートリアルでは考慮されていませ ん。
下記の表は、各要素での各説明変数についてのVIP(射影のための変数重要度)を表示します。これはどの説明変数がモデルに最もよく寄与しているか を素早く識別することができます。第1要素では、Vitamin C(ビタミンC)、Sweetening power(甘味の強さ)、Odor intensity(臭いの強烈さ)、Taste intensity(味の強烈さ)のモデルへの影響が低いことがわかります。

次の表は、各従属変数に対応するモデルのパラメータ(または回帰係数)を表示します。モデルの方程式が下の表に表示されます。方程式は、あとでシ ミュレーションや予測の目的で再利用することができます。
各モデルについて、XLSTAT-PLSは、回帰係数の適合度、 標準化回帰係数表、及び予測値と残差の表を表示します。 judge J1に対応するモデルの分析は、 モデルがよく適合している(R2が0.88)と結論づけることができます。しかしながら、自由度の数は低く、過適合の問題に直面しているかもしれません。 これは、信頼区間が広く0を含む各回帰係数についての標準化回帰係数で見ても確認されます。我々は、このモデルに対応する累積Q2が、2要素でその最大値 に達していることに気づいたので、2つの要素のみによるモデルがより良いと思われます。
我々は、J1 を従属変数として用いて、要素数を2に強制して(オプション・タブを参照)、新たなPLS分析を実行しました。その結果は、PLS2 シート上に表示されています。下記のチャートは、新しいモデルの標準化回帰係数です。

我々はここで、pHを除くすべての変数の集合について、回帰係数がゼロから有意に離れていることがわかります。ただし、Odor intensity、Pulp、Sweetening power 、odor typicityがモデルに最も影響しています。予測と残差の表は、judge 1によって与えられるレートが、モデルによってよく再現されていることを証明することができます。
最後に、潜在的なはずれ値を素早く識別することのできる DModX とDModYの表、及びそれに対応するグラフが表示されます。我々の事例では、すべての値が、DCritX または DCritYよりも低いので、どのようなはずれ値もありませんでした。
