XLSTAT-CCRでの相関成分回帰(CCR)の入門
相関成分回帰(Correlated Component Regression)を実行するためのデータ集合
このチュートリアルは,Michel Tenenhauが提供したデータに基づいており,Magidson (2011), “Correlated Component Regression: A Sparse Alternative to PLS Regression”, 5th ESSEC-SUPELEC Statistical Workshop on PLS (Partial Least Squares) Developments.で使用されています.
このデータは,N=24 種類のクルマのモデルで,従属変数 PRICE = クルマの価格,および P=6 個の説明変数(予測変数)からなり,予測変数はそれぞれPRICEと正の相関を持ちます.
ただし,各予測変数も他の予測変数と中程度の相関を持ちます.

この事例でのCCR の目的
CCRは,予測変数の高い相関の交絡効果を削減するために適切な量の正則化を適用します.したがって,より解釈しやすい回帰係数,より良い予測値を得て,従来のOLS回帰よりも有意な予測変数を含めることが可能になります.
OLS回帰はトレーニング標本でのR2を最大化し,R2= 0.85を産出する.しかしながら,この解は比較的小さな標本 (N=24)で相関する予測変数に基づいており, このモデルはデータに過適合していて,0.85は本当の母集団R2の楽観的すぎる推定であると考えられます.過適合モデルと一致する表1 は,OLS が大きな標準誤差と予測変数CYLINDER, SPEED, WIDTHで非現実的な負の相関推定値を産出することを示しています.

表 1: 従来のOLS回帰からの結果: CV-R2 = 0.63
さらに,POWERのみが従来のt検定で統計的有意 (p=.05)を達成する予測変数です.
CCRは,回帰モデルで使用する適切な正則化の量(K) を決定するための基準として,クロスバリデーション(交差検証)済みR2 を活用します.図.1 は,K>2でCV-R2がかなり低下することを示しています.したがって,相当な正則化の量が必要とされます(OLS回帰でK2 =0.63であるのtに対してCCR では0.75).

図. 1. K>2で低下を示すクロスバリデーション成分(CV-R2) プロット
また,いくつかの負の相関推定値を産出するOLS回帰とは異なり,CCRは,下記に示すように, 6個の予測変数すべてでより合理的な正の相関係数を産出します.


表 2. K=2 成分でのCCR 非標準化/ 標準化係数.
このチュートリアルの第1部は,これらの結果を得るためのXLSTAT-CCR の使用法を示します.第2部(‘ステップ-ダウン・アルゴリズムの起動’を参照)は,無関係な予測変数を除去し,下記の表に示すように,より良い結果を(CV-R2 = .77)得る方法を示します.

表 3. ステップ-ダウン・アルゴリズムによるCCRの結果
相関成分回帰のセットアップ
相関成分回帰ダイアログ・ボックスを起動するには, まずExcelツールバーの ボタンをクリックしてXLSTATを起動して, Excelメニュー内のXLSTAT / データ.モデリング / 相関成分回帰 コマンドを選択するか,データ・モデリングツールバーの対応するボタンをクリックしてください.

注意:日本語モードでは,メニューとダイアログ・ボックス,および計算の結果はすべて日本語で表示されます.
ボタンをクリックすると,デフォルトで手法=CCR.LM (線形回帰モデル)が選択された相関成分回帰ダイアログ・ボックスが表示されます.

図 2: 一般タブ
Y/ 従属変数フィールドでは,マウスを使って変数 PRICE を選択します(データ選択の仕方はデータ選択のチュートリアルを参照).
我々は,クルマの属性の線形関数として,これらの価格を予測したいので,PRICEがモデルの"Y"です.
X/ 予測変数フィールドでは,その他の 6 個のクルマの属性を選択します.
クルマのモデル名 (MODEL) もオブザベーション・ラベルとして選択されますてください.
OLS回帰の解を得るために, 成分の数を予測変数の数と等しい 6 に固定します.これを達成するには,オプション・タブで,成分の数を ‘6’ に設定し,‘自動’のチェックをはずします.
ダイアログ・ボックスのオプション・タブで, 設定が下図のようになっていることを確認します.

図. 3: オプション・タブ
OKをクリックすると,高速な計算が始まります.
CCR モデル出力の解釈
基本統計の出力に続いて,回帰係数(非標準化および標準化)が提供されています.たとえば,表3A は,非標準化係数を提供します.表 3A と表 1 を比較すると,結果が, OLS回帰係数に一致することがわかります.

表 3A. 6-成分(飽和) CCR モデルから得られる非標準化係数推定値
これらの係数は, 表3Bで提供される成分重みと表3Cで提供される成分係数(負荷量)を用いて,6個の成分のそれぞれに関連する部分に分解できます.

表 3B. 非標準化成分重み

表 3C. 非標準化負荷量
たとえば,CYLINDERの係数 -1.94 は,下記のように分解できます:
-1.94 = 0.006*(92.774) + 0.124*(1.381) + 0.804*(-3.728) + 0.627*(-11.016) + 0.422*(15.190) + 0.167*(5.053)
自動およびM-フォルド・クロスバリデーション・オプションの起動
Excelメニューのデータ・モデリング / 相関成分回帰 コマンドを選択するか,データ・モデリングツールバーの対応するボタンをクリックして,CCRダイアログ・ボックスを再び開きます.
N が比較的小さく (N=24),予測変数間の相関がかなり高いので,この飽和した回帰モデルは,これらのデータに過適合しています.我々は,ここで M-フォルド・クロスバリデーション (CV) オプションの起動の仕方を示し,このモデルが過適合であること,そしてCCR 成分を 3から6 個除去することで,より信頼性の高い結果を産出するための適正な正則化の量を提供することを示します.すべての可能な正則化の度合いを評価するCV を可能にするために,我々はすべての 6 個のCCR モデル (K≤6)を計算します.オプションタブの自動オプションを有効にして,これを行います.
フォルドの数 M は,一般的に5 から10の間で,24を均等に分ける5から10の間の唯一の整数なので, 我々は M=6を選びます.検証タブでは,我々は,‘交差検証’(クロスバリデーション)を有効にして,100 ラウンドの 6-フォルドをリクエストします. 1 より多いラウンドをリクエストすると,CV-R2の標準誤差が得られます.

図 4: 検証タブ
‘自動’ オプションを有効にすることは,図 1に示したクロスバリデーション成分プロットを生成する(これはチャートタブで確認できます)もリクエストすることに注意してください..
これらの分析を実行するには OK をクリックしてください.適合度統計量は,結果のモデルが K=2 成分を持つことを示します.このモデルでは,CV-R2 がわずか0.014の標準誤差で0.750に増え, OLS 回帰の CV-R2 =0.64を超える有意度の改善を提供します.

表 4A. 2-成分モデルから得られる回帰係数

表 4B. 2-成分モデルから得られる成分重み

表 4C. 2-成分モデルから得られる負荷量
ここで,表 4A,, 4B および 4C の係数出力から,2 成分のみに基づいて係数がどのように構築されているかがわかります.たとえば,CYLINDER の係数は,下記のように分解できます:
20.944 = 0.221*92.774 + 0.349*1.381
ステップ-ダウン・アルゴリズムの起動
Excelメニューのデータ・モデリング / 相関成分回帰 コマンドを選択するか,データ・モデリングツールバーの対応するボタンをクリックしてCCRダイアログ・ボックスを再び開きます
無関係な予測変数や弱い予測変数を除去するために,オプション・タブで今度は下図のようにステップ-ダウン・アルゴリズムを有効にします.
図 5. オプション・タブ
ステップ-ダウン・オプションの有効化は,チャート・タブでのステップ-ダウン・予測変数選択プロットと,出力タブでの予測変数カウント表を自動的にリクエストします.
OK をクリックして計算します.
予測変数選択プロットは,モデル中に3つの予測変数を含むのが最適であると示唆します.

図 6. クロス・バリデーション・ステップ-ダウン・プロット
クロス・バリデーション予測変数カウント表は, POWER とWEIGHTが最も重要な予測変数であり,1800 個のクロス・バリデーション回帰の600個および 584個に含まれていることを示唆します.

最終モデルは,CV-R2 = 0.77で,予測変数 POWER, SPEED および WEIGHTを含みます:

モデル中に保持される予測変数:
- POWER
- SPEED
- WEIGHT
一般的な議論
キードライバ回帰(Key driver regression)は, 従属変数に影響する複数のキー説明変数(予測変数) X1, X2, … , XP を解明しようとします.たとえば,キードライバ回帰での一般的な従属変数は,“顧客満足度”です.従来のOLS回帰手法は,通常,予測変数が中程度から高い相関を相互に持つために,そのような生成される重要度のタスクに困難があり, 交絡の問題につながり,パラメータ推定を不安定にし,したがって,重要度の測度として使用に適しません.
相関成分回帰(CCR:Correlated Component Regression)は,このような問題を取り扱うように設計されており, チュートリアル 2 に示すように,ケースよりも予測変数が多いようあn高次元データででも動作します! パラメータ推定がより解釈可能になり,過適合を避けるためにクロス・バリデーション(交互検証)が使用され,したがって,よりよく標本にない予測値を産出します.
他のチュートリアルはこちら です.
