2分値のYと多数の相関した予測変数による相関成分回帰(CCR)の使用
相関成分回帰を実行するためのデータ集合
このチュートリアルは,2 つのグループ(ZPC1=1,0)による線形判別分析(LDA:Linear Discriminant Analysis)の仮定によってシミュレートされたデータに基づきます.予測変数の可能な数は,28 個の有効な予測変数(表1にそれらの真の係数と桃に一覧)を含めて P = 84であり,いくつかは高いグループ内相関を持ち,56個の無関係な予測変数‘INDPT1’ – ‘INDPT28’ および ‘extra1’ – ‘extra28’ ( 0に等しい真の係数を持つ)がある.我々は 100 個のシミュレートされた標本を生成し,それぞれ 等しいグループ・サイズ N1 = N2 = 25を持つN=50 ケースからなる..
表 1: 真のLDA ロジット・モデル係数
この事例でのCCR の目的
CCRは,予測変数の高い相関の交絡効果を削減するために適切な正則化の量(K成分)を適用し, 無関係な予測変数や弱い予測変数を除去するためにCCR ステップ-ダウン・アルゴリズムが使用して,比較的小さな数の予測変数 P*でモデルを得ます.これは,正則化がまったく課せられない従来のステップワイズLDAよりも良い予測値(より良い分類)と真の値により近い係数の推定値を提供するスパース(まばらな)・モデルを産みます.
説明のために,このチュートリアルはシミュレーション #1 (N=50)に焦点を当てます.すべての. 100 個のシミュレーションからの結果の要約は, Magidson (2010)にあります.
相関成分回帰のセットアップ
相関成分回帰ダイアログ・ボックスを起動するには,Excelツールバーの ボタンをクリックして,Excel メニューのXLSTAT / データ・モデリング / 相関成分回帰 コマンドを選択するか,データ・モデリングツールバーの対応するボタンをクリックして,まずXLSTATを起動します.

ボタンをクリックすると,相関成分回帰ダイアログ・ボックスが,デフォルトで選択された 手法=CCR.LM (線形回帰モデル)で表示されます.手法のセクションでは,CCR.LDA(線形判別分析モデル)オプションを選択します.

図 1. 一般タブ
Y/ 従属変数 フィールドでは,マウスで(列 A)変数 ‘ZPC1’を選択します.
我々は,84個の予測変数の関数として,グループZPC1=1にある確率を予測したいので,ZPC1の値がモデルの"Y"です. 厳密に言えば,予測変数の線形関数としてLogit(Y) が決定されます.ここで,Logit(Y)=exp(Prob[Y=1|X])/(1+exp(Prob[Y=1|X]).
X/ 予測変数 フィールドでは,84個の予測変数を選択します.
被験者のケース ID (ID) もオブザベーション・ラベルとして選択します.

図 2. 一般タブ
ダイアログ・ボックスのオプション・タブでは,成分の数として‘5’ を入力し,ステップ-ダウン・オプションを有効にします.下図に示すように設定がなっていることを確認してください.

図 3. オプション・タブ
ダイアログ・ボックスの検証タブでは,検証オプションを有効にして,検証集合ドロップ・ダウン・メニューから‘最後のN行’ を選択します.オブザベーションの数フィールドでは, ‘4950’と入力します.ここでは,我々は,データ・ファイルの最初の50行を ‘トレーニング集合’(シミュレーション#1)として,データ・ファイルの最後の4,950行を検証集合(シミュレーション#2-100)として使用するように指定します.クロスバリデーション(交差検証)オプションを有効にして,フォルドの数をデフォルトの ‘10’から‘5’に変更します. ‘層化’ オプションを有効にします.
設定が下図のようになっていることを確認してください.

図 4. 検証タブ
5-成分モデルの計算
OK をクリックてモデルを計算します.
10個の予測変数によるCCR モデルの結果の解釈
交差検証ステップ-ダウン・プロットは,K=5個の成分では,P=10個の予測変数でクロスバリデーション正答率(CV-ACC) が最良であることを示しています
図 5. K=5, N=50での交差検証ROC曲線下部領域(CV-AUC)と交差検証正答率(CV-ACC)のプロット
相関成分回帰: 10予測変数による5成分モデルの非標準化係数は,下記のように与えられます.
注意:日本語モードでは上記の結果もすべて日本語で出力されます.
CCR.LDA から得られるこれらの結果は,下記の点で,ステップ・ワイズ線形判別分析よりも優れています:
- モデル中により有効な予測変数が含まれる: CCR.LDAでは10個 vs.ステップ・ワイズLDAでは4個.
- モデル中に含まれる無関係な予測変数がより少ない: CCR.LDAでは0個 vs. ステップ・ワイズLDAでは2個.
- 検証標本から決定されるのでより正答率が高い: CCR.LDAでは83.6% vs. ステップ・ワイズLDAでは77.8%.
ステップ・ワイズLDAの結果は,以下のように提供されます.
概して,シュミレートされた標本にすべての基づく結果で,CCR.LDAは,これらのデータでのステップ・ワイ LDAよりも,さらにペナルティ化回帰よりも優れていることが示されています. (Magidson, 2010) : Correlated Component Regression: A Prediction/Classification Methodology for Possibly Many Features. 2010 Proceedings of the American Statistical Association.)
他のチュートリアルはこちら です.
