2クラス回帰から予測値を得る

demo-correlated-component-regression-orange-juice.xls

このチュートリアルは,Tenenhausらによって分析されたデータの再分析を説明します. (2005): Tenenhaus, M., Pagès, J., Ambroisine L. and & Guinot, C. (2005); PLS methodology for studying relationships between hedonic judgments and product characteristics; Food Quality and Preference. 16, 4, pp 315-325.

このデータは, 96人の審査員による6種類のオレンジジュース(OJ)製品のそれぞれでの嗜好レーティングからなります.また6種類のジュースのそれぞれは,16個の物理化学属性で記述されています.さらに,データは,審査員が,はっきりと異なるOJの好みを持つ2つの異なるセグメントに属する彼らの(事後メンバーシップ)確率によって,審査員を重みづけするためのクラス分類情報を含みます. これらの事後メンバーシップ確率を得るために使用するランダム切片潜在クラス(LC) 回帰分析の詳細についてはこちらをクリックしてください.

 

この事例での相関成分回帰の目的

データがケースごとに複数のレコードからなる場合,同じケースに関するレコードの残差は,通常,相関するであろうから,従来の(1クラス)回帰手法は,標準的な最適な予測値を産出する従属変数仮定の違反に悩まされます.このチュートリアルでは,異なるOJ嗜好を示す2つのLCセグメントのそれぞれについて,異なる属性効果を許すことによって,CCRがどのようにOJ属性からの嗜好レーティングの予測を改善するかを示します.

とくに,このチュートリアルは, 2ステップ・プロセスでの第2ステップを説明します. ステップ1では,OJ製品に関するダミー変数にもっぱら基づいて,2クラス回帰モデルが構築されます.ステップ2では, OJ嗜好の予測で最も重要な製品を決定するために,(ダミー変数よりむしろ)16個の製品識別子に基づくレーティングを予測するためにCCRが用いられます.我々は,ステップ1で得られた各LCセグメントごとに別々のモデルを構築し,予測レーティングの単一の最良集合を得るために,両方のセグメントのモデルを組み合せます.この2ステップの使用により,2クラス回帰分析は,従来の回帰よりもかなりの改善を提供します(交差検定済みR2が,0.28から0.48に増加).

 

相関成分回帰(CCR)モデルのセットアップ

相関成分回帰ダイアログ・ボックスを起動するには,Excelツールバーの XLSTAT start button のボタンをクリックしてXLSTATを起動して, ExcelメニューのXLSTAT / データ・モデリング / 相関成分回帰 コマンドを選択するか,データ・モデリングツールバーの対応するボタンをクリックしてください.

Correlated Component Regression menu

CCRが選択されると, 相関成分回帰ダイアログ・ボックスが現れます.

CCR の実行をセットアップするには, Y / 従属変数 フィールドで,審査員によって与えられた6種類のジュースのそれぞれの評点を格納する 列D (rating)をマウスで選択します(96人の各審査員ごとに6行).我々は,審査委員が与えたこれらの評点をジュース属性の関数として説明したいので,評点がモデルの"Y" です.

X / 予測変数フィールドでは,変数 CFactor1 に対応する列 Iから16個のジュース属性に対応する列Yまでを選択します. OJの評点にもっぱら基づくLC回帰分析から得られるランダム切片CFactor1は,6種類すべてのジュースでの各審査員の平均評点を表す変数 Rating_mean (列 E)と強く相関しています.予測変数としそれを含めることは, ‘中心化’に似た関数として働きます.

各審査員での6つすべてのレコードがクロスバリデーションで同じフォルドに割り当てられるように,ケースの ID 変数(列 B)が,オブザベーション・ラベルフィールドで入力されます.

各セグメントごとに別々のモデルが構築されます.セグメント #1では,そのセグメントに属する確率(Posterior1)を重み変数として選択します(列 G).(事後メンバーシップ確率を重みとして使用することの理論は,Magidson, 2005を参照).

Correlated Component Regression General Tab

図 1. 一般タブ

成分の数を決定するために,ダイアログ・ボックスのオプション・タブで,‘自動’ オプションを有効にして, ‘最大の成分’ フィールドで‘17’ を入力します.予測変数の数を決定するために,ステップ-ダウン手順を有効にします.検証タブの交差検証(クロスバリデーション)オプションは,デフォルトのパラメータ(10フォールド中1ラウンド)で自動で有効にされます.

Correlated Component Regression Options Tab

図 2. オプション・タブ

OKをクリックすると,高速計算が始まります.

 

セグメント#1のCCR結果の解釈

相関係数出力から,ratingAcidity の間の相関が -0.433に等しく,セグメント #1 の審査員は酸味の高い OJを嫌う傾向があることを示唆していることがわかります. 我々は後でセグメント #1 の審査員とは異なり,セグメント #2 の審査員は高い酸味の内容を持つOJを好む傾向があることがわかります(相関 = 0.252).

CV 成分表と関連するプロットから,K = 5 成分で最大 CV-R2 = 0.398 が生じることがわかります(またK>9でかなりの量の共線性を示してK=9 成分の後急速にCV-R2 が低下することにも注意してください).

Cross-validation component plot (Segment #1)

図 3. クロスバリデーション成分プロット(セグメント #1)

 

CV-ステップ・ダウン・プロットから, P*=4予測変数で最大 CV-R2= 0.402が生じることがわかります.

Correlated Component Regression Cross-validation step-down plot (Segment #1)

図 4. クロスバリデーション・ステップ・ダウン・プロット(セグメント #1)

表 1 は,Acidity がモデル中で重要な予測変数であることを示します.負の標準化係数(-.325)は, セグメント#1 の審査員が高い酸味をの内容を持つ OJを嫌う傾向があることを支持します.

Correlated Component Regression Standardized Coefficients

表 1. セグメント#1での4-成分モデルに基づく標準化係数  

比較のために,次に我々はセグメント #2の結果を得ます.

 

セグメント #2 の対応するCCRモデルの構築

Excelメニューの データ・モデリング / 相関成分回帰コマンドをクリックするか,データ・モデリング・ツールバーに対応するボタンをクリックして,CCRダイアログ・ボックスを再度開きます.

目下,前のモデル指定が表示されています.一般タブで, 現在のオブザベーション・重みをセグメント#2での対応する値(列 H)に置き換えます (Posterior2). セグメント#1 のモデル出力と同じシート上にセグメント#2のモデル出力を生成するために, 出力オプションを ‘シート’から ‘範囲’ に変更して, ‘CCR.LM’ タブ(我々の前のモデル計算からの出力を格納うするタブ)でセル V1 を選びます.

Correlated Component Regression General Tab

図 5. 一般タブ

OKをクリックして計算をします.

tセグメント #2 の関連出力が以下の示されています.

Correlated Component Regression Cross-Validation Component Plot

図 6. クロスバリデーション成分プロット(セグメント #2). CV-R2 =0 .409

Correlated Component Regression Cross-Validation Step-Down Plot

図 7. クロスバリデーション・ステップ・ダウン・プロット(セグメント #2). CV-R2 =0 .411

表 2 は, Acidity がセグメント #1と同様 セグメント #2 での重要な予測変数であることを示しています.しかしながら,セグメント #1のモデル結果とは異なり,Acidityの標準化係数は正です.表2 は,セグメント #2 の審査員が高い酸味(0.214),低い甘味 (-0.169),低い匂い強度(-0.129)のジュースを好むことを示します.

 Correlated Component Regression Standardized Coefficients 

表 2. セグメント#2の標準化係数

 

2クラス・モデルから予測値を得る

1クラス・モデルでの改善された予測値は,LC セグメンテーションの結果によって提供された追加の情報価値に起因します. もしある審査員がセグメント#1 (すなわち,低い酸味を持つOJを好む)だと我々が知っているなら,我々はセグメント #1 のモデルを予測に使用するでしょう.同様に,もしある審査員がセグメント#2 (すなわち,高い酸味を持つOJを好む)だと我々が知っているなら,我々はセグメント #2 のモデルを予測に使用するでしょう.一方,各審査員がどのセグメントに属しているかを我々が知らないなら,我々は事後メンバーシップ確率を重みとして使用しなければなりません. 

2クラス CCR モデルからの我々の予測値は,2つのモデルから得られる予測値の2つの集合の重みつき平均です.たとえば,審査員 #1によって与えられた OJ#1 (fruvita fr.) の評点の我々の予測値は,重みが事後メンバーシップ確率である2つのモデルからの対応する予測値の重みつき平均として得られます:

予測値 = 0.98(3.441) + 0.02(2.373) = 3.42            

審査員 #1では,セグメント #1 にいる確率は約0.98で,したがって,セグメント #2 にいる確率は約0.02です.この審査員では,セグメント#1 のモデルからの予測評点(3.441) は,セグメント #2 のモデルからのそれ(2.373)よりも重く重みづけされ,2クラス回帰に基づく予測値3.42を得ます.

説明の目的で,これらとその他の計算が,シート ‘CCR.LM’ に提供されています(黄色でハイライト).これらの黄色でハイライトされたセルは, XLSTAT-CCRで提供された出力に手動で追加されています.たとえば,セルL237 は,対応するセグメント #1 とセグメント #2 の出力から予測された値3.42を計算するための式を提供します.

Correlated Component Regression Predictions and Residuals

表 3A. Posterior1 重みによるモデルの予測値と残差(最初の 2 行)

Correlated Component Regression Predictions and Residuals

表 3B. Posterior2 重みによるモデルの予測値と残差(最初の 2 行)

Correlated Component Regression Predictions and Residuals

表 3C. 2クラス回帰モデルのために計算された予測値と残差(最初の2行)

表 3A,3B,3Cの行1は, OJ#1 (fruvita fr.)に対応します.このジュースは,低い酸味レベルを持つので,セグメント #1の審査員は,セグメント #2 の審査員よりも,それを高く評価すると予測されます(3.441 vs. 2.3739).

審査員 #1 (オブザベーション = 1に対応)は,平均の審査員よりも), 6種類のジュースを幾分低く評価する傾向があります(たとえば, オブザベーション = 1で,CFactor1 = -.214 および評点平均 = 2.67).上記に述べたように,2クラス・モデルで提供される予測値は,セグメントを無視する1クラス・モデルで提供されるそれらよりもかなり優れています.食品製品マネージャは,各モデルで使用される属性に基づいて,各セグメントごとにOJ 製品を別々にカスタマイズするために,これらの結果を用いることができます.

 

参考文献

  • Popper, R., J. Kroll, Jeff and J. Magidson (2004). Applications of latent class models to food product development: a case study. Sawtooth Software Proceedings, 2004. (pdf[W4] )
  • Magidson, J., and Vermunt, J.K. (2006). Use of latent class regression models with a random intercept to remove overall response level effects in ratings data. In: A. Rizzi and M Vichi (eds.), Proceedings in Computational Statistics, 351-360, Heidelberg: Springer (pdf).
  • Magidson, J., and Vermunt, J.K. (2005). An Extension of the CHAID Tree-based Segmentation Algorithm to Multiple Dependent Variables. C. Weihs & W. Gaul, Classification: The Ubiquitous Challenge, 176-183. Heidelberg: Springer (pdf).

 

他のチュートリアルはこちら です.