カテゴリーアーカイブ 統計解析

投稿者:

PREFMAPと自己組織化マップ(まとめ)

PREFMAPと自己組織化マップについて2回に分けて説明すると書きましたが、まとめとして、もう1回書きます。

PREFMAPの場合

PEFMAPでは最終的に消費者ごとの好みを回帰モデルで記述します。ここから逆算的にPREFMAPの原理を見ていきましょう。チュートリアルでは、消費者のクラスタ平均でモデルを作成していましたが、原理的には個人ごとのモデルを作成することは可能です。しかし、それをしても人間がモデルを解釈するには手にあまります。PREFMAPの限界はまずここにあります。
最も単純な考え方では、各製品の官能特性値を説明変数として、消費者の各製品に対する受容度を目的変数として、回帰モデルを作成すればよいのですが、回帰モデルは、説明変数の数に対して、オブザベーションがたくさんある方が精度の高いモデルができ、説明変数よりもオブザベーションの数が少ないとモデルを作成することができません。チュートリアルでは、官能特性が11個で製品(オブザベーション)が10個です。これではモデルが作成できませんので、官能特性の表を主成分分析して、主成分X1とX2を説明変数としています。いわゆる主成分回帰というテクニックです。
PREFMAPでは、比較する製品の数が多ければ多いほど正確なモデルが作成できることになりますが、実際的には、消費者に対してそのような調査を実施することは困難になります。分野によっては、そもそも類似した競合製品がそれほどたくさんあるわけではないということもあり得ます。PREFMAPが作成するモデルがとても粗いモデルであることをまず理解しておくべきかと思います。
味や食感などの好みは、たとえば塩味が濃すぎても薄すぎても良くなくて、理想点を最高として、そこからはずれると消費者の受容度は下がります。これを従来の回帰モデルで表現するために、2次の項や交互作用項が導入されています。しかし、少ないオブザベーション数(製品数)で、このようなモデルを作成しても、はたしてどこまで信頼できるか、という問題もあります。
つまり、PREFMAPではミクロな視点で分析をしようとしているのですが、視点をミクロにしていくと、利用可能なデータ量が少なくなってしまいます。消費者個人の各製品への受容度の差異よりも、消費者個人間の各製品への受容度(すなわち好み)の差異の方がより多くの情報を持っているのですが、PREFMAPではこの情報を上手く活用できていません。
自己組織化マップの場合
PREFMAPのデータを自己組織化マップ(SOM)で分析するには複数の方法が考えられます。PREFMAPと同様に、主成分分析のバイプロット得点を使ってSOMを順序づけすることもできます。しかし、そんな遠回りなことをしなくても、単純な計算によって、消費者の官能特性に対する反応量を計算することができますので、その列を、消費者の製品に対する受容度の表に結合して、マップを作成したのが前回の説明です。
前回のマップは、99人の消費者が10種類の製品への受容度パターンの類似性によって順序づけされて(並べられて)います。PREFMAPでは、各個人(またはクラスタ)のさまざまな官能特性値に対する応答(受容度)がモデルされますが、前回のSOMでは、それぞれの消費者に対して、10種類の製品の受容度と11個の官能特性の反応量が、それぞれ1個ずつあるだけです。前回のSOMのモデルでは、各個人について、交互作用を考慮しておりませんが、99個のオブザベーションをフルに活用して、全体として非線形のモデルを作成しています。
Viscovery SOMineでは、マップ上の任意の領域で瞬時に多重比較検定を実行できますので、任意の領域に対応する消費者の特徴を自由自在に分析することができます。そこから得られる知見は、主成分分析のマップ上に点やベクトル(線)で表現される従来手法よりもはるかに豊かな知見となります。
さらにいうと、PREFMAPでは消費者個人ごとのモデルを作成することが原理的には可能ですが、それを人間が解釈するには手にあまる、と書きましたが、Viscovery SOMineがあれば、実際にそこまでやって、個人間の係数の違いをマップ上で見渡すことすら可能になります。PREFMAPとSOMモデルを統合することも可能です。
最後にSOMのマップを見るときの注意点を1つだけ述べます。SOMはデカルト座標を表現しておらず、観察されたデータポイントのトポロジー的な並び方(順序)を表現しています。つまり、データポイントが観察されなかった空間については、まったく表現されておりません。これまで存在しなかった特性の(組み合わせの)製品を開発するためには、この点をよく理解して使用しなければなりません。もちろん、観察されたデータポイントの周りの(データポイントが存在しない)空間をSOMの表現に含めるためのテクニックもありますが、それは別の機会に譲ります。
官能評価データと消費者への市場調査データを統合した分析をしたいとお考えの商品企画・マーケティング関係者様には、まずXLSTATにより一般的な手法(をベースにしたちょっと高度な手法)としてプリファレンス・マッピング手法を導入されることをお薦めします。より一般的な手法を導入することは、組織内のハードルが高すぎないので、導入がしやすいというメリットがあります。しかし、さらに強力な手法を導入して圧倒的な競争優位を勝ち取りたいと、真剣にお考えであれば、Viscovery SOMineによるデータマイニングを導入することをお薦め致します。

投稿者:

PREFMAPと自己組織化マップ(2)

前回はXLSTATを用いたプリファレンス・マッピングを紹介しました。食品や飲料、香料あるいはオーディオや自動車、住宅といった産業分野での商品企画では、消費者の感覚に訴える商品づくりが求められます。したがって、いわゆる官能評価とマーケティング調査をつなげる分析手法が不可欠となってきます。プリファレンス・マッピングをその有効な手段です。
プリファレンス・マッピングは、前回説明しましたように、主成分分析、クラスタ分析、回帰分析などの手法を組みわせております。言うまでもなく、これらの手法は、目的ではなく手段です。つまり、手段・方法というものは、代替可能なものであり、常により良い手段・方法が出現する可能性がある、ということです。
目的は何か?というと、製品の官能評価データと、消費者の競合製品に対する受容度データを統合して、新商品の開発や改良の方向性に関する詳細な情報を得たい、ということです。
今回は、自己組織化マップ、というよりも、正確には、自己組織化マップを組み込んだデータマイニング・システムVicovery SOMineを用いる方法を紹介します。これにより、プリファレンス・マッピングの目的をよりスマートに実現し、かつ、従来のプリファレンス・マッピングでは得られないより詳細な情報を得ることができます。
自己組織化マップ上でのデータマイニング
前回のチュートリアルのデータからViscovery SOMineで作成されたマップは下記のようになります。

大きな画像
マップを作成するために、若干のデータ加工が必要ですが、この際、その詳細説明は割愛させて頂きます。このマップには99人の消費者が、10種類のポテトチップスへの受容度パターンの類似性によって並んでいます。21個の図が示されていますが、これらはすべて消費者は同じ並び方をしています。21個の図のそれぞれは、10種類のポテトチップスへの消費者の受容度と、11個の官能特性への反応を示しています。このマップでは、消費者を8個のクラスタに分割したところを示しています。
一般の書籍での自己組織化マップは、マップが画像として表示されるだけで終わりのようなイメージで紹介されているのですが、Viscoveryは全く違います。たとえば、各クラスタの特徴を下図のようなグラフで表示できます。

これはマップの中央付近の(C2という)クラスタの特徴を表したグラフです。つまり、クラスタC2に属する消費者と全体の消費者を比較して、どの属性(変数)で違いがあるか?という多重比較検定を行って、有意な差のある属性を自動でピックアップしてグラフにしております。マップの左端中央のクラスタ(C4)のグラフは下図のようになります。

グラフの右側が正値で左側が負値です。棒グラフの長さは、それぞれの属性の標準偏差を単位として、クラスタ平均と全体平均の差の大きさを示しています。したがって、棒グラフが右側に出ていると、それらのポテトチップスや官能特性が好まれていることを意味し、左側に出ていると(相対的に)好まれていないことを意味します。
C2のクラスタでは、さまざまな官能特性が積極的に好まれて、Crisp 3,5が好まれています。一方、C4ではさまざまな官能特性が負になっていて、Crisp 2,3,6が好まれています。つまり、硬さ、粘り、パリパリ感、人工的、塩辛さなどが避けられて、消去法の結果、製品が選ばれているということがわかります。Crips 3は両方で好まれていますが、Crips 10は一方では好まれ、もう一方では好まれていません。
このような方法で、マップの各領域にいる顧客の好みを詳細に知ることができます。クラスタだけなく、任意の領域についてグラフを表示させることができます。また、もちろん、各領域にいる消費者の人数と全体での割合も知ることができます。C2は、15人(15.2%)で、C4は12人(12.1%)です。
PREFMAPでは、製品、特性、消費者といった要素が、点や線(ベクトル)で表されるだけですが、Viscovry SOMineでは面で捉えることができます。マップ上でまとまった(赤い)領域を獲得している製品は、消費者からのしっかりした指示を受けていることを意味し、複数の領域に分離している製品は、比較的競争力が劣ることを意味します。たとえばCrisp 4の受容度の高い領域は複数の領域に分かれていますが、これは「人工的」という特性を好まない消費者から支持を受けています。いわゆるニッチ戦略です。

投稿者:

PREFMAPと自己組織化マップ(1)

XLSTAT-Pro/MXに搭載されているPREFMAP(プリファレンス・マッピング)が好評を博しております。この手法の原理の概要、および可能性と限界、および自己組織化マップ(SOM)を用いた改良版について、2回に分けて述べることにします。
消費者の1人ひとりが、「どの製品を好んでいるか?」については、消費者を対象にした調査によって、ある程度は客観的に知ることができます。しかし、そこから「どのような新製品を開発すればよいか?」という結論を導くことは、そう簡単ではありません。
なぜなら、味覚や触感、香り、色彩などの感覚に関する好みについて、消費者から直接聞きだす方法がないからです。しかし、これらの要素は、新製品を企画する上で、なくてはならない重要な要素です。
PREFMAPは、製品に関する官能評価データと消費者を対象にした調査データ(あるいは実際の購買行動データ)とをリンクさせて、上記の問題を解決する手法です。
PREFMAPの原理
XLSTATのPREFMAPにチュートリアルは、こちらにあります。
PREFMAPの原理は、上記のチュートリアルで説明しておりますが、ここではもう少し噛み砕いた表現でおさらいしておきます。ここで述べるのは、外的プリファレンス・マッピング(External Preference Mapping)です。
ステップ1.センサリー(官能)マップの作成
まずはじめに、製品の特性に関する評価データから開始します。上記の事例では、10種類のポテトチップス(製品)についての専門家による11個の特性(4つの質感と7つの香り属性)の評点です。これは、あらかじめ8人の専門家による評点から平均値がとられて、10×11の表にまとめられています。この10×11のデータを主成分分析して、得られるマップがセンサリー(官能)マップです。バイプロットにより、10種類のポテトチッと11個の特性が、同じ主成分平面の上にプロットできます。
ステップ2.消費者のクラスタリング
次に消費者を対象とした調査データに着目します。チュートリアルの事例では、99人の消費者について、10種類のポテトチップスの受容度が入っています。受容度は、1から30の整数に離散化されています。階層型クラスタ分析を使って、99人の消費者をグループ分けします。チュートリアルでは、9つのクラスタが抽出されています。得られたクラスタごとに、10個のポテトチップスの受容度の平均値を出しておきます。このステップは、分析の単純化のためのステップです。
ステップ3.プリファレンス・マップの作成
ステップ1で得られた各ポテトチップスの主成分得点X1とX2を説明変数として、ステップ2で得られた各ポテトチップスの重要度を目的変数として、回帰モデルを作成します。チュートリアルでは、9つのクラスタについて9個のモデルが作成されています。原理的には99人の消費者について、99個のモデルを作成することもできますが、チュートリアルではクラスタリングを用いて、単純化しています。
回帰モデルを作成するときに、F検定(またはF比)によって、つまりは、分散分析による交互作用の評価を行って、4種類のモデルを可能にしています。ベクトル・モデルというのが、いちばん単純な線形回帰モデルで、超平面のモデルを形成します。円形モデルと楕円モデルは、超2次曲面のモデルで、円形モデルには理想点と反理想点、楕円モデルには理想点、反理想点または鞍点が得られます得ます。これらのモデルが、ステップ1で作成されたセンサリー・マップの上に、重ね合わせで表示されものが、プリファレンス・マップとなります。
さらにプリファレンス・マップの各領域にどれぐらいの消費者が存在するかを示すのが等高線プロットです。製品を差別化しても、それを指示する消費者の存在しない領域に差別化しても意味がありませんので、このグラフで、消費者の存在を確認することは重要です。
全体の流れを図にすると下図のようになります。

PREFMAPの問題点
プリファレンス・マップ法は、以上のように、主成分分析、クラスタ分析、回帰分析を組み合わせた手法です。専門家による製品特性の評価データとマーケティング調査による消費者の製品の受容度データを関係づけることができる、という点で非常に優れた手法です。ただし、この手法の欠点はというと、一言で言って「情報損失が大きい」ということです。
ステップ1で主成分分析を行っておりますが、チュートリアルの事例では、第1および第2主成分の合計分散は、全体の分散の約70%です。言い換えれば、この段階で、製品の特性に関する情報の30%を捨てています。
そして、さらにクラスタ分析により情報が損なわれます。同じクラスタに属する消費者は、他のクラスタの消費者に比べて、各製品の受容において類似したパタンを持っていると考えられますが、クラスタは広がりを持っていますので、同じクラスタ内でも、実際にはまったく同一ではありません。
最後に回帰分析を行いますが、ここでもモデルの誤差が生じます。ベクトル・モデルのベクトルの長さが、決定係数によって決定されているので、ベクトルの長いモデル、つまり、マップのより外側に伸びているモデルに関しては、信頼性が高いのですが、マップの中央部分に近いモデルは、信頼性が低くなります。
つまり、製品のプロット、特性のプロット、クラスタ(消費者)のプロットの間の位置関係で、どの消費者がどの製品を好み、どのような特性を好むのかがわかるのですが、それはマップの外側の方の領域では解釈ができるものの、内側の領域ではあまりはっきりとは解釈ができないということになります。

投稿者:

コンジョイント分析、最適化、AHP

コンジョイント分析が一般化してきているようで、インターネットでもいろいろな記事を見ることができます。
しかし、「最適化」の概念が理解できていないと、計算の結果を有効に活用できません。たとえば、インターネットで「満室最適化アパートを実現-コンジョイント分析-」という記事を見かけました。
駐車場、駅距離、収納、バス、セキュリティ、間取り、付加設備、家賃などの条件の組み合わせでコンジョイントを分析を行って、重回帰分析のモデルを作成しています。そして、各要因の水準の偏回帰係数の一番高いものを抜き出して、「最適組わせモデル」としています。最終的には、実際の物件の諸条件に対応する回帰係数の合計で、各物件を評価しています。
一応(コンジョイント分析では、単調回帰やMONANOVA法を採用するというテクニカルなことはあるものの)これはこれで、投資物件を選ぶときに、そのアパートの入居率を予想するという意味ならアリだと思います。(投資物件として考えるなら、購入コストと期待収益によって利回りを計算するべきで、その過程で、実際にどの程度の入居が見込めるかの予想が立たなければなりません。)
ただし、「最適化アパート」という言い方は適切ではありません。なぜなら、条件がよくて家賃が安ければ、誰だってそれを選ぶでしょう。しかし、それは実現が難しいです。
各要因の水準の偏回帰係数の一番高いものを抜き出したものは、「理想」であって「最適化」ではありません。
最適化というのは、(工学用語で)コストと性能というような相矛盾する要素の空間で、バランスする点を見つけることです。多次元の要因の組み合わせでの最適化問題には、じつは自己組織化マップ(SOM)が役立ちます。コンジョイント分析の結果をSOMで分析すると、さらに有用な結果が得られます。たとえば、検討している物件の条件を現状のままで可能な最大家賃を設定するとか、より人気の高い条件に近づけるために(単にスコアを見るだけでなく大局な方向性を考慮して)現状のどこをどう直せばよいかを判断することができます。
ついでですが、回帰係数のようなスコアを用いて、複数の候補を順位づけするという考え方は、AHP(Analytic Hierarchy Process:階層分析法)という手法とも似ています。コンジョイント分析の場合は、アンケート調査を行ってデータを収集する必要があります。コンジョイント分析の目的は、消費者による多要因の評価を調査することです。一方、AHPは主体的な選択をできるかぎり合理的に行うことが目的です。たとえば、研究開発テーマの選択とか、人事における候補者選びなどです。
昔から研究開発マネジメントで、複数の評価基準を設けて、各テーマにスコアをつける方法がいろいろ考案されています。しかし、その多くは、複数の基準のスコアを単純に合計して、合計得点で比較します。評価基準に重みづけするという発想がなく、はっきり言って、分析の仕方としてはまぬけです。ここでAHPを使わなければどこで使うのか!というわけですが、日本では一向に理解されていません。
日本のエレクトロニクス産業の現在の惨状は、(もちろん世界的なパワーシフトという大きな背景があって回避できないことだったかもしれませんが)「マネジメントの失敗だ」というのが大方の見方になってきたようです。
「選択と集中」が必要なことはわかっていて、それをやろうとしたのですが、結局、(今になって言えることではありますが)そこに柔軟性が欠如していました。撤退やリストラを断行して(その時は英断のつもりだったのが)、取り返しのつかない間違いを繰り返してしまったようです。それは、役所の「線引き」と同じで、ガチガチのロジックに嵌っていたのです。
コンジョイント分析やAHPは、まさに「選択」のためのマネジメント・ツールです。これらをうまく使いこなせないのが、現在の日本の限界です。SOMは、これらの手法に、さらに大局観や柔軟性を付加することができます。

投稿者:

科学の文法


カール・ピアソンの”The Grammar of Science”を入手しました.印刷は2010年9月・米国ですが,新刊でも何でもありません.1892年に初版(1911年に第3版)が発行された科学思想書です.ペーパバックで1,800円ほどで買えました.邦訳の古書だと2万円ぐらいするようですが,英語圏だとこういう古典的な名著が簡単に手に入るんですね.日本でも相当たくさんの本が出版されているような気がするんですが,こういうのを実感すると,日本の書店にある本がゴミの山に見えてきます.
で,ピアソンの主張は,「統計学は科学の文法だ」ということだったようですが,考えてみれば,これは弊社の「マインドウェア」のコンセプトにぴったりです.
「マインドウェア」という言葉は,誰でもが思いつく言葉のようでして,「自分こそが『マインドウエア』の提唱者だと名乗っている人が何人もいるようなので,人によって「マインドウェア」の定義はさまざまですが,弊社での定義は,「優れた知性によるのと同等な結果が得られる製品やサービス」のことです.
もともとの議論は,80年代のニューメディア開発にさかのぼるわけでして,弊社の社名は,当初,とくに統計やデータマイニングを想定したものではなかったのですが,結果的には,統計解析は「科学的方法のマインドウエア」であり,データマイニング,とくに自己組織化マップは「仮説創造のマインドウエア」と位置付けることができます.
実際,統計解析は,今日,多くの学術分野で活用されていて,「科学者の量産」に貢献しているわけです.データを集めて統計ソフトでデータ解析して論文を書けば学位が取れる,というパターンができあがっているような分野がたくさんあります.
これはこれで大変結構なことなのですが,70年代に活躍された技術評論家の星野芳郎先生の「科学技術はその内部から革新性を失うことになるだろう」という言葉をときどき思い出してしまうわけです.
実際,統計手法を使うことによって,あらかじめ「研究のパターン」があって,それに当てはまるように研究テーマを設定して,あとは手順どおりに作業をやっていくだけ,という「研究のパターン化」が進んでいるような気がしてならないわけです.
データマイニングは「仮説の発見」にこそ,その意義があるのですが,あまり多くの人には,そこのところが理解されていないようでして,多くの人が「仮説」とくれば「検証」というふうに何も考えずに条件反射してしまいます.
現代統計学を切り拓いたパイオニアの精神に少しでも近づくことができたら,データマイニングの新しい時代を切り拓くためのヒントなり力なりを貰えるのではないか,と淡い期待を持つのでした.

投稿者:

プロクラステス分析

官能評価分析で「プロクラステス分析」という用語が出てきます.
専門家が製品を何段階かの尺度で評価するときに,専門家によって,尺度のより広い範囲を使って評価する人と狭い範囲しか使わない人,さらに尺度の高い部分を中心に使う人と低い部分を使う人がいます.つまり,同じ評点でも,人によってその意味が違うということになります.このような不都合を補正して,より共通した尺度で評価結果のデータを分析するのが,一般化プロクラステス分析(GPA: Generalized Procrustes Analysis)です.
それで,どうして「プロクラステス」という聞きなれない言葉が出てくるのか?という疑問が湧いてきます.何かとんでもなく難解な専門用語という感じがします.
インターネットでちょっと調べるとわかりました.語源は,ギリシャ神話に登場する巨人・プロクルーステースです.ギリシャ語では「伸ばす人」という意味らしいです.
以下,ウィキペディアからの引用ですが:

プロクルーステースはエレウシースの外側の丘にアジトを持っていた。そこには、鉄の寝台があり、通りがかった人々に「休ませてやろう」と声をかけ、隠れ家に連れて行き、寝台に寝かせた。もし相手の体が寝台からはみ出したら、その部分を切断し、逆に、寝台の長さに足りなかったら、サイズが合うまで、体を引き伸ばす拷問にかけた。

教育問題では,Procrustes Bed(プロクルステスの寝台)という用語が使われているそうで,つまり,それは「画一化」という教育の負の側面を指しているようです.
話を統計に戻すと,GPA以外にも,因子分析で「プロクラステス回転」という用語もあります.「プロクラステス」という用語は,異なる複数のデータ集合や,異なる複数のモデルを共通の視点から比較しようとするときに使われるようです.
と,いうことで,プロクラステス分析という用語に,何となく茶目っけすら感じられて,より一層身近になった気がします.
プロクラステス分析(GPA)は,XLSTAT-MXで利用できます.

投稿者:

Handbook of Partial Least Squares 入手しました


Springerから出版されたV.Esposito Vinziらによる”Handbook of Partial Least Squares”が今日手元に届きました.高額な本で入手経路によって価格がまちまちですが,ドイツの業者から2万円ちょっとで買いました.
PLS手法の総合的なハンドブックです.PLS回帰からPLSパス・モデリングまで,手法から応用まで,ソフトウェアから結果の解釈までカバーされています.
それで,この本の一番最後の論文として掲載されているのが,XLSTATを用いて自動車のエアコンに対する顧客の嗜好を分析した論文です.使われている手法は,GPA(一般プロクラステス分析)とPLS回帰の組み合わせです.
ほかにも多数のPLS関係の論文が集められており,PLS手法の全体を見渡して,実務ユーザーとしては応用のヒントを得るのに好都合です.手法に関するタイムリーなトピックとしては,REBUSアルゴリズムによるセグメンテーションの発見について,その動作をつぶさに見ることができます.
全体で800ページ弱のボリュームで言語は英語です.これまではPLSに関してはフランス語の本はあっても,英語でもあまり情報がなかった時期もありましたので,かなりの進展だと言えます.数式は,もちろん,なくはありませんが,全体的にそれほど多くない印象です.多数の著者の論文を集めたものなので,すべて同じトーンではないでしょうが,とくに事前の知識がなくても苦労なく読めそうです.