月別アーカイブ 5月 2020

投稿者:Kunihiro TADA

Max-Diff分析 -コンジョイント分析の簡易バージョン

前の投稿で、世間で広く流布されている「数量化I類でコンジョイント分析というのは、あまり信頼性の高い結果が得られない」ということを述べました。コンジョイント分析の難しさは、調査の実施の部分であって、分析手法のレベルを落として、それに調査の内容を合わせるのは本末転倒です。MONANOVAなどの手法は高度ではありますが、その計算はソフトウェアが実行するのですから、より高度な手法を使わないのは損でしかありません。

もし、コスト的な理由などから「コンジョイント分析的な調査分析をより簡単に行いたい」ということでしたら、Max-Diff分析をお勧めします。

Max-Diff分析は、基本のコンジョイント分析や選択型コンジョイント分析と似ているのですが、コンジョイント分析および選択型コンジョイント分析では、複数の特性(因子)で記述された製品を順位づけしたり、最も好ましい製品を選ぶのに対して、Max-Diff分析は、多数の特性の中から、実験計画法に基づいて、3つとか4つの特性の組み合わせを提示して、最も重要な特性最も重要でない特性を回答者に選んで貰います。

Max-Diff分析により、企業は製品のどの特性に力を入れるべきかがわかります。

EXCELでのMAX-DIFF分析チュートリアル

投稿者:Kunihiro TADA

ホンネを引き出す選択型コンジョイント分析とは?

昨日、コンジョイント分析について投稿しましたので、今日もそれに続いて、より高度なコンジョイント分析についてご紹介したいと思います。

世間では「数量化I類=コンジョイント分析」という解説がじつにたくさん氾濫しています。それらは完全な間違いというわけではないのですが、あまり正確な分析ができません。お金をかけて調査を実施するのなら、ちゃんとした手法を用いるべきです。本来のコンジョイント分析は、いくつかの特性(因子)の組み合わせで複数の製品を提示して、それらの製品の好ましい順位を回答して貰う調査を行います。したがって、目的変数が順序変数になるので、通常の回帰モデル(分散分析、数量化I類)は、そのままでは適用できません。順序値を適切な連続値に変換して回帰を行うために、MONANOVA(単調回帰)という手法が使用されます。

今日の話は、選択型コンジョイント分析という手法です。通常のコンジョイント分析では、複数の製品を提示して、その順序を回答して貰うのですが、どうでしょう?実際、それって回答するのが難しいですよね。たとえば、10個も製品があると、回答する方もこんがらがってきますね。よくよく考えると、「5位と6位は入れ替わるかな?」とか、いや「7位もちょっと違う気がする」などという考えが湧いてきて収拾がつかなくなるものです。

よく誰か(たとえば恋人?)のホンネを引き出すために、こんな問いかけをすることはすることってありますよね?「お寿司か焼肉か鉄板焼きなら、どれがいい?」「うーん、お寿司かな」「じゃあ、フランス料理かイタリアンか和食なら?」

これです!これが選択型コンジョイント分析です。つまり、回答者が格段に回答しやすい方法で情報収集を行うのです。選択型コンジョイント分析でも、調査票を設計するのに、やはり実験計画法を使用します。

ただし、こうやって収集された情報を分析するのは、ちょっと複雑になってきます。こういう場合に、確率を用いると複雑な状況を上手く表現することができます。選択型コンジョイント分析で使用できるモデリング手法は、条件付きロジットおよび階層ベイズです。

条件付きロジットを使用した場合、各因子のカテゴリの効用値および各因子の重要度が得られます。条件付きロジットの結果は、回答者全体での結果となりますが、階層ベイズを使用すると回答者個人ごとに、カテゴリの効用値および因子の重要度が得られます。

EXCELでの選択型コンジョイント (CBC) チュートリアル

階層ベイズによる選択型コンジョイント分析(CBC/HB)

 

Viscovery SOMineを用いた選択型コンジョイント分析の結果の分析

選択型コンジョイント分析で、モデリング手法に階層ベイズを使用した場合、回答者個人ごとに、各カテゴリの効用値や各因子の重要度が得られますが、実際、その表を見ても、回答者が多くなればなるほど、全体を掴むのが難しくなります。そこで考えれるのは、得られた結果の表から階層クラスタ分析をすることです。すると、どのような傾向の消費者のグループが存在するかを発見することができます。

しかしながら、従来的なクラスタ分析では、あまりに情報がざっくりしすぎで、本当にデータを理解しているという実感が今ひとつ得られていないのではないでしょうか?

そこで弊社がお勧めするのは、自己組織化マップ(SOM)と統計解析を融合したアプローチです。これができるのは、Viscovery SOMineという製品だけです。SOMは今やありふれたツールで、わりと簡単に入手できるのですが、残念ながらマップが視覚的に色表示されたり、ラベルづけができるという程度の実装では、ほとんど実用的価値が見出せません。

Viscovoery SOMineでは、階層クラスタリングとプロファイル分析を2次元のマップ上で視覚的に行えるので、消費者の各グループの傾向と、グループ間のトポロジカルな配置関係を同時に把握することができます。本当の意味で、腹の底から「データを理解できた」という実感が得られます。

SOMデータマイニング

 

 

 

投稿者:Kunihiro TADA

数量化I類はコンジョイント分析と同じなのか?

昨日、ある方からお電話を頂き、「調査会社に調査を依頼して1300件ぐらいのデータがあるので、それでコンジョイント分析をやろうと思うのだけど、XLSTAT-Basicでいいですか?」というご質問を頂きました。

こちらの回答としては「コンジョイント分析はXLSTAT-Markeringに含まれます。ただし、コンジョイント分析を行うには調査票の設計の段階から同じ統計ソフトを使用するべきです。XLSTAT-Basicではコンジョイント分析ではなく分散分析(ANOVA)ならできますよ」とお答えするしかありませんでした。しかし、それでもその方は「いやいや数量化I類はコンジョイント分析であって、XLSTAT-Basicに回帰分析が含まれるなら、それでできるんじゃないですか?誰かわかる人はいないのですか?」とのことでした。

いやまあ、そう言われるのでしたら、それでもいいのですが、ちょっと勘違いがあるかと思いますので、ここで補足させて頂きます。

数量化I類というのは、日本の統計数理研究所の所長を務められた林知己夫氏が考案したとされる数量化理論の1つです。数量化理論とは、つまり、質的データ(カテゴリ値)を使用した統計手法の拡張です。当時、海外でも同様な研究が行われていて、林氏は海外の研究とは独立に(当時、第二次世界大戦で日本は世界から孤立していました)、この研究を成し遂げたとされています。

—-この話に触れるたびに、私は関孝和を思い出してしまいます。関孝和は、和算と呼ばれた日本版数学の研究者で、代数の発明や円周率の計算を行ったとされています。かつては、関孝和がニュートンらよりも先んじて、微分・積分まで発明していたということがまことしやかに語られたものですが、どうやらその事実はなかったようです。関孝和が天才であったことには間違いがなく、もし彼が日本ではなく西洋に生まれていたら、もっと素晴らしい業績を残したことでしょう。残念ながら、和算は西洋式の数式の記述法と比べて、とても使いづらいものだったようです。昭和の日本人は、西洋へのコンプレックスの裏返しで、「日本が世界初で○○を成し遂げた」とか、「○○は日本が起源」などという話を作るのが大好きでした。そういうコンプレックスの塊のような国が他にもありますね。—-

数量化理論で提案されたことは、海外でもすでに開発され普及しており、数量化理論でなければできないということは1つもありません。海外では数量化〇類という呼び方はまったく通用しませんので、我々日本人はそのことをしっかりと理解しておくことが必要です。

数量化I類というのは、世界標準の統計学では、分散分析(ANOVA)に対応します。これは回帰分析の説明変数が質的変数(カテゴリ)で、目的変数が量的変数(数値)の場合を指しています。したがって、これを既存の(すでに調査が実施されてしまった)アンケート調査データに使用するなら、各設問への回答を説明変数として、何かの量的変数を目的変数とする場合に適用できます。たとえば、購入金額とか来店回数、あるいはウェブサイトの滞在時間などです。これは分散分析であり、コンジョイント分析ではありません。

コンジョイント分析というのは、消費者の好みを調べるための調査とその結果の分析です。消費者に、いくつかの製品(またはサービス)を例示して、その好ましい順位(順序測定値)を回答して貰う調査です。各製品は、いくつかの特性の(カテゴリ値の)組み合わせとして提示されます。分散分析では、このときの特性を「因子(factors)」と呼び、カテゴリのことを「水準(levels)」と呼びます。数量化I類では、それぞれ「アイテム」、「カテゴリ」となります。

ここで、因子と水準の数によって、その組み合わせの数が多くなってしまい、そのすべてを消費者に提示するには無理が出てくるという問題に直面します。そこで実験計画法という手法を使って、できるだけ偏りが生じないように、提示する数を減らす努力を行います。そして、目的変数が順序測定値なので、数量化I類や分散分析の代わりにMONANOVA(単調回帰)という特別な回帰手法を用います。これが本当のコンジョイント分析というものです。

MONANOVAは、まず、①通常の回帰分析(OLS)を行って、回帰係数βを得る。②目的変数Yの予測値(Y)を計算。③予測値(Y)と実測値Yが近くなるように単調変換(Kruskal, 1965)を用いてYの値を変換。④変換値Ytransを新しい目的変数にして新しいβを得る。⑤決定係数の変化が収束するまで①から④を繰り返す。ということを行います。つまり、回帰分析と目的変数の値を最適な連続値に変換する操作を交互に繰り返す方法です。

つまり、仮に順位が1位から10位まであったとして、それらを連続値の得点に変換したときの間隔が単純な9等分とは限らないので、得点を適切な値に修正することを意味します。

残念ながらこうした手法は高額な統計ソフト(XLSTATならXLSTAT-Marketing)にしか含まれません。順序値を連続値に変換する方法としては、このほか、指数関数的減衰曲線などを用いて強制的に連続値に変換する方法があります。これは、どのような曲線を当てはめるかによって変換後の値が異なります。

世間でよく解説されているコンジョイント分析では、回答者に順位を回答して貰う代わりに、直接、評価点を回答して貰うという方法が採られています。これは本当のコンジョイント分析ではなく、簡便法というべきかと思います。この場合、尺度効果という問題が生じます。たとえば、0から9点までの評点を与えるとしても、人によってその尺度の使い方が異なってきます。0から7あたりを中心に使用する人もいたり、3から9あたりを使用する人もいたりします。同じ5という得点でも、その意味するところは、人によって異なるかも知れないのです。これではいくら数理的モデルを使用していても、まったく正確な分析にはなっていないことを容易にご想像頂けるかと思います。

「安物買いの銭失い」という言葉どおり、道具(ツール)を購入するときはお金をケチるべきではありません。機械の性能は、誰が使ってもその性能を発揮します。自動車で言えば、限りなく自動運転に近いような運転支援機能や安全装備のついた自動車は高額です。そこで「初心者だから使いこなせるだろうか?」という心配をする必要はないでしょう。初心者ならなおさら必要な機能もあります。中古の軽自動車にはそんな機能はついていません。性能の良い製品は価格も高くなります。安い製品を買って、高いパフォーマンスを得ようとしても、それは絶対的に無理なのです。ソフトウェア製品の場合も、それはまったく同じことです。

わざわざ調査会社に大金を支払ってデータを収集するのなら、最初から適切な統計ソフトを使用して、しっかり調査票を設計し、調査データをしっかりした手法で分析されることをお勧めします。分析のところは、ほとんどお金をかけずに簡便な方法でお茶を濁すというのはバランスが悪く、とてももったいないです。