月別アーカイブ 12月 2014

投稿者:

経営者のためのデータ分析/情報分析/思考支援ソリューション (2)

自己組織化マップ(SOM)を経営者とデータ分析担当者をつなぐ共通言語にしようというのが、15年前に現在の弊社の事業を立ち上げたときの熱い思いでした。
私は、80年代にニューメディアなどの先端技術に関するトピック・セミナーの企画・運営を経験して、その後、大手コンサルティング会社で新規事業開発のコンサルに携わりました。当時、バブル景気の最中で、大手企業が新規事業開発に積極的に乗り出しておりました。コンサルティング業界は、新規事業テーマの探索調査プロジェクトで大いに稼がせて頂いておりました。
しかし、その調査プロジェクトのやり方は、私にとって、どうも納得がいかないものでした。コンサルタントたちは、隅から隅まで少しの漏れもなく情報を収集して、それを戦略理論に沿って分析すれば、正しく合理的な判断ができると信じておりました。そんな調査のやり方をしたら、すでに情報が確定している事実ばかりを丁寧に調査して、まだ不確定な要素の多い新しい動向については「不確かな情報」として判断材料に採用されない傾向が強まります。
はっきりと物事が確定するまで動けないという日本の大企業の行動様式に、こうしたことが大きく作用していました。案の定、そのような会社の新規事業はことごとく失敗しました。さらにバブル崩壊を経て完全に委縮してしまい、戦略が後手後手となって行きました。80年代までは世界を席巻していた日本の半導体・電子産業が壊滅的な状況に至ったことは周知のとおりです。
もちろんそうでない企業もあります。たとえば、自動車メーカーは常に5年後の未来を見据えて製品を開発されています。5年後に世の中がどうなっているか予測することは、とても難しいことです。景気が良いか悪いかだけでも、どんな自動車の重要が増えるか減るかに大きく影響します。つまり、とても大きなリスクを負って製品を開発・製造・販売しなければならないのです。
あらゆることを完全に認識して、完全に合理的な判断を行う、ということは、人間には不可能なことです。
つまり、そのようなリスクを管理しながら、未知の世界にチャレンジできる企業を作らなればなりません。リスクはけっしてゼロにはなりません。リスクをゼロにしようとする企業は、もはや勝負から下りるしかないのです。リスクを<計算尽く>で意思決定し行動ができるかどうかで、これからの時代を企業が生き残れるかどうかが決まります。
弊社が自己組織化マップ(SOM)とともにベイジアンネットワークを戦略的ツールと位置付けているのは、これらのツールが、企業の事業戦略、市場戦略、製品戦略、技術戦略をより柔軟に、より迅速に展開するための切り札になるからです。
SOMは、人間の脳が多次元の空間を認識できないことを補うための重要なツールです。一方、ベイジアンネットワークは、人間が意思決定に必要なすべてのことを完全には知ることができないという現実に対処するための重要なツールです。
人間にとって、この世の中は、ジグソーパズルの出来上がりの絵を知らされずに、徐々に絵が現れてくる様子を眺めているようなものです。不確定なことが1つずつ確定していきます。子供の頃は、誰しもまだまだたくさんの可能性が残されていますが、年齢を重ねるに従って、可能性はどんどん狭まります。森羅万象、同様にだんだんと物事が確定して行きます。
誰にも未来のことを予言することはできません。そういうときに度胸一発で企業の命運をかけた意思決定などできるはずもありません。経営者がサラリーマン経営者だから意思決定ができないとか、そういうことではないのです。
意思決定は、確率論的な観点から限定合理性に基づいてなされなければなりません。モンティ・ホール問題は、直感的判断と確率的合理性が異なることをよく示しています。
ベイジアンネットワークで確率を計算し、SOMで多次元空間での確率分布をマイニングすることで、どんなに保守的で硬直化した組織でも、できる限り可能な合理的判断のもとに勝負に打って出ることができるマネジメント手法が実現できます。
不確実性の戦略マネジメントに関するWebページは、こちらです。

投稿者:

経営者のためのデータ分析/情報分析/思考支援ソリューション

企業に新設されるデータ分析部門は機能するのか?
企業がデータサイエンティストを雇って、データ分析の専門部署を設けるという動きがあるようですが、果たしてそれは上手く機能するでしょうか?
もしデータ分析を彼らに丸投げして、その分析から得られる意思決定の結果のみを会社の上層部に上げて貰えばよいと考えているとしたら、あまり良い結果にならないのではないかと心配します。よくて成果が上がらない金食い虫の部門になってしまうか、最悪の場合、会社に間違った意思決定をさせることにもつながりかねません。
たとえばGoogleのような先端企業では、データ分析が競争優位を獲得するための決定的な役割を演じていることは周知のことですが、それを可能にしているのは、経営者自身がデータ分析技術に対する深い知識・経験を持っているという事実を見逃すべきではありません。そうではない通常の企業の場合、経営者の頭脳とデータ分析の間には大きなギャップが存在します。これを埋めることが今日の企業の重要な課題の1つになってきています。
たとえば、顧客セグメンテーションというのは、企業の戦略そのものです。企業の戦略というのは経営者が決めるものです。もちろん、経営者といえども独断ではなく、優秀なスタッフの協力を得ながら決定を行うのが理想です。しかし、ここにデータ分析が入ってきたときに、「本当に経営者がその決定に参画できているのか?」が疑わしい状況になりつつあるのです。
多くの企業に広がりつつある重大な間違いは、若い社員にデータ分析をさせて、その結果を<客観的な分析結果>と信じて、上層部がそのまま受け入れるということです。戦略的でない枝葉末節な問題では、それでよいことも多々ありますが、顧客セグメンテーションなどの戦略的な意思決定が、それとして認識できていない担当者レベルで行われてしまっている企業が少なからず存在すると、私は認識しております。
経営者に求めらる最低限のデータ分析の知識は何か?
つまり、これからは経営者にも、ある程度、データ分析技術に関する知識を持って頂く必要があります。日経Big Dataの12月号で「習得すべき分析手法は5つでいい」という記事がありました。クロス集計、回帰分析、クラスタ分析、決定木、相関分析、因子分析だそうです。これからの経営者は、これらの分析について、実際的なスキルは別としても、それこそ解説書レベルの(わかった気になる程度の)上っ面の知識ぐらいは持ち合わせて頂かないことには、まったく話も通じないということになりそうです。
しかし、「その程度でよいのか?」というと、やはり、よいわけがありません。ならば、「経営者も上記の5つの基本的な分析手法について、実践レベルのスキルを磨くべきか?」というと、それもあまり現実的ではありません。
もちろん経営者が「実際にソフトウェアを触って基本の分析手法を勉強したい」というのなら反対はしません。その場合は、Excelアドイン・タイプの統計解析ソフトをお薦めします。担当者レベルで好んで使用されている有名ベンダーの高額な統計解析ソフトウェアは、使用法を習得するのが大変なのでお薦めしません。
そして、どんなに高額な統計解析ソフトを使っても、5つの基本手法に限るのであれば、実践的な顧客セグメンテーションは不可能です。顧客セグメンテーションは、統計解析ソフトのより高度な機能を駆使しても、そう簡単なものではありません。Viscovery Porfilerは、顧客セグメンテーションとプロファイル分析に特化したソリューションです。これを使用すると、ユーザーはデータ分析のプロセスを自分で設計する必要はなく、ソフトウェアが提供するワークフロー・ステップにしたがって、正しい作業が行えるようになっています。
たとえば、ジェット機を設計するエンジニアは、データ分析のスキルにおいては最先端の能力を有しています。そういう人たちでさえも、無数の設計解をセグメンテーションするのにViscoveryの能力を活用しています。なぜなら、どんなに頭の良い人でも、もともと人間には多次元の空間を認識する能力が備わっていないからです。だから、それ専用のソフトウェアの力を借りる必要があるのです。
企業のデータ分析担当者がいかに訓練されていたとしても、統計解析の結果から本当に多次元のデータ空間を理解できるか?といえばそれは無理なんです。悪いことは言いません。無理をせずに、顧客セグメンテーションにはViscovery Porfilerを使ってください。Viscoveryの自己組織化マップ(SOM)テクノロジーは、人間の認識能力の限界を克服します。
つまり、統計学のいろんなこを勉強するよりもまず、SOMのマップの見方・使い方を覚えるだけで、人間の情報分析能力が飛躍的増大します。だから、データ分析担当者にも、経営者にも、これをお薦めします。そして、SOMは両者をつなぐコミュニケーションの基盤、共通言語になり得るのです。
まったく心配することはありません。SOMを理解するために、統計学や機械学習アルゴリズムなどに関するすべてのことを積み上げで勉強する必要はまったくありません。(もしそうしようとしたら5年ぐらいかかると思いますが)基本的なマップの見方は、ほんの2、3分でわかることです。そして、もう少し本質的な動作原理から理解したい場合でも、2、3時間のトレーニングで十分です。何なら一般的な統計解析の(ただし解説書レベルの)知識もここで同時に勉強して頂くことも可能です。
顧客セグメンテーションは、企業にとって最重要の戦略的テーマです。したがって、データ分析担当者がViscovery Profilerを使ってテクニカルな作業を行いながら、経営者・管理者の参加のもとに意思決定がなされなければなりません。担当者レベルで、勝手にセグメンテーションを決定するなんてことは大間違いなのです。したがって、経営者・管理者にも、Viscoveryが提供するSOMのマップの見方を理解することが、今後、必須の能力になってきます。
戦略マップの作成
経営者にSOMのマップの見方・使い方により親しんで頂くために、弊社では、顧客セグメンテーション以外に、戦略マネジメント全般におけるSOMの活用法をコンサルティングします。
じつは、私が1999年からSOMの活用法を研究し始めた当初のアイデアがこれでした。戦略マネジメントで使用されるさまざまなマトリックスをSOMに置き換えることによって、戦略マネジメント手法を生まれ変わらせることができます。
これらは比較的小さなマトリックス(表)を使用しますので、データマイニングとかデータ分析というほどのレベルではなく、思考支援手法と言った程度になります。
私がSOMに関わり始めた最初が、SOMによるこれらの戦略マップの作成だったのですが、Viscoveryの技術をより深く理解し、統計解析やデータマイニングの知識が増えてくると、当初の私のアイデアがあまりに幼稚なものだったような気がしてきて、長い間、これを封印しておりました。
しかしながら、今、SOMを経営者とデータ分析担当者をつなぐ共通言語にしなければならないという思いに立ちかえって、再び、SOMによる戦略マップの重要さを見直しているところです。
戦略マップのコンサルティングに関するWebページは、こちらです。

投稿者:

潜在クラス分析(クラスタ・モデルおよび回帰モデル)とは (2)

XLSTAT-LGの潜在クラス分析を少し触ってみました。これは計算に時間がかかります。パソコンを操作しながら、その場で結果が出ることを期待されるなら、快適に使用できる範囲は、1000行×10列程度までと思われます。
もちろん、それより大きなデータでも数時間とか日単位の計算時間を覚悟するなら可能だろうと思われます。ただし、途中で交互作用の設定をするダイアログが現れますので、列数が多くなると、この組み合わせが膨大になります。ここで、どれを設定するか、しないかで結果が変わるとしたら、現実的には数10個とかそれ以上の変数を持つデータに適用するのは難しそうです。
前の記事でViscoveryと対比させておりましたが、したがって、それは手術用メスと鯨包丁を比較するような話です。(刃物なら見た目で違いがわかりますが、データ分析手法は使ってみないと違いがわかりません。)
Viscoveryの場合は、数10行×数列の小さなデータから、100万行×数100列規模の大規模データまでカバーできます。あるいは行を減らすか、コンピュータのパワー次第で数1000列のデータも扱えます。また、Viscoveryでは非線形に対応したモデルが生成されますので、ユーザーが交互作用を指定する必要がなく、結果として、交互作用よりも精度の高いモデルが実現できます。
– Viscoveryでもクラスタ数の有意度を示す指標が使用されるのですが、それは「参考程度」にか活用されません。Viscoveryのクラスタ指標は、階層クラスタリングでクラスタを段階的に融合していくときに、クラスタ内分散が増大する量によって判断しています。
– 一方、潜在クラス分析は、対数尤度やAIC、BIC、その他の情報量基準とパラメータ数(節減の原理)、p値による判断ができ、さらに2変量残差によって、それをより詳細化・修正するという2段階になっています。
– Viscoveryでは階層クラスタリングにより、さまざまなクラスタ数を広範囲に探索できて、場合によっては、クラスタリングの結果にこだわらずに、マップ領域を選択することで、セグメンテーションを自由自在に修正できてしまいます。
– 潜在クラス分析では、あらかじめ指定する狭い範囲のクラスタ数しか検討できません。範囲を広くとれば、それだけ計算に時間がかかります。その代りに、統計的に有意なクラスタ数をはっきりと示してくれます。
– Vissoveryでのクラスタリング(セグメンテーション)は、データレコードは必ずどれか1つのクラスタ(セグメント)に振り分けられますが、
– 潜在クラス分析では、どのクラスタに属していそうかをメンバーシップ確率で表現されます。
ViscoveryのSOM-Wardクラスタリングを用いたセグメンテーション・モデル、SOMローカル回帰法を用いた非線形近似の重回帰モデルと、潜在クラス分析のクラスタ・モデル、回帰モデルは、似通った特性はあるものの、一長一短というより、想定する使用目的・方向性がかなり異なるものであります。

投稿者:

潜在クラス分析(クラスタ・モデルおよび回帰モデル)とは

XLSTATの潜在クラス分析のWebページを翻訳し終えました。
機能紹介:
潜在クラス・クラスタ・モデル
潜在クラス回帰モデル
チュートリアル:
潜在クラス・クラスタ・モデル
潜在クラス回帰モデル
これはかなり使えそうな強力なツールです。
XLSTAT-LGは、Statistical Innovations Inc. Latent Gold® という製品に基づいて開発されました。
じつは国内では先行して、2009年にExcelアドインの潜在クラス分析が他社から出ているのですが、今回はExcelアドイン統計解析としては世界的に本家本元として認知されているXLSTATへの搭載ということで、実装レベルが優れています。とくに潜在クラス回帰モデルでは、Excelから利用できる初の製品になるはずです。
潜在クラス・クラスタ・モデル
他社のWebページでは、すでに潜在クラス・クラスタ・モデルを「潜在クラス分析」として解説しているようです。
弊社では、常々「クラス分類とクラスタリングを混同してはいけない」と口酸っぱく言っているわけですが、このネーミングはユーザーを惑わせてしまいそうです。結論から言うと、これはクラスタ・モデルです。
ただし、従来のクラスタ分析とは異なるアプローチなので、区別するために「潜在クラス」という用語が使用されているようです。大きな違いは、ケースが完全にどれかのクラスタに割り当てられるのではなく、ケースごとに各クラスタへのメンバーシップ確率が計算されることです。このほか、説明変数に量的変数と質的変数のみでなく、順序変数が使用できるというところが違います。
統計的に有意なクラスタ数の決定ができるようにもなっています。かなり完成度の高い手法なのですが、そうなってくると、ユーザーがこの結果を「絶対的客観的な分析結果」として素朴に取り扱ってしまいそうだという心配も出てきます。ごく当たり前のことなのですが、利用可能な変数が多数存在する場合、クラスタリングは、どの変数を使用するかで結果が異なります。とても厄介な問題ですが、それこそが創造の源なので、そこから目をそらされることがないことを願います。
潜在クラス回帰モデル
潜在クラス回帰モデルは、線形重回帰モデルの改良版です。つまり、目的変数(従属変数)がある場合の手法です。データからたった1つの重回帰モデルを生成するのではなく、均質なクラスタを生成しておいて、クラスタごとに線形重回帰モデルを作成します。
説明変数(予測変数)には、量的変数と質的変数(名義変数)が使用でき、目的変数(従属変数)には、名義、順序、数値の応答タイプが選べます。
ちなみに、弊社が販売しているViscovery Predictorという製品では、SOMローカル回帰という手法を使っていて、それもこれと似たような考えで重回帰モデルを作成します。ただし、SOMローカル回帰ではSOMのノードごとに回帰モデルを作成しますので、全体的にほぼ曲面を近似するモデルとなります。
潜在クラス回帰モデルでは、データ空間を数個程度のクラスタに分割するところまでしかできません。なぜなら、あまりにデータを小さく分割しすぎると、1個1個の回帰モデルがあまりに少ないデータから作成されることになるので、モデルの信頼性が落ちるからです。
Viscovery Predictorではなぜ1000個とか多数のノードごとに回帰モデルが作成できるのか、そこには、もう一ひねり、二ひねりのアイデアがあるからです。詳細は割愛しますが、Viscovery Predictorのマニュアルを読めば目からウロコが落ちます。ただし、Viscovery Predictorでは基本的に目的変数を数値タイプとして取り扱います。
半歩先を行くお買い得商品
XLSTAT-LGがどれぐらいの規模までのデータに耐えられるのかは、まだこれからテストするところですが、超多次元データからセグメンテーション・モデルを作成するにはViscovery Profiler、超多次元データから回帰モデルを作成するには Visvovery Predictorがお薦めです。ただし、価格が高価です。
XLSTAT-LGは、XLSTAT-Proと同じ価格設定になっており、XLSTAT-Proは基本モジュールで必須ですので、結果として価格はXLSTAT-Proの2倍となりますが、それでもViscoveryに比べると、1/60ぐらいの価格です。
人間の認識能力の限界を突破して、多次元のデータ空間をビジュアルなマップで見ることのできるViscoveryの強みには及びませんが、とても安価な価格で、従来手法よりも半歩先を行くクラスタ・モデルと回帰モデルを入手できるという点では、XLSTAT-LGはかなりお買い得商品だと思います。