年別アーカイブ 2014

投稿者:

経営者のためのデータ分析/情報分析/思考支援ソリューション (2)

自己組織化マップ(SOM)を経営者とデータ分析担当者をつなぐ共通言語にしようというのが、15年前に現在の弊社の事業を立ち上げたときの熱い思いでした。
私は、80年代にニューメディアなどの先端技術に関するトピック・セミナーの企画・運営を経験して、その後、大手コンサルティング会社で新規事業開発のコンサルに携わりました。当時、バブル景気の最中で、大手企業が新規事業開発に積極的に乗り出しておりました。コンサルティング業界は、新規事業テーマの探索調査プロジェクトで大いに稼がせて頂いておりました。
しかし、その調査プロジェクトのやり方は、私にとって、どうも納得がいかないものでした。コンサルタントたちは、隅から隅まで少しの漏れもなく情報を収集して、それを戦略理論に沿って分析すれば、正しく合理的な判断ができると信じておりました。そんな調査のやり方をしたら、すでに情報が確定している事実ばかりを丁寧に調査して、まだ不確定な要素の多い新しい動向については「不確かな情報」として判断材料に採用されない傾向が強まります。
はっきりと物事が確定するまで動けないという日本の大企業の行動様式に、こうしたことが大きく作用していました。案の定、そのような会社の新規事業はことごとく失敗しました。さらにバブル崩壊を経て完全に委縮してしまい、戦略が後手後手となって行きました。80年代までは世界を席巻していた日本の半導体・電子産業が壊滅的な状況に至ったことは周知のとおりです。
もちろんそうでない企業もあります。たとえば、自動車メーカーは常に5年後の未来を見据えて製品を開発されています。5年後に世の中がどうなっているか予測することは、とても難しいことです。景気が良いか悪いかだけでも、どんな自動車の重要が増えるか減るかに大きく影響します。つまり、とても大きなリスクを負って製品を開発・製造・販売しなければならないのです。
あらゆることを完全に認識して、完全に合理的な判断を行う、ということは、人間には不可能なことです。
つまり、そのようなリスクを管理しながら、未知の世界にチャレンジできる企業を作らなればなりません。リスクはけっしてゼロにはなりません。リスクをゼロにしようとする企業は、もはや勝負から下りるしかないのです。リスクを<計算尽く>で意思決定し行動ができるかどうかで、これからの時代を企業が生き残れるかどうかが決まります。
弊社が自己組織化マップ(SOM)とともにベイジアンネットワークを戦略的ツールと位置付けているのは、これらのツールが、企業の事業戦略、市場戦略、製品戦略、技術戦略をより柔軟に、より迅速に展開するための切り札になるからです。
SOMは、人間の脳が多次元の空間を認識できないことを補うための重要なツールです。一方、ベイジアンネットワークは、人間が意思決定に必要なすべてのことを完全には知ることができないという現実に対処するための重要なツールです。
人間にとって、この世の中は、ジグソーパズルの出来上がりの絵を知らされずに、徐々に絵が現れてくる様子を眺めているようなものです。不確定なことが1つずつ確定していきます。子供の頃は、誰しもまだまだたくさんの可能性が残されていますが、年齢を重ねるに従って、可能性はどんどん狭まります。森羅万象、同様にだんだんと物事が確定して行きます。
誰にも未来のことを予言することはできません。そういうときに度胸一発で企業の命運をかけた意思決定などできるはずもありません。経営者がサラリーマン経営者だから意思決定ができないとか、そういうことではないのです。
意思決定は、確率論的な観点から限定合理性に基づいてなされなければなりません。モンティ・ホール問題は、直感的判断と確率的合理性が異なることをよく示しています。
ベイジアンネットワークで確率を計算し、SOMで多次元空間での確率分布をマイニングすることで、どんなに保守的で硬直化した組織でも、できる限り可能な合理的判断のもとに勝負に打って出ることができるマネジメント手法が実現できます。
不確実性の戦略マネジメントに関するWebページは、こちらです。

投稿者:

経営者のためのデータ分析/情報分析/思考支援ソリューション

企業に新設されるデータ分析部門は機能するのか?
企業がデータサイエンティストを雇って、データ分析の専門部署を設けるという動きがあるようですが、果たしてそれは上手く機能するでしょうか?
もしデータ分析を彼らに丸投げして、その分析から得られる意思決定の結果のみを会社の上層部に上げて貰えばよいと考えているとしたら、あまり良い結果にならないのではないかと心配します。よくて成果が上がらない金食い虫の部門になってしまうか、最悪の場合、会社に間違った意思決定をさせることにもつながりかねません。
たとえばGoogleのような先端企業では、データ分析が競争優位を獲得するための決定的な役割を演じていることは周知のことですが、それを可能にしているのは、経営者自身がデータ分析技術に対する深い知識・経験を持っているという事実を見逃すべきではありません。そうではない通常の企業の場合、経営者の頭脳とデータ分析の間には大きなギャップが存在します。これを埋めることが今日の企業の重要な課題の1つになってきています。
たとえば、顧客セグメンテーションというのは、企業の戦略そのものです。企業の戦略というのは経営者が決めるものです。もちろん、経営者といえども独断ではなく、優秀なスタッフの協力を得ながら決定を行うのが理想です。しかし、ここにデータ分析が入ってきたときに、「本当に経営者がその決定に参画できているのか?」が疑わしい状況になりつつあるのです。
多くの企業に広がりつつある重大な間違いは、若い社員にデータ分析をさせて、その結果を<客観的な分析結果>と信じて、上層部がそのまま受け入れるということです。戦略的でない枝葉末節な問題では、それでよいことも多々ありますが、顧客セグメンテーションなどの戦略的な意思決定が、それとして認識できていない担当者レベルで行われてしまっている企業が少なからず存在すると、私は認識しております。
経営者に求めらる最低限のデータ分析の知識は何か?
つまり、これからは経営者にも、ある程度、データ分析技術に関する知識を持って頂く必要があります。日経Big Dataの12月号で「習得すべき分析手法は5つでいい」という記事がありました。クロス集計、回帰分析、クラスタ分析、決定木、相関分析、因子分析だそうです。これからの経営者は、これらの分析について、実際的なスキルは別としても、それこそ解説書レベルの(わかった気になる程度の)上っ面の知識ぐらいは持ち合わせて頂かないことには、まったく話も通じないということになりそうです。
しかし、「その程度でよいのか?」というと、やはり、よいわけがありません。ならば、「経営者も上記の5つの基本的な分析手法について、実践レベルのスキルを磨くべきか?」というと、それもあまり現実的ではありません。
もちろん経営者が「実際にソフトウェアを触って基本の分析手法を勉強したい」というのなら反対はしません。その場合は、Excelアドイン・タイプの統計解析ソフトをお薦めします。担当者レベルで好んで使用されている有名ベンダーの高額な統計解析ソフトウェアは、使用法を習得するのが大変なのでお薦めしません。
そして、どんなに高額な統計解析ソフトを使っても、5つの基本手法に限るのであれば、実践的な顧客セグメンテーションは不可能です。顧客セグメンテーションは、統計解析ソフトのより高度な機能を駆使しても、そう簡単なものではありません。Viscovery Porfilerは、顧客セグメンテーションとプロファイル分析に特化したソリューションです。これを使用すると、ユーザーはデータ分析のプロセスを自分で設計する必要はなく、ソフトウェアが提供するワークフロー・ステップにしたがって、正しい作業が行えるようになっています。
たとえば、ジェット機を設計するエンジニアは、データ分析のスキルにおいては最先端の能力を有しています。そういう人たちでさえも、無数の設計解をセグメンテーションするのにViscoveryの能力を活用しています。なぜなら、どんなに頭の良い人でも、もともと人間には多次元の空間を認識する能力が備わっていないからです。だから、それ専用のソフトウェアの力を借りる必要があるのです。
企業のデータ分析担当者がいかに訓練されていたとしても、統計解析の結果から本当に多次元のデータ空間を理解できるか?といえばそれは無理なんです。悪いことは言いません。無理をせずに、顧客セグメンテーションにはViscovery Porfilerを使ってください。Viscoveryの自己組織化マップ(SOM)テクノロジーは、人間の認識能力の限界を克服します。
つまり、統計学のいろんなこを勉強するよりもまず、SOMのマップの見方・使い方を覚えるだけで、人間の情報分析能力が飛躍的増大します。だから、データ分析担当者にも、経営者にも、これをお薦めします。そして、SOMは両者をつなぐコミュニケーションの基盤、共通言語になり得るのです。
まったく心配することはありません。SOMを理解するために、統計学や機械学習アルゴリズムなどに関するすべてのことを積み上げで勉強する必要はまったくありません。(もしそうしようとしたら5年ぐらいかかると思いますが)基本的なマップの見方は、ほんの2、3分でわかることです。そして、もう少し本質的な動作原理から理解したい場合でも、2、3時間のトレーニングで十分です。何なら一般的な統計解析の(ただし解説書レベルの)知識もここで同時に勉強して頂くことも可能です。
顧客セグメンテーションは、企業にとって最重要の戦略的テーマです。したがって、データ分析担当者がViscovery Profilerを使ってテクニカルな作業を行いながら、経営者・管理者の参加のもとに意思決定がなされなければなりません。担当者レベルで、勝手にセグメンテーションを決定するなんてことは大間違いなのです。したがって、経営者・管理者にも、Viscoveryが提供するSOMのマップの見方を理解することが、今後、必須の能力になってきます。
戦略マップの作成
経営者にSOMのマップの見方・使い方により親しんで頂くために、弊社では、顧客セグメンテーション以外に、戦略マネジメント全般におけるSOMの活用法をコンサルティングします。
じつは、私が1999年からSOMの活用法を研究し始めた当初のアイデアがこれでした。戦略マネジメントで使用されるさまざまなマトリックスをSOMに置き換えることによって、戦略マネジメント手法を生まれ変わらせることができます。
これらは比較的小さなマトリックス(表)を使用しますので、データマイニングとかデータ分析というほどのレベルではなく、思考支援手法と言った程度になります。
私がSOMに関わり始めた最初が、SOMによるこれらの戦略マップの作成だったのですが、Viscoveryの技術をより深く理解し、統計解析やデータマイニングの知識が増えてくると、当初の私のアイデアがあまりに幼稚なものだったような気がしてきて、長い間、これを封印しておりました。
しかしながら、今、SOMを経営者とデータ分析担当者をつなぐ共通言語にしなければならないという思いに立ちかえって、再び、SOMによる戦略マップの重要さを見直しているところです。
戦略マップのコンサルティングに関するWebページは、こちらです。

投稿者:

潜在クラス分析(クラスタ・モデルおよび回帰モデル)とは (2)

XLSTAT-LGの潜在クラス分析を少し触ってみました。これは計算に時間がかかります。パソコンを操作しながら、その場で結果が出ることを期待されるなら、快適に使用できる範囲は、1000行×10列程度までと思われます。
もちろん、それより大きなデータでも数時間とか日単位の計算時間を覚悟するなら可能だろうと思われます。ただし、途中で交互作用の設定をするダイアログが現れますので、列数が多くなると、この組み合わせが膨大になります。ここで、どれを設定するか、しないかで結果が変わるとしたら、現実的には数10個とかそれ以上の変数を持つデータに適用するのは難しそうです。
前の記事でViscoveryと対比させておりましたが、したがって、それは手術用メスと鯨包丁を比較するような話です。(刃物なら見た目で違いがわかりますが、データ分析手法は使ってみないと違いがわかりません。)
Viscoveryの場合は、数10行×数列の小さなデータから、100万行×数100列規模の大規模データまでカバーできます。あるいは行を減らすか、コンピュータのパワー次第で数1000列のデータも扱えます。また、Viscoveryでは非線形に対応したモデルが生成されますので、ユーザーが交互作用を指定する必要がなく、結果として、交互作用よりも精度の高いモデルが実現できます。
– Viscoveryでもクラスタ数の有意度を示す指標が使用されるのですが、それは「参考程度」にか活用されません。Viscoveryのクラスタ指標は、階層クラスタリングでクラスタを段階的に融合していくときに、クラスタ内分散が増大する量によって判断しています。
– 一方、潜在クラス分析は、対数尤度やAIC、BIC、その他の情報量基準とパラメータ数(節減の原理)、p値による判断ができ、さらに2変量残差によって、それをより詳細化・修正するという2段階になっています。
– Viscoveryでは階層クラスタリングにより、さまざまなクラスタ数を広範囲に探索できて、場合によっては、クラスタリングの結果にこだわらずに、マップ領域を選択することで、セグメンテーションを自由自在に修正できてしまいます。
– 潜在クラス分析では、あらかじめ指定する狭い範囲のクラスタ数しか検討できません。範囲を広くとれば、それだけ計算に時間がかかります。その代りに、統計的に有意なクラスタ数をはっきりと示してくれます。
– Vissoveryでのクラスタリング(セグメンテーション)は、データレコードは必ずどれか1つのクラスタ(セグメント)に振り分けられますが、
– 潜在クラス分析では、どのクラスタに属していそうかをメンバーシップ確率で表現されます。
ViscoveryのSOM-Wardクラスタリングを用いたセグメンテーション・モデル、SOMローカル回帰法を用いた非線形近似の重回帰モデルと、潜在クラス分析のクラスタ・モデル、回帰モデルは、似通った特性はあるものの、一長一短というより、想定する使用目的・方向性がかなり異なるものであります。

投稿者:

潜在クラス分析(クラスタ・モデルおよび回帰モデル)とは

XLSTATの潜在クラス分析のWebページを翻訳し終えました。
機能紹介:
潜在クラス・クラスタ・モデル
潜在クラス回帰モデル
チュートリアル:
潜在クラス・クラスタ・モデル
潜在クラス回帰モデル
これはかなり使えそうな強力なツールです。
XLSTAT-LGは、Statistical Innovations Inc. Latent Gold® という製品に基づいて開発されました。
じつは国内では先行して、2009年にExcelアドインの潜在クラス分析が他社から出ているのですが、今回はExcelアドイン統計解析としては世界的に本家本元として認知されているXLSTATへの搭載ということで、実装レベルが優れています。とくに潜在クラス回帰モデルでは、Excelから利用できる初の製品になるはずです。
潜在クラス・クラスタ・モデル
他社のWebページでは、すでに潜在クラス・クラスタ・モデルを「潜在クラス分析」として解説しているようです。
弊社では、常々「クラス分類とクラスタリングを混同してはいけない」と口酸っぱく言っているわけですが、このネーミングはユーザーを惑わせてしまいそうです。結論から言うと、これはクラスタ・モデルです。
ただし、従来のクラスタ分析とは異なるアプローチなので、区別するために「潜在クラス」という用語が使用されているようです。大きな違いは、ケースが完全にどれかのクラスタに割り当てられるのではなく、ケースごとに各クラスタへのメンバーシップ確率が計算されることです。このほか、説明変数に量的変数と質的変数のみでなく、順序変数が使用できるというところが違います。
統計的に有意なクラスタ数の決定ができるようにもなっています。かなり完成度の高い手法なのですが、そうなってくると、ユーザーがこの結果を「絶対的客観的な分析結果」として素朴に取り扱ってしまいそうだという心配も出てきます。ごく当たり前のことなのですが、利用可能な変数が多数存在する場合、クラスタリングは、どの変数を使用するかで結果が異なります。とても厄介な問題ですが、それこそが創造の源なので、そこから目をそらされることがないことを願います。
潜在クラス回帰モデル
潜在クラス回帰モデルは、線形重回帰モデルの改良版です。つまり、目的変数(従属変数)がある場合の手法です。データからたった1つの重回帰モデルを生成するのではなく、均質なクラスタを生成しておいて、クラスタごとに線形重回帰モデルを作成します。
説明変数(予測変数)には、量的変数と質的変数(名義変数)が使用でき、目的変数(従属変数)には、名義、順序、数値の応答タイプが選べます。
ちなみに、弊社が販売しているViscovery Predictorという製品では、SOMローカル回帰という手法を使っていて、それもこれと似たような考えで重回帰モデルを作成します。ただし、SOMローカル回帰ではSOMのノードごとに回帰モデルを作成しますので、全体的にほぼ曲面を近似するモデルとなります。
潜在クラス回帰モデルでは、データ空間を数個程度のクラスタに分割するところまでしかできません。なぜなら、あまりにデータを小さく分割しすぎると、1個1個の回帰モデルがあまりに少ないデータから作成されることになるので、モデルの信頼性が落ちるからです。
Viscovery Predictorではなぜ1000個とか多数のノードごとに回帰モデルが作成できるのか、そこには、もう一ひねり、二ひねりのアイデアがあるからです。詳細は割愛しますが、Viscovery Predictorのマニュアルを読めば目からウロコが落ちます。ただし、Viscovery Predictorでは基本的に目的変数を数値タイプとして取り扱います。
半歩先を行くお買い得商品
XLSTAT-LGがどれぐらいの規模までのデータに耐えられるのかは、まだこれからテストするところですが、超多次元データからセグメンテーション・モデルを作成するにはViscovery Profiler、超多次元データから回帰モデルを作成するには Visvovery Predictorがお薦めです。ただし、価格が高価です。
XLSTAT-LGは、XLSTAT-Proと同じ価格設定になっており、XLSTAT-Proは基本モジュールで必須ですので、結果として価格はXLSTAT-Proの2倍となりますが、それでもViscoveryに比べると、1/60ぐらいの価格です。
人間の認識能力の限界を突破して、多次元のデータ空間をビジュアルなマップで見ることのできるViscoveryの強みには及びませんが、とても安価な価格で、従来手法よりも半歩先を行くクラスタ・モデルと回帰モデルを入手できるという点では、XLSTAT-LGはかなりお買い得商品だと思います。

投稿者:

XLSTAT 2014.6 リリース

XLSTAT 2014.6がリリースされました。主な追加機能は、下記のとおりです。
– XLSTAT-Pro: ANOVAポストホック検定の”保護”オプション。
– XLSTAT-Pro: ANOVAでの上部/下部の2/3ボックスの表示を含む新しい結果の表
– XLSTAT-MX: 官能識別検査の機能
– XLSTAT-LG: XLSTAT-Proと同等な価格の新モジュール。潜在クラス・クラスタリングおよび回帰を実行できる。
XLSTAT-LGモジュールは、この分野で基準ソフトウェアとなっているLatent Goldの開発元であるStatistical Innovationsとの提携によって開発されました。

投稿者:

戦略的意思決定をデータサイエンティストに丸投げする愚行

世間でバズワード化している「データサイエンティスト」が本当の科学者ではないという話を書きましたが、仮にそのデータサイエンティストがちゃんと勉強をして、高度な分析技術を身に着けたと仮定しても、必ずしもそれが企業の役に立つわけではありません。
もちろん、一定の条件を満たせば十分に役に立つことが期待されます。それは、データサイエンティストと経営管理者などの意思決定権限者とが、十分にコミュニケーションがとれていて、利用可能なデータ分析技術で解決が可能な課題が明確に与えられる場合です。しかも、その課題は、戦略レベルの問題ではなく、戦術レベルに限定されなければなりません。
世間では安易に「戦略的情報」などと言う言葉が使用されることが多いのですが、その多くは「とても価値のある情報」というぐらいの意味で使用されることが多く、「戦略経営」の観点からの厳密な意味での「戦略」を意味していないようです。しかし、戦略経営の観点で言えば、企業の戦略を決定するのは、社長および取締役らによらなければなりません。
もし、そんな意思決定をビジネス経験の浅いデータサイエンティストに丸投げするような会社があれば、10年後もその会社が存続しているかどうか怪しいものです。
多くのデータマイニング・システム・ベンダーが、「予測分析(Predictive analysis)に重点を置いているのは、そのような理由もあると考えられます。予測モデルの場合、課題の定義が単純ではっきりしているからです。また、それほど特別な技術を使わなくても、たいていの場合、何もしなかったときよりも確実に改善を得ることができます。そして、モデル品質を比較する基準も明確なので、より良いモデルが得られるように努力する方向も明確です。
しかし、明確な課題を与えずに、社内に蓄積されたデータや(最近流行りの)オープンデータを用いて、「何かわかることがないか?」「何かに役立てられないか?」というような取り組みをデータサイエンティストにさせようというのは、あまりお薦めできません。
100人のうち何人かは、誰に教わることもなく、優れた経営感覚を持っているデータサイエンティストがいなくはないと思います。運よくそういう人材を採用した会社は、救われるかもしれませんが、そうでない場合は、ろくな成果も上がらない部門に余計なコストがかかるだけの結果になります。
会社のシステム部門が「金食い虫」と言われ続けたことを想起するデジャビュ体験です。仮に救われたとしても、その会社の経営陣は責任放棄しているに等しいです。本来は、経営陣が考えなければならないことを科学者に丸投げして、そのご託宣を仰ぐということで良いわけがありません。
セグメンテーションには経営陣が関与するべき
とくに経営陣が丸投げしてはならないのは、製品・市場・顧客などのセグメンテーションの問題です。たとえば、顧客をどのようにセグメンテーションして、どのセグメントを自社のコアなターゲット顧客と考えるか?そして、どのセグメントを戦略的に打って出る「戦略ドメイン」と考えるか?は、経営陣が考えるべきことであって、データサイエンティストに丸投げするべきことではありません。これは、まさに戦略的な課題だからです。
つまり、これからの時代は、「データに基づいてセグメンテーションを考える」という作業に経営者自身が参加しなければならないのです。
しかし、「経営者自身が先端の分析技術を勉強するなんてナンセンス」と反論されるかもしれません。ご心配は無用です。ヨーロッパの一部の企業の経営者は、もうそのレベルをクリアしております。
Viscoveryでは、セグメンテーション・モデルを作成するところまでのテクニカルな作業は、会社のIT部門やデータ分析ツールの操作担当者(それを「データサイエンティスト」と呼ぶなら呼んでも結構です)が補佐して行うことができます。そこから先、セグメンテーションをいろいろといじってみて、ターゲット・グループを決定することは、意思決定権を持つ経営管理者が十分に行えます。どのターゲット・グループにどの施策を適用するべきかを意思決定権限者の判断のもとで決定すると、それをデータベース全体に適用したり、実行系システムでリアルタイムに適用するためのテクニカルな作業は、また社員が担当すればよいことです。
重要な点は、Viscoveryを使用すると、本来、経営陣が意思決定しなければならいことを「データ分析」の名のもとに、決定権を有しない社員にうやむやなうちに委ねてしまうという愚行を避けることができる、ということです。
まったく心配はいりません。経営陣が、先端のデータ分析技術を勉強するなんて必要は一切ありませんから。

投稿者:

総花的データマイニングの終焉

「データサイエンティスト」と呼べるような人は、本来は、統計解析や機械学習、人工知能などを研究している(いた)科学者であるべきなのですが、それが「データ分析者」のことになってしまった経緯をもう少し詳しく述べます。
それは従来のデータマイニング・システムが、科学者でなければ使いこなせないような難しいものだったからです。
伝統的な統計解析ソフトウェアのベンダーが、初期のデータマイニング・システムを売り出したことが、データマイニング・ブームに火をつけました。統計解析ソフトウェアというのは科学者のためのツールです。医学、生物学、農学、栄養学、心理学、社会科学、工学といった分野で統計解析が使用されます。これらの科学者は、とくに統計学を専門に勉強しているわけではありませんが、科学者の共通言語として統計学が位置付けられております。したがって、科学者はそれなりに勉強して、統計解析ソフトウェアを使いこなせるように努力しています。
企業でも戦後、生産部門において「科学的管理手法」が導入されて、生産管理・品質管理の分野で統計解析が導入されました。私は、その年代よりも後なので当時のことは知りませんが、初期は「科学的管理」というスローガンのとおりに科学的色彩が濃かったものと想像します。ついで、マーケティング部門でも統計解析が導入されるようになってきました。これも初期は、社会科学や心理学の研究の中で統計解析を使った経験を持つ人が、企業に持ち込んだものと思われます。
(しかし、企業内で統計解析が広まるに伴って、あまり正しく使用されていない場合も増えてきているのは、他の記事でも述べたとおりです。)
伝統的な統計解析ソフトウェアのベンダーが、従来の統計解析の枠組みを超えて、人工ニューラルネットワークや機械学習アルゴリズムを搭載したソフトウエアを「データマイニング・システム」として売り出したとき、その基本構造は従来の統計解析ソフトウェアの構造を継承しました。

総花的データマイニングの限界

つまり、統計解析ソフトウェアというのは、記述統計から検定、多変量解析に至る膨大な数の手法の集積です。個々の手法・アルゴリズムが関数として実装されており、ユーザーはさまざまな関数を呼び出して、それらを組み合わせて一連の分析手順を組み立てます。
これと同様、従来のデータマイニング・システムは、従来の統計解析に加えて、新しいアルゴリズムが実装されたものであり、やはり、ここでもユーザーは自分で分析手順を組みたてなければならないのでした。ただし、それを「アイコンをつなぎ合わせるだけでプログラミングの必要なしにビジュアルに操作できる」ということをセールスポイントにしていました。
さまざまなデータマイニング用の手法・アルゴリズムが実装されており、万能なシステムであるかのように見えるのですが、それを本当に使いこなすには、個々の手法・アルゴリズムについての<科学的知識>が必要です。もちろん、ソフトウェアなので内部の計算の詳細にまでユーザーが意識をしなくても、計算そのものは正しく行われます。しかし、個々の手法・アルゴリズムの特性を理解して、的確に使用するには、最低限の知識は必要です。
それが1つや2つのことであれば、素人でもなんとか勉強できますが、たくんさんの手法・アルゴリズムが総花的に実装されていて、それらをすべてを理解することは、素人には不可能です。データマイニングの解説書が多数出版されましたが、どれも表面的な内容で、「わかったつもりになれる」というレベルのもので実践的な内容ではありませんでした。
そりゃ無理です。データマイニングに使用されるさまざまな手法は、どれか1つでもちゃんと勉強したら博士になれるぐらいです。そういうものを素人が、あれもこれも使いこなせるはずがないのです。

データサイエンティストの実像

なので、従来のデータマイニング・システムを本当に使いこなせるのは、その中で使われているアルゴリズムについて、大学院で専門的に研究していた人(あるいは研究のアシストをしながら勉強をしていた人)に限られるのです。
そんなデータマイニング・システムを一般の企業が数千万円もかけて導入しても使いこなせる人がおりません。だから、力のある一部の企業は、本当にデータマイニングの経験のある本物の科学者を採用します。それが「(企業内)データサイエンティスト」の始まりです。
ところが、本物のデータサイエンティストはそんなに大勢おりません。高額なデータマイニング・システムを導入した企業のほとんどで、ちゃんとした成果が得られていないのが現実です。
それで、出てきた発想が「データマイニング技能者を育成する」ということです。ここで「データマイニング技能者」と言ってもあまり魅力的に聞こえないので、「データサイエンティスト」に昇格させて、「あなたもデータマイニング・システムの使い方を習ってデータサイエンティストになりませんか?」というキャンペーンを展開中というわけです。
全体の底上げという意味では効果がないわけではないでしょう。勉強すれば、少しはマシな使い方ができるようにはなるでしょう。しかし、そんなお手軽なデータサイエンティストにプロフェッショナルな仕事を期待できるものでしょうか?答えは明らかに「ノー」です。

一点突破のデータマイニング・アプローチ

そもそも話を元に戻すと、従来のデータマイニング・システムの最大の欠点は、「総花的なアプローチ」にあります。
データマイニングには、さまざまなアプローチがあるのですが、従来のベンダーは優等生的に、そのすべてをカバーしようとしているので、個々のアプローチに最適化された製品ではないのです。
Viscoveryは、従来のデータマイニング・ベンダーとは対照的に、SOMアプローチに特化しています。「SOMなら従来のデータマイニング・システムにも搭載されている」という誤解が多いのですが、その実装レベルは天と地ほど違います。
Viscoveryは、SOMアプローチのデータマイニングを提唱しておりますが、それはSOMだけしか提供されていないということではありません。データマイニングの技術体系をSOMを起点にして組み替えて、一貫性のある技術体系を提供しているのです。
難しい状況を打破するときの作戦として「一点突破」ということがあります。勉強嫌いの子供が、何か1つ得意な科目を獲得すると、そこから一転して、他の科目でも成績が上がっていくということがあります。
あらゆる物事はつながっています。バラバラではありません。企業がデータマイニングをものにするにも、一点突破の作戦は有効です。

投稿者:

ハイパー(偽)データサイエンティスト増殖中

最近の某産業新聞では「データサイエンティスト(データ分析官)という表現が目につきます。いつからデータサイエンティスト=データ分析官という定義に変わってしまったの?と首をかしげてしまいます。ほんの数年前までは、「データ分析官(データマイニング技術者)」という記事を多く目にしたものです。つまり、この新聞の用語では、データサイエンティストも、データマイニング技術者も、データ分析官も同じことのようです。無意味に言葉を言い換えるのは、言葉遊びです。
海外ではData MinerとかData Scientistという言葉はよく使われていますが、日本で使われている「データ分析官」に相当するような英語(無理やり訳したらData analyzing officerになると思いますが)を私は知りません。たぶん、この言葉を広めたのはデータマイニングの受託サービスをしている某会社の社長さんなのですが、私が思うに、これは彼の造語であり、もともとそんな言葉はなかったと思います。「データ分析技能者」で良いところをわざわざ「官」の字を入れたのは、その会社が、さも特別に公的な権限を持ってデータマイニングの仕事をしているようなイメージ(つまり、もぐりではないこと)を演出したかったからだと思います。
個別の会社が勝手に「データ分析官」を名乗るぐらいのことは、とくに何の問題もありません。ある程度の見識を持つ人から見れば「ああ、イメージアップに懸命なんだな」で済むことです。しかし、新聞記者がそのお先棒まで担ぐのはちょっと困りものです。新聞記者が取材の中で「Data Miner=データ分析官」という説明を受けて、それを鵜呑みにしてしまい、今度はまた「Data Scientist=データ分析官」と言い換えられても、それをそのまま、何の疑問も持たずに記事にしてしまっているのは、何とも情けない限りです。自分が歳をとったせいもあるのかもしれませんが、新聞記者のレベルがかなり落ちているように感じてなりません。
大事なことなのでもう一度強調しておきますが、「データ分析官」という言葉はありません。「データサイエンティスト」は「データ分析官」でもありません。
「データ分析官」という語にはとても嫌な違和感を感じるので付け加えますが、データ分析の機会は万人に開かれているべきであり、けっして官によって規制されたり利権化されたりしてはなりません。
Data Minerは、「データマイニングをする人」であり、したがって、「データマイニング技術者」とか「データマイニング技能者」と訳すのは可能だと思います。Data Scientistは、カタカナで「データ・サイエンティスト」です。ここで重要なのはScientistとは、日本語で「科学者」ということです。ですから「データ科学者」と訳すのが正しい訳し方でしょう。
ただし、英語でのData Scientistも”just a media hyped title”(単にマスコミがでっち上げた肩書き)に過ぎません。もともとのイメージではあくまでも「科学者」なので、統計学か数学か、あるいはコンピュータ・サイエンスなどの分野で、最低でも修士以上の学位に相当する学識を有するというイメージでした。それが、データ分析に関する何等かのコースを履修したらData Scientistと自称できるという風潮が英語圏でも広がっているようです。詳しくは、こちらをご参照ください。
大学院でニューラルネットワークとかその他の機械学習テクノロジーの研究をしていたような人が、大学でポストを得る代わりに、Googleのような先端企業に入って研究を続ける人もいるわけです。基礎研究のテーマだったものが応用・実用化の段階に移行して、科学者の新しい就職口として企業がクローズアップされるようになってきたわけです。それが企業でデータ分析をする人がデータサイエンティストであるかのように意味が転じてしまい、さらには「データサイエンティスト」という肩書をでっちあげて、それになるためのコースやら資格認定やらを商売にしようと画策する会社や団体が出てきたのが昨今の状況です。
日本でも「データサイエンティスト協会」などという団体が設立されてしまっています。説明するまでもなく、この協会は科学者の団体ではなく、「データ分析技能者協会」と称したほうがよさそうな中身です。どうせ「自分の(会社の)都合の良いように世間を誘導したい」という人たちが作っている団体なので、弊社はまったくノータッチです。
マスコミに頻繁に登場する自称・脳科学者の何人かは、地道な実験等は何もしていない「ノー科学者」なのに、それに対する批判がまったく報道されないぐらいなので、科学者が作ったデータ分析用ソフトウェアを使うだけで「サイエンティスト」を自称できてしまっても、そりゃ文句を言えません。ノー科学者よりかは、はるかに地道な仕事をしていることは確かです。世の中、肩書のインフレーションだらけです。
そういうことなので、昨今マスコミでもてはやされる「データサイエンティスト」は、「データ分析技能者」と脳内変換して解釈しなければならないのですが、それが流行の最先端を行く花形職種だというのもまた大うそです。
かつて、プログラマーやSEが花形職種としてもてはやされたものですが、現在の惨状を見れば、もはや説明の必要もないでしょう。独自の製品を開発できる一握りの天才的なプログラマーは巨万の富を得ましたが、何を開発すればよいかわからず、単にコンピュータの知識だけで仕事をしようとしたプログラマーやSEは、今やしがない派遣労働者でしかありません。データ分析のスキルだけで仕事ができると思っている人がいるとしたら、そういう人はたぶん派遣どころか早晩失業の憂き目に遭うことでしょう。「英語ができる」というだけでは、大して仕事には役に立たないのと同じようなことです。
本物のデータサイエンティストとハイプ(hype:誇大・インチキ・ほら吹き)なデータサイエンティストは、月とすっぽんです。ちなみに、かつてHyper Media Creatorという肩書の人がおりましたが、Hyper Mediaというバズワードが死語となった今では、「ほら吹きなメディア制作者」という意味でしか通用しなくなっております。ですから、昨今のにわかデータサイエンティストも「ハイパー・データサイエンティスト」と名乗っておけばよいと思います。
もともとのデータサイエンティストの意味からすれば、統計解析や機械学習、人工知能などを用いたシステム(たとえば、次世代のデータマイニング・システム)を開発している人こそが、本物のデータサイエンティストなわけですが、そういう人たちが現在開発しているのは、もはや偽データサイエンティストのためのシステムではありません。
本物のデータサイエンティストが目指しているのは「マインドウエア」です。すなわち、(経営者などの)人間の「判断」をモデルできるシステムです。それは、単純に「コンピュータによって判断を自動化する」ということを超えて、経営者の「マインド(戦略)」を会社の隅々にまで行き渡らせて、個々の取引または顧客対応のレベルで実行可能にします。たとえば、弊社が取り扱っているViscoveryがそれです。
Viscoveryのような本物のデータサイエンティストが開発したシステムは、そのユーザーに(本物または偽物の)データサイエンティストであることを要求しておりません。

投稿者:

Hugin 8.1 日本語GUIファイル

先日リリースされたHugin 8.1の日本語GUI用ファイルをこちらにアップしております。
使用方法は、Hugin 8.1がインストールされたフォルダに「i18n」というフォルダを作成して、上記からダウンロードしたzipファイルを解凍して、中身のjp_JP.xmlファイルを置くだけです。
Huginソフトウェアを起動して、オプション/プリファレンスから、プリファレンス・ウィンドウを開いて、言語フィールドで「jp_JP」を選択します。変更の結果は、次回Huginソフトウェアを起動したときに反映されます。
ご不明な点はマインドウエア総研にお問い合わせください。

投稿者:

アンケート分析は集計前のデータから

弊社のユーザーで「コレスポンデンス分析ができない」と言って相談を持ち掛けてくるなかで、データを送って貰うと、それが単純集計データになっていることにもう何度か出会っています。最初は「初心者の中には生データと集計データの違いがわからない人もいるのかなあ」と見過ごしていたのですが、それが複数回となると、「いったい、世間で行われているアンケート調査って、本当にちゃんと分析できているのだろうか?」と心配になってきます。
アンケート調査の結果データは、一般的に、列に各設問、行に回答者が入った表にまとめます。そして、表の各セルには、回答者が回答した各設問への回答(カテゴリ値、すなわち文字列)が入ります。設問×回答者の表です。コレスポンデンス分析や多重コレスポンデンス分析などのアンケート調査用の多変量解析は、まずこの表から出発しないといけません。
コレスポンデンス分析は、任意の2列の質的変数(アンケートの場合は設問)の各カテゴリ値(回答)の間の関係性を分析します。生データからクロス表(2元表)を作成して、そこから固有値の計算(ベクトルの計算)をして、2次元のマップに各カテゴリを布置します。
多重コレスポンデンス分析は、一言で言うと、質的データ(カテゴリ・データ)で行う主成分分析です。まず、複数の質的変数(設問)を含むデータをダミー変数化(分離表の作成)します。つまり、1つの列に含まれる各カテゴリをそれぞれ異なる列に「分離」して、新しくできた列に1か0の数値を入れていきます。たとえば、YesまたはNoというカテゴリがあるとしたら、Yesの列とNOの列が新たにできて、もしある回答者がYesと回答している場合は、その行のYesの列に1が入り、Noの列に0が入ります。コレスポンデンス分析は、このようにしてできたダミー変数の表に対して主成分分析のような計算を実行して、2次元のマップを作成します。
このようなわけですので、すでに単純集計されたデータからは、それをどのようにいじくっても、コレスポンデンス分析も多重コレスポンデンス分析もできません。しかし、困ったことに、不適切なデータでも、統計解析ソフトで多重コレスポンデンス分析を適用すると、それらしい結果が出てしまいます。ここでいう単純集計とは、行に設問が入っていて、列にカテゴリ(回答)が入っていて、各セルの値は、設問に対する各回答の度数が入っているような表です。
とくに回答者数が極端に少ない場合、単純集計の各度数の値をそのままカテゴリ値として解釈して、計算はできてしまうのです。たとえば、(実際に見た例ですが)回答者数が”6″であれば、0,1,2,3,4,5,6というカテゴリ値を持つ質的変数として解釈して、計算ができてしまいます。計算はできてしまうのですが、これでは正しく多重コレスポンデンス分析をやったことにはなりません。(回答者数から分析の仕方まで、何から何まですべてにおいてお粗末な調査と言わざる得ません。)
これまでに同じような間違いをしている複数の人に出会いました。本人は、「設問間の関係が見たくて回答者間ではない」などという屁理屈をつけて、何か独自の分析を行っているかのようなことを言っています。いやはや、このような口達者で論理のデタラメな人には困ります。
百歩譲って、単純集計データは質的データではなく量的データになるので、多重コレスポンデンス分析ではなく主成分分析を適用するなら、まだ救いどころはあるのですが、それでもあまり意味のある分析とは思えません。集計データにコレスポンデンス分析や多重コレスポンデンス分析、あるいはその他の多変量解析を適用するのはお薦めしません。ご注意ください。