カテゴリーアーカイブ データマイニング・リテラシー

投稿者:

ノーフリーランチ定理と事前知識

no-free-lunch theoremについてWikipediaより、
「数学的にありうべき全ての問題の集合について、どの探索アルゴリズムも同じ平均性能を示すこと」
「探索アルゴリズムに必ず何らかの偏向があるため、そのアルゴリズムが前提としている事が問題に当てはまらないことがある」
「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能であり、ある戦略が他の戦略より性能がよいのは、現に解こうとしている特定の問題に対して特殊化(専門化)されている場合のみである」(Ho and Pepyne、2002年)
「問題領域に関する知識を使わずに遺伝的アルゴリズムや焼きなまし法などの汎用探索アルゴリズムを使うことに反対する論拠」
あるいは、朱鷺の杜Wikiより、
事例の分布などについて事前知識がなければ, あらゆる目的関数について他を常に上回るような学習アルゴリズムは存在しないという定理」
ということですが、これはモデルを作成するときに「問題領域に関する知識(事前知識)」を使わないで、アルゴリズムまかせにすることの愚を指摘していると捉えるべきかと思います。
それがどういうわけか、「たくさんの種類のモデリング手法(機械学習アルゴリズム)を網羅的に試して、その問題に最も適した手法を探さなければならない」というふうに読み違えられているような気がします。それで、SASがよいか?Rがよいか?はたまたPythonか?ということなのですが、実際使ってみると、どうもうまくモデルの精度が上がらないというのが、最近の傾向かと思います。
私は何度も口酸っぱく言っているのですが、それぞれの手法はどれか1つでも深く勉強すれば、それだけで研究者になれるぐらい奥が深いものです。たくさんの手法を上っ面だけ勉強して、あれもこれも使おうとしたら、どれもこれも初心者レベルを脱することができず、実践的な結果は何も得られないということになります。
そこで悪知恵の働く人々は、「機械学習は幅広く深い専門知識が必要ですから、専門家の指導を仰ぎなさい」と言って、企業からたんまりとコンサルティング料をせしめています。大きな会社がそういうビジネスをやっていると、つい信用してしまいそうなのですが、SASやR、Pythonのような基礎的ツールで実践的な結果の出せるデータサイエンティストというのは、世界中探してもそうたくさんはいないと思います。
データサイエンティストを数10人とかそれ以上も擁しているデータサイエンティストの派遣会社というのもあるのですが、実際そこに在籍している人材のほとんどは、ほぼ経験のない人ばかりです。これは、(海外ではありえないことですが)コンピュータの知識を持たない文系SEというのが跋扈する我が国のシステム開発の伝統をそのまま引き継いでいます。
どんどんと本質から外れて、金食い虫になってしまうのがオチです。
あれもこれも、たくさんのツール・手法を使いないこなせることよりも、問題領域に対する洞察力が重要です。といっても、これも「どうすればそのような洞察力が得られるか?」という問題は残るのですが。
たとえば、数千点とか数万点の商品があって、特定の商品の販促を行う際に、ほかの商品の購入履歴から、目的の商品を購入しそうな顧客を見つけよう、という問題に取り組むとします。アソシエーションルールがよいか、線形回帰がよいか、あるいはロジスティック回帰か、あるいは単純ベイズか、というような議論になりがちです。
ここで、「どの商品とどの商品を購入しているかの組み合わせパターン」に着目するのは当然のことなのですが、たとえば「購入の合計金額」という新しい説明変数を追加することによって、リフト・チャートが劇的に改善されることがよくあります。なぜなら、消費者は個々の購買力によっても、購買行動のパターンが異なるからです。
問題領域の知識(事前知識)を活用するとは、こういうことです。モデリングの手法にどれを選ぶかよりも、こういうことの方が大きく結果に影響することがあります。
このような知識を使わないでアルゴリズムまかせにするアプローチとして、「潜在クラス回帰」があります。ユーザーが「購入の合計金額」という新しい変数を計算しなくても、購買履歴データから自動的に「購買力」をクラス分けして、層別のモデルを作成するはずです。今のところの私の感触としては、潜在クラス回帰を使用するよりも、「購入の合計金額」というような特徴を抽出できるなら、その方が効率的です。
このような特徴を抽出するのは、ちょうど幾何学の問題を解くときに「補助線」を発見するのが重要な糸口になるのと同じようなことかと思います。
弊社がSOMアプローチのデータマイニングを提唱する理由は、こういうところにあるのです。ViscoveryのSOMローカル回帰が他のどの手法よりも優れているということはありません。SOMローカル回帰が意図しているような非線形性がデータに内在する場合は、ドンピシャですぐれた結果をたたき出します。しかし、当然、データによっては、通常の線形回帰とそれほど変わらないということもよく起こります。つまり、それがノーフリーランチ定理で示されているのと同じ状態です。
しかしながら、SOMアプローチの他と異なるところは、「腹の底からデータを理解できる」というところです。解決の糸口、注目するべき特徴を見つけるためのツールです。

投稿者:

データサイエンティストの根本問題

昨日の記事に続いて、データサイエンティスト問題についてもう少し触れてみたいです。
データサイエンティストにどのようなレベルを求めるかによって、本物と偽物を分ける境界は変わってきます。昨日の記事の元記事の論者は、データサイエンティストが本物の科学者であり、かつビジネスも理解してビジネス上の問題解決を図ることができるという夢のようなことを設定しているようです。そりゃ、そんなスーパーマンは、そんじょそこらにはおりません。
いつも数学のことを考えている人というのは浮世離れしているものだし、毎日忙しく働いているビジネスマンが数学のことなんて考えている暇はありません。それを両立させようというのはかなり難しいことです。実際に採用可能な人材の多くはその中間なので、どちらの能力もさほどぱっとしないということになります。企業はそういう凡人を使いこなしてこそなんぼのものです。そこに必要なのは「戦略」です。
大学院で研究したからと言って、皆が皆、天才的な科学者になれるわけではありません。ほとんどの人は凡人です。もちろん普通の人が知らない専門知識はたくさんあります。ただし、それを知っていても、実際問題にそれがうまくフィットするとは限らないものです。
現在の機械学習の状況を端的に言えば、大学院で研究していたアルゴリズムを使ってコンペに出たら、たまたまそのアルゴリズムの特性とコンペで出題された課題がうまくかみ合って優勝して、大企業から出資を受けてベンチャー企業をスタートアップさせた、というようなことが米国で起きているわけです。そういうロック・スター型のベンチャー創業者が誕生しているわけですが、それはほんの一握りの幸運な人たちです。
つまり、確固たる研究成果があって、(偶然にせよ)それに適したアプリケーションがしっかりと設定できたときにビジネスに結び付きます。そういう場合には、元の研究成果を核として技術開発の方向性(技術戦略)がはっきりと描けます。
しかし、多くのデータサイエンティストが置かれる状況は、そんな理想とはほど遠いようです。つまり、大学院で研究したことは、それはそれとして横に置いといて、機械学習全般の知識を駆使して、採用された会社のビジネスの課題にチャレンジすることになります。
大学院では遺伝的アルゴリズムを研究していたけど、会社に入ると「ディープラーニングが流行りだから、そっちをやれと言われた」というようなことはありがちなことでしょう。それで、また一から勉強しなおして対応します。運がよければ、異なる技術を組み合わせて、新しいものを作り出せるチャンスからもしれません。
しかし、現実はそう甘くありません。なぜなら、そこは大学でも研究所でもなく民間会社です。しかも、数年前までは機械学習なんても見向きもしていなかった会社が、ブームに乗ってデータサイエンティストを採用して新しい部署を設置したというようなところです。組織が新しいことにチャレンジするときには混乱が起きます。上の人間が、その新しい事業テーマについては、ずぶの素人だったりするわけです。そういうビジネスの現場で揉まれることは、ある意味、得難い経験なのかも知れませんが、さてどうなることやら、若いデータサイエンティストたちが過酷な環境で消耗されてしまわないことを願うばかりです。
今現在、日本や世界で起きていることは、ほんの数年前までは、機械学習やら人工知能やらにまったく見向きもしていなかった企業が、力に任せてデータサイエンティストを囲い込んで、ブームに便乗しようという浅はかな動きです。確固たる技術戦略も持っておらず、ただ標準化された技術に乗っかるだけです。
ところが、その技術というのが、まだ整理しきれておりません。たくさんの手法、技術、アルゴリズムがあるのですが、万能なものはありません。ディープラーニングが注目されるわけですが、それだけであらゆる問題が解決できるわけではありません。特定の技術でトップを走る先進企業は、確固たる技術戦略が持てるのですが、それ以外の会社は、たくさんの技術に翻弄されるばかりです。
だから、データサイエンティストが天才的な科学者にして敏腕のビジネスマンでなければならない、というようなあり得ない設定になってしまうのではないでしょうか。ちょうどブラック企業がアルバイト従業員に多大な責任を押し付けるのと似た構造です。そういうことのために、多くの人材が使い捨てられるようなことがあるとしたら、とても残念なことです。
人間のやることは、そんなに完璧なものではありません。だからこそ、事業には戦略が必要です。つまり、「これさえやっていたら間違いはない」という確かな拠り所です。
弊社が推しているViscoveryのSOMデータマイニング・アプローチは、90年代に開発された技術で、今となっては流行に取り残された感すらするかもしれませんが、SASやRなどを使ってあれこれと不慣れな手法・アルゴリズムを使いこなそうとするよりも、一本筋の通ったアプローチです。多くの人がブームに翻弄されている今だからこそ見直されるべきかもしれません。

投稿者:

駄目データサイエンティストのあるある10カ条

データサイエンティストの需要が増大するとともに、「本物」のデータサイエンティストを見つけることが難しくなってきたということで、KDnuggetsでも話題としてあがっています。
で、だめなデータサイエンティストの特徴が10個あげられています。(以下は正確な引用ではなく、私なりの要約です。)
1. チームで動けない

データサイエンティストがチーム内で役割を果たすことができず、賞賛のすべてを一人占めしたいというタイプだと、他の人と上手く働くことができず、ベストな結果が出せません。まあ、当然のことですね。
2. 数学的な知識が乏しい
アルゴリズムやその他の重要なツールを素早く勉強するには、強力な数学の知識が不可欠です。数学に対する熱い情熱を持っていることが、より高いクォリティの仕事につながります。
3. コンピュータ・スキルが乏しい
言うまでもなくコンピュータの上で仕事をするわけですから、コンピュータのスキルは必要です。たとえば、Sparkなどの主要なプラットフォームのどれかについて知識を持っていないだけでもだめな可能性が高いそうです。
4. コミュニケーション・スキルが乏しい
これは日本でもよく議論されるところだと思いますが、最終的に組織の業績に働きかけることのできるコミュニケーション能力がないと、せっかくの分析も役に立ちません。
5. ビジネス知識がない
データサイエンティストが、世間のことやビジネスのことにはあまり興味がないというのはありがちなことです。データ分析によって離反しそうな顧客を識別して、離反させないためのメールを出したら、それがきっかけになって離反したという笑えない話もあるぐらいで、ビジネス経験の欠如は致命的な結果をもたらします。
6. ツールに関する知識が乏しい
Scala、Python、SAS、Matlabなど、ありとあらゆるツール使いこなせないとだめなんだそうです。きびしい〜。
7. SAS一辺倒
SASのコーディングができるだけでデータサイエンティストと名乗るという風潮が海外でもあるようで、特定の高度なツールが使えることと、データを読み取り、分析できるということとは同じではないということのようです。
8. 手を汚したがらない
つまり、きれいでファッショナブルな仕事という上っ面の部分だけで仕事をされたのでは、役に立たなくて困りますよね。日本だけでなく、海外でもそういう人が増えているようですね。「リスクを取る」「ハードワーク精神」ということが必要とされています。
9. 知ったかぶり
物知りな人というのは、データが(自分の知っている)理論とマッチするはずで、自分はいつでもその正しい答えを知っているのだという思い上がりを持ちやすいものです。そういうふうな人は、自分が現実をフィルタを通して見ていることに気づかないものです。
10. 好奇心の欠如
これは好奇心というよりも探求心と言うべきなのかも知れませんが、それがなければ、仕事が形骸化してしまいます。データをそれなりのツールで分析したら分析結果が出てくるというだけの簡単なお仕事になってしまいます。それではその背後にあるお宝にはたどり着けません。
——
以上、10項目なんですが、それにしても、これに当てはまらない本物のデータサイエンティストがいるとすれば、その人は、データサイエンティストという肩書でなくても、立派なお仕事ができる人材だろうと思います。
高望みすればキリがないというか、これによると、現実のデータサイエンティストは偽物ばかりということになりそうです。困ったものです。
まあ、なんというか、Matlabとか大学の研究室でやっているようなことを会社の中でやっていること自体が、何か根本的におかしい気もするのですがね。会社にもよるでしょうが、普通の大多数の会社には、そんなデータサイエンティストなんて要らないとも思います。10年後には「あんな時代もあったね」と笑い話で振り返ることになるような気がしています。

投稿者:

危険だらけのリスクアセスメント

労働安全衛生法の改正により、平成28年6月1日から「化学物質のリスクアセスメント」が義務化されるとのことで、弊社にも某国立研究所様からソフトウエアのお問い合わせがありました。
なぜ弊社にお問い合わせがあったかと言うと、Webで「リスクアセスメント」を検索すると弊社が出てきたからだとのことでした。それもそのはずで、弊社はベイジアンネットワークのHuginを取り扱っており、ベイジアンネットワークは正確なリスクアセスメントには不可欠な数理的ツールだからです。
しかしながら、弊社は上記のお問い合わせに対して、「求められる仕様に合致する製品は取り扱っておりません」としか回答の仕方がありませんでした。某研究所様から送られてきた仕様書には、「Webサーバーにリスクアセスメント・システムが構築されて、Webブラウザからそれを利用できて、結果をPDFに出力できる」とか「CAS番号を入力してGHSおよびSDSのハザードアセスメントが表示できること」など、つまり事務的な観点での要求に終始しており、リスクの定量的な評価方法については一切触れられておりませんでした。
ちょっと調べてみるとわかったのですが、仕様書にあるような事務的な観点で作られた「化学物質のリスクアセスメント・システム」は、某協会の指導によって某民間会社が開発しております。つまり、上記のお問い合わせは、最初からそれを導入することが前提にあって、形式上、適正な公共調達の手続きを踏む必要があって、(同一の製品が他になければ随意契約が可能なので)同一の製品が他に存在しないことを確認するために、わざわざ弊社にお問い合わせを頂いたということのようです。
一応、手続き上は問題ないので上記のようにお答えした次第です。ユーザー様が求める仕様があって、それに合致している製品がなければ「ない」と答えるしかありません。
ただし、その仕様が本当にそのユーザー様が取り組む問題を解決するためにベストな仕様であるか?ということは別問題です。
「リスクアセスメント」(化学物質に限定せず)についてWebで調べてみると、国内での定量的なリスクアセスメントは、じつにお寒い状況です。どういうことかというと、つまり、事務屋さんの発想で、高度な数理が一切使われておりません。リスクというのはいくつかの悪条件が重なることによって増大するものですが、それぞれの条件にスコア(点数)が与えられていて、その合計を全体的なリスクとするというふうに説明されています。
実際にはそんな単純なものではありません。ある条件とある条件が重なると、単純な足し算ではく、急激にリスクが増大するということが起きます。スコアを合計するという単純なモデルでは、リスクを正確に評価することができません。つまり、こういうところにベイジアンネットワークの必要性があるのです。
ベイジアンネットワークを使ったリスクアセスメントと単純な足し算しかやっていないリスクアセスメントとでは、月とすっぽんなのですが、「リスクアセスメント」というカタカナ用語だけ見ていると、その中身の違いにはなかなか気づけません。現代の日本では、「カタカナ言葉の魔術師」が跋扈(ばっこ)して、物事の本質を覆い隠しております。
評点を合計するという単純すぎる分析方法の間違いは、企業の研究開発テーマや新規事業開発テーマの評価においても繰り返されてきました。80年代にあれほど世界を席巻する勢いであった日本の技術が、90年代を境に急激にその力を失くしてしまった原因の1つが、80年代に大手企業に導入された「戦略マネジメント手法」にあると、私はずっと訴え続けてきました。
戦略マネジメントが日本化されて導入されたときに、数理的手法がすっぽり抜け落ちて、カタカナ言葉の魔術に変質していたのです。文系中心で動かされている日本の組織の限界がそこにありました。

投稿者:

人工知能社会論を考える

現在、産業界では空前の人工知能ブームで、一部で「人工知能社会論」まで飛び出してきたとのことですが、それで思い出されるのが、80年代の「情報化社会論」です。当時、私は、セミナー会社で一連の情報通信技術の標準化に関するセミナーを企画・開催して、大いに儲けさせて頂きました。ごっつぁんです。
官製の高度情報化社会論では、今頃、電電公社のINSが全国津々浦々に普及しているはずでした。増田米治先生は元官僚でしたが、退官されて民間で情報化社会論を展開されました。とくに「機会開発者」という概念をつくられて、情報化社会において人びとが知的にして創造的な活動に精を出す理想郷を描かれました。
2015年の現在、我々はあの頃の未来をさらに通り越した未来に住んでいます。
そして、私は、情報化社会論がいかにきれいごとだったかを痛切に感じるわけです。まずインターネットが普及すること、新興のIT企業が台頭して怪しげな商品を売ったり、さまざまなトラブルを引き起こすこと、毎日大量の迷惑メールが送られてくること、企業や官庁から個人情報が漏えいして混乱を来すこと、子供たちが悪い大人の餌食になること、ネット上で新たなイジメの形態が発生すること等々、30年前には予想だにしなかったことばかりです。
もし歴史に学ぶとすれば、「現実は想像をはるかに超えて展開されるだろう」と考えるべきでしょう。
人工知能社会論をチラ見したところ、「人間を超える知性を持つ者と持たざる者の格差」とかなんとか言っているらしいですが、所詮それは一部の権力者やエリートにとって都合の良い想像ではないかと思ってしまいます。
昔は一部のエリートだけが重要な情報を握っていて、一般の人々との間に情報格差が存在しました。だから(私がセミナー事業で儲けたように)情報がお金になったのです。しかし、現在は情報そのものではお金を稼げません。むしろ、STAP細胞やオリンピック・エンブレムの騒動のように、名もなき民衆がネットを使って、権力にあぐらをかいているエリートたちの嘘を暴く時代になってしまいました。
仮に人間の能力を遥かに超える人工知能の開発に成功したとして、それを一部の権力者のために秘匿しておいて、はたしてその能力をいかんなく発揮できるものでしょうか?たぶん、大してうまい使い方はできないことでしょう。
一般の人々が人工知能にアクセスできる社会が到来したとき、たぶん、知性の格差というものがなくなってしまうのではないでしょうか?つまり、誰もが人工知能を使って、複雑な物事の先の先まで熟考した結果を理解することができるようになるでしょう。自分で考える力には個人差がありますが、他人のアイデアを利用するだけなら誰にでもできるのです。結果さえわかれば、少々の頭の良し悪しなんて問題ではないのです。
このような社会では高卒だの大卒だのという差別はナンセンスになってしまいます。実際、私の実感として、海外の超一流の大学を出たような人は、本当に素晴らしいですが、日本の普通の大学を出た人と高卒の人の間にそれほどの差があるとも思えないのです。日本国内の学歴差別というのは、いわれのない差別の一種です。
人工知能社会では、技術的なことをあまり伴わない、ほとんどのデスクワークはコンピュータにとって代わられるでしょう。公務員の大部分は不要になります。人びとは学校教育から解放されるでしょう。(そうゲゲゲの鬼太郎の歌のように。)長い人生の間の好きな時期に好きなことを学べばよいだけです。
このような社会では学歴によって人の身分の上下を決めることが、もはや意味をなさなくなるので、世の中全体が実力主義の空気を漂わせることになるでしょう。しかし、それはそれで世知辛い世の中です。結局、ますます俗物ばかりが幅を利かせる世の中になっていくとも考えられます。

投稿者:

経営者のためのデータ分析/情報分析/思考支援ソリューション (2)

自己組織化マップ(SOM)を経営者とデータ分析担当者をつなぐ共通言語にしようというのが、15年前に現在の弊社の事業を立ち上げたときの熱い思いでした。
私は、80年代にニューメディアなどの先端技術に関するトピック・セミナーの企画・運営を経験して、その後、大手コンサルティング会社で新規事業開発のコンサルに携わりました。当時、バブル景気の最中で、大手企業が新規事業開発に積極的に乗り出しておりました。コンサルティング業界は、新規事業テーマの探索調査プロジェクトで大いに稼がせて頂いておりました。
しかし、その調査プロジェクトのやり方は、私にとって、どうも納得がいかないものでした。コンサルタントたちは、隅から隅まで少しの漏れもなく情報を収集して、それを戦略理論に沿って分析すれば、正しく合理的な判断ができると信じておりました。そんな調査のやり方をしたら、すでに情報が確定している事実ばかりを丁寧に調査して、まだ不確定な要素の多い新しい動向については「不確かな情報」として判断材料に採用されない傾向が強まります。
はっきりと物事が確定するまで動けないという日本の大企業の行動様式に、こうしたことが大きく作用していました。案の定、そのような会社の新規事業はことごとく失敗しました。さらにバブル崩壊を経て完全に委縮してしまい、戦略が後手後手となって行きました。80年代までは世界を席巻していた日本の半導体・電子産業が壊滅的な状況に至ったことは周知のとおりです。
もちろんそうでない企業もあります。たとえば、自動車メーカーは常に5年後の未来を見据えて製品を開発されています。5年後に世の中がどうなっているか予測することは、とても難しいことです。景気が良いか悪いかだけでも、どんな自動車の重要が増えるか減るかに大きく影響します。つまり、とても大きなリスクを負って製品を開発・製造・販売しなければならないのです。
あらゆることを完全に認識して、完全に合理的な判断を行う、ということは、人間には不可能なことです。
つまり、そのようなリスクを管理しながら、未知の世界にチャレンジできる企業を作らなればなりません。リスクはけっしてゼロにはなりません。リスクをゼロにしようとする企業は、もはや勝負から下りるしかないのです。リスクを<計算尽く>で意思決定し行動ができるかどうかで、これからの時代を企業が生き残れるかどうかが決まります。
弊社が自己組織化マップ(SOM)とともにベイジアンネットワークを戦略的ツールと位置付けているのは、これらのツールが、企業の事業戦略、市場戦略、製品戦略、技術戦略をより柔軟に、より迅速に展開するための切り札になるからです。
SOMは、人間の脳が多次元の空間を認識できないことを補うための重要なツールです。一方、ベイジアンネットワークは、人間が意思決定に必要なすべてのことを完全には知ることができないという現実に対処するための重要なツールです。
人間にとって、この世の中は、ジグソーパズルの出来上がりの絵を知らされずに、徐々に絵が現れてくる様子を眺めているようなものです。不確定なことが1つずつ確定していきます。子供の頃は、誰しもまだまだたくさんの可能性が残されていますが、年齢を重ねるに従って、可能性はどんどん狭まります。森羅万象、同様にだんだんと物事が確定して行きます。
誰にも未来のことを予言することはできません。そういうときに度胸一発で企業の命運をかけた意思決定などできるはずもありません。経営者がサラリーマン経営者だから意思決定ができないとか、そういうことではないのです。
意思決定は、確率論的な観点から限定合理性に基づいてなされなければなりません。モンティ・ホール問題は、直感的判断と確率的合理性が異なることをよく示しています。
ベイジアンネットワークで確率を計算し、SOMで多次元空間での確率分布をマイニングすることで、どんなに保守的で硬直化した組織でも、できる限り可能な合理的判断のもとに勝負に打って出ることができるマネジメント手法が実現できます。
不確実性の戦略マネジメントに関するWebページは、こちらです。

投稿者:

経営者のためのデータ分析/情報分析/思考支援ソリューション

企業に新設されるデータ分析部門は機能するのか?
企業がデータサイエンティストを雇って、データ分析の専門部署を設けるという動きがあるようですが、果たしてそれは上手く機能するでしょうか?
もしデータ分析を彼らに丸投げして、その分析から得られる意思決定の結果のみを会社の上層部に上げて貰えばよいと考えているとしたら、あまり良い結果にならないのではないかと心配します。よくて成果が上がらない金食い虫の部門になってしまうか、最悪の場合、会社に間違った意思決定をさせることにもつながりかねません。
たとえばGoogleのような先端企業では、データ分析が競争優位を獲得するための決定的な役割を演じていることは周知のことですが、それを可能にしているのは、経営者自身がデータ分析技術に対する深い知識・経験を持っているという事実を見逃すべきではありません。そうではない通常の企業の場合、経営者の頭脳とデータ分析の間には大きなギャップが存在します。これを埋めることが今日の企業の重要な課題の1つになってきています。
たとえば、顧客セグメンテーションというのは、企業の戦略そのものです。企業の戦略というのは経営者が決めるものです。もちろん、経営者といえども独断ではなく、優秀なスタッフの協力を得ながら決定を行うのが理想です。しかし、ここにデータ分析が入ってきたときに、「本当に経営者がその決定に参画できているのか?」が疑わしい状況になりつつあるのです。
多くの企業に広がりつつある重大な間違いは、若い社員にデータ分析をさせて、その結果を<客観的な分析結果>と信じて、上層部がそのまま受け入れるということです。戦略的でない枝葉末節な問題では、それでよいことも多々ありますが、顧客セグメンテーションなどの戦略的な意思決定が、それとして認識できていない担当者レベルで行われてしまっている企業が少なからず存在すると、私は認識しております。
経営者に求めらる最低限のデータ分析の知識は何か?
つまり、これからは経営者にも、ある程度、データ分析技術に関する知識を持って頂く必要があります。日経Big Dataの12月号で「習得すべき分析手法は5つでいい」という記事がありました。クロス集計、回帰分析、クラスタ分析、決定木、相関分析、因子分析だそうです。これからの経営者は、これらの分析について、実際的なスキルは別としても、それこそ解説書レベルの(わかった気になる程度の)上っ面の知識ぐらいは持ち合わせて頂かないことには、まったく話も通じないということになりそうです。
しかし、「その程度でよいのか?」というと、やはり、よいわけがありません。ならば、「経営者も上記の5つの基本的な分析手法について、実践レベルのスキルを磨くべきか?」というと、それもあまり現実的ではありません。
もちろん経営者が「実際にソフトウェアを触って基本の分析手法を勉強したい」というのなら反対はしません。その場合は、Excelアドイン・タイプの統計解析ソフトをお薦めします。担当者レベルで好んで使用されている有名ベンダーの高額な統計解析ソフトウェアは、使用法を習得するのが大変なのでお薦めしません。
そして、どんなに高額な統計解析ソフトを使っても、5つの基本手法に限るのであれば、実践的な顧客セグメンテーションは不可能です。顧客セグメンテーションは、統計解析ソフトのより高度な機能を駆使しても、そう簡単なものではありません。Viscovery Porfilerは、顧客セグメンテーションとプロファイル分析に特化したソリューションです。これを使用すると、ユーザーはデータ分析のプロセスを自分で設計する必要はなく、ソフトウェアが提供するワークフロー・ステップにしたがって、正しい作業が行えるようになっています。
たとえば、ジェット機を設計するエンジニアは、データ分析のスキルにおいては最先端の能力を有しています。そういう人たちでさえも、無数の設計解をセグメンテーションするのにViscoveryの能力を活用しています。なぜなら、どんなに頭の良い人でも、もともと人間には多次元の空間を認識する能力が備わっていないからです。だから、それ専用のソフトウェアの力を借りる必要があるのです。
企業のデータ分析担当者がいかに訓練されていたとしても、統計解析の結果から本当に多次元のデータ空間を理解できるか?といえばそれは無理なんです。悪いことは言いません。無理をせずに、顧客セグメンテーションにはViscovery Porfilerを使ってください。Viscoveryの自己組織化マップ(SOM)テクノロジーは、人間の認識能力の限界を克服します。
つまり、統計学のいろんなこを勉強するよりもまず、SOMのマップの見方・使い方を覚えるだけで、人間の情報分析能力が飛躍的増大します。だから、データ分析担当者にも、経営者にも、これをお薦めします。そして、SOMは両者をつなぐコミュニケーションの基盤、共通言語になり得るのです。
まったく心配することはありません。SOMを理解するために、統計学や機械学習アルゴリズムなどに関するすべてのことを積み上げで勉強する必要はまったくありません。(もしそうしようとしたら5年ぐらいかかると思いますが)基本的なマップの見方は、ほんの2、3分でわかることです。そして、もう少し本質的な動作原理から理解したい場合でも、2、3時間のトレーニングで十分です。何なら一般的な統計解析の(ただし解説書レベルの)知識もここで同時に勉強して頂くことも可能です。
顧客セグメンテーションは、企業にとって最重要の戦略的テーマです。したがって、データ分析担当者がViscovery Profilerを使ってテクニカルな作業を行いながら、経営者・管理者の参加のもとに意思決定がなされなければなりません。担当者レベルで、勝手にセグメンテーションを決定するなんてことは大間違いなのです。したがって、経営者・管理者にも、Viscoveryが提供するSOMのマップの見方を理解することが、今後、必須の能力になってきます。
戦略マップの作成
経営者にSOMのマップの見方・使い方により親しんで頂くために、弊社では、顧客セグメンテーション以外に、戦略マネジメント全般におけるSOMの活用法をコンサルティングします。
じつは、私が1999年からSOMの活用法を研究し始めた当初のアイデアがこれでした。戦略マネジメントで使用されるさまざまなマトリックスをSOMに置き換えることによって、戦略マネジメント手法を生まれ変わらせることができます。
これらは比較的小さなマトリックス(表)を使用しますので、データマイニングとかデータ分析というほどのレベルではなく、思考支援手法と言った程度になります。
私がSOMに関わり始めた最初が、SOMによるこれらの戦略マップの作成だったのですが、Viscoveryの技術をより深く理解し、統計解析やデータマイニングの知識が増えてくると、当初の私のアイデアがあまりに幼稚なものだったような気がしてきて、長い間、これを封印しておりました。
しかしながら、今、SOMを経営者とデータ分析担当者をつなぐ共通言語にしなければならないという思いに立ちかえって、再び、SOMによる戦略マップの重要さを見直しているところです。
戦略マップのコンサルティングに関するWebページは、こちらです。

投稿者:

戦略的意思決定をデータサイエンティストに丸投げする愚行

世間でバズワード化している「データサイエンティスト」が本当の科学者ではないという話を書きましたが、仮にそのデータサイエンティストがちゃんと勉強をして、高度な分析技術を身に着けたと仮定しても、必ずしもそれが企業の役に立つわけではありません。
もちろん、一定の条件を満たせば十分に役に立つことが期待されます。それは、データサイエンティストと経営管理者などの意思決定権限者とが、十分にコミュニケーションがとれていて、利用可能なデータ分析技術で解決が可能な課題が明確に与えられる場合です。しかも、その課題は、戦略レベルの問題ではなく、戦術レベルに限定されなければなりません。
世間では安易に「戦略的情報」などと言う言葉が使用されることが多いのですが、その多くは「とても価値のある情報」というぐらいの意味で使用されることが多く、「戦略経営」の観点からの厳密な意味での「戦略」を意味していないようです。しかし、戦略経営の観点で言えば、企業の戦略を決定するのは、社長および取締役らによらなければなりません。
もし、そんな意思決定をビジネス経験の浅いデータサイエンティストに丸投げするような会社があれば、10年後もその会社が存続しているかどうか怪しいものです。
多くのデータマイニング・システム・ベンダーが、「予測分析(Predictive analysis)に重点を置いているのは、そのような理由もあると考えられます。予測モデルの場合、課題の定義が単純ではっきりしているからです。また、それほど特別な技術を使わなくても、たいていの場合、何もしなかったときよりも確実に改善を得ることができます。そして、モデル品質を比較する基準も明確なので、より良いモデルが得られるように努力する方向も明確です。
しかし、明確な課題を与えずに、社内に蓄積されたデータや(最近流行りの)オープンデータを用いて、「何かわかることがないか?」「何かに役立てられないか?」というような取り組みをデータサイエンティストにさせようというのは、あまりお薦めできません。
100人のうち何人かは、誰に教わることもなく、優れた経営感覚を持っているデータサイエンティストがいなくはないと思います。運よくそういう人材を採用した会社は、救われるかもしれませんが、そうでない場合は、ろくな成果も上がらない部門に余計なコストがかかるだけの結果になります。
会社のシステム部門が「金食い虫」と言われ続けたことを想起するデジャビュ体験です。仮に救われたとしても、その会社の経営陣は責任放棄しているに等しいです。本来は、経営陣が考えなければならないことを科学者に丸投げして、そのご託宣を仰ぐということで良いわけがありません。
セグメンテーションには経営陣が関与するべき
とくに経営陣が丸投げしてはならないのは、製品・市場・顧客などのセグメンテーションの問題です。たとえば、顧客をどのようにセグメンテーションして、どのセグメントを自社のコアなターゲット顧客と考えるか?そして、どのセグメントを戦略的に打って出る「戦略ドメイン」と考えるか?は、経営陣が考えるべきことであって、データサイエンティストに丸投げするべきことではありません。これは、まさに戦略的な課題だからです。
つまり、これからの時代は、「データに基づいてセグメンテーションを考える」という作業に経営者自身が参加しなければならないのです。
しかし、「経営者自身が先端の分析技術を勉強するなんてナンセンス」と反論されるかもしれません。ご心配は無用です。ヨーロッパの一部の企業の経営者は、もうそのレベルをクリアしております。
Viscoveryでは、セグメンテーション・モデルを作成するところまでのテクニカルな作業は、会社のIT部門やデータ分析ツールの操作担当者(それを「データサイエンティスト」と呼ぶなら呼んでも結構です)が補佐して行うことができます。そこから先、セグメンテーションをいろいろといじってみて、ターゲット・グループを決定することは、意思決定権を持つ経営管理者が十分に行えます。どのターゲット・グループにどの施策を適用するべきかを意思決定権限者の判断のもとで決定すると、それをデータベース全体に適用したり、実行系システムでリアルタイムに適用するためのテクニカルな作業は、また社員が担当すればよいことです。
重要な点は、Viscoveryを使用すると、本来、経営陣が意思決定しなければならいことを「データ分析」の名のもとに、決定権を有しない社員にうやむやなうちに委ねてしまうという愚行を避けることができる、ということです。
まったく心配はいりません。経営陣が、先端のデータ分析技術を勉強するなんて必要は一切ありませんから。

投稿者:

総花的データマイニングの終焉

「データサイエンティスト」と呼べるような人は、本来は、統計解析や機械学習、人工知能などを研究している(いた)科学者であるべきなのですが、それが「データ分析者」のことになってしまった経緯をもう少し詳しく述べます。
それは従来のデータマイニング・システムが、科学者でなければ使いこなせないような難しいものだったからです。
伝統的な統計解析ソフトウェアのベンダーが、初期のデータマイニング・システムを売り出したことが、データマイニング・ブームに火をつけました。統計解析ソフトウェアというのは科学者のためのツールです。医学、生物学、農学、栄養学、心理学、社会科学、工学といった分野で統計解析が使用されます。これらの科学者は、とくに統計学を専門に勉強しているわけではありませんが、科学者の共通言語として統計学が位置付けられております。したがって、科学者はそれなりに勉強して、統計解析ソフトウェアを使いこなせるように努力しています。
企業でも戦後、生産部門において「科学的管理手法」が導入されて、生産管理・品質管理の分野で統計解析が導入されました。私は、その年代よりも後なので当時のことは知りませんが、初期は「科学的管理」というスローガンのとおりに科学的色彩が濃かったものと想像します。ついで、マーケティング部門でも統計解析が導入されるようになってきました。これも初期は、社会科学や心理学の研究の中で統計解析を使った経験を持つ人が、企業に持ち込んだものと思われます。
(しかし、企業内で統計解析が広まるに伴って、あまり正しく使用されていない場合も増えてきているのは、他の記事でも述べたとおりです。)
伝統的な統計解析ソフトウェアのベンダーが、従来の統計解析の枠組みを超えて、人工ニューラルネットワークや機械学習アルゴリズムを搭載したソフトウエアを「データマイニング・システム」として売り出したとき、その基本構造は従来の統計解析ソフトウェアの構造を継承しました。

総花的データマイニングの限界

つまり、統計解析ソフトウェアというのは、記述統計から検定、多変量解析に至る膨大な数の手法の集積です。個々の手法・アルゴリズムが関数として実装されており、ユーザーはさまざまな関数を呼び出して、それらを組み合わせて一連の分析手順を組み立てます。
これと同様、従来のデータマイニング・システムは、従来の統計解析に加えて、新しいアルゴリズムが実装されたものであり、やはり、ここでもユーザーは自分で分析手順を組みたてなければならないのでした。ただし、それを「アイコンをつなぎ合わせるだけでプログラミングの必要なしにビジュアルに操作できる」ということをセールスポイントにしていました。
さまざまなデータマイニング用の手法・アルゴリズムが実装されており、万能なシステムであるかのように見えるのですが、それを本当に使いこなすには、個々の手法・アルゴリズムについての<科学的知識>が必要です。もちろん、ソフトウェアなので内部の計算の詳細にまでユーザーが意識をしなくても、計算そのものは正しく行われます。しかし、個々の手法・アルゴリズムの特性を理解して、的確に使用するには、最低限の知識は必要です。
それが1つや2つのことであれば、素人でもなんとか勉強できますが、たくんさんの手法・アルゴリズムが総花的に実装されていて、それらをすべてを理解することは、素人には不可能です。データマイニングの解説書が多数出版されましたが、どれも表面的な内容で、「わかったつもりになれる」というレベルのもので実践的な内容ではありませんでした。
そりゃ無理です。データマイニングに使用されるさまざまな手法は、どれか1つでもちゃんと勉強したら博士になれるぐらいです。そういうものを素人が、あれもこれも使いこなせるはずがないのです。

データサイエンティストの実像

なので、従来のデータマイニング・システムを本当に使いこなせるのは、その中で使われているアルゴリズムについて、大学院で専門的に研究していた人(あるいは研究のアシストをしながら勉強をしていた人)に限られるのです。
そんなデータマイニング・システムを一般の企業が数千万円もかけて導入しても使いこなせる人がおりません。だから、力のある一部の企業は、本当にデータマイニングの経験のある本物の科学者を採用します。それが「(企業内)データサイエンティスト」の始まりです。
ところが、本物のデータサイエンティストはそんなに大勢おりません。高額なデータマイニング・システムを導入した企業のほとんどで、ちゃんとした成果が得られていないのが現実です。
それで、出てきた発想が「データマイニング技能者を育成する」ということです。ここで「データマイニング技能者」と言ってもあまり魅力的に聞こえないので、「データサイエンティスト」に昇格させて、「あなたもデータマイニング・システムの使い方を習ってデータサイエンティストになりませんか?」というキャンペーンを展開中というわけです。
全体の底上げという意味では効果がないわけではないでしょう。勉強すれば、少しはマシな使い方ができるようにはなるでしょう。しかし、そんなお手軽なデータサイエンティストにプロフェッショナルな仕事を期待できるものでしょうか?答えは明らかに「ノー」です。

一点突破のデータマイニング・アプローチ

そもそも話を元に戻すと、従来のデータマイニング・システムの最大の欠点は、「総花的なアプローチ」にあります。
データマイニングには、さまざまなアプローチがあるのですが、従来のベンダーは優等生的に、そのすべてをカバーしようとしているので、個々のアプローチに最適化された製品ではないのです。
Viscoveryは、従来のデータマイニング・ベンダーとは対照的に、SOMアプローチに特化しています。「SOMなら従来のデータマイニング・システムにも搭載されている」という誤解が多いのですが、その実装レベルは天と地ほど違います。
Viscoveryは、SOMアプローチのデータマイニングを提唱しておりますが、それはSOMだけしか提供されていないということではありません。データマイニングの技術体系をSOMを起点にして組み替えて、一貫性のある技術体系を提供しているのです。
難しい状況を打破するときの作戦として「一点突破」ということがあります。勉強嫌いの子供が、何か1つ得意な科目を獲得すると、そこから一転して、他の科目でも成績が上がっていくということがあります。
あらゆる物事はつながっています。バラバラではありません。企業がデータマイニングをものにするにも、一点突破の作戦は有効です。

投稿者:

ハイパー(偽)データサイエンティスト増殖中

最近の某産業新聞では「データサイエンティスト(データ分析官)という表現が目につきます。いつからデータサイエンティスト=データ分析官という定義に変わってしまったの?と首をかしげてしまいます。ほんの数年前までは、「データ分析官(データマイニング技術者)」という記事を多く目にしたものです。つまり、この新聞の用語では、データサイエンティストも、データマイニング技術者も、データ分析官も同じことのようです。無意味に言葉を言い換えるのは、言葉遊びです。
海外ではData MinerとかData Scientistという言葉はよく使われていますが、日本で使われている「データ分析官」に相当するような英語(無理やり訳したらData analyzing officerになると思いますが)を私は知りません。たぶん、この言葉を広めたのはデータマイニングの受託サービスをしている某会社の社長さんなのですが、私が思うに、これは彼の造語であり、もともとそんな言葉はなかったと思います。「データ分析技能者」で良いところをわざわざ「官」の字を入れたのは、その会社が、さも特別に公的な権限を持ってデータマイニングの仕事をしているようなイメージ(つまり、もぐりではないこと)を演出したかったからだと思います。
個別の会社が勝手に「データ分析官」を名乗るぐらいのことは、とくに何の問題もありません。ある程度の見識を持つ人から見れば「ああ、イメージアップに懸命なんだな」で済むことです。しかし、新聞記者がそのお先棒まで担ぐのはちょっと困りものです。新聞記者が取材の中で「Data Miner=データ分析官」という説明を受けて、それを鵜呑みにしてしまい、今度はまた「Data Scientist=データ分析官」と言い換えられても、それをそのまま、何の疑問も持たずに記事にしてしまっているのは、何とも情けない限りです。自分が歳をとったせいもあるのかもしれませんが、新聞記者のレベルがかなり落ちているように感じてなりません。
大事なことなのでもう一度強調しておきますが、「データ分析官」という言葉はありません。「データサイエンティスト」は「データ分析官」でもありません。
「データ分析官」という語にはとても嫌な違和感を感じるので付け加えますが、データ分析の機会は万人に開かれているべきであり、けっして官によって規制されたり利権化されたりしてはなりません。
Data Minerは、「データマイニングをする人」であり、したがって、「データマイニング技術者」とか「データマイニング技能者」と訳すのは可能だと思います。Data Scientistは、カタカナで「データ・サイエンティスト」です。ここで重要なのはScientistとは、日本語で「科学者」ということです。ですから「データ科学者」と訳すのが正しい訳し方でしょう。
ただし、英語でのData Scientistも”just a media hyped title”(単にマスコミがでっち上げた肩書き)に過ぎません。もともとのイメージではあくまでも「科学者」なので、統計学か数学か、あるいはコンピュータ・サイエンスなどの分野で、最低でも修士以上の学位に相当する学識を有するというイメージでした。それが、データ分析に関する何等かのコースを履修したらData Scientistと自称できるという風潮が英語圏でも広がっているようです。詳しくは、こちらをご参照ください。
大学院でニューラルネットワークとかその他の機械学習テクノロジーの研究をしていたような人が、大学でポストを得る代わりに、Googleのような先端企業に入って研究を続ける人もいるわけです。基礎研究のテーマだったものが応用・実用化の段階に移行して、科学者の新しい就職口として企業がクローズアップされるようになってきたわけです。それが企業でデータ分析をする人がデータサイエンティストであるかのように意味が転じてしまい、さらには「データサイエンティスト」という肩書をでっちあげて、それになるためのコースやら資格認定やらを商売にしようと画策する会社や団体が出てきたのが昨今の状況です。
日本でも「データサイエンティスト協会」などという団体が設立されてしまっています。説明するまでもなく、この協会は科学者の団体ではなく、「データ分析技能者協会」と称したほうがよさそうな中身です。どうせ「自分の(会社の)都合の良いように世間を誘導したい」という人たちが作っている団体なので、弊社はまったくノータッチです。
マスコミに頻繁に登場する自称・脳科学者の何人かは、地道な実験等は何もしていない「ノー科学者」なのに、それに対する批判がまったく報道されないぐらいなので、科学者が作ったデータ分析用ソフトウェアを使うだけで「サイエンティスト」を自称できてしまっても、そりゃ文句を言えません。ノー科学者よりかは、はるかに地道な仕事をしていることは確かです。世の中、肩書のインフレーションだらけです。
そういうことなので、昨今マスコミでもてはやされる「データサイエンティスト」は、「データ分析技能者」と脳内変換して解釈しなければならないのですが、それが流行の最先端を行く花形職種だというのもまた大うそです。
かつて、プログラマーやSEが花形職種としてもてはやされたものですが、現在の惨状を見れば、もはや説明の必要もないでしょう。独自の製品を開発できる一握りの天才的なプログラマーは巨万の富を得ましたが、何を開発すればよいかわからず、単にコンピュータの知識だけで仕事をしようとしたプログラマーやSEは、今やしがない派遣労働者でしかありません。データ分析のスキルだけで仕事ができると思っている人がいるとしたら、そういう人はたぶん派遣どころか早晩失業の憂き目に遭うことでしょう。「英語ができる」というだけでは、大して仕事には役に立たないのと同じようなことです。
本物のデータサイエンティストとハイプ(hype:誇大・インチキ・ほら吹き)なデータサイエンティストは、月とすっぽんです。ちなみに、かつてHyper Media Creatorという肩書の人がおりましたが、Hyper Mediaというバズワードが死語となった今では、「ほら吹きなメディア制作者」という意味でしか通用しなくなっております。ですから、昨今のにわかデータサイエンティストも「ハイパー・データサイエンティスト」と名乗っておけばよいと思います。
もともとのデータサイエンティストの意味からすれば、統計解析や機械学習、人工知能などを用いたシステム(たとえば、次世代のデータマイニング・システム)を開発している人こそが、本物のデータサイエンティストなわけですが、そういう人たちが現在開発しているのは、もはや偽データサイエンティストのためのシステムではありません。
本物のデータサイエンティストが目指しているのは「マインドウエア」です。すなわち、(経営者などの)人間の「判断」をモデルできるシステムです。それは、単純に「コンピュータによって判断を自動化する」ということを超えて、経営者の「マインド(戦略)」を会社の隅々にまで行き渡らせて、個々の取引または顧客対応のレベルで実行可能にします。たとえば、弊社が取り扱っているViscoveryがそれです。
Viscoveryのような本物のデータサイエンティストが開発したシステムは、そのユーザーに(本物または偽物の)データサイエンティストであることを要求しておりません。