English
ナレッジ・エンジニアリング・コンサルタント Tel. 0120-987-136
| HOME | ソリューション | 製品セミナーダウンロードお問い合せ | 会社情報 |


 データマイニングはなぜ成功しないのか?

高額なデータマイニング・システムを買い揃えるよりも
より本質的で汎用性の高い必要最小限のツールを使いこなしましょう。

マインドウエア総研 代表取締役 多田くにひろ

まずその問題の立て方を疑え

「ビジネスにおいてデータマイニングをどのように活用したらよいか?」というご相談に対して、弊社では「まず第一に(顧客や製品などの)セグメンテーションから見直してください」と申し上げることにしております。なぜなら、セグメンテーションの見直しは、問題の立て方を見直すことだからです。何事においても、これが基本動作です。

データマイニングの専門家と称する人々は、たいてい「データの種類や分析の目的などによって、さまざまな手法を使い分けるべきだ」と言います。それはごもっともなご高説なのですが、率直に言って、「それを本当にしっかりできるのは、訓練を受けた科学者だけでしょう」というべきです。

多くの場合は、ごく表面的なところで、手法・技術が選択されて、やみくもにそれが適用される、ということになります。何も考えずにお仕着せの手順をなぞる、ということが横行します。このような思考停止こそが、最もデータマイニングの目的から遠いことです。思考停止の例として、たとえば、どのような問題でも、二分法の問題にしてしまうというのがあります。
  • 良品か不良品か?
  • ある商品の潜在顧客か?否か?
  • 信用できる顧客か?否か?
  • 他社に離反しそうな顧客か?否か?
  • 価格が上げ局面か下げ局面か?
  • 需要が増加するか?減少するか?
このようにすると、一応、形式上はクラス分類の問題として取り扱うことになります。したがって、決定木かニューラルネット、あるいはサポートベクターマシンを使う、というようなことになるでしょう。いくつかの説明変数と二分法の目的変数を機械学習アルゴリズムに学習させると、一応、モデルらしきものは作成されます。これで上手くいく場合もあるでしょうが、上手く行かない場合も多いでしょう。

もしこのような二分法をいつでも使える魔法のシステムがあったら、どんなにラクなことでしょうか。何も考える必要はなく、ただコンピュータにデータを放り込むだけで、あらゆる問題を解決できることになってしまいます。もちろん、これは間違いなのですが、データマイニングをこのようなものだと誤解している人が、かなりたくさんいます。

これは、問題の立て方が間違っている例です。「単純化せよ、ただし単純化しすぎるな」とはアインシュタインの名言ですが、単純化のさじ加減こそが問題解決のコツです。

二分法に見えるような問題でも、実際的には3つ以上のクラスに分けたほうが合理的な場合もあります。一言で不良品と言っても、不良品にはいくつかのパターンがあるかもしれません。顧客がある商品を購買する場合も、購買するという事実は同じでも、その背後にあるパターンは単一ではありません。出来のよいプログラムを使っていたら、それもちゃんと検出する場合もあるでしょうが、それはユーザのコントロール外のことです。

手法・技術・ツールに溺れるのではなく、「考える」ことの基本を大事にしてください。思考停止状態で、どんなに高額なデータマイニング・システムを買い揃えても、それは贅沢なオモチャになるだけです。

たくさんの手法・ツールが満載されたタイプの高額な総合データマイニング・システムを使いこなせていたらいいのですが、本当は、そこに搭載されている手法のどれか1つをとっても、十分に研究対象となるほど奥の深いものです。普通の人が、それらのすべてを完璧に使いこなせるはずがないのです。もし「その手法はあまり経験がないけれど、マニュアルを見たり、セミナーで習った手順に沿ってやっている」というのなら、それはたいへん危険なことです。

いろいろな手法・ツールを使いこなせるようになろうとするよりも、まず基本の動作をしっかりさせることです。本当に必要なものだけを厳選していけば、じつはそんなに多くのものは必要ではないのです。

データマイニングの基本動作

弊社の考える基本のデータマイニング・プロセスは、次のようなものです。

(1) セグメンテーションの見直し
(2) プロファイリング(セグメント内の共通特性の抽出)
(3) インフルエンスダイアグラム(影響図)の作成

上記の(1)と(2)は自己組織化マップ、(3)はベイジアンネットワークを使用する、というのがお薦めの方法です。簡単にいうと、全体としてKJ法と似たプロセスです。KJ法は定性データを対象とするのに対して、上記のデータマイニング・プロセスは定量データを対象にしているという違いがあるだけです。



そして、とりわけ(1)のセグメンテーションの見直しが、創造的な結果を得るか、それとも既知のことを説明するだけに終わるかを決定する重要なフェーズです。つまり、KJ法で「グループ編成を何度もやり直せ」ということと同じです。

実際に(目に見える方法で)たくさんの製品や顧客を並べてみて、それらがどのようにセグメンテーションできるのかをつぶさに調べてみることができればいいのですが、あらゆるデータマイニング手法を駆使しても、そのようなことをするのはほとんど不可能に近いことです。これをやるには、自己組織化マップが最適です。

ほとんどの問題は、セグメンテーションの見直しができれば、解決したも同然ですが、仕上げとして問題の種類ごとに他の手法・ツールを組み合わせることは可能です。自己組織化マップで得た結果をさらに、他のどのような手法・ツールで活用してもいいのですが、一番お薦めのものを1つだけ挙げるとしたら、やはり、それはベイジアンネットワークです。

勘のいい人ならよくわかっていることかと思いますが、世の中、「エッセンスを押さえる」ということがとても大事です。重要な2割の部分だけ勉強したら、なんとか試験で及第点は取れるというようなことと同じです。それが自己組織化マップとベイジアンネットワークだというわけです。汎用性が高く、最も本質的な部分に関係している手法を多くの手法の中から厳選した結果が、この2つなのです。

もちろん、データマイニングの業界標準プロセス「CRISP-DM」のようなことは織り込み済みでの話です。ビジネスの理解、データの理解、データ準備、モデリング、評価、展開/共有というプロセスを踏んでいくことは当たり前のことです。しかしながら、そのようなことは「知識発見」の本質にはぜんぜん迫っていません。

知識発見とは

そもそもデータマイニングとは、「データから有用な知識を発見するプロセス」です。ここでいう「知識」とは、法則・・関係性・パターンというようなものです。これらをひっくるめて「構造」とも言います。

データマイニングで発見しようとしている「知識」とは、あくまでも科学的に検証可能な知識です。科学では、検証された知識を「理論」と呼び、検証前のものを「仮説」と呼びますが、データマイニングで産出される「モデル」は、これらと同等なものです。

しかしながら、じつはここにかなり哲学的な問題が潜んでいます。「発見のプロセス」というのは科学に含まれるのか?という問題です。これは、科学哲学と呼ばれる分野で延々議論されていることで、たいへんに難しい問題なのですが、ざっくり言ってしまうと、ほとんどすべての「科学的方法」というのは、検証の方法であって、発見そのものの方法ではないのです。

つまり、伝統的な科学においては、科学者がそれぞれの個人的能力によって、何らかの発見を行い、それを理論として学会で認知して貰うために、科学的方法で検証を行なう、というのが実際の科学者が行なっていることです。科学的に検証するプロセスは、凡人レベルの知能でも一生懸命勉強しさえすれば理解して実行できるようになれます。今日の制度化された科学の中で、大部分の科学者が持っている能力とは、その程度のものでもあります。

しかし、偉大な科学的発見について、我々凡人は、その検証のプロセスは理解できても、「どうしたらあのような偉大な発見ができるのか?」についてはわからないのです。発見のプロセスがわかっていないのですから、それを自動化するなんてことはトンデモないことです。したがって、どれほどたくさんのデータマイニング技術を駆使したとしても、今のところ、「新しい有用な知識が自動的に発見される」ということは断じてありません。人間の創造性に左右される部分は残されています。

実際のところは、「発見をサポートするいくつかの便利なツールは存在する」ということに過ぎないのです。そして、さまざまな計算方法があるわけですが、その多くは、現象(データ)についての側面的情報を提供するものです。物事の本質を突いているものは、世の中それほど多くはありません。ですからケース・バイ・ケースでいろいろな計算方法を適用しなければならず、その適用場面を間違えるとトンデモない結果を導く、ということになっています。

「計算」というのはたいていそのようなものです。しかしながら、我々人間が生身の脳みそでものを考えるときには、そのような計算的な方法はとっていないのです。我々の脳は、いつも同じように働いていながら、さまざまな性質の異なる事柄に対処できるようになっています。つまり、柔軟性があるということです。我々の脳が、どのような方法で柔軟な情報処理を行なっているのかを研究して、それをコンピュータに応用しようとしているのが「ソフト・コンピューティング」という分野で、じつは我々が推奨する次世代データマイニングは、これと密接な関係があります。

「人間の脳を模倣する」というレトリックを使うと、なにやらとてつもなく神秘的なことのように聞こえてしまうのですが、けっしてそんなに神秘的なことではありません。実際には、ごく断片的な原理に基づいた計算方法がいくつか発見されている、ということに過ぎません。

そのようないくつかの断片的な計算方法の中で、もっとも「知識発見」の本質につながっていて、かつ実用性のあるのは何か?と考えると自己組織化マップとベイジアンネットワークが浮上してくるわけです。これらを使用するとKJ法のようなプロセスを実行できるからです。

概念を組み替えるツール

自己組織化マップの知識発見・データマイニングにおける意義は、「それが物事の概念化を表現している」という点です。ただし、「概念」というものは客観的事実ではありません。これも相当に哲学的で簡単には説明しきれない(詳しくは弊社のトレーニングをご受講ください)のですが、概念は人間の創造的能力と深い関係があります。要するに、人間は概念を組み換えることで創造を行なうのです。

概念の組み換えとは、「物事の分類法を変える」ということでもあります。知識発見・データマイニングにおける自己組織化マップの本当の使い方は、そのへんにあるのですが、残念ながら、そのことがあまり理解されていません。自己組織化マップを専門的に研究している人でさえ、素朴な思い込みで「客観的な分類法」を想定してしまって、研究成果をそれに合わせようと四苦八苦しているほどです。これらの研究の多くは、残念ながら、哲学的無知からくるナンセンスに陥っています。

自己組織マップを使ったからと言って、自動的に有用な概念が発見されるわけではありませんが、自己組織化マップは、正しく使用すると、データ中に潜在する概念的構造を表現するとても優れた方法になるのです。

もちろん、自己組織化マップと言っても、それを単体で使うわけではありません。たとえば、弊社がお薦めしているViscoveryは、正確に言うと、自己組織化マップに統計機能をふんだんに組み込んだものであり、単なる自己組織化マップ・ソフトウェアではありません。これによって、任意のマップ領域の統計情報をリアルタイムに計算でき、セグメンテーションを何度も見直しながら、各セグメントのプロファイル分析をインタラクティブに実行できるのです。

ほとんどの場合、有用なセグメンテーションが発見できると、ほとんど仕事が終わったも同然です。たとえば、顧客のセグメンテーションがしっかりできて、ターゲットとするセグメントの顧客がはっきりすれば、ターゲットに向けての製品を開発したり、あるいは効率的なキャンペーンを実施したりできます。要点さえしっかり押さえたら、一般に紹介されている他のさまざまなデータマイニング手法は、枝葉でしかありません。

自己組織化マップ・アプローチでも、新しいデータがどのセグメントに属するかを判別したり、アップ/クロスセリングの可能性を予測したり、取引リスクを予測したりということに適用できます。データの欠損が多少あっても、それほど結果が狂わない頑丈なモデルを作成することができます。頑丈さの点、モデル適用時の処理スピードの点では、従来のデータマイニング手法よりも、ずっと優れております。(ただし、正しい自己組織化マップを実装したソフトを使用すればに限ります。商用・研究用を含めてあらゆる製品の中で、自己組織化マップを最も適切に実装しているのはViscoveryです。)

不確実性のもとでの推論・意思決定

しかしながら、かなりデータの欠損が多く、不確実性が高い場合は、ベイジアンネットワークがさらにお薦めです。ベイジアンネットワークは、ネットワーク構造(ダイアグラム)と条件つき確率の計算から成り立っています。一般的なデータマイニング・システムでは決定木(ディシジョン・ツリー)がよく採用されていますが、ベイジアンネットワークは、それよりもさらに進んだものです。

決定木では樹形図構造の設計が変わると、かなり敏感に判断の結果が変わってしまいますが、一方、ベイジアンネットワークのネットワーク構造は、(矢印が循環してはいけないという制約があるだけで)かなり柔軟性があり、それほど深刻な問題は生じません。ネットワーク構造は、ユーザの業務知識などから感覚的に作成することができます。そして、データから機械学習(EM学習)によって条件つき確率表を作成すると、頑丈な確率推論を実行できるようになります。

ベイジアンネットワークの構築・推論ツールとしては、Huginが世界で最も完成度の高い製品です。日本でも公的研究機関で開発されたものがありますが、Huginと比較するとごく一部の機能を実現したに過ぎません。Huignは80年代からの長い開発の歴史と数多くの応用実績があって、完成度の点でははるかに優れています。ジャンクション・ツリーと呼ばれるベイジアンネットワークの実行方法は、いわばHuginのオリジナルであり、他に追随を許しません。近年は、これに代わる簡易計算法が考案されたりしておりますが、CPUの計算能力の向上により、ジャンクション・ツリーの実用性のほうが勝っています。さらに、Huginではオブジェクト指向ネットワークという手法によって、大規模ネットワークの構築さえ可能になっています。(これらのことについて、国内では国産技術(?)を擁護するあまり、バイアスのかかった情報が目立ちます。)

データマイニングにおけるベイジアンネットワークは、KJ法のA型図解(親和図)と同様に、要素間の関係性を図解するという利点がありますが、それだけでなく推論を実行して、実際の業務に適用ができたり、感度分析などの分析によって、特定の状況下ではどの変数に情報価値が高いか?という分析もできます。さらにベイジアンネットワークの発展形として、意思決定問題に適用できるインフルエンス・ダイアグラムと呼ばれるモデルを作成することもできます。

技術の目利きたちが支持

以上のような弊社のデータマイニング・アプローチや、自己組織化マップとベイジアンネットワークのベストチョイスについて、日本の産業の根幹に関る企業の研究者・技術者たちから絶大なご支持を頂いております。弊社のお客さまは、ロケットや航空機の開発から自動車、半導体、化学、医薬品、バイオといった先端技術産業ばかりです。

我々の技術は、もちろん金融・保険・証券・小売り・通信販売・メディア・IT産業と言った分野にもお役に立てるものです。ヨーロッパ市場では、むしろこちらの方が主流ですらあります。さまざまなマイニング手法を駆使することは、これらの分野のビジネス・パーソンの主要なお仕事ではないはずです。先入観を捨てて、ぜひスマートなアプローチを採用されることをお薦め致します。

「データマイニングまたはビジネス・インテリジェンスに、これまで数千万円も投資したのに、あまり芳しい成果を上げていない」という企業様のプロジェクトを、その10分の1のコストで立て直し致します。








ソリューション
アンケート調査分析
顧客セグメンテーション
スコアリング/行動予測
保険リスク予測システム
製品
Viscovery SOMine
Viscovery Predictor
Hugin Developer
Hugin Explorer
Dezide Advisor
POULIN-HUGIN
XLSTAT
Miner3D

ライセンスについて特定商取引に関する表示採用情報
©2006 Mindware Inc. All rights reserved.