「データマイニング」が死語となる日

投稿者:

「データマイニング」が死語となる日

データマイニングがブームになって11年が経ちました.昔からそうですが,産業界では次から次へとブームが巻き起こり,いろんな人たちがブームに便乗してひと儲けしようとするので,どうしてもまがい物がはびこります.そして,ブームになっているそのテーマそのものの言葉の定義があいまいになり,無意味化してブームが終息していきます.
たとえば「マルチメディア」というのもそうでした.マルチメディアは,コンピュータが計算機からメディアに変貌する第一歩でした.コンピュータが数字や文字だけじゃなく,音や映像を取り扱えるようになったことで,新しいコンピュータの使い方に展望が開けたことを意味する言葉でした.しかし,当時は,音や映像に関係する旧メディアもこぞって「マルチメディア」を標榜したものでした.たくさんのマルチメディアのプロジェクトが失敗に終わり,ブームは去り,「マルチメディア」は死語となっていきました.しかし,現在使っているインターネット,携帯電話,ディジタルテレビは,結局,マルチメディアを具現化した完成形として残っています.
データマイニングもこの11年混乱に混乱を重ねてきました.マルチメディアと旧メディアが混同されたのと同じように,データマイニングも統計解析と混同されました.
データマイニングと統計解析の関係をより正確に言うとすれば,「データマイニングは統計解析を含むが,従来の統計解析では扱わなかった領域に拡大したもの」というべきかと思います.その新しい領域とは,
– 知識(仮説)の発見
– 大規模データベースの使用(ギガバイト〜テラバイト級)
– 非線形モデリング

といったところです.物理学に例えるなら,ニュートンとアインシュタインの関係です.パラダイム転換です.データマイニングは統計学と矛盾してはなりません.
こういう意味からして,世間で取り上げられた「データマイニング」のほとんどは偽物でした.
たくさんの本が出版されて「データマイニングとは何か?」がさっぱりわからなくなるような混乱がありました.たとえば,上田太一郎氏の一連の書籍は,「データマイニング」という言葉を世に広める上でかなりの貢献をしましたが,同時に「データマイニング」の定義をあいまいにさせた側面もありました.つまり,彼の本に書かれている内容の大部分は,データマイニングではなく,従来の統計解析でした.功罪両面あったわけです.
統計ソフト・ベンダー各社もブームに便乗して,データマイニング・システムを売り出しました.それらは,アソシエーション・ルールやディシジョン・ツリー,ニューラルネットなどを総花的に搭載したものでした.私はこの11年繰り返し言ってきたわけですが,それらは旧式のツールの寄せ集めでしかありません.
私は,自己組織化マップとベイジアンネットワークこそが本命のデータマイニング技術であると見定めて,この11年ビジネスをやってきました.とくに自己組織化マップ(SOM)の重要性を説いて参りました.データマイニングをやるなら,一にも二にも,まず,SOMから始めることをお薦めします.
ところがSOMに関しても,本当にうんざりするほど嘘情報が蔓延してしまいました.もうしょうがないので,はっきり言いますが,早稲田大学の豊田秀樹先生がご著書に中で書かれているSOMの解説は,まったくデータマイニングの説明にはなっていません.はっきりと断言しますが間違いです.(もうちょっと遠まわしな言い方をするなら,あれは約30年前なら最先端の知識でした.)
より詳細は,データマイニング用SOMをご参照ください.
SOMでポジショニング・マップを作成することはできますが,それしかできないというのは大嘘です.「SOMはポジショニング・マップを描くツール」というのはあまり正しい教え方ではありません.あんな小規模なアプリケーションを「データマイニング」だと学生に教えることは,「データマイニング」と「SOM」のイメージを大きく貶めています.それは産業界にとってマイナスですし,我々にとっては営業妨害です.
諸外国と比較して,日本のデータマイニング導入は遅れています.この遅れを挽回しないと,国際的な日本の地位は失墜します.
本物のSOMテクノロジーは,上にあげた3つの要件を満たしていて,市販の本に書かれているようなチャチなものではありません.
無用なものが排除され,本命だけが生き残るとき,ブームのキーワードは消滅します.「マルチメディア」という言葉が消えて,インターネットや携帯電話が残ったように,「データマイニング」という言葉が消えたときに,いったい世の中では何が使われているのでしょうか.

投稿者について