総花的データマイニングの終焉

投稿者:

総花的データマイニングの終焉

「データサイエンティスト」と呼べるような人は、本来は、統計解析や機械学習、人工知能などを研究している(いた)科学者であるべきなのですが、それが「データ分析者」のことになってしまった経緯をもう少し詳しく述べます。
それは従来のデータマイニング・システムが、科学者でなければ使いこなせないような難しいものだったからです。
伝統的な統計解析ソフトウェアのベンダーが、初期のデータマイニング・システムを売り出したことが、データマイニング・ブームに火をつけました。統計解析ソフトウェアというのは科学者のためのツールです。医学、生物学、農学、栄養学、心理学、社会科学、工学といった分野で統計解析が使用されます。これらの科学者は、とくに統計学を専門に勉強しているわけではありませんが、科学者の共通言語として統計学が位置付けられております。したがって、科学者はそれなりに勉強して、統計解析ソフトウェアを使いこなせるように努力しています。
企業でも戦後、生産部門において「科学的管理手法」が導入されて、生産管理・品質管理の分野で統計解析が導入されました。私は、その年代よりも後なので当時のことは知りませんが、初期は「科学的管理」というスローガンのとおりに科学的色彩が濃かったものと想像します。ついで、マーケティング部門でも統計解析が導入されるようになってきました。これも初期は、社会科学や心理学の研究の中で統計解析を使った経験を持つ人が、企業に持ち込んだものと思われます。
(しかし、企業内で統計解析が広まるに伴って、あまり正しく使用されていない場合も増えてきているのは、他の記事でも述べたとおりです。)
伝統的な統計解析ソフトウェアのベンダーが、従来の統計解析の枠組みを超えて、人工ニューラルネットワークや機械学習アルゴリズムを搭載したソフトウエアを「データマイニング・システム」として売り出したとき、その基本構造は従来の統計解析ソフトウェアの構造を継承しました。

総花的データマイニングの限界

つまり、統計解析ソフトウェアというのは、記述統計から検定、多変量解析に至る膨大な数の手法の集積です。個々の手法・アルゴリズムが関数として実装されており、ユーザーはさまざまな関数を呼び出して、それらを組み合わせて一連の分析手順を組み立てます。
これと同様、従来のデータマイニング・システムは、従来の統計解析に加えて、新しいアルゴリズムが実装されたものであり、やはり、ここでもユーザーは自分で分析手順を組みたてなければならないのでした。ただし、それを「アイコンをつなぎ合わせるだけでプログラミングの必要なしにビジュアルに操作できる」ということをセールスポイントにしていました。
さまざまなデータマイニング用の手法・アルゴリズムが実装されており、万能なシステムであるかのように見えるのですが、それを本当に使いこなすには、個々の手法・アルゴリズムについての<科学的知識>が必要です。もちろん、ソフトウェアなので内部の計算の詳細にまでユーザーが意識をしなくても、計算そのものは正しく行われます。しかし、個々の手法・アルゴリズムの特性を理解して、的確に使用するには、最低限の知識は必要です。
それが1つや2つのことであれば、素人でもなんとか勉強できますが、たくんさんの手法・アルゴリズムが総花的に実装されていて、それらをすべてを理解することは、素人には不可能です。データマイニングの解説書が多数出版されましたが、どれも表面的な内容で、「わかったつもりになれる」というレベルのもので実践的な内容ではありませんでした。
そりゃ無理です。データマイニングに使用されるさまざまな手法は、どれか1つでもちゃんと勉強したら博士になれるぐらいです。そういうものを素人が、あれもこれも使いこなせるはずがないのです。

データサイエンティストの実像

なので、従来のデータマイニング・システムを本当に使いこなせるのは、その中で使われているアルゴリズムについて、大学院で専門的に研究していた人(あるいは研究のアシストをしながら勉強をしていた人)に限られるのです。
そんなデータマイニング・システムを一般の企業が数千万円もかけて導入しても使いこなせる人がおりません。だから、力のある一部の企業は、本当にデータマイニングの経験のある本物の科学者を採用します。それが「(企業内)データサイエンティスト」の始まりです。
ところが、本物のデータサイエンティストはそんなに大勢おりません。高額なデータマイニング・システムを導入した企業のほとんどで、ちゃんとした成果が得られていないのが現実です。
それで、出てきた発想が「データマイニング技能者を育成する」ということです。ここで「データマイニング技能者」と言ってもあまり魅力的に聞こえないので、「データサイエンティスト」に昇格させて、「あなたもデータマイニング・システムの使い方を習ってデータサイエンティストになりませんか?」というキャンペーンを展開中というわけです。
全体の底上げという意味では効果がないわけではないでしょう。勉強すれば、少しはマシな使い方ができるようにはなるでしょう。しかし、そんなお手軽なデータサイエンティストにプロフェッショナルな仕事を期待できるものでしょうか?答えは明らかに「ノー」です。

一点突破のデータマイニング・アプローチ

そもそも話を元に戻すと、従来のデータマイニング・システムの最大の欠点は、「総花的なアプローチ」にあります。
データマイニングには、さまざまなアプローチがあるのですが、従来のベンダーは優等生的に、そのすべてをカバーしようとしているので、個々のアプローチに最適化された製品ではないのです。
Viscoveryは、従来のデータマイニング・ベンダーとは対照的に、SOMアプローチに特化しています。「SOMなら従来のデータマイニング・システムにも搭載されている」という誤解が多いのですが、その実装レベルは天と地ほど違います。
Viscoveryは、SOMアプローチのデータマイニングを提唱しておりますが、それはSOMだけしか提供されていないということではありません。データマイニングの技術体系をSOMを起点にして組み替えて、一貫性のある技術体系を提供しているのです。
難しい状況を打破するときの作戦として「一点突破」ということがあります。勉強嫌いの子供が、何か1つ得意な科目を獲得すると、そこから一転して、他の科目でも成績が上がっていくということがあります。
あらゆる物事はつながっています。バラバラではありません。企業がデータマイニングをものにするにも、一点突破の作戦は有効です。

投稿者について