SOMデータマイニングの真実

投稿者:

SOMデータマイニングの真実

SOM研究とViscoveryの記事が長文過ぎて伝わりにくいかと思い、もう少し簡潔な表現をしてみます。
SOMは多次元(多変量)データの理想的なモデリング基盤として使用できます。
それは、多次元データの可視化、探索的分析、クラスタリング、クラス分類、非線形モデルのための基盤提供など、幅広い活用を可能にします。
その意味で、多変量解析の文脈で捉えることもできます。しかし、SOMを主成分分析やクラスタ分析などと並ぶような多変量解析手法の1つと捉えるべきだということではなく、むしろ、既存の手法とSOMを組み合わせることで、それらの手法を強力化するターボチャージャーのようなものです。
つまり、SOMは既存の手法と競合したり、置き換わったりするものではありません。それどころか、SOM単体では精緻な分析にはなり得ません。(この段階で間違った方向に行ってしまっている研究があまりに多いです。)しかし、SOMは複雑なデータを大局的に整理しなおすことで、難しかった分析を簡単にしてくれたり、新しい創造の糸口を提示してくれます。それが真実です。
総合的なデータマイニング・システムでも、KohonenのSOMアルゴリズムは搭載されていますが、単体のアルゴリズムのレベルで実装されているので、ほとんどのユーザーには実践的な活用は閉ざされたままです。
またもう1つ世間では重大な誤解があります。データマイニングでは、バッチ学習アルゴリズムを使用するべきですが、残念なことに、SOMの学術研究の情報がノイズとなって、長年にわたってユーザーを惑わせ続けてきました。
SOMの学術研究では、いかにSOMのノードがランダムな状態から、(SOMの)格子がもつれたりせずに自己組織化的に秩序を獲得するか、ということに重点を置いた研究がなされてきました。
しかし、それはデータマイニングとはまったく関係のないことです。そんなことでデータマイニングの(統計的な)性能が向上したりはしません。実用上は、ランダムな状態から学習するSOMなんて必要がないからです。
不幸なことに国内のSOMの研究者の中には、伝統的な統計解析の知識も乏しく、またデータマイニングでのSOMに関するさまざまなテクニックを理解しないまま、海外で15年も20年も前に研究されたSOMアルゴリズムの変形をまだ研究している人がいて、その成果を大げさに発表している場合があります。この手の研究室で開発されたソフトウェアの出来は、見るも無残なほどチープな出来です。そんな学術情報に惑わされると、10年単位で大きな時間のロスになります。
SOMのバッチ学習アルゴリズムと伝統的な統計解析の両方について熟知して、それらを組み合わせた新しい分析手法を本格的に実装できているのは、これまでの20年間、世界中でViscoveryのみです。

投稿者について