SOM研究とViscovery

投稿者:

SOM研究とViscovery

弊社は何度も指摘してきたことなんですが、昨日、お客様の電話で、国内のSOM研究の論文・書籍に惑わされているご様子だったので、そのような方々のために、再度、同じような論点をまとめます。
———–
SOMは、1982年にKohonenがSelf-Organizing Mapsとして発表したのが始まりですが、今日のDeep Learning のレベルから見てもSOMで行われていることを「自己組織化」と呼ぶには少々大げさなネーミングだったと言わざる得ません。もともとSOMは機械学習によって生物が「概念」を獲得するプロセスを模倣しようとしたわけですが、それはごく初歩的な研究にとどまるもので、実用的にはまったく成功しておりません。
当初のSOMアルゴリズムは、データレコードを1個ずつ読み込んで、マップを構成しているノードの値(データ空間での座標値)を少しずつ修正していくもので、後に「逐次型SOM」とも呼ばれるものでした。ただし、これはまったく統計的モデルを意図しておりませんので、データ分析やデータマイニングに使用するには不適切です。
それに対して1992年に発表された改良アルゴリズムは、バッチ学習アルゴリズムで、結局、それは、K-meansの参照ベクトルを格子でつなぎあわせてスムージングしたものと見なせます。同時にノードの初期値も、それまで乱数で与えていたのに対して、主成分分析によっておおよそデータの分布に沿った状態から学習を始める手法が理解されていて、当時すでに、SOMを「主成分分析+K-means+データ分布のトポロジー保持」として捉えなおすことができるようになっておりました。
Viscovery社は、このような状況の変化を受けて1994年に設立され、1997年には、バッチSOMと統計解析を融合させたデータマイニング製品Viscovery SOMineを完成させました。マインドウエア総研は2000年からViscoveryの代理店で、2000年にリリースされたversion 3からSOM-wardクラスタリングが搭載されて、優れたクラスタリング能力を実現しております。2003年には、CRM市場向けの上位製品を展開して、ビジネス用データマイニング製品として、より完成度の高い実装を実現しました。同時にPredictorという製品でSOMローカル回帰手法を提供して、セグメンテーション・モデルと予測モデルの統一的アプローチを完成させております。
このようにViscoveryの技術は、1990年代から2000年代初頭に完成された技術で、バッチSOMを統計解析の観点から再構築したものです。従来の統計解析と比べた大きな違い・利点は、「データ分布のトポロジー保持」という点です。いうまでもなく、SOMによって実現されている部分です。これによって、大規模データの処理や線形手法の非線形への拡張を可能にした、というのがViscoveryの本質であります。
これに対して、Viscovery以外で行われてきたSOM研究のほとんどは、筋の悪い似非科学だと断罪せざる得ない経過を辿っております。Viscoveryや基本のSOMでは、通常、2次元の開曲面でデータ分布をモデルしているのに対して、理論的にはこれを3次元にしたり、閉曲面にすることは可能です。しかしながら、その効用を大げさに報告する論文・書籍はあまり信用に値しません。
たとえば、6角形の格子構造を持つSOMでは、任意のノードの隣接するノードの数が6個になりますが、開曲面の(通常の)SOMの場合、マップの縁(へり)のノードでは、その数が少なくなります。これを境界効果(Boundary effect)と呼びます。すべてのノードが同じ条件で競合するべきだとする理論的観点からすると、これは確かに問題がありそうに見えます。閉曲面のSOM(球面SOM)が考え出されたのは、その理由からです。縁をなくしてしまえば、すべてのノードが同じ条件になるという理屈です。SOMの「自己組織化」を信じている信者には、それは十分に意義のあることに見えるようですが、従来の主成分分析の拡張として捉える(線形の初期化の)立場からすると、まったくナンセンスでしかありません。主成分分析による初期化を使う時点で、完全な「自己組織化」なんてもとから目指しておりません。開曲面のSOMの縁のノードが境界効果によって、データ空間中の不適切な場所に捕まってしまうような問題はまったく生じません。
「自己組織化」にこだわればこだわるほど、SOMの研究は似非科学になってしまいます。他の機械学習アルゴリズムを研究していた研究者からは、この点を批判され続けてきました。実際、SOMは自己組織化でもなんでもないのです。歴史的な経過を辿ってネーミングだけが残されていると考えてください。
データ分析、データマイニングにおけるSOMの最も重要な部分は、自己組織化ではなくトポロジー保持にあります。この点に関して、SOMはトポロジーが固定されているということの方が重大な問題です。どのようなトポロジーのSOMを採用するにしても、SOMは学習の最初から最後までトポロジーが固定されています。つまり、データ分布のトポロジーを仮定しています。データがいつでも球面のトポロジーを持つと仮定するなんていうことは、まったく正気の沙汰ではありません。
たとえば、色というは人間は赤、青、緑というカテゴリで認識しますが、光の波長に還元すると、それは1個の連続値変数でしかありません。ところが、人間の目の3種類または4種類の錐体を通すと、それは色相環で表現されるような円環的なトポロジーが生じます。残念ながら、それはまったく客観的事実ではありません。球面SOMは、この種のイリュージョンを見ているに過ぎないのです。
Viscoveryが採用している通常のSOMのトポロジー(開曲面)の方が、特殊なトポロジーを仮定することの弊害よりも安全です。少なくとも従来の主成分分析や線形回帰の非線形拡張として位置付けるViscoveryのアプローチは、飛躍のない堅実なアプローチです。
データ分布のトポロジーを仮定しないで、まったくゼロからトポロジーを探索するアプローチがTopological Data Analysisという分野です。すでにベンチャー企業(AYASDI)も誕生しております。ただし、こちらはまだ開発途上です。今のところ、2次元のSOMのマップの方が、人間とデータを結ぶインタフェースとしてはよく役立ちます。

投稿者について