|
自己組織化マップとは?
Self-Organizing Maps?
まずどんなものか?
基本原理
データマイニング用SOM
どんなメリットがあるのか?
SOM-Wardクラスタリング
近傍ノードについて
SOMローカル回帰モデル
SOMの実用性に関する見解
クラスタリングとクラス分類
データマイニングの方法
SOMをベースとした
データマイニング・システム
評価版無償ダウンロード
|
|
自己組織化マップの実用性に関する見解
自己組織化マップ(SOM)のデータマイニングにおける実用性について、疑問・質問の声がよく寄せられますので弊社の見解を述べます。
間違いだらけのSOM
まず、もともとのSOMは、生物学的な神経細胞網モデルの1つであり、統計学的モデルを意図しておりませんので、それをそのまま統計的応用に利用するのは間違いです。SOMの実用性に疑問が生じるのは、この間違いを犯しているのがほとんどです。
SOMの研究者の中には、さまざまな応用分野の出身者がいて、必ずしもこの点を正しく理解して研究している人ばかりではありませんし、それに影響されてか、市販の有力なデータマイニング・システムの中でのSOMの実装が不適切な場合もあります。大学や企業のブランドだけで、すべてを妄信するような態度こそ改めるべきです。
一般向けに出版されているデータマイニングの解説書(SOMだけでなく、ニューラルネットやSVMなどのたくさんの手法を羅列的に紹介しているタイプの本)でのSOMの解説は、ほとんどデータマイニング用のSOMの解説としては間違っています。誰かが間違って逐次型SOMの説明をデータマイニング手法の1つとして書いたものを、後続の著者らがあまり調べもしないでそのままコピーしている状態です。まったくひどいものです。
もともとのSOMアルゴリズムは単純なので、プログラミングの得意な人なら、研究用に自作することも可能です。それによって、これまで非常にたくさんのSOMの研究論文が生み出されてきたというプラスの面もあります。しかしながら、それと実用のデータマイニングとは違います。それにもかかわらず、教科書レベルのアルゴリズムの説明ばかりが、いつまでたってもクローズアップされたままの状態が続いています。
もちろん、アルゴリズムの研究者を育てる教育なら、そこからスタートしてよいのですが、データマイニング・ユーザが、そんな遠回りをする必要はまったくないのです。すでに実用化されている技術を採用しないで、オリジナルのアイデアから出発していたのでは、実用のレベルに達するまでに10年以上の時間がかかります。
SOMを用いてデータマイニングを行なうには、最低、次のような要素が必要になります:
(1)データ前処理
(2)SOM学習アルゴリズム
(3)マップの表示部
(4)マップ上での分析手法
どうしても(2)のアルゴリズムの部分がクローズアップされやすいのですが、実際的には、それだけで実用の技術を構成することはできません。実用のソフトウェア製品は、5年、10年とメンテナンスをつづけてやっと本物になります。世界中探しても、SOM関連のソフトウェアの中で、実用レベルの総合的な完成度をもっているのは、今のところViscovery社のみです。
SOMアルゴリズムの動向
注目の集まるSOMのアルゴリズムから先に述べますと、まず、1982年にKohonenがオリジナルのSOMアルゴリズムを考案しました。後に続くさまざまな発展の突破口を開いたのですから、これはたいへんな偉業です。だからといって、オリジナルのアイデアがそのまま、どんな目的にでも万能的に通用するということではありません。オリジナルのSOMは、データレコードを1つずつ学習して、そのたびに、そのデータレコードに対応する”勝者”ノードを決定して、ノード値を更新します。そのために、学習するデータの出現順序によって得られるマップの結果が変化します。それは生物的な学習のプロセスのエッセンスをうまく表現していますが、データマイニングなどの統計的応用には向きません。このような学習順序への依存性を取り除いたバッチ型SOMをKohonen自身が提案したのが1992年でした。
Viscovery社(当初はEudaptics)は、そのような研究成果を受けて、(オーストリアのソフトウェア・リサーチ・センターからのスピンオフとして)1994年に設立されました。さらに、少ないノード数から学習を始めて順々にノード数を増やしていく、成長SOMの手法も当初から採用することができました。90年代の半ばは、SOMを用いたデータマイニング手法につながる研究がほぼ出揃った時期で、まさに絶好のタイミングでした。Viscovery社は、それらを集大成して製品化を行なったのでした。そして、改良型の成長バッチSOMによるデータマイニング技術の基礎を(学習アルゴリズムのみでなく前述のようなデータマイニング・プロセスの要素を総合的に実装して)1997年に完成させました。
オリジナルの逐次型SOMもバッチ型SOMも含めて、KohonenのSOMはたくさんのヒューリスティクスで成り立っています。その意味で、"科学"というよりも"技術"です。逐次型SOMでは、学習率係数αによってノード値の更新幅を調整する必要がありますが、バッチ型SOMでは副次的な結果として、その制約が取り除かれました。しかしながら、ノード間の結束力を表す"近傍半径"を学習プロセスの最初は大きくしていて、徐々にそれを小さくしていく、というように学習スケジュールを与える必要があるのは変わっていません。
Viscoveryでは、たくさんの実践的経験から汎用的な学習スケジュールが与えられており、ユーザは、学習の正確さ・速さを大まかに指定するだけで、SOM学習プロセスに失敗することは皆無になっています。最終の近傍半径(テンション)を指定することにより、ユーザは好みの度合いでマップをスムージングさせることができます。いわばディジタル・カメラ並みの簡便さでSOMを取り扱うことができるまでに実用化が達成されました。
一方、アカデミックの世界では、1996年にBishopがSOMからヒントを得たGTM(Generative
Topographic Map)を提案しました。これはSOMに因子分析のような潜在変数を持ち込むアイデアで、EMアルゴリズムを用いて、入力データに潜在すると考えられる(実際には観測されていない)データの分布を推定します。近傍半径の収縮もEM過程によって自動的に行なわれるとされています。
またVan Hulleが同時期に別のアプローチの研究を行いました。彼は情報理論的な観点から効率のよいマップの作成を目指しました。BishopがSOMから生物学的な意味あいを完全に取り去ったのに対して、Van
Hulleは生物学的モデルを再考して、SOMにニューロンの受容野(RF)と呼ばれる影響領域I(活性化関数)が欠如していることに注目しました。SOMの近傍関数の半径が均一なのに対して、最終的にVan
Hulleの等確率位相マップは、RFカーネルと呼ばれるガウス型の活性化領域の半径が、自動的に調整されるようになっています。すなわち、データ空間の密度の低いところでは大きなRFカーネルを持つニューロン(ノード)が置かれ、密度の高いところでは小さなRFカーネルを持つニューロンが置かれます。したがって、どのニューロンも同じ確率で勝者になる(つまりデータポイントと対応する)というふうになっています。1)
もちろん、この他にも数々の研究成果があります。しかし、「データマイニング」という観点から比較的筋のよい改良技術は、GTMと等確率位相マップぐらいではないかと思われます。どのような分野でも研究というものは、「千に三つ」程度しか本当によいものはありません。しかも、その稀に優れた研究も、今日すぐに実用化されて役立つということではありません。現在、市場に存在する実用化技術はViscoveryのみです。
ちなみに、ここで特筆すべきことは、SOMデータマイニングを議論するときに、生物学的なもともとのSOMの精神を尊重するのか、それとも完全に統計学的なモデルを目指すべきか、というのは1つの悩みごとだということです。基本的には、データマイニングでは、生物学的な意味合いをそぎ落として、統計学的モデルを目指すべきでしょう。しかしながら、統計学といえども、我々が人間であることを否定したうえでは成り立ちません。すなわち、「SOMは概念の形成を表現している」という精神からは離れてしまうと元も子もありません。
実用のデータマイニングのための要件
学術的なトピックはいろいろとあるにしても、それと実用のデータマイニングとは切り離して考えなければなりません。これはSOM以外のデータマイニングにも共通していることですが、「データマイニング」があまりにアカデミックに偏ったイメージで捉えられていて、実用の場面とアカデミックなトピックが混同されやすい、ということがあります。アカデミックの議論は、機械学習アルゴリズムの改良に集中する傾向があります。何度も言いますが、実用のデータマイニングは、それだけでは実現できません。SOM(または位相マップ)を用いたデータマイニングでは、下記の要素が重要です。
データ前処理
SOMに限らずデータマイニングの前段では、データクレンジング(欠損値・はずれ値の処理)、スケーリング(標準化)、ヒストグラムの調整(軸目盛りの変換、サンプリング)、カテゴリ変数の処理(名義変数の作成)などを行います。SOMの応用研究の多くで、(学習アルゴリズム以前に)この段階で統計学との互換性を欠いている場合が多々あります。とくに日本国内では、ある事情のためそれが顕著です。
ノードの初期値
SOMの研究ではノード値の初期状態を乱数で与える方法がよく採用されています。アルゴリズムの性能を証明するための研究上の理由はありますが、実用上のメリットは何もありません。実用のデータマイニングでのSOMの初期化は主成分分析です。
データの分析
SOMの研究では、入力データに基づいて、マップのノード値を順序づけすることに最大の関心が向けられていますが、データマイニングではそれはデータ分析のための手段に過ぎず、それが最終の目的ではありません。つまり、マップが作成されたあとの分析がまるで違います。実際、順序づけされたSOMのマップ上では、さまざまな分析が可能です。たとえば、ViscoveryでのSOMのマップは、人間と(人間が直接は認識できない)データ空間との間の対話を可能にするインタフェースとして働きます。したがって、分析のプロセスは対話的であり、探索的です。データから驚くほど豊かな知見を直感的に得ることができます。このようなデータ分析・データマイニング手法は、他には見当たりません。実用のデータマイニングでは、さまざまな対話的な分析手段が実装されていなければなりませんが、SOMのアルゴリズムをコーディングしただけのプログラムでは、そのような本格的な分析を行なうのは不可能です。
結局、現状では、Viscovery社の製品・技術を採用せずに、商用レベルの実用的なSOMを実現することができません。Viscovery社にとっては、まさにSOMデータマイニングは独壇場となっており、大きなビジネス・チャンスなのですが、半面、競合製品が出てこないことが、SOMデータマイニングの普及の速度を遅らせている原因にもなっています。マインドウエア総研としては、ViscoveryをスタンダードなSOMデータマイニング技術として普及させるために、他社製品へのViscovery技術の組み込みにもご協力致します。ぜひ、マインドウエア総研にご相談ください。2)
1) マインドウエア総研・代表の多田は、Van Hulleの"Faithful Representations
and Topographic Maps"の翻訳者の1人でもあります。Van Hulleは2000年に、彼のカーネルベース等確率位相マップを用いたデータマイニングの専門会社を設立しましたが、わずか数年で、事業から撤退しました。同じ頃、日本も含めて世界中の大学や公的研究機関で、研究成果を事業化しようとする動きがありましたが、Viscovery社以外に事業化に成功した例がありません。
2) Viscovery社自身ももとはといえば、公的研究機関からのスピンオフでしたが、独立の時期がもっとも早かったのが幸いして、(研究用のSOMでは実装されていなかった)SOMの基本的な表示方法について、ほとんど独占的に知的所有権が成立しています。
2008.7.26
|
|
|