SOM型データマイニング&ビッグデータ分析の解説

はじめに ~他社よりも一歩先を行くために~

Kohonenの自己組織化マップ(SOM: Self-Organizing Maps)は、標準的なデータマイニングの手法の1つとしてよく知られております。ただし、ここで述べるSOMデータマイニングは、さらに改良が加えられたSOMをデータ表現基盤として位置付けるデータマイニングおよびビッグデータ分析の新しいアプローチです。Viscovery社が世界に先駆けて実用化し、日本ではマインドウエア総研が2000年より提供している他には類を見ない技術です。大衆受けはしませんが、見識の高い人々からは熱い支持を受け続けて、今日に至っております。

世間で広く理解されているSOM、たとえばデータマイニングの入門書に説明されているSOMでは、残念ながら大規模なデータマイニング・プロジェクトや複雑な問題を解決するための深い分析を行うことはまず不可能です。それらは、ステレオタイプな理解で終わっていて実践的ではありません。それらの典型的なSOMは、2次元のマップ上にオブザベーションのラベルを貼り付けた程度のもので、率直に言って、それならMDS(多次元尺度法)でも同じようなことができるわけです。そのため、一般世間ではSOMの本当のパワーには気づかれておらず、せいぜいたくさんあるデータマイニング手法の中で、代替的な可視化手法の1つとしてしか捉えられていないわけです。

それに反して、ここで述べるSOMデータマイニングは、超大規模・超多次元データの分析のために、SOMをデータ表現の基盤として組み込んで、統計解析を高度化・パワーアップさせるデータマイニングの新しいアプローチです。これを理解するためには、まずこれまでに書籍等の情報で刷り込まれている(あえて言いますが)間違ったSOMのイメージを忘れてしまうところから始めるべきです。

SOMデータマイニング
 

SOMアプローチのデータマイニングの主要な利点は、以下の3つです。

(1) 超大規模・超多次元データ(テラバイト級・数1000次元)の分析を可能にする。

SOMは、大量なデータレコードの圧縮表現としてみなすことができます。SOMは、大規模なデータセットに内在する本質的な構造をコンパクトに(数メガバイト)で表現することができるのです。人間と大規模データの間のインタフェースとしてSOMを活用することにより、大規模データ中の類似したデータレコードの任意の部分集合に素早くアクセスできて、そこからさまざまな分析の糸口を見つけることができるのです。

(2) 創造的なデータマイニングを可能にする。

企業が不確実な状況の中で新規事業に取り組んだり、技術者が複雑な新製品の開発に取り組んだり、研究者が前人未到の難しい問題の解決方法を探るなどの場合、既存の分類概念に基づいて分析を行ったのでは、既知の結果にたどり着くだけで、一向に新しい展開にはならない、ということがあります。これは、今日の日本に蔓延している閉塞状態の元凶でもあります。

SOMは本質的に概念(コンセプト)形成のモデル化です。概念は変幻自在です。つまり、SOMはコンセプトの組み換えツールとして使用できるのです。これは誇張ではなく、これこそがSOM活用法の奥義でもあります。

よく新しいアイデアを考えるときに「発想の転換」などと言われたりしますが、データに基づかずに奇をてらった発想をすると、得てしてささいな現象を針小棒大に評価したりして、横道にそれて、思わず大きな損失につながることがあります。SOMはデータに基づいて、そのような不自然なものの見方を避けながら、大局的な観点から重要な新しい概念(分類)を発見・創造することができます。

概念という言葉を使うと抽象的な印象を持たれるかもしれませんが、そうではありません。たとえば、品質管理においても、良品・不良品という固定した概念だけで分析するよりも、「不良品にもいくつかのパターンがある」ということを発見できると、不良品が出る要因をさらに緻密に分析でき、避けられない環境条件の変化に対応したより柔軟な製造工程を構築することができます。

新しい有用な概念を発見することが、難しい問題を解くときに重要な糸口になるのです。それは、幾何学の問題の解くときの補助線のようなものです。

(3) 高精度な予測モデルを構築し、リアルタイムで実行する。

もう1つ重要なことは、SOMは非線形モデルの足場を提供する、ということがあります。一般的に世の中で広く使用されている予測モデルは線形モデルで、これはたくさんの要因が複雑に関係し合った現象をモデルするとき、大きな予測誤差が出る場合があります。この誤差を極小化するには非線形モデルが必要なのですが、非線形モデルの多くは人間が解釈できないか、あるいは解釈が難しいという問題があります。SOMデータマイニングでは、従来型の線形モデルの記述性・可解釈性を生かしながら、SOMによるデータ表現基盤の上で、全体として非線形を近似するモデルを構築することができます。

次ページ >

back to top

©2000-2014 Mindware Inc. All rights reserved.