SOM-Ward法による自然なクラスタリング
市販のデータマイニング本にSOMがクラスタリング手法の1つとして掲載されているのですが、あまり正確な説明がされていませんのでご注意ください。SOMと従来のクラスタ分析の違いをちゃんと説明している著者は皆無です。
もっともひどい間違いは、3×3個とか3×4個とか4×4個といったわずかなノード数のSOMを使って、(データサンプルがどのノードに対応するかだけで)クラスタリングをしている解説書があります。それは完全な誤解です。
クラスタリング問題にSOMを使うことのメリットは、SOMがデータ空間の位相的順序(トポロジー)、つまり、「つながり方」を保持できるというところにあります。

上図はデータサンプルの布置を2次元のイメージで表現したものです。実際には多次元の空間にこのようなものがあると思ってください。通常の統計的なクラスタリングは、(A)や(B)の場合に有効ですが、(C)のような場合には有効なアルゴリズムが従来は存在しませんでした。(A)の場合は、単純にサンプル間の距離から計算することができます。(B)の場合は、距離だけでは判断できませんが、それでも直線を引いてクラスタの境界線とすることができます。しかし(C)の場合は、境界線が複雑に入り組んでいるので、それを計算で求めるのが難しいわけです。
(C)のようにデータの分布が曲がっているのは、変数間で非線形な関係性があるということができます。このようなクラスリングを求めることを「自然なクラスタリング」とも言います。SOMによるクラスタリングの第1のメリットは、自然なクラスタリングが得られることです。

SOMを用いてクラスタリングを行なうには、ノード間のつながり情報を活用しながらノードをクラスタリングする計算アルゴリズムを用います。つまり、SOMそのものは、より高度なクラスタリング計算のための「足場」を提供しているのであって、SOMが最終的なクラスタリングを提供するわけではありません。より高度なクラスタリング計算方法は、SOMの研究者によっていろいろと研究されておりますが、もっとも汎用性が確認されていて市販されているものでは、たとえばEudaptics社のSOM-Ward法(1)があります。これを用いると、上図のように自然なクラスタリングを計算で求めることが可能となります。
さらに第2のメリットは、大規模なデータ集合をクラスタリングできることです。SOMのマップが作成されると、すでに学習データのレコードは、それぞれどれかのノードに対応しておりますから、SOM上のノードをクラスタリングすれば、データレコードが何100万件あろうとも、すべてのレコード間の距離を計算する必要なく、すべてのレコードを瞬時にクラスタリングすることができます。クラスタリングに使用する変数を選択し直したり、クラスタ数を変更して何度でもクラスタリングを行なうことができます。
なお、クラスタリングした結果から、対応するデータサンプルを抽出することが自在にできますので、それにマーケティング・アクションをつなげるなどして実際のビジネスに活用することができます。SOMの最大のメリットは、単に分析に使えるということだけではなく、知能化された実行システムを構築できることです。学習したマップそれ自身が高度な情報処理(判断・認識)能力を持っているので、それを実行システムに組み込むことによって、既存のシステムを知能化システムに生まれ変わらせることができます。
|