English
ひらめき工学を創造するナレッジ・エンジニアリング・コンサルタント Tel. 0120-987-136
| HOME | ソリューション | 製品セミナーダウンロードお問い合せ | 会社情報 |


自己組織化マップとは?
Self-Organizing Maps?

まずどんなものか?

基本原理

データマイニング用SOM

どんなメリットがあるのか?

SOM-Wardクラスタリング

近傍ノードについて

SOMローカル回帰モデル

SOMの実用性に関する見解

クラスタリングとクラス分類

データマイニングの方法



SOMをベースとした
データマイニング・システム


評価版無償ダウンロード


まずどんなものか?


〜多次元データ空間を地図帳風に「見える化」する

自己組織化マップ(SOM: Self-Organizing Maps)は、もともとはヘルシンキ工科大学のKohonen教授が、連想記憶という人工ニューラルネットワークの研究の中で提案したアイデアです。工学的には画像処理やロボットの制御などにも応用が研究されています。データ可視化やデータマイニングもそのような応用分野の1つです。

ただし、もともとのSOMは、何ら統計学的(客観的)モデルを意図していませんので、これをそのまま統計解析やデータマイニングに利用するのは危険です。そこで90年代にオーストリアで、従来の統計手法と互換性のある方式のSOMを用いたデータマイニング技術が開発・実用化されました。それは、今や遺伝子情報分析や宇宙開発など最先端の科学技術では欠かすことのできないものになっております。またCRMやマーケティング分析、品質管理といった通常のビジネス領域にもどんどん使われ始めております。



ここでは理論的な説明はさておき、データ可視化について、わかりやすいたとえ話からしましょう。(以下はアルゴリズムの説明ではありません。)

ある会社の顧客1000人にサッカーボール場に集まって貰ったと考えてください。そして、顧客について考察するための属性を定義します。たとえば、年齢、性別、結婚の有無、年収、・・・といった具合です。これらの属性すべてを使って顧客同士を比較します。すべての顧客を比較して、すべての人が自分に一番似ている人の隣に位置するように場所替えをしていきます。

そうやって、きれいに全員の顧客が並んだところで、ヘリコプターに乗ってサッカーボール場の上空に行きます。そして、顧客たちに呼びかけるのです。「あなたの年齢はおいくつですか?」顧客たちは自分の年齢に応じて色のついた旗を揚げます。たとえば赤色に近いほど高齢者で、青色に近いほど若年だという決まりにしておきます。皆が旗を揚げたときにヘリコプターから写真を撮ります。「性別は?」「年収は?」・・・、と同じことをやっていきます。

SOMのマップは、そうやってできた数々の写真を並べたようなものなのです。それぞれの写真の様相はさまざまですが、そこに並んでいる顧客の並び方は、すべて共通(同じ)です。これだけが、マップを見るときに重要なポイントです。

学校の地理の時間に地図帳(地勢図)を使って勉強したことを思い出してください。同じ日本列島を平均気温でみた地図、降雨量でみた地図、日照時間でみた地図、人口密度でみた地図など、いろいろな地図があったと思います。顧客データで作成したSOMのマップは、顧客の地図帳なのです。
Viscoveryの属性マップ表示(この表示方法はViscoveryのオリジナルです。)
属性: 左上[年齢]、右上[結婚]、左下[性別]、左下[年収]

いかがでしょうか?マップをよく観察してみてください。年齢の高い人は、マップの左側に集まっています。その人たちの年収はどうでしょうか?各属性の間の関係はどうでしょうか?マップの任意の領域に注目して、その領域での各属性はどのようになっていますか?ソフトウェア上では、各属性のピクチャを比較しやすくするためのさまざまな機能がありますので、さらに正確な分析ができます。

実際のデータマイニング・プロジェクトでは、たとえば小売店のカード会員や通信販売の顧客の購買履歴データなど、大規模なデータを使ってマップを作成します。顧客の年齢・性別・職業・居住地などのデモグラフィック属性と、売上高・利益率・最後の購入日・購入頻度などのスコア、さらに商品Aの購入額、商品Bの購入額・・・、と商品ごとの販売額など、さまざまな属性(変数)が含まれます。

通常、属性の数は、数10個から数100個です。さらには数千個から1万個程度になることももあります。顧客(レコード)の数は、数万件から数10万件が通常で、多い場合には数100万件という場合もあります。

顧客をセグメンテーションする

マップの上では、類似の顧客が隣接するように顧客が並んでいますから、マップのどこかの領域を切り取って、そこに対応する顧客だけを集めると、類似性の高い顧客グループができます。企業の製品展開やマーケティング・キャンペーンを計画するときに、顧客をどのようにグループ分けするか、つまり顧客セグメンテーションをどのように定義するかで、収益性が大きく違ってきます。つまり、最少の製品種別や最少のキャンペーンで、より多様な顧客をカバーすることによって、集中的投資が可能となり、収益の最大化が図れるのです。

顧客セグメンテーションの良し悪しが、企業の収益性を左右する大きなカギなのですが、多くの企業でこのことが見過ごされています。それもそのはずで、従来は顧客セグメンテーションのための強力な技術的方法がありませんでした。市販の統計解析ソフトやデータマイニング・システムに搭載されているクラスタ分析では、大規模なデータを取り扱うにはパワーが足りず、また非線形といわれる複雑な性質を持つデータには歯が立ちませんでした。SOMのマップの上で、クラスタリングを行い、そのクラスタリングをもとにしながらセグメンテーションを調整することによって、従来の技術的問題が一気にブレイクスルーしたのです。

顧客のセグメンテーションというのは、言いかえると、顧客についての概念(コンセプト)、ひいては、その顧客グループに提供する製品やサービスのコンセプトにつながります。なぜならば、概念(コンセプト)とは、外延と内包によって構成されます。外延とは、その概念が適用されるべき事物の範囲、内包とは、その概念が適用される事物に共通した特性のことです。すなわち、概念とは、グループとその特性のことです。顧客セグメンテーションは、顧客グループの範囲とそのグループ内で共通する特性を定義することであり、コンセプト・メーキングそのものなのです。

したがって、顧客セグメンテーションでは、各セグメントに属する顧客が、他のセグメントとは異なるどのような共通特性を持っているのかを明確にすることが重要です。従来では、大規模なデータをグループ分けして、その統計的特徴を調べて、またグループ分けを変更して、新しいグループ分けでの統計解析をして・・・という分析は気の遠くなるような作業であって、現実的には実行不可能でした。

SOMと統計解析を融合したViscovery SOMineというデータマイニング・システムでは、インタラクティブなプロファイル分析機能を提供しています。マウス操作によって、マップ上で任意の領域を選択すると、瞬時にそのグループの統計的特徴を計算してグラフ表示します。

SOM上でのプロファイル分析。左面のマップで選択された領域(暗く表示)の統計的特徴をt検定・尺度化等の計算で求めて、右面のグラフに表示。マウス操作で領域を選択したり、クラスタまたはセグメントを選択すると、グラフは瞬時に変化する。OLAPでは複雑になる分析も簡単にできる。


注意:一般によく解説されているSOMアルゴリズムは、実用のデータマイニング技術ではありませんので、そこから話をスタートしたら10年かけても実用レベルの話に到達しません!SOMの亜種についての周回遅れの研究成果を派手に宣伝している場合がありますが、それらはおもに学術的トピックに過ぎず実用技術ではありません。なかには統計学的に完全に間違っているケースもありますのでよく注意してください!(学術書として出版されていても信用できるとは限りません。)
ソリューション
アンケート調査分析
顧客セグメンテーション
スコアリング/行動予測
保険リスク予測システム
製品
Viscovery SOMine
Viscovery Predictor
Hugin Developer
Hugin Explorer
Dezide Advisor
POULIN-HUGIN
XLSTAT
Miner3D

ライセンスについて特定商取引に関する表示採用情報
©2006 Mindware Inc. All rights reserved.