創造的データマイニングでビジネスと研究開発をサポート
English
Tel. 0120-987-136
| HOME | ソリューション | 製品ダウンロードお問い合せ | 会社情報 |


自己組織化マップとは?
Self-Organizing Maps?

まずどんなものか?

基本原理

データマイニング用SOM
(逐次型とバッチ型)


どんなメリットがあるのか?

SOM-Wardクラスタリング

近傍ノードについて

SOMローカル回帰モデル

SOMの実用性に関する見解

クラスタリングとクラス分類

データマイニングの方法



SOMをベースとした
データマイニング・システム


SOM関連書籍


まずどんなものか?


〜多次元データ空間を地図帳風に「見える化」する

自己組織化マップ(SOM: Self-Organizing Maps)の理論的な説明はさておき、ここではわかりやすいたとえ話からしましょう。(以下はアルゴリズムの説明ではありません。)

ある会社の顧客1000人にサッカーボール場に集まって貰ったと考えてください。そして、顧客について考察するための属性を定義します。たとえば、年齢、性別、結婚の有無、年収、・・・といった具合です。これらの属性すべてを使って顧客同士を比較します。すべての顧客を比較して、すべての人が自分に一番似ている人の隣に位置するように場所替えをしていきます。

そうやって、きれいに全員の顧客が並んだところで、ヘリコプターに乗ってサッカーボール場の上空に行きます。そして、顧客たちに呼びかけるのです。「あなたの年齢はおいくつですか?」顧客たちは自分の年齢に応じて色のついた旗を揚げます。たとえば赤色に近いほど高齢者で、青色に近いほど若年だという決まりにしておきます。皆が旗を揚げたときにヘリコプターから写真を撮ります。「性別は?」「年収は?」・・・、と同じことをやっていきます。

SOMのマップは、そうやってできた数々の写真を並べたようなものなのです。それぞれの写真の様相はさまざまですが、そこに並んでいる顧客の並び方は、すべて共通(同じ)です。これだけが、マップを見るときに重要なポイントです。

学校の地理の時間に地図帳(地勢図)を使って勉強したことを思い出してください。同じ日本列島を平均気温でみた地図、降雨量でみた地図、日照時間でみた地図、人口密度でみた地図など、いろいろな地図があったと思います。顧客データで作成したSOMのマップは、顧客の地図帳なのです。

属性
左上
[年齢]
右上
[結婚]
左下
[性別]
左下
[年収]

いかがでしょうか?マップをよく観察してみてください。年齢の高い人は、マップの左側に集まっています。その人たちの年収はどうでしょうか?各属性の間の関係はどうでしょうか?マップの任意の領域に注目して、その領域での各属性はどのようになっていますか?ソフトウェア上では、各属性のピクチャを比較しやすくするためのさまざまな機能がありますので、さらに正確な分析ができます。

実際のデータマイニング・プロジェクトでは、小売店のカード会員や通信販売のような顧客の購買履歴データを使って、マップを作成します。顧客の年齢・性別・職業・居住地などのデモグラフィック属性と、売上高・利益率・最後の購入日・購入頻度などのスコア、さらに商品Aの購入額、商品Bの購入額・・・、と商品ごとの販売額など、さまざまな属性(変数)が含まれます。これらの属性のすべてを使ってマップを作成したり、または目的に応じて、属性(変数)を選択したり重み付けを調整して、多数のマップ作成して、より有用なマップを探索します。(結局、有用なマップを見つけることがマイニング・プロセスのノウハウです!)

通常、属性の数は、数10個から数100個です。さらには1,000個から3,000個という場合もあります。顧客(レコード)の数は、数万件から数10万件が通常で、多い場合には数100万件という場合もあります。SOMはこのような超多次元、大規模データに適用してこそ、そのパワーを活かすことができます。小規模なデータに適用しても、もちろんかまいませんが、それなら従来の統計解析でも十分でしょう。

顧客をセグメンテーションする

マップの上では、類似の顧客が隣接するように顧客が並んでいますから、マップのどこかの領域を切り取って、そこに対応する顧客だけを集めると、類似性の高い顧客グループができます。企業の製品展開やマーケティング・キャンペーンを計画するときに、顧客をどのようにグループ分けするか、つまり顧客セグメンテーションをどのように定義するかで、収益性が大きく違ってきます。つまり、最少の製品種別や最少のキャンペーンで、より多様な顧客をカバーすることによって、集中的投資が可能となり、収益の最大化が図れるのです。

顧客セグメンテーションの良し悪しが、企業の収益性を左右する大きなカギなのですが、多くの企業でこのことが見過ごされています。それもそのはずで、従来は顧客セグメンテーションのための強力な技術的方法がありませんでした。市販の統計解析ソフトやデータマイニング・システムに搭載されているクラスタ分析では、大規模なデータを取り扱うにはパワーが足りず、また非線形といわれる複雑な性質を持つデータには歯が立ちませんでした。SOMのマップの上で、クラスタリングを行い、そのクラスタリングをもとにしながらセグメンテーションを調整することによって、従来の技術的問題が一気にブレイクスルーしたのです。

顧客のセグメンテーションというのは、言いかえると、顧客についての概念(コンセプト)、ひいては、その顧客グループに提供する製品やサービスのコンセプトにつながります。なぜならば、概念(コンセプト)とは、外延と内包によって構成されます。外延とは、その概念が適用されるべき事物の範囲、内包とは、その概念が適用される事物に共通した特性のことです。すなわち、概念とは、グループとその特性のことです。顧客セグメンテーションは、顧客グループの範囲とそのグループ内で共通する特性を定義することであり、コンセプト・メーキングそのものなのです。

したがって、顧客セグメンテーションの定義と言う場合には、顧客データをクラスタリングして、顧客をグループ分けするだけでは、まだ作業が完了しません。各セグメンテーションの特性を明らかにしなければなりません。従来は、データをクラスタリング/グループ分けして、その統計的特徴を調べるには、複雑な手順を踏まなければなりませんでした。しかしながら、Viscovery ProfilerなどのSOMベースのデータマイニング・システムなら、マップ上の任意の領域について、その統計的特徴を瞬時に知ることができるようになりました。通常のデータマイニング・システムでは訓練を受けたデータマイニング技術者が何時間もかけて分析していたことが、SOMベースのデータマイニングでは1クリックでできてしまうのです。

ここで重要なことは、SOMのマップは単に図としての地図というイメージのものではなくて、その本質は、さまざまな情報処理・計算を高速化することのできるターボチャージャ的なプラットフォームであるということです。

SOM上でのプロファイル分析(Viscovery Profiler)。左面のマップで選択された領域(暗く表示)の統計的特徴をt検定・尺度化等の計算で求めて、右面のグラフに表示。マウス操作で領域を選択したり、クラスタまたはセグメントを選択すると、グラフは瞬時に変化する。OLAPでは複雑になる分析も簡単にできる。

ソリューション
ダイレクトメール効率化
調査/実験データ分析
顧客セグメンテーション
スコアリング/行動予測
保険リスク予測システム
リコメンデーション
製品
Viscovery SOMine
Viscovery Predictor
Hugin Developer
Hugin Explorer
Dezide Advisor
POULIN-HUGIN
Equbits Foresight
Vanguard Studio
XLSTAT
Miner3D

ライセンスについて特定商取引に関する表示採用情報
©2006 Mindware Inc. All rights reserved.