ここでは理論的な説明はさておき、データ可視化について、わかりやすいたとえ話からしましょう。(以下はアルゴリズムの説明ではありません。) ある会社の顧客1000人にサッカーボール場に集まって貰ったと考えてください。そして、顧客について考察するための属性を定義します。たとえば、年齢、性別、結婚の有無、年収、・・・といった具合です。これらの属性すべてを使って顧客同士を比較します。すべての顧客を比較して、すべての人が自分に一番似ている人の隣に位置するように場所替えをしていきます。 そうやって、きれいに全員の顧客が並んだところで、ヘリコプターに乗ってサッカーボール場の上空に行きます。そして、顧客たちに呼びかけるのです。「あなたの年齢はおいくつですか?」顧客たちは自分の年齢に応じて色のついた旗を揚げます。たとえば赤色に近いほど高齢者で、青色に近いほど若年だという決まりにしておきます。皆が旗を揚げたときにヘリコプターから写真を撮ります。「性別は?」「年収は?」・・・、と同じことをやっていきます。 SOMのマップは、そうやってできた数々の写真を並べたようなものなのです。それぞれの写真の様相はさまざまですが、そこに並んでいる顧客の並び方は、すべて共通(同じ)です。これだけが、マップを見るときに重要なポイントです。 学校の地理の時間に地図帳(地勢図)を使って勉強したことを思い出してください。同じ日本列島を平均気温でみた地図、降雨量でみた地図、日照時間でみた地図、人口密度でみた地図など、いろいろな地図があったと思います。顧客データで作成したSOMのマップは、顧客の地図帳なのです。
いかがでしょうか?マップをよく観察してみてください。年齢の高い人は、マップの左側に集まっています。その人たちの年収はどうでしょうか?各属性の間の関係はどうでしょうか?マップの任意の領域に注目して、その領域での各属性はどのようになっていますか?ソフトウェア上では、各属性のピクチャを比較しやすくするためのさまざまな機能がありますので、さらに正確な分析ができます。 実際のデータマイニング・プロジェクトでは、たとえば小売店のカード会員や通信販売の顧客の購買履歴データなど、大規模なデータを使ってマップを作成します。顧客の年齢・性別・職業・居住地などのデモグラフィック属性と、売上高・利益率・最後の購入日・購入頻度などのスコア、さらに商品Aの購入額、商品Bの購入額・・・、と商品ごとの販売額など、さまざまな属性(変数)が含まれます。 通常、属性の数は、数10個から数100個です。さらには数千個から1万個程度になることもあります。顧客(レコード)の数は、数万件から数10万件が通常で、多い場合には数100万件という場合もあります。 顧客をセグメンテーションするマップの上では、類似の顧客が隣接するように並んでいますから、マップのどこかの領域を切り取って、そこに対応する顧客だけを集めると、類似性の高い顧客グループができます。企業の製品展開やマーケティング・キャンペーンを計画するときに、顧客をどのようにグループ分けするか、つまり顧客セグメンテーションをどのように定義するかで、収益性が大きく違ってきます。つまり、最少の製品種別や最少のキャンペーンで、より多様な顧客をカバーすることによって、集中的投資が可能となり、収益の最大化が図れるのです。顧客セグメンテーションの良し悪しが、企業の収益性を左右する大きなカギなのですが、多くの企業でこのことが見過ごされています。それもそのはずで、従来は顧客セグメンテーションのための強力な技術的方法がありませんでした。市販の統計解析ソフトやデータマイニング・システムに搭載されているクラスタ分析では、大規模なデータを取り扱うにはパワーが足りず、また非線形といわれる複雑な性質を持つデータには歯が立ちませんでした。SOMのマップの上で、クラスタリングを行い、そのクラスタリングをもとにしながらセグメンテーションを調整することによって、従来の技術的問題が一気にブレイクスルーしたのです。 顧客のセグメンテーションというのは、言いかえると、顧客についての概念(コンセプト)、ひいては、その顧客グループに提供する製品やサービスのコンセプトにつながります。なぜならば、概念(コンセプト)とは、外延と内包によって構成されます。外延とは、その概念が適用されるべき事物の範囲、内包とは、その概念が適用される事物に共通した特性のことです。すなわち、概念とは、グループとその特性のことです。顧客セグメンテーションは、顧客グループの範囲とそのグループ内で共通する特性を定義することであり、コンセプト・メーキングそのものなのです。 したがって、顧客セグメンテーションでは、各セグメントに属する顧客が、他のセグメントとは異なるどのような共通特性を持っているのかを明確にすることが重要です。従来では、大規模なデータをグループ分けして、その統計的特徴を調べて、またグループ分けを変更して、新しいグループ分けでの統計解析をして・・・という分析は気の遠くなるような作業であって、現実的には実行不可能でした。 SOMと統計解析を融合したViscovery SOMineというデータマイニング・システムでは、インタラクティブなプロファイル分析機能を提供しています。マウス操作によって、マップ上で任意の領域を選択すると、瞬時にそのグループの統計的特徴を計算してグラフ表示します。
注意: 一般によく解説されているSOMアルゴリズムは、実用のデータマイニング技術ではありませんのでご注意ください。学術的な論文や書籍、Webサイトにおいても、誤解を与えかねない情報が氾濫しています。
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||