可視化の基本原理

ここでは理論的な説明はさておき、データ可視化について、わかりやすいたとえ話からしましょう。(以下はアルゴリズムの説明ではありません。)

ある会社の顧客1000人にサッカーボール場に集まって貰ったと考えてください。そして、顧客について考察するための属性を定義します。たとえば、年齢、性別、結婚の有無、年収、・・・といった具合です。これらの属性すべてを使って顧客同士を比較します。すべての顧客を比較して、すべての人が自分に一番似ている人の隣に位置するように場所替えをしていきます。

そうやって、きれいに全員の顧客が並んだところで、ヘリコプターに乗ってサッカーボール場の上空に行きます。そして、顧客たちに呼びかけるのです。「あなたの年齢はおいくつですか?」顧客たちは自分の年齢に応じて色のついた旗を揚げます。たとえば赤色に近いほど高齢者で、青色に近いほど若年だという決まりにしておきます。皆が旗を揚げたときにヘリコプターから写真を撮ります。「性別は?」「年収は?」・・・、と同じことをやっていきます。

SOMのマップは、そうやってできた数々の写真を並べたようなものなのです。それぞれの写真の様相はさまざまですが、そこに並んでいる顧客の並び方は、すべて共通(同じ)です。これだけが、マップを見るときに重要なポイントです。

学校の地理の時間に地図帳(地勢図)を使って勉強したことを思い出してください。同じ日本列島を平均気温でみた地図、降雨量でみた地図、日照時間でみた地図、人口密度でみた地図など、いろいろな地図があったと思います。顧客データで作成したSOMのマップは、顧客の地図帳なのです。

SOMのマップの例
Viscoveryの属性マップ表示(この表示方法はViscoveryのオリジナルです。)
属性: 左上[年齢]、右上[結婚]、左下[性別]、左下[年収]


いかがでしょうか?マップをよく観察してみてください。年齢の高い人は、マップの左側に集まっています。その人たちの年収はどうでしょうか?各属性の間の関係はどうでしょうか?マップの任意の領域に注目して、その領域での各属性はどのようになっていますか?ソフトウェア上では、各属性のピクチャを比較しやすくするためのさまざまな機能がありますので、さらに正確な分析ができます。

実際のデータマイニング・プロジェクトでは、たとえば小売店のカード会員や通信販売の顧客の購買履歴データなど、大規模なデータを使ってマップを作成します。顧客の年齢・性別・職業・居住地などのデモグラフィック属性と、売上高・利益率・最後の購入日・購入頻度などのスコア、さらに商品Aの購入額、商品Bの購入額・・・、と商品ごとの販売額など、さまざまな属性(変数)が含まれます。

通常、属性の数は、数10個から数100個です。さらには数千個から1万個程度になることもあります。顧客(レコード)の数は、数万件から数10万件が通常で、多い場合には数100万件という場合もあります。

トポロジー保持マップの形成

SOMのマップの基本的な見方は、上記の説明でほぼお分かり頂けるかと思いますが、それでもまだSOMというものが得体の知れないもので、それを使ってデータを分析することに抵抗を感じる方も大勢いらっしゃるかと思います。ここでは、ほんの少しだけ(難しい数学は使わないで)SOMの原理に立ち入ってみたいと思います。

データ可視化やデータマイニングでのSOMの重要性は、じつは「自己組織化」よりも、むしトポロジー保持マップ(Topology-preserving Map)と呼ばれる表現形式にあります。トポロジー保持マップとは、データ空間のトポロジー(つながり)を保持するマッピング手法です。

トポロジー保持マップの利点は、非線形なデータの要約が可能になるということです。これを理解するには、まず多次元データの代表的な要約方法である主成分分析と対比させると理解の助けになります。ここでは詳細な説明を省きますが、主成分分析とは、たくさんの変数を持つデータについて、変数間の相関を考慮して、元の変数に重みをかけた新しい合成変数(主成分)によって、次元軸を整理する手法です。簡単に言えば、座標変換ですが、各主成分の間の相関がゼロになっていて、一般的に次元が削減される効果があります。

主成分分析のイメージ


主成分分析の結果を2次元で表示する場合は、一般的に第1主成分と第2主成分による平面にデータポイントを投影させる方法が用いられます。しかし、実際には第3、第4の軸の方向にもデータは散らばっています。その散らばり方が、投影されている平面にほぼ沿っていたらあまり問題がありませんが、平面に対して曲がっているような場合、投影ではデータポイントの局所的な位置関係を正確に判断することができません。

近年、コンピュータ・グラフィックスを用いたデータ可視化では、3次元の主成分空間を表示できるようになっていますので、従来の制約はやや緩和されていますが、それでも次元軸を切り捨てて表示することには変わりはありません。トポロジー保持マップとは、次元軸を切り捨てないで、多次元のデータ空間の様子を人間が視覚的に認識できるようにする方法です。要するにデータ空間の姿を特定の平面に投影するのではなくて、データ空間のつながりを保持したまま、スルメのように平べったく広げて表示するわけです。

SOMなどのトポロジー保持マップは、柔軟な格子をデータの分布に沿って配置させて、多次元空間内で自由曲面を形成します。各格子点(ノード)は、データ空間内でのその局所的周辺のデータポイントを代表していて、データ空間のトポロジー(位相的順序)に沿って並んでいます。ピンポン玉のようなものをゴムひもで格子状につなぎ合わせて、それでデータの分布を要約しているようなイメージを頭の中で思い浮かべれば、わかりやすいはずです。

言い換えると、各ノードには、元データの次元(変数)に対応する次元数のノード値が記憶されています。可視化するときは、保持された位相的順序でノードが(平面的に)並べられて、ノードの各次元(成分)の値をさまざまな方法で可視化します。

トポロジー保持マップのイメージ


3次元の主成分空間でデータをプロットしたところ(Miner3D使用)
白いオブジェクト(点)がデータレコードに対応し、色づきのオブジェクトがSOMノードに対応します。色分けは、Viscovery SOMineのSOM-Wardクラスタリングの結果です。SOMのノードは、周辺のデータレコードを代表して、データ空間のトポロジーに沿って配置されます。SOMのノードのトポロジカルな並び順(位相的順序)を考慮に入れながらクラスタ分析を行なうことによって、結果的にデータレコードの分布に沿って、自然なクラスタリングが形成されます。

 

< 前ページ  次ページ>

back to top

©2000-2014 Mindware Inc. All rights reserved.