マップの形式とサイズ

トポロジー

SOMのマップの形式について言えば、まずSOMのマップには理論的にさまざまなトポロジーが考えられています。通常、よく使用されているSOMは、四角い2次元の格子でノードが結合されたものです。これに対して、トーラス状(ドーナツ型)のSOMや球面状のSOMも考案されています。

このような事情から、トーラスや球面に対して、通常のSOMを「平面SOM」と言ったりするのですが、ちょっとこの言い方は数学的には正しくありません。ここで言っているのはトポロジーなので、閉曲面/開曲面というのが正しい言い方です。通常のSOMも平面に写像しているのではなく、多次元空間では自由曲面を構成しています。

実際的なデータマイニングでは、今のところ通常のSOM(つまり2次元の四角い格子)を使用するのが王道です。トーラスや球面などは、研究としてはあり得るのですが、実践的にはそのような特定のトポロジーを仮定することの方が問題ありです。分析しようとしているデータが、球面のトポロジーを持って分布していると仮定する根拠がどこにもないのです。特定の閉曲面を仮定するよりも、開曲面で適合した方がより広いケースに適合できます。

6角格子と4角格子

マップの形式では、次にノード間の結合数の問題があります。1つのノードにいくつの隣接ノードが存在するか?ということです。これが6個の場合と4個の場合があります。これは、議論の余地なく、6個を採用するべきです。つまり、構造物のハニカム構造と似たようなことであり、SOMの場合は、6角格子を採用することで、より少ないノード数でより複雑な構造を表現することが可能になります。研究室で作成されるトイ・プログラムでは4角格子のこともあり得ますが、本格的なデータマイニングで6角格子を採用しない理由は考えられません。

縦横比

マップの縦横の比率は、マップの縦のノード数と横のノード数の比率です。一般的な決め方としては、元のデータ空間の第1固有ベクトルと第2固有ベクトルの長さの比率に近似する方法で決定します。ノードの個数は整数値しか取れないので近似になります。できるだけ表現される情報量が均一になるようにするためには合理的な考え方です。Viscoveryでは、マップ形式を指定するダイアログで「自動」オプションを選べばOKです。

したがって、この方法でマップを作成したときに、極端に細長いマップが得られるときは、多重共線性の問題がありますので、変数の選択・重みづけを見直す必要があります。Viscoveryでは、変数選択の際に「相関補償」オプションを選ぶことにより、変数間の強すぎる相関をできるだけ修正するように自動で重みづけを調整できます。

マップのサイズ

マップのサイズ、すなわちノードの数の問題ですが、結論からいうと1000個とか2000個というふうに大ざっぱに決定してとくに問題はありません。

各ノードが平均10レコードにマッチするように、データレコードの数を10で割るという 大まかなやり方を紹介している本もあります。しかしながら、多くの実践では、 その計算とは合わなくても、500個から5000個のノードを使用するのが妥当です。 Viscoveryは、データ集合のレコードよりも多いノードを含むSOMも取り扱うこともできます。 この場合、SOMはレコードにマッチしない空ノードも含みますが、SOMの見かけがよいという 利点があります。

一方、セグメンテーションや探索を実行する際は、ノードあたり2000個以上を使用するのは 意味をなしません。SOMはデータ分布の要約ですから、ノードあたり5000レコードだろうと 500レコードだろうと、ほとんど同じように見えます。したがって、より小さなデータ標本で 同じ仕事ができます。予測/スコアリングのモデルでは、非線形予測モデルがノードでの ローカルな情報に依存するので、一般的に利用可能なすべてのレコードを使用するべきです。

< 前ページ  次ページ>

back to top

©2000-2014 Mindware Inc. All rights reserved.