フレーム問題、次元の呪い、醜いアヒルの仔の定理(2)

投稿者:

フレーム問題、次元の呪い、醜いアヒルの仔の定理(2)

醜いアヒルの仔の定理により、客観的な類というものは存在しない、ということが証明されています。
「類」というのは、物事の概念でもあります。つまり、(我々人間という存在を離れての)客観的な概念というものも存在しない、ということです。心理学でいう「ゲシュタルト崩壊」がなぜ起きるかの理由は、ここにあります。徹底的に物事を客観視して理詰めで考えていくと、何が何だかさっぱりわからなくなるという状態です。
心理学での「ゲシュタルト崩壊」、人工知能での「フレーム問題」、データマイニングでの「次元の呪い」、そして分類問題での「醜いアヒルの仔の定理」は、同じことを異なる分野から見たものだと言えるでしょう。
『認識とパタン』では、醜いアヒルの仔の定理から抜け出して、我々が意味のある世界を獲得するのには、「ある特性が他の特性よりも重要であるということを認めなければならない」としています。
つまり、データマイニングの用語でいうと「変数選択」「重み付け」です。これを上手く行えるかどうかで、有用な(価値のある)モデルを作成できるかどうかが決まります。
データマイニングの研究者たちは「次元の呪い」と戦っています。それは変数の数が多くなればなるほど、モデルの信頼性が低くなるという問題です。早い話が、利用可能なありとあらゆる変数を考慮してモデルを作成しようとすると、意味のないモデルができてしまうということです。
基本的な戦略は、いかにして関係のある変数を選び出して、重み付けを行うか?という方向でなければなりません。従来の統計・多変量解析では、ステップワイズ回帰として、部分的にはすでに解決できています。「部分的に」というのは、つまり、目的変数がある場合に限っては可能なわけです。
ところがクラスタリングのように目的変数がない場合は厄介です。クラスタリングの場合でも、意味のあるモデルを作成するためには、変数選択・重み付けは不可欠です。
これを誤解している人がたくさんいます。「作為的に変数を選択・重みづけしたのでは客観的モデルにはならない。利用可能な変数はすべて使用することによって、より客観的なモデルに近づくことができる」と考えてしまうわけです。はっきり言っておきますが、これは間違いです。
たとえば、「特別なSOMを用いると次元の呪いを克服して正しいクラスタリングができる」とする研究があったりしますが、意味(概念)の多義性をまったく考慮していないトンデモ科学だと言わなければなりません。
クラスタリングには目的変数がないのですが、とにかく「どの変数を使うか?」は決定しないことには、クラスタリングができません。異なる変数の集合でクラスタリングした結果は、当然異なる結果になります。その意味で唯一絶対のクラスタリングは存在しない、つまり、素朴な「客観性」という意味での客観的なクラスタリングは存在しないのです。
「素朴な」というのは「物事の多義性を考慮していない」という意味です。物事の意味は、シチュエーション/文脈によって変わります。クジラが哺乳類に分類されるか、水産物に分類されるかは、どんな文脈でクジラが語られるかによります。
クラスタリングの計算方法が妥当であると仮定して、異なる変数の集合でクラスタリングした結果のそれぞれは、それぞれ異なるシチュエーション/文脈において客観的なクラスタリングであると考えることができます。
つまり、これが意味することは、クラスタリングを行う際には、目的変数は存在しないが、特定のシチュエーション/文脈を仮定しなければならない、ということに他なりません。

投稿者について