フレーム問題、次元の呪い、醜いアヒルの仔の定理(1)

投稿者:

フレーム問題、次元の呪い、醜いアヒルの仔の定理(1)

Michael Polanyiの『暗黙知の次元』は、何のことはない1960年代に書かれたパターン認識に関する科学評論でした。
それが30年後に誤読されてナレッジマネジメントの理論的根拠に祭り上げられてしまいました。「理論的知識」と「実践的知識」を区別することはよい考えでしたが、「実践的知識」を神秘化してみたり、それでいて、それを言葉で表現させてみようとしたり、わけのわからない議論がやまらないので、はっきりと間違いを正しておくべきだと思って前回の記事を書きました。
そこでその責任を果たすために、『暗黙知の次元』を読んだら、次に何を読むべきかをお示しします。それは、岩波新書の『認識とパタン』渡辺慧著です。これを読むと1970年代の状況がわかります。
さらに現在のデータマイニング技術の大元になっている基本的な思想もちゃんと理解できます。近年出版されているデータマイニングの一般向け解説書の多くは、悪く言えばほとんどコピペでできてしまうような本ばかりです。著者も出版社もよくわからずに本を出しているとしか思えません。
(故人のことなので名前は伏せますが、データマイニング(といいながら内容の大部分は一般的な統計解析でしたが)に関する多数の本を出していた人がいました。その人は、私の論文を部分修正したものをオリジナル論文と偽って自著に掲載しました。同様な被害を受けられた会社・個人は多数あったと想像します。出版社に苦情を言うと増刷から私の名前を入れられた経緯がありますが、内容はその人が改ざんしたものが掲載されたままです。本当なら回収するべきですが、出版社の見識を疑います。そういうことですから、この手の本は信用できません。)
『認識とパタン』に話を戻しますが、数少ないオリジナルの著者による「ものの考え方」をきっちりと受け継ぐことによって、(私のようなならず者でも)少しはマシな人間になれそうな気がしてきます。
クラスタリングとクラス分類(この本ではパタン・レコグニッションとして書かれています)の違い、そして、クラスタリングは仮説創造の手法でもあるということもこの本に書かれています。パターン認識が情報圧縮と深く関係があるということも示唆されています。オッカムの剃刀というデータマイニングで重要な思想も解説されています。
そして、何よりも「類」とか「概念」というものついての哲学の系譜をしっかりと我々に伝承してくれているのが、この本のもっとも重要な部分です。哲学的基礎のない小手先のデータマイニング技法がいかに頼りないものであるかが、しっかりとわかるはずです。
それで、そのきわめつけで出てくるのが「醜いアヒルの仔の定理」のお話です。要するに純粋論理の上では、「類というものは存在しない」ということを証明しています。この基本をしっかり押さえてない人が多いので、データマイニングでクラスタリングをやるときに、客観性神話がひょっこり顔を出してしまい、クラスタリングとクラス分類の区別がつかなくなって、わけのわからないことになってしまうのです。
SOMの学術論文の中で、「SOMを用いてフィッシャーのアヤメのデータを正しくクラスタリングできた」という論文があったりするのですが、まったく基本のわかっていないトンデモです。
クラスタリングの目的は、クラス分類とは違います。醜いアヒルの仔の定理から、客観的な分類というものは存在していません。では、なぜクラスタリングやクラス分類をするのでしょうか?
クラスタリングの有用性について、次のようなことが書かれています。

最近のように、新しい学問が雨後の筍のように育ってきて、しかもそれが学際的な性格を持ってきますと、従来の分類法ではたいへんな混乱を引き起こします。(中略)これを新しく分類変えをしたらどうかというのはまことに自然な動きです。それの手がかりになるのは、同一の読者が引き出す本には何かの意味で何かの類縁があるということに目をつけるのが1つの出発点です。この類縁関係は普通の分類における類似関係と似たもので、これを基礎としてクラスタリングを行うことは当然実行可能な仕事です。しかも、その仕事は多量のデータを処理しなければなりませんからコンピュータには最適です。

つまり、クラスタリングとは「新しい分類を創造すること」です。データマイニングやテキストマイニングにおけるクラスタリングは、そのような意識で使用しないとまったく意味がありません。
一方、クラス分類とは、「知られた類に分類すること」です。言い換えれば、特定の分類法をより正確に再現することが、クラス分類の目的です。既知の特定の分類法が客観的分類であるということではありません。ただ、その分類法が有用であるときに、それを用いるために再現する手段が必要なだけです。(つづく)

投稿者について