今日「データサイエンス」と呼ばれる分野の源流は、1960年代のパターン認識研究にまで遡る。日本では、郵便局が郵便物の高速仕分けを目的に、手書き郵便番号を自動判読する機械を開発した時代である。この黎明期に活躍した研究者の一人、渡辺慧が提唱したのが、あまりに示唆的な名前を持つ概念──**「醜いアヒルの仔の定理」**である。
しかし、この定理はクラスタリングの思想的前提に関わる極めて重要な内容であるにもかかわらず、近年のデータサイエンス教育ではほとんど扱われず、理解している専門家も多くはない。私はこの定理を深く掘り下げるほどに、そこには仏教の「空」の教理やカントの「物自体」、フッサールの現象学、ユクスキュルの「環世界(Umwelt)」などと響き合う深い構造があると感じている。
以下では、この定理の本質と哲学的意味を整理したうえで、データ分析におけるクラスタリングの正しい(あるいは危険を避ける)使い方を、仏教の「空・仮・中」の観点から示してみたい。
■「醜いアヒルの仔の定理」とは何か
渡辺慧は次のように述べた。
「純粋論理から言うと、すべての2つの物件は、同じ度合いの類似度を持つ。」
これは直観に反するが、論理的には明快な指摘である。
類似性を共有する述語の数で計ることにすれば、あらゆる二つの物件は、同じ度合いの類似性を持っている。
なぜか?
- 世界には無数の属性(特徴)がある
- そのうち人間が選ぶのはごく一部
- どの属性を重要視するかは人間の恣意(主観)で決まる
- 属性選択なしには「似ている/似ていない」という判断は不可能
つまり、「似ている」とは客観的性質ではなく、**属性の選択に依存する“価値判断”**である。
渡辺はさらに続ける。
「この定理から抜け出るには、ある属性が他の属性より重要であると認めなければならない。」
「クラスタリングの目的は、“客観的分類”の発見ではなく、“有用な”新しい分類の創出である。」
ここで重要なのは「有用性」であり、「実在性」ではない。
ところが多くの人々はこの前提を無視し、
- 「クラスタリング結果は客観的な分類を表す」
- 「日常的な分類と同じ答えが出るはずだ」
- 「クラスタリング品質指標が最大のモデルが“真実”のクラスタだ」
といった誤解に陥る。
クラスタリングの「評価指標」は役に立つ。だが、それは地図の読み方を補助する道具であり、地図そのものが“真実の地形”を保証するわけではない。
■哲学的背景──「空」「物自体」「現象学」「環世界」
醜いアヒルの仔の定理は、哲学的に掘り下げると驚くほど多くの思想と共鳴する。
●仏教の「空(くう)」
- 世界には本質的な実体も、固定的な分類も存在しない
- すべては因縁によって一時的に現れるだけ
分類もまた「人間が作り出した仮のラベル」にすぎない。
●カントの「物自体」
- 人間は“人間の感覚構造”を通じてしか世界を認識できない
- したがって、世界そのもの(物自体)は本来、色も匂いも意味も持たない
●フッサールの現象学と「エポケー」
- 世界を「既成概念なし」で見る試み
- 先入観を棚上げすることで、偏りを減らし“現象そのもの”を観察する
●ユクスキュルの「環世界(Umwelt)」
- 動物の世界は種ごとに異なる
- 「何が意味を持つか」は生物の身体と感覚器官に依存する
人間の世界も、人間という身体的・感覚的制約に基づく“環世界”にすぎない。
この視点から見れば、クラスタリングが“客観的分類”を与えるはずがないのは当然だ。
■データ分析と仏教──「空・仮・中の三諦」で考える
天台智顗(てんだいちぎ)が説いた三諦は、データ分析の態度としても深く通じる。
① 空諦:分類などそもそも存在しない
データそのものには
- クラス
- タイプ
- 意味
- ラベル
はいっさい存在しない。
分類はすべて人間が作り出す“構成物”である。
② 仮諦:人間は分類を作って世界を理解する
仕事上の分析、マーケティング的区分、製品分類、心理学的タイプ論──
いずれも人間が便宜的に貼る「ラベル」であり、世界を操作するための“仮の道具”である。
クラスタリングはまさにこの「仮」の実践である。
③ 中諦:空でも仮でもない、その間を歩む
ここが最も重要で、データ分析の奥義でもある。
- クラスタリング結果を絶対視しない(空)
- しかし分類は使わなければ意味がない(仮)
- だから、必要に応じて柔軟に使い、固執しない(中)
この「中」の態度は、フッサールの「エポケー」によく似ている。
それは、先入観を一度棚上げし、データが持つ構造を“そのまま”見ること。
■「エポケー」の実践──デッサンの比喩
エポケーは難しく抽象的だが、画家のデッサンはその実践例のように見える。
- 絵が下手な人:
「これは“リンゴ”だ」と思って描くので、記号的で説明的になる - 絵が上手い人:
対象が何であるかを棚上げし、純粋な形・陰影・比率のパターンとして観察する
デッサンに使う「補助線」は、実際には存在しないが、
理解を助けるために引く線である。
クラスタリングとは、この補助線そのものだ。
クラスタリングは、世界の“あるがまま”ではなく、人間が理解を深めるために引く補助線である。
■結論──クラスタリングの奥義は「中」にある
- クラスタリングは真実を発見するものではない
- しかし役に立つ分類を作ることはできる
- 結果に固執せず、必要に応じ柔軟に変えればよい
- 「空(分類は実在しない)」と「仮(分類は役に立つ)」の両方を抱え込む態度が必要
これこそが、
データ分析における「中」の実践であり、クラスタリングの奥義である。
データサイエンスが進歩するほどに、人間が世界をどう“切り取る”かという問題はますます重要性を増していく。
醜いアヒルの仔の定理は、私たちに謙虚さと洞察を促す古典であり、
仏教の「空・仮・中」が示す態度は、現代のデータ分析においてなお輝きを放っている。
コメントを残す