カテゴリーアーカイブ データマイニング・リテラシー

投稿者:

フレーム問題、次元の呪い、醜いアヒルの仔の定理(2)

醜いアヒルの仔の定理により、客観的な類というものは存在しない、ということが証明されています。
「類」というのは、物事の概念でもあります。つまり、(我々人間という存在を離れての)客観的な概念というものも存在しない、ということです。心理学でいう「ゲシュタルト崩壊」がなぜ起きるかの理由は、ここにあります。徹底的に物事を客観視して理詰めで考えていくと、何が何だかさっぱりわからなくなるという状態です。
心理学での「ゲシュタルト崩壊」、人工知能での「フレーム問題」、データマイニングでの「次元の呪い」、そして分類問題での「醜いアヒルの仔の定理」は、同じことを異なる分野から見たものだと言えるでしょう。
『認識とパタン』では、醜いアヒルの仔の定理から抜け出して、我々が意味のある世界を獲得するのには、「ある特性が他の特性よりも重要であるということを認めなければならない」としています。
つまり、データマイニングの用語でいうと「変数選択」「重み付け」です。これを上手く行えるかどうかで、有用な(価値のある)モデルを作成できるかどうかが決まります。
データマイニングの研究者たちは「次元の呪い」と戦っています。それは変数の数が多くなればなるほど、モデルの信頼性が低くなるという問題です。早い話が、利用可能なありとあらゆる変数を考慮してモデルを作成しようとすると、意味のないモデルができてしまうということです。
基本的な戦略は、いかにして関係のある変数を選び出して、重み付けを行うか?という方向でなければなりません。従来の統計・多変量解析では、ステップワイズ回帰として、部分的にはすでに解決できています。「部分的に」というのは、つまり、目的変数がある場合に限っては可能なわけです。
ところがクラスタリングのように目的変数がない場合は厄介です。クラスタリングの場合でも、意味のあるモデルを作成するためには、変数選択・重み付けは不可欠です。
これを誤解している人がたくさんいます。「作為的に変数を選択・重みづけしたのでは客観的モデルにはならない。利用可能な変数はすべて使用することによって、より客観的なモデルに近づくことができる」と考えてしまうわけです。はっきり言っておきますが、これは間違いです。
たとえば、「特別なSOMを用いると次元の呪いを克服して正しいクラスタリングができる」とする研究があったりしますが、意味(概念)の多義性をまったく考慮していないトンデモ科学だと言わなければなりません。
クラスタリングには目的変数がないのですが、とにかく「どの変数を使うか?」は決定しないことには、クラスタリングができません。異なる変数の集合でクラスタリングした結果は、当然異なる結果になります。その意味で唯一絶対のクラスタリングは存在しない、つまり、素朴な「客観性」という意味での客観的なクラスタリングは存在しないのです。
「素朴な」というのは「物事の多義性を考慮していない」という意味です。物事の意味は、シチュエーション/文脈によって変わります。クジラが哺乳類に分類されるか、水産物に分類されるかは、どんな文脈でクジラが語られるかによります。
クラスタリングの計算方法が妥当であると仮定して、異なる変数の集合でクラスタリングした結果のそれぞれは、それぞれ異なるシチュエーション/文脈において客観的なクラスタリングであると考えることができます。
つまり、これが意味することは、クラスタリングを行う際には、目的変数は存在しないが、特定のシチュエーション/文脈を仮定しなければならない、ということに他なりません。

投稿者:

フレーム問題、次元の呪い、醜いアヒルの仔の定理(1)

Michael Polanyiの『暗黙知の次元』は、何のことはない1960年代に書かれたパターン認識に関する科学評論でした。
それが30年後に誤読されてナレッジマネジメントの理論的根拠に祭り上げられてしまいました。「理論的知識」と「実践的知識」を区別することはよい考えでしたが、「実践的知識」を神秘化してみたり、それでいて、それを言葉で表現させてみようとしたり、わけのわからない議論がやまらないので、はっきりと間違いを正しておくべきだと思って前回の記事を書きました。
そこでその責任を果たすために、『暗黙知の次元』を読んだら、次に何を読むべきかをお示しします。それは、岩波新書の『認識とパタン』渡辺慧著です。これを読むと1970年代の状況がわかります。
さらに現在のデータマイニング技術の大元になっている基本的な思想もちゃんと理解できます。近年出版されているデータマイニングの一般向け解説書の多くは、悪く言えばほとんどコピペでできてしまうような本ばかりです。著者も出版社もよくわからずに本を出しているとしか思えません。
(故人のことなので名前は伏せますが、データマイニング(といいながら内容の大部分は一般的な統計解析でしたが)に関する多数の本を出していた人がいました。その人は、私の論文を部分修正したものをオリジナル論文と偽って自著に掲載しました。同様な被害を受けられた会社・個人は多数あったと想像します。出版社に苦情を言うと増刷から私の名前を入れられた経緯がありますが、内容はその人が改ざんしたものが掲載されたままです。本当なら回収するべきですが、出版社の見識を疑います。そういうことですから、この手の本は信用できません。)
『認識とパタン』に話を戻しますが、数少ないオリジナルの著者による「ものの考え方」をきっちりと受け継ぐことによって、(私のようなならず者でも)少しはマシな人間になれそうな気がしてきます。
クラスタリングとクラス分類(この本ではパタン・レコグニッションとして書かれています)の違い、そして、クラスタリングは仮説創造の手法でもあるということもこの本に書かれています。パターン認識が情報圧縮と深く関係があるということも示唆されています。オッカムの剃刀というデータマイニングで重要な思想も解説されています。
そして、何よりも「類」とか「概念」というものついての哲学の系譜をしっかりと我々に伝承してくれているのが、この本のもっとも重要な部分です。哲学的基礎のない小手先のデータマイニング技法がいかに頼りないものであるかが、しっかりとわかるはずです。
それで、そのきわめつけで出てくるのが「醜いアヒルの仔の定理」のお話です。要するに純粋論理の上では、「類というものは存在しない」ということを証明しています。この基本をしっかり押さえてない人が多いので、データマイニングでクラスタリングをやるときに、客観性神話がひょっこり顔を出してしまい、クラスタリングとクラス分類の区別がつかなくなって、わけのわからないことになってしまうのです。
SOMの学術論文の中で、「SOMを用いてフィッシャーのアヤメのデータを正しくクラスタリングできた」という論文があったりするのですが、まったく基本のわかっていないトンデモです。
クラスタリングの目的は、クラス分類とは違います。醜いアヒルの仔の定理から、客観的な分類というものは存在していません。では、なぜクラスタリングやクラス分類をするのでしょうか?
クラスタリングの有用性について、次のようなことが書かれています。

最近のように、新しい学問が雨後の筍のように育ってきて、しかもそれが学際的な性格を持ってきますと、従来の分類法ではたいへんな混乱を引き起こします。(中略)これを新しく分類変えをしたらどうかというのはまことに自然な動きです。それの手がかりになるのは、同一の読者が引き出す本には何かの意味で何かの類縁があるということに目をつけるのが1つの出発点です。この類縁関係は普通の分類における類似関係と似たもので、これを基礎としてクラスタリングを行うことは当然実行可能な仕事です。しかも、その仕事は多量のデータを処理しなければなりませんからコンピュータには最適です。

つまり、クラスタリングとは「新しい分類を創造すること」です。データマイニングやテキストマイニングにおけるクラスタリングは、そのような意識で使用しないとまったく意味がありません。
一方、クラス分類とは、「知られた類に分類すること」です。言い換えれば、特定の分類法をより正確に再現することが、クラス分類の目的です。既知の特定の分類法が客観的分類であるということではありません。ただ、その分類法が有用であるときに、それを用いるために再現する手段が必要なだけです。(つづく)

投稿者:

暗黙知と非線形情報処理

前回は論理的推論とパターン認識の話でした。
パターン認識は論理よりも先だって、その基礎となる概念を成立させます。
日本のナレッジマネジメントで「暗黙知」に関する議論があります。着眼点はとてもよかったのですが、あとの議論がぐずぐずでどうしようもありません。
そもそも、この「暗黙知」の原典は、Michael Polanyi(ミヒャエル・ポラニー)というハンガリー人の科学哲学者が1966年に書いた”The Tacit Dimension”という科学評論の本です。日本では1980年に『暗黙知の次元』(紀伊国屋書店)でとして邦訳されております。
まず注意しなければならないのは、この本が1960年代の哲学的背景と科学知識をもとに書かれているということです。
この本の主旨は、「知には言語的な知以外の知も存在する」ということで、それが指示しているものを今日の科学知識で見ると、その大部分はパターン認識のことです。
暗黙知とは言語的には表現できない知識です。人の顔を見分ける方法を言葉で説明しようとしてもできません。「わかっちゃいるけど説明はできない」というのが暗黙知です。
ところが日本のナレッジマネジメント(野中理論)では、特別な技術を使用することもなく、組織内での話し合いのような活動によって、暗黙知から形式知、形式知から暗黙知へと自由自在に変換ができることになっちゃっています。Polanyiの暗黙知ではまったくあり得ない絵空事です。
結局、野中理論での暗黙知というのは、組織の中で埋もれている発言力の弱い個人の意見とか見解のようなものにすり替わっています。そういう情報をすくい上げて組織的に活用しましょう、というお話になっています。Polanyiを引用する意味はまったく見出せません。
「知の変換」とかナントカと、何かと大仰に理論的であるかのような装飾が施されていますが、どうみてもまともな科学理論とは思えません。口の達者な人のハッタリ話です。もちろん、組織の中で、個人個人の考えや思いをいろいろな方法で共有して活用しようとすることは、必ずしも悪い考えではないでしょう。しかし、そんなことにうつつを抜かしている会社があるとしたら、そりゃ競争には勝てませんよ。
本当にたたき上げの職人的なノウハウを持つ人というのは、そのノウハウの内容をそんなに言葉や図表などで見事に表現するなんてことはできません。ましてや数式によって、直接的にその内容を記述するなんてこともできません。そういう人に向かって「ナレッジマネジメントだ。あなたのノウハウを表出化してください」と迫ったところで、大した内容のことは出てきません。それで、もののわかっていない人たちは「なんだぁ、大したノウハウを持ってないなぁ」とスルーしてしまい、ナレッジマネジメントの活動はおしゃべりな人たちに支配されるというのがオチです。誰でも自分が認められることを好みます。おしゃべりナレッジマネジメントは、ものづくりの精神を破壊します。
内側ではなく外に目を向けるべきです。ナレッジマネジメントは、意識が組織の内側に向かっているという意味で、最初から儲かりそうもないお話です。企業はそれよりも顧客に目を向けるべきです。
ただし、ここであえて、個人個人が持っている「知識?」というものを再度、Polanyi的な暗黙知に引き寄せて考えるとしたら、そこには個人個人の意見なり何なりを寄せ集めた総体としての「構造」が人知れず横たわっていることでしょう。そういうものを可視化したり分析したりする、というところまで論を進めていただけると、データマイニングやテキストマイニングの技術とつながりがでてきます。
それは従業員であっても消費者であってもいいわけです。つまり、顧客に目を向けた場合、「顧客行動モデル」あるいは「購買行動モデル」ということになります。この場合は、「顧客が何を考えているか?」という内面を知ることは難しいし、また、それが最終的に知りたいことでもありません。つまり、外面的な「購買行動」に目を向けたほうが科学的アプローチとしては筋のよいものになります。
これは企業として取り組むべき価値のあるものですし、また、こういうところに自己組織化マップのようなパターン認識技術を用いることで、本当の意味で「暗黙な知」を表現することができるのです。
Polanyiの暗黙知は、「わかっちゃいるけど言葉では説明はできない」というものです。たとえば、人の顔の識別の仕方なんて、複雑すぎて言葉では表現できません。また識別できる本人にとっても、意識的にやっているわけではではなく、「神経組織のどこかで自動的に行っている」という類のものです。むしろ、意識すると混乱してわからなくなったりします。つまり、それがパターン認識です。
パターン認識の研究の最大の成果は、「どのような知識も構造である」という確信が持てるようになったことだと思います。で、「暗黙知」と呼ばれるような「言葉で表現できない構造」というのは、結局、非線形のことです。
自己組織化マップは、現在利用できる技術の中で、もっとも暗黙知を表現するのに適した技術です。

投稿者:

KJ法とデータマイニング

自己組織化マップ(SOM)が仮説創造のツールでもある、ということを述べましたが、それについてもう少し詳しく述べます。
類比的には、SOMによる「セグメンテーション」と「プロファイル分析」は、KJ法の「グループ編成」と「はらわた出し」のステップに対応します。
また、敢えていうと、ベイジアンネットワークは、KJ法のA型図解に対応させて捉えることができますが、実際にはそれ以上です。
もちろん、SOMなどのデータマイニングは定量データ(定型データ)を対象とし、KJ法は定性情報(非定型な情報)を対象とする、という違いはあります。もう少し平たく(?)言うと、数字の世界と自然言語の世界です。(ただし、2つとも別世界のことではなく、この世で起きていることを異なる方法で表現しているに過ぎません。)
調査業界では、定性調査と定量調査というのがあります。定性調査には、インタビューやグループインタビューなどの方法があります。あるいは、新聞や雑誌などの2次情報の収集などもそれに含めてよいと思います。一方、定量調査の代表的な方法は、アンケート調査ということになります。
それで一般的には、「定性調査によって仮説を構築して、定量調査によって仮説を検証する」というのが教科書的な調査のあり方なのであります。
ところが、これが実際にはうまくいくことが少ないわけでして、世の中で行われる大部分の調査では、マスコミなどですで一般化しているような関心事が仮説として取り上げられ、それを検証する調査が行われて、当然のことながら、最終的な結論は既知の情報をなぞるだけ、ということになりがちなのです。
と、まあ、これは一昔前までの話であって、現在では定性情報にインターネットでの書き込みなども利用でき、定量データには、Webサイトのアクセス・ログや店舗のPOSデータ、カード会員の取引データなどが利用できるようになっています。さらにアンケート調査も、電話・郵送・訪問などの従来方法に加えて、最近ではネット調査が一般化しております。
分析手法に注目すると、近年テキストマイニングが登場するまでは、定性情報の分析というのは、人間の頭を使って行うしか方法がありませんでした。それで企業など複数の人間で共同して行う場合、お互いの頭の中が見えませんので、それを可視化する方法として(日本では)KJ法というのが普及した時期もありました。KJ法の効力には賛否両論ありまして、評論家のような個人で仕事をする人から見ると「二人三脚のように効率の悪い方法」としか見えないのでした。
定量データの分析は、パソコンが普及する以前は、一部のシンクタンクのようなところを除いては、もっぱら単純集計で「何%の人が○○と答えました」という結果を円グラフなどにしてまとめるのがせいぜいでした。それが、80年代にはビジネス・パソコンの普及によってクロス集計ができるようになりました。そして90年代ぐらいから徐々に多変量解析が広まりました。ただし、分析方法が高度化してくると、その分析結果を理解できる人がぐっと少なくなってしまう、という問題が新たに出てきてしまいました。
そして90年代の終わりから2000年頃に、テキストマイニングやデータマイニングというものが脚光を浴びるようになってきました。ますます手法が高度化しており、それらの分析結果を厳密に理解するには相当高度な統計数理の知識が必要になってくるわけですが、商業的にはそんなことは言ってられません。
それでベンダーは、「ビジネス知識でモデルが適切かどうかを判断すればいい」としています。それは大筋で間違いでもないのですが、ほとんどの場合、技術的にそのような使い方がサポートされているという意味ではなくて、単なる営業トークだとして聞かなければなりません。実際には、かなりの統計知識がなければ正しく使いこなせないデータマイニング・システムがほとんどです。しかし、それを正直に言うと売れないので、「どんな分析技術よりも、ビジネスでのあなたの経験・知識が重要です」と言って、ユーザーの自尊心を利用しているのです。
広告や展示会、セミナーなどに投資して、ブランド・イメージを作り上げ、営業力で売る、というビジネスが、現在のデータマイニングやテキストマイニングの主流になっています。(弊社はそこから取り残されてますが。グスン)それは、コンシューマー・ビジネスのやり方と同じです。企業の生産財の一部として利用されるべきものを採用する際の意志決定が、「消費行動」になりさがっている現状は、情けない限りです。
「テキストマイニングやデータマイニングにユーザーの経験・知識を融合させる」ということを本当に可能にするには、自己組織化マップやベイジアンネットワークなどのソフトコンピューティング・テクノロジー(柔軟な情報処理技術)を利用しなければなりません。商業的なベンダーは、そのことに真剣に取り組んでいるとは言えません。
自己組織化マップとベイジアンネットワークがKJ法とよく似ている、ということは、とても重要なことなのです。人間が頭でものを考えるときに、いつでも同じように頭を働かせているはずです。あるときはナントカ法を使い、またあるときはカントカ法を使い…なんてややこしい頭の使い方をしているでしょうか?創造性技法かなんかのインストラクターならそんなことを推奨しかねませんが(笑)。
KJ法というのは、結局のところ、
(1)物事をグルーピングしてみる
(2)グループ内の共通特性を抽出する
(3)グループおよび特性間の関係性を調べる
ということに尽きます。それはいたって普通のことをやっているだけす。世間では、カワキタジロー大先生が考案したことになっていますが、そんなことを教わらなくても誰でも頭の中で同じことをやっているのです。逆にいうと、それを定式化したところが、大先生の偉大さであります。
自己組織化マップとベイジアンネットワークを用いると、つまり、人間が普通にやっている思考のままで数値データを分析できる、ということなんです。
そのなかで、とくに自己組織化マップの役割は大きいです。なぜなら、KJ法のカワキタジロー大先生が教えるように、グルーピングを変えることで、新しい創造・発見につながるからです。
————————————————————–
2009年7月8日、文化人類学者の川喜田二郎先生が永眠されました。
ご冥福をお祈り申し上げます。

投稿者:

スピード経営と仮説力

ここ1〜2年「仮説力」がちょっとしたブームになっているらしいです。
その背景には、経営環境の急激な変化のなか、スピード経営がますます重要になってきており、それを実現するためには「仮説構築」ということが不可欠になっているから、と考えられます。
で、「データマイニング」というと、こういうことと全く無関係で、悠長にコンピュータのデータをいじくっているようなイメージで見られることが多いです。しかし、私が自己組織化マップ(SOM)に着目して、現在、データマイニングの仕事に従事するようになった経緯は、まさに「スピード経営のための仮説構築」という問題にこだわったからなのです。
私は、80年代に技術トピックのセミナー・プランナーをやっていました。それは、「新しい技術が実用化されていよいよ事業化されそうだ」というタイミングを見計らって、「その技術情報を必要としそうな人々は誰なのか?」を想定してセミナーを企画するものでした。つまり、それは「先読み」であり「仮説構築」なのでした。
その後、私は大手コンサルティング会社のリサーチャに転身し、そこで見た世にもナンセンスな光景にはがっかりしました。当時、バブル前夜の好景気で、大企業は軒並み浮ついた雰囲気で、多角化経営に乗り出そうとしていました。それで「何かよい新規事業はないものか?」ということで、コンサルタントを雇って大々的な調査プロジェクトをやっていたわけです。
それでコンサルタントたちが企業に売り込んでいたのが、「システマティックな戦略策定」だったのです。「やみ雲に事業開発するのではなく、科学的な手順を踏んで関連情報を隈なく収集し、戦略理論に沿って合理的に分析・意志決定する」といったふうなことでした。このようなプロジェクトは通常、半年とか1年かけて行われるのですが、その間に何百ページもの報告書を作成するわけです。
結局のところ、そういう大調査で得られる情報というのは、すべて「後追いの情報」なわけです。コンサルタントも企業の担当者も優等生ですから、そつなく仕事をこなします。思い切った切り口で何かに焦点を当てたり、大胆な予測を立てるというよりも、情報の欠落がないことにとても気をつかいます。つまり、「失敗を避ける」というのが彼らの行動規範です。そんな調査ですから、事実情報を正確にまとめ上げることに集中します。そんなことに時間をかけているうちに、現実の世界はどんどん動いているわけです。
こういうことをしていた結果、企業がバブル期に行った多角化経営のほとんどは失敗に終わりました。コンサルタントたちは、「もともと新規事業とは成功率が低いもので、その中で我々がかかわった企業は高い成功率だった」と言い訳して、その後ものうのうと手を替え品を替え、同じようなことをやっているわけです。
こういうことに業を煮やして、私は90年代の初めから98年ごろまでにかけて、あまり商業的でない類の技術誌やマネジメント誌で、自分なりの仮説構築の方法について連載記事を書いておりました。この一連の議論が目指す手法を「概念調査」と名づけました。仮説構築のプロセスは、結局のところ、概念空間の調査だからでした。
連載記事の中では、認識論哲学をはじめ、社会学や発達心理学、言語学、レトリック論、アフォーダンス理論、オートポイエーシス論、複雑系などさまざまな分野を概観して、その共通項を切り出しました。しかしながら、連載をすべて書き終えても、何か釈然としないものが残りました。
私なりの「先読み」「仮説構築」の術を磨いたとしても、それはあくまでも個人的資質でしかなく、組織内で共有可能な知識となりにくいわけです。実際、私は数々の事業機会を予測しましたが、たいていその初期段階では、周りの人たちの食いつきは悪いです。2〜3年経ってから、それが現実のこととなってから、周りの人たちは動き始めます。事実が目の前に現れるまでは、たいていの人はそれを信じないのです。
概念を目に見えるようにするための技術的ツールはないものか?
ということをずっと考えていたんです。それである日、新聞の書籍広告の中から目に飛び込んできたのが「自己組織マップ」という文字でした。Kohonenの自己組織化マップは、80年代の学術テーマでした。80年代にニューロやファジィ、エキスパート・システムなどをテーマにセミナーを企画していた私ですが、正直、自己組織化マップにはまったく注目しておりませんでした。つまり、私のセミナーのテーマになるような事業性は見いだせなかったわけです。
しかし、そのときはなぜか直観(霊感?)が働きました。それから1年ぐらいあれこれ自己組織化マップ(SOM)について勉強した結果、ウィーンのEudaptics社(現・Viscovery社)がSOMineというソフトを出していることがわかり、それを購入してみたわけです。
それは思いっきり頭を殴られたような衝撃でした。私がそれまで10年以上もの間、(ない頭で)あれこれと考えていたことを、とっくにDr. Gerhard Krannerは製品として具現化していたのでした。
彼がソフトウェア・リサーチ・センターからスピンアウトして会社を設立したのが1994年で、最初の製品であるSOMineを完成させたのが1996年でした。私がはじめてSOMineを購入したのは、version 2.0で1999年でした。
その後、Viscoveryを通してSOMの実践的活用法を知るに伴い、「概念調査」で議論したすべてのことが、SOMを軸にして再構築できることに気付きました。私は、Viscoveryを通して、それまでチンプンカンプンだった統計解析や多変量解析も理解できることに感心しました。そして、同時に、世間でのSOMの活用法やその解説がトンデモない間違いだらけであることも知ったのでした。
Viscoveryは、直感的でビジュアルなデータマイニング・ツールであり、また仮説創造のツールでもあります。

投稿者:

道具は大事

データマイニング・ユーザーは、「探究のリテラシー」を持たなければならない、のですが、だからと言って、ツールはどうでもいいということにはなりません。念のために言っておきますが、どんな仕事でも道具は重要な要素です。道具の良し悪しで結果が左右されます。
たとえば自作のプログラムでデータマイニングをするなんてことは、小さなボートで太平洋を渡るようなものです。データマイニング技術の学術研究を目的とする以外は、商用のデータマイニング・システムを導入することをお薦めします。
したがって、それを前提にすれば、アルゴリズムの詳細は、すでにソフトウェア製品に実装されているわけですから、ユーザーがそれについて何かをすることはありません。「データマイニングを習得するには、機械学習アルゴリズムの詳細を理解しなければならない」という誤解が根強いわけですが、どんなにその詳細に精通したところで、データマイニング・システムの開発者にならない限りは、その知識を生かす場面はありません。
データマイニング・ユーザーは、アルゴリズムの詳細な部分ではなく、広くあらゆるデータマイニング技術について、そのコンセプトを大づかみに理解して、そこから自分の目的に合致したより高度な(より本質的な)技術をより少なく選定するべきです。あまりたくさんのツール、アルゴリズムを駆使しようとするのはお薦めではありません。
アソシエーション・ルール、決定木、クラスタ分析、時系列分析、重回帰分析、ニューラルネットワーク、自己組織化マップ…あれやこれやと使って、果たしてすべて完璧に使いこなせるものでしょうか?はっきり言って無理です。これら1つ1つが研究対象になるほど奥の深いものです。通常の人間が、これらのすべてを完璧に使いこなせるということはほぼあり得ないことなのです。
細かなことをたくさん覚えようとするよりも、より広く応用が利く、より本質的な原理に基づくツールを採用するのがお薦めです。弊社がViscoveryを推奨する理由は、まさにここにあります。
ユーザーが探究のプロセスに意識を集中させるためには、できるだけテクニカルなことは気にしないで済む方法をとるべきです。そのためには、統一的なアプローチが必要です。
Viscoveryでは、あらゆる分析の基盤を自己組織化マップ(SOM)に置いています。SOMがさまざまな分析の共通基盤になっています。
Viscovery以外のデータマイニング・システムでも、SOMが搭載されてはいますが、Viscoveryのようにはなっていません。たとえばクラスタ分析と重回帰分析は、まったく別々の分析であって、通常は共通の表現基盤は持ちません。
一方、ViscoveryではSOMのマップ表現の上で、クラスタ分析や(統計的検定を含む)プロファイル分析、さらに(非線形に対応した特別な)重回帰分析などを行い、分析結果を解釈できます。ユーザーは、Viscoveryのマップの読み方さえマスターすれば、統計や各種アルゴリズムに関する知識レベルにはかかわらず、マップ上で行うどのような分析も理解できます。

投稿者:

探究のリテラシー

データマイニングは、探究のプロセスです。
そこで(世の中で科学の有効性がまだ十分には認められていなかった)19世紀以前の科学者なら、大上段に構えて「真理の探究」と真顔で言いだしそうなところだが、21世紀の我々は、もうそんなプロパガンダを信じるわけにはいかないです。
「無限大の遠い未来においては、人類が真理に到達する日がくるだろう」と想像するのは自由ですが、それは現実のことではありません。現実の我々人間はというと間違ってばかりなのです。科学的知識にも「絶対」はあり得ません。科学が「権威」になってしまうと、もはやそれは「科学」ですらありません。「権威ある科学的分析結果」によって、無実の善良な市民が殺人犯に仕立て上げられることだってあり得るのです。
「権威ある○○○社のデータマイニングの結果なら間違いないだろう」という姿勢でデータマイニングを採用しているとしたら、それはとても危ないことです。すぐに見直すべきです。
もし行政機関がそんなデータマイニングの使い方をしたら、それをもとにいろいろな判断をされる一般市民はたまったものではありません。民間企業の場合、間違った判断を妄信して損をするのは、一応、その会社だけです。しかし、「社会の公器」と呼ぶにふさわしい大きな会社の場合、やはり従業員や消費者などたくさんの人々に迷惑をかけることになります。
どのような高度なデータマイニング技術を用いたとしても、それから得られるモデルは、その時点、その時点での暫定的な「仮説」でしかありません。どのようなモデルも、常に新しいより良いモデルに取って代わられる可能性を残しています。
じつは、これと同様なことが、過去100年以上もの間に、認識論哲学や科学哲学の分野で議論され尽くされてきています。21世紀の我々が理解して身につけなければならない情報リテラシーは、単に新しい情報技術の使い方を覚えるということではなくて、「我々は何を知りえるか?」という哲学を含まなければなりません。
哲学というと大げさに聞こえてしまうのですが、簡単なことです。科学だろうとデータマイニングだろうと所詮人間のやることだ、ということに尽きます。
データマイニングはコンピュータが計算するので、その部分がクローズアップされて「コンピュータが計算したのだから間違いない」となりやすいのですが、そこが落とし穴です。確かにインプットされたデータに対しては、それぞれのアルゴリズムが規定している範囲に関しては正しい結果を出しているはずです。しかしながら、「どんな目的を持って、どんなデータを入力して、結果をどう活用するか」というプロセス自体は、人間が主体になって行うべきことです。人間はそこで必ずミスをやらかします。
野球でも3割打てたら一流プレーヤーなわけですが、ビジネスにしても何にしても、人間のやることは大部分的外れです。それが現実です。とくに不案内な状況では、たいてい何か失敗をやらかします。物事の最初は失敗から始まり、試行錯誤を繰り返しながら、より良い方向に探索の範囲を絞り込んでいき、何か当たりに出くわすまで努力を続ける。それが人の生きる道でしょう。
データマイニングでも同じです。プロフェッショナルが作成したデータマイニング・ツールを使えば、一応計算自体は正しく行えます。しかし、その計算が的を射ているかどうかは、ツールの問題ではなく使う人の問題なのです。つまり、データマイニング・ユーザーは、「探究のリテラシー」を持たなければなりません。