カテゴリーアーカイブ データマイニング・リテラシー

投稿者:

アンケート分析は集計前のデータから

弊社のユーザーで「コレスポンデンス分析ができない」と言って相談を持ち掛けてくるなかで、データを送って貰うと、それが単純集計データになっていることにもう何度か出会っています。最初は「初心者の中には生データと集計データの違いがわからない人もいるのかなあ」と見過ごしていたのですが、それが複数回となると、「いったい、世間で行われているアンケート調査って、本当にちゃんと分析できているのだろうか?」と心配になってきます。
アンケート調査の結果データは、一般的に、列に各設問、行に回答者が入った表にまとめます。そして、表の各セルには、回答者が回答した各設問への回答(カテゴリ値、すなわち文字列)が入ります。設問×回答者の表です。コレスポンデンス分析や多重コレスポンデンス分析などのアンケート調査用の多変量解析は、まずこの表から出発しないといけません。
コレスポンデンス分析は、任意の2列の質的変数(アンケートの場合は設問)の各カテゴリ値(回答)の間の関係性を分析します。生データからクロス表(2元表)を作成して、そこから固有値の計算(ベクトルの計算)をして、2次元のマップに各カテゴリを布置します。
多重コレスポンデンス分析は、一言で言うと、質的データ(カテゴリ・データ)で行う主成分分析です。まず、複数の質的変数(設問)を含むデータをダミー変数化(分離表の作成)します。つまり、1つの列に含まれる各カテゴリをそれぞれ異なる列に「分離」して、新しくできた列に1か0の数値を入れていきます。たとえば、YesまたはNoというカテゴリがあるとしたら、Yesの列とNOの列が新たにできて、もしある回答者がYesと回答している場合は、その行のYesの列に1が入り、Noの列に0が入ります。コレスポンデンス分析は、このようにしてできたダミー変数の表に対して主成分分析のような計算を実行して、2次元のマップを作成します。
このようなわけですので、すでに単純集計されたデータからは、それをどのようにいじくっても、コレスポンデンス分析も多重コレスポンデンス分析もできません。しかし、困ったことに、不適切なデータでも、統計解析ソフトで多重コレスポンデンス分析を適用すると、それらしい結果が出てしまいます。ここでいう単純集計とは、行に設問が入っていて、列にカテゴリ(回答)が入っていて、各セルの値は、設問に対する各回答の度数が入っているような表です。
とくに回答者数が極端に少ない場合、単純集計の各度数の値をそのままカテゴリ値として解釈して、計算はできてしまうのです。たとえば、(実際に見た例ですが)回答者数が”6″であれば、0,1,2,3,4,5,6というカテゴリ値を持つ質的変数として解釈して、計算ができてしまいます。計算はできてしまうのですが、これでは正しく多重コレスポンデンス分析をやったことにはなりません。(回答者数から分析の仕方まで、何から何まですべてにおいてお粗末な調査と言わざる得ません。)
これまでに同じような間違いをしている複数の人に出会いました。本人は、「設問間の関係が見たくて回答者間ではない」などという屁理屈をつけて、何か独自の分析を行っているかのようなことを言っています。いやはや、このような口達者で論理のデタラメな人には困ります。
百歩譲って、単純集計データは質的データではなく量的データになるので、多重コレスポンデンス分析ではなく主成分分析を適用するなら、まだ救いどころはあるのですが、それでもあまり意味のある分析とは思えません。集計データにコレスポンデンス分析や多重コレスポンデンス分析、あるいはその他の多変量解析を適用するのはお薦めしません。ご注意ください。

投稿者:

オープンデータ活用/データ出し合い分析のプラットフォーム

政府機関などが公開するデータと企業が独自に収集したデータを統合して活用しようとする動き、あるいは企業同士がお互いの保有するデータを出し合って活用しようとする動きが注目されつつあります。
このようなデータ活用のスタイルに名前をつけるとしたら、どのような名前がふさわしいでしょうか?まだ万人に認知された名前がつけられていないと思いますが、ここではとりあえず「異種データ統合分析」とでも呼んでみましょう。で、この異種データ統合分析のプラットフォームとして、Viscoveryが脚光を浴びつつあります。
なぜならViscoveryは、自己組織化マップと統計解析の融合によるまったく新しいタイプのデータマイニング/データ解析ツールなのですが、
(1)マップに新しいデータを提示して「連想/想起」と呼べるような独特の処理/分析を行える
(2)マップの各ノードが元のデータと対応していて精密な分析のインタフェースとして利用できるだけでなく、マップ自体を元のデータの本質的構造をモデルした「データの要約」とみなして、データそのものを共有することの代替手段とすることさえできる
という他にはない特異な特長を有するからです。
オープンデータ活用
政府機関などが発表する公開データと自社データの間に何らかの対応関係があれば、データを単純に結合して分析することが可能です。最も簡単なのは時系列データです。日付や時刻は万人に共通ですので、ほとんどどのようなデータでも結合できます。時系列データ以外でも、データの一部(行または列)に共通の要素があれば、データ表を結合することができます。
このようなデータの分析の眼目は、公開データと自社データの間に関係性があるのか/ないのか?そして、関係性があるとしたら、どのような関係性・パターンがあるのか?ということになるかと思います。そして、そのような関係性が発見できれば、さらに予測に活用することができます。たとえば、公開された気象データと自社の売り上げデータを関係づけて、天気予報から生産量の計画が可能になります。
このようにデータ表を結合することができさえすれば、Viscovery以外でも、こうした分析ができる手法やツールはさまざま存在すると考えられます。そうした中で、Viscoveryの利点は、公開データの部分を共通モデル(汎用モデル)として配布が可能になるという点です。たとえば、気象データから作成したViscoveryマップは、さまざまな気象条件の組み合わせのパターンを表現しており、利用者はそのマップに自社データをマッチングさせて分析を行うことができます。
データ出し合い分析
企業同士が自社のデータを出し合って共同で活用するという場合も、Viscoveryを使えば、上記のオープンデータ活用の場合と同じ原理で、データ・モデルの共通部分を各社で共有することができます。つまり、Viscoveryを使えば、すべてのデータを出し合わなくても、データのコアの部分だけ(たとえば、アンケート調査やデータ活用について個人から了解を得ているパネルなど)を共有して、それで作成されたマップに各社のデータを連想させて、要約された結果だけをモザイクのように組み立てて共有することが可能です。
現在各所で企業同士でデータを出し合う試みがなされているのですが、企業間の足並みを揃えることが、まず第一の妨げになりそうです。異業種間であれば、データ活用を軸とした協業の可能性も比較的想像しやすいのですが、同業、つまりライバル企業同士となると、自社データを提供するにはかなりの抵抗感があることでしょう。
一部の行政機関(経産省など)が音頭を取って食品スーパーのID-POSデータを出させて、個人個人がどのように複数のスーパー間を買い回りしているかを分析しようとする動きもあるようです。しかし、これは法的に問題が大ありです。社会主義体制の統制経済ならいざ知らず、自由主義経済・民主主義体制の下でそのようなことが法的に許されるものか?と首をかしげてしまうようなお話しです。
もちろん顧客IDによって、個人ごとの購買行動を明るみに出せることのメリットは絶大です。IDで個人を識別できるかどうかで、分析できる内容が大きく違ってきます。ただし、それは自社内で活用する場合に言えることです。その場合、顧客IDは、個人を匿名化させるために使用され、分析の中で、異なる時点の購買行動が同一人物の購買行動であることを識別するために使われるのみです。その人の名前とか住所などの個人情報はまったく不要なのです。
しかし、当然のことですが、異なるスーパー間で顧客IDは共通ではありませんので、顧客IDだけからでは、同一人物が複数のスーパー間をどのように買い回り行動しているかを分析することは原理的に不可能です。その分析を可能にするには、異なるスーパー間で顧客IDの<名寄せ>をこっそりやってしまうことを暗示しています。つまり、それはIDの利用に止まらず、個人情報の無断利用を意味するのです。
行政の指導の下で、国民が知らないところで個人情報が勝手に収集・利用され、民間企業がそれに協力させられるというのは背筋がぞっとするようなお話です。このような動きは、国民のプライバシーが侵害されることを警戒するべき重大問題として捉えられなければなりません。(にもかかわらす報道機関が、そのような論点で監視・報道しようとはしていないのは不気味としか言いようがありません。)
各社のID-POSデータと顧客の個人情報を統合して丸裸にしてしまうというのはもってのほかです。法的な公正さのために、データ分析が制約を受けることは甘んじて受け入れるべきかと思います。その上で、知恵を使い、Viscoveryのような高度なツールを使って限界を突破することをお薦めします。

投稿者:

自己組織化マップによるマーケット・バスケット分析

マーケット・バスケット分析と言えばアソシエーション・ルール、アソシエーション・ルールと言えば、マーケット・バスケット分析という具合に、これらはほぼ同義語であるかのように認識されているかもしれません。
言うまでもなく、「マーケット・バスケット分析」は目的またはアプリケーションであり、「アソシエーション・ルール」は手法です。なので、アソシエーション・ルールは、マーケット・バスケット分析に限らずバイオ研究など他の分野でも活用できるわけですし、マーケット・バスケット分析にはアソシエーション・ルール以外の方法もあります。
マーケット・バスケット分析の本質的な目的は何か?と言えば、「商品アイテムの有用な同時購入パターンを検出すること」と言えるかと思います。この目的に対して、分析のアプローチは1つではありません。
そこで、Viscovery(自己組織化マップをベースとしたデータマイニング)を使ったマーケット・バスケット分析を紹介するわけですが、まずは、これがアソシエーション・ルールの場合とどのように違うのかというあたりから説明するのが良さそうです。
アソシエーション・ルールは、商品アイテムのさまざまな組み合わせでの度数の比率(確率)を徹底的に探索する手法です。ただし、アイテム数が数万点にも及ぶと組み合わせの数が爆発的に増大して、すべての組み合わせを抽出すると莫大な数になってしまうので、重要な組み合わせだけを抽出する工夫がなされています。支持度(サポート)、信頼度(確信度、コンフィデンス)、リフト(改善度)の基準によって、抽出されるルール(アイテムの組み合わせ)の重要度を評価します。
それに対して、自己組織化マップ(SOM)では、それとは全く異なる発想をします。SOMでは、多変量で記述されたオブザベーションが、その全体的な類似性によって2次元に並べられます。マーケット・バスケット分析の場合では、1つの方法として、多数のトランザクションをその類似性で並べることができます。したがって、SOMのマップ上で近くに位置するトランザクションは、全体的に類似したアイテムを同時に購入しているとみなされます。
あくまでも「類似」なので、同一のノードに複数のトランザクションがマッチしている場合、そのアイテム構成が完全に同じであるとは限りません。全体的にすべてのトランザクションを比較して、それらのトランザクションが最も類似しているから、同じノードにマッチしているということです。つまり、「小異を捨てて大同につく」という状態で、マップ上にトランザクションが並んでいます。
下図は、XLSTATにおけるアソシエーション・ルールの記事で使ったのと同じデータから作成したマップです。したがって、65,000件のオブザベーションがマップ上に並んでいて、15,241個のアイテムに対応する属性ピクチャを持ちます。

SOMのマップを作成するには、オブザベーション×変数による長方形の表形式になったデータが必要です。マーケット・バスケット分析のデータは、トランザクションごとに異なる数の異なるアイテムが出現しており、そのような形式になっておりません。したがって、これを65,000行×15,241列のダミー変数の表に変換します。Viscoveryでは、「データマートの作成」ワークフローの「名義値の定義」ステップで「多値化」オプションを使ってそれができます。
今日のパソコンのパワーでは、65,000件のデータはさほど大きなサイズではありません。しかし、さらに列数が15,241列となると基本の統計計算をするにも、SOMの学習をするにも少し時間がかかります。その点、XLSTATで実行したアソシエーション・ルールの方がごく短時間で結果が出ると言えます。しかし、視覚的にデータの全体構造を見渡せるViscoveryの威力は、マーケット・バスケット分析でも遺憾なく発揮されます。
他社のSOMでは、できたマップをただ眺めるだけで終わりなのですが、Viscoveryはマップの上でさらにさまざまな分析ができます。したがって、統計の計算を行うような操作をした場合は、15,241列あると結果が出るまで数分かかることもあります。しかし、属性ピクチャの表示は、15,241個のピクチャをまったくストレスなくスクロールして表示できます。
Viscoveryのマップでは、マップ領域を選択して、その領域にマッチするトランザクションを類似する購買行動を示すグループとして抽出することができて、その統計的特徴を分析すること(プロファイル分析)ができます。典型的な分析方法としては、選択した領域の部分集合と全体集合を比較して、どの属性(この場合は、アイテム)の平均にどれだけの有意な差が存在するか?という分析を行います。たとえば、アイテム36の属性マップで0.5以上の領域を選択(選別)して得られるプロファイル・チャートが下図です。

これは、アイテム36を購入するときに、他のどのアイテムが同時に購入される傾向(あるいは購入されない傾向)があるかを示しています。0.5以上という値は、この領域のトランザクションでアイテム36が出現する割合が50%以上という意味で解釈できます。(これは支持度や信頼度の定義と異なります。)SOMではアソシエーション・ルールのように「アイテム36を含むトランザクションのみを厳密に抽出する」というようにはなっていませんので、そこのところは注意が必要です。とにもかくにも、トランザクションを全体的な類似性でマッピングした上で、類似性の高い部分集合で、かつ、特定のアイテムを任意の割合で含む部分集合をいきなり抽出できる、というのがViscoveryの特徴です。
消費者がアイテムを購入するときに、その裏には、さまざまなシチュエーションが存在していることが想像できます。つまり、どんな献立を想定してタマネギを買っているのかで、同時に購入する食材が異なるでしょうし、あるいは特定の献立を想定していなくて単にストックの補充として購入している場合もあるでしょうし、さらには本来の目的のアイテムが在庫切れだったために代替的なアイテムを購入したというようなケースだってあるでしょう。
アソシエーション・ルールの場合は、とりあえずそうしたことは一切考えないで、それぞれのアイテムを含むトランザクションをカウントして、その割合を算出しているだけです。SOMの場合は、さまざまなシチュエーションの中で、全体構造を決定するような主要なシチュエーションによって、トランザクションが分類・整理されているとみなすことができます。各アイテムの属性ピクチャを見て、アイテムを購入している割合の高いノードの領域が、マップ上でいくつかの離れた領域に分かれている場合、そのような領域がそれぞれのシチュエーションを表していると解釈できます。したがって、特定のシチュエーションで同時に購入されるアイテムの構成を見ることができます。
ただし、例外的なシチュエーションは、その類似性で主要なシチュエーションのどこかに分類され、埋没している可能性はあります。詳細な分析をすると、そうしたものも抽出することは可能ですので、品質管理や事故分析などでは、そのような方向の分析が有用かもしれません。マーケット・バスケット分析では、全体の中に埋没する情報は、あまり有用な情報ではないと考えても良さそうです。

投稿者:

データマイニング->統計的モデル(汎用的方法)->個別モデル

最先端のニューラルネットワーク研究ではなく,Kohonenの(レベルの)SOMのデータマイニングへの応用(統計的応用)の基礎なら,それは90年代までにすべて研究し終わっていて,Viscoveryの製品になってしまっております.Viscoveryは,もう20年もの歴史を刻もうとしてしております.
今さらフィッシャーのアヤメのデータでアカデミックな議論をする必要はないのですが,久しぶりにそういう議論に巻き込まれていました.SOMを勉強し始めるときにSOMの基本動作を理解するために,アヤメのデータのような小さなデータを使うのは悪くありません.ただし,1つ注意しておかなければならないのは,このデータはフィッシャーが判別分析を開発したときに用いたデータとして有名ですが,それはあらかじめアヤメの品種を判別するのに有効な観測変数が絞られているという事実です.
「データマイニング」というのは,コンピュータに膨大なデータが収集されていて,そのデータを何かの目的で有効活用したい場合に,利用可能な変数がたくさんありすぎて絞り切れないような場面で,さまざまな観点からたくさんのモデルを効率よく作成・評価・適用することです.
したがって,フィッシャーのアヤメのデータをどんなにいじっても,そこからは「データマイニング」には発展しません.
SOMの何かの改良版を使って,アヤメのデータが完全に「クラスタリング」できたというような論文を見かけたりしますが,何から何まですべて間違いだらけです.
クラス分類モデルを作成するときに,説明変数だけをマップの順序づけに寄与させておいて,目的変数がよく分離しているマップができていたらよいはずです.目的変数の値がマップ上でランダムになっていたらダメです.究極的にはクラスタリングの結果がクラス分類と一致する場合があるのは(新しい発見でも何でもなく)当たり前の結果なのですが,必ずしもそれを目標とする必要もないと思います.クラスタリングの目的は別にあります.
データの品質が悪いときには,目的変数にも重みをかけてマップを作成し,作成した分類モデルを適用するときに,説明変数だけでマッチングを行う方法もあります.
クラス分類モデルでやるべきことは,マップのノードをクラスごとに分けて分類モデルを定義して,モデル・データとは別に用意した検証データによって,マップの分類性能を評価することです.ここで重要なことは,ノードごとの分類性能を評価できることがSOMの最大のメリットです.
SOMのマップを作成するときに,変数への重みづけをすることが,しばしば有効です.じつは,これによって複数モデルを作成して,アンサンブルすることができます.そのときに,マッチングしているノードの分類性能を参照して,各モデルの優先度をつけることができます.
アヤメのデータからSOMのマップを作成するのに,変数への重みづけをどのようにするのがベストであるか?という議論だったのですが,あまり意味がありません.重みづけによって変わる説明変数のマップ上のパターンから何かを得ようとしているのだろうと思いますが,何と言えばよいのか説明が難しいのですが,着眼点のセンスが大事です.
大規模なデータの場合,Viscovery Predictorを使用すれば,SOMローカル回帰モデルのマップを作成するときの変数への重みづけを最適化する手法があるにはあります.それはクラス分類モデルにも応用可能です.しかし,アヤメのデータに,そのような高価な手法を使用する必要もありません.
ただし,Viscovery SOMineではスケーリングによって,すべての変数の尺度が均一化されていますので,その効果を解除する方法(グループ属性の設定)もありますので,その選択肢はあります.アヤメのデータは,アヤメの花の各部位の長さを測定したもので,すべて同じ長さの単位ですので,各変数の標準偏差に比例した尺度を持ったほうが自然だと考えられます.
アヤメのデータのマップを解釈したいのであれば,じつはもっと明快な方法があります.これは,アヤメのデータの種明かしでもありますが,観測変数をそのまま使うよりも,変数同士の間の比率を計算したほうが,ずっと本質に迫れます.
アヤメの品種を人種に置き換えて考えればすぐ理解できるでしょう.白人と黄色人種では,身長や手足の長さに違いがあるだけではなくて,決定的な違いはむしろ,その比率(プロポーション)です.このような比率を求めることは,(統計以前に)医療診断などで広く利用されていると思います.
ただし,アヤメのデータは,Setosaだけが他の2つよりも形状が大きく違っていて,VersicolorとVirginicaの違いはとてもわずかです.したがって,他手法で,上記の比率の値から,これらの3つを一緒にモデルしようとするとVersicolorとVirginicaはうまく分離できません.
Viscoveryでは「データのインポート」ステップの「新しい属性の定義」ダイアログで比率を計算した結果の新しい列を追加することができ,「ヒストグラムの調整」ダイアログで,新しい比率属性でヒストグラムが左側に偏っているものに対して「対数変換」を設定します.これだけで,他手法では分離できなかったクラスが見事に分離できます.スケーリングはデフォルトのままで,相関補償もチェックしたままで,変数の重みづけは必要ありません.
もともとの判別分析について言えば,たぶん,多くの人たちは,交互作用の解釈に頭を悩ませていることだと思います.交互作用の数式には,さほどの根拠はないようです.まず数式ありきで,その数式(曲面)がデータに適合するように係数を求めているだけなので,その係数に意味を求めても,何のことやらさっぱりわかりません.凡人には多次元空間での曲面の形を想像することができません.
アヤメのデータの場合,観測変数間の値の比率という観点を持てば,このあたりのすべての謎が解けてしまいます.
結局,統計の手法というのは,あらゆる現象を記述するのに役立つ一般化した手法を提供しているだけであり,統計的手法で得られるモデルが,その現象を記述する最終のモデルであるとは限らないということかと思います.「統計で処理して結果が出たら分析終わり」ではなく,そこからの洞察が本当の研究であるかと考えます.
つまり,データマイニング->統計的モデル(汎用的方法)->個別モデル,という関係で捉えるのが良さそうです.
統計解析は科学を支援する有効なツールですが,統計解析によってがんじがらめになって,分析がマニュアル化されすぎて,自分の頭で考えなくなれば本末転倒です.現代においては形式的な研究がはびこって,科学・技術が停滞することが危惧されます.ViscoveryのSOMデータマイニングは、自分の頭で考えようとする人のために役立つ強力なツールになりえると思います.

投稿者:

手術用メスで鯨を解体!?

金融とか経済とか、社会のさまざまな複雑な現象について、統計手法を適用する際、場合によっては、手術用メスで鯨を解体する(もし大げさなら、「果物ナイフでマグロを解体」でもいいですが)ようなことになりそうなことが、ときどき見られます。
統計学は「科学の文法」と言われますが、やみくもに統計手法を使えば、何でも科学的になるわけではなく、「科学的方法」の中で使用するべきかと考えます。
科学の常とう手段として、まずは不要なものを取り除いて、できるだけ問題を単純化・理想化してから理論を構築するとか、複雑な全体を分解して、より単純になった要素について議論をするとか、あるいは限定された特殊な条件のもとで初期の理論を構築して、そのあとで段階的に一般化していくといったようなことをやります。
大抵のモデル(または理論、仮説)は、適用される範囲を注意深く限定することによって成り立っています。万能なモデルを作成するのは不可能です。
たとえば、金融機関の顧客について分析する場合、そこにはさまざまな人々がいます。「人生いろいろ」です。人それぞれ境遇も異なり、能力も異なり、考え方も異なります。そんな多様な人々の行動をたった1つの線形モデルで表現できると考えるほうがおかしい、ということに<早く!>気づいてください。
このような場合、従来の回帰分析でも「層別化」というテクニックがあります。単純な言い方をすれば、男性と女性では、異なる回帰式をあてはめたほうが精度がよくなるというような話です。
しかしながら、これにも限界があります。連続値(たとえば年収)で層別化しようとする場合、つまり、高所得者と低所得者をどこで分ければよいかがわかりません。その区分の仕方によって、結果がコロコロ変わるのです。
たとえば、都会で単身や核家族で生活するのと、田舎で年老いた両親(家付き・年金付き)と生活するのでは、同じ所得額でも生活の余裕というものが違います。諸条件によって、所得額の意味が違ってきます。
つまり、変量ごとに別々に離散化(カテゴリ化)をするのは危険だということです。弊社のHPでも説明しておりますが、それでは多変量空間でのデータの分布を無視して区割りをしてしまっているので、本来は一緒にするべき集団を分けていたり、別々の集団であるはずのものを同じ集団としてカウントしていることになります。

したがって、経済分野のような複雑な現象を扱う分野では、多変量でクラスタ分析をして、より均質なグループを作り出して、それぞれのグループについて、それぞれ分析を行うというステップをとられるのが、より良いアプローチです。ただし、一般的な統計ソフトで、それをやるのは、これまた困難がつきまといます。それに気づいた一部の人たちは、自己組織化マップを高度な統計解析の基盤(足場)として利用できるViscoveryを採用し始めているわけです。

投稿者:

データマイニングにおけるSOMの間違った使い方

インターネットを見ていると私が昔に書いた文章が韓国の方でひとり歩きしていました。
読み返してみると、内容も悪くないし、私の署名入りで流されており、タイムスタンプも入っているので、歴史の証明として、弊社のWebに再掲しておきました。
www.mindware-jp.com/basic/machigai.html
国内では、自己組織化マップの専門家として尊敬される偉い先生たちが、ここに書いているようなことを理解していないまま長年、本や論文を出版してきたので、日本はこの分野で遅れてしまいました。
日本の電子産業をノックアウトした韓国企業で、この文章が読まれていたのは、本当に皮肉な話です。

投稿者:

ペタバイト級データマイニング

恒例のKDnuggetsのオンライン投票ですが、現在、「今までで分析した最大のデータセットは?」という投票をやっています。
これによると平均的なサイズは数10メガバイトで、テラバイト級もめずらしくない(1シグマあたり)になってきているようです。そして、さらにペタバイト級のデータを分析していたと回答した人も全体の数パーセントいます。
KDnuggetsの読者には、データマイニング業界の先導的な立場の面々も多数いて、投票者数が数100人(現在のところ200人ちょっと)なので、層に偏りがあることは織り込み済みでやっている投票です。
日本でも昨年あたりから「ビッグデータ」が流行語になっていますが、大規模なデータマイニングがかなり一般化してきていることがわかります。
ビッグデータのマイニングには、コンピュータの計算パワーを増大させる方向と、データを圧縮・要約して計算をスマートにさせる方向とが考えられます。前者は多数のサーバーを集積させたデータセンターであり、いわゆるクラウド・コンピューティングです。後者はViscoveryに代表されるSOM(自己組織化マップ)アプローチです。

投稿者:

KDnuggetsの分析ツール投票

データマイニング/知識発見関連の情報サイトKDnuggetsでは,毎年この時期に「使用している分析ツール/データマイニング・ツール」の投票を行うのですが,順位に大きな変化があります。
以前は、KXENが商用データマイニングではSAS、SPSSに次ぐポジションにありましたが、代わって11 Ants Analyticが大躍進しています。これからの注目ツールです。
日本ではまだ11 Ants Analyticがほとんど知られていませんが、11 Ants Analyticは、あのWekaを生んだニュージーランドのワイカト大学で設立されたベンチャー企業で、自動データマイニング・システムを商用化しています。
マインドウエア総研では、昨年暮れから同社と提携して、日本での市場開拓を進めております。
このほか、マインドウエア総研が提供する製品では、XLSTATも躍進しています。いまやSAS、SPSS、JMP、Statiscaに次ぐ代表的な統計ソフトにのし上がりました。
Miner3DやViscoveryも市場でのプレゼンスを維持しながら健闘しています。

投稿者:

リスク・モデルの監査

福島第一原発の事故を受けて、一部の識者が「確率論の限界」ということを言っているようです。
つまり、マグニチュード8を超える大地震が起きて、かつ14mを超えるような大津波が原発を襲う<同時確率>(2つの事象が両方とも起こる確率)は非常に小さい値になるので「想定外だった」という話です。
それをもって「確率によるリスク・モデルは無力だ」という結論になるとしたら、ちょっと乱暴するぎる話です。実際のところは、間違った使い方をしているだけなのです。
この間違いの根底にある考え方は、確率を客観的真理だとする「客観確率」の考え方です。数字を「揺るぎのない客観的真理である」と盲目的に信じて、「数字のひとり歩き」を許してしまうことは危険です。
人間が現実的に認識し得る確率は「主観確率」でしかありません。全知全能の神のように、すべての事実を勘案することができれば、客観確率の計算もできるでしょうが、人間にはそれができません。客観確率とは数学上のフィクションです。
主観確率とは、限りのある情報をもとにして、ある事象について推測する<信念の度合い>です。主観確率は、新しい事実が発覚するたびに時々刻々変化します。ベイジアンネットワークによって、それをシミュレーションできます。
当たり前すぎる話ですが、ひとたび地震が起きてしまうと、津波が発生するという信念(確率)は一気に跳ね上がります。このようにある事実が観察される前と後で、事象が起きる信念に大きな変化があるときに、その観察された事実の「情報価値が高い」と定義できます。当たり前のことですが、地震の発生は、とても重要なトリガーです。
残念ながら大地震がいつ来るか?どの程度の規模の地震が来るか?を予測する方法はありません。(地震の発生を予測しようとする地震学はトンデモだと思います。こういう間違った方向にデータマイニングが利用されるのも迷惑な話なんですが…)
しかし、いつか、どこかで、必ず、小さな地震も大きな地震も発生する、というのは真実です。ならば、「過去に起きた最大級の地震と同程度の大地震がどこで起きてもおかしくない」という前提を置くのが、妥当なものの考え方でしょう。
「地点Xで、マグニチュードZの地震が発生した場合の被害Y」というシミュレーションを行うのが自然な流れです。原発草創期の40年前では、無数のケースについてこのような計算を行うのは不可能でした。しかし、今はコンピュータとさまざまな計算手法があります。
このようなシミュレーションの中で、確率モデルはとても有効に働くはずです。
ベイジアンネットワークをさらに発展させたインフルエンス・ダイアグラムという手法を用いると、想定される被害の大きさと、事故対策のコストの両面から適正な対策を選択できたはずです。残念ながら、日本の原子力関係者の間では、そのような適切なモデルが作成されていなかった(あるいは、作成されても組織内で潰されてきた)と言うしかありません。
原発の事故によって失うものの大きさを正しく評価することができていたら、もっと適切な対策があったはずだと「後悔先に立たず」とはいうものの悔やんでも悔やみ切れません。
原発の事故を受けて「確率モデルは無力だ」という風潮に流れるとしたら、それこそ危険なことです。実際のところ、確率論が無力なのではなくて、その根底にある思想を正しく理解せずに、間違った使い方をすることが無力なのです。
日本の組織で統計的・確率的モデルの作成に使うお金は、諸外国に比べてあまりにも小さいです。弊社はViscoveryやHuginの代理店をしていてわかるのですが、これらのソフトウェア・ライセンスをできるだけ安く購入して、自分たちでモデルを作成するというのがほとんどです。非常に危なっかしい現状があります。
重要な分野のユーザー様は、ぜひプロフェッショナル・サービスを受けてください。それはモデル作成を外部に丸投げするという場合ばかりではありません。外部の人が作成するモデルと比較して、新たに気づけることも多いでしょうし、あるいはご自分で作成したモデルを第三者に監査して貰うということも必要かと思われます。
とくに大学や研究機関が政府などから受託した研究で、Huginなどを使って頂くのでしたら、正規のコンサルティングを受けて頂きたいです。現状では正しく使われている保証がまったくありません。ご注意ください。

投稿者:

弁証法的アプローチ

流行りの「地頭力」「フェルミ推定」と「データマイニング」の共通性について書こうしたのですが,丁寧に説明しようとする,かなり長い話になってしまうので挫折しました.結局,早い話が「弁証法」の一言で終わるのですが,たぶん「弁証法」がわからない人はかなり多いと思います.
フェルミ推定というのは,一種の弁証法なわけです.
で,過去に自分が雑誌に書いた説明の仕方を思い出して言えば,つまり,幾何学の問題を解くときに,有用な「補助線」に気づけるかどうかが勝負だということと同じです.ちなみにデッサンが探求力を鍛えるというのは,デッサンは幾何学そのものだからです.
弁証法とは,トポス(論拠)を発見して,そこから自前の論理を構築していく方法です.「ディベート」という現代語は似たようなニュアンスがあると思います.ソクラテスにとっては,弁証法は口論に打ち勝つための技だっただろうと想像します.
もっとも口論というのは,「ああいえば,こういう」式の言い逃れとその矛盾点を弁証法的に論破するという戦いをお互いがやり合うので,たいてい最後には両者とも「自分が勝った」と思い込んで終わるもので,真理に到達するようなものではありません.どんなに正しいことを言っても,相手がそれを素直に受け入れるかどうかは,別問題ですね.真理はいつも人間と関係ないところに横たわっています.
似たようなところでは,ビジネスにおけるプレゼンテーションや話術の類も同じで,まさに方便の世界です.世の中には口の達者な人がうようよしているので,まがい物がはびこります.騙しのテクニックを駆使してでもビジネスを円滑に進めるのがよいのか,そんなことしたらわかる人にはわかるので,それが恥ずかしくてできないのが人の道なのか,よく悩みます.年齢を重ねるほど後者になっていってしまうので,まあ,どんどん棲みにくい世の中になっていきます.
それはそれとして,弁証法の重要性がどこにあるかというのは,「思考の経済性」にあります.弁証法的なアプローチの大局にあるのが,物事を隅から隅まで1つの漏れもなく,すべてをスキャンする方法です.悉皆調査とか総あたり法とかがそれです.
たぶん,将棋や碁の達人も(私には想像の世界ですが)同じようなことをやっているはずです.コンピュータは,何手か先までのあらゆる可能性をスキャンして,最も良い手を選ぶわけですが,人間はコンピュータには敵いません.もっとも達人は普通の人よりも大きなメモリ空間を持っていて,ある程度は緻密な論理で分析しているのだろうと思いますが,100%完全な論理で手を選んでいるのではないのだろうと想像します.
ハーバート・A・サイモンが「システムの科学」(The Sciene of Artificial,1969)で,完全合理性と限定合理性という言葉を使って説明したことが,ずっとコンピュータ・サイエンスの分野では重要な課題として研究され続けています.そういう研究の系譜での成果として結実したのが,自己組織化マップやベイジアンネットワークなのであります.まあ,もっとも,それでもまだまだ人間の思考にはほど遠いのですが,かなりいい線まで行っています.
弁証法的思考に関係すると思われるキーワードのみを並べておきます.いちいち説明するとブログではなく,本になってしまうのでやめておきます:
ディベート,フェルミ推定,仮説思考,幾何学の補助線,限定合理性,ソフト・コンピューティング,データマイニング,KJ法(ただし,権威化・形骸化とは無関係な本質の部分),グラウンデッド・セオリー,オートポイエーシス…
まだ,たくさんあると思いますので,思い出したら,あとで「こそっ」と追加しておきます.
データマイニングにおける弁証法的アプローチは,計算に用いるアルゴリズムの中にもあるのですが,それよりも,データマイニング・プロジェクトを推進する方法の中にも存在します.これができるか,できないかでプロジェクトの効率がまったく違ってきます.
筋のよいデータマイニングは,世間で知られているのよりも,ずっとスマートで効率がよいのですが,それが理解されないことが,世の中の効率を悪くしていて本当に残念です.