カテゴリーアーカイブ データマイニング技術

投稿者:

クレジットカード取引パターンの広域な監視システムの確立を

報道されているように15日、日本国内でクレジットカードの広域な一斉不正使用事件が発生しました。
報道によると17都道府県の約1400台のATMから一斉に総額14億4000万円が不正に引き出されたとのことです。2時間半の間に100人以上の犯人グループが各地で一斉に引き出したと見られています。
犯人グループが100人として、単純計算で1人1400万円を2時間半の間に14台のATMを回って引き出したことになります。カードの利用枠が100万円なら、1人たったの14枚のカードです。そう考えるととても簡単です。
今のところATMは暗証番号さえ正しければ、お金を吐き出してしまいます。考えられる1つの対策としては、少なくともICカード化して偽造カードを簡単に作れないようにするということがあります。さらにセキュリティを確実にするには、暗証番号ではなく、指紋や虹彩などの生体認証が必要とされます。しかしながら、これらはすべてのカード、すべてのATMを新しい技術に置き換えないと確実な効果が期待できないという欠点があります。
そこで当面、急がれるのは、広域な取引のリアルタイム監視ではないかと考えます。機械学習を使って不正検出を行うというのは、国内でも当然行われているはずですが、基本的に個別のカードごとに不審な取引パターンがないかを見ているのではないかと思われます。しかし、それでは今回のような大掛かりな(テロとさえ呼べる)犯行には対処できないでしょう。
今回のような事件が起きた場合、被害を全くゼロにすることはできなくても、1分1秒でも早く異常に気付いて、危険にさらされているサービスを速やかに停止するということが求められます。
つまり、システムの全体的な挙動(状態遷移)をリアルタイムに監視する必要があります。ATMはいくつかのサービスを提供しているわけですから、通常は、利用者ごとにさまざまなサービスが利用されているはずです。曜日や時間帯、あるいは月末などの時期によって、どのサービスがよく利用されるというパターンがあるでしょう。そのような多変量な値の時間的変化のパターンを状態遷移と呼ぶことができます。
今回の手口が使われた場合、不正なトランザクションが全体からみて誤差の範囲として見捨てられてしまう可能性が高いです。個々のトランザクションで大金の引き出しがあったからと言って、それを即不正とみなすことはできません。しかし、それを「注目すべきイベント」としてフラグを立てることはできるでしょう。不正が起きていないときでも、システム全体では常にあちこちでフラグが立っている状態になるでしょう。その時間的な出現パターンが通常であるか異常であるかを判断する判断するシステムを構築しなければなりません。現状でもある程度されているのかもしれませんが、その性能を高める必要があります。
弊社が提供するデータマイニング技術は、とくにこのようなシステム監視の問題を解決するのに威力を発揮します。週明け早速、海外の技術協力会社とこの件についてディスカッションする予定です。

投稿者:

SOMデータマイニングの真実

SOM研究とViscoveryの記事が長文過ぎて伝わりにくいかと思い、もう少し簡潔な表現をしてみます。
SOMは多次元(多変量)データの理想的なモデリング基盤として使用できます。
それは、多次元データの可視化、探索的分析、クラスタリング、クラス分類、非線形モデルのための基盤提供など、幅広い活用を可能にします。
その意味で、多変量解析の文脈で捉えることもできます。しかし、SOMを主成分分析やクラスタ分析などと並ぶような多変量解析手法の1つと捉えるべきだということではなく、むしろ、既存の手法とSOMを組み合わせることで、それらの手法を強力化するターボチャージャーのようなものです。
つまり、SOMは既存の手法と競合したり、置き換わったりするものではありません。それどころか、SOM単体では精緻な分析にはなり得ません。(この段階で間違った方向に行ってしまっている研究があまりに多いです。)しかし、SOMは複雑なデータを大局的に整理しなおすことで、難しかった分析を簡単にしてくれたり、新しい創造の糸口を提示してくれます。それが真実です。
総合的なデータマイニング・システムでも、KohonenのSOMアルゴリズムは搭載されていますが、単体のアルゴリズムのレベルで実装されているので、ほとんどのユーザーには実践的な活用は閉ざされたままです。
またもう1つ世間では重大な誤解があります。データマイニングでは、バッチ学習アルゴリズムを使用するべきですが、残念なことに、SOMの学術研究の情報がノイズとなって、長年にわたってユーザーを惑わせ続けてきました。
SOMの学術研究では、いかにSOMのノードがランダムな状態から、(SOMの)格子がもつれたりせずに自己組織化的に秩序を獲得するか、ということに重点を置いた研究がなされてきました。
しかし、それはデータマイニングとはまったく関係のないことです。そんなことでデータマイニングの(統計的な)性能が向上したりはしません。実用上は、ランダムな状態から学習するSOMなんて必要がないからです。
不幸なことに国内のSOMの研究者の中には、伝統的な統計解析の知識も乏しく、またデータマイニングでのSOMに関するさまざまなテクニックを理解しないまま、海外で15年も20年も前に研究されたSOMアルゴリズムの変形をまだ研究している人がいて、その成果を大げさに発表している場合があります。この手の研究室で開発されたソフトウェアの出来は、見るも無残なほどチープな出来です。そんな学術情報に惑わされると、10年単位で大きな時間のロスになります。
SOMのバッチ学習アルゴリズムと伝統的な統計解析の両方について熟知して、それらを組み合わせた新しい分析手法を本格的に実装できているのは、これまでの20年間、世界中でViscoveryのみです。

投稿者:

「Excel SVM」「Excel SOM」

※この記事は古い記事ですが、アクセスが多いので書き換えさせて頂きます。(2016.6.10)
弊社ブログのログを見ると表題のキーワードでの検索が目立ちます。
SVM(サポートベクターマシン)もSOM(自己組織化マップ)もExcelそのものでは計算できませんが、ExcelのアドインやExcelのデータファイルを使用できるソフトウェアはあります。
まずSVMの計算ができるExcelアドインは、現在XLSTATのみです。
書き換える前の記事では、11Ants Model Builderをあげておりましたが、現在はこの製品は販売されておりません。ちなみに、11Ants Model Builderは、SVMを含む11種類のアルゴリズムにより、予測・分類モデルを自動生成する世界で初の製品でした。最近、米DataRobot社が話題になっていましたが、それよりも何年も前にニュージーランドの11Ants Analyticsが実現しております。現在、同社は、単なるモデルの自動生成のレベルは卒業して、小売業向けとエアライン向けの特定業種ソリューションに形を変えております。
11Ants Model Builderに搭載されていたアルゴリズムのリストは下記に残しておきます:
•ディシジョン・ツリー(決定木)
•ガウス過程法
•ロジスティック回帰
•ロジット・ブースト
•モデル・ツリー
•ナイーブ・ベイズ
•最近傍法
•偏最小2乗法(PLS)
•ランダム・フォレスト
•リッジ回帰
•SVM
11Ants Model Builderは、自動でモデル作成・評価を行い、アルゴリズムの選択、およびアンサンブル予測モデルの構築(複数モデルによる予測性能の向上)を行っていました。短時間で数1000個以上ものモデルを検討して、最も予測性能のよいモデルを見つけていました。つまりDataRobotよりも先行です。
SOMの方は、何といってもViscovery SOMineがお薦めです。これは単独のWindowsアプリケーションですが、ExcelファイルからSOMのモデルを作成できます。そのほかにもテキスト・ファイル(タブ区切り、スペース区切り)が取り扱えます。またSPSS(.sav)のオプションもあります。
じつは、パッケージ製品としては販売していないのですが、Viscoveryの機能を既存のシステムに組み込むためのモジュールは、個別に提供しております。Excelのアドインとして動作するSOMも(必要があれば)提供可能です。ただし、パッケージではなく個別受注です。

投稿者:

<緊急課題>歩留まり向上技術

日本の電機メーカーが半導体や液晶の歩留まりが上がらずに喘いでいます。
どこに問題があるのか?ズバリ言うと、データマイニングへの対応の遅れだと思います。
現在の半導体や液晶の製造工程は、極めて高度に微細化・複雑化しており、製造プロセスでの制御因子が数千個から1万個のオーダーに達しています。もはやQCサークルなどはもちろん、タグチメソッドのような品質工学も遠く及ばない領域に達しているのです。日本のメーカーは、これらに代わる新世代の科学的手法の導入に遅れをとってしまったようです。
もちろん、データマイニングなら何でもよいわけではありません。一般的に販売されているデータマイニング・ツールでは、数千個もの説明変数を用いて最適化モデルを作成できるような手法は提供されていません。
このまま行けば、たぶん日本の電子産業は終焉の時を迎えてしまいます。もし日本の電子産業が滅ぶとしたら、それは優秀な技術者を厚遇して来なかったことへの報いとして受け止めざるを得ないでしょう。それはそれで運命かも知れません。
しかし、もし少数でも、ものの道理のわかる技術者が残っているのなら、日本の未来を取り戻すために、今起ち上がって欲しいものです。マインドウエア総研は、そのためのお手伝いができます。ぜひ1日も早くご相談ください。

投稿者:

自己組織化マップが考案されてもう30年

今年2012年は、Kohonen先生が自己組織化マップ(SOM)を考案してから30年目にあたります。もう30年です。
Kohonen先生の業績の偉大さは、さまざまな亜種を考案することが可能なSOMの大元のアイデアを考案したことにあります。
その10年後の1992年にSOMのバッチ学習アルゴリズムが発表され、統計的応用の可能性が出てきて、Kranner氏とSixt氏が統計的見地からSOMを再構築して、1994年から資本投入してEudaptics(現在のViscovery)社を設立し、本格的な規模でSOMineの開発を開始しました。
1997年頃には、その技術がほぼ完成しており、私がSOMineを日本語化して国内で売り出したのが2000年のことでした。それからでも、もう干支が一回りしたことになります。
それにしても「自己組織化マップ」というネーミングは(良い意味でも悪い意味でも)強烈です。
もう何年も前のことですが、サポートベクターマシンのある著名な開発者と会ったときに、彼が”I don’t believe SOM!”ときっぱりと断言したことは、今でも印象深く記憶に残っています。
たぶん、彼が言いたかったことは、「SOMのアルゴリズムが、自己組織化やっているなんて俺は信じていないよ」ということだと思います。また、その背後には、SOMに関わる人々の中には、SOMを宗教のように崇拝していてあまり科学的とは言えない状況がある(たとえば統計学的にはトンデモだったりすることがある)ことへの批判が込められていたように感じます。そういうことなら、私もまったく同感です。
90年代に複雑系のブームがあり、ごく一部のまじめな研究のほかに、便乗組のトンデモ研究がはびこった時期がありました。そこから派生して「自己組織化」というキーワードも、魅惑的な言葉の魔術として、トンデモ研究によく利用されたものでした。残念ながら自己組織化マップの周辺にも、胡散臭い研究が散見されます。「自己組織化」というネーミングがそういう人たちを寄せつけやすくしたことは否めません。
しかし、考えてみれば、それは人工ニューラルネットワーク全般にも、同じようなことがあります。人工ニューラルネットワークを利用した予測システムというのは、大企業でもやっていたりするのですが、それを宣伝するときに必ず「人間の脳を模した」という修飾がついていたりします。作っている人たちは、百も承知のはずなのですが、現実には、その言葉通りの人工ニューラルネットワークは1つも存在しません。
人工ニューラルネットワークは、データを学習して入力に対して適切な出力を行えるものです。入力に対して出力を返すという機能は、一種の関数だと言えますが、その関数を明確な数式で表さなくてもよいようにできるのが、人工ニューラルネットワークです。(もちろん、計算には数式を使用していますが、数式によって入力と出力の関係を直接記述するのではありません。)
自己組織化マップは、多変量データを学習して、データの分布を多数のノード(参照ベクトル)で、離散的に要約するものです。学習の際にノードがばらばらに動く場合は、K-meansというよく知られたアルゴリズムと等価であり、近傍関数によってノードが格子状に結束されて、ノード間の値の変化がスムージングされているものが自己組織化マップです。
良質なデータマイニング(Viscovery)では、自己組織化マップがデータ分布のトポロジーを保持していることを利用しています。「位相保持マップ」という専門用語もあるのですが、こちらはあまり知られていません。本当は、この用語を使ったほうが誤解が少なくなるはずなのですが、「自己組織化マップ」というネーミングが通りが良いことと、大元のアイデアを作ったKohonen先生へのリスペクトの意味もあって、今でも「自己組織化マップ(Self-Organizing Maps)と呼ぶことになっています。
データマイニングでは、「自己組織化」だから何か良いことがある、ということはまったくありません。そもそも自己組織化マップが「自己組織化」と呼べるのであれば、主成分分析でもK-meansでも全部「自己組織化」です。
要するに、人工ニューラルネットワークにせよ、自己組織化マップにせよ、機械学習アルゴリズムであることには違いがありません。ある種の機械学習アルゴリズムを考案するとき、または学生に教えるときに、発想の拠り所として、つまり、ヒントとして、脳機能とか神経細胞網のメタファーを使用しているだけだとも言えます。
人工知能やニューラルネットワークの研究から、私はよく中世の錬金術を思い出します。錬金術は科学的には間違いでした。どのような物質を混ぜ合わせても金は作れません。しかし、結果としては、錬金術が現代の化学の礎になったとも言えるでしょう。
同様に、コンピュータで人間の知性を表現しようという目論見は、たぶん間違いなのでしょう。しかし、錬金術から化学へと同様、怪しげなところから何か役に立つ新しいものが生まれてきたりします。データマイニングや意思決定支援システムなどは、結局、そういうところから生まれて来たんだなあ、と感慨に耽る次第です。

投稿者:

「データマイニング」が死語となる日

データマイニングがブームになって11年が経ちました.昔からそうですが,産業界では次から次へとブームが巻き起こり,いろんな人たちがブームに便乗してひと儲けしようとするので,どうしてもまがい物がはびこります.そして,ブームになっているそのテーマそのものの言葉の定義があいまいになり,無意味化してブームが終息していきます.
たとえば「マルチメディア」というのもそうでした.マルチメディアは,コンピュータが計算機からメディアに変貌する第一歩でした.コンピュータが数字や文字だけじゃなく,音や映像を取り扱えるようになったことで,新しいコンピュータの使い方に展望が開けたことを意味する言葉でした.しかし,当時は,音や映像に関係する旧メディアもこぞって「マルチメディア」を標榜したものでした.たくさんのマルチメディアのプロジェクトが失敗に終わり,ブームは去り,「マルチメディア」は死語となっていきました.しかし,現在使っているインターネット,携帯電話,ディジタルテレビは,結局,マルチメディアを具現化した完成形として残っています.
データマイニングもこの11年混乱に混乱を重ねてきました.マルチメディアと旧メディアが混同されたのと同じように,データマイニングも統計解析と混同されました.
データマイニングと統計解析の関係をより正確に言うとすれば,「データマイニングは統計解析を含むが,従来の統計解析では扱わなかった領域に拡大したもの」というべきかと思います.その新しい領域とは,
– 知識(仮説)の発見
– 大規模データベースの使用(ギガバイト〜テラバイト級)
– 非線形モデリング

といったところです.物理学に例えるなら,ニュートンとアインシュタインの関係です.パラダイム転換です.データマイニングは統計学と矛盾してはなりません.
こういう意味からして,世間で取り上げられた「データマイニング」のほとんどは偽物でした.
たくさんの本が出版されて「データマイニングとは何か?」がさっぱりわからなくなるような混乱がありました.たとえば,上田太一郎氏の一連の書籍は,「データマイニング」という言葉を世に広める上でかなりの貢献をしましたが,同時に「データマイニング」の定義をあいまいにさせた側面もありました.つまり,彼の本に書かれている内容の大部分は,データマイニングではなく,従来の統計解析でした.功罪両面あったわけです.
統計ソフト・ベンダー各社もブームに便乗して,データマイニング・システムを売り出しました.それらは,アソシエーション・ルールやディシジョン・ツリー,ニューラルネットなどを総花的に搭載したものでした.私はこの11年繰り返し言ってきたわけですが,それらは旧式のツールの寄せ集めでしかありません.
私は,自己組織化マップとベイジアンネットワークこそが本命のデータマイニング技術であると見定めて,この11年ビジネスをやってきました.とくに自己組織化マップ(SOM)の重要性を説いて参りました.データマイニングをやるなら,一にも二にも,まず,SOMから始めることをお薦めします.
ところがSOMに関しても,本当にうんざりするほど嘘情報が蔓延してしまいました.もうしょうがないので,はっきり言いますが,早稲田大学の豊田秀樹先生がご著書に中で書かれているSOMの解説は,まったくデータマイニングの説明にはなっていません.はっきりと断言しますが間違いです.(もうちょっと遠まわしな言い方をするなら,あれは約30年前なら最先端の知識でした.)
より詳細は,データマイニング用SOMをご参照ください.
SOMでポジショニング・マップを作成することはできますが,それしかできないというのは大嘘です.「SOMはポジショニング・マップを描くツール」というのはあまり正しい教え方ではありません.あんな小規模なアプリケーションを「データマイニング」だと学生に教えることは,「データマイニング」と「SOM」のイメージを大きく貶めています.それは産業界にとってマイナスですし,我々にとっては営業妨害です.
諸外国と比較して,日本のデータマイニング導入は遅れています.この遅れを挽回しないと,国際的な日本の地位は失墜します.
本物のSOMテクノロジーは,上にあげた3つの要件を満たしていて,市販の本に書かれているようなチャチなものではありません.
無用なものが排除され,本命だけが生き残るとき,ブームのキーワードは消滅します.「マルチメディア」という言葉が消えて,インターネットや携帯電話が残ったように,「データマイニング」という言葉が消えたときに,いったい世の中では何が使われているのでしょうか.

投稿者:

自己組織化マップへのラベリングについて

立場上SOMの活用法について質問を受けることが多いのですが,驚くほど多くの人が1つのパターンに陥っています.
それはSOMのマップにオブザベーションのラベルを貼って,その並び方を分析しようというものです.(しかも,その考察の仕方が非論理的でぐずぐずな場合すら少なくありません.)
確かにこういう使い方もできますが,これはSOMの使い方のほんの一部でしかありません.

もとを辿ればSOMアルゴリズムを考案したKohonen先生が,SOMの意味を説明するために動物マップという簡単なオモチャの事例を使ったことが始まりです.その説明の本義は,「SOMは概念形成モデルの1つのアプローチである」ということを示すことでした.
ところが皮肉なことに,それよりも,マップ上にラベルが配置されている表面的なイメージだけが定着してしまって,SOMの本格的な活用を阻む結果となってしまいました.
たくさんの書籍が前例に倣って同じ説明をしているために,SOMのイメージはますますこういうものだいうことになってしまっています.市販の本のほとんどすべてで,本格的なデータマイニングにおけるSOMの有効性を説明することには成功していません.
個々のオブザベーションのラベルを貼るというのは,ユーザーが個々のオブザベーションの違いをはっきり認識できている場合に限り有効です.つまり,ごく少数のオブザベーションしか分析の対象にならないということです.多くても数100個まででしょう.それ以上のラベルを貼っても人間の認識能力では把握できません.
つまり,この方法では,ごく小規模なデータしか取り扱えません.
SOMの真価はこんなものではありません.もっと大規模,たとえば数万件から数10万件のデータで,変数の数も数100とか,場合によっては数1000もあるようなデータを効率よくクラスタリング,セグメンテーションできるのです.(もっとも,そのためにはコアのSOMアルゴリズムだけでなく,より本格的なソフトウェアの実装が必要です.)
たとえば,これによって消費者の購買行動から新しいセグメンテーションを発見するということにつながります.さらには使い方によっては,5年後の消費者のニーズ/ウォンツの構造をシミュレーションする,ということさえできます.
弊社のコンサルティングを受けている,ごく一部の大企業ではこのような使い方に気づき始めていますが,それはまだまだ一部に限られています.
大規模なデータマイニング・プロジェクトで,SOMにラベルを貼るとしたら,それはマップの解釈を助けたり,チームで知識を共有するために,クラスタやセグメントに「名前をつける」ということに使います.あるいは,戦略的に重要な場所にカギとなる数値を貼りつける場合もあります.
というわけなのですが,あえて小規模なデータをもとにしたSOMにオブザベーションのラベルを貼るという使い方の利点を挙げるとすれば,それは従来のポジショニング・マップの欠点を補うというあたりだと思います.
つまり,それは「従来のポジショニング・マップは単純すぎる」という点です.よくある間違いは,分析者が「エイ,ヤー」とばかりに2つの軸を直観的に決めてしまうというやり方です.
ポジショニング・マップは,たいへんわかりやすく訴求力が高いので,ビジネス分野のあらゆる場面で使用されますが,根拠の乏しい軸を使ったポジショニング・マップは「騙しのテクニック」にもなりかねません.
したがって,ポジショニング・マップを作成するときは,主成分分析や多重コレスポンデンス分析,あるいは多次元尺度法などを使用するべきです.その中でSOMという選択肢もあるにはあります.もちろん,他手法と比較してSOMの利点もあります.
詳しくは弊社のコンサルティングを受けられることをお勧めします.
SOMデータマイニングの方法
*市販の本の中には,SOMの出力例として掲載されている図が,明らかにSOMではなく主成分分析か多次元尺度法のような平面への投影になっているような本も平気で出版されていますのでご注意ください.

投稿者:

平行座標法の書籍とソフトウェア

イスラエルのテルアビブ大学のAlfred Inselberg教授からメールが来ました。平行座標法の考案者として有名なビッグネームです。
“Parallel Coordinates -Visual Multidimensional Geometry and Its Applications”という本を9月にSpringerから出されるそうです。
すでに予約受付されており、PDF/HTML版もインターネットから利用できるようです。
http://www.springer.com/math/cse/book/978-0-387-21507-5
それで先生からの提案なんですが、Parallaxという先生が開発した平行座標法のソフトウェアを、この本の購読者にお安く提供しましょう、ということです。ご希望の方は、マインドウエア総研までお問い合わせください。
平行座標法は、多次元データの可視化からスタートしたアイデアで、デカルト座標に匹敵する発明だとも言われ、最近ではパターン認識(クラス分類)への応用も可能になっています。
すでに平行座標法を搭載した市販ソフトウェアもありますが、それらは単に図として平行座標が表示されるようなもので、オリジナルの平行座標の本当の価値には迫られていないようです。オリジナルの平行座標、すなわちParallaxではインタラクティブな操作で探索的マイニングが可能です。
ぜひこの機会に平行座標法を検討してみられてはいかがでしょうか。