月別アーカイブ 9月 2009

投稿者:

それってホントにデータマイニング?

世間では、多種類の分析ツールを搭載した総花的なソフトウェア製品が「データマイニング・システム」として販売されております。市場で大部分のシェアを誇るメジャーな製品もそのタイプのものです。
いわゆる「総合的データマイニング・システム」です。ただし、あえて皮肉を言わせて頂くと「データマイニングのオモチャ箱」と呼ぶべき代物です。
それに搭載されている手法をざっと見ていくと、
– アソシエーション・ルール
– 時系列分析
– クラスタリング(クラスタ分析)
– 決定木(クラス分類)
– 重回帰分析(線形の予測モデル)
– ニューラルネット(非線形の分類・予測モデル)
– 自己組織化マップ
というようなものです。一部、データマイニング手法らしきものがちらほら見当たるのですが、大部分は従来の統計解析ソフトにも搭載されている手法と同じものが搭載されています。
これらの中でそれなりにパワフルなものは、アソシエーション・ルールと決定木の自動導出ではないかと思います。時系列分析やクラスタリング、重回帰分析は、本質的に従来の統計解析と何ら違いがありません。ニューラルネットと(とくに)自己組織化マップはとてもチャチなオモチャのような実装になっています。
データから自動的にIf~Then形式のルールやツリー状の分類モデルが生成できるようになったことは、30年前から考えるとかなりの進歩だと言えるのですが、実際のところ、これらの知識表現はすでに時代遅れの方法です。複雑な知識をこれらの方法で効率的に表現することはできません。
クラスタリングと重回帰分析は、それぞれ探索的分析と予測分析において要になる手法ですが、これがほとんど従来的な技術水準にとどまっていることは、そのまま現在の主要なデータマイニングの致命的な限界となっています。
つまり、これらは従来的な線形手法であり非線形に対応していません。じつは自己組織化マップというのは、独立した手法ではなく、これらの手法を非線形対応させるための要素技術として使用するべきものなのですが、市販のデータマイニング・システムでは、そのような実装がなされていません。
オモチャのような自己組織化マップを搭載していて、「一応やっています」という姿勢だけ見せているものの本格的な取り組みはまったくされていません。
ViscoveryのSOM-Ward法とSOMローカル回帰法は、主要なデータマイニング・システムが成し得ていない非線形のクラスタリング非線形の重回帰分析をそれぞれ実現しており、真の意味での「データマイニング」です。

投稿者:

不正保険請求発見システム

現下の経済危機で、保険の不正が多発しており、保険会社では不正と戦う効果的な方法の採用よりも、実行プロセスでの損失の低減と価値の探索のニーズが高まっている。
HUGIN EXPERT社のソフトウェアによって、保険会社は不正発見を素晴らしく改善する不正発見システムを開発することができ、保険請求を効率的に取り扱うことができるようになる。
Ecsact A/S との協力
小規模から大規模まで、すべての保険会社で高度な不正発見と保険請求の効率的な処理を可能にするために、Hugin Expert社は専門保険の経験豊かな提供者で保険数理コンサルタント・サービスのEcsact A/Sとチームを組んだ。HUGIN EXPERT と Ecsact のコラボレーションは、より多くの保険会社で先進の不正発見ソリューションを首尾よく開発し実装することを可能にする。不正発見ソリューションは、純利益の確保、顧客ロイヤリティおよび競争力の強化のために、今後数年間のカギとなっていく。
Ecsact A/Sの詳細な情報とHUGINの不正発見ソリューションの詳細は、http://www.ecsact.dk
国内ではマインドウエア総研を通して同ソリューションの導入ができる。
http://www.mindware-jp.com/solution/fraud.html

投稿者:

Huginが参加するBIOTRACERが最高の成果

欧州委員会が1100万ユーロで立ち上げた大規模プロジェクトBIOTRACERが、オランダ・アムステルダムで3月に開催された評価会議にて、2人の外部評価者から最高評価を受けた。
欧州委員会が要求する年間評価会議が2009年3月23日24日に開催された。BIOTRACERのワークパッケージ・リーダーECサイエンス・オフィサーのCiaran Manganと共に、ドイツ・クルムバハの食肉科学研究所のDr. Rohtraud Pichner およびスイス・チューリッヒのチューリッヒ大学のRoger Stephan教授が、ECで実施されている研究プロジェクトの進捗を評価するための評価会議に参加した。
全体評価の結果は、「このプロジェクトは、その目的と期間内の技術的目標を完全に達成し、当初の期待さえ超えた」としている。その評価は、「良好ないし極めて優れたプロジェクト」という最高のレーティングであった。
評価者は、「昨年の評価者の推薦に従って、方法論的問題の作業はもはやプロジェクトの中心的課題ではなく、プロジェクトにモデラー(Hugin)を緊密に統合するためのフィールド・データを作成する食物連鎖のサンプリングが開始された。このモデラーと微生物学者との緊密な協力は、時期計画においてとても重要である」とした。
BIOTRACERの将来に関して、評価者は、「ECの他のトレーサビリティ(生産履歴管理)プロジェクトと統合するバーチャルなトーレサビリティ研究所として設立されたコンソーシアムが、BIOTRACER(プロジェクトの内外)のトレーニングと普及活動を一緒にもたらし、これらの活動が投資期間後のプロジェクトの統合、調整、持続性の創造を確かなものにしている」と言う。
BIOTRACERは、食品や動物の飼料 に含まれる微生物の識別を改善する目的の統合化プロジェクトである。 欧州共同体のメンバーの増加により、またヨーロッパでの食品や飼料の貿易量の増加により、バイオ汚染の追跡のための標準フォーマットが必要になっている; BIOTRACERは、新しく改良されたテクノロジーを用いて、これらの標準を開発することを支援する。BIOTRACERは、この結果を採用してヨーロッパ全体の食品安全性を改善するために、微生物学の専門家とコンピュータ・ソフトウェア開発の専門家、そして食品販売業者を集めている。BIOTRACER は、食品および飼料の汚染問題に取り組むために、24カ国から46機関が参加してコンソーシアムを設立している。
ヨーロッパの食品に関する消費者の信頼を確かにし、ヨーロッパの産業、とくに中小企業をサポートするために、EUが研究プロジェクトを立ち上げた。
HUGIN EXPERT社は、HUGINソフトウェア(世界標準のベイジアンネットワーク)を用いてドメイン・モデリングと意思決定支援での研究を通して、BIOTRACERに参加している。
より詳細な情報は、http://www.biotracer.org

投稿者:

第2回 PLSPMコース

Addinsoft社は、PLSパス・モデリングおよびXLSTAT-PLSPM モジュールの使用法に関する第2回目のセミナーを予定している。このセミナーは、11月23日から25日にパリ(フランス)にて開催される。第1回目のコースは大反響があり、参加希望に十分応えることができなかった。今回は、この手法の開発に寄与した3人のキーパーソンに会える絶好の機会となる: Wynne Chin(ヒューストン大学), Michel Tenenhaus(HEC),Vincenzo Esposito Vinzi ( ESSEC)。講演はすべて英語で行われる。
お申込み:
http://www.xlstat.com/en/training
(またはマインドウエア総研)

投稿者:

メディアプリント社の最適化CRM

Viscovery Software GmbHは、オーストリアの大手出版社メディアプリント社でデータマイニング・システムを実装した。このデータマイニング・ソフトウェアは、メディアプリント社の新しいCRM(顧客関係性マネジメント)システムの一部の構成し、ターゲット・マーケティング活動で使用するための予測モデルと探索的データ分析を統合する。
メディアプリント社は、顧客サービスやキャンペーン・マネジメントの最適化、新聞購読者へのターゲット化されたマーケティング・アクションのために2007年からViscovery社のデータマイニング・システムとコンサルティング・サービスを利用してきた。「Viscoveryの実装によって、弊社の新聞Kronen Zeitung およびKurierの両紙のために、社内で素早く効率的に顧客分析を行えるようになった」とメディアプリント社の統計解析責任者であるHans Frohnerは言う。「(従来のデモグラフィック・ベースではない)行動ベースのセグメンテーションと顧客ロイヤリティのスコアリングは、我々の顧客獲得プログラムおよび顧客維持プログラムにおいて必要不可欠なものになった」
Viscoveryのデータマイニング用ワークフロー型ソリューションは、顧客行動の探査、スコアリング・モデルの作成、顧客セグメンテーションの定義、おおよび分析ワークフローの自動化のための包括的能力を提供する。モデルの作成とハンドリングの容易さ、ビジュアルなモデル表現、先端的な分析機能は、メディアプリント社が蓄積データからマーケティングとメディア最適化に関連する情報を活用し、ターゲット化されたキャンペーンを開発・評価し、さらにCRM情報に基づいたマーケティング・プロセスの決定を推進することを可能にする。
日本国内では、マインドウエア総研からViscoveryのデータマイニング・システムとそのノウハウを用いたコンサルティング・サービスを利用できる。

投稿者:

クラスタリングの使い方

何度も言いますが、「醜いアヒルの仔の定理」により客観的分類などというものは存在しません。
クラス分類(クラシフィケーション)は、既知の(有用な)分類法を正確に再現するための方法であり、クラスタ分析(クラスタリング)は、新しい(有用な)分類法を発見するための方法です。
これらを上手く使い分けるのが実践的応用の場面でとても重要なことですが、このことについてちゃんと説明している本がまったくと言ってよいほどありません。
なかには学術書として出版されているものでもトンデモな使い方をしている場合があります。たとえば、「フィッシャーのアヤメのデータをSOMのクラスタリングによって正しく分類できた」などという根本的に間違った論文が堂々と出版されています。クラスタリングは、そのように使うものではありません。
たとえば、以下のような問題は、クラス分類の問題です。
– 個々の顧客をあらかじめ定義されたセグメントに振り分けて、顧客ごとに適切なキャンペーンを行う。
– システム(プラントや通信ネットワークなど)を監視して、複数の測定値から現在のシステムの状態を判断し、適切な処置をする。
– 工場での製造物の良品(合格)と不良品(不合格)を判断する。
– 農産物などを等級分けする。
– 手書き文字の認識
– メールの自動分類
– 健康診断や病気の診断
これらの問題で明確な基準によって分類を再現することが可能であれば、その方法を採用すればいいです。ところが、どっこい、実際にやってみると、どの問題もなかなか難しいものです。
これらの分類が難しくなる原因として、
– 観測変数の種類(数)が十分でない
– データの正確さが十分でない
ということが学術研究なんかでよく見られます。より少ない情報量でより効率的に分類モデルを作成する、ということもないわけではありませんが、基本的にこのような場合は、どのような手法を用いても信頼性の高いモデルを作成することは難しいです。
それを了解した上で、
– 観測変数と結果(目的変数)の間の関係性に矛盾がある
 (まったく同じ条件なのに陽性と陰性の両方があるなど)
– データに欠損が多い(不完全データ)
という場合は、確率的に分類を表現するのが適当です。(ナイーブベイズ、ベイジアンネットワークなど)
そして、さらに
– 観測変数と分類結果の間に複雑な(非線形)な関係性がある
という場合に、自己組織化マップ(SOM)などの新技術が必要になります。SOM以外にもニューラルネットワークやサポートベクターマシン(SVM)などの非線形モデルの技術がありますが、SOMの利点は可視化によるモデル解釈が可能な点です。
SOMは一般的にクラスタリング手法として理解されていますが、クラス分類や予測(回帰)にも利用できます。一言で言えば、「SOMはデータ空間の要約であり、それ以上でも以下でもない」ということです。だからこそ、それを基盤としてあらゆることができる、ただそれだけのことです。
ただし、使い方を間違わないように注意が必要です。
とくに混同されやすいクラスタリングとクラス分類について言えば、特定の状況では、両者が一致する可能性がないわけではありませんが、実際的には一致しないのが普通です。逆にいうと一致しないからこそ、クラスタリングを利用する価値があるのです。
前述のフィッシャーのアヤメのデータを使ったクラスタリングの研究例のように、
クラスタリングを特定のクラス分類に一致させようとして使用するのは、まったくの邪道です。
つまり、どういうことかというと、特定のクラス分類で、同一のクラス(分類)は必ずしも同一のクラスタに属するとは限らず、異なるクラスタに属している可能性があります。たとえば、「不良品」というクラスがあったとして、それが不良品であるという理由(原因)は、必ずしも1つではなく複数のパターンがあるかもしれません。そういう場合には、同じ「不良品」というクラスでも、異なるクラスタに属しているほうが、より自然な状態です。
SOMを使用することのメリットは、このように同一のクラスであっても、潜在的に意味の異なるものが同一のクラスとして扱われている、ということを発見できるところにあります。
たとえば、マイクロン社では半導体の製造工程の最適化のためにViscoveryのSOMテクノロジーを活用した実績があります。
クラスタリングとクラス分類の関係については、下記のページもご参照ください。
http://www.mindware-jp.com/basic/group.html