White Paper: XpertRule® Minerによるデータマイニング


企業では、その活動によって生じる大量のデータがますます増大しています。このような履歴データには、さまざまなビジネス・プロセスの有効性に関係したパターンが潜んでいます。データマイニングは、データ中のこのようなパターンを発見することができ、いまやそれは、失敗パターンを避け成功パターンを採用することにより、ビジネス・プロセスを強化するための契機であると考えられています。

データ中に潜んでいるナレッジを発見する可能性は、企業の履歴データのよりよい管理に対するニーズを生みました。これは、ビジネス分析のためのオンライン・データをビジネス・ユーザーに提供するように、データベース内で実行データが保守されるデータウェアハウスのコンセプトにつながりました。データウェアハウスは、大規模な企業全体のデータベースか、もしくは部門別のデータベース(データマート)、あるいは単一のクライアントPC上のローカルなデータデースでもあり得ます。データから発見できるナレッジの品質は、データウェアハウスの規模やアーキテクチャに依存しません。その品質は、正しいデータと正しいマイニング・ツール、そして手法の開発力を持っているかどうかに依存します。

データマイニングのビジネス・ベネフィットは、ソフトウェア・サプライヤーたちの間で、データマイニング・ツールとしての彼らの製品のポジションの争奪戦をもたらしました。単純なクエリーやレポーティングの製品から、最も先端的なパターン発見の製品までが、”データマイニング”ツールとして混同される状況となりました。 これは、ビジネス・ユーザーの間で、データマイニングの本当の意味は何かについての混乱を招きました。データ中のパターンを発見するためのテクノロジーには3つの種類があります。

  • クエリー&レポーティング・ツール: これらは、すでに疑われているクエリー(パターン)に対する回答(確認)を見つけることを可能にします。このようなツールは、よく言っても仮説駆動型データ探索ツールであり、ユーザーはすべてのパターンを調査しなければなりません。
  • OLAP ツール: これらは、大規模な多次元データベースをスピーディかつグラフィカルに検索できる進化したクエリー&レポーティング・ツールです。これらのツールは、可視化駆動型のデータ探索ツールと言えます。その発見プロセスはまだユーザー駆動型です。しかしながら、ユーザーは、自由自在のドリルダウンできて探索/発見プロセスを支援するデータの多次元表示で武装しています。
  • データマイング・ツール: これらはデータ中のパターン/知識の発見プロセスを自動化します。それらはビジネス・ゴール主導型の発見を可能にします。たとえば、ユーザーは地域ごとや製品ごとの売上高のレポートまたはグラフを問い合わせるのではなく、-パターンの発見を目指して-ユーザーは、高い売上高(ビジネス・ゴール)に関係するパターンを問い合わせることができます。
データからパターンを発見するプロセス(KDD:Knowledge Discovery in Databasesとしても知られる)は、仮説、探索および自動発見を必要とするので、上記のすべてのテクノロジーを組み合わせたプロセスです。上記のテクノロジーは、相補的だということになります。さらに、自動パターン生成のサポートのために、XpertRule Minerは、クエリー/レポートおよび発見されたパターンと連結したデータの可視化/探索の機能もサポートします。

データマイニング導入時の重要な検討事項

データマイニングは、主要なビジネス・アプリケーションに組み込まれる成熟したテクノロジーとして注目されつつあります。データマイニングは、単にアルゴリズムがそのテクノロジーの高度さを決める主要な基準であるようなレベルからさらに進化しています。企業においてデータマイニングを導入するときの重要な検討事項は、以下のことです。

  • データマイニング環境によって効果的にサポートされたデータマイニング・プロセス(方法論)へのニーズ
  • データからビジネス・ナレッジ(パターン)を導くために、ユーザーのビジネス・ナレッジが発見アルゴリズムと組み合わせられるインタラクテティブなナレッジ発見環境へのニーズ
  • データマイニング・モデルとパターンの効果的で動的な配備T
  • さまざまなコンピューティング・アーキテクチャに対応する柔軟さ
  • 大規模なデータ量での拡張性と性能


データマイニング・プロセスへのグラフィカルな支援

ビジネス・インテリジェンス・ツールとしてのデータマイングの効果が、多くの成功したアプリケーションで実演されてきました。しかし、データマイニングをより広くアピールするために、データマイニングのスペシャリストではない人が、熟練者と同じレベルの成果に到達できるような方法論やプロセスが要求されていることが明らかになってきました。このようなシステマティックで再現性のあるプロセスは、企業内のたくさんの人々によってデータマイングが導入されることを可能にします。そのようなプロセスを開発するための構想やプロジェクトが数々あり、それらの2つが欧州委員会によって部分的に設立されました。 XpertRule Software社は、これらの1つ (CRITIKAL)に直接参加しており、もう1つの (CRISP DM)では、スペシャル・インタレスト・グループの結成メンバーの1社です。これは明らかになりつつある共通のデータマイニング・プロセス(方法論)を知るために頼りになります。データ準備、データ探索、パターン発見、パターン検証、およびパターン配備などのプロセス内の主要な作業においての幅広い同意があります。

XpertRule Minerは、データマイニング・プロセスのすべての段階をサポートするためのグラフィカルな環境を提供します。クリックやドラッグ&ドロップの環境は、プログラマーでない人にでも複雑なデータ準備、マイニングそして展開(配備)のプロセスを実行できるようにします。

Graphical Data Transformation


データ・ソース

XpertRule Miner は、データ・ソースの読み/書きのためにCAFサーバーとして知られるデータ・ドライバーを使用します。標準ODBC CAFサーバーは、すべてのODBC準拠のデータ・ソースをサポートするでしょう。CAFドライバーのオープン・アーキテクチャは、 非ODBCデータ・ソースのAPIを用いて、追加のCAFの開発を可能にします。クライアント・サーバー・アーキテクチャ向けのCAF、たとえば、TCP/IP STUB CAFも利用可能です。


データ準備と変換

データマイニング・プロジェクトの全ライフサイクルの50%から80%は、データ準備の段階で占められているということは、いまやほとんどデータマイニング熟練者の常識です。この段階の目的は、データをきれいにして、パターン発見手法の適用のために適したフォーマットにデータを変換することです。

XpertRule Minerは、プログラマーではない人にでも直感的なドラッグ&ドロップのグラフィカル・インターフェースを用いて複雑なデータ変換を実行できるようにします。それは数100万件のレコードを持つデータ表を処理できます。データ変換操作は、下記をサポートします。

  • データ集約: これは詳細データを要約化(すなわち1秒のデータを5分での平均に集約)して、また時系列データを決定木導出とクラスタ分析に適した属性/値(ケース)に変換します。
  • データ表操作: これは、レコード・フィルタリング、無作為抽出、融合、連結および並べ替えを含みます。
  • 列導出: これは、既存のデータ列から派生する新しいデータ列をユーザーが定義できるようにします。これは、データ・クレンジング(欠損値やはずれ値の処理)やフィールド値のグルーピングやバンディングにも使用されます。XpertRule Minerは、計算や文字列操作のためにVB風の包括的なスクリプトをサポートします。
  • データ可視化&レポーティング:XpertRule Minerは、フィールドの統計量、度数分布グラフ、2Dおよび3Dのマルチ・フィールド・グラフ、時系列グラフを生成できます。 これらのグラフやレポートは、ユーザーが生データをよりよく理解し、効果的なデータ・クレンジングや変換の戦略を設計し、変換されたデータを検証することを可能にします。準備されたデータは、パターン発見プロセスが開始される前に、検索し探索することができます。これは、データのよりよい理解を与え、ユーザーが発見されたパターンをよりよく解釈することを可能にします。

3D Graph

パターン発見

産業界の広範なデータマイニング・ニーズにお応えするために、XpertRule Miner は、ナレッジ発見手法のバスケット分析をサポートします。

A tree example


決定木導出:これは目的駆動型発見で、担保領域や顧客の消耗、エネルギー消費、保険犯罪などのビジネス・イベント(ゴール)に関連したパターン(決定木)の導出を含むj最も広く使用されるテクニックです。

Interactive Induction

対話的/漸進的データマイニング: これは自動のツリー導出と手動のツリー構築を組み合わせます。ビジネス・ユーザーが導出アルゴリズムを用いて共同作業でツリー・パターンを開発することができます。ツリー内のすべてのノード(枝)で、 XpertRule Minerは、その場所でのさまざまな属性の重要度を示します。 XpertRule Minerによる情報の証明を尊重しながら、ユーザーは、彼らの背景的なビジネス・ナレッジを授けて、属性分割の選択に影響させる機会を得ます。

Association Rules

アソシエーション・ルールの発見:
これは、ビジネス・イベント間のアソシエーション(属性相関)の発見です。たとえば、スーパーマーケットで一緒に購入されるアイテム(バスケット分析)、一緒に採用される製品オプション、同時に起きる失敗などです。XpertRule Minerは、アイテムやイベントの取引データからのアソシエーション・ルールと頻発するアイテム集合の発見をサポートします。

データ中のクラスタの発見: これは、データ中の自然なクラスタやセグメンテーションの発見です。たとえば、抵当ポートフォリオをセグメント分けのようなものです。XpertRule Minerは、お互いに頻繁に関連している属性値の集合の発見によって、’ケース’(属性ベース)データ中のクラスタを生成します。


パターン探索と検証

データ可視化と探索は、データマイニング・プロセスの中で重要な役割を演じます。ツリー導出プロセスの間、ユーザーは決定木のさまざまなノードやリーフ(プロファイル)を探索しているので、XpertRule Minerは、定義されたレポートとデータ・グラフが動的に更新されるようにします。 さらに、ツリー・パターンの精度や意味を検証する方法をユーザーに提供するために、パターン探索プロセスは、発見されているパターンのよりよい理解とそれらの含意をユーザーが獲得することを支援します。 XpertRule Minerは、複数のツリー探索レポートをサポートします:フィールドの統計量、度数分布、プロファイル中のフィールド傾向/値、および "gain または lift" グラフ。
ProfilerX Tree Miner


パターン配備

データマイニングを用いて発見されたパターンは、関連するビジネス要求にお応えするために複数の方法で配備(展開)することができます。XpertRule Minerは、複数の配備戦略をサポートします。

  • レポーティングおよび配布: グラフィカルなツリー・パターンが、Windowsのメタ・ファイル形式で生成されますので、それをWord、Excel、PowerPointなどに簡単に埋め込むことができます。.
  • データ・フィルタリング: XpertRule Minerは、発見されたパターンをCコード、SQLまたはSAS手順で生成できます。これは、発見されたパターンとマッチングして、さらなる処理にために、ユーザーがデータ・レコードを選択できるようにします。
  • 意思決定支援: XpertRule Minerで発見されたツリー・パターンは、オンラインの意思決定支援システムの一部として使用することができます。これは、Cコードでツリー・パターンを生成するか、またはツリー・マイニング・クライアントProfilerX(上記の説明を参照)をActiveXコンポーネントとして埋め込むことによって実現できます。
  • 動的配備:これは、少数のデータの場合で、組織内のビジネス・スペシャリストが、組織の内外の多数のデータマイニング・ユーザーに配備する特定のデータマイニング・ビジネス・シナリオ(垂直的アプリケーション)を作成することができます。これはActiveXコンポーネントとして埋め込まれたツリー・マイニング・クライアントProfilerXを使用することで実現できます。

接続性、拡張性および性能

今日、異なる2つのアーケテクチャのいずれかに属するデータマイニング・ツールがあります。

  • クライアント型マイニング: これらのデータマイニング・ツールはクライアント・マシン上で動作し、同じクライアント上に格納されたデータもしくはサーバーからマイニング用のクライアントにダウンロードされたデータをマイニングします。これらのツールは、マイニングできるデータのサイズが限定されており、通常、数万レコード(表の行)の規模です。これらの限界は、クライアントのメモリー/プロセッサのスピード限界やネットワーク帯域の限界によって決まります。
  • ワークステーション(サーバー)型マイニング: これらのツールは、とても簡素はディスプレィ・クライアントを持つワークステーション上で動作します。クライアント・ベースのマイニング・ツールの限界を克服する高性能なワークステーションと広帯域ですが、これらのツールには高コストとサーバー上のデータのコピーをつくる必要があるなどの欠点もあります。

XpertRule Minerは、マルチ・クライアント-サーバー・アーキテクチャのサポートによって、クライアント型とワークステーション型の両方の問題を解決しました。これは、データを要約するContingency And Frequency (CAF)サーバーとパターンをインタラクティブに生成し表示するProfilerXクライアントで構成して、Minerのデータマイニング・アルゴリズムを重層的にエンジニアリングすることにより可能になっています。このアーキテクチャーの利点は、次のことです。

  • スケーラビリティ: スタンドアロンのクライアント型データマイニング用では、データベース、CAFサーバーおよび ProfilerX クライアントは、すべてクライアントPCに属しています。小規模なクライアント-サーバー・データマイニングでは、データベースはサーバーに属しますが、CAFとProfilerX クライアントはクライアントPCに属することが可能です。中規模のクライアント-サーバー・データマイニングでは、データベースとCAFサーバーはサーバーに属することができ、ProfilerXクライアントはクライアントPCに属します。そして、大規模なクライアント-サーバー・データマイニングでは、データベースが高性能なデータウェアハウス・サ−バーに、CAFサーバーは中間階層のサーバーに、ProfilerXクライアントはクライアントPCに属します。
  • 性能: このアーキテクチャのスケーラビリティは、データマイニングの規模/アーキテクチャにかかわらず、性能を最適化できることを保証します。これは、いくつもの革新的な機能によって達成されています。
    • 重層的アーキテクチャは、データベース・サ−バーへの最大帯域を持つ場所に置かなければならないような広帯域の要求を持つCAFサーバーを可能にします。一方、低い帯域のようキュを持つProfilerXは、クライアント・マシンで動作できます。
    • )CAFサーバーは、データベースでSQLクエリー・ストリームを発して、その場(すなわち、データの移動なし)でデータをマイニングすることにより、データベース・サーバーの高性能(並列処理)を活用します。これたのインテリジェント・クエリーは、すべてのデータ・ソースを読む必要なしに、要求されたコンティンジェンシ(一致)ーと頻度数を生成します。
    • CAFサーバーは、トークン化され高度に最適マされたデータ構造を使用して、データベース・サーバーからデータを受け取ることができます。これは、標準的なスペックのWindows 95, 98 または NT マシン(たとえば、333 MHz Pentium と 64MB RAM)で、数分間で数100万件のデータ・レコードのデータマイニングを可能にします。.
このページに関するお問い合わせはマインドウエアへ。
Site Map | Home