日別アーカイブ 2017年6月12日

投稿者:Kunihiro TADA

Viscovery SOMine 7.1のビッグデータ分析

Viscovery SOMine 7.1ではビッグデータ分析への新しい扉を開きました。ここでは、その概要をわかりやすく解説します。
従来よりViscovery SOMineはビッグデータに対応はしておりました。Enterprise Dataというモジュールを追加することにより、取り扱えるデータの上限が解除され、また主要なデータベース・システムの接続も可能でした。計算時間さえ気にしなければ、ビッグデータを丸ごと使ってSOMのマップをトレーニングすることもできていましたし、もちろんデータ・サンプリングも装備されていますので、より小さなサンプル・データでトレーニングしたSOMで、クラス分類モデルや予測モデルを作成して、それをビッグデータに適用することも普通にできておりました。
従来のViscovery SOMineでは、クラスタワークフローのマップの探索ステップで、トレーニング・データの探索的分析を行うことが奨励されました。従来のバージョンでも、分類ワークフローで既存のモデルに新しいアプリケーション・データを適用することができていたのですが、そこでは、モデル・データの統計に加えてアプリケーション・データの統計が表示される仕組みになっていました。バージョン7.1からは、ここでモデル・データの表示は削除されて、アプリケーション・データのみが表示されるようになりました。人間は一度にあまりに多くの情報を与えられても処理しきれないので、これは賢明な改良です。これにより、このステップでどのウィンドウを開いても、それはアプリケーション・データに関する表示であるという確信を持てるので、効率的な分析ができるようになりました。
さらに統計解析の処理も高速化されて、ビッグデータのクラスタリング、クラスタや任意のマップ領域に対応するデータの部分集合に関するプロファイル分析、さらに統計解析(記述統計、相関係数、主成分分析、ヒストグラム、箱ひげ図、散布図)をインタラクティブに行えるようになりました。見た目にはわからない地味な改良なのですが、実際にはこれが大きく効いています。

ちなみに近年のビッグデータ・ブームでは、処理能力のより大きなシステムを販売したいベンダーの思惑があってか、一般のユーザーに対してデータ・サンプリングの有効性をひた隠すような傾向があったように感じます。十分に大規模なデータでは、サンプリングしたデータで作成する統計モデルが、全データから作成した統計モデルと比較して、その品質の劣化がほとんど見られないことは、統計学ではかなり昔から常識のことでした。
しかし、もちろん、個々の実際の顧客をプロフィアリングしたい場合など、サンプル・データではなく、実際の全データを処理したい場合も多々あります。Viscoveryのアプローチは、SOMを人間とビッグデータの間のインタフェースとして位置付けて、ビッグデータ内の類似した部分集合に素早くアクセスできる方法を提供するものです。
Viscoveryでは、米国のNational Bureau of Economic Research のデータでSOMについての実験を行いました。1959年からの米国での死亡証明に関する情報を含むデータで、実験では 2006年から 2014年までのデータ(合計 22,549,978レコード)を使用しました。ここから5%のサンプル・データ(1,135,798 レコード)を抽出して比較実験を行いました。全データでマップをトレーニングした場合は、24.5時間の計算時間で、5%のサンプルでは1.2時間でした。得られたマップは寸分違わないものでした。(このマップは追って、ホームぺージに掲載します。)
既存のマップに新しいデータをマッチングさせて分析を行うという方法は、ビッグデータの場合以外にも、役に立つ場面がよくあります。たとえば、自動車メーカーなどで、消費者に対して定期的に同じアンケート調査を実施しているような場合に、過去のデータで作成したマップに、新しい年のデータをマッチングさせて(または、その逆)、消費者の消費行動や嗜好、ニーズの変化をキャッチするということがあります。