カテゴリーアーカイブ Viscovery最新情報

投稿者:Kunihiro TADA

Viscovery SOMine 7.1のビッグデータ分析

Viscovery SOMine 7.1ではビッグデータ分析への新しい扉を開きました。ここでは、その概要をわかりやすく解説します。
従来よりViscovery SOMineはビッグデータに対応はしておりました。Enterprise Dataというモジュールを追加することにより、取り扱えるデータの上限が解除され、また主要なデータベース・システムの接続も可能でした。計算時間さえ気にしなければ、ビッグデータを丸ごと使ってSOMのマップをトレーニングすることもできていましたし、もちろんデータ・サンプリングも装備されていますので、より小さなサンプル・データでトレーニングしたSOMで、クラス分類モデルや予測モデルを作成して、それをビッグデータに適用することも普通にできておりました。
従来のViscovery SOMineでは、クラスタワークフローのマップの探索ステップで、トレーニング・データの探索的分析を行うことが奨励されました。従来のバージョンでも、分類ワークフローで既存のモデルに新しいアプリケーション・データを適用することができていたのですが、そこでは、モデル・データの統計に加えてアプリケーション・データの統計が表示される仕組みになっていました。バージョン7.1からは、ここでモデル・データの表示は削除されて、アプリケーション・データのみが表示されるようになりました。人間は一度にあまりに多くの情報を与えられても処理しきれないので、これは賢明な改良です。これにより、このステップでどのウィンドウを開いても、それはアプリケーション・データに関する表示であるという確信を持てるので、効率的な分析ができるようになりました。
さらに統計解析の処理も高速化されて、ビッグデータのクラスタリング、クラスタや任意のマップ領域に対応するデータの部分集合に関するプロファイル分析、さらに統計解析(記述統計、相関係数、主成分分析、ヒストグラム、箱ひげ図、散布図)をインタラクティブに行えるようになりました。見た目にはわからない地味な改良なのですが、実際にはこれが大きく効いています。

ちなみに近年のビッグデータ・ブームでは、処理能力のより大きなシステムを販売したいベンダーの思惑があってか、一般のユーザーに対してデータ・サンプリングの有効性をひた隠すような傾向があったように感じます。十分に大規模なデータでは、サンプリングしたデータで作成する統計モデルが、全データから作成した統計モデルと比較して、その品質の劣化がほとんど見られないことは、統計学ではかなり昔から常識のことでした。
しかし、もちろん、個々の実際の顧客をプロフィアリングしたい場合など、サンプル・データではなく、実際の全データを処理したい場合も多々あります。Viscoveryのアプローチは、SOMを人間とビッグデータの間のインタフェースとして位置付けて、ビッグデータ内の類似した部分集合に素早くアクセスできる方法を提供するものです。
Viscoveryでは、米国のNational Bureau of Economic Research のデータでSOMについての実験を行いました。1959年からの米国での死亡証明に関する情報を含むデータで、実験では 2006年から 2014年までのデータ(合計 22,549,978レコード)を使用しました。ここから5%のサンプル・データ(1,135,798 レコード)を抽出して比較実験を行いました。全データでマップをトレーニングした場合は、24.5時間の計算時間で、5%のサンプルでは1.2時間でした。得られたマップは寸分違わないものでした。(このマップは追って、ホームぺージに掲載します。)
既存のマップに新しいデータをマッチングさせて分析を行うという方法は、ビッグデータの場合以外にも、役に立つ場面がよくあります。たとえば、自動車メーカーなどで、消費者に対して定期的に同じアンケート調査を実施しているような場合に、過去のデータで作成したマップに、新しい年のデータをマッチングさせて(または、その逆)、消費者の消費行動や嗜好、ニーズの変化をキャッチするということがあります。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 リリース

本日からViscovery SOMine 7.1 日本語版は利用可能になりました。
トライアル・バージョン(機能制限あり)も今日から7.1です。
リリースノート(英語)はこちらです。
かなり多数の改良があります。リリースノートも近日中に(ゆっくりと)翻訳する予定です。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 近日リリース予定

Viscovery SOMine 日本語版のバージョン7.1が近日中にリリースできる運びです。
このリリースのおもな改良点は下記のとおりです。
– Viscoveryマップでビッグデータのインタラクティブな探索が可能になります。マップの任意の領域に対応する元データの(類似した)部分集合にアクセスしたり、その記述統計などを計算できるのは従来と同じですが、それが超大規模データ(たとえば数1000万件)でもリアルタイムに反応することができます。もちろん、クラスタや統計的プロファイルも秒単位で作成、修正、判断することが、超大規模データでも可能になりました。
– 超多次元データの場合の相関行列を素早く分析できるように、注目したい属性をインタラクティブに選択して、よりコンパクトな相関行列が得られるように改良されました。
– データ・レコードに関連づけられた複数のサムネイル画像をマップ・ピクチャ上に表示できるようになりました。
– スコアリング・モデルで、最大のレスポンスを持つスコア・グループを選択するために、新しく最適利得チャートが導入されました。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 準備中

Viscovery SOMine 7のアップデート・バージョンの準備をしているところです。今回は、主に操作性を向上させるための非常に細かな修正がざっと60項目以上加えられる予定です。配布できるのは春頃になると思われますが、メンテナンス契約をされているユーザー様には追ってお知らせします。

投稿者:Kunihiro TADA

Viscoveryオリジナル切手


年の暮れも押し迫って来ました。Viscovery社から届いたクリスマスカードに貼られていた切手はオリジナル切手でした。Viscoveryユーザーには一目でわかるViscoveryマップのデザインです。
オリジナル切手作成サービスは、日本郵便でもやっていますね。切手の額面よりも3割増しぐらいの料金でできるようです。宣伝用グッズとしては結構お手軽です。機会があれば利用してみようと思いました。
年内は12月28日までは出社する予定です。1月10日から通常営業を開始します。

投稿者:

Viscovery 7.0.2 リリース

Viscovery(R) 7.0.2がリリースされました。通常ライセンスを購入されて1年以内のユーザー様、および年間メンテナンス契約をされているユーザー様にはご利用頂けます。
Viscovery SOMine 7.0.2 での改良点
Viscovery SOMine 7.0.2では、バージョン7.0.1で発見された以下のエラーを修正しています。
プロジェクト
– プロジェクト・ファイルが異なる場所にコピーされた後、auxiliaryディレクトリにもそれがコピーされていないと、多くの場合、プロジェクトのコピーが利用できなったのが、現在、より多くの場合でプロジェクトが利用できるように制限が解除されました。
– 選択されたワークフロー・ステップの上でマウスを右クリックしても、ワークフロー・ステップの選択が変化しないように修正しました。
前処理ワークフロー
データ・インポート ステップの属性タイプの定義ダイアログで、隣接しない属性列の集合が選択された場合、属性タイプの変更は選択された最初の属性と最後の属性の間のすべての属性にではなく、選択された属性のみに反映されようになりました。
データ・インポート ステップでのテキスト属性に指定できる長さが確認されるようになりました;長さゼロと100万を超える長さは認められません。とくに、長さゼロはプログラムのクラッシュまたはメモリ不足の状態を引き起こす可能性がありました。
属性の定義ステップで数値を文字列に変換するために式が使用されたとき、欠損値が正しくカウントされませんでした。現在、それらは正しくカウントされます。
属性の定義ステップで複数の数式が定義され、それらの位置が交換されて、複合選択を使用してそれらの複数を一気に削除た場合に起きるエラー・メッセージが避けられるようになりました。
– ユーザーがヒストグラムの調整ダイアログのサブ・ページの間をナビゲートされているとき、ときどきデフォルトの勾配とオフセットが表示されない問題が解決されました。
ヒストグラムの調整ステップで定義された置換が、そのステップから呼び出せる統計ウィンドウでは無視されていた問題(データがモデルの計算に使用されるときには、その置換は正しく適用されていましたが)を解決しました。
– データ・ソース内で属性が異なる順序に並べ替えられた場合、ヒストグラムの調整ステップで定義された変換が、統計ウィンドウでは間違った属性に適用されていた問題(データがモデルの計算に使用されるときには、その変換は正しく適用されていましたが)を解決しました。
チャート
– X軸上のラベルが読みやすくなるように少し離して並べられるようになりました。
– 散布図のX軸の名義属性のラベルがプロット内のポイントと位置合わせされました。
チャートのプロパティ ダイアログの範囲タブ内の境界の編集ボックスが、たくさんの0や9を引きずる数字を避けるために、より少ない小数位に丸められるようになりました。
SOMモデルの取り扱い
編集 | ラベル | フォント で最近選べれたラベル・フォントが、そのメニュー・オプションを再び開いたときに、第1選択として使用されるようになりました。フォントがセッションやSOMをまたいで記憶されます。
– マップ・ピクチャ上で示されるラベルが、左端や右端で切り捨てられることがありましたが、それが起きなくなりました。
– プロセス・モニタ(表示 | モニタ メニューから使用可能)が最後のレコードに到達したとき、モニタリングがクリアされていたのを、現在は、モニタリングは停止するものの軌跡は表示されたままになるように修正されました。

Explore and Classify モジュール

プロファイル チャート内の中間生成物の描画が消去されました。
– 分類ワークフローのアプリケーションの確認ステップで最初に選択された属性が、モデル内でマークして表示されるだけでなく、そのワークフローで使用されたモデル内のすべての属性から選択されるようになりました。
分類ワークフローでとても長い名前を持つモデルが選択されると、分類のエクスポート・ステップのダイアログの最初のページを抜けられなくなる問題が修正されました。
分類ワークフローのモデルの選択ステップでローカル回帰モデルが選択されたとき、アプリケーションがクラッシュするのを避けられるようになりました。
分類ワークフローのモデルの選択ステップで、整列つきのモデルが選択されたとき、ユーザーが異なる整列に切り替えると(このステップで生成された)最初の2つの新しい属性のカラースケール範囲が度数と量子化誤差ピクチャーから取られ、(そして、度数量子化誤差ピクチャーのカラースケール範囲がデフォルトにリセットされる)という問題がありました。現在は、度数量子化誤差ピクチャーの範囲は保持され、新しい属性はデフォルトの範囲を受け取ります。
Predict and Score モジュール
グローバル・モデルの計算ステップのダイアログで指定された信頼水準が、保持されるようになりました。
Viscovery One(2)One Engine 7.0.2 での改良点
Viscovery One(2)One Engine 7.0.2 では、バージョン7.0.1で発見された以下のエラーが修正されました。
– モデル・ファイルのファイル形式が、より徹底的にチェックされるようになりました。
– Linuxバージョンが、属性名、名義値、クラスタ名、クラスタ説明、セグメンテーション名で非ASCIIデータを含むモデル・ファイルをより良く処理できるようになりました。
– 後処理の数式が、他の後処理の数式の結果に依存(すなわち、“call”)できるようになりました。 呼び出された数式がエラーを返すとき(たとえば、ゼロ除算)、この結果は呼び出している数式で欠損値として取り扱われるべきです。そのようなケースが正しく取り扱われませんでした:全体の計算が直ちに終了し、欠損値が返されていました。現在は正しい動作が可能です。呼び出している数式が欠損値について結果をチェックして、それに従って動作するレア・ケースでは違いが生じます。クラスタの数式がAPI関数 O2O_GetNodeFormulaNumber, O2O_GetNodeFormulaString, O2O_RecallFormulaNumber, O2O_RecallFormulaStringを用いて計算されます。
– Linuxバージョンでは、ライセンス・ファイルのロケーションを環境変数ONE2ONE_REGISTRYで選択できるオプションが追加されました。

投稿者:

ビッグデータ・プロジェクトはなぜトラブルのか?

それは、応用統計学を忘れているから。
Johns Hopkins大学のJeff Leekという人が警鐘を鳴らしています。
ビッグデータに関する主要なワークショップのいずれでも、統計の専門家がほとんど参加していないということが指摘されております。ビッグデータ・プロジェクトで統計学が軽んじられているのには、2つの側面があると私は考えます。
– 1つは、とにかく大規模なデータの取り回しや計算の高速化(並列化)などに技術的関心が置かれた情報が拡散されていて、ユーザーは分析技術にはあまり重大な関心を置いていない傾向があること。
– もう1つは、ビッグデータ・プロジェクトで使用される機械学習でも、もともと統計学から距離を置いたところで研究されてきた経緯があって、両者の間での理解が進んでいないこと。
私は1999年から2005年ぐらいまでの間、自己組織化マップ(SOM)の学術コミュニティとも親交を持っていたのですが、まさにそこで見たのは2番目の状況でした。実際のところ、学生でも知っているべき統計の基礎を無視したような研究をやって、高い学位が授与されている現実を見て呆れたものでした。
あるとき海外から著名な著者を招いて、大学で講演会を開いたことがありました。英語での講演なので、教授が講演内容を逐次通訳していました。しかし、教授がその通訳の中でcentral limit theorem(中心極限定理)を何かわけのわからない日本語(中心制限理論とか何とか)で言った瞬間、聴衆の中の何人かは首を傾げたり、ずっこけたりしていました。
自己組織化マップに関しては、Viscovery SOMineが自己組織化マップの理論と従来の統計学の双方を深く理解したうえで、矛盾のない統合的な実装を実現している市場で唯一の製品です。

投稿者:

”Viscovery SOMine”の読み方

”Viscovery SOMine”の読み方をWebで検索されている方がいらっしゃるようです。検索しても出てこないと思いますので、ここに書きます。
もしカタカナで書くとしたら「ヴィスカバリー・ソマイン」となります。
ただし、SOMを「ソム」と読んでいるのは日本人ぐらいで、国際学会などではみんな「エス・オー・エム」と言っています。それを知っている人は、「ヴィスカバリー・エスオーマイン」と言う人もいます。
もともとが、合成による造語なので、何が正解というのはありません。
ちなみにViscoveryは、Visual+Dicoveryの合成であり、SOMineはSOM+Mineの合成です。
つまり、「SOMを組み込んだデータマイニングによる視覚的な発見」ということです。データマイニングが90年代に研究されていたときには、科学哲学と密接な関係がありました。すなわち、「科学における発見の方法」についての議論がありました。Viscoveryという社名(製品ファミリー名)に「発見」が合成されているのには、じつは哲学的な次元からのメッセージが含まれています。
ただし、Viscoveryはもともと製品ファミリー名として使い始められ、もとの社名はEudapticsでした。英語読みでは「ユーダプティクス」ですが、ドイツ語読みでは「オイダプティクス」となります。これは、Euro+Adapt(ics)と思われます。まあ、ネーミングの方法が全部ワンパターンであります。
率直に言って、あまりネーミングが上手な会社ではないのですが、SOMineだけは奇跡的に良いネーミングで、認知度もとても高いです。Viscovery社が今日まで存続できたのは、ひとえにSOMineのネーミングのおかげだったとさえ思えます。
SOMineは、90年代に開発した同社の最初の製品で、その後、より改良された技術を企業向けデータマイニングとして、より高額な価格で発売するときに、Viscovery ProfilerとかViscovery Predictorの製品名で発売した経緯があります。技術の会社なので、中身の技術の開発には全精力を傾けるのですが、そうして開発された製品のネーミングは、まっるきりベタで、そういうところには全くお金をかけてきませんでした。
時代が流れてデータマイニング市場も一巡したところで、企業向けの高額製品と主に学術用の廉価版として販売してきたSOMineを再統合して、現行バージョンのSOMine 7となりました。アカデミック価格は完全に廃止されましたが、過去の企業向け製品の価格帯からすると、もはやすべてのユーザー様に廉価版の価格帯でご利用頂けるようになったというわけです。

投稿者:

SOM研究とViscovery

弊社は何度も指摘してきたことなんですが、昨日、お客様の電話で、国内のSOM研究の論文・書籍に惑わされているご様子だったので、そのような方々のために、再度、同じような論点をまとめます。
———–
SOMは、1982年にKohonenがSelf-Organizing Mapsとして発表したのが始まりですが、今日のDeep Learning のレベルから見てもSOMで行われていることを「自己組織化」と呼ぶには少々大げさなネーミングだったと言わざる得ません。もともとSOMは機械学習によって生物が「概念」を獲得するプロセスを模倣しようとしたわけですが、それはごく初歩的な研究にとどまるもので、実用的にはまったく成功しておりません。
当初のSOMアルゴリズムは、データレコードを1個ずつ読み込んで、マップを構成しているノードの値(データ空間での座標値)を少しずつ修正していくもので、後に「逐次型SOM」とも呼ばれるものでした。ただし、これはまったく統計的モデルを意図しておりませんので、データ分析やデータマイニングに使用するには不適切です。
それに対して1992年に発表された改良アルゴリズムは、バッチ学習アルゴリズムで、結局、それは、K-meansの参照ベクトルを格子でつなぎあわせてスムージングしたものと見なせます。同時にノードの初期値も、それまで乱数で与えていたのに対して、主成分分析によっておおよそデータの分布に沿った状態から学習を始める手法が理解されていて、当時すでに、SOMを「主成分分析+K-means+データ分布のトポロジー保持」として捉えなおすことができるようになっておりました。
Viscovery社は、このような状況の変化を受けて1994年に設立され、1997年には、バッチSOMと統計解析を融合させたデータマイニング製品Viscovery SOMineを完成させました。マインドウエア総研は2000年からViscoveryの代理店で、2000年にリリースされたversion 3からSOM-wardクラスタリングが搭載されて、優れたクラスタリング能力を実現しております。2003年には、CRM市場向けの上位製品を展開して、ビジネス用データマイニング製品として、より完成度の高い実装を実現しました。同時にPredictorという製品でSOMローカル回帰手法を提供して、セグメンテーション・モデルと予測モデルの統一的アプローチを完成させております。
このようにViscoveryの技術は、1990年代から2000年代初頭に完成された技術で、バッチSOMを統計解析の観点から再構築したものです。従来の統計解析と比べた大きな違い・利点は、「データ分布のトポロジー保持」という点です。いうまでもなく、SOMによって実現されている部分です。これによって、大規模データの処理や線形手法の非線形への拡張を可能にした、というのがViscoveryの本質であります。
これに対して、Viscovery以外で行われてきたSOM研究のほとんどは、筋の悪い似非科学だと断罪せざる得ない経過を辿っております。Viscoveryや基本のSOMでは、通常、2次元の開曲面でデータ分布をモデルしているのに対して、理論的にはこれを3次元にしたり、閉曲面にすることは可能です。しかしながら、その効用を大げさに報告する論文・書籍はあまり信用に値しません。
たとえば、6角形の格子構造を持つSOMでは、任意のノードの隣接するノードの数が6個になりますが、開曲面の(通常の)SOMの場合、マップの縁(へり)のノードでは、その数が少なくなります。これを境界効果(Boundary effect)と呼びます。すべてのノードが同じ条件で競合するべきだとする理論的観点からすると、これは確かに問題がありそうに見えます。閉曲面のSOM(球面SOM)が考え出されたのは、その理由からです。縁をなくしてしまえば、すべてのノードが同じ条件になるという理屈です。SOMの「自己組織化」を信じている信者には、それは十分に意義のあることに見えるようですが、従来の主成分分析の拡張として捉える(線形の初期化の)立場からすると、まったくナンセンスでしかありません。主成分分析による初期化を使う時点で、完全な「自己組織化」なんてもとから目指しておりません。開曲面のSOMの縁のノードが境界効果によって、データ空間中の不適切な場所に捕まってしまうような問題はまったく生じません。
「自己組織化」にこだわればこだわるほど、SOMの研究は似非科学になってしまいます。他の機械学習アルゴリズムを研究していた研究者からは、この点を批判され続けてきました。実際、SOMは自己組織化でもなんでもないのです。歴史的な経過を辿ってネーミングだけが残されていると考えてください。
データ分析、データマイニングにおけるSOMの最も重要な部分は、自己組織化ではなくトポロジー保持にあります。この点に関して、SOMはトポロジーが固定されているということの方が重大な問題です。どのようなトポロジーのSOMを採用するにしても、SOMは学習の最初から最後までトポロジーが固定されています。つまり、データ分布のトポロジーを仮定しています。データがいつでも球面のトポロジーを持つと仮定するなんていうことは、まったく正気の沙汰ではありません。
たとえば、色というは人間は赤、青、緑というカテゴリで認識しますが、光の波長に還元すると、それは1個の連続値変数でしかありません。ところが、人間の目の3種類または4種類の錐体を通すと、それは色相環で表現されるような円環的なトポロジーが生じます。残念ながら、それはまったく客観的事実ではありません。球面SOMは、この種のイリュージョンを見ているに過ぎないのです。
Viscoveryが採用している通常のSOMのトポロジー(開曲面)の方が、特殊なトポロジーを仮定することの弊害よりも安全です。少なくとも従来の主成分分析や線形回帰の非線形拡張として位置付けるViscoveryのアプローチは、飛躍のない堅実なアプローチです。
データ分布のトポロジーを仮定しないで、まったくゼロからトポロジーを探索するアプローチがTopological Data Analysisという分野です。すでにベンチャー企業(AYASDI)も誕生しております。ただし、こちらはまだ開発途上です。今のところ、2次元のSOMのマップの方が、人間とデータを結ぶインタフェースとしてはよく役立ちます。