投稿者アーカイブ Kunihiro TADA

投稿者:Kunihiro TADA

Viscovery SOMine 7.1のビッグデータ分析

Viscovery SOMine 7.1ではビッグデータ分析への新しい扉を開きました。ここでは、その概要をわかりやすく解説します。
従来よりViscovery SOMineはビッグデータに対応はしておりました。Enterprise Dataというモジュールを追加することにより、取り扱えるデータの上限が解除され、また主要なデータベース・システムの接続も可能でした。計算時間さえ気にしなければ、ビッグデータを丸ごと使ってSOMのマップをトレーニングすることもできていましたし、もちろんデータ・サンプリングも装備されていますので、より小さなサンプル・データでトレーニングしたSOMで、クラス分類モデルや予測モデルを作成して、それをビッグデータに適用することも普通にできておりました。
従来のViscovery SOMineでは、クラスタワークフローのマップの探索ステップで、トレーニング・データの探索的分析を行うことが奨励されました。従来のバージョンでも、分類ワークフローで既存のモデルに新しいアプリケーション・データを適用することができていたのですが、そこでは、モデル・データの統計に加えてアプリケーション・データの統計が表示される仕組みになっていました。バージョン7.1からは、ここでモデル・データの表示は削除されて、アプリケーション・データのみが表示されるようになりました。人間は一度にあまりに多くの情報を与えられても処理しきれないので、これは賢明な改良です。これにより、このステップでどのウィンドウを開いても、それはアプリケーション・データに関する表示であるという確信を持てるので、効率的な分析ができるようになりました。
さらに統計解析の処理も高速化されて、ビッグデータのクラスタリング、クラスタや任意のマップ領域に対応するデータの部分集合に関するプロファイル分析、さらに統計解析(記述統計、相関係数、主成分分析、ヒストグラム、箱ひげ図、散布図)をインタラクティブに行えるようになりました。見た目にはわからない地味な改良なのですが、実際にはこれが大きく効いています。

ちなみに近年のビッグデータ・ブームでは、処理能力のより大きなシステムを販売したいベンダーの思惑があってか、一般のユーザーに対してデータ・サンプリングの有効性をひた隠すような傾向があったように感じます。十分に大規模なデータでは、サンプリングしたデータで作成する統計モデルが、全データから作成した統計モデルと比較して、その品質の劣化がほとんど見られないことは、統計学ではかなり昔から常識のことでした。
しかし、もちろん、個々の実際の顧客をプロフィアリングしたい場合など、サンプル・データではなく、実際の全データを処理したい場合も多々あります。Viscoveryのアプローチは、SOMを人間とビッグデータの間のインタフェースとして位置付けて、ビッグデータ内の類似した部分集合に素早くアクセスできる方法を提供するものです。
Viscoveryでは、米国のNational Bureau of Economic Research のデータでSOMについての実験を行いました。1959年からの米国での死亡証明に関する情報を含むデータで、実験では 2006年から 2014年までのデータ(合計 22,549,978レコード)を使用しました。ここから5%のサンプル・データ(1,135,798 レコード)を抽出して比較実験を行いました。全データでマップをトレーニングした場合は、24.5時間の計算時間で、5%のサンプルでは1.2時間でした。得られたマップは寸分違わないものでした。(このマップは追って、ホームぺージに掲載します。)
既存のマップに新しいデータをマッチングさせて分析を行うという方法は、ビッグデータの場合以外にも、役に立つ場面がよくあります。たとえば、自動車メーカーなどで、消費者に対して定期的に同じアンケート調査を実施しているような場合に、過去のデータで作成したマップに、新しい年のデータをマッチングさせて(または、その逆)、消費者の消費行動や嗜好、ニーズの変化をキャッチするということがあります。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 リリース

本日からViscovery SOMine 7.1 日本語版は利用可能になりました。
トライアル・バージョン(機能制限あり)も今日から7.1です。
リリースノート(英語)はこちらです。
かなり多数の改良があります。リリースノートも近日中に(ゆっくりと)翻訳する予定です。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 近日リリース予定

Viscovery SOMine 日本語版のバージョン7.1が近日中にリリースできる運びです。
このリリースのおもな改良点は下記のとおりです。
– Viscoveryマップでビッグデータのインタラクティブな探索が可能になります。マップの任意の領域に対応する元データの(類似した)部分集合にアクセスしたり、その記述統計などを計算できるのは従来と同じですが、それが超大規模データ(たとえば数1000万件)でもリアルタイムに反応することができます。もちろん、クラスタや統計的プロファイルも秒単位で作成、修正、判断することが、超大規模データでも可能になりました。
– 超多次元データの場合の相関行列を素早く分析できるように、注目したい属性をインタラクティブに選択して、よりコンパクトな相関行列が得られるように改良されました。
– データ・レコードに関連づけられた複数のサムネイル画像をマップ・ピクチャ上に表示できるようになりました。
– スコアリング・モデルで、最大のレスポンスを持つスコア・グループを選択するために、新しく最適利得チャートが導入されました。

投稿者:Kunihiro TADA

Hugin 8.5 リリース

本日、HUGINソフトウェアの新バージョン (v. 8.5)がリリースされました。
このリリースの主要な新機能は、特殊例としてのダイナミック・ベイジアンネットワークを含むオブジェクト指向ベイジアンネットワークでのクラス・パラメータの適応のサポートです。HUGINは、分割(フラクショナル)更新またはオンライン期待値最大化(EM)のいずれかを用いたネットワーク・クラスでのパラメータ適応をサポートしました。以前は、オブジェクト指向ベイジアンネットワークの場合のパラメータ適応は、ランタイム・インスタンスの表内で実行されていました。現在は、適応がネットワーク・クラス・テーブルで実行されます。さらに、Pythonプログラミング言語用の新しい HUGIN Decision Engine アプリケーション・プログラミング・インタフェースがこのリリースで導入されました。
HUGIN Graphical User Interface v. 8.5
HUGIN Graphical User Interface が、下記のさまざまな機能で改良されました:
– データ・フレーム・ウィンドウ内での機能サポートを含む、分割更新またはオンランEMのいずれかを用いたネットワーク・クラス内でのパラメータ適応。
– 学習ウィザードおよび構造学習ウィザードで、greedy search-and-score 構造学習アルゴリズムを事項するに先立って、グラフの初期構造を指定することができるようになりました。
– 新しい距離分析ダイアログが導入されました。これは、同じノードの集合での2種類のモデルで定義された(条件付き)確率表の間の距離を計算するためのツールです。このツールは、2つのモデルの確率分布の間の距離の測度として、Hellinger距離と重み付きHellinger距離をサポートします。
– 学習ウィザードと構造学習ウィザードTの特徴選択機能が導入されました。
– 数値ノードからステート・ラベルのないすべての数値ノードに、ステート・ラベルをコピーできるようになりましまた。
– その他のマイナーな改良。
その他、HUGIN Graphical User Interfaceの性能を向上するための作業が行われました。
HUGIN Decision Engine v. 8.5
HUGIN Decision Engineが以下の機能で拡張されました:
– HUGIN Decision Engineが特殊例としてのダイナミック・ベイジアンネットワークを含むオブジェクト指向ベイジアンネットワークのパラメータ適応で2つの新しい手法をサポートしました。
– Pythonプログラミング言語用の新しいHUGIN Decision Engine アプリケーション・プログラミング・インタフェース。
– Visual Studio 2017のサポート

投稿者:Kunihiro TADA

公的研究機関および国公立大学のお客様へのお願い

研究者の皆様がソフトウェアを調達する場合、ご自身の研究におけるデータ分析の内容に応じて、どのような分析手法が必要であるか判断され、またご自身のデータ分析やコンピュータに関する知識やスキルに照らし合わせて、最適なソフトウェア製品を探して選択されているかと存じます。
研究者の皆様が時間と手間をかけてソフトウェア製品を選択されて、いざ調達部門に調達の請求を行ったところ、「その製品は調達できないから他の製品を検討するように」との回答を受け取られることはないでしょうか?
もし、そのようなことがあった場合は、そこで諦めてしまわずに、ぜひ発売元の会社にご相談ください。(XLSTAT, Viscovery, Huginについてはマインドウェア総研へ)発売元から調達担当者様に連絡を取ります。
なぜわざわざこのようなお願いをするかと言いますと、公的機関の調達が現在とても混乱した状態にあるように見受けられるからです。
ご承知のように2012年(民主党政権下)に、防衛省と三菱電機の不正が発覚し、一旦、「公共調達の適正化」への機運が高まりました。しかしながら、そこで1つ対応に誤りがありました。つまり、「随意契約が不正の原因」という間違った判断のもとに、狂気のごとく入札や相見積の義務化が強化されました。本当は、その前に「特定の仲介業者とばかりの」がつけられるべきだったのです。
当時、弊社も官庁や国公立大学向けの販売で、商品を1つ販売するごとに複数の出入り業さんに見積書を書かされて大変な思いをしました。もちろん、出入り業者さんもご苦労されたと思います。わずかの金額の調達にも、何社もの会社の、何人もの人々が右往左往しなければならないという異常な事態でした。
実際そんなことは続けられないので、しばらくして随意契約が再び緩和される方向になってきました。政権が民主党から再び自民党に変わったことも、これと無関係ではないかもしれません。
弊社では総務省に相談をして、総務省が出したガイドラインでは、国内に販売者が1社のみで、またその技術サービス等をその会社が提供している場合は、その会社から直接購入することができる、という特記事項があることを知りました。それ以来、弊社はすべての公的機関に対して、弊社の製品を直接販売のみで提供しております。
これでしばらくは上手く行っていたのですが、ここ数年(安倍政権になってから)、また流れが変わってきたように感じています。有り体に言えば、その昔に完全に戻ってしまったような状況です。つまり、公的機関の調達担当者と特定の出入り業者だけで随意契約をし放題というモラル崩壊の状態です。もちろん、それは一部の機関、一部の調達担当者だけのことではあります。
本来であれば直接販売の商品に関しては、その発売元に直接問い合わせをするべきなのですが、一部の調達担当者様は馴染みの出入り業者に一括して調達を依頼する傾向が強まっています。
発売元にとってみれば、これまでどの機関とも直接の取引ができてきたのに、ここにきて出入り業者を間に挟まないと、公的機関に製品を提供できないというのは、どうもあまりにも理不尽なことです。
ソフトウエア製品をエンドユーザー様に選んでいただくに至るまでに、我々発売元はそれなりの経費と時間をかけております。製品自体を開発したり、あるいは開発元が海外の場合は、日本語のユーザー・インタフェースやマニュアルを制作したりするのはもちろんのことで、さらに、
– ウェブサイトで統計解析に関する情報、ソフトウェア製品に関する情報を提供
– Google AdWords等に広告費を支払ってウェブサイトに見込み客を誘導
– ソフトウェア製品のトライアル期間を設けて無償で提供
– トライアル・ユーザーの質問への回答、ユーザー・サポートの提供
などを行っています。それなのに、公的機関の調達担当者に呼び出されて調達を依頼されてきただけの出入り業者さんに、我々が投資したり働いたりした分の利益を横取りされるのではたまったものではありません。以前は出入り業者同士の相見積で競合していたので、出入り業者さんもそれほど強気ではなかったのですが、現在は堂々と随意契約しているので、自分たちが特権階級であるかのような横暴ぶりです。
そのような出入り業者さんからのお問合せに、「直接販売ですので直接お問合せくださるように」と回答すると「それなら(うちが販売可能な)他の製品を購入するようにお勧めするから」と言われてしまう始末です。
現在、公共調達がとてもいびつな状態に陥っています。調達担当者の一存で、特定の民間企業に不当な競争優位性を与えることは、明らかな職権濫用です。各政治団体、市民団体には、大規模な不正ばかりではなく、日常的に行われている公共調達での慣習の不透明性にもぜひメスを入れて頂きたく存じます。
そもそも「出入り業者」という言葉があって、特定の会社だけが官庁への出入りを許されて、日常的に優位な取引が行われること自体をなくさなければなりません。インターネットの時代にそんな商取引は必要ありません。
エンド・ユーザー様におかれましては、組織内部の慣習に流されることなく、研究に必要なソフトウェアであれば、ぜひ堂々とその調達をご請求頂けますようお願い致します.

投稿者:Kunihiro TADA

XLSTATのクラウド化

最近、「パソコンにOffice 2016がインストールされているはずなのにXLSTATがインストールできない」とのお問い合わせを多く受けるようになりました。
ひょっとして多くの人が勘違いしているかもしれませんので緊急連絡です。

現行のXLSTATはパソコン内にExcelがインストールされていないとインストールできません。
もしお使いのOfficeがクラウド・サービスですと、従来のOffice製品とまったく同じものがパソコンにインストールされるわけではありませんのでご注意ください。Office製品そのものはインターネットの向こう側のデータセンターにあって、それを使用しているわけです。
わかりにくくなっている原因は、クラウド・サービスであっても「最大○台までインストール可能」というように「インストール」という言葉を使用して宣伝しているので、ユーザーが勘違いしてしまうようです。クラウド・サービスでソフトウェアを利用している場合は、そのクラウド・サービスで提供している範囲でしかアドインの拡張はできませんのでご注意ください。
近年、企業様でもクラウド・サービスを利用されるケースが増加しております。XLSTATでも今後、クラウド・サービスに対応することになると思いますが、今しばらくお待ち頂かなければなりません。よろしくお願い致します。

投稿者:Kunihiro TADA

立春


Addinsoftの仲間たちから心温まるメッセージとチョコレートを頂きました。彼らとは、毎日インターネット越しに一緒に働いています。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 準備中

Viscovery SOMine 7のアップデート・バージョンの準備をしているところです。今回は、主に操作性を向上させるための非常に細かな修正がざっと60項目以上加えられる予定です。配布できるのは春頃になると思われますが、メンテナンス契約をされているユーザー様には追ってお知らせします。