投稿者アーカイブ Kunihiro TADA

投稿者:Kunihiro TADA

XLSTAT-Rの新機能

XLSTAT-Rに新しい関数が追加されました。

Partitioning Around Medoids (Medoidによる分割)
この教師なし機械学習アルゴリズムは、K-meansクラスタリングのロバストな代替法を提供します。各クラスタの中心が、medoindと呼ぶクラスタ内のオブジェクトの1つによって代表されます(clusterライブラリのpam 関数)。

Dissimilarity matrix for mixed data (混合データの非類似度行列)
量的変数と質的変数で説明されるオブジェクト間のGower 係数を用いた非類似度行列(clusterライブラリのdaisy 関数)。

GARCH modeling(GARCHモデリング)
金融予測でよく使用されるこのモデルは、変動性クラスタリング特性を持つ 時系列に適応します( tseries ライブラリのgarch 関数)。

Kriging
地質学や気象学などのさまざまな分野で使用される時空間補間法の地球統計学的アプローチ (gstat ライブラリの gstat 関数)。

投稿者:Kunihiro TADA

XLSTAT急成長

現在、世界中で30万人以上の人々がXLSTATの使用経験を持ちます。先行する他社製品にはまだまだ及びませんが、少なくとも学術用統計解析ソフトウェア市場の一角を占める存在になりつつあることは間違いありません。日本市場は世界市場の中での比率が相対的に縮小しており、現在では世界市場の5%に届くか届かないかというぐらい希薄な存在感となってしまっているのですが、それでも日本国内でのXLSTATユーザー数も堅調に増加しています。現在、1日に10人程度のペースで日本での新しいユーザーを獲得しております。

マインドウエア総研としては、2000年からViscovery SOMineの取り扱いを始め、長年にわたってSOMアプローチのデータマイニングを事業の中心に据えて参りました。2003年にベイジアンネットワークのHuginと提携を開始して、SOMとベイジアンネットワークにおいて世界的なトップランナーの技術を日本市場に提供する役割を担って参りました。

XLSTATも2003年から提携を開始したのですが、正直なところ、当初はXLSTATにはそれほど重きを置いておりませんでした。それから15年の年月が流れて、気が付けばマインドウエア総研の売上でのXLSTATの占める割合がViscoveryを抜いてトップに躍り出る状況となってきました。

今、世間はディープラーニングをはじめとする機械学習ブームであり、大学や研究機関の人たちがここぞとばかりに予算獲得のために「シンギュラリティ(技術的特異点)」という言葉まで持ち出して、SFめいた未来のAIに関する夢物語を世間に流行らせて、多くの企業や人々がそれに夢中になっている状況です。

ディープラーニングも重要な技術の1つではありますが、それだけではまだまだシンギュラリティとやらに達するほどの技術革新が出揃ったことには絶対になりません。少し頭を冷やす必要があるかと思います。かつて日本は、第五世代コンピュータという壮大な国家プロジェクトに失敗しています。関係者はそれを失敗とは認めていないのでしょうが、客観的には大失敗だったと言わざる得ません。第五世代コンピュータのコンセプトは、if~thenルールを高速に実行することに特化したハードウェアを開発することにあって、その時点ですでに世界の先端的研究からすると周回遅れの発想でしかなかったのです。そして、今脚光を浴びているディープラーニングも、人工ニューラルネットワークの世界では昔からある手法に過ぎません。

SOMやベイジアンネットワークというのは、80年代の当時、日本人がまったく気づいていなかった新しいアプローチをヨーロッパ人が示したものです。この30年間は、これらの技術が実用的な知的情報処理を地道に提供してきたわけです。AIブームに狂奔する人々から見ると、ディープラーニングこそが最先端で、もはやこれらの技術は時代遅れにさえ映っていることでしょう。しかし、SOMやベイジアンネットワークの技術も、この30年間で着実に進歩しております。製品として実現されているものは、初歩的な教科書に載っているレベルよりもはるかに先を行っております。

マインドウエア総研としては、これまで長年、SOMとベイジアンネットワークの最優良技術を提供してきたプライドを持ちつつ、現在の浮薄なAIブームとは距離を置く方針です。私のこれまでの経験(狭い経験かも知れませんが)から言えることは、ブームに巻き込まれている人々の大部分は見当はずれなことに熱中しており、そうした人々と仕事をしてもよい結果は得られないからです。したがって、AI関連の展示会等のお誘いにも乗りません。ブームに便乗して一儲けしようなどとは考えません。坦々と我が道を行くのみです。

現在の機械学習技術で話題になっていることのほとんどは、我々が十数年前から地道に提供し続けております。

幸いにしてXLSTATがマインドウエア総研の経営安定化に貢献してくれているので、当面はこれに頼りながら、次の新しい技術を発見することに力を注いで参りたいと考えます。

 

 

 

投稿者:Kunihiro TADA

XLSTAT 2017.6がリリースされました。

新機能は下記のとおりです:

統計機能とオプション
• ウィルコクソンの1標本符号順位検定:この新機能はスチューデントの1標本t検定に相当するノンパラメトリック版です。
• 主成分分析 (PCA): ブートストラップ信頼楕円と凸包をオブザベーション周りにプロットできるようになりました。
• サポート・ベクトル・マシン(SVM): マルチクラス応答が分析できるようになりました。
• Cox比例ハザード: 交互作用効果、比例検定&予測を含む複数の新しいオプション。

ソフトウェア機能
• MS PowerPoint および MS Word エクスポート・ボタン (PCのみ): すべてのXLSTAT出力がほんの数クリックでエクスポートできるようになりました。
• 表のテーマ: 表出力のテーマをカスタマイズできるようになりました。

Cox比例ハザードがXLSTAT-Biomed、XLSTAT-Ecology、XLSTAT-Premiumのみで利用可能なのを除いて、上記の機能とオプションはすべてのXLSTATソリューションで利用可能です。

投稿者:Kunihiro TADA

注意!!Mac用XLSTATのアンインストールについて

Mac用のXLSTATのインストール/アンインストールがより簡単になりました。
これについてメール(英文)でお知らせが届いているかと思いますがご注意ください。
インストール/アンインストールの方法が変わるのは、あくまでも新しくダウンロードする最新バージョンからです!
新しいバージョンでは、XLSTATアイコンをゴミ箱にドラッグ・アンド・ドロップするだけで、アンインストールできるようになります。
ところがこれを見て、古いバージョンをその方法でアンインストールしようとしたユーザー様がおられるようです。古いバージョンをアンインストールするには、アンインストーラを使用しなければなりません。
ソフトウェアというは、新しい機能を追加したり、既存の機能を改良したりして、新しいバージョンを次々とリリースしています。新しい機能は新しいバージョンでしか利用できません。古いバージョンの機能が知らないうちに変わっているという夢のようなことは起こりません。
これぐらいの物事の道理は理解できないと、正しく統計解析を使用することも難しいかと思いますが、とにかくご注意ください。

投稿者:Kunihiro TADA

XLSTAT 2017.4 リリース

XLSTAT version 2017.4 がダウンロード可能になっています。新しい機能は、下記のとおりです:
– 機能ヒストリー
「最近」メニューから最近使用したXLSTATの機能に即アクセスして時間を節約できるようになりました。すべてのXLSTATソリューションで利用可能です。
– 傾向スコア・マッチング
この新機能は、観察研究で交絡効果を低減するために個体をペアリングするのを支援します。TXLSTAT-Biomed、XLSTAT-Ecology、XLSTAT-Premiumの生存時間分析メニューで利用可能です。
– 一般化プロクラステス分析
コサイン2乗の合計によりPCA要素をフィルタできるようになりました。XLSTAT-Sensory、XLSTAT-Marketing、XLSTAT-Ecology、XLSTAT-Psy、XLSTAT-Premiumで利用可能です。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1のビッグデータ分析

Viscovery SOMine 7.1ではビッグデータ分析への新しい扉を開きました。ここでは、その概要をわかりやすく解説します。
従来よりViscovery SOMineはビッグデータに対応はしておりました。Enterprise Dataというモジュールを追加することにより、取り扱えるデータの上限が解除され、また主要なデータベース・システムの接続も可能でした。計算時間さえ気にしなければ、ビッグデータを丸ごと使ってSOMのマップをトレーニングすることもできていましたし、もちろんデータ・サンプリングも装備されていますので、より小さなサンプル・データでトレーニングしたSOMで、クラス分類モデルや予測モデルを作成して、それをビッグデータに適用することも普通にできておりました。
従来のViscovery SOMineでは、クラスタワークフローのマップの探索ステップで、トレーニング・データの探索的分析を行うことが奨励されました。従来のバージョンでも、分類ワークフローで既存のモデルに新しいアプリケーション・データを適用することができていたのですが、そこでは、モデル・データの統計に加えてアプリケーション・データの統計が表示される仕組みになっていました。バージョン7.1からは、ここでモデル・データの表示は削除されて、アプリケーション・データのみが表示されるようになりました。人間は一度にあまりに多くの情報を与えられても処理しきれないので、これは賢明な改良です。これにより、このステップでどのウィンドウを開いても、それはアプリケーション・データに関する表示であるという確信を持てるので、効率的な分析ができるようになりました。
さらに統計解析の処理も高速化されて、ビッグデータのクラスタリング、クラスタや任意のマップ領域に対応するデータの部分集合に関するプロファイル分析、さらに統計解析(記述統計、相関係数、主成分分析、ヒストグラム、箱ひげ図、散布図)をインタラクティブに行えるようになりました。見た目にはわからない地味な改良なのですが、実際にはこれが大きく効いています。

ちなみに近年のビッグデータ・ブームでは、処理能力のより大きなシステムを販売したいベンダーの思惑があってか、一般のユーザーに対してデータ・サンプリングの有効性をひた隠すような傾向があったように感じます。十分に大規模なデータでは、サンプリングしたデータで作成する統計モデルが、全データから作成した統計モデルと比較して、その品質の劣化がほとんど見られないことは、統計学ではかなり昔から常識のことでした。
しかし、もちろん、個々の実際の顧客をプロフィアリングしたい場合など、サンプル・データではなく、実際の全データを処理したい場合も多々あります。Viscoveryのアプローチは、SOMを人間とビッグデータの間のインタフェースとして位置付けて、ビッグデータ内の類似した部分集合に素早くアクセスできる方法を提供するものです。
Viscoveryでは、米国のNational Bureau of Economic Research のデータでSOMについての実験を行いました。1959年からの米国での死亡証明に関する情報を含むデータで、実験では 2006年から 2014年までのデータ(合計 22,549,978レコード)を使用しました。ここから5%のサンプル・データ(1,135,798 レコード)を抽出して比較実験を行いました。全データでマップをトレーニングした場合は、24.5時間の計算時間で、5%のサンプルでは1.2時間でした。得られたマップは寸分違わないものでした。(このマップは追って、ホームぺージに掲載します。)
既存のマップに新しいデータをマッチングさせて分析を行うという方法は、ビッグデータの場合以外にも、役に立つ場面がよくあります。たとえば、自動車メーカーなどで、消費者に対して定期的に同じアンケート調査を実施しているような場合に、過去のデータで作成したマップに、新しい年のデータをマッチングさせて(または、その逆)、消費者の消費行動や嗜好、ニーズの変化をキャッチするということがあります。