投稿者アーカイブ Kunihiro TADA

投稿者:Kunihiro TADA

注意!!Mac用XLSTATのアンインストールについて

Mac用のXLSTATのインストール/アンインストールがより簡単になりました。
これについてメール(英文)でお知らせが届いているかと思いますがご注意ください。
インストール/アンインストールの方法が変わるのは、あくまでも新しくダウンロードする最新バージョンからです!
新しいバージョンでは、XLSTATアイコンをゴミ箱にドラッグ・アンド・ドロップするだけで、アンインストールできるようになります。
ところがこれを見て、古いバージョンをその方法でアンインストールしようとしたユーザー様がおられるようです。古いバージョンをアンインストールするには、アンインストーラを使用しなければなりません。
ソフトウェアというは、新しい機能を追加したり、既存の機能を改良したりして、新しいバージョンを次々とリリースしています。新しい機能は新しいバージョンでしか利用できません。古いバージョンの機能が知らないうちに変わっているという夢のようなことは起こりません。
これぐらいの物事の道理は理解できないと、正しく統計解析を使用することも難しいかと思いますが、とにかくご注意ください。

投稿者:Kunihiro TADA

XLSTAT 2017.4 リリース

XLSTAT version 2017.4 がダウンロード可能になっています。新しい機能は、下記のとおりです:
– 機能ヒストリー
「最近」メニューから最近使用したXLSTATの機能に即アクセスして時間を節約できるようになりました。すべてのXLSTATソリューションで利用可能です。
– 傾向スコア・マッチング
この新機能は、観察研究で交絡効果を低減するために個体をペアリングするのを支援します。TXLSTAT-Biomed、XLSTAT-Ecology、XLSTAT-Premiumの生存時間分析メニューで利用可能です。
– 一般化プロクラステス分析
コサイン2乗の合計によりPCA要素をフィルタできるようになりました。XLSTAT-Sensory、XLSTAT-Marketing、XLSTAT-Ecology、XLSTAT-Psy、XLSTAT-Premiumで利用可能です。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1のビッグデータ分析

Viscovery SOMine 7.1ではビッグデータ分析への新しい扉を開きました。ここでは、その概要をわかりやすく解説します。
従来よりViscovery SOMineはビッグデータに対応はしておりました。Enterprise Dataというモジュールを追加することにより、取り扱えるデータの上限が解除され、また主要なデータベース・システムの接続も可能でした。計算時間さえ気にしなければ、ビッグデータを丸ごと使ってSOMのマップをトレーニングすることもできていましたし、もちろんデータ・サンプリングも装備されていますので、より小さなサンプル・データでトレーニングしたSOMで、クラス分類モデルや予測モデルを作成して、それをビッグデータに適用することも普通にできておりました。
従来のViscovery SOMineでは、クラスタワークフローのマップの探索ステップで、トレーニング・データの探索的分析を行うことが奨励されました。従来のバージョンでも、分類ワークフローで既存のモデルに新しいアプリケーション・データを適用することができていたのですが、そこでは、モデル・データの統計に加えてアプリケーション・データの統計が表示される仕組みになっていました。バージョン7.1からは、ここでモデル・データの表示は削除されて、アプリケーション・データのみが表示されるようになりました。人間は一度にあまりに多くの情報を与えられても処理しきれないので、これは賢明な改良です。これにより、このステップでどのウィンドウを開いても、それはアプリケーション・データに関する表示であるという確信を持てるので、効率的な分析ができるようになりました。
さらに統計解析の処理も高速化されて、ビッグデータのクラスタリング、クラスタや任意のマップ領域に対応するデータの部分集合に関するプロファイル分析、さらに統計解析(記述統計、相関係数、主成分分析、ヒストグラム、箱ひげ図、散布図)をインタラクティブに行えるようになりました。見た目にはわからない地味な改良なのですが、実際にはこれが大きく効いています。

ちなみに近年のビッグデータ・ブームでは、処理能力のより大きなシステムを販売したいベンダーの思惑があってか、一般のユーザーに対してデータ・サンプリングの有効性をひた隠すような傾向があったように感じます。十分に大規模なデータでは、サンプリングしたデータで作成する統計モデルが、全データから作成した統計モデルと比較して、その品質の劣化がほとんど見られないことは、統計学ではかなり昔から常識のことでした。
しかし、もちろん、個々の実際の顧客をプロフィアリングしたい場合など、サンプル・データではなく、実際の全データを処理したい場合も多々あります。Viscoveryのアプローチは、SOMを人間とビッグデータの間のインタフェースとして位置付けて、ビッグデータ内の類似した部分集合に素早くアクセスできる方法を提供するものです。
Viscoveryでは、米国のNational Bureau of Economic Research のデータでSOMについての実験を行いました。1959年からの米国での死亡証明に関する情報を含むデータで、実験では 2006年から 2014年までのデータ(合計 22,549,978レコード)を使用しました。ここから5%のサンプル・データ(1,135,798 レコード)を抽出して比較実験を行いました。全データでマップをトレーニングした場合は、24.5時間の計算時間で、5%のサンプルでは1.2時間でした。得られたマップは寸分違わないものでした。(このマップは追って、ホームぺージに掲載します。)
既存のマップに新しいデータをマッチングさせて分析を行うという方法は、ビッグデータの場合以外にも、役に立つ場面がよくあります。たとえば、自動車メーカーなどで、消費者に対して定期的に同じアンケート調査を実施しているような場合に、過去のデータで作成したマップに、新しい年のデータをマッチングさせて(または、その逆)、消費者の消費行動や嗜好、ニーズの変化をキャッチするということがあります。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 リリース

本日からViscovery SOMine 7.1 日本語版は利用可能になりました。
トライアル・バージョン(機能制限あり)も今日から7.1です。
リリースノート(英語)はこちらです。
かなり多数の改良があります。リリースノートも近日中に(ゆっくりと)翻訳する予定です。

投稿者:Kunihiro TADA

Viscovery SOMine 7.1 近日リリース予定

Viscovery SOMine 日本語版のバージョン7.1が近日中にリリースできる運びです。
このリリースのおもな改良点は下記のとおりです。
– Viscoveryマップでビッグデータのインタラクティブな探索が可能になります。マップの任意の領域に対応する元データの(類似した)部分集合にアクセスしたり、その記述統計などを計算できるのは従来と同じですが、それが超大規模データ(たとえば数1000万件)でもリアルタイムに反応することができます。もちろん、クラスタや統計的プロファイルも秒単位で作成、修正、判断することが、超大規模データでも可能になりました。
– 超多次元データの場合の相関行列を素早く分析できるように、注目したい属性をインタラクティブに選択して、よりコンパクトな相関行列が得られるように改良されました。
– データ・レコードに関連づけられた複数のサムネイル画像をマップ・ピクチャ上に表示できるようになりました。
– スコアリング・モデルで、最大のレスポンスを持つスコア・グループを選択するために、新しく最適利得チャートが導入されました。