月別アーカイブ 10月 2014

投稿者:

アンケート分析は集計前のデータから

弊社のユーザーで「コレスポンデンス分析ができない」と言って相談を持ち掛けてくるなかで、データを送って貰うと、それが単純集計データになっていることにもう何度か出会っています。最初は「初心者の中には生データと集計データの違いがわからない人もいるのかなあ」と見過ごしていたのですが、それが複数回となると、「いったい、世間で行われているアンケート調査って、本当にちゃんと分析できているのだろうか?」と心配になってきます。
アンケート調査の結果データは、一般的に、列に各設問、行に回答者が入った表にまとめます。そして、表の各セルには、回答者が回答した各設問への回答(カテゴリ値、すなわち文字列)が入ります。設問×回答者の表です。コレスポンデンス分析や多重コレスポンデンス分析などのアンケート調査用の多変量解析は、まずこの表から出発しないといけません。
コレスポンデンス分析は、任意の2列の質的変数(アンケートの場合は設問)の各カテゴリ値(回答)の間の関係性を分析します。生データからクロス表(2元表)を作成して、そこから固有値の計算(ベクトルの計算)をして、2次元のマップに各カテゴリを布置します。
多重コレスポンデンス分析は、一言で言うと、質的データ(カテゴリ・データ)で行う主成分分析です。まず、複数の質的変数(設問)を含むデータをダミー変数化(分離表の作成)します。つまり、1つの列に含まれる各カテゴリをそれぞれ異なる列に「分離」して、新しくできた列に1か0の数値を入れていきます。たとえば、YesまたはNoというカテゴリがあるとしたら、Yesの列とNOの列が新たにできて、もしある回答者がYesと回答している場合は、その行のYesの列に1が入り、Noの列に0が入ります。コレスポンデンス分析は、このようにしてできたダミー変数の表に対して主成分分析のような計算を実行して、2次元のマップを作成します。
このようなわけですので、すでに単純集計されたデータからは、それをどのようにいじくっても、コレスポンデンス分析も多重コレスポンデンス分析もできません。しかし、困ったことに、不適切なデータでも、統計解析ソフトで多重コレスポンデンス分析を適用すると、それらしい結果が出てしまいます。ここでいう単純集計とは、行に設問が入っていて、列にカテゴリ(回答)が入っていて、各セルの値は、設問に対する各回答の度数が入っているような表です。
とくに回答者数が極端に少ない場合、単純集計の各度数の値をそのままカテゴリ値として解釈して、計算はできてしまうのです。たとえば、(実際に見た例ですが)回答者数が”6″であれば、0,1,2,3,4,5,6というカテゴリ値を持つ質的変数として解釈して、計算ができてしまいます。計算はできてしまうのですが、これでは正しく多重コレスポンデンス分析をやったことにはなりません。(回答者数から分析の仕方まで、何から何まですべてにおいてお粗末な調査と言わざる得ません。)
これまでに同じような間違いをしている複数の人に出会いました。本人は、「設問間の関係が見たくて回答者間ではない」などという屁理屈をつけて、何か独自の分析を行っているかのようなことを言っています。いやはや、このような口達者で論理のデタラメな人には困ります。
百歩譲って、単純集計データは質的データではなく量的データになるので、多重コレスポンデンス分析ではなく主成分分析を適用するなら、まだ救いどころはあるのですが、それでもあまり意味のある分析とは思えません。集計データにコレスポンデンス分析や多重コレスポンデンス分析、あるいはその他の多変量解析を適用するのはお薦めしません。ご注意ください。

投稿者:

HUGIN 8.1 リリース

HUGINソフトウェアの新バージョン8.1がリリースされました。このリリースでの主な新機能は、新しいHUGIN COM APIの導入と、ダイナミック・タイムスライス・ベイジアンネットワーク(DBN:Dynamic time-sliced Bayesian Network)のサポートの拡張です。
バージョン8.0で導入されたベイジアンネットワークによるダイナミック・タイムスライス・システムの推論をサポートする機能が、さらに拡張されました。 これは、HUGINウェブサービスAPIでのダイナミック・ベイジアンネットワークのサポートと、ネットワーク中に連続確率ノードと関数ノードを含めるオプション(ただし、これらのノードはテンポラル・クローンは持てません)を含みます。複数のお客様からのご要望に応えて、たとえばMicrosoft Excelの64bitバージョンでHUGINを使用することを可能にするHUGIN COM APIを導入しました。

HUGIN グラフィカル・ユーザー・インタフェース v8.1

HUGIN Graphical User Interfaceが、さまざまな新機能で改良されました。新機能には以下の機能含まれます:
– DBN機能が拡張されました。連続確率ノード、
および離散/連続関数ノードが、テンポラル・クローンを持てないという制限つきで、DBNNモデルでサポートされました。
– DBNによる予測とベイジアン・フィルタリングの機能が、データ・フレームに追加されました。
– たとえば学習ウィザード内で使用される前処理ツールが改良されて、データ処理(Data Processing)と名前を変更しました。たくさんの新機能で、予測とベイジアン・フィルタの計算を可能にする機能です。
– データ・フレーム・ウィンドウが、確信度の更新の際に計算される正規化定数、正規化定数の対数、ケースを伝播したときのエビデンスの確率を含む機能で拡張されました。
– データ・フレーム・ウィンドウに確信度をレポートすることができます。
– たとえば、インフルエンス・ダイアグラムで情報リンクの色を設定するのを簡単にするために、デフォルト・リンク・グループが導入されました。
– DBN、オブジェクト指向ベイジアンネットワークおよびインフルエンス・ダイアグラムをサポートするためにコード・ウィザードが拡張されました。
– オブジェクト指向ベイジアンネットワークとインフルエンス・ダイアグラムで、関数ノードと効用ノードがインタフェース・ノードとして定義できるようになりました。
– 確実な状況下で、ショートカットが失われる場合がある問題を修正しました。
– その他のマイナーな改良。
その他、HUGINグラフィカル・ユーザー・インタフェースの性能を向上させるための作業が行われました。

HUGIN Decision Engine v8.1

HUGIN Decision Engineは、以下の機能で拡張されました:
– HUGIN Webservice APIが、オブジェクト指向ベイジアンネットワークとインフルエンス・ダイアグラム、およびDBNをサポートして拡張されました。
– HUGIN APIの新しいCOMインタフェース – HUGIN COM が導入されました。これは現在廃止される可能性のあるActiveX server を置き換えて、HUGIN COM インタフェースを使用する32ビットと64ビット・アプリケーションを可能にします(すなわち、HUGINは、64-bit Excelで利用可能です).
– 副作用のあるHugin関数が呼び出される際、いつでも無効化されたHTTPキャッシュ・アイテムの集合を自動再フェッチすることにより、API 用にJavaScriptを用いて構築されたウェブ・アプリケーションの応答性がスピードアップされました。
– HUGIN Decision Engineは、オブジェクト指向ベイジアンネットワークとインフルエンス・ダイアグラム、およびDBNのHKBファイルへの保存をサポートしました。

投稿者:

祝・HUGIN Expert社25周年

ベイジアンネットワーク・テクノロジーのグローバル・リーダーであるHUGIN Expertは、ちょうど25年前の1989年10月24日に設立されました。
HUGIN は、神経疾患と筋疾患の診断において医師を支援するためにEUが出資したプロジェクトからスピンオフしてできた会社です。診断での不確実性を克服するために、因果確率ネットワーク(CPNs:Causal Probabilistic Networks)に基づいてエキスパート・システム「MUNIN」が構築されました。これらの人工知能手法は、1988年にデンマークのオールボルグ大学のSteffen L. Lauritzen教授とケンブリッジ大学の David Spiegelhalter氏によって、アルゴリズムHUGIN(Handling Uncertainty in General Inference Networks)として論文発表されてから実用化への新しい局面を迎えました。
1989年にHUGINツールが商用化され、HUGIN EXPERT社が生まれました。今日、HUGIN EXPERT A/S は、ベイジアンネットワークに基づく推論と意思決定のためのソフトウェアのリーディング・プロバイダーです。HUGINソフトウェア・テクノロジーは、決定分析、決定支援、健康診断、不正検出、リスク評価、安全評価、トラブルシューティング(故障診断)、食品安全、法鑑定(遺伝子鑑定)など、最先端のアプリケーションを作成するために、25か国を超える国々で、グローバルな企業や団体に採用されております。
25年前に会社が設立されたときのイノベーション精神は、今後も永い年月にわたり、HUGIN Expertがグローバルなテクノロジー・リーダーとして進化し続けるように導きます。

投稿者:

MRJの開発にViscoveryも貢献

ただいまメディアで絶賛報道中の三菱航空機が開発した次世代リージョナル・ジェット機「MRJ」の開発過程で、Viscoveryのデータマイニング技術が貢献しております。この部分の中心人物は、東北大学の大林茂教授です。
こちらの記事にその詳細が掲載されております。

投稿者:

XLSTAT 2014.5の新機能のチュートリアル

XLSTAT 2014.5で追加された新機能に関するチュートリアルは下記にあります:
XLSTAT-Pro:
XLSTATによる変数評価の実行
XLSTAT-OMICs:
XLSTATでのヒートマップ分析の実行
XLSTATでの差次的発現分析の実行
またXLSTAT-MXに追加されたCATAデータ分析の機能説明は下記です:
CATA データ分析

投稿者:

XLSTAT 2014.5 リリース

Addinsoft は、XLSTATのメジャー・アップデート・バージョン2014.5をリリースしました。今回のバージョンでは、XLSTAT-OMICsというゲオミクスデータ解析用の新しい追加モジュールが登場しました。また基本モジュールのXLSTAT-Proでは、カテゴリカル・データの記述分析に便利な”変数評価”ツール、データ・サンプリングの新しいオプションが追加されました。XLSTAT-MXでは、CATA (check-all-that-apply) データ分析の機能が追加されました。
評価用ダウンロードは、こちらをご利用ください。

投稿者:

OMICSデータ分析

XLSTAT 2014.5が近日中にリリースされる予定です。
このバージョンでは、XLSTAT-OMICsという新しい追加モジュールがお目見えします。これは遺伝子やタンパク質、代謝産物などの発現データの分析のためのモジュールで、差次的発現(Differential expression)分析とヒートマップがサポートされます。
じつは、マインドウェア総研では、すでにViscovery Profiler/SOMineによって、自己組織化マップ(SOM)上でよりスマートに(Viscovery独自のアプローチで)この機能を提供しておりますが、いかんせんソフトウェア・ライセンスの価格が高価です。XLSTATでは、SOMはサポートされておらず、より広く学術論文に採用されている手法を提供します。しかも、価格もお手頃になるはずです。
p値の補正に関しては、ViscoveryがBenjamini-Hochberg補正のみを採用しているのに対して、XLSTAT-OMICsでは、Benjamini-Hochberg補正、Benjamini-Yekutieli補正、Bonferroni補正の3つをサポートして、より保守的(厳格)な属性の絞り込みができます。
ViscoveryではSOMによる可視化によって、各セグメントの特徴を素早く見分けることができますが、XLSTATではSOMの代わりにヒートマップを採用しております。これは、従来型の階層クラスタリング(Ward法)によって、オブザベーション(個体)をクラスタリングしたデンドログラムと、属性(特性)をクラスタリングしたデンドログラムを作成して、それらを縦横に組み合わせて、その交差する場所に各属性の値を色で表現したマトリックスです。Viscoveryほど詳細な分析にはならないのですが、オブザベーションのセグメントごとの特徴を視覚的に把握するより簡易な手段です。
XLSTATでは、データの規模が大きい場合には、階層クラスタリングの前にK-meansで数100とか1000個程度にまで圧縮して(数を減らして)から、階層クラスタリングを行うことを推奨しておりますが、その場合、弊社ではViscoveryにグレードアップする選択肢もあります。Viscovryでは、SOMを使用することによって、K-meansのような圧縮(削減)とヒートマップのような可視化が同時に行えて、さらにそのうえで、セグメントごとの統計的評価を行い、p値の計算・補正までできます。
比較的小規模なデータでご予算的にも小規模にされたい場合はXLSTAT-OMICs、大規模データでご予算も十分に確保できる場合はViscoveryという選択ができるようになりました。