月別アーカイブ 4月 2020

投稿者:Kunihiro TADA

XLSTATがCOVID-19データ分析の無償提供を開始

XLSTATチームはCOVID-19の最新の症例(感染者)数と死亡者数に関するデータを追跡して分析する機能を無償で提供します。

Excel用アドオン型統計解析ソフトウェアXLSTATの一部として公開するもので、有償のライセンス購入者はもちろん、トライアル・ユーザーおよびトライアル期間が終了した無償版のユーザーに対しても無償で提供しますので、世界中のすべての人々にこの機能を無償でご利用頂けます。

使用するデータは、ECDC(欧州疫病予防管理センター)およびニューヨーク・タイムズのデータで、さらにユーザーの独自データを取り扱うこともできます。最新データを毎日自動でダウンロードして、各国の感染数と死亡者数の推移を追跡し、予測モデルによって、今後の感染者数および死亡者数を予測することができます。予測モデルには二重指数Holt Winters平滑化モデルが採用されております。

この機能を使用するために必要なExcelバージョン

  • MacはExcel 2016以降
  • WindowsはExcel 2007以降

XLSTATの無償ダウンロード・リンク

 

投稿者:Kunihiro TADA

次元削減とクラスタ分析

XLSTAT 2020.1.3では、主成分分析(PCA)、因子分析(FA)、多因子分析(MFA)、多重コレスポンデンス分析(MCA)などの次元削減手法を実行した後に、XLSTATが出力した結果シートの因子得点の表から自動でクラスタ分析を実行できるようになりました。

https://help.xlstat.com/s/article/Excelでの主成分分析-PCA-チュートリアル?language=ja

これらの多変量解析手法は、データ内に潜んでいる<構造>を発見するために使用されるもので、古い用語で言うと「探索的データ分析」であり、近年の比較的新しい用語に言い直すと「データマイニング」であります。次元削減とクラスタ分析を組み合わせる技は、データマイニングではお馴染みの技と言えます。

また、これに付け加えるなら、ビッグデータのクラスタ分析には、K-meansで情報圧縮を行うというのも大変有効な方法です。ただし、注意しておきたいのは、K-meansで最終のクラスタを得ようとするのではなく、K-meansと階層クラスタリングの2段階アプローチを採用するのが重要な点です。つまり、数100万件、数1000万件のデータをK-meansによって、1000個程度の類似したオブザベーションのグループに分けておいて、その1000個程度のオブジェクトに対して階層クラスタリング手法を適用することで、ビッグデータに潜む構造を発見することに役立ちます。XLSTATでは、これも可能です。

https://help.xlstat.com/s/article/k-meansクラスタリングの後にAHCを使用するビッグデータのクラスタリング?language=ja

そして、さらにクラスタリングの後には、必ず<プロファイル分析>を実行することをお勧めします。すなわち、これは各クラスタの統計的特徴を計量的に分析することを意味します。具体的には、クラスタ間での各変数の平均値の差を検定して、有意度の高い順に、各クラスタを特徴づける変数を並べ替えるということを行います。XLSTATでは「変数の評価」機能で行えます。

https://help.xlstat.com/s/article/Excelでの変数評価チュートリアル?language=ja

もう一度おさらいすると、データマイニングには以下のステップが必要となります:

  1. 次元削減(PCAなど)
  2. 情報圧縮(K-meansなど)
  3. 階層クラスタリング
  4. プロファイル分析

XLSTATは一応、これらの機能を提供しておりますので、データマイニング・ツールとしても使用可能です。しかしながら、もう一つ、データマニングの手順に付け加えなければならないことがあります。それは、

  • 変数選択と重みづけ

です。データマイニングが探索的なプロセスであるという理由がここにあります。PCAにしても、クラスタリングにしても、「どの変数を分析に入れて、どの変数を除外するか」で、内在する構造は変化してしまいます。実際には、それらの多様な構造を<探索>して行って、その中から分析の目的に合った「意味のある構造」を発見することこそが、実践的なデータマイニング・プロセスであります。

残念ながら、正式に出版される文献では、こうした泥臭いプロセスは、ほとんど説明されることがありません。最終的に採択されたデータと、各手法でのオプション設定と、その結果だけが文献に出て来ます。それを見てデータマイニングを学ぶ人々が、「正しいデータに正しい手順で、正しい分析手法を適用すると、一発で正しい結果が出てくるはずだ」と思い込んでしまっていることが、とても多いと思われます。

実際のところ、こうしたプロセスを統計解析ソフトウェアで行うのは、かなり煩雑な作業となってしまいます。それを効率化してくれるのが、Viscovery SOMineという別の製品です。Viscovery SOMineでは、1.次元削減と2.情報圧縮の部分を自己組織化マップ(SOM)が担当し、SOMのマップ上で3.階層クラスタリング、4.プロファイル分析まで、わずかなマウス・クリックでできるようになっています。そして、さらに変数選択と重みづけを変えることによって、多数のマップを簡単に作成できるので、そこから芳醇な知識を得ることができます。

PCAと比較して、次元削減にSOMを使用することのメリットは、PCAは単純に新しい因子空間にデータ・オブジェクトを<投影>している(つまり、単純な座標変換)だけなのに対して、SOMは多次元空間内でのデータ・オブジェクトの位相的(トポロジカルな)順序を保持しているというところにあります。詳細な説明は割愛しますが(できれば過去の記事をご参照ください)、SOMの方がPCA等よりも一段高度な手法ということになります。データ空間のトポロジーを考慮するということが、クラスタ分析において「非線形データの自然なクラスタリング」の獲得というところに効いてきます。