次元削減とクラスタ分析

投稿者:Kunihiro TADA

次元削減とクラスタ分析

XLSTAT 2020.1.3では、主成分分析(PCA)、因子分析(FA)、多因子分析(MFA)、多重コレスポンデンス分析(MCA)などの次元削減手法を実行した後に、XLSTATが出力した結果シートの因子得点の表から自動でクラスタ分析を実行できるようになりました。

https://help.xlstat.com/s/article/Excelでの主成分分析-PCA-チュートリアル?language=ja

これらの多変量解析手法は、データ内に潜んでいる<構造>を発見するために使用されるもので、古い用語で言うと「探索的データ分析」であり、近年の比較的新しい用語に言い直すと「データマイニング」であります。次元削減とクラスタ分析を組み合わせる技は、データマイニングではお馴染みの技と言えます。

また、これに付け加えるなら、ビッグデータのクラスタ分析には、K-meansで情報圧縮を行うというのも大変有効な方法です。ただし、注意しておきたいのは、K-meansで最終のクラスタを得ようとするのではなく、K-meansと階層クラスタリングの2段階アプローチを採用するのが重要な点です。つまり、数100万件、数1000万件のデータをK-meansによって、1000個程度の類似したオブザベーションのグループに分けておいて、その1000個程度のオブジェクトに対して階層クラスタリング手法を適用することで、ビッグデータに潜む構造を発見することに役立ちます。XLSTATでは、これも可能です。

https://help.xlstat.com/s/article/k-meansクラスタリングの後にAHCを使用するビッグデータのクラスタリング?language=ja

そして、さらにクラスタリングの後には、必ず<プロファイル分析>を実行することをお勧めします。すなわち、これは各クラスタの統計的特徴を計量的に分析することを意味します。具体的には、クラスタ間での各変数の平均値の差を検定して、有意度の高い順に、各クラスタを特徴づける変数を並べ替えるということを行います。XLSTATでは「変数の評価」機能で行えます。

https://help.xlstat.com/s/article/Excelでの変数評価チュートリアル?language=ja

もう一度おさらいすると、データマイニングには以下のステップが必要となります:

  1. 次元削減(PCAなど)
  2. 情報圧縮(K-meansなど)
  3. 階層クラスタリング
  4. プロファイル分析

XLSTATは一応、これらの機能を提供しておりますので、データマイニング・ツールとしても使用可能です。しかしながら、もう一つ、データマニングの手順に付け加えなければならないことがあります。それは、

  • 変数選択と重みづけ

です。データマイニングが探索的なプロセスであるという理由がここにあります。PCAにしても、クラスタリングにしても、「どの変数を分析に入れて、どの変数を除外するか」で、内在する構造は変化してしまいます。実際には、それらの多様な構造を<探索>して行って、その中から分析の目的に合った「意味のある構造」を発見することこそが、実践的なデータマイニング・プロセスであります。

残念ながら、正式に出版される文献では、こうした泥臭いプロセスは、ほとんど説明されることがありません。最終的に採択されたデータと、各手法でのオプション設定と、その結果だけが文献に出て来ます。それを見てデータマイニングを学ぶ人々が、「正しいデータに正しい手順で、正しい分析手法を適用すると、一発で正しい結果が出てくるはずだ」と思い込んでしまっていることが、とても多いと思われます。

実際のところ、こうしたプロセスを統計解析ソフトウェアで行うのは、かなり煩雑な作業となってしまいます。それを効率化してくれるのが、Viscovery SOMineという別の製品です。Viscovery SOMineでは、1.次元削減と2.情報圧縮の部分を自己組織化マップ(SOM)が担当し、SOMのマップ上で3.階層クラスタリング、4.プロファイル分析まで、わずかなマウス・クリックでできるようになっています。そして、さらに変数選択と重みづけを変えることによって、多数のマップを簡単に作成できるので、そこから芳醇な知識を得ることができます。

PCAと比較して、次元削減にSOMを使用することのメリットは、PCAは単純に新しい因子空間にデータ・オブジェクトを<投影>している(つまり、単純な座標変換)だけなのに対して、SOMは多次元空間内でのデータ・オブジェクトの位相的(トポロジカルな)順序を保持しているというところにあります。詳細な説明は割愛しますが(できれば過去の記事をご参照ください)、SOMの方がPCA等よりも一段高度な手法ということになります。データ空間のトポロジーを考慮するということが、クラスタ分析において「非線形データの自然なクラスタリング」の獲得というところに効いてきます。

 

 

 

 

投稿者について

Kunihiro TADA administrator

マインドウエア総研株式会社・代表取締役。テクニカル・ライター、技術翻訳家、技術評論家。1982年より理工学出版社で情報通信/ニューメディア等の技術者向け先端技術セミナーの企画・運営に従事。LANをはじめ今日のITの基礎となる技術テーマの多くを取り扱った。1985年より大手コンサルティング会社で、先端技術分野の技術動向分析業務に従事。1986年に開催したAIチップ・セミナーは、ファジィ推論チップ等の当時の最先端のAI技術を国内に紹介して、国内のファジィ・ブームのトリガーとなった。1990年から技術評論家として、マルチメディアおよびCG関連の解説記事を執筆。1994年からはインターネットに活動基盤を移し、海外とのビジネスを開始。2000年よりViscovery、2003年よりXLSTAT、およびHuginのパートナーとなる。現在は東京を離れ、岡山に拠点を置いている。かつては産業界のブームを次々とビジネスのネタにしたが、現在はソフトウェアのライセンス販売に注力して、スローライフを決め込んでいる。                               これまでの経験から痛感することは、「人間のやることは、よくて3割程度しか当らない。ブームに寄り集まる人々はほぼ間違いなく成功しない。ビジョンがないからだ。彼らを相手に商売をすると、一時的に成功したかに見えるときもあるが、気づかないうちに自分も同類になっているだろう。流行を追ってはならない。他人がやらないことをやれ。腹の底から『本物だ』と思えることに専念するのが本望だ」