日別アーカイブ 2014年12月9日

投稿者:

潜在クラス分析(クラスタ・モデルおよび回帰モデル)とは (2)

XLSTAT-LGの潜在クラス分析を少し触ってみました。これは計算に時間がかかります。パソコンを操作しながら、その場で結果が出ることを期待されるなら、快適に使用できる範囲は、1000行×10列程度までと思われます。
もちろん、それより大きなデータでも数時間とか日単位の計算時間を覚悟するなら可能だろうと思われます。ただし、途中で交互作用の設定をするダイアログが現れますので、列数が多くなると、この組み合わせが膨大になります。ここで、どれを設定するか、しないかで結果が変わるとしたら、現実的には数10個とかそれ以上の変数を持つデータに適用するのは難しそうです。
前の記事でViscoveryと対比させておりましたが、したがって、それは手術用メスと鯨包丁を比較するような話です。(刃物なら見た目で違いがわかりますが、データ分析手法は使ってみないと違いがわかりません。)
Viscoveryの場合は、数10行×数列の小さなデータから、100万行×数100列規模の大規模データまでカバーできます。あるいは行を減らすか、コンピュータのパワー次第で数1000列のデータも扱えます。また、Viscoveryでは非線形に対応したモデルが生成されますので、ユーザーが交互作用を指定する必要がなく、結果として、交互作用よりも精度の高いモデルが実現できます。
– Viscoveryでもクラスタ数の有意度を示す指標が使用されるのですが、それは「参考程度」にか活用されません。Viscoveryのクラスタ指標は、階層クラスタリングでクラスタを段階的に融合していくときに、クラスタ内分散が増大する量によって判断しています。
– 一方、潜在クラス分析は、対数尤度やAIC、BIC、その他の情報量基準とパラメータ数(節減の原理)、p値による判断ができ、さらに2変量残差によって、それをより詳細化・修正するという2段階になっています。
– Viscoveryでは階層クラスタリングにより、さまざまなクラスタ数を広範囲に探索できて、場合によっては、クラスタリングの結果にこだわらずに、マップ領域を選択することで、セグメンテーションを自由自在に修正できてしまいます。
– 潜在クラス分析では、あらかじめ指定する狭い範囲のクラスタ数しか検討できません。範囲を広くとれば、それだけ計算に時間がかかります。その代りに、統計的に有意なクラスタ数をはっきりと示してくれます。
– Vissoveryでのクラスタリング(セグメンテーション)は、データレコードは必ずどれか1つのクラスタ(セグメント)に振り分けられますが、
– 潜在クラス分析では、どのクラスタに属していそうかをメンバーシップ確率で表現されます。
ViscoveryのSOM-Wardクラスタリングを用いたセグメンテーション・モデル、SOMローカル回帰法を用いた非線形近似の重回帰モデルと、潜在クラス分析のクラスタ・モデル、回帰モデルは、似通った特性はあるものの、一長一短というより、想定する使用目的・方向性がかなり異なるものであります。