XLSTATによる階層クラスタリング

このチュートリアルで使うデータと結果のExcelシートは、こちらからダウンロードできます。こ のデータは、 米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。(注意:オリジナル・ファイルは次のURLからダウン ロードできます。http://eire.census.gov/popest/states_dataset.csv )元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。我々の目的は、利用可能な人口統計データに 基づいて、州の均質なクラスタを作成することです。

XLSTAT-Proを起動して、XLSTAT|Analyzing data|Agglomerative Hierarchical Clusteringを選択するか、 "Analyzing Data" ツールバー(下図)の対応するボタンをクリックしてください。

../../../barpca1.gif

../../../barcah2.gif

階層型クラスタリング・ダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。(注意:XLSTATに よってデータを選択する方法は複数あります。詳細は、 XLSTATチュートリアルのデータ の選択のセクションを確認してください。)この事例では、データが1行目から始まっているので、列選択を使うのが早くて簡単です。これはなぜ列に 対応する文字が選択ボックスの中に表示されるのかを説明します。我々は人口のダイナミクスに興味があるので、変数Total population は選択されませんでした。最後の列は、その前の列と完全に相関しているので、選択されませんでした。

グループ作成がスケール(尺度)の効果による影響を持つことを避けるために、Center/Reduce オプションが選択されました。"More"ボタンは高度なオプションを表示します。我々は、各オブザベーションが属するグループを結果に示すようにするた めに、automatic truncationオプションを選択しました。 すべての他のオプションは、デフォルトのままにしておきます(1行目に変数の説明が含まれるので、Labels includedは有効にします)。

../../../clust1.gif

"オプション" タブでは、尺度効果の影響を受けたグループ基準を避けるために、中心/縮小 オプションを選択しました。我々は、各オブザベーションがどのグループに属するかを結果に表示させるために、自動切り捨てオプションを選択しました。自動切り捨ては、エントロピーに基づき、均質なグループを作成しようとします。しかしながら、これは、実行上の制約や事前知識により異なるグループ数を使用することを阻みません。

../../../clust2.gif

"OK"をクリックすると計算が始まります。1番目の結果は、レベル棒グラフです。その形は、データの構造に関する多くのことを明らかにします。非類似度が大きい場合、我々がグ ルーピングしたグループがすでに均質になっています。 自動切り捨ては、いつオブザベーションを集めるのを(またはオブザベーションのグループ分け)を止めるかを決定するために使用します。

../../../clust3.gif

下図は、デンドログラムです。これはアルゴリズムがどのように働いて、オブザベーションをグループ分けして、サブ・グループができる かを示します。ご覧のように、アルゴリズムはすべてのオブザベーションをグループ分けすることに成功しています。点線は、自動切り捨てを示していて、3つのグループを導いています。

../../../clust4.gif

2つのグループがほぼ同じサイズで、3つめは、2つの州だけです。最初のグループ(青色で表示)は、3つめよりも均質です(それは、デンドログラム上でより平坦です)。それは、クラス内の変数を見て確認されます。3つめのグループは、1つめよりもかなり高いです。

下表は、各クラスタに分類された州を示します。

../../../clust5.gif

各州のクラスIDを持つ表が、結果シートに表示されます。以下にサンプルを示します。この表は、たとえば、判別分析や並行座標法など、さらなる分析のために最初の表と融合できるので便利です。

clust6.gif

その他のチュートリアルはこちら