XLSTATによる階層クラスタリングはどのように実行しますか?

このチュートリアルで使うデータと結果のExcelシートは、こちらからダウンロードできます。こ のデータは、 米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。(注意:オリジナル・ファイルは次のURLからダウン ロードできます。http://eire.census.gov/popest/states_dataset.csv )元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。我々の目的は、利用可能な人口統計データに 基づいて、州の均質なクラスタを作成することです。

XLSTAT-Proを起動して、XLSTAT|Analyzing data|Agglomerative Hierarchical Clusteringを選択するか、 "Analyzing Data" ツールバー(下図)の対応するボタンをクリックしてください。

../../../barpca1.gif

../../../barcah2.gif

Hierarchical Clusteringダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。(注意:XLSTATに よってデータを選択する方法は複数あります。詳細は、 XLSTATチュートリアルのデータ の選択のセクションを確認してください。)この事例では、データが1行目から始まっているので、列選択を使うのが早くて簡単です。これはなぜ列に 対応する文字が選択ボックスの中に表示されるのかを説明します。我々は人口のダイナミクスに興味があるので、変数Total population は選択されませんでした。最後の列は、その前の列と完全に相関しているので、選択されませんでした。

グループ作成がスケール(尺度)の効果による影響を持つことを避けるために、Center/Reduce オプションが選択されました。"More"ボタンは高度なオプションを表示します。我々は、各オブザベーションが属するグループを結果に示すようにするた めに、automatic truncationオプションを選択しました。 すべての他のオプションは、デフォルトのままにしておきます(1行目に変数の説明が含まれるので、Labels includedは有効にします)。

../../../clust1.gif

"OK"をクリックすると計算が始まります。行と列の数を確認するメッセージが現れます(このメッセージは、オプション・パネルで "Assisted entry mode"を選択しないことにより回避されます)。そして、truncation(切り詰め)の前と後のデンドログラムのためのグラフィック・オプション を選択します。我々は、別のシートにデンドログラムを表示することにしました。

../../../clust2.gif

1番目の結果は、ノードレベルのヒストグラムです。その形は、データの構造に関する多くのことを明らかにします。非類似度が大きい場合、我々がグ ルーピングしたグループがすでに均質になっています。 Automatic truncation は、いつオブザベーションを集めるのを(またはオブザベーションのグループ分け)を止めるかを決定するためにこれを使います。

../../../clust3.gif

以下のチャートがdendrogramです。これはアルゴリズムがどのように働いて、オブザベーションをグループ分けして、サブ・グループができる かを示します。ご覧のように、アルゴリズムはすべてのオブザベーションをグループ分けするこのに成功しています。点線は、automatic truncation(自動切りつめ)を示していて、4つのグループを導いています。1番目のグループはHawaiiとAlaskaを含みます。次の2つ のグループは1番目のグループからそれほど遠くありませんが、まだ距離があります。 4番目のグループは、最も大きなグループで、明らかに強い均質性があります。

../../../clust4.gif

各州のグループIDの表が、結果のシート上に表示されます。例が以下に示されています。この表は、さらなる分析のために元の表に融合(結合)できる ので便利です。

../../../clust5.gif