オブザベーションをグループ化するために k-meansクラスタリングをどのように使いますか?
このチュートリアルで使用するデータと結果のExcelシートはこちらからダウンロードできます。 このデータは米国国勢調査局もので、2000年と2001年の間の51州の人口変化を記述しています。(注意:オリジナルのファイルは次のURLからダウ ンロードできます。http://eire.census.gov/popest/states_dataset.csv)。元のデータ集合は、分析の焦点である2001年のデータとの1000人ごとの比率に変形されています。我々の目的は、利用可能な人口統計データに基づい て、州の均質なクラスタを作成することです。
注意:k-means法はランダムなクラスタ選択からスタートするので、同じデータについて下記の同じ分析を再実行しても、ほとんどの場合、下記と は異なる結果が得られます。
XLSTAT-Proを有効にして、 XLSTAT|Analyzing data/k-means clusteringを選択するか、"Analyzing Data" ツールバー(下図)の対応するボタンをクリックしてください。

Oボタンをクリックすると、the k-means clusteringダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。(注意:XLSTATでの データ選択にはいくつかの方法があります。詳細は、 XLSTATチュートリアルのデータ選択のセクションを見てください。)この事例では、データが1行目から始まっているので、列選択を使うのが速くて簡単です。これはなぜ列に対応する 文字が選択ボックスの中に表示されるのかを説明します。我々は人口のダイナミクスに興味があるので、変数Total population
は選択しませんでした。最後の列は、その前の列と完全に相関しているので選択しませんでした。我々は作成するグループの数を4としました。
グループ作成がスケーリング(尺度)の効果に影響されるのを避けるためにStandardizeオプションを選択します。 "More"ボタンは高度なオプションを表示します。結果のクォリティと安定性を増すために、repetitionsの数とiterationsの最大の 数を100 に増やします。

"OK"をクリックすると計算が始まります。行と列の数を確認するメッセージが現れます。(このメッセージは、オプション・パネルで "Assisted entry mode" を選択しないことによって回避されます。)
1番目の結果は、repetitions(反復)間の最適解のためのinertia(慣性)の表です。最適解は、グループ間のinertiaを最大 化するもの(あるいはグループ内のinertiaを最小化するもの)が選ばれます。(Total inertia = Between-groups inertia + Within-groups inertia.) Inertiaは、人口の分散に比例します(Inertiaを人口のサイズで割りると人口の分散が得られます)。)

各州についてのグループIDの表が表示されます。例が以下に示されています。この表は、各オブザベーションについての安定したグループも含みます。 これはさまざまなrepetitionsの分析から得られ、それはオブザベーションがいくつかの安定したグループに属するかどうかを示します。クラスタ IDは、さらなる分析(たとえば判別分析)のために、元の表に融合(または結合)できます。

次の表は、各クラスタ内の分類されたオブザベーションを示します。

階層クラスタリングのチュートリアルと比較すると、データの大多数が同じグループに属すると はいえ、2つの手法は異なる結果をもたらすことがわかります(我々は類似したサイズのグループを比較します)。例として、両方のケースで31個のオブザ ベーションを持つ最大のグループにおいて、25州が両方の手法で識別できます。
次の表は、クラスタの重心(centroids)及び、各クラスタについて、重心に最も近いオブザベーションとそれらの座標を表示します。

最後に、10個の最善のrepetitionsについての概要情報を表示します。,これをみてわかるように、このアルゴリズムは各 repetitionsについて、とても速く収束します。最初のiteration(繰り返し)から最後のiterationまでにグループ内の inertiaがどのように展開するかがわかります。


