XLSTATによる主成分分析(PCA)はどのように実行しますか?
このチュートリアルで使うデータと結果のExcelシートはこちらからダウンロードできます。このデータ は、 米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。(注意:オリジナル・ファイルは次のURLからダウン ロードできます。http://eire.census.gov/popest/states_dataset.csv ) 元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。我々の目的は、変数間の相関を分析するこ とと、いくつかの州で他の州よりとても異なる変化があるかどうかを発見することです。この事例は、階層型クラスタリングのチュートリアルでも用います。
PCAは、M個のオブザベーション / N個 の変数
の表にまとめられた数値データを分析するのにとても便利な手法です。それは次のようなことができます:
N個の変数間の相関を素早く可視化し分析する。
M個のオブザベーション(もともとはN個の変数で記述される)を低次元のマップ、分散基準の最適な視角で、可視化し分析する。
他の統計手法(例えば回帰など)の入力として再利用できるP非相関係数 (P<=N) の集合を構築。
PCAの限界は、それが射影の方法であることから由来します。そして、ときどきその可視化は間違った解釈を導きます。ただし、これらの落とし穴を避 けるためのいくつかのトリックはあります。
XLSTAT-Pro を起動して XLSTAT|Analyzing data|Principal components analysis
コマンドを選択するか、"Analyzing Data" ツールバー(下図)の対応するボタンをクリックしてください。


Principal Component analysisダイアログ・ボックスが現れます。そして、Excelシート上のデータを選択してください。(注意:XLSTATによる データの選択には複数の方法があります。 詳細は、XLSTATのチュートリアルのデータの選択のセクションを確認してください。) この事例では、データは最初の行から始まっていますので、列選択を使うのが速くて簡単です。これは、なぜ列に対応する文字がselection boxesの中に表示されるかを説明します。すべての他のオプションは、デフォルト値のままにします(1行目が変数の説明なのでLabels included は有効にされました)。入力データの形式により、選択された Type は "Obs/Variables" です。他の可能な入力形式は、"Correlation matrix"(相関行列)と"Covariance matrix"(共分散行列)です。計算の間使用される "Type of matrix" (行列のタイプ)は、伝統的な相関係数に対応するPearson's correlation matrix (ピアソン相関行列)です。

"OK"をクリックすると計算が始まります。行と列の数の確認(このメッセージは、オプション・パネル中の "Assisted entry mode"を非選択にすることによってバイパスできます)とグラフィクス・オプションの選択のためのメッセージが表示されます。 ここで、両方のチャートにステートラベルを表示するよう選択します。もし、多くのデータがあれば、ラベルを表示することによって結果の全体表示が遅くなる かもしれません。しかし、その場合であっても、個々の部分集合を選択することもなお可能です。そのことによって、表示のスピードを上げ、結果が理解しやす くなるでしょう。

この事例では、最初の2因子で表現された分散の%は、それほど高くありません(67.72%); 結果の誤解釈を避けるために、軸1と軸3上の2番目のチャートによって、結果を完成させることにしました。

最初の結果は、このような相関行列でした。我々は、人々の比率の65より下と上は、負の相関(r = -1)であることがわかります。2つの変数のどちらかが結果のクォリティに影響することなしに削除されます。また、Net Domestic Migrationは、 Net International migrationを含む他の変数とほとんど相関がないこともわかります。これは、米国の国民と非国民が、さまざまな理由で州を移動しているかもしれない ことを意味します。

次の表と対応するチャートは、N次元の元の表(この事例ではN=7)からより低い時限への写像の品質を反映するeigenvalues(固有 値)という数学的なオブジェクトに関係しています。この事例では、1番目の固有値は、3.567 に等しく、分散の合計のand represents 51%を説明していることがわかります。 これは、もし我々がそのたった1つの軸上でデータを説明した場合、データの分散の合計の何パーセントをまだ見ることができるかを意味します。
各固有値は因子に対応しており、各因子は1次元に対応しています。因子は、元の変数の線形重ね合わせになっており、すべての因子は非相関(r=0) です。固有値と対応する因子は、それらが元の分散をどれだけ説明するか(%変換)により降順に並び替えられています。


理想的には、最初の2つか3つの固有値が高い分散に対応し、最初の2つか3つの因子に基づくマップが、元の多次元の表の品質のよい写像であることを 保証するでしょう。この事例では、最初の2つの因子で、データの元の分散の 67.72%を説明することができます。 これは良い結果ですが、いくらかの情報が次の因子に隠れているかも知れないので、マップを解釈するときには注意深くなければなりません。もとは7つの変数 を持っていましたが、因子の数は6だということがわかります。 これは、負の相関(-1)を持つ2つの年齢の変数のためです。"役に立つ"次元の数は、自動的に探索されます。
1番目のマップは、correlation circleと呼ばれます(下図のF1とF2軸上)。それらは因子空間での元の変数の写像です。2つの変数が中央から遠い場合、もしそれらが: お互いに接近していたら、それらは有意に正の相関である (r が1に近い) もしそれらが直交していたら、それらは相関していない (rが0に近い) もしそれらが中央をはさんで反対側にあれば、それらは有意に負の相関である(rが-1に近い)
変数が中央に近い場合、それはいくらかの情報が他の軸に載っていて、どのような解釈も危険であることを意味します。たとえば、変数 Net Domestic migration とNet International Migrationの間の相関を解釈するように誘惑されるかも知れませんが、実際には、相関はありません。これは相関行列を見るか、F1と F3軸上のcorrelation circleで見て確認することができます。

correlation circleは軸の意味を解釈するのに役立ちます。この事例では、水平の軸は年齢 と 人口の更新、垂直の軸は国内移住にリンクしています。これらの傾向は、次のマップを解釈するのに役立ちます。変数が軸によくリンクしていることを確かめる ために、squared cosines tableを見てください: squared cosineがより大きいのは、対応する軸へのリンクがより大きいことを意味します。よりゼロに近いsqaured cosineが変数に与えられるのは、.対応する軸上のトレンドの意味において、結果を解釈するときはより慎重でなければなりません。 この表を見て、我々は、国際移住のトレンドはF2/F3軸上で最もよく見えることがわかります。

次のチャートは、PCAの究極の目的かもしれません。それは2次元のマップでデータを見て、トレンドを識別することを可能にします。ネバダ州とフロ リダ州の人口統計はユニークで、ユタ州とアラスカ州の人口統計がそうであるように、共通の特徴を持っている2つの州だとわかります。。表に帰って、ユタ州 とアラスカ州が65歳を超える人々の人口比率が低いことを確認できます。ユタ州は米国で最高の出生率で、アラスカ州も高くランクされています。

XLSTAT-Miner3Dで生成された最初の3軸上の3次元の可視化を見るには
をクリックしてください。
主成分分析は、回帰分析の前に相関した変数を使用するのを避けるために、またはデータをクラスタリングする前に変数の概観をより良く得るために、しばしば用いられます。よくマップに基づいてクラスタの数を簡単に推定したります。 上記の人口データは、階層クラスタリングのチュートリアルでも使用されました。変数">65 pop" は、その内容が分析における年齢変数の重みを2重にするので削除されました。

