XLSTAT-Pivot によるインテリジェント・ピボット・テーブルはどのように作成しますか?

データと結果のExcelシート(zipファイル)はこちらからダウンロードできます。米国国 勢調査局(http://www.census.gov) による1994年の国勢調査で収集されました。このデータは新しいアルゴリスムの予測性能を評価するために何度も使われてきました。各レコードは、年齢や 職業、教育、性別など、個人に関する15個の記述子からなります。レコード数は、32561に限定されました。重み変数(各個人に母集団での正確なパーセ ンテージを表現できる)は、以下の事例では使われませんでした。XLSTAT-Pivot の次のリリースでは、重みを考慮に入れることができるでしょう。

ゴールは、個人の税収が50k$より大きいか小さいかの事実(対応する変数は列Oです)に最も影響する因子と因子の組み合わせを理解することに役立 つピボット・テーブルと寄与率グラフを素早く作成することです。XLSTAT-Pivot はこれを素早く簡単に行うことができます。

XLSTATを開いて、 XLSTAT|KXEN's modules|XLSTAT-Pivot コマンドを選択するか、"KXEN" ツールバー(下図)の対応するボタンをクリックしてください。

../../../barkx1.gif

ボタンをクリックすると、XLSTAT-Pivot ダイアログ・ボックスが現れます。Excelシート上でデータを選択してください。最初の行はラベルに対応し、次の行はデータに対応するので、XLSTAT の最も早い選択モードを使うことができます。:対応する文字の上でクリックして列を直接選択してください。最初の行は変数の名前に対応するので、 "Labels included"オプションを選択してください。メモリとディスク・スペースを節約したいので、仲介のシートを消去してください。説明変数は、質変数で も量的変数でもよいことに留意してください。XLSTAT-Pivot は自動的に変数のタイプを決定するので、"Explanatory variables" フィールドに質的変数を量的変数が混在することが可能です。我々はモデルにWeight"の列を含めたくないので、説明変数について多重選択を行いました (多重選択をするには、Ctrlキーとマウスを使ってください)。

説明される変数はバイナリなので、対応するオプションが選択されました。バイナリ変数は "0/1"の変数に変換され、1は少ない度数のカテゴリに対応することに注意してください。 我々の事例では、これは ">50K" のケースに対応します。

../../../kx1.gif

そして、XLSTAT-Pivotがデータの修正を開始できるように、"Format" をクリックしてください。XLSTAT-Pivot は、まず欠損値を探して、あなたがそれらを消去するか、あるいは欠損値がモデルに情報を提供するなら、Pivot アルゴリズムに平均(量的変数の場合)またはモード(質的変数の場合)をとらせるか、または新しいカテゴリを作らせるかの選択を提供します。この事例で は、欠損値によって個人を消去することにしました。修正されたデータが新しいシートに表示されます。

XLSTAT-Pivot がデータのタイプの良い認識を持っているかどうかを確認したい場合は、"Prepare a description" を選択して"Prepare"をクリックしてください。そして、変数のタイプを可視化するために"Edit"ボタンをクリックしてください。

../../../kx2.gif

変数"Number of years of study"のタイプをOrdinal(順序)からContinuous(連続値)に変更することにして、そして"Validate"(確認)をクリック します。."Model data"オプションを選択して、モデリング・フェーズを開始するために、 "Model"をクリックします。XLSTAT -Pivotは最適解を見つけるまで、ダイアログ・ボックスの中に計算情報を表示します。

../../../kx3.gif

最後のダイアログ・ボックスは、隠されたモデルの全体的な知見を与えながら最適ピボット・テーブルを作成するためのオプションを表示します。:
Ki:この指標は、目的変数を説明するために説明変数によってもたらされる情報量を%で示します。このコンセプトは、線形回帰の話のときのR2のコンセプトに良 く似ています。The closest to 100% the Ki が100%に近いほど、説明変数が目的変数をより説明します。
Kr: この指標は、モデルの頑健さ(ロバスト性)を測ります。モデルの頑健さは、新しいデータ集合への適応能力に対応します。XLSTAT-Pivotは、モデ ルの調整のためにデータの75%を使い、モデルの確認のためにデータの25%を使います。もしKr が95%よりも上ならば、モデルは頑健だと言われます。

ピボット・テーブルの上で使いたい変数を選択してください。モデルへの変数の寄与率が、変数名の次に表示されます(より高い寄与率は、目的変数の分 散を説明するためにそれがもたらす情報量がより多いということです)。選択に満足したら(この事例では、我々はデフォルトのオプションから何も変更しませ んでした)、"Create"(作成)をクリックしてください。変数の寄与率のヒストグラムとダイナミック・ピボット・テーブルを持つ新しいシートが表示 されました。

../../../kx4.gif

グラフは、税収に高い効果を持つ変数が、Marital status および Education levelで あることを確認します。

ダイナミック・ピボット・テーブルは、カテゴリの各組み合わせに関する4つの値までを表示できます:
目的変数:バイナリ変数の場合、目的変数が1に等しいケースのパーセンテージ;連続変数の場合、組み合わせに対応する部分集合での計算された目的変数の平均値;
目的サイズ: バイナリ変数の場合、目的変数についての事象"1"のカウント;連続変数の場合、組み合わせに対応する部分集合での計算された目的変数の合計値;
母集団サイズ%: 組み合わせに対応する全体の母集団のパーセンテージ
母集団サイズ:組み合わせに対応する母集団サイズ

ここをクリックする とピボット・テーブルのスクリーン・ショットが見られます。

さて我々は、人々が50k$以上を稼ぐ事実に最も影響のある組み合わせを識別するために、ダイナミック・ピボット・テーブルを分析するべきです。 ">50k$" の人々の最も高い%を持つ組み合わせは、[Doctorate ; Prof-School] と [Married-civ-spouse]に属するときだということがわかります。

ピボット・テーブルがあれば、さまざまな説明変数のカテゴリがどのようにお互いに関連しているかを知るために、コレスポンデンス分析を行うことは興 味深いでしょう。入力の表を作成するために、"Target size" の値のみを保持してください。