ANCOVAを実行するためにXLSTATをどのように使用しますか?

データと結果のExcelシートはこちらからダウンロードできます。データはLewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. の中で得られたものです。彼らは、237人の子供について、性別、年齢(月)、身長(インチ:1 inch = 2.54 cm)、 体重(ポンド:1 pound = 0.45 kg)を記述しました。

共分散分析(ANCOVA)を使って、我々は子供たちの体重が、性別(fまたはmの値をとる質的変数)、身長、年齢とどう関係しているか、そして線 形モデルが有効であることを発見したいわけです。ANCOVA法は、線形回帰やANOVAと同様、一般化線形モデル(GLM: Generalized Linear Models)と呼ばれるモデルの大分類に属します。ANCOVAの特長は、定量的及び定性的な説明変数を混合していることです。線形回帰のほかの2つの チュートリアルでも、身長を含むデータ集合が使われています。そのとき身長と年齢は説明変数として使われました。

XLSTATを開いて、XLSTAT|Modeling data|ANCOVA コマンドを選択するか、"Modeling Data"ツールバー(下図)の対応するボタンをクリックしてください。

../../../baranco.gif

ボタンをクリックすると、ANCOVAダイアログ・ボックスが現れます。Excelシート上のデータを選択してください。 "Dependant variable"(従属変数、または目的変数、モデルする変数)はここでは体重です。数量的説明変数は、身長と年齢です。質的変数は性別です。変数の列 タイトルを選択したので、"Column labels" オプションを有効にします。Type I SSとIII SS オプション(SSは平方和の略)は、モデルにおける相対重みを分析するために有効にします。データが正規性の仮定に従っているかどうかを発見するため、そ して潜在的なはずれ値を識別するために"Residuals"オプションも有効のままにしておきます。

../../../anco1.gif

"OK"をクリックすると計算が始まります。そして結果が表示されます。1番目の表はモデルの適合の良さの係数を示します。R2(決定係数)は、説 明変数によって説明された従属変数のばらつきの%を示します。 R2が1に近づくほど良い適合です。

../../../anco2.gif

このケースでは、重みのばらつきの63 %が身長、年齢、性別によって説明されます。ばらつきの残りは、この実験で測定されなかったいくつかの効果(他の説明変数)によるものです。我々はいくつ かの遺伝的効果や栄養的効果が含まれることを推測できますが、ただ利用可能な変数の変形によってより良い結果が得られるかも知れません。

分散分析表(下図)を検討することは重要です。その結果は、説明変数がモデルに有意な情報(帰無仮説H0)をもたらすかどうかを決定することができ ます。言い換えると、母集団を記述するのに平均を使うことが有効であるかどうか、または説明変数によってもたらされる情報に価値があるかどうかをあなた自 身で問う方法です。

../../../anco3.gif

フィッシャーのF検定を用います。F値に対応する確率が0.0001よりも低いということは、帰無仮説(2つの説明変数に効果がない)が正しくない という仮定が0.01%よりも低いリスクであることを意味します。したがって、3つの変数が有意な情報量をもたらすと確信を持って結論づけることができます。

我々はまた3つの変数が同じ情報量を提供するかどうかを発見したいのです。これを行うために、我々はType I SS と Type III SS の表(下図)を検討しました。Type I SSの表は、変数を1つずつモデルに追加して行き、モデル平方和(Model SS)でそれぞれのインパクトを評価することによって構築されます。 ちなみに、Type I SSでは、変数が選択される順番が結果に影響します。与えられた変数に対応するFの確率がより低いと、その変数のインパクトがより強いことになります。身 長と年齢を追加すると、性別がモデルにほんのわずかの情報しかもたらさないことがわかります。

Type III SSの表は、モデルの品質における変数のインパクトを評価するために、モデルの変数を1つずつ削除して計算されます。これはType III SSでは変数が選択される順番が、値にどのような影響も与えないことを意味します。Type III SSは通常、モデルの一部に交互作用がある場合に、結果を解釈するために用いる最も良い方法です。与えられた変数に対応するFの確率がより低いと、モデル でのその変数のインパクトがより強いことになります。性別はモデルにわずかの情報しかもたらさないことがわかります。

../../../anco4.gif

以下の表はモデルの詳細です。この表は、予測が必要な場合、または与えられた母集団についてのモデルと他の母集団について得られるそれとを比較する ことが必要な場合に役立ちます。Gender(性別)パラメータのp値が0.83ということ、対応する信頼区間が0を含むことがわかります。これによって モデルにおける性別のインパクトが弱いことが確認できます。Gender-mに対応するパラメータを見ると、与えられた年齢と身長について、男子であるこ とは体重がわずかに少ないであろうことを意味します。

../../../anco5.gif

つぎの表は、残差を示します。それは標準化残差のそれぞれについて詳細に見ることができます。これらの残差は正規に分布しているはずだという線形回 帰モデルの仮定が与えられており、区間 [-1.96, 1.96]内に残差の95%が入っているはずだということを意味します。この区間の外側のすべての値は、潜在的なはずれ値であるか、もしくは正規性の仮定 が間違いであるかもしれないことを示唆します。 XLSTATの DataFlagger(データ・フラッガー)を使って、 [-1.96, 1.96]区間の中にない残差を抽出することできます。

237個のうちから16個の疑わしい残差が識別でき、それは5%ではなく6%です。つまり、分析は正規性の仮説を棄却することを導きます。残差のよ り深い分析は、 distribution fitting(分布フィッティング)のチュートリアルで 行います。 

1番目のチャート(下図)は、標準化残差対体重の可視化を可能にします。これは体重に伴う残差の増加を示します。残差のヒストグラムは、 [-2, 2]の範囲の外側にある残差を素早く可視化することができます。

../../../anco6.gif

結論として、身長と年齢、性別は、体重のばらつきの63%を説明します。我々が使用したANCOVAモデルではn、有意な情報量が説明されませんで した。さらなる分析が必要です。