線形重回帰を実行するためにXLSTATをどう使いますか?
データと結果のExcelシートはこちらからダウンロードできます。このデータは、Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.の中で得られたものです。彼らは 237人の子供について、その性別、年齢(月)、身長(インチ:1 inch = 2.54 cm)、体重(ポンド:1 pound = 0.45 kg)を記述しました。
線形重回帰を使って、体重が身長及び年齢によって説明され、線形モデルが有効であることを確認します。線形回帰モデルは、 ANCOVA やANOVAを行う一般化線形モデル(GLM:Generalized Linear Models)と呼ばれる大分類に属します。このデータ集合は、性別を追加の説明変数としてANCOVAのチュートリアルでも使用されます。
XLSTATを開いて、XLSTAT|Modeling data|Regression コマンドを選択するか、"Modeling Data" ツールバー(下図)の対応するボタンをクリックしてください。

ボタンをクリックすると、Linear Regressionダイアログ・ボックスが現れます。Excelシート上のデータを選択してください。"Dependant variable"(従属変数、または目的変数、モデルする変数)は、ここではWeight(体重)です。数量的説明変数は、Height (身長)とAge(年齢)です。変数の列タイトルが選択されたので、 "Column labels" オプションは有効のままにしておきます。データが正規性の仮定に従っているかどうを発見するためと、潜在的なはずれ値を識別するために、 "Residuals"(残差)オプションも有効にしておきます。

"OK"をクリックすると計算が始まります。そして結果が表示されます。1番目の表は、モデルの係数の適合の良さを示します。R2(決定係数)は、 説明変数によって説明された従属変数のばらつきの%を示します。R2が1に近づくほど、より良い適合です。

このケースでは、体重のばらつきの59%が身長と年齢によって説明されます。ばらつきの残りは、この分析には含まれていないいくつかの効果(他の説 明変数)によるものです。
分散分析表(下図)で結果を検討することは重要です。この結果は、説明変数がモデルのための有意な情報(帰無仮説H0)をもたらすかどうかを決定す ることができます。言い換えれば、母集団を記述するのに平均を用いることが有効であるかどうか、または説明変数によってもたらされる情報に価値があるかど うかをあなた自身で問う方法です。

フィッシャーのF検定を用います。F値に対応する確率が0.0001よりも低いことは、帰無仮説(2つの説明変数の効果がない)は正しくないという 仮定が0.01%よりも低いリスクであることを意味します。したがって、この3つの変数は有意な情報量をもたらすと確信を持って結論づけることができま す。
以下の表はモデルの詳細です。この表は予測が必要な場合、または与えられた母集団についてのモデルの係数と他の母集団でのそれを比較する(ここでは 女子と男子についてのモデルを比較することにそれが使われます。)ことが必要な場合に役立ちます。Height (身長)パラメータの95%の信頼範囲はとても狭く、一方、Age(年齢)パラメータのp値がHeightパラメータのそれよりもとても大きいこと、そし てAgeの信頼区間はほとんど0を含むことがわかります。これはAgeの効果がHeightの効果よりも弱いことを示します。モデルの数式は以下の表に書 かれます。与えられた身長において、年齢は体重に正の効果を持ちます:年齢が1ヶ月増えるごとに体重が0.2ポンド増えます。

次の表は残差を示します。それは標準残差のそれぞれを詳細にみることを可能にします。これらの残差は正規に分布しているはずだという線形回帰モデル の仮定が与えられており、区間[-1.96, 1.96]内に残差の95%が入っているはずだということを意味します。この区間の外側のすべての値は、潜在的なはずれ値であるか、もしくは正規性の仮定 が間違いであるかもしれないことを示唆します。 XLSTATの DataFlagger(データ・フラッガー)を使って、 [-1.96, 1.96]区間の中にない残差を抽出することできます。
111のうちから、 [-1.96, 1.96] の範囲の外にある8つの残差を識別できます。それは5%ではなく7%です。分析は正規性の仮定を棄却することを導きます。残差のより深い分析は、 ANCOVAのチュートリアルで行います。
1番目のチャート(下図)は、標準化残差対体重の視覚化です。これは残差が体重とともに増えることを示します。残差のヒストグラムは、[-2, 2]の範囲の外にある残差を素早く視覚化できます。

結論として、身長と年齢は、体重のばらつきの59%を説明します。我々が用いたモデルによって有意な情報量は説明されません。 ANCOVAのチュートリアルでは適合の品質を改善するために性別が追加されます。
