線形単回帰を実行するためにXLSTATをどう使いますか?

データと結果のExcelシートは、こちらか らダウンロードできます。データはLewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. の中で得られたものです。彼らは、237人の子供について、性別、年齢(月)、身長(インチ:1 inch = 2.54 cm)、 体重(ポンド:1 pound = 0.45 kg)を記述しました。

線形単回帰を使って、我々は子供の体重がどのように身長ともに変化するか、線形モデルが有効であることを確認します。線形回帰法は、ANCOVA や ANOVAを行う一般化線形モデル(GLM:Generalized Linear Models)と呼ばれるモデルの大分類の属します。このデータ集合は、説明変数として身長、年齢、性別とともに線形重回帰とANCOVAの2つのチュー トリアルでも用います。

XLSTATを開いた後、XLSTAT|Modeling data|Regressionコマンドを選択するか、 "Modeling Data" ツールバー(下図)の対応するボタンをクリックしてください。

../../../barreg.gif

ボタンをクリックすると、Linear Regressionダイアログ・ボックスが現れます。Excelシート上のデータを選択してください。"Dependant variable" (従属変数、または目的変数、モデルする変数)は、ここでは体重です。数量的説明変数は身長です。変数の列タイトルが選択されたので、"Column labels"オプションは有効のままにします。データが正規性の仮定に従っているかどうかを発見するためと、潜在的なはずれ値を識別するために、 "Residuals"(残差)オプションを有効にしておくべきです。

../../../reg1.gif

"OK"をクリックすると計算が始まります。そして結果が表示されます。1番目の表は、モデルの係数の適合の良さを示します。R2(決定係数)は、 説明変数によって説明される従属変数の分散の%を示します。より1に近いR2は、より良く適合しています。

../../../reg2.gif

このケースでは、体重の分散の56 %が身長によって説明されています。分散の残りは、この分析には含まれていないいくつかの効果(他の説明変数)によるものです。

分散分析表(下図)の結果を検討することは重要です。その結果は説明変数がモデルのための有意な情報(帰無仮説H0)をもたらすかどうかを決定する ことができます。言い換えると、それは母集団を記述するのに平均を使用することが有効かどうか、または説明変数によってもたらされる情報に価値があるかど うかをあなた自身で問う方法です。

../../../reg3.gif

フィッシャーのF検定を使います。F値に対応する確率は0.0001よりも小さいということは、帰無仮説(2つの変数に関係がない)が正しくないと いう仮定が0.01%よりも低いリスクであることを意味します。したがって、この3つの変数は有意な情報量をもたらすということを確信持って結論づけるこ とができます。

以下の表は、モデルの詳細を与えます。この表は、予測が必要なとき、もしくは与えられた母集団と別の母集団について係数を比較すること(それはここ で女子と男子のモデルを比較することに使用できました)が必要なときに役立ちます。Height(身長)パラメータの95%の信頼範囲がとても狭く、一方 モデルの切片についてのそれは広いことがわかります。モデルの数式は、以下の表に書かれています。変数Heightの範囲内において、それを考慮に入れ て、身長が1インチ増えるごとに体重が4ポンド増えることがわかります。

../../../reg4.gif

次の表は残差を示します。それは標準化残差のそれぞれをより詳細に見ることができます。これらの残差は、正規に分布しているはずだという線形回帰モ デルの仮定が与えられており、残差の95%は [-1.96, 1.96]の区間に入っているはずだということを意味しています。この区間の外側のすべての値は、潜在的なはずれ値であるか、または正規性の仮定が間違い であることを示唆するかも知れません。[-1.96, 1.96]区間に入っていない残差を抽出するために XLSTATのDataFlagger(データ・フラッガー)を使用しました。

111のうちから [-1.96, 1.96] の範囲の外側に5つの残差 (26, 38, 64, 69, 77)を識別でき、分析は正規性の仮定を棄却することをい導きません。より詳細な残差分析については、ANCOVAのチュートリアルを見てください。

1番目のチャート(下図参照)は、データ、回帰線(適合したモデル)、及び2つの信頼区間を視覚化できます:身長の与えられた値についての予測の平 均の信頼区間は、線の近くにあります。もう1つは、身長の与えられた値についての単一の予測の信頼区間です。線形的なトレンドがあることがはっきりとわか りますが、線の周辺には高いばらつきがあります。また [-1.96, 1.96]区間の外側にある5つのオブザベーションは、2番目の信頼区間の外側でもあります。

../../../reg5.gif

3番目のチャート(下図)は標準化残差対体重を視覚化します。それは体重によって残差が増えることを示します。

../../../reg6.gif

残差のヒストグラムは、範囲[-2, 2]の外にある残差を素早く視覚化します。

../../../reg7.gif

結論は、身長が体重の分散の56%を説明するということです。有意な情報量は、我々が使ったモデルでは説明されません。線形重回帰のチュートリ アルで、適合の品質を改善するために年齢の変数が追加されます。