XLSTATによってどのようにヒストグラムを作成しますか?
データと結果のExcel sheetが こちらからダ ウンロードできます。E.coliの亜種による細菌汚染の有無を決定するため溶媒上で培養された200サンプルの河川水に対応するデータです。72時間の 保育の後にコロニーの数をカウントしました。Bact-Dataの列に200個のサンプルがあります。
まずXLSTATツールを使ってヒストグラムを作成できます。そして、distribution fittingツールを使って、(統計的な意味で)サンプルが負の二項分布に従っているかどうかをテストするとします。通常、負の二項分布は、水の環境中 でのバクテリアの凝集/拡散をよく表現します。
XLSTATを開いて、XLSTAT|Describing data|Histogramsコマンドを選ぶか、 "Describing data" ツールバー(下図)のt対応するボタンをクリックしてください。

ボタンをクリックすると、ダイアログ・ボックスが現れます。Excelシート上でデータを選択します。 "Data"はB列にあります。カウントは離散値なので、"discrete"オプションを有効にします。選択されたデータの1行目は変数名なので、 "Column label" オプションを有効にしたままです。

OKボタンをクリックすると計算が始まります。そして結果が表示されます。最初の結果の表はヒストグラムを作成するのに使われる度数と相対度数を表 示します。ヒストグラム上で、最も度数の高い値が0であり、それはデータの20%を超えていることがわかります。 つまり、サンプルの5個に1個以上の割合で、バクテリアが見つかっています。また度数は急速に減少しています。1個のサンプルで36個以上のコロニーがカ ウントされました。

負の二項分布関数とサンプルの間の適合をテストをしたいので、(クラス中に最小5データがあるカイ2乗検定が必要)、またバクテリアの正確な数がわ からないので、 カウントをより大きなクラスにグループ分けすることが必要でしょう。その理由により、我々の問題に密着しているであろう境界の一覧を作成しました: 0,1,2,3,4,5,10,15,20,40. 新しいクラスの度数が5より大きくても、恒常的に減少していることを検証するために、クラスの境界を 自由に設定できる"Discretization"ツールによって、新しいヒストグラムを作成します。
このツールを有効にするには、XLSTAT|Preparing data|Discretization コマンドを選択するか、"Discretization"ツールバー(下図)の対応するボタンをクリックしてください。

ボタンをクリックすると、ダイアログ・ボックスが現れます。Excelシート上でデータを選択します。 "Data"はB列にあります。 "List of bounds" のダイアログ・ボックスを有効にして、Excelシート上で境界を選択します。そして、 "Import"をクリックし、ダイアログ・ボックスの下部に境界と度数が現れます。もし必要であれば、境界を修正することができますが、我々のケースで は境界と度数が期待したとおり(カイ2乗検定の強制と互換で、最低度数が6)となりました。

"OK"ボタンをクリックすると計算が始まり、ヒストグラムが現れます。

この結果に満足なので、サンプルが負の二項分布に従っているかどうかを検定するためにdistribution fitting ツールを使うことができます。
このツールを有効にするには、XLSTAT|Modeling data|Distribution Fitting コマンドを選択するか、"Modeling Data"ツールバー(下図)の対応するボタンをクリックしてください。

ボタンをクリックすると、ダイアログ・ボックスが現れます。Excelシート上でデータを選択します。"Data"はB 列にあります。XLSTAT に負の二項分布関数のパラメータを "推定"させます。XLSTATは負の二項分布の2つの式を提示します。ケースに適合するのは2つ目で す。Kolmogorov-Smirnovとカイ2乗適合度検定(Goodness of fit test)のオプションを有効にします。それは我々の仮定を検定するのに必要です。 カイ2乗検定のために、境界をインポートします。

興味深い最初の結果は、(最尤法を用いて適合させた)負の二項分布のkとpのパラメータの値、そしてサンプルの推定と理論的な平均及び分散です。

平均と分散はそれほど違いがないことがわかります。それはサンプルのサイズ及び適合がよいという事実によって説明できます。注意:理論的な平均は kp、分散はkp(p+1)で与えられます。
Kolmogorov Smirnov検定は、経験的及び理論的な累積分布関数の間の最大偏差が棄却限界値よりも上かどうかを検定することができます。 結果より、有意水準0.05で(p-value=0.129)を得て、k=0.839, p=5.763のパラメータで負の二項分布に従うという仮説を棄却することができないと結論づけられます。この検定は、負の二項分布ではない連続分布関数 のためのカイ2乗検定よりも適していることが知られています。したがって、それはカイ2乗検定を実行することを意味します。
カイ2乗適合度検定(Chi-square goodness of fit test)は、経験と理論の分布関数の間のカイ2乗距離が棄却限界値よりも上かどうかを検定することができます。観察されたものと理論的な度数の間のビ ジュアルな比較が次の図の上で可能です。1と4のクラスでは少し差があるようです(バクテリアのないサンプルはより多く、クラス6に属するサンプルはより 少ない)。

このわずかの差にかかわらず、検定のために計算されたp-値 (0.360) は、我々が選択した0.05の棄却限界値よりも十分に高いです。したがって、カイ2乗検定は、Kolmogorov Smirnov検定の結果を分析したあとに得られた考えを立証します。
結論として、サンプルが収集された河川の中の興味あるバクテリアの存在は、平均4.8、分散32.7で負の二項分布(k=0.839, p=5.763)に従います。
