第7回 t分布・カイ二乗分布
宿題
1.第5回の宿題で調査したデータを用いて,2種類の卵の重さの母平均が同じであるかを有意水準5%でt検定せよ.また,それぞれの卵について,その母平均および母標準偏差を95%信頼区間をつけて,推定せよ.
対応のない2つの小標本に関するt検定では2つの標本の母分散が等しいことが条件として求められます.2つの標本の母分散が等しいかを検定するのはF検定でできます.もし2つの標本の分散が異なる場合はWelchの検定によって,2つの小標本の平均を検定します.Welchの検定については授業では説明しませんでしたが,エクセルではt検定同様に簡単に検定できます.
前回の講義では,標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて,検定しました.しかし,標本数が少ないときは母分散を標本の分散から推定する誤差があるために,その不確実さを加味したt分布によって,推定・検定しなければいけません.
3.t検定
95%の信頼区間で母分散を推定する場合,
平方和をS,自由度をf,サンプル数をn,標本の分散をVとすると
母分散σ2は次の区間にp%の確率で入る
5.カイ二乗分布を使った分散の区間推定
カイ二乗分布を利用すると,標本から得られた分散を利用して,母分散を区間推定することができます.
4.カイ二乗分布
母分散が既知の時に標本の分散がどのような分布を示すかを表すのがカイ二乗分布です.カイ二乗分布は自由度だけで決定し,母分散の値σ2は関与しません.
以上のことから帰無仮説(分散は変化しなかった)は1%の有意水準で棄却されました.したがって,乳脂肪率の分散は変化したと結論できました.
カイ二乗分布を用いて,ある標本の分散がある値であるかということを検定できます.
例:K牧場の牛の乳脂肪率の標準偏差は0.07%であった.新しい飼育法の導入で乳脂肪率にばらつきが変化したかを知りたい.12頭を無作為に調査した結果は以下の通りである.
7.02,7.03,6.82,7.08,7.13,6.92,6.87,7.02,6.97,7.08,7.19,7.15
6.カイ二乗分布を使った分散の検定
例として,メンデル遺伝で分離の法則に従ったデータが得られたかを検定してみよう.
自由度が1の場合は,χ2の値がやや高めに算出されるため連続性を補正するのに0.5を(Oi-Ei)から引いてから二乗します.
7.カイ二乗検定の応用
カイ二乗検定はメンデル遺伝の分離比や,計数(比率)データの標本(群)の差の検定にも利用できます.イエス−ノー,生−死など二者択一的なデータであるため範疇データとも呼ばれます.この場合には次の値を算出し,カイ二乗表に照らして検定します.
帰無仮説: 分離比は9:3:3:1である.
対立仮説: 分離は9:3:3:1ではない.
例:花色赤色・草丈が高い×花色白色・草丈が低いを交配したF1はすべて花色赤色・草丈が高いとなった.F1同士を交配した結果,以下の表のような結果を得た.これは9:3:3:1の分離比に適合するかを検定せよ.
遺伝子型 |
表現型 |
観察値Oi |
分離比 |
理論値Ei |
赤−高− |
花色赤色・背丈が高い |
65 |
9 |
160×9/16=90 |
赤−低低 |
花色赤色・背丈が低い |
50 |
3 |
160×3/16=30 |
白白高− |
花色白色・背丈が高い |
30 |
3 |
160×3/16=30 |
白白低低 |
花色白色・背丈が低い |
15 |
1 |
160×1/16=10 |
計 |
|
160 |
16 |
3.次回から分散分析といい,同時に得られた3つ以上の標本について,その母集団の平均に有意な違いがあるかを検定する方法を学ぶ.試みに次のような調査のうち1つを選んで調査を行い,一番差の大きい2つの間でt検定を試して見よ.
@ 3つ以上のスーパーの卵(10個以上をそれぞれ調べる)に重さの違いがあるか?なお,別に卵でなくてもかまわない.
A 3つ以上の品種のイネの1穂穎花数(10穂以上をそれぞれ調べる)に差があるか?これも別にイネの穂に限らない.
B 3つ以上の栽培方法あるいは品種の異なる果実の糖度あるいは酸度(10果以上についてそれぞれ調べる)に差があるか?
1.t分布
標本が十分に大きいとき,あるいは母分散が既知のときは正規分布を使って,母平均を区間推定したり,母平均に関する検定を行うことができます(前回の講義).しかし,標本があまり大きくないときは,標本分散が母分散に等しいと仮定できなくなります.そのときはt分布を使って,標本から母平均を区間推定したり,母平均に関する検定を行います.
2.t分布による区間推定
標本が小さいときでも点推定では標本平均をそのまま母平均の点推定値とします.しかし,この点推定がどれだけの誤差を含んでいるかはこれでは全く評価できません.したがって,信頼区間をつけて区間推定する方がよいことがわかります.
信頼率Pのときの母平均μの信頼区間は以下の式を用いて計算できます.
エクセルを用いて,t分布を利用した母平均の区間推定をする方法は2つあります.ひとつは先ほどの式を利用して,計算する方法です.
エクセルではt(f, 1-P)はTINV(1-P, f)という関数で計算できます.したがって,エクセルでは信頼率Pのときの母平均μの信頼区間は,
例題:A公園の桜から6本の桜を無作為に選び,木についた花の数を数えた.結果,以下のデータを得た.
123,156,168,190,211,234.A公園の桜の花の数(の母平均)を95%および99%信頼区間をつけて区間推定せよ.
もう一つの区間推定の方法は,エクセルの分析ツール→基本統計量を使う方法です.例題を計算すると以下の通りになります.
エクセルで計算する場合は以下の通りになります.
1.帰無仮説と対立仮説の設定
2.P値の計算
帰無仮説が成り立つとしたら,今回の標本が得られる確率であるP値はエクセルでは以下の式で計算します.
自由度が1であり,補正して計算する必要のあるときは以下のようにして,エクセルで計算します.
2.第5回の宿題で調査したデータについて,今回返した前回の宿題の講評の最後に書いてある母平均ならびに母分散についての検定を行え.