第6回 統計的検定
1.母分散が既知,あるいは大標本の平均に関する統計的検定
標本平均は標本の大きさが十分に大きければ正規分布に従う.そこで正規分布の性質から標本から得た統計量を利用して,母集団に関する統計的な検定をすることができます.
例えば,次の例を考えてみましょう.
例: 枕木養鶏舎では平均45gの卵を集荷している.枕木山の木を伐採し,鶏舎の日当たりをよくした.その結果,卵100個を調査すると,平均47g,標準偏差5gとなった.卵の重さは変化したのだろうか.
1.帰無仮説を設定する.
前回,学んだように統計的検定でできるのは仮説の反証を示すことだけです.ここで仮説は検証可能な仮説である卵の重さに変化はなかったということです.卵の重さに変化はなかったのにもかかわらず,今回のデータを得る確率はいくらかを計算し,その確率がある一定の確率以下であれば,元の仮説(帰無仮説)がむしろ間違っていると判断し,対立仮説(卵の重さは変化したあるいは増加した)を採用するのです.
このように統計的検定では帰無仮説に対する反証を示すことで対立仮説が正しいとする方法をとります.
2.必要なデータは何かを確認する.
まず,帰無仮説は卵の重さは変わらなかったというのですから,卵の重さの平均は45g,標準偏差は5gということになります.一方,今回のデータは卵の重さの平均は47gです.データの数は100個です.従いまして,今回のデータの卵の重さの標準誤差は
3.統計検定量を求める.
この場合,次のz0を求めます.
このz0は標準正規分布に従います.したがって,z0の絶対値が1.96より大きくなる確率は5%であり,2.576より大きくなる確率は1%です.今回のデータからはz0は4となりましたから,このようなz0を得る確率は1%よりも小さく,帰無仮説が正しいとするとめったに起こらないことになります.したがって,帰無仮説(卵の重さは変わらなかった)の反証が示されたと考え,帰無仮説は棄却され,対立仮説を採用します.
4.もう一つの検定の仕方
3.のやり方はコンピューターの利用が困難で,標準正規分布の表を見て,検定する時代のものでした.今では,だれでも容易にコンピューターで正規分布に関する計算ができますから,むしろ次のように検定する方がよいでしょう.
5.片側検定
例:B牧場では牛の餌をF社からG社に変えた.G社の餌はより栄養価が高いので,F社のときの泌乳量5.0L,標準偏差0.8Lより向上すると予想した.実際に100頭を調査した結果,泌乳量は5.2Lとなった.泌乳量は増加したか?
帰無仮説: 泌乳量は5Lである.
対立仮説: 泌乳量は5Lより増加した.
z0<2.326ですから,危険率1%で帰無仮説は棄却できます.
このような片側検定もエクセルで計算できます.
正規分布に基づく検定
宿題
1.第4回の宿題4.で調査したデータについて帰無仮説は2人の間に実力差はないとし,有意水準5%として,二項分布するという仮定の下で検定せよ.
対立仮説を証明したいのに,帰無仮説のようなものを持ち出すのはまどろっこしく感じるかもしれません.しかし,統計的にできるのは帰無仮説の否定だけです.その理由は以下の2つです.
★ 「甲は乙より速い」といっても,どのくらい速いのか,甲が乙に勝つ確率はいくらなのか,がはっきりしない.これを明確に規定できなければ,数量的に取り扱えない.
★ 仮に仮説を数量的に規定できても,それが真実であることを統計的には証明できない.統計的にできることは,仮説に対する「反証」を提示することだけである.
3)統計的検定に必要な統計量を集めます.そして,必要な値を計算し,所定の方法で帰無仮説が棄却できるかどうかを判定します.
2)対立仮説の設定
もし帰無仮説が棄却されたときに採用される対立仮説を設定します.前述の例では奇数と偶数の目が同じ確率では出ないというのが対立仮説です.もしくは奇数の目が偶数の目より出やすいという対立仮説を立てることもあります.
1)帰無仮説の設定
統計的検定によって否定したい仮説を立てます.これを帰無仮説といいます.前述の例ではこのさいころは奇数と偶数の目が同じ確率で出るというのが帰無仮説になります.
上の例では,母数について奇数と偶数が同じ確率で出るという予想をたて,それを否定しているので,これは統計的検定です.検定の手順は次のようになります.
1.統計的検定
例: あるさいころを5回振ったところ,5回とも奇数だった.二項分布から5回とも奇数になる確率は1/32(0.03125)である.このような低い確率が出ることからこのさいころは奇数と偶数が同じ確率で出ると考えるよりも,奇数が出やすいと結論した.
|
本当に成り立っているのは |
H0 |
H1 |
検定結果 |
H0 |
正しい
(その確率:1−α) |
第2種の誤り
(その確率:β) |
H1 |
第1種の誤り
(その確率:α) |
正しい
その確率:1−β=検出力 |
2)第2種の誤り
しかし,5回続けて奇数の出るさいころが正しいさいころであるよりは,奇数の出やすいさいころと考える方がありそうです.このように帰無仮説が誤りであるにもかかわらず,これを否定しない過誤を第2種の誤りといいます.第1種の誤りを減らすために有意水準を小さくすれば,第2種の誤りの危険率,すなわち検出力βは低下します.帰無仮説をH0,対立仮説をH1とすると,2種類の誤りと検定結果には下の表のような関係があります.
3.第1種の誤りと第2種の誤り(有意水準と検出力)
1)第1種の誤り
帰無仮説が正しいにもかかわらず,これを否定する過誤を第1種の誤りといいます.さいころの例では,本当はさいころは正しくできているのに,たまたま5回続けて奇数が出ることもあり,このときに第1種の誤りを犯すことになります.
第1種の誤りを犯す危険率を有意水準といい,αで表すことがあります.有意水準を小さくして,検定すれば,第1種の誤りを犯す危険は小さくなります.さいころの例でいえば,,10回続けて奇数が出なければ,帰無仮説を否定しないとすれば,有意水準0.001で検定したことになり,そういうことは1000回に1回しかないので,帰無仮説を否定できると結論できます.
さいころの例でいえば,さいころで奇数と偶数が同じ確率で出るとしたら,今回の結果のように奇数が5回出ることはきわめてまれであると考えます.したがって,元の仮定である「このさいころでは奇数と偶数が同じ確率で出る」は疑わしいと結論するわけです.統計的検定ではこのように数値的に明確な仮説から得られる確率を実際に得たデータと比較して,どのくらいありそうかを判断します.だから,はじめから,この確率でこのさいころでは奇数が出るとしても,証明しようがないのです.
2.二項分布を利用した統計的検定(実際にはこんな検定はしません.あくまで検定とはどういう思想を元にしているのかを説明するためのモデルとしてこの節は読んでください.)
例題:
A君は対戦型ゲームでキャラクターBと互角に戦えると主張しているが,実際やってみると1勝9敗だった.A君の主張の真偽を統計的に検定せよ.
1)帰無仮説と対立仮説を立てます.
この場合,
帰無仮説は「A君はキャラクターBと互角に戦う」すなわち「A君がキャラクターBに勝つ確率は0.5である」,
対立仮説は「A君はキャラクターBより弱い(互角でない)」すなわち「A君がキャラクターBに勝つ確率は0.5でない」
2)二項分布に従うとすると,帰無仮説が成り立つとした場合,A君が1勝9敗となる確率は以下のように計算できます.
3)下のグラフの点線で囲んだ部分が今回のような結果が起こる確率だと考えられます.
有意水準を5%とすると,帰無仮説が成り立つとしたときにA君が1勝あるいは0勝である確率は0.011となる.したがって,帰無仮説は棄却され,A君はキャラクターBと互角ではない,勝つ確率は0.5ではないといえます.
注意)
A君が1勝9敗となる確率だけで計算してはいけません.例えば勝負を1000もやればちょうど500勝500敗になることのほうがきわめてまれになります.互角だとすると,1勝のような極端な負け方をする確率はどのくらいであるかを考えるので,0勝および1勝の2つの場合を合計します.(正確には10勝,9勝という反対側の極端な結果も足すべきです:後述する両側検定に相当します).
2.第3回の宿題で調べたデータについて,今回返した講評の最後に書いてあることについて検定を行え.