第8回 F分布・分散分析その1 一元配置の分散分析
3.t検定の限界と分散分析の導入
t検定では2つの標本について,その母平均が異なるのかを検定しました.これを拡張して,3つ以上の標本についてその母平均が異なるのかを検定することを考えてみましょう.
例:ヤギの成長がよくなるという薬A,B,C,Dを対照区とともに調査した.薬剤処理は効果があるのかを知りたい.
処理 |
|
|
|
|
|
平均 |
標準偏差 |
対照区 |
100 |
102 |
104 |
105 |
103 |
102.8 |
1.92 |
A |
105 |
108 |
110 |
106 |
104 |
106.6 |
2.41 |
B |
96 |
97 |
100 |
102 |
99 |
98.8 |
2.39 |
C |
100 |
97 |
95 |
104 |
103 |
99.8 |
3.83 |
D |
115 |
112 |
100 |
105 |
106 |
107.6 |
5.94 |
上の例では,D>A>対照区>C>Bの順で薬の効果が認められているようです.さて,AよりもDが効果があるといえるかをt検定で検定し,さらに対照区よりもAが効果があるといえるかをt検定し,これを何回も繰り返してよいのでしょうか.
t検定はある特定の2つの標本についてある有意水準(例えば5%)で,その母平均に有意な差があるのかを検定します.しかし,それを繰り返すとデータ全体では5%以上の確率で誤った結論を下す可能性があります.
次の例を見てみましょう.これは1000羽のうずらの体重のデータ(平均,分散が同じ同一の母集団のもの)からランダムに10羽を選び,これを20回繰り返したものです.同一の母集団からでも20回も繰り返してデータを取ると,もっとも大きい値と小さい値の標本の間では有意差が検出されてしまうこともあります.すなわちヤギの薬の例でも20以上の薬を同時に実験したら,薬の効果がなくてもt検定では効果があるという結果が出てしまう危険があります.
ウズラの例では同じ母集団からでも何回も標本を取り出せば,その両極端の間にt検定で有意な差を検出することを示しています.したがって,このウズラについて何種類もの薬品について体重に変化があるのかを実験すれば,たとえ全くどの薬品にも効果がなく,母集団に変化がなくても,両極端を選ぶと差があると判断してしまいます.
この問題を解決する手法が分散分析です.名前は分散分析と分散の言葉がありますが,3つ以上の標本の母集団の平均に差があるかを検定する手段です.平均の差を検定するために分散を分析するとはどういう事なのでしょうか.
4.分散分析とは?
先ほどのウズラのデータをみるように,データにはもともとばらつき(誤差変動)があります.この誤差によるばらつきを,処理によって変化した値と混同してしまうことに問題があります.分散分析とはデータのうち,意味のない変動(誤差変動)と意味のある変動(処理によって変化した部分)に分けることによって,処理による変動が誤差に比べて十分に大きければ処理による変動があると判定する方法です.
詳細は授業で説明します.
5.分散分析のやり方
パソコンが普及する以前は,分散分析の計算は電卓で面倒な計算を何回も繰り返して行う必要がありました.分散分析の仕組みを知るのには自分で一度計算するのがよいので,授業でも簡単なデータで一度実際に計算します.しかし,実際に分散分析を自分の実験データに利用するのであれば,パソコンでやるべきです.
以下に,エクセルを使って,分散分析する方法を紹介します.
3.前回の宿題3.で調べたデータについて分散分析せよ.
4.次回の授業では二元配置の分散分析について学ぶ.2つの処理を組み合わせたときのデータの解析方法である.
A.産地と品種の違いがリンゴの糖度に及ぼす影響を知りたい.
B.施肥量と品種の違いがイネの1穂穎花数に及ぼす影響を知りたい.
C.作期と品種の違いがトマトの酸度に及ぼす影響を知りたい.
二元配置で分散分析できそうなデータを研究室の卒業実験などから手に入れる.あるいは自分で実験してもかまわない.データには反復が2つ以上あること.データの配置は下の図のようになる.
産地と品種の違いがリンゴの糖度に及ぼす影響を各処理3つずつのリンゴで調査した.
産地 青森,長野,山形
品種 紅玉,ふじ,むつ
|
青森 |
長野 |
山形 |
紅玉 |
( )( )( ) |
( )( )( ) |
( )( )( ) |
ふじ |
( )( )( ) |
( )( )( ) |
( )( )( ) |
むつ |
( )( )( ) |
( )( )( ) |
( )( )( ) |
宿題
1.第5回の宿題で調査したデータを用いて,卵の重さのばらつきが2つ店の間で同じであるかを有意水準5%でF検定(両側検定)せよ.
品種A |
10.2, 10.8, 10.6, 10.5, 10.7, 10.9, 10.4, 10.5, 10.6, 10.5 |
品種B |
11.0, 11.7, 10.9, 11.6, 11.5, 12.1, 11.8, 12.4, 11.5 |
商社Sはタイでタマネギを栽培している.スーパーの基準はきびしく,ほとんど同じ直径(cm)のタマネギでないと納入させてくれない.今まで栽培していた品種Aに代わり,多収で耐病性の強い品種Bを導入したいが,直径のばらつきは品種Aと同じではないのかもしれない.無作為に選んだ標本から下のようなデータを得た.品種Bのばらつきは品種Aと異なるのかを有意水準5%で両側検定せよ.
2.次の問題を解け.
それ以外にも次のような例が考えられます.
コンビニ弁当の売れ行き 曜日,天気の2つの要因
イネの1穂穎花数 品種,施肥の2つの要因
小鳥のさえずる回数 気温,太陽の明るさの2つの要因
エクセルでF検定すると,分散の計算や自由度で間違えることがありません.
飼料A 分散5.34,飼料B 分散3.28であるから
分散比(1よりおおきくなるように) 1.63
F値はここではF(9,8;0.025)=4.36であり,帰無仮説は棄却できません.
したがって,5%の有意水準では飼料のばらつきに差があるとはいえないと結論できます.
例:A,B2種類の飼料を与えて一定期間飼育したハムスターの体重の増加量を測定した結果,次のような結果を得た.飼料による体重増加量のばらつきに差があるのかを検定せよ.
F分布を利用して2つの標本の分散比を区間推定することもできますが,授業では省略しました.
F分布を利用した2つの標本の分散に差があるのかを検定できます.この手法は次回から学ぶ分散分析の基礎となります.
2.F検定
F分布は2つの標本の分散の比に関する分布を示します.2つの標本それぞれの自由度からF分布が決まります.次回の授業から学ぶ分散分析ではF分布を利用するので,大切な分布です.なかなか意味をとらえにくい分布かもしれません.
1.F分布