第10回 分散分析その1 一元配置

 分散分析は上のリンクで説明したようにデータの変動を解析するのですが,実際にそんなことを計算していたら大変です.昔はもう少しスマートな計算方法ではありながらも大変面倒な計算をしていました.とくに自由度はわかりにくい概念でした.しかし,今はパソコンでやれば,もともとのデータを入力してやるだけで分散分析できます.ここではエクセルの分析ツールによる分散分析の仕方を紹介します.
エクセルによる一元配置の分散分析のやり方
先ほどのウズラのデータをみるように,データにはもともとばらつき(誤差変動)があります.すなわち処理を加えなくてもウズラの体重にはばらつきがあり,まったく同じ体重のウズラはいません.この誤差によるばらつきを,処理によって変化した値と混同してしまうことに問題があります.分散分析とはデータのうち,意味のない変動(誤差変動)と意味のある変動(処理によって変化した部分)に分けることによって,処理による変動が誤差に比べて十分に大きければ処理による変動があると判定する方法です.
例:ウズラの成長がよくなる薬A,B,C,Dはえさと混ぜると効果が高いかもしれない.そう考えて,麦わら,稲わら,濃厚飼料の3種類と組み合わせて試験をすることを考えた.処理は2つ,薬と飼料であり,薬は5水準,飼料は3水準ある.このとき比較するべき試験は,薬A+麦わら,薬A+稲わら,薬A+濃厚飼料,薬B+麦わら,薬B+稲わら,薬B+濃厚飼料,薬C+麦わら,薬C+稲わら,薬C+濃厚飼料,薬D+麦わら,薬D+稲わら,薬D+濃厚飼料,対照区+麦わら,対照区+稲わら,対照区+濃厚飼料となる.
4. すべての水準に対して母分散が等しいことも前提条件です
 水準ごとの反復数がみな同じである場合,この前提が多少崩れても影響はあまりありません.
薬Aでは稲わらが一番よいえさだったが,薬Bでは麦わらが一番よいえさだったという結果が出るかもしれません.t検定では2つの要因が絡み合った結果を解析できません.2つ以上の要因が絡んだ結果を交互作用といいますが,t検定では交互作用を解析できません.では交互作用とは具体的にはどんなものでしょうか?.
5. フィッシャーの3原則を満たした実験計画のもとで,分散分析を行います
 誤差に系統誤差が入ると解析結果の妥当性が失われる危険性があります.系統誤差を除去したり,分散分析の解析の妨害とならない偶然誤差に転化するのがフィッシャーの3原則に述べられた反復,無作為化,局所管理です.「実験計画と統計解析の実際」という授業で学ぶ予定です.
 交互作用にはいくつかの種類があります.
1)組み合わせの妙
 右の図のようにある特定の組み合わせだと反応が高くなる(あるいは低くなる)ということがおこる場合,交互作用があることになります.右の図ではもし始めにA,B,Dのどれかを固定して,aとbを比較したら一番最適な組み合わせであるCとbは発見できません.

変動因

自由度φ

(自由度)

平方和S

(変動)

平均平方V

(分散)

分散比F

(観測された分散比)

処理間

φ

=S/φ

誤差

φ

=S/φ

 

全体

φ

 

 

3)打ち消しあう場合(相殺効果,干渉効果ともいう)
 片方の要因の効果が高いともう一方の要因の効果がうち消す場合です.
4)交互作用のない場合
 右のような図になれば,交互作用はありません.
次の例を見てみましょう.これは1000羽のウズラの体重のデータ(平均,分散が同じ同一の母集団のもの)からランダムに10羽を選び,これを20回繰り返したものです.同一の母集団からでも20回も繰り返してデータを取ると,もっとも大きい値と小さい値の標本の間では有意差が検出されてしまうこともあります.すなわちウズラの薬の例でも20以上の薬を同時に実験したら,薬の効果がなくてもt検定では効果があるという結果が出てしまう危険があります.
2)相乗効果
 2つの要因が重なるとより効果が大きくなる場合です.
 以上のA,B,2つの問題を解決する手法が分散分析です.名前は分散分析と分散の言葉がありますが,3つ以上の標本の母集団の母平均に差があるかを検定する手段です.母平均に差があるかを検定するために分散を分析するとはどういう事なのでしょうか.
第10回の授業で配布したプリント(PDF)
 さらに有意水準5%,1%で有意であればそれぞれ,*,**をFの右肩につけるのが慣習となっています.有意差が検出されなかったときはnsをつけることもあります.

 なお自由度と平方和には加法性があります.
 φT=φA+φE,ST=SA+SE

 むかしはp-値の計算が難しかったので,ほとんど計算しませんでしたし,論文の表に載せることもありませんでした.最近はコンピューターの発達でp-値の計算が容易となりました.そのためp-値を表に載せることも最近の論文ではときおり見かけるようになりました.
1.t検定の限界と分散分析の導入
 分散分析は処理(水準)間の母平均に差がないという帰無仮説を検定しています.すなわち以下の仮説です.
 帰無仮説:μ=μ=μ=μ どの水準でも母平均は同じである
 対立仮説:水準(処理)間の母平均のどれか一つは異なる
 
 したがって,分散分析の結果,有意差があることが分かった場合,その意味するところは,処理(水準)の中で一つは母平均の異なるものがある,すなわち処理によって変わるということです.一般的には一番値の小さいものと一番値の大きいものとの間には有意差があるということになるでしょう(反復数が処理間で違えば必ずしもそうではありませんから注意してください).それ以外の処理(水準)間に差があるかは分散分析ではわかりません.これを調べるのは多重比較法です.多重比較法についてはこの授業で説明するのはむりですが,よく使われますので,興味のある人は以下の本を読んでください.
 
 統計的多重比較法の基礎 永田靖,吉田道弘著 サイエンティスト社

A.3つ以上の標本平均について母平均が異なるかを同時に比較したい

上の例では,D>A>対照区>C>Bの順で薬の効果が認められているようです.さて,AよりもDが効果があるといえるかをt検定で検定し,さらに対照区よりもAが効果があるといえるかをt検定し,これを何回も繰り返してよいのでしょうか.

4.分散分析の注意点

t検定では2つの標本について,その母平均が異なるのかを検定しました.これを拡張して,3つ以上の標本についてその母平均が異なるのかを検定することを考えてみましょう.

生物統計学のトップページに戻る

3.分散分析の結果の解釈
 分散分析の結果,5%の有意水準で処理の効果が有意であれば,処理の効果があると結論できます.さらにより厳しい有意水準で有意であればより確信を持って処理の効果があると結論できます.なおより高い有意水準で有意である場合からといって,処理自体の効果が強いこととは関係はありません.同じ実験でも標本数をたくさんとれば,より高い有意水準で有意であるという結果を得るかもしれませんが,標本を増やしたからといって,処理の効果自体が強くなるということにはなりません.
 分散分析の結果は論文などではふつう下のような表に書いて示します.( )内はエクセルの分析ツールで使われる表現です.
ウズラの例では同じ母集団からでも何回も標本を取り出せば,その両極端の間にt検定で有意な差を検出することを示しています.したがって,このウズラについて何種類もの薬品について体重に変化があるのかを同時に実験すれば,たとえ全くどの薬品にも効果がなく,母集団に変化がなくても,両極端を選ぶと差があると判断してしまいます.
それは以下のリンクを見てください.
分散分析とは何か?(データの変動からいかにして誤差と処理による変動に分けるか?)
t検定はある特定の2つの標本についてある有意水準(例えば5%)で,その母平均に有意な差があるのかを検定します.しかし,それを繰り返すとデータ全体では5%以上の確率で誤った結論を下す可能性があります.
1. なるべく反復数はそろえます
 今回学んだ一元配置の分散分析では反復数が個々の処理区で異なっていてもそれほど問題はありません.しかし,来週以降に学ぶより複雑な分散分析では,反復数が異なると解析が面倒になるだけでなく,精度も大きく落ちてしまいます.実験開始のときは反復数をそろえて実験するのが普通ですが,事故や不注意などで反復数がそろわなくなることもあるかもしれません.しかし,できるだけ反復のそろうように実験することが基本です.なお反復がそろわないからといって,一部のデータを削除するのは間違ったやり方です.
例:ウズラの成長がよくなるという薬A,B,C,Dを対照区とともに調査した.薬剤処理は効果があるのかを知りたい.
2.分散分析とは?

B.2つ以上の要因を同時に比較したい

3. 正規分布するデータが前提条件です
 分散分析では比較する母集団それぞれが正規分布すること,母分散が等しいことが理論的には前提条件になります.しかし,分散分析は多少その前提条件からはずれていても,結果が大きく左右されない頑健性をもっています.
ウズラの例
2. 複雑な実験はなるべく避けます
 前項とも関連しますが,分散分析ではデータが複雑になるほど,解析が面倒かつ間違えやすくなります.特にコンピューターで計算させるときは,データの入力の仕方を間違いやすくなり,自分の目的とする分散分析をするにはデータの構造が複雑(あるいはでたらめ)で,解析不能ということもあるかもしれません.そのうえ,反復がそろわなかったときの影響も大きくなります.必要のない複雑な実験は避けるのはもちろんのこと,必要だとしてもできるだけ簡単な実験計画にならないかをよく検討してから実験するべきです.実験計画を立てた時点で,どういう分散分析をするのかを決めておくのが正しい統計解析方法です.
 さてどのようにしてデータの変動を誤差とそれ以外の処理による部分に分けるのでしょうか?