第10回 分散分析その3 実験計画・乱塊法・ラテン方格法
(2)実験にともなう誤差をどう制御するか?
データを取り扱う実験には誤差が必ず付随します.この誤差をいかに制御するかが実験で得られたデータの正確さ,信頼性を高める上で重要です.誤差は大別すると,系統誤差と偶然誤差に分けられます.このうち系統誤差は偏りを持った誤差であり,この系統誤差をいかに小さくするのかを考えてみましょう.
まず系統誤差とはどんなものでしょうか.
右の図を見てください.A,B,C,Dの4人がある測定を何回か繰り返しました.真の値は点線で示してあります.A,Bは平均は真の値に近いのですが,Bはデータのばらつきが大きいようです.一方,C,Dは平均も真の値から外れています.さて,BとCではどちらの分析がよいのでしょうか.
もし,Cの値を補正する手だてがなければ,Bの方が分析はよいことになります.なぜなら,Bならば実験回数を増やせば,真の値に平均が近づきますが,Cはいくら実験をしても真の値には近づきません.系統誤差とはこのようなCの出す誤差だといえます.いくら大数の法則でたくさんデータを集めれば真の値に近づくといっても,系統誤差はデータを増やしても小さくならないのです.
すなわち系統誤差があり,それに気づかなければ,分散分析して得られる誤差には系統誤差が入らないことになり,データの解釈を大きく間違ってしまいます.
したがって,誤差全体を小さくする以前に,系統誤差を減らす,なくす,そして減らせない場合には偶然誤差に転化することが必要になります.その方法を示すのが,フィッシャーの三原則です.
具体的には系統誤差はどのようなものがあるでしょうか.羊で実験するとしましょう.10頭の同じ品種の雄の羊を集めたとしても,齢,体重,親の遺伝その他いろいろな要素が実験を左右しそうです.実験するときに系統誤差を出すとわかっているものはあらかじめ除去するのがよいのですが,体重,齢などの全く同一な羊を10頭も集めることは現実的ではありません.あるいは系統誤差は出るのだけれど,制御どころか,系統誤差の原因の定かでないものもあります.圃場の地力ムラ,分析機械の日や時間による微妙な変動などは系統誤差を生みますが,原因を詳しく調べようとするのは手数です.
フィッシャーの三原則ではこのような系統誤差を制御するためにまず
1.反復
誤差を見積もることができないと,制御するにも制御できません.誤差を知るには少なくとも同じ条件で実験を複数繰り返す必要があります.これを反復といいます.
さらに反復を増やすと,平均についての誤差である標準誤差そのものも小さくなります.
すなわち,反復を設けることによって,誤差の評価と誤差の減少の2つが実現します.
フィッシャーの三原則では下の図のように3つの原則がそれぞれ誤差の推定と減少に役立ち,誤差を推定することで分散分析のように統計的検定・推定が出来,誤差を減少することによって精度を向上することができます.
2.無作為化
系統誤差のあるデータに分散分析などの統計的手法を適用しても正しい結果は得られません.系統誤差をできるだけ偶然誤差に転化する方法を無作為化といいます.例えば,羊は個体によって餌に対する反応が違うかもしれません.与える餌をどの羊に与えるかを無作為に(ランダムに)決めることによって,羊の個体間差異に基づく系統誤差は無作為化されます.
例えば羊の体重によって,結果が変わるとしましょう.小さい体重の羊3頭にA,大きい体重の羊3頭にBの薬を与えるなら,その結果には系統誤差が入り込みます.こういう系統誤差は先ほどの図のCの結果と同じく,データの見かけのばらつきを小さくする(なぜなら,体重の近い羊のデータはよりばらつきが小さいから)からよけいに解釈を間違うことになりかねません.体重に関係なく,無作為に実験すると体重のちがいによる誤差(系統誤差)を偶然誤差に転化するので,データの見かけ上の誤差は大きくなります.しかし,無作為化した結果,偶然誤差を分散分析などで評価できるので,実際には実験の検出力は高まります.
例えば,定量分析の場合でもA,B,Cの3つのサンプルを3回反復測定するときに,A,A,A,B,B,B,C,C,Cの順で分析する人が多くいます.これも見かけ上は誤差は小さくなりますが,分析のときの周りの環境(温度,試薬,器具)の影響による系統誤差を偶然誤差に転化していないから真の値から大きくずれてしまう危険があります.9回の分析を無作為に行うべきです.その場合,見かけ上データの誤差は大きくなりますが,それは実験のどこかに系統誤差の原因があることを示すよい証拠であり,さらに実験の精度を高める機会を与えられたということにもなります.
3.局所管理
フィッシャーの三原則の最初は反復であるように,反復がない実験は誤差を評価しようがなく,フィッシャー自身はそういうのは実験ではなく,ただ経験を増やしたにすぎないとコメントしたらしいくらい,反復は最も大事なのですが,反復を増やすと誤差を別の意味で増やしてしまう可能性があります.先ほど無作為化の例で挙げたように,羊の頭数を増やすことは,反復を増やすことなのですが,全く同じ羊がこの世にいない以上,羊の個体による差は誤差を増加させることになります.定量分析でも何回かの分析をするために何時間も実験するうちに,実験の場の微妙な変動によって,誤差が増大する可能性があります.
このように反復を増やすときの誤差の変動を,羊であれば体重の近いものを,分析であれば時間的に近いある部分(午前とか午後とか)に,実験で比較したい1組を当てることによって,誤差をその部分の違いに転化して,除去することができます.これを局所管理といい,このようなできるだけ均一にした実験の場の一部をブロックといいます.
実験計画法では,系統誤差をこのような局所管理によって,ブロック間の差にするだけでなく,分散分析によって,ブロック間の誤差(すなわちブロックにした結果,除去できた誤差)も定量できます.
4.乱塊法の分散分析
フィッシャーの三原則を満たす基本的な実験計画を乱塊法といいます.乱塊法では二元配置と同じように分散分析できます.すなわち要因の一つをブロック因子と考え,ここで考える因子との二元配置で考察することになります.ブロック因子は制御因子や標示因子と交互作用がないことが前提ですので,乱塊法の場合,繰り返しのない二元配置であってもかまいません.
5.ラテン方格法
ブロック因子が2つあるときはラテン方格法によって,実験を配置します.ラテン方格法の分散分析はエクセルの分析ツールではできません.追加のプログラムを手に入れるか,より高度な統計解析ソフトでラテン方格法の分散分析をすることになります.
6.宿題
A.次の実験を配置せよ.なお,配置は無作為にすること.
T 3品種(A,B,C)の水稲の収量比較を4ブロックの乱塊法で実験する.
U 樹齢(3,6,9,12年)と圃場の高低(高,中,低,底)の2つのブロック因子によって,柿の4つの栽培方法(A,B,C,D)を比較する(樹齢と栽培方法には交互作用がないとする).
1.実験計画法
実験計画学で取り扱う実験には次の2つの特徴があります.
(1) いろいろな条件を人為的に設定して,その結果の比較を目的とする実験である
(2) 同じ条件の下で実験を繰り返しても,結果(データで示される)は必ずしも一定ではなく,かなりのばらつきを示す.
(1)については,以下でどのような条件を設定することができるのか,さらに条件は1つだけとは限らず,複数の条件を設定する実験が必要な場合があり,そのときのそれぞれの条件の特徴を考えます.
(2)については実験では設定する条件以外を均一にかならずできるわけではなく,そのような不均一さが原因で誤差が生じます.いかにして誤差を小さくするか,あるいは実験結果に偏りのないような誤差に転化するかを以下で述べます.
すなわち実験計画法の目的は
(1) 実験で取り扱う因子(要因)を適切に選択すること
(2) 実験につきものである誤差を制御すること
です.
2.因子と水準
実験においてその条件を種々に変えて比較するものを因子といい,因子の取りうる条件を水準といいます.
例えば,水稲の栽培実験では,因子として,品種や施肥量などを考えることができます.
因子 |
水準 |
品種 |
コシヒカリ,ハナエチゼン,ヒノヒカリ |
施肥量 |
0, 4, 8, 12g/m2 |
因子は大きく以下の4つに分類できます.
(1)制御因子 その最適条件(水準)を知るために取り上げる因子
(2)標示因子 制御因子と交互作用があるために取り上げる因子のうち,実験の場では制御できる因子
(3)ブロック因子 局所管理に用いる因子.他の因子と交互作用はない.
(4)層別因子 実験の場でも制御できないが,他の因子と交互作用を持つ因子.
例えば,島根県でもっとも多収となる水稲の品種を決める実験をするなら,制御因子は品種となります.ところが品種という因子は施肥や作期という因子と交互作用があることがわかっています.もし施肥や作期を農家が実際の現場で自由に選べるならば施肥や作期も制御因子に含めた実験をします.しかし,たとえば宍道湖の富栄養化対策で施肥を自由に選べない,あるいは水利の関係上,田植えの時期(作期)を自由に選べないなら,施肥や作期は農業試験場では制御できますが,現場では制御できない標示因子ということになります.さらに年によって,あるいは産地によって収量が異なり,品種と交互作用が認められるなら,それは実験の場でも制御できないので,層別因子ということになります.
実験で明らかにしたい因子と水準を明確にしたら,その因子と交互作用のある因子のうち,現実的に重要なものがないかをよく考えましょう.
3.誤差の制御
(1)分散分析と誤差
先ほど述べた因子が効果があるのかを知る統計的手法が分散分析です.分散分析では主効果や交互作用の大きさを誤差変動と比較するので,誤差を小さくできれば検出力が高まります.ではどのようにしたら誤差をちいさくできるでしょうか?しかし,その前に誤差の種類について考えなければなりません.
B.これまでに二元配置の分散分析までを学んできた。二元配置では因子は2つであるが、因子数がさらに多くても分散分析は可能であり、3つ以上の因子のある場合は、多元配置という場合がある。因子数が4つ以上の実験を考えて見よ。それぞれの因子について,制御因子,標示因子,ブロック因子,層別因子のどれかを考えてみよ.さらに仮にこの4つ以上の因子すべてにそれぞれ交互作用があるとしたら,どのような交互作用が考えられるかをすべて書き出して見よ。
例:(ただし因子数は3つ)
水稲の施肥実験で窒素の施肥(有無)、リン酸の施肥(有無)、カリの施肥(有無)の3つの因子で実験した。交互作用は窒素とリン酸、窒素とカリ、リン酸とカリ、窒素とリン酸とカリの4種類が考えられる。