トップページへ
第11回 分散分析その3 実験計画法
(2)実験にともなう誤差をどう制御するか?
 データを取り扱う実験には誤差が必ず付随します.この誤差をいかに制御するかが実験で得られたデータの正確さ,信頼性を高める上で重要です.誤差は大別すると,系統誤差と偶然誤差に分けられます.このうち系統誤差は偏りを持った誤差であり,この系統誤差をいかに小さくするのかを考えてみましょう.
 まず系統誤差とはどんなものでしょうか.
 右の図を見てください.A,B,C,Dの4人がある測定を何回か繰り返しました.真の値は点線で示してあります.A,Bは平均は真の値に近いのですが,Bはデータのばらつきが大きいようです.一方,C,Dは平均も真の値から外れています.さて,BとCではどちらの分析がよいのでしょうか.
 もし,Cの値を補正する手だてがなければ,Bの方が分析はよいことになります.なぜなら,Bならば実験回数を増やせば,真の値に平均が近づきますが,Cはいくら実験をしても真の値には近づきません.系統誤差とはこのようなCの出す誤差だといえます.いくら大数の法則でたくさんデータを集めれば真の値に近づくといっても,系統誤差ではデータを増やしても平均からの誤差が小さくならないのです.
 すなわち系統誤差があり,それに気づかなければ,分散分析して得られる誤差には系統誤差が入らないことになり,データの解釈を大きく間違ってしまいます.
 したがって,誤差全体を小さくする以前に,系統誤差を減らす,なくす,そして減らせない場合には偶然誤差に転化することが必要になります.その方法を示すのが,フィッシャーの三原則です.
 具体的には系統誤差はどのようなものがあるでしょうか.羊で実験するとしましょう.10頭の同じ品種の雄の羊を集めたとしても,齢,体重,親の遺伝その他いろいろな要素が実験を左右しそうです.実験するときに系統誤差を出すとわかっているものはあらかじめ除去するのがよいのですが,体重,齢などの全く同一な羊を10頭も集めることは現実的ではありません.あるいは系統誤差は出るのだけれど,制御どころか,系統誤差の原因の定かでないものもあります.圃場の地力ムラ,分析機械の日や時間による微妙な変動などは系統誤差を生みますが,原因を詳しく調べようとするのは手数です.
フィッシャーの三原則ではこのような系統誤差を制御するためにまず
1.反復
 誤差を見積もることができないと,制御するにも制御できません.誤差を知るには少なくとも同じ条件で実験を複数繰り返す必要があります.これを反復といいます.
 さらに反復を増やすと,平均についての誤差である標準誤差そのものも小さくなります.
 すなわち,反復を設けることによって,誤差の評価と誤差の減少の2つが実現します.
フィッシャーの三原則では下の図のように3つの原則がそれぞれ誤差の推定と減少に役立ち,誤差を推定することで分散分析のように統計的検定・推定が出来,誤差を減少することによって精度を向上することができます.
2.無作為化
 系統誤差のあるデータに分散分析などの統計的手法を適用しても正しい結果は得られません.系統誤差をできるだけ偶然誤差に転化する方法を無作為化といいます.例えば,羊は個体によって餌に対する反応が違うかもしれません.与える餌をどの羊に与えるかを無作為に(ランダムに)決めることによって,羊の個体間差異に基づく系統誤差は無作為化されます.
例えば羊の体重によって,結果が変わるとしましょう.小さい体重の羊3頭にA,大きい体重の羊3頭にBの薬を与えるなら,その結果には系統誤差が入り込みます.こういう系統誤差は先ほどの図のCの結果と同じく,データの見かけのばらつきを小さくする(なぜなら,体重の近い羊のデータはよりばらつきが小さいから)からよけいに解釈を間違うことになりかねません.体重に関係なく,無作為に実験すると体重のちがいによる誤差(系統誤差)を偶然誤差に転化するので,データの見かけ上の誤差は大きくなります.しかし,無作為化した結果,偶然誤差を分散分析などで評価できるので,実際には実験の検出力は高まります.
 例えば,定量分析の場合でもA,B,Cの3つのサンプルを3回反復測定するときに,A,A,A,B,B,B,C,C,Cの順で分析する人が多くいます.これも見かけ上は誤差は小さくなりますが,分析のときの周りの環境(温度,試薬,器具)の影響による系統誤差を偶然誤差に転化していないから真の値から大きくずれてしまう危険があります.9回の分析を無作為に行うべきです.その場合,見かけ上データの誤差は大きくなりますが,それは実験のどこかに系統誤差の原因があることを示すよい証拠であり,さらに実験の精度を高める機会を与えられたということにもなります.
3.局所管理
 フィッシャーの三原則の最初は反復であるように,反復がない実験は誤差を評価しようがなく,フィッシャー自身はそういうのは実験ではなく,ただ経験を増やしたにすぎないとコメントしたらしいくらい,反復は最も大事なのですが,反復を増やすと誤差を別の意味で増やしてしまう可能性があります.先ほど無作為化の例で挙げたように,羊の頭数を増やすことは,反復を増やすことなのですが,全く同じ羊がこの世にいない以上,羊の個体による差は誤差を増加させることになります.定量分析でも何回かの分析をするために何時間も実験するうちに,実験の場の微妙な変動によって,誤差が増大する可能性があります.
 このように反復を増やすときの誤差の変動を,羊であれば体重の近いものを,分析であれば時間的に近いある部分(午前とか午後とか)に,実験で比較したい1組を当てることによって,誤差をその部分の違いに転化して,除去することができます.これを局所管理といい,このようなできるだけ均一にした実験の場の一部をブロックといいます.
 実験計画法では,系統誤差をこのような局所管理によって,ブロック間の差にするだけでなく,分散分析によって,ブロック間の誤差(すなわちブロックにした結果,除去できた誤差)も定量できます.
4.乱塊法の分散分析
 実験をする場合,反復と無作為化はかならず必要です.反復がなければ誤差を見積もることができませんから,分散分析できません.無作為化をしなければ,データの変動が処理によるものなのか,誤差によるものかがわかりません.系統誤差を処理変動から分離できないからです.フィッシャーの3原則のうち,反復と無作為化を満たすものを完全無作為化法といいます.
5.ラテン方格法
エクセルによる乱塊法(繰り返しのない場合)の分散分析のやり方

6.宿題

A.次の実験を配置しましょう.なお,配置は無作為にします.
T 3品種(A,B,C)の水稲の収量比較を4ブロックの乱塊法で実験する.
U 樹齢(3,6,9,12年)と圃場の高低(高,中,低,底)の2つのブロック因子によって,柿の4つの栽培方法(A,B,C,D)を比較する実験を行う.
無作為に実験を配置する方法
1.実験計画法
 実験計画学で取り扱う実験には次の2つの特徴があります.
(1) いろいろな条件を人為的に設定して,その結果の比較を目的とする実験である
(2) 同じ条件の下で実験を繰り返しても,結果(データで示される)は必ずしも一定ではなく,かなりのばらつきを示す.
(1)については,以下でどのような条件を設定することができるのか,さらに条件は1つだけとは限らず,複数の条件を設定する実験が必要な場合があり,そのときのそれぞれの条件の特徴を考えます.
(2)については実験では設定する条件以外を均一にかならずできるわけではなく,そのような不均一さが原因で誤差が生じます.いかにして誤差を小さくするか,あるいは実験結果に偏りのないような誤差に転化するかを以下で述べます.
すなわち実験計画法の目的は
(1) 実験で取り扱う因子(要因)を適切に選択すること
(2) 実験につきものである誤差を制御すること
です.
2.因子と水準
 実験においてその条件を種々に変えて比較するものを因子といい,因子の取りうる条件を水準といいます.
例えば,水稲の栽培実験では,因子として,品種や施肥量などを考えることができます.
因子 水準
品種 コシヒカリ,ハナエチゼン,ヒノヒカリ
施肥量 0, 4, 8, 12g/m2
 因子は大きく以下の4つに分類できます.
(1)制御因子 その最適条件(水準)を知るために取り上げる因子
(2)標示因子 制御因子と交互作用があるために取り上げる因子のうち,実験の場では制御できる因子
(3)ブロック因子 局所管理に用いる因子.他の因子と交互作用はない.
(4)層別因子 実験の場でも制御できないが,他の因子と交互作用を持つ因子.
 例えば,島根県でもっとも多収となる水稲の品種を決める実験をするなら,制御因子は品種となります.ところが品種という因子は施肥や作期という因子と交互作用があることがわかっています.もし施肥や作期を農家が実際の現場で自由に選べるならば施肥や作期も制御因子に含めた実験をします.しかし,たとえば宍道湖の富栄養化対策で施肥を自由に選べない,あるいは水利の関係上,田植えの時期(作期)を自由に選べないなら,施肥や作期は農業試験場では制御できますが,現場では制御できない標示因子ということになります.さらに年によって,あるいは産地によって収量が異なり,品種と交互作用が認められるなら,それは実験の場でも制御できないので,層別因子ということになります.
 実験で明らかにしたい因子と水準を明確にしたら,その因子と交互作用のある因子のうち,現実的に重要なものがないかをよく考えましょう.
3.誤差の制御
(1)分散分析と誤差
 先ほど述べた因子が効果があるのかを知る統計的手法が分散分析です.分散分析では主効果や交互作用の大きさを誤差変動と比較するので,誤差を小さくできれば検出力が高まります.ではどのようにしたら誤差をちいさくできるでしょうか?しかし,その前に誤差の種類について考えなければなりません.
散布図の書き方
 各自が異なるデータを相関分析と回帰分析のそれぞれについて調査しましょう.そのために事前にどういうデータを調査するかを204室前のホワイトボードにある紙に記入して,1月8日(木)午後5時までに報告し,合格を受けてください(テーマは早い者勝ちとします).

 なお距離と運賃のように片方を指定するともう一方がばらつきがなく,決まってしまうデータはこのような解析にはふさわしくありません.国別,都道府県のデータの場合,北海道や東京都のように面積や人口の極端に大きいデータが入るものは望ましくありません.
エクセルでの散布図の書き方
散布図からわかること(1月と7月の平均気温の例)
B.次回からは相関分析と回帰分析について学びます.
 相関分析とは2つの変量間の関係の強さを相関係数という値を求めて調べる方法です.回帰分析とは2つの変量の関係がどのくらいあるかを定量的に見積もり,さらに2つの変量の間の関係をある式に表現する方法です.下には散布図(2つの変量のうち,一方をx軸に,もう一方をy軸にして,両者の関係を図示した図)のパターンがいくつかあります.aはxが増えれば,yも増加する傾向がある関係を示します.aの例としては,世界各地点での一年の最高気温と最低気温にはこのような関係があるでしょう.eはxが増えれば,yは減る傾向のある関係を示します.eの例としては,一年間の晴天の日数と降水量の関係が挙げられます.cはxとyの間に関係がないことを示します.cの例としては,北極でのオーロラの数と東京駅で売れる弁当の数があるかもしれません(たぶん関係はないとは思いますが・・・・・・).
1.以上のa,c,eの3つのパターンに当てはまる2つの変量を考えましょう.
2. aもしくはeのパターンにあてはまりそうなデータの組み合わせについて,相関,回帰それぞれに当てはまる20組以上のデータを集め,散布図を書きましょう.
3. 2.で書いた散布図を見て,2つの変量の関係がどの程度強いのかを考えましょう.すなわち下の図でもbよりはaの方が両変数の関係が強いといえます.自分の集めたデータを右のパターンと比較し,どれに近いかを考えましょう.
実験計画学のトップページへ戻る

トップ アイコン
トップページヘもどる

 ここで12頭の子豚(体重順に1〜12番)に3種類(A,B,C)の餌を与える処理について,フィッシャーの三原則を適用してみましょう.完全無作為化法では12頭にランダムにA,B,Cを割り当てます.例えば下の表のようになったとしましょう.
 このように局所管理された(ここでは体重をなるべく同じになるように局所管理した)ブロックを作り,ブロック因子以外の系統誤差を偶然誤差に転化するためにブロック内では無作為に配置する方法を乱塊法といい,乱塊法ではフィッシャーの三原則をすべて満たす基本的な実験計画です.乱塊法では二元配置と同じように分散分析できます.すなわち要因の一つをブロック因子と考え,ここで考える因子との二元配置で考察することになります.ブロック因子は制御因子や標示因子と交互作用がないことが前提ですので,乱塊法の場合,繰り返しのない二元配置であってもかまいません.

豚番号

10

11

12

乱数

5

3

1

12

7

2

9

8

4

6

11

10

処理

 このような完全無作為法で得られたデータは一元配置の分散分析で処理間に差があるのかを検定できます.(完全無作為化法による二元配置も可能です)

 しかし,事前に子豚の体重がわかっており,さらに餌の効果は体重によって異なることもわかっているなら,体重の近いものを1つにまとめて,そのブロック内でA,B,Cを1つずつ割り当てた方が精度が向上します.すなわち体重順にブロック1(1〜3),ブロック2(4〜6),ブロック3(7〜9),ブロック4(10〜12)とし,各ブロック内ではランダムにA,B,Cを割り当てます.

ブロック

豚番号

10

11

12

乱数

3

2

1

2

1

3

1

2

3

3

1

2

処理

 ところで乱塊法にすれば問題ないとおもって,どんな系統誤差をブロック間の差にして除去することも考えないでとにかく乱塊法を使う人がいますが,それでは誤差を制御することにはなりません.実験するときにはどのような系統誤差があるのかをよく考え,ブロック化することによってもっとも効果的に除去できる系統誤差に対して乱塊法を適用しましょう.圃場の地力むらならばどの部分とどの部分がむらが大きいのか,どの部分をとればその中は均一に近い一つのブロックと見なせるのかということを考えましょう.
 下の2つの図のうち,右は水稲の品種比較試験のように圃場の地力むら(空間的な違い)をブロック因子として乱塊法によって除去する実験配置,左は工場での製造試験のように日の違い(時間的な違い)をブロック因子として乱塊法によって除去する実験配置です.
 考慮すべきブロック因子が2つあった場合はラテン方格法によってブロック因子を制御因子の各水準に均等に割り当てることができます.ラテン方格法の分散分析はエクセルの分析ツールではできません.追加のプログラムを手に入れるか,より高度な統計解析ソフトでラテン方格法の分散分析をすることになります.
 例えば,下の例では5種類の入浴剤(A〜E)の効果テストを5人の被験者(B1〜B5)で5種類の浴槽(1〜5)について行ったものです.こうすると5種類の入浴剤はそれぞれ各被験者,各浴槽に1つずつ割り当てられるので被験者や浴槽の差をブロック間差として除去できると考えられます.さらにブロック内では無作為に配置することで,その他の未知の系統誤差を偶然誤差に転化できます.
ラテン方格法による実験配置方法
 以上のことから系統誤差と無作為化・局所管理についてまとめると以下の3つになります.
A 系統誤差の原因をすべて把握し,除去することは不可能なので,無作為化はどんなときでもかならずしなければならない.
B 系統誤差の原因がしられているならば局所管理でかなりの程度除去することができる.しかし,複数の系統誤差の原因があるときはそのうちいちばん誤差の大きくなるものを乱塊法であるいは2つをラテン方格法で除去する.
C Bの局所管理で除去しない系統誤差は無作為化で偶然誤差に転化する.