第1回 生物統計学とは?

 惑星という漢字からイメージするところは,惑星というのは何らかの規則のある運動はしないように思えます.惑星は英語ではplanetですが,これも古代ギリシャ語を語源とし,その意味はさまよう(星)だそうです.昔の人は,惑星の動きに規則性を見いだせなかったということです.
 それ以前の人間(というよりは現代の人間でも大して変わりませんが)はごくわずかの経験で物事を決めてしまっていました.「柳の下のどじょう」のような話は今でもいくらでも聞くことができるでしょう.しかし,せいぜい2,3回の経験で物事を決めてしまうとあとでたいへんな過ちをおかすことは珍しくありません.農業の世界でも,1,2回の成功で,これでうまくいくと断言して,あとで災難を招いた例はいくらでも探せるでしょう.
2.( 大数  )の法則
 昔のヨーロッパ人は彗星は前触れもなくやってきたので不吉なことの前兆ととらえました.しかし,今では彗星がいつ地球に近づくかを正確に予測できます.もはや天体望遠鏡が発達したので,新彗星が出現しても肉眼で見えるはるか以前に発見され,軌道を計算して,いつ地球に近づくかを正確に計算できます(ただ明るさの予測は今でもかなり難しいので,天体ファンを大いに喜ばしたり,がっかりさせたりはしますが・・・)
第1回の授業で配布したプリント(PDF)
 以上のことから,1回のサンプリングで採る魚の数が多くなるほど,B池の魚が重いという結果が ( 少なくなる ・ 変わらない ・ 多くなる ).つまり標本をたくさんとるほど( 正しい結果を得る可能性が高くなる ・ 正しい結果を得る可能性は変わらない ・ 正しい結果を得る可能性が減る ).正解はこちら

 ではこの魚の体重のデータは平均とばらつき(標準偏差という)が指定されていました.では2つの池の魚の平均体重の差が大きいほど,調べる魚の数(標本数という)を(すくなくしてもよい・変わらない・多くしなければいけない).2つの池の魚の体重のばらつきが大きいほど,調べる魚の数を(すくなくしてもよい・変わらない・多くしなければいけない).正解はこちら

 池の中の魚をすべて調べれば正しい結論を得るはずです.しかし,現実には魚をすべて調べるだけの時間,労力,お金を使えることはほとんどありません.場合によっては破壊したり,殺したりする実験なら全部調べることが不可能です(例えば,魚の胃の中の内容物を調べるとしましょう.全部,魚を調べたらその池には魚がいなくなってしまいます・・・).さらに原理的にすべて調べることが不可能な場合もあります(仮説的無限母集団の概念,詳細は第3回で学びます).
A.経験から科学へ
1.実験して得たデータの解釈
実験をして得たデータの解釈をどうするか?を考えてみましょう.例えば,

 A,B,Cの3種類の餌を与えたヒツジの成長を調べた.どの餌がいちばんよいか?
 気温が上昇するとブドウの糖度はどうなるか?

 しかし,このようなデータには一定以上のばらつきがあるので,1つや2つだけ調べてもそれが本当に正しいかは確信を持てないでしょう.ではデータをどのようにとったら確信を持ってもよいのだろうか?ちょっと考えてみましょう.
生物統計学・実験計画学のメリットは大きく3つあります.
1.実験回数を少なくできる.
2.精度がよくなる.あるいは精度がわかる.
3.実験データの変動を解析できる.
日本の高齢者人口(統計局ホームページから)
さて,生物について何かをいおうとするとデータがばらつくためにかなりの数を調べないといけないということになります.しかし,たくさんのデータを取ればよいというわけにはいきません.いくつかの問題点があります.
1.いくつサンプルをとればどのくらいの精度なのか.
犬の体重を何匹調べたらよいのか?その基準はあるのでしょうか.
2.どのようにサンプルを取ったらよいのか.
犬といってもいろんな種類があります.それに食生活が豊かな日本の犬だけを犬の代表にしてよいのでしょうか.猫のエイズの治療薬にしても発病してどのくらいたった猫かで薬の効果が違うでしょう.ひょっとしてAは発病直後にはよく効き,Cは末期症状を緩和するという効果があるのかもしれません.
3.たくさんのサンプルを取ること自体が難しい.
数を増やせば増やすほど,労力,時間,費用がかかります.実験の規模が大きくなると,実験を均一に行うことが難しくなります.動物実験ではあまりにたくさんの動物を使うことは倫理的な問題も関わってくるでしょう.
 とりわけ農学,生物学,医学の対象とする生物を扱うとき,その測定量は大きなばらつきがあります.そのうえにたくさんのデータを集めるのがたいへんです.
例1:犬の体重
犬の体重の平均はいくらでしょうか.自分の家の犬の体重が平均であるとはいえないでしょう.では何匹の犬をどのようにしてはかったら,犬の平均体重を推定できるでしょうか.
例2:猫のエイズの治療薬
日本の猫の12%が猫のエイズ(FIV)に感染しており,特別天然記念物のツシマヤマネコでは22%の感染率である*.このような猫のエイズの治療薬として,A,B,Cの3つを開発したとする.3匹の猫に3種類の薬を与える実験をして,それでこの薬は効きますと判断してよいのか.*猫のエイズについては集英社新書:猫のエイズ(石田卓夫著)に詳しい.
しかし,そうはいっても人間は誰しもけちですから,1,2回の経験で結論したがるものです.また,大数の法則にかなうだけのデータを集めるのが困難だったり,不可能だったりするものもあります.
1.自動車の耐久性テスト たくさんやればお金がかかりすぎる
2.オオサンショウウオの生態 そんなにたくさんいない
3.猫のエイズの治療薬 効くか効かないかわからない薬(それも劇物)をたくさんの猫に与えれば動物虐待といわれるかもしれない
などです.
3.でも少数のデータで何かをいいたい・・・
1.惑星は太陽を焦点の1つとする楕円軌道上を動く.
2.惑星が一定時間に動径が描く面積は一定である(面積速度一定の法則).
3.惑星の公転周期の2乗は楕円軌道長径の3乗に比例する.
 科学の始まりがいつからかは特定することはできないと思いますが,科学というものが形作られる上で特に取り上げなければならない発見にケプラーの法則をあげることができるでしょう.
 ケプラー(1571-1630)の法則はブラーエ(1546-1601)による膨大かつ精密な天体観測記録から導き出されました.ブラーエの観測記録から火星の軌道をケプラーは長い年月をかけて導き出しました.ケプラーの法則は以下の3つです.
 しかし,たくさんのデータを集めて,解析すれば,少数の規則を発見できることがわかります.これが科学の黎明であったといえるでしょう.ケプラーの法則はさらにニュートンの万有引力の法則につながります.
厚生労働省のサイトから:平均余命(2004年),平均寿命の推移
厚生労働省のサイトから:平均寿命の国際比較
厚生労働省のサイトから:死因分析
厚生労働省のサイトから:平成16年度簡易生命表(男)
厚生労働省のサイトから:平成16年度簡易生命表(女)
 このように多数のデータから得た少数の規則は,むしろ新しい発見を導いたのです.さて,こういう自然科学だけでなく,人の寿命などでもたくさんのデータを集めれば規則性を導くことができます.特定の個人はいつ死ぬかわかりませんが,寿命に関するデータを集めて作られた生命表を見れば,日本人の男女がどんな割合で何歳まで生きられるかわかります.これを使って,生命保険などの掛け金が決まっていますし,年金などの社会福祉政策も決められます.また,個々人にしても,自分がいつ死ぬか明確にはわからなくても,だいたいいつぐらいまで生きられそうかはわかります.それをもとに人生設計していくわけです.(しない人の方が多いとは思いますが.)
 このことから多数のデータを集めて規則性を得ることの意味がわかります.またいくら多数の数値を集めてもいい加減な数値(データとは呼べない)であれば,きちんとした規則性がでません.そんないい加減な数値から出た規則からはまともな政策もでないし,保険会社もつぶれてしまうでしょう.
国立科学博物館の天王星・海王星の所に写真があります
 さて,たくさんデータを集めれば,たくさんの規則性が得られるのならいいが,たくさん集めて,1つ2つの規則しか得られないなら大損だ・・・という人もいるでしょう.しかし,ケプラーの法則から導かれたニュートンの万有引力の法則から1846年に海王星が発見されました.海王星は1781年にハーシェルが発見した天王星の軌道がニュートンの万有引力の法則から計算されたものとずれていることから,その存在が予言され,その予言したほぼ近くに発見されたのです.
 しかし,学生がそれぞれ5匹ずつ,2つの池からサンプリングして,その平均を比較したらどうなるでしょうか? A.やっぱり3回に1回はA池の魚の平均が大きい,B.A池の魚の平均が大きくなることが増える,C.A池の魚の平均が大きくなることが減る 正解はこちら

 100人の学生が5匹ずつ2つの池からサンプリングした実験を100回行ったら,A池の魚の方が重い学生は平均5.85人,B池の魚が重い学生は平均94.15人となりました.さらに100人の学生が10匹ずつ2つの池からサンプリングした実験を100回行ったら,A池の魚の方が重い学生は平均1.32人,B池の魚が重い学生は平均98.68人となりました(詳細はこちらに掲載).
 2つの池から無作為にサンプリングした結果,A池の魚の体重は(    )kg,B池の魚の体重は(    )kgとなりました.教室全体ではA池の魚の方が重かった学生は(   )名,B池の魚の方が重かった学生は(   )名いました(授業でやります.自分でシミュレーション実験したい方は以下の文章をお読みください).

 さて1回だけの実験では今回の結果がたまたま偏った結果かも知れないので,100人の学生が1回ずつ2つの池からサンプリングした実験を100回行ったら,A池の魚の方が重い学生は平均23.85人,B池の魚が重い学生は平均76.15人となりました(詳細はこちらに掲載).

 この2つの池の場合,このようにたった1匹だけでどちらの池の魚の体重が重いかを判断しようとしたら4回のうち1回は間違った結論を出すことになります.しかし,このような判断をする人は世の中に多いような気もします.

質問:たった1つの数値だけで判断してしまった経験をあげてみましょう.
例えば,こんな例があるかもしれません・・・
 A池の魚の平均体重は5.0kg,B池の魚の平均体重は5.5kgです.どちらの池の魚の平均体重のばらつきは同じで標準偏差0.5kgです.標準偏差0.5kgというとどのくらいばらつくでしょうか?下のグラフのようになります.

ではためしに10000匹の魚の体重(正規分布するデータ,仮想のデータ)で実際にサンプリング実験をやってみましょう(授業開始時に配布した生物統計学_授業用データ集2010のエクセルファイルを開く).

2)同じ形の池が2つありました.しかし,一方は富栄養化していて魚の体重が大きくなったようです.この仮説を証明するには2つの池からそれぞれ何匹を調べたらよいでしょうか?

(    )内に自分の考える数を入れよ
もし池の魚が100匹だと分かっていれば,それぞれの池から(    )匹調べればよい
もし池の魚が10000匹だと分かっていれば,それぞれの池から(    )匹調べればよい
もし池の魚の数が不明だとすれば,それぞれの池から(    )匹調べればよい

1)は第6回の講義で学ぶ統計的推定,2)は第7回の講義で学ぶ統計的検定と関連があります.
★ 考えてみましょう.

池の中の魚の体重を知りたいとします.魚は池に百匹以上はいて,しかも正確な数はわかりません.魚の体重は図のようにかなりまちまちです.

1)平均体重が知りたいなら何匹調べたらよいでしょうか?

(    )内に自分の考える数を入れてみましょう(ここはあまり難しく考えなくよいです)
もし池の魚が100匹だと分かっていれば(    )匹調べればよい
もし池の魚が10000匹だと分かっていれば(    )匹調べればよい
もし池の魚の数が不明だとすれば(    )匹調べればよい

生物統計学のトップページに戻る

統計学は少数の標本であっても,その標本が母集団から無作為(ランダム)に抽出されたものであれば,その数が少なくても,ある程度の精度で結論できることを保証します.ここで大事なのは,自分の知りたい対象(母集団)から無作為に調査対象を抽出することです.少なくても無作為に選んだ標本の方が,数がいくらあろうと無作為でない標本よりははるかにまともな結論が出せるのです.
 
 データの精度を見積もり,その上でいかに少ない実験回数あるいはサンプルで精度よくデータを得るかが大事になります.そのような方法をこれからの授業で考えていきます.
さて,無作為に抽出された標本でないと正確なデータはえられないといいました.しかし,標本の選び方は難しいのも事実です.

標本に要求されることは以下の2つです.
1)母集団を代表しているか(統計的な手法を適用するための条件)
2)精度が必要な程度あるか(サンプルの数が多ければ精度は高くなる)

 さて先ほどの愛煙家の例は極端にしても,標本が母集団をあまり代表していないことはよくあります.
 例えば,インターネットを使って,世論調査したら・・・? → インターネットを使えない人(高齢者?,忙しい人?)は対象から抜けます.
元気そうなウシばかりサンプリングしたら? 畜舎に行って元気そうな牛から採血し,元気そうでないのはかわいそうだからと採血しなかったら・・・

★ 池の魚を調査する例をもう一度考えてみましょう.この池の魚で,大きな魚は底に住む性質があるとしましょう.もし調査のときに,面倒だからと水面近くの魚ばかり調査したらどうなるでしょうか?

 数が多くても偏った標本では正しい結論は得られません.上の図のように無作為に抽出された標本からは統計的手法を用いて,少数の標本であっても何らかの結論を得ることができます.標本数が少ないと確実さは小さくなりますが,結論自体は一定の範囲で出すことができます.
 例えば,喫煙が健康に害があるかを無作為に抽出された100人の標本から結論を出せば,その結論はある程度の誤差はあるけれども有効なものです.一方,75歳以上の愛煙家が数百人,喫煙しない75歳以上の配偶者といっしょに集結し,たばこは健康の秘訣である,副流煙も健康にいい,なぜならここに集結しただけの健康な老人がいるからだといっても統計的にはあまり意味がありません.無作為に抽出された標本ではないからです.数万人集めたとしても同じことです(それでも高齢者人口の1パーセントにも達しないから)

ちなみに75歳以上の人口は1000万人を超えています.

次に少ない実験でもできるだけの情報を取り出したいと考えます.