第3回 母集団と標本・確率分布

第3回の授業で配布したプリント(PDF)

1.母集団と標本

無作為抽出しない,偏った標本でどんな間違いをするか?
 私たちが何かを調査するときには,ふつう調査対象のすべてを調査することはありません.調査対象のすべてを調査する国勢調査のようなものはむしろごく少なく,たいていは調査対象の一部(世論調査など)を調査し,それの調査結果を使って,調査対象すべてを推定しようとします.
 一般に,研究の対象となっている集団,すなわちそれについての情報が求められている集団のことを母集団といい,それを代表する一部分として実際に観察されている集団のことを標本(サンプル)といいます.
 上のようにいろいろな分布が想像できます.しかし,日常よく起こる現象,農業や生物の測定値の多くは正規分布という分布に当てはまめること(近似できる)ことが知られています.しかも,正規分布は平均と分散さえ指定すれば,その形が決まってしまうという特徴があります.では正規分布とは何か?これについては第4回以降の講義で解説します.
 それでは,最もよく使われる2つの統計量(平均・分散)がわかっているとしたら,どのようなデータ分布が考えられるでしょうか.魚の体重,トマトの収量,ウシの餌を食べる量などの生物や農業に関わるデータ(連続分布)について一番ありそうな分布はどのようなものでしょうか?
 以上のように母集団がどのような確率分布をするかがわかれば,標本がどのような確率で得られるかを推定できる.標本から母集団を推定するのが統計解析の目的であるから,標本と確率分布に何らかのパターンがあれば,標本から母集団の確率分布を再現できるでしょう.
犬の体重の確率分布(データは仮想のものです)

3.離散分布と連続分布

 母集団には2種類あります.1つは有限の大きさの実在母集団,もう一つは(仮説的)無限母集団です.実在母集団は社会学的な観察の対象としてよく現れますが,農学,生物学実験の対象は通常,仮説的無限母集団です.日本人を対象とした政党支持率の調査の場合,今生きている日本人だけを対象とするので,実在母集団です.しかし,海草を食べると寿命が延びるかという実験であれば,これから生まれる日本人にもこの結果が適応できると考えるから,仮説的無限母集団です.水稲,野菜,果樹,家畜の場合も,実験自体はごく限られた対象でしかしませんが,その成果をできるだけ広く考えようとするから,対象は仮説的無限母集団からなると考えられます.
 統計解析では,私たちの本当に知りたいのは母集団がどうなっているかです.しかし,たいていのばあい母集団をすべて調べるのは時間,労力,お金の無駄ですし,次に述べる仮説的無限母集団であれば,それそのものをすべて調べること自体が不可能です.
 そこで母集団から一部を取り出した標本を使って,母集団の性質を推測します.このとき標本は無作為に抽出されたものでなければなりません.無作為に抽出された標本であれば,たとえ少数の標本(2つ以上は必要ですが,3つ程度でも)であっても,統計的に母集団を推測できます.
 しかし,無作為でない偏った標本(それを標本といっていいのかどうか?)であれば,いくらたくさんあっても,あるいはたくさんあればよけいにまちがった結論を引き出しかねません.

生物統計学のトップページに戻る

 確率変数が離散量である確率分布を離散分布といいます.離散分布ではある確率変数に対する確率がいくつと決まります.例えば,花色の確率分布の場合,赤い色になる確率は0.2であり,赤とオレンジの赤色系の色になる確率は0.45となることがわかります.
 一方,確率変数が連続量である確率分布を連続分布といいます.連続分布ではある変数に対する確率は0になります.身長の場合,ちょうど170cm(すなわち170.000000......)のひとのいる確率は0となります.この場合の確率は分布の占める面積で決まります.犬の体重の確率分布の例を見てみましょう.
 確率分布とは確率変数がどのような値になるかという分布を示したものです.確率変数とはどのような値を取るかが確率で決まっている変数です.確率変数は数字でなくてもかまいません.例えば,トランプから1枚引くなら,確率変数はエース,2,3,4,・・・,J,Q,Kとなります.
確率分布の例はここをクリックしてください.
母集団と標本の関係の図解はここをクリックしてください.
 統計解析とは標本を調べることによって,母集団を推定するのが目的です.なお母集団の特徴を表す数値を母数(パラメーター)といいます.母平均μ,母分散σなど,母数を表す文字はギリシャ文字をふつう使います.これに対して,標本のそれを統計量といいます.標本平均m,標本分散Vなどローマ字を使います.統計解析とは母数を推定するために集めた標本の統計量から母数を推定することです.
 確率変数には離散量(とびとびの値を取るもの)と連続量があります.さいころの目や交通事故数などはとびとびの値を取るので,離散量です.一方,身長,速度などは連続量です.身長ではちょうど170cmという人は実際には存在しません.170cmというときは,四捨五入して170cmになるひと,すなわち169.5〜170.4999・・・cmの身長を指します.さらに170.0cmというときは,四捨五入して170.0cmになるひと,すなわち169.95〜170.04999・・・cmの身長を指します.

2.確率分布

 標本を集めるのは,母集団がどうなっているかを考えるために集めるのですが,ここで逆に考えてみます.母集団がある分布をすると決まっていたら,確率論的に標本はどうなるかを考えます. 
 例えば,さいころを振ったときに出る目について,1から6の目がある確率で出現すると期待できます.逆にさいころを何回か振ったときに1から6の目がそれぞれなんか出でたかの標本を得ることもできます.この場合,母集団は無限回さいころを振ったときにどうなるかですから,母集団を現実化することはできません.しかし,母集団がどのようなものかは予想できます.そして,何回かさいころを振ったときに得られる標本の分布も予想できます.