トップページへ

第3回 母集団と標本・確率分布

実験計画学のトップページへ戻る

トップ アイコン
トップページヘもどる

1.母集団と標本

 私たちが何かを調査するときには,ふつう調査対象のすべてを調査することはありません.調査対象のすべてを調査する国勢調査のようなものはむしろごく少なく,たいていは調査対象の一部(世論調査など)を調査し,それの調査結果を使って,調査対象すべてを推定しようとします.
 一般に,研究の対象となっている集団,すなわちそれについての情報が求められている集団のことを母集団といい,それを代表する一部分として実際に観察されている集団のことを標本(サンプル)といいます.
 母集団には2種類あります.1つは有限の大きさの実在母集団,もう一つは(仮説的)無限母集団です.実在母集団は社会学的な観察の対象としてよく現れますが,農学,生物学実験の対象は通常,仮説的無限母集団です.日本人を対象とした政党支持率の調査の場合,今生きている日本人だけを対象とするので,実在母集団です.しかし,海草を食べると寿命が延びるかという実験であれば,これから生まれる日本人にもこの結果が適応できると考えるから,仮説的無限母集団です.水稲,野菜,果樹,家畜の場合も,実験自体はごく限られた対象でしかしませんが,その成果をできるだけ広く考えようとするから,対象は仮説的無限母集団からなると考えられます.
母集団と標本の関係の図解はここをクリックしてください.
 統計解析とは標本を調べることによって,母集団を推定するのが目的です.なお母集団の特徴を表す数値を母数(パラメーター)といいます.母平均μ,母分散σなど,母数を表す文字はギリシャ文字をふつう使います.これに対して,標本のそれを統計量といいます.標本平均m,標本分散Vなどローマ字を使います.統計解析とは母数を推定するために集めた標本の統計量から母数を推定することです.
 標本を集めるのは,母集団がどうなっているかを考えるために集めるのですが,ここで逆に考えてみます.母集団がある分布をすると決まっていたら,確率論的に標本はどうなるかを考えます. 
 例えば,さいころを振ったときに出る目について,1から6の目がある確率で出現すると期待できます.逆にさいころを何回か振ったときに1から6の目がそれぞれなんか出でたかの標本を得ることもできます.この場合,母集団は無限回さいころを振ったときにどうなるかですから,母集団を現実化することはできません.しかし,母集団がどのようなものかは予想できます.そして,何回かさいころを振ったときに得られる標本の分布も予想できます.
 確率分布とは確率変数がどのような値になるかという分布を示したものです.確率変数とはどのような値を取るかが確率で決まっている変数です.確率変数は数字でなくてもかまいません.例えば,トランプから1枚引くなら,確率変数はエース,2,3,4,・・・,J,Q,Kとなります.
確率分布の例はここをクリックしてください.

3.離散分布と連続分布

 確率変数には離散量(とびとびの値を取るもの)と連続量があります.さいころの目や交通事故数などはとびとびの値を取るので,離散量です.一方,身長,速度などは連続量です.身長ではちょうど170cmという人は実際には存在しません.170cmというときは,四捨五入して170cmになるひと,すなわち169.5〜170.4999・・・cmの身長を指します.さらに170.0cmというときは,四捨五入して170.0cmになるひと,すなわち169.95〜170.04999・・・cmの身長を指します.
 確率変数が離散量である確率分布を離散分布といいます.離散分布ではある確率変数に対する確率がいくつと決まります.例えば,花色の確率分布の場合,赤い色になる確率は0.2であり,赤とオレンジの赤色系の色になる確率は0.45となることがわかります.
 一方,確率変数が連続量である確率分布を連続分布といいます.連続分布ではある変数に対する確率は0になります.身長の場合,ちょうど170cm(すなわち170.000000......)のひとのいる確率は0となります.この場合の確率は分布の占める面積で決まります.犬の体重の確率分布の例を見てみましょう.
犬の体重の確率分布(データは仮想のものです)
 以上のように母集団がどのような確率分布をするかがわかれば,標本がどのような確率で得られるかを推定できる.標本から母集団を推定するのが統計解析の目的であるから,標本と確率分布に何らかのパターンがあれば,標本から母集団の確率分布を再現できるだろう.
 自分が第1回の宿題で作成した標本の度数分布を次の観点から観察してみよう.
  1. 母集団は,実在母集団か?仮説的無限母集団か?
  2. 母集団の確率分布は離散分布か?連続分布か?
  3. 度数分布の形は左右対称か,すそが広がっているか?山が1つか2つか?
  4. 母集団の確率分布を予想しながら,第1回の宿題で得た度数分布からいくつかの確率を読みとって見よ.

宿題

1.第1回の授業の宿題で調べたデータの母集団は何か?また,標本は何か?さらにこの母集団は実在母集団か,仮説的無限母集団か?この第1回のデータについて,どのくらいの大きなレベルの母集団にまで利用できるかを考えてみよう.
3.来週は統計学においてもっとも基本的な連続分布である正規分布を学びます.正規分布に従うと考えられる事象はたくさんあります.以下のものは正規分布にほぼ従うと考えられます.以下のものあるいはそれに類するものについて,100個以上のサンプルを調査し,その平均,分散を求め,ヒストグラム(階級の数は7〜10程度)を書こう.ノートには元になったデータもすべてきちんと載せましょう.データの有効数字は3つ以上とします.
2.第1回の授業の宿題で調べたデータの母集団は離散分布か,連続分布か?その分布の形は左右対称か,あるいはどちらかにゆがんでいるか?ひと山かふた山か?さらに確率がおおよそ0.2およびおおよそ0.5になる確率変数(範囲でもよい)を,いちばん階級数の多いヒストグラム(15階級程度に分級したヒストグラム)について考えてみよう.ホームページに掲載された過去の宿題のヒストグラムの中から,自分のデータともっとも分布の形が異なると思ったデータおよびもっとも分布の形が似ていると思ったデータのヒストグラムをコピーして載せよう.
2002年の宿題の例から
2003年の宿題の例から

2.確率分布

 統計解析では,私たちの本当に知りたいのは母集団がどうなっているかです.しかし,たいていのばあい母集団をすべて調べるのは時間,労力,お金の無駄ですし,次に述べる仮説的無限母集団であれば,それそのものをすべて調べること自体が不可能です.
 そこで母集団から一部を取り出した標本を使って,母集団の性質を推測します.このとき標本は無作為に抽出されたものでなければなりません.無作為に抽出された標本であれば,たとえ少数の標本(2つ以上は必要ですが,3つ程度でも)であっても,統計的に母集団を推測できます.
 しかし,無作為でない偏った標本(それを標本といっていいのかどうか?)であれば,いくらたくさんあっても,あるいはたくさんあればよけいにまちがった結論を引き出しかねません.
無作為抽出しない,偏った標本でどんな間違いをするか?
2004年の宿題の例から
2005年の宿題の例から
2006年の宿題の例から

日本人100人を無作為に抽出して,身長を測定した場合,母集団は日本人全体,標本は測定した日本人100人です.ときどき母集団や標本を身長などという人がいますが,よく考えましょう.

2007年度の宿題の例
よく間違える母集団と標本の例