第2回 平均と分散
前回の宿題では100個以上のデータからなる何かについて調査することにしました.今回はこのようにして得られたデータを要約することを考えてみます.ここでは5品種のイネについて,1穂穎花数が品種によってどう違うのかを例に考えてみます.
まず5品種のイネのデータを何の整理もしないとどうなるかを見てみましょう.
これをクリック→
5品種のうち,どれが最も1穂穎花数が多い品種でしょうか.雑然とした,整理されていないデータではよくわかりません.
このようにデータがただたくさんあっても,要約して,有用な値やグラフに変えなければ,データはゴミの山と同じになります.ではどういうデータの要約方法があるのでしょうか.
ここでは,以下の3つのデータの要約の仕方を考えてみます.
このようにデータを要約することによって,5品種のイネの1穂穎花数について有益な情報が得られるようになります.上の1,2,3の要約それぞれからどのようなことがいえるかを考えてみましょう.
さて,上の3つのうち,1が最もデータの要約の程度が小さく,3が最も要約の程度が大きくなっています.要約すればするほど,データのもつ情報の一部は失われますが,データを端的に表せることになります.データを大きさの順に並べただけでは,5つの品種のうちどの品種が最も1穂穎花数が多いか判断できませんが,平均値という代表値ならばすぐにわかります.このようにデータを要約するときには,いかに大切な情報を失わないようにしながら,よけいな情報(雑音)を消すかが大事になります.
さて,つぎは代表的な統計量からもとのデータの分布を復元できるのかを考えてみましょう.平均,メジアンといった代表値だけ与えられても,もとのデータの分布は全く予想できません.ここで分散,標準偏差,レンジ,四分位量などデータのばらつきを示す統計量を与えるとある程度データの分布が想像できそうです.
それでは,最もよく使われる2つの統計量(平均・分散)がわかっているとしたら,どのようなデータ分布が考えられるでしょうか.
いくつかのデータ分布を考えてみたら,右のボタンをクリックしてください
いろいろな分布が想像できます.しかし,日常よく起こる現象,農業や生物の測定値の多くは正規分布という分布に当てはまめること(近似できる)ことが知られています.しかも,正規分布は平均と分散さえ指定すれば,その形が決まってしまうという特徴があります.では正規分布とは何か?これについては第4回の講義で解説します.
1.前回の宿題で調べたデータについて,今回学んだデータの要約を利用して,平均,メジアン,分散,標準偏差,レンジ,変動係数を求めましょう.さらに3種類書いたヒストグラムそれぞれについてモードを求めよ.
授業の補足
2.次のことについて,自分で調査あるいは実験を行って,データを収集しましょう.
データの分布の形にはいろいろ考えられます.次回以降の授業では二項分布,ポアソン分布,正規分布について学びます.予備的に次の調査を行いましょう.
a. 二項分布に従うと考えられる以下の現象のうち,一つを選んで自分で実際に最低でも25回以上実験・調査しましょう.その結果を度数分布になおし,ヒストグラム(階級範囲は1つずつとし,0と1をいっしょの階級にしないように)を書きましょう.さらに平均・分散を計算しましょう.集めたデータからわかったことを箇条書きで書きましょう.
宿題の説明
- さいころを10回振って,そのうち1が何回出るか?
- トランプから1枚のカードを抜く.元に戻して,再びよく混ぜる.10回カードを引いて,ハートが何枚出るか.
- 麻雀牌から1枚の牌を抜く.元に戻してよく混ぜる.10回牌を引いて,字牌が何回出るか.
- 10本の鉛筆を用意し,1本だけ赤鉛筆を入れる.よく混ぜて1本を取り出す.取り出した後,その鉛筆は元に戻す.これを10回行い,赤鉛筆を何回引いたか.
b. めったに起こらないことはポアソン分布に従うと考えられます.以下の現象のうち,一つを選んで自分で実際に実験・調査しましょう.その結果を度数分布になおし,ヒストグラム(階級範囲は1つずつとし,0と1をいっしょの階級にしないように)を書きましょう.さらに平均・分散を計算しましょう.集めたデータからわかったことを箇条書きで書きましょう.
- ここ100年間日本において火山の噴火した回数(理科年表で調べることができる).
- ここ100年間において,世界で大地震の起こった回数(理科年表で調べることができる).
- 100個入りのお菓子に不良品の入っている数を100袋について調べる.
- 島根県住民がここ100回の宝くじの特等に当たった人数.
- 100日間における任意の県での交通事故の発生件数(東京都における例)
第3回の講義では,正規分布を理解する前提となる知識として,母集団と標本の区別
および二項分布とポアソン分布について学びます.
モードについては先週の宿題で書いた3つのヒストグラムそれぞれについて求めてください.平均,メジアン,分散,標準偏差,レンジ,変動係数は元のデータから計算してください.