トップページへ
第2回 平均と分散・データの要約
 前回の宿題では100個以上のデータからなる何かについて調査することにしました.今回はこのようにして得られたデータを要約することを考えてみます.ここでは5品種のイネについて,1穂穎花数が品種によってどう違うのかを例に考えてみます.
 まず5品種のイネのデータを何の整理もしないとどうなるかを見てみましょう.
これをクリック→
 5品種のうち,どれが最も1穂穎花数が多い品種でしょうか.雑然とした,整理されていないデータではよくわかりません.
  1. 大きさの順に並べる.
  2. 度数分布やヒストグラムを書く.
  3. 代表的な統計量を求める.
 このようにデータがただたくさんあっても,要約して,有用な値やグラフに変えなければ,データはゴミの山と同じになります.ではどういうデータの要約方法があるのでしょうか.
 ここでは,以下の3つのデータの要約の仕方を考えてみます.
 このようにデータを要約することによって,5品種のイネの1穂穎花数について有益な情報が得られるようになります.上の1,2,3の要約それぞれからどのようなことがいえるかを考えてみましょう.
 さて,上の3つのうち,1が最もデータの要約の程度が小さく,3が最も要約の程度が大きくなっています.要約すればするほど,データのもつ情報の一部は失われますが,データを端的に表せることになります.データを大きさの順に並べただけでは,5つの品種のうちどの品種が最も1穂穎花数が多いか判断できませんが,平均値という代表値ならばすぐにわかります.このようにデータを要約するときには,いかに大切な情報を失わないようにしながら,よけいな情報(雑音)を消すかが大事になります.
 さて,つぎは代表的な統計量からもとのデータの分布を復元できるのかを考えてみましょう.平均,メジアンといった代表値だけ与えられても,もとのデータの分布は全く予想できません.ここで分散,標準偏差,レンジ,四分位量などデータのばらつきを示す統計量を与えるとある程度データの分布が想像できそうです.
 それでは,最もよく使われる2つの統計量(平均・分散)がわかっているとしたら,どのようなデータ分布が考えられるでしょうか.
いくつかのデータ分布を考えてみたら,右のボタンをクリックしてください
 いろいろな分布が想像できます.しかし,日常よく起こる現象,農業や生物の測定値の多くは正規分布という分布に当てはまめること(近似できる)ことが知られています.しかも,正規分布は平均と分散さえ指定すれば,その形が決まってしまうという特徴があります.では正規分布とは何か?これについては第4回の講義で解説します.
1.前回の宿題で調べたデータについて,今回学んだデータの要約を利用して,平均,メジアン,分散,標準偏差,レンジ,変動係数を求めましょう.さらに3種類書いたヒストグラムそれぞれについてモードを求めましょう.有効数字,四捨五入にも注意しましょう.
授業の補足
2.次のことについて,自分で調査あるいは実験を行って,データを収集しましょう.
 データの分布の形にはいろいろ考えられます.次回以降の授業では二項分布,ポアソン分布,正規分布について学びます.予備的に次の調査を行いましょう.
a. 二項分布に従うと考えられる以下の現象のうち,一つを選んで自分で実際に最低でも25回以上実験・調査しましょう.その結果を度数分布になおし,ヒストグラム(階級範囲は1つずつとし,0と1をいっしょの階級にしないように)を書きましょう.さらに平均・分散を計算しましょう.集めたデータからわかったことを箇条書きで書きましょう.
宿題の説明
b. めったに起こらないことはポアソン分布に従うと考えられます.以下の現象のうち,一つを選んで自分で実際に実験・調査しましょう.その結果を度数分布になおし,ヒストグラム(階級範囲は1つずつとし,0と1をいっしょの階級にしないように)を書きましょう.さらに平均・分散を計算しましょう.集めたデータからわかったことを箇条書きで書きましょう.
前回の宿題(1000個のデータを解析する例)
前回の宿題を例にエクセルで統計量を計算しました.
実験計画学のトップページへ戻る

トップ アイコン
トップページヘもどる

 第3回の講義では,正規分布を理解する前提となる知識として,母集団と標本の区別
および二項分布とポアソン分布について学びます.
 モードについては先週の宿題で書いた3つのヒストグラムそれぞれについて求めてください.平均,メジアン,分散,標準偏差,レンジ,変動係数は元のデータから計算してください.
2.別のデータの分布について考えてみる
1.ヒストグラムの書き方
3.四捨五入の注意点
4.有効数字