トップページへ
第2回 平均と分散・データの要約
 前回の宿題では100個以上のデータからなる何かについて調査することにしました.今回はこのようにして得られたデータを要約することを考えてみます.ここでは5品種のイネについて,1穂穎花数が品種によってどう違うのかを例に考えてみます(なおトマトの着果数,ニワトリの産卵数などに置き換えた方がわかりやすい人はそうしてもかまいません).
 まず5品種のイネのデータを何の整理もしないとどうなるかを見てみましょう.
これをクリック→
 5品種のうち,どれが最も1穂穎花数が多い品種でしょうか.雑然とした,整理されていないデータではよくわかりません.
  1. 大きさの順に並べる.
  2. 度数分布やヒストグラムを書く.
  3. 代表的な統計量を求める.
 このようにデータがただたくさんあっても,要約して,有用な値やグラフに変えなければ,データはゴミの山と同じになります.ではどういうデータの要約方法があるのでしょうか.
 ここでは,以下の3つのデータの要約の仕方を考えてみます.
 このようにデータを要約することによって,5品種のイネの1穂穎花数について有益な情報が得られるようになります.上の1,2,3の要約それぞれからどのようなことがいえるかを考えてみましょう.
 さて,上の3つのうち,1が最もデータの要約の程度が小さく,3が最も要約の程度が大きくなっています.要約すればするほど,データのもつ情報の一部は失われますが,データを端的に表せることになります.データを大きさの順に並べただけでは,5つの品種のうちどの品種が最も1穂穎花数が多いか判断できませんが,平均値という代表値ならばすぐにわかります.このようにデータを要約するときには,いかに大切な情報を失わないようにしながら,よけいな情報(雑音)を消すかが大事になります.
 さて,つぎは代表的な統計量からもとのデータの分布を復元できるのかを考えてみましょう.平均,メジアンといった代表値だけ与えられても,もとのデータの分布は全く予想できません.ここで分散,標準偏差,レンジ,四分位量などデータのばらつきを示す統計量を与えるとある程度データの分布が想像できそうです.
 それでは,最もよく使われる2つの統計量(平均・分散)がわかっているとしたら,どのようなデータ分布が考えられるでしょうか.
いくつかのデータ分布を考えてみたら,右のボタンをクリックしてください
 いろいろな分布が想像できます.しかし,日常よく起こる現象,農業や生物の測定値の多くは正規分布という分布に当てはまめること(近似できる)ことが知られています.しかも,正規分布は平均と分散さえ指定すれば,その形が決まってしまうという特徴があります.では正規分布とは何か?これについては第4回の講義で解説します.
1.前回の宿題で調べたデータについて,今回学んだデータの要約を利用して,平均,メジアン,分散,標準偏差,レンジ,変動係数を求めましょう.さらに3種類書いたヒストグラムそれぞれについてモードを求めましょう.有効数字,四捨五入にも注意しましょう.
授業の補足
2.次のことについて,自分で調査あるいは実験を行って,データを収集しましょう.
 データの分布の形にはいろいろ考えられます.次回以降の授業では二項分布,ポアソン分布,正規分布について学びます.予備的に次の調査を行いましょう.
a. 二項分布に従うと考えられる以下の現象のうち,一つを選んで自分で実際に最低でも25回以上実験・調査しましょう.その結果を度数分布になおし,ヒストグラム(階級範囲は1つずつとし,0と1をいっしょの階級にしないように)を書きましょう.さらに平均・分散を計算しましょう.集めたデータからわかったことを箇条書きで書きましょう.
宿題の説明
b. めったに起こらないことはポアソン分布に従うと考えられます.以下の現象のうち,一つを選んで自分で実際に実験・調査しましょう.その結果を度数分布になおし,ヒストグラム(階級範囲は1つずつとし,0と1をいっしょの階級にしないように)を書きましょう.さらに平均・分散を計算しましょう.集めたデータからわかったことを箇条書きで書きましょう.
前回の宿題(1000個のデータを解析する例)
前回の宿題を例にエクセルで統計量を計算しました.
実験計画学のトップページへ戻る

トップ アイコン
トップページヘもどる

 第3回の講義では,正規分布を理解する前提となる知識として,母集団と標本の区別および確率分布の概念について学びます.
 モードについては先週の宿題で書いた3つのヒストグラムそれぞれについて求めてください.平均,メジアン,分散,標準偏差,レンジ,変動係数は元のデータから計算してください.
2.別のデータの分布について考えてみる
1.ヒストグラムの書き方
3.四捨五入の注意点
4.有効数字

A.データの要約

B.代表値の計算の実際

 たいていの場合,代表値としては平均,分散,標準偏差,変動係数(%)を計算すればよいでしょう.メジアン,四分位範囲などは後で述べるように分布が偏っているときに計算するといいです.平均,分散,標準偏差を数式でかくと,Σ(シグマ)という記号がでてきて,びっくりするかもしれません.エクセルで計算するときはそういうことはわからなくても大丈夫です.平均,分散,標準偏差が意味することをしっかり理解しましょう.

エクセルの関数を使った代表値の計算方法
エクセルの分析ツールを使った基本統計量の計算

C.データの要約の手順

1.データの全体的な傾向を表す表にまとめます.大きさの順にデータを並べます.度数分布表を作ります.
2.ヒストグラムなどの図をかきます.
3.平均など中心化の傾向を示すような値を求めます.
4.ばらつきを評価する値を求めます.

D.要約されたデータから何をよみとるか

1.中心化の傾向を表す代表値として

 中心化の傾向を表す代表値としては,平均(算術平均),メジアン,モードの3つがあります.一般的には平均を使うことが多いですが,分布が偏っているとき,あるいは途中で調査を打ち切るようなデータではメジアンが使われ,名目(質的)データではモードが使われます.
 中心化の傾向を表す代表値は位置の統計量ともいいます.

平均について
メジアンとモードについて

2.ばらつきを評価する指標として

 中心化の傾向を表す代表値にたいして,その中心からおのおののデータがどれぐらい離れているかを示すのがばらつきを評価する指標です.

3.要約する過程でどれだけの情報が失われたか?

 分散とその正の平方根である標準偏差がばらつきの指標としてよくつかわれます.四分位範囲はあまり使われませんが,メジアンを利用する方がよい場合にはこちらの方がよい指標です.とくに調査を途中で打ち切る標本では四分位範囲を使うことになるでしょう.

ヒストグラム・度数分布からモードを決める場合
5.m2,g2,H2O,CO2などの表記方法(上付き文字,下付き文字)
交通事故発生件数のホームページ(警察庁)