第2回 平均と分散・データの要約

データの整理をしないとこのようになります
 5品種のうち,どれが最も着花数が多い品種でしょうか.雑然とした,整理されていないデータではよくわかりません.
授業の補足
 このようにデータがただたくさんあっても,要約して,有用な値やグラフに変えなければ,データはゴミの山と同じになります.ではどういうデータの要約方法があるのでしょうか.
 ここでは,以下の3つのデータの要約の仕方を考えてみます.
2.今回の授業では扱いませんでしたが,別のデータの分布について考えてみましょう
1.ヒストグラムの書き方

A.データの要約

 たいていの場合,代表値としては平均,分散,標準偏差,変動係数(%)を計算すればよいでしょう.メジアン,四分位範囲などは後で述べるように分布が偏っているときに計算するといいです.平均,分散,標準偏差を数式でかくと,Σ(シグマ)という記号がでてきて,びっくりするかもしれません.エクセルで計算するときはそういうことはわからなくても大丈夫です.平均,分散,標準偏差が意味することをしっかり理解しましょう.

 今回はさいしょに数多くのデータを得たときに要約することを考えてみます.ここでは5品種のトマトの着果数について,品種によってどう違うのかを例に考えてみます(なおトマトの着果数をイネの1穂穎花数,ニワトリの産卵数などに置き換えた方がわかりやすい人はそうしてもかまいません).
 まず5品種のトマトの着果数のデータを何の整理もしないとどうなるかを見てみましょう.

生物統計学のトップページに戻る

第2回の授業で配布したプリント(PDF)

 分散とその正の平方根である標準偏差がばらつきの指標としてよくつかわれます.四分位範囲はあまり使われませんが,メジアンを利用する方がよい場合にはこちらの方がよい指標です.とくに調査を途中で打ち切る標本では四分位範囲を使うことになるでしょう.

 中心化の傾向を表す代表値にたいして,その中心からおのおののデータがどれぐらい離れているかを示すのがばらつきを評価する指標です.

2.ばらつきを評価する指標として

平均について
メジアンとモードについて

D.要約されたデータから何をよみとるか

1.中心化の傾向を表す代表値として

 中心化の傾向を表す代表値としては,平均(算術平均),メジアン,モードの3つがあります.一般的には平均を使うことが多いですが,分布が偏っているとき,あるいは途中で調査を打ち切るようなデータではメジアンが使われ,名目(質的)データではモードが使われます.
 中心化の傾向を表す代表値は位置の統計量ともいいます.

1.データの全体的な傾向を表す表にまとめます.大きさの順にデータを並べます.度数分布表を作ります.
2.ヒストグラムなどの図をかきます.
3.平均など中心化の傾向を示すような値を求めます.
4.ばらつきを評価する値を求めます.

C.データの要約の手順

エクセルの関数を使った代表値の計算方法
エクセルの分析ツールを使った基本統計量の計算

B.代表値の計算の実際

 このようにデータを要約することによって,5品種のトマトの着果数について有益な情報が得られるようになります.上の1,2,3の要約それぞれからどのようなことがいえるかを考えてみましょう.
 さて,上の3つのうち,1が最もデータの要約の程度が小さく,3が最も要約の程度が大きくなっています.要約すればするほど,データのもつ情報の一部は失われますが,データを端的に表せることになります.データを大きさの順に並べただけでは,5つの品種のうちどの品種が最も着果数が多いか判断できませんが,平均値という代表値ならばすぐにわかります.このようにデータを要約するときには,いかに大切な情報を失わないようにしながら,よけいな情報(雑音)を消すかが大事になります.
5.m2,g2,H2O,CO2などの表記方法(上付き文字,下付き文字)
  1. 大きさの順に並べる.
  2. 度数分布やヒストグラムを書く.
  3. 代表的な統計量を求める.
3.四捨五入の注意点
4.有効数字