トップページへ
第13回 単回帰分析
実験計画学のトップページへ戻る

トップ アイコン
トップページヘもどる

3) 母回帰係数と母切片の推定と検定
 回帰分析で得られた回帰直線も統計量ですから,母集団の回帰直線である母回帰直線(その傾きが母回帰係数)を考えることができます.さらに母回帰係数や母切片についての統計的推定・検定が可能です.
 母回帰係数などに関する推定や検定の数式を覚える必要はありませんが,推定のもつ統計的な意味を把握することは大切です.統計的検定は母回帰係数や母切片であればエクセルでもできます.
5.推定と予測
1) 推定と予測
 回帰分析の目的の一つは独立変数xとしてある値が与えられたときに,従属変数yがどのような値になるかを知ることです.この場合,yの母平均を知りたい場合とyの個々の実現する値を知りたい場合とがあります.
 yの母平均を統計的に見積もることを推定といいます.例えば,10日間道路に走る車の数を調査して,この道路に走る平均の車の数を推定したり,この1日平均の走行数を1ヶ月や1年単位に換算する場合,yの母平均を推定していることになります.
 一方,10日間の道路に走る車の数を調査した結果から,ある一日の車の数を知りたいこともあります.例えば,マラソン大会を行うのでどのくらいの車が通行するかを知りたいというような場合です.このように,独立変数xに対してyの実際に実現する値を知ろうとすることを予測といいます.
 そして,推定と予測では点推定・点予測のときは同じ結果を得ますが,信頼区間をつけると,推定では標本数が増えれば増えるほど,推定の信頼区間は0に近づきますが,予測の場合,もともとyのもつ誤差より精度よく予測はできません.
2)推定の信頼区間はどうなるか?
 植物体の地上部窒素含有率は葉の葉緑素値と深い関わりがあります.独立変数xを地上部窒素含有率,従属変数yを葉緑素値としたときに両者の関係は以下のようなグラフで表せたとしましょう.ここで四角の記号は実際に測定で得られた値であり,図中の青色の直線(回帰式)を求めるのに使った標本データです.
 この図で赤色の線は推定した母平均の95%上側信頼区間,緑色の線は95%下側信頼区間を示します.信頼区間からわかるように標本の平均に近いところでは信頼区間の幅が小さく,データの端になるとかなり信頼区間の幅が広くなっていることがわかります.
 このことから回帰分析では回帰式を求めたデータより外側を推定しようとすると誤差が大きくなることがわかります.過去何年間かの傾向から今後どうなるかを考えるような時間的な傾向を回帰分析で求めるときに,予想が外れやすいのはこのようなことも理由の一つにあげられます.
4) 予測の信頼区間はどうなるか?
 上のグラフでは回帰式から母平均を推定したときに,推定した母平均の信頼区間はどうなるかを示しました.今度は予測の信頼区間はどうなるでしょうか.ある1つの植物の地上部窒素含有率がわかったとしたらその葉の葉緑素値はどの程度の信頼をもって予測できるでしょうか.その信頼区間は下のグラフのようになります.
 このように予測の信頼区間は推定に比べてずっと大きくなります.なぜなら,yはもともと正規分布すると仮定していますから,その正規分布で与えられた誤差より精度よくはならないからです.予測の場合も平均に近いところほど信頼区間は狭く,データの端では信頼区間は広くなります.
6.回帰の逆推定
 上のグラフでは地上部窒素含有率から葉緑素値を計算することになっています.ところが葉緑素値がわかったときに地上部窒素含有率を知りたいということもあります.この場合,葉緑素値を独立変数xに,地上部窒素含有率を従属変数yにして回帰分析したらよいのでしょうか?これは実は誤りです.回帰分析では独立変数xは指定できる値,従属変数yはxが決まればある誤差をともなって決定する値であるという仮定があります.植物では葉緑素値が決まってから,地上部窒素含有率が決まるわけではなく,地上部窒素含有率が葉緑素値を決めていると考える方が自然ですから,独立変数xは地上部窒素含有率であるほうがよいでしょう.こうして回帰式を決めてから,今度はこの回帰式をxについて解き,yがわかっているときにxがどのような値を取るかを逆算します.これを回帰の逆推定といいます.
 化学分析の時に標準液を使って吸光度と濃度の関係を回帰分析してから,未知試料の濃度を求めるのも回帰の逆推定です.この場合も濃度が決まれば吸光度が決まるのであって,吸光度が濃度を決めるのではないので,濃度が独立変数でなければなりません.
 回帰の逆推定でも信頼区間を求めることができます.ただしものすごく煩雑なので,それほど正確に知る必要がなければ上の予測に関するグラフの信頼区間から逆算してもかまいません.予測を用いるのは逆推定で使うyはある実現した1回きりの値であって,母平均ではないからです.逆推定で使うyを数回測定してから逆推定する場合は信頼区間を小さくできますが,煩雑すぎるのでここでは紹介するにとどめます.
7.宿題
A.第11回の宿題で集めた回帰のデータについて(相関のデータはしなくていいです)以下の計算をしましょう.
(1) 回帰係数について95%信頼区間を求めましょう.
(2) 回帰係数について,母回帰係数が0であるという帰無仮説の元で5%の有意水準で検定しましょう.
(3) 指定したxについてyの母平均がどんな値を取るかを計算しましょう.さらに推定値の95%信頼区間を計算しましょう.指定したxの値は前回の宿題の講評の一番最後に書いておきます.
(4) 指定したxについてyを点予測しましょう.可能ならば,さらに予測値の95%信頼区間を計算しましょう.
(5) 指定したyについて,xを逆推定しましょう.逆推定は点推定だけでいいです.指定したyの値は前回の宿題の講評の一番最後に書いておきます.
エクセルによる回帰分析の仕方
 相関分析では母相関係数ρ=0という帰無仮説を検定し,この帰無仮説を棄却できれば両変数間に相関があると判断しました.一方,回帰分析では回帰係数が0という帰無仮説を検定します.回帰分析の分散分析で有意となれば,回帰係数は0ではないことになりますから,独立変数xを変えれば従属変数yが変わることになります.
 数学的には2つの変量について母相関係数ρ=0の帰無仮説が棄却できるならば,回帰係数=0の帰無仮説も棄却できます.しかし,統計的には相関と回帰では意味が異なります.
3) 分散分析の結果,回帰による変動が有意であれば,必要に応じて,回帰係数や切片の推定・検定を行う
2) 回帰分析では何を求めるか?
 回帰分析では独立変数xに対してyがいくつになるかを表す式(回帰式)を求めます.直線の回帰式であれば,その傾き(回帰係数)とその切片を求めれば回帰式が求まります.
2.単回帰分析
1) 相関係数
 回帰の時でも相関係数を計算できます.ただし母相関係数に関する推定や検定はできません.さらに回帰では相関係数を二乗した値である寄与率の方がより重要な評価基準となります.
1.回帰分析
1) 回帰分析とは?
  xが指定した値であり, yが指定されたxに対して,正規分布にしたがいながら決定する場合,両変数間の関係を回帰分析します. xとy の関係は直線だけでなく,指数,対数,2次曲線なども考えられます.ここでは直線の場合だけを考えます(単回帰分析).

2) 回帰直線
  xとy の2つの変数の関係を表した直線的な式を回帰直線といいます.

 回帰直線のモデル(母回帰式)は下の図のようになっています.このことから単回帰分析の適用できる条件は基本的には
@  が指定されたときに は正規分布にしたがって決定する.
A  の値にかかわらず, の標準偏差は一定である.
です.
 ただしこの条件が満たさないときでも変数変換などで単回帰分析できることも多くあります.
 以上のようにして,標本から求めた標本回帰式に対して,母回帰式を考えることができます.標本回帰式の傾き(回帰係数)と切片について推定・検定や分散分析をすることができます.
3) 回帰係数
 回帰係数は説明変数がある一定量変化したときに,目的変数がどれだけ変化するかを示す値です.回帰直線で最も重要な値です.回帰係数が0であるときはその両者の値の間に相関がありません.回帰係数が正(負)の時は,両者の値の間には正(負)の相関があります.
3.単回帰分析の手順

例:イネの植物体内窒素濃度(独立変数)によって,葉身の葉緑素値(葉色,SPAD,従属変数)がどの程度決定されるかを回帰分析しました.
1) 2つの変量のうちどちらが独立変数であり,どちらが従属変数かを確認し,グラフを書きます.
 例の場合,イネの地上部窒素濃度によって葉身の葉緑素値が決定されると考えられますから,下のグラフのように,地上部窒素濃度を横軸(独立変数)にし,葉緑素値を縦軸(従属変数)にします.ときおり,葉緑素値から地上部窒素濃度を逆推定するときに葉緑素値を横軸にして回帰分析している例がありますが,間違いです.
2) 回帰係数,回帰直線の式を求める→3) 分散分析を行う
 エクセルの分析ツールを使えば回帰直線の計算,分散分析などが一度にできます.
イネの地上部窒素濃度と葉緑素値についての回帰分析をエクセルで行った例
4.回帰分析における推定と検定
 回帰分析では独立変数xを与えたときに従属変数yがどんな値となるかを決めることが主な目的です.回帰係数,回帰直線などはそのために算出します.回帰係数,切片,独立変数xに対するyの値について推定・検定ができます.

1) 回帰係数の推定と検定に必要な理論式
2) 回帰直線に対して,推定値はどのようにばらつくか?
 回帰係数の推定と検定の計算は面倒ですし,しかもパソコンでできますので,ここでは図を見て,データのばらつきがどのようなものかを理解することに重点を置きましょう.
 下の図は先ほどデータから得られた回帰直線(実線)とyの平均値の95%信頼区間(点線)を示しています.
この図から次のことがわかります.
@ 平均に近いほど平均の信頼区間は狭くなります.すなわち推定精度が高くなります.
A 平均から遠いほど,特に回帰式を求めるデータの範囲外にでると,信頼区間は広くなり,精度は落ちます.
B 以上のことから,回帰分析では独立変数 はできるだけ広い範囲をカバーすることが望ましいことになります.さらに独立変数xがカバーしない部分でyを推定するとあまり精度は高くないことがわかります.
エクセルによる単回帰分析での母回帰係数と母切片の推定と検定
4) 回帰による推定と推定値の信頼区間
A.点推定
  xに対するηの点推定は 回帰式からそのまま計算できます.例えば,窒素濃度と葉緑素値の回帰の例ではエクセルでは以下のように回帰分析結果の回帰係数と切片を代入して計算します.
B.区間推定
 回帰分析ではあるxに対して,yがどんな値を取るのかを知るのが目的です.yはあるばらつきをもって実現する値です.ηの信頼区間はエクセルでは次の式で求められます(独立変数 のデータがC4:C33に入力されたとして).
エクセルによる単回帰分析での区間推定
3) 回帰による予測値の信頼区間
A.点予測
  xに対するyの点予測は点推定と同じになります.
B.区間予測
エクセルによる単回帰分析での区間予測