第12回 相関分析
1.2つの変量間の関係を調べる
摂取カロリーと血圧の関係、年平均気温と年間降水量、日射量とコムギの収量など2つの変数間の関係を調べることは頻繁にあります。この場合、まず散布図を書くことから始めます。散布図を書く意義は以下の3つがあります。
- 視覚的にどんな関係かを考えることができる。2つの変数間の関係は直線で表せることもあれば、曲線(2次関数、指数関数、対数関数など)で表せることもあります。数字だけではどのような関係かはわかりにくい場合でも、グラフにすると一目でわかります。
- 異常値の発見ができる。
- データの集団を異なるグループに分けられることがある。摂取カロリーと血圧の関係が性別、職業その他いろいろな要因によって変わることもあります。その場合でもグラフにして比較すれば新しい要因を発見できることがあります。例えば下の1月の気温と7月の気温の例をクリックしてください。
散布図はエクセルでも簡単に書けます。
2.相関と回帰
2つの変量(x、y)の関係について、x、yともに正規分布にしたがってばらつく量であるときには両者の関係を相関分析する。一方、xについては指定できる変数(独立変数)であり、yが指定されたxに対してあるばらつきをもって決まる場合、xとyの関係を回帰分析する。
相関分析では両変数間の関連の度合いを相関係数で評価することを主な目的とする。回帰では相関係数で評価することもできるが、主たる目的は両変数間の数的関係を回帰直線で表し、あるxが指定されたときにyがいくつになるかを求めることである。
3.相関分析
相関分析では次の手順で統計的な解析を行います。
- 相関係数を求める。
- 母相関係数ρ=0という帰無仮説を検定し、相関係数が有意であるか(2つの変数間に相関があるか)を検定する。
- 必要であれば、母相関係数の区間推定を行う。
- 相関係数が有意であれば、その絶対値の大きさから相関の強さを評価する。
- 両変数の因果関係などを専門的な知識などを動員して、さらに解析する。
エクセルを使って、相関係数を計算することができます。
4.回帰分析
1.相関係数
回帰の時でも相関係数を計算できます。ただし母相関係数に関する推定や検定はできません。さらに回帰では相関係数を二乗した値である寄与率の方がより重要な評価基準となります。
2.回帰分析では何を求めるか?
回帰分析では独立変数xに対してyがいくつになるかを表す式(回帰式)を求めます。直線の回帰式であれば、その傾き(回帰係数)とその切片を求めれば回帰式が求まります。
3.回帰分析の手順
回帰式(回帰係数と切片)を求める→分散分析を行う→分散分析の結果、回帰による変動が有意であれば、必要に応じて、回帰係数や切片の推定・検定を行う
4.回帰分析における検定
相関分析では母相関係数ρ=0という帰無仮説を検定し、この帰無仮説を棄却できれば両変数間に相関があると判断しました。一方、回帰分析では回帰係数が0という帰無仮説を検定します。回帰分析の分散分析で有意となれば、回帰係数は0ではないことになりますから、独立変数xを変えれば従属変数yが変わることになります。
数学的には2つの変量について母相関係数ρ=0の帰無仮説が棄却できるならば、回帰係数=0の帰無仮説も棄却できます。しかし、統計的には相関と回帰では意味が異なります。
5.エクセルによる回帰分析
エクセルを使うと、回帰係数、切片だけでなく、回帰の分散分析、回帰係数の有意差検定、母回帰係数の区間推定などもできます。
6.宿題
A.自分の調べた2つの変量の間の関係について、両方のデータともにいかの(1)〜(3)までを行え。
(1) 散布図を書く上での注意にしたがって、散布図を書き直せ。
(2) 95%信頼区間をつけて母相関係数を区間推定せよ。
(3) 相関の有無(帰無仮説ρ=0)を検定せよ。
B.自分の調べた相関についてのデータに相関があるときはどういう関係があるかを考えよ。すなわちみかけの相関ではないのか、直接的な因果関係があるのか、あるいは何か別の要因が間にはいっていないか?相関がないときは(始め相関があると予想したにもかかわらず,)なぜ相関がなかったのかを考えよ。