第12回 相関分析
1.2つの変量間の関係を調べる
摂取カロリーと血圧の関係,年平均気温と年間降水量,日射量とコムギの収量など2つの変数間の関係を調べることは頻繁にあります.この場合,まず散布図を書くことから始めます.散布図を書く意義は以下の3つがあります.
- 視覚的にどんな関係かを考えることができる.2つの変数間の関係は直線で表せることもあれば,曲線(2次関数,指数関数,対数関数など)で表せることもあります.数字だけではどのような関係かはわかりにくい場合でも,グラフにすると一目でわかります.
- 異常値の発見ができる.
- データの集団を異なるグループに分けられることがある.摂取カロリーと血圧の関係が性別,職業その他いろいろな要因によって変わることもあります.その場合でもグラフにして比較すれば新しい要因を発見できることがあります.例えば下の1月の気温と7月の気温の例をクリックしてください.
散布図はエクセルでも簡単に書けます.
2.相関と回帰
2つの変量(x,y)の関係について,x,yともに正規分布にしたがってばらつく量であるときには両者の関係を相関分析します.一方,xについては指定できる変数(独立変数)であり,yが指定されたxに対してあるばらつきをもって決まる場合,xとyの関係を回帰分析します.
相関分析では両変数間の関連の度合いを相関係数で評価することを主な目的とします.回帰では相関係数で評価することもできますが,主たる目的は両変数間の数的関係を回帰直線で表し,あるxが指定されたときにyがいくつになるかを求める(推定あるいは予測する)ことです.
3.相関分析
1) 相関分析の手順
相関分析では次の手順で統計的な解析を行います.
- 相関係数を求める.
- 母相関係数ρ=0という帰無仮説を検定し,相関係数が有意であるか(2つの変数間に相関があるか)を検定する.
- 必要であれば,母相関係数の区間推定を行う.
- 相関係数が有意であれば,その絶対値の大きさから相関の強さを評価する.
- 両変数の因果関係などを専門的な知識などを動員して,さらに解析する.
エクセルを使って,相関係数を計算することができます.
6.宿題
A.自分の調べた2つの変量の間の関係について,両方のデータともにいかの(1)〜(3)までを行え.
(1) 散布図を書く上での注意にしたがって,散布図を書き直せ.
(2) 95%信頼区間をつけて母相関係数を区間推定せよ.
(3) 相関の有無(帰無仮説ρ=0)を検定せよ.
B.自分の調べた相関についてのデータに相関があるときはどういう関係があるかを考えよ.すなわちみかけの相関ではないのか,直接的な因果関係があるのか,あるいは何か別の要因が間にはいっていないか?相関がないときは(始め相関があると予想したにもかかわらず,)なぜ相関がなかったのかを考えよ.
2) 相関係数 r
2つの変数間の直線的な関係(相関関係)は相関係数r によって定量的に示すことができます.
相関係数には以下の性質があります.
@ −1≦r≦1である.
A rが1に近いほど正の相関が強く,-1に近いほど負の相関が強い.
B rが0に近いときは,両変数間には相関がない(無相関).
4.相関係数に関する推定と検定
1) 推定
相関係数rは集めてきたデータ(標本)から求めたものですから,統計量です.母集団の相関係数である母相関係数ρをrから区間推定することができます.
その前に母相関係数ρが与えられたときに,標本の相関係数rはどのように分布するかをみてみましょう.
下の図のように母相関係数ρが0であるときには,その母集団から無作為に抽出した標本の相関係数は左右対称に分布します.しかし,母相関係数が±1に近づくと著しくゆがんだ分布をします.
この関係を利用して,標本の相関係数 が得られたときに母相関係数を区間推定できます.
信頼率を99%または90%としたければ,手順2の式の1.960を2.576または1.645と変更します.
エクセルを使って母相関係数の区間推定をするときは以下の方法を参考にしてください.
2) 検定
母相関係数ρに関する検定は,たいていの場合,帰無仮説H0:ρ=0,対立仮説H1:ρ≠0とする無相関の検定です(2つの変数間に相関がないという帰無仮説を検定します).
帰無仮説:両変数間には相関がない.母相関係数ρ=0
対立仮説:両変数間には相関がある.母相関係数ρ≠0
帰無仮説が棄却されたときは両変数間には相関があると結論できます.
帰無仮説が棄却できなかったときは両変数間には相関があるとはいえないと結論できます.
母集団の母相関係数ρ=0のときでも,そこから無作為に取り出した標本の相関係数が0.5程度のかなり大きな値となることもよくありますから,相関係数rを計算しただけで相関の有無を判断してはいけません.
上の例題をエクセルで計算するときは下のようにします.
3) 相関の強さ
相関係数 の検定の結果,相関が有意であることがわかったら,相関自体の強さは相関係数の絶対値で判断します.おおむね次のように考えます.
-1.000〜-0.600 高い負の相関
-0.599〜-0.400 中位の負の相関
-0.399〜-0.200 低い負の相関
-0.199〜+0.199 無相関
+0.200〜+0.399 低い正の相関
+0.400〜+0.599 中位の正の相関
+0.600〜+1.000 高い正の相関
したがって,相関係数が1%あるいはそれより小さい有意水準で有意であったとしても,相関係数自体の値が0に近ければ,2つの変数間の相関はあまり大きいとはいえません.標本数が多くなると,相関係数がかなり0に近くても有意にはなるので,この点に注意しましょう.
論文などで相関係数に*や**が付いていることをよく見ます.これは,母相関係数が0でないことを検定しています.ふつう*は5%の有意水準で相関があるとき,**は1%の有意水準で相関があることを示しています.
5.みかけの(偽の)相関関係
相関係数が高いからといって,両者の間に因果関係などが必ずあるとは限りません.例えば,年齢を問わずに調査したら,血圧と垂直飛びに負の相関関係があるかもしれません.しかし,加齢とともに血圧は上がり,運動能力は落ちるから,この関係は見かけのものでしかありません.あるいはテレビの普及率と米の消費量を1960年代について調べたら,負の相関があるでしょう.一般に時間の絡むデータでは見かけの相関関係の出てくることがよくあります.
1) 時系列データ
1955年から1970年におけるテレビの販売数と自動車事故の数
1930年から1970年におけるタバコの消費本数と平均寿命
以上のことを調べるとどういう結果が得られるでしょうか?
その結果から,どういう誤った結論が引き出せるでしょうか?
2) 年齢などに関わるデータ
血圧と原宿あるいは巣鴨で遊ぶ時間を調べたらどうなるでしょうか?