第12回 相関分析

生物統計学のトップページに戻る

第12回の授業で配布したプリント(PDF)
エクセルを使った母相関係数ρの区間推定
5.みかけの(偽の)相関関係
 相関係数が高いからといって,両者の間に因果関係などが必ずあるとは限りません.例えば,年齢を問わずに調査したら,血圧と垂直飛びに負の相関関係があるかもしれません.しかし,加齢とともに血圧は上がり,運動能力は落ちるから,この関係は見かけのものでしかありません.あるいはテレビの普及率と米の消費量を1960年代について調べたら,負の相関があるでしょう.一般に時間の絡むデータでは見かけの相関関係の出てくることがよくあります.

1) 時系列データ
 1955年から1970年におけるテレビの販売数と自動車事故の数
 1930年から1970年におけるタバコの消費本数と平均寿命

 以上のことを調べるとどういう結果が得られるでしょうか?
 その結果から,どういう誤った結論が引き出せるでしょうか?

2) 年齢などに関わるデータ
 血圧と原宿あるいは巣鴨で遊ぶ時間を調べたらどうなるでしょうか?
3) 相関の強さ
 相関係数 の検定の結果,相関が有意であることがわかったら,相関自体の強さは相関係数の絶対値で判断します.おおむね次のように考えます.
   -1.000~-0.600 高い負の相関
   -0.599~-0.400 中位の負の相関
   -0.399~-0.200 低い負の相関
   -0.199~+0.199 無相関
   +0.200~+0.399 低い正の相関
   +0.400~+0.599 中位の正の相関
   +0.600~+1.000 高い正の相関

 したがって,相関係数が1%あるいはそれより小さい有意水準で有意であったとしても,相関係数自体の値が0に近ければ,2つの変数間の相関はあまり大きいとはいえません.標本数が多くなると,相関係数がかなり0に近くても有意にはなるので,この点に注意しましょう.

 論文などで相関係数に*や**が付いていることをよく見ます.これは,母相関係数が0でないという帰無仮説を検定しています.ふつう*は5%の有意水準で相関があるとき,**は1%の有意水準で相関があることを示しています.
上の例題をエクセルで計算するときは下のようにします.
2) 相関の検定
 母相関係数ρに関する検定は,たいていの場合,帰無仮説H:ρ=0,対立仮説H:ρ≠0とする無相関の検定です(2つの変数間に相関がないという帰無仮説を検定します).

帰無仮説:両変数間には相関がない.母相関係数ρ=0
対立仮説:両変数間には相関がある.母相関係数ρ≠0

帰無仮説が棄却されたときは両変数間には相関があると結論できます.
帰無仮説が棄却できなかったときは両変数間には相関があるとはいえないと結論できます.
母集団の母相関係数ρ=0のときでも,そこから無作為に取り出した標本の相関係数が0.5程度のかなり大きな値となることもよくありますから,相関係数rを計算しただけで相関の有無を判断してはいけません.
この関係を利用して,標本の相関係数 が得られたときに母相関係数を区間推定できます.
4.相関係数に関する推定と検定
1) 推定
 相関係数rは集めてきたデータ(標本)から求めたものですから,統計量です.母集団の相関係数である母相関係数ρをrから区間推定することができます.
 その前に母相関係数ρが与えられたときに,標本の相関係数rはどのように分布するかをみてみましょう.
 下の図のように母相関係数ρが0であるときには,その母集団から無作為に抽出した標本の相関係数は左右対称に分布します.しかし,母相関係数が±1に近づくと著しくゆがんだ分布をします.
2) 相関係数 r
 2つの変数間の直線的な関係(相関関係)は相関係数r によって定量的に示すことができます.
 相関係数には以下の性質があります.
 ①  -1≦r≦1である.
 ②  rが1に近いほど正の相関が強く,-1に近いほど負の相関が強い.
 ③  rが0に近いときは,両変数間には相関がない(無相関).
散布図を書く意義
散布図の書き方
エクセルによる相関係数の求め方
 エクセルを使って,相関係数を計算することができます.
  1. 相関係数を求める.
  2. 母相関係数ρ=0という帰無仮説を検定し,相関係数が有意であるか(2つの変数間に相関があるか)を検定する.
  3. 必要であれば,母相関係数の区間推定を行う.
  4. 相関係数が有意であれば,その絶対値の大きさから相関の強さを評価する.
  5. 両変数の因果関係などを専門的な知識などを動員して,さらに解析する.
3.相関分析
1) 相関分析の手順
 相関分析では次の手順で統計的な解析を行います.
2.相関と回帰
 2つの変量(x,y)の関係について,x,yともに正規分布にしたがってばらつく量であるときには両者の関係を相関分析します.一方,xについては指定できる変数(独立変数)であり,yが指定されたxに対してあるばらつきをもって決まる場合,xとyの関係を回帰分析します.
 相関分析では両変数間の関連の度合いを相関係数で評価することを主な目的とします.回帰では相関係数で評価することもできますが,主たる目的は両変数間の数的関係を回帰直線で表し,あるxが指定されたときにyがいくつになるかを求める(推定あるいは予測する)ことです.
エクセルでの散布図の書き方
 散布図はエクセルでも簡単に書けます.
散布図からわかること(1月と7月の平均気温の例)
  1. 視覚的にどんな関係かを考えることができる.2つの変数間の関係は直線で表せることもあれば,曲線(2次関数,指数関数,対数関数など)で表せることもあります.数字だけではどのような関係かはわかりにくい場合でも,グラフにすると一目でわかります.
  2. 異常値の発見ができる.
  3. データの集団を異なるグループに分けられることがある.摂取カロリーと血圧の関係が性別,職業その他いろいろな要因によって変わることもあります.その場合でもグラフにして比較すれば新しい要因を発見できることがあります.例えば下の1月の気温と7月の気温の例をクリックしてください.
1.2つの変量間の関係を調べる
 摂取カロリーと血圧の関係,年平均気温と年間降水量,日射量とコムギの収量など2つの変数間の関係を調べることは頻繁にあります.この場合,まず散布図を書くことから始めます.散布図を書く意義は以下の3つがあります.
生物統計学授業用データ集のエクセルファイルには100個以内のデータセットであれば,入力するだけで,相関がないという帰無仮説の元でのp-値(優位確率)を計算し,相関の有無を検定するを算出するシートもあります.