Chap2 相関分析
コンテンツ
2.1 共分散と相関係数を計算する目的2.2 共分散(covariance)の定義2.3 相関係数(correlation coefficient)の計算方法2.4 共分散・相関係数の計算と散布図の作成2.5 出力結果を読む付録 偽相関(見せかけの相関)について2.1 共分散と相関係数を計算する目的
分散や標準偏差では、データの広がり具合を計算した。
この節以降は、2つの確率変数データ(例えば,身長と体重)についての関連性 (身長が増加すれば体重も増加、など)を定量的に 調べるために共分散や相関係数を計算する。
2.2 共分散(covariance)の定義
共分散は2つの量的な確率変数 X、Y の関連性を測る尺度として C(X,Y) で表し、 以下の定義式で得られる。

上の定義式から以下のことがわかる。
- C(X,Y)の値が大きいほど関連性が高い。
- 分散・標準偏差が常に正の値をとるのに対し,共分散は負の値もとり得る。
- X が身長(単位 m)、 Y が体重(単位 kg)なら,対象となる2変数の共分散は、 m・kg という単位をもつ。
実データから推定値を計算する場合は次式を用いる。

ここで
を表す。
2.3 相関係数(correlation coefficient)の計算方法
共分散は確かに2つの量的な確率変数の関連性を測る尺度である。 しかし、対象となる2変数によってとり得る単位( X が身長、 Y が体重ならm・kg)は様々であり、 一般的に「関連性が高い」もしくは「低い」と議論することが難しい。
そこで、 X と Y の共分散を各々の分散の平方根(=標準偏差)の積で割ることにより、
単位をキャンセルすることで、どの2変数を対象としても同じ尺度で関連性をみることができる。
この尺度を r で表し、以下の式で得る。

実データから推定する場合は、分散の節で示した式と前節で示した共分散の式を用いて推定する。
上式で、r は -1 ≦ r ≦ 1 を満たし次のことが言える。
- r の絶対値が大きいほど関連性が高い。
- r が0以上で正の相関( X が増加すると、Y も増加する傾向)があるといい、 その絶対値が 1 に近いほど正の相関が強い。
- r が0以下で負の相関( X が増加すると、Y は減少する傾向)があるといい、 その絶対値が 1 に近いほど負の相関が強い。
- 0に近いほど無相関( X と Y の関連性は低い、または無い)であるという。
以下に例として正の相関が高い順に下図に示す。
以上の3つの図から r の絶対値が大きいほど完全な直線に近くなることがわかる。
また、参考として負の相関を表すグラスを下に示す。
2.4 共分散・相関係数の計算と散布図の作成
この節では実際にS-PLUSを用いて共分散・相関係数を計算する。計算に用いるデータはS-PLUSに用意されているものを用いる。 S-PLUS GUI を起動し、[Object Explorer]ウィンドウの SearchPath と 書かれた左にある + 記号をクリックする。
そこで表示された中から data をクリックするとウィンドウの右側に 様々なサンプルデータが表示される。 サンプルデータの中から、car.test.frame をダブルクリックして自動車のデータを開く。
下がそのデータの一部であり、Price(価格)、Country(国)、Reliability(信頼性) 、Mileage(燃費)、Type(車種)、Weight(重量)、Disp(排気量)、HP(馬力) の8項目、60台について調べたものである。 ここで8項目の内、Price、Mileage、Weight、Disp、HPの5項目は量的変数であり、 Country、Reliability、Typeの3項目は質的変数である。 共分散・相関係数は量的変数について計算できるため、以下では 主にPrice、Mileage、Weight、Disp、HPの5項目を扱うことにする。
Price(価格) と HP(馬力) の2項目に焦点を当て、共分散と相関係数を計算する。
まず共分散から計算する。
メニューバーから
[統計]→[データサマリー]→[相関]の順番で選択する。
選択すると[Correlations and Covariances] と書かれたウィンドウが開かれる。
ここで[Data]欄の[Data Set] が car.test.frame になっていることを確認して、[Variables] に Price を選択し、
[CTRL]キーを押しながら、HP を選択する。
さらに[Statistic]欄の [Type] で [Covariances] にチェックを入れ、[Apply] ボタンを押すと
[Report] ウィンドウに計算結果を得る。
次に,相関係数を計算するために[Correlations and Covariances] ウィンドウの [Statistic]欄の [Type] で [Correlations] にチェックを入れて、[Apply] ボタンを押す。
以上で Price と HP についての共分散と相関係数について計算が終了になる。
同様にして[Data]欄の [Variables] に ALL を選択することで、
8項目全てについての共分散と相関係数を同時に計算できる.
(共分散・相関係数は量的変数についてのみ計算できるので、
実質 Country、Reliability、Typeを除いた5項目について結果が出力される)
このとき[Correlations and Covariances] ウィンドウの左下にある
[Results]欄の[Print Results]のチェックボックス
にチェックを入れると画面上に計算結果が出力される
(今までのウィンドウでは全てチェックが入っている)。
また[Save As]に任意の名前(ここでは car.correlation とした)を入れて
[Apply]ボタンをクリックすると、[Object Explorer]ウィンドウの[Data]の中に
計算結果が保存される。この保存されたデータは
表形式になっているため、他の分析に利用することができる。
以上で全ての共分散・相関係数が求めることができた。
しかし2つの量的な確率変数の関連性を調べる上で、
相関係数と併せて散布図を考慮しなければならない。
その理由は後の解釈部分に譲り、ここではS-PLUSを用いた散布図の作成方法について説明する。
ツールバーの2Dプロットボタンをクリックし、Plots2D パレットを開く。
次に car.test.frame の Price 列をクリックし、[CTRL]キーを押しながら
HP 列 をクリックしてPlots2D パレット左上の散布図ボタン
をクリックする。
以上で2変数についての散布図が作成される。
さらに3変数以上について、各2変数ごとの散布図を同時に 作成・表示したい場合はS-PLUS の対散布図を用いる。
8項目のデータのうち量的変数であるPrice(価格)、Mileage(燃費)、Weight(重量)、Disp(排気量)、 HP(馬力)の5項目について、[CTRL]キーを用いて同時に 選択する(ただし、質的変数であるCountry、Reliability、Typeに ついても選択さえすれば、散布図は作成できる)。