Chap2 相関分析

コンテンツ

2.1 共分散と相関係数を計算する目的2.2 共分散(covariance)の定義2.3 相関係数(correlation coefficient)の計算方法2.4 共分散・相関係数の計算と散布図の作成2.5 出力結果を読む付録 偽相関(見せかけの相関)について

2.1 共分散と相関係数を計算する目的

分散や標準偏差では、データの広がり具合を計算した。

この節以降は、2つの確率変数データ(例えば,身長と体重)についての関連性 (身長が増加すれば体重も増加、など)を定量的に 調べるために共分散や相関係数を計算する。

[一番上へ]

2.2 共分散(covariance)の定義

共分散は2つの量的な確率変数 X、Y の関連性を測る尺度として C(X,Y) で表し、 以下の定義式で得られる。

上の定義式から以下のことがわかる。

実データから推定値を計算する場合は次式を用いる。

ここで

を表す。

[一番上へ]

2.3 相関係数(correlation coefficient)の計算方法

共分散は確かに2つの量的な確率変数の関連性を測る尺度である。 しかし、対象となる2変数によってとり得る単位( X が身長、 Y が体重ならm・kg)は様々であり、 一般的に「関連性が高い」もしくは「低い」と議論することが難しい。

そこで、 X と Y の共分散を各々の分散の平方根(=標準偏差)の積で割ることにより、 単位をキャンセルすることで、どの2変数を対象としても同じ尺度で関連性をみることができる。
この尺度を r で表し、以下の式で得る。

実データから推定する場合は、分散の節で示した式と前節で示した共分散の式を用いて推定する。

上式で、r は -1 ≦ r ≦ 1 を満たし次のことが言える。

以下に例として正の相関が高い順に下図に示す。

図2.1 グラフでの r = 1 
		(完全相関)の様子
図2.1 グラフでの r = 1 (完全相関)の様子

図2.2  グラフでの r = 0.95 
		の様子
図2.2 グラフでの r = 0.95 の様子

図2.3  グラフでの r = 0.47 
		の様子
図2.3 グラフでの r = 0.47 の様子

以上の3つの図から r の絶対値が大きいほど完全な直線に近くなることがわかる。
 また、参考として負の相関を表すグラスを下に示す。

図2.4  グラフでの r = -0.96 の様子
図2.4 グラフでの r = -0.96 の様子

[一番上へ]

2.4 共分散・相関係数の計算と散布図の作成

この節では実際にS-PLUSを用いて共分散・相関係数を計算する。計算に用いるデータはS-PLUSに用意されているものを用いる。 S-PLUS GUI を起動し、[Object Explorer]ウィンドウの SearchPath と 書かれた左にある + 記号をクリックする。

そこで表示された中から data をクリックするとウィンドウの右側に 様々なサンプルデータが表示される。 サンプルデータの中から、car.test.frame をダブルクリックして自動車のデータを開く。

図2.5:car.test.frameの読み出し
図2.5 car.test.frameの読み出し

下がそのデータの一部であり、Price(価格)、Country(国)、Reliability(信頼性) 、Mileage(燃費)、Type(車種)、Weight(重量)、Disp(排気量)、HP(馬力) の8項目、60台について調べたものである。 ここで8項目の内、Price、Mileage、Weight、Disp、HPの5項目は量的変数であり、 Country、Reliability、Typeの3項目は質的変数である。 共分散・相関係数は量的変数について計算できるため、以下では 主にPrice、Mileage、Weight、Disp、HPの5項目を扱うことにする。

図2.6 car.test.frameデータの一部
図2.6 car.test.frameデータの一部


Price(価格) と HP(馬力) の2項目に焦点を当て、共分散と相関係数を計算する。
まず共分散から計算する。
メニューバーから [統計]→[データサマリー]→[相関]の順番で選択する。

図2.7 Correlations and Covariances ウィンドウの開き方
図2.7 Correlations and Covariances ウィンドウの開き方

選択すると[Correlations and Covariances] と書かれたウィンドウが開かれる。 ここで[Data]欄の[Data Set] が car.test.frame になっていることを確認して、[Variables] に Price を選択し、 [CTRL]キーを押しながら、HP を選択する。
さらに[Statistic]欄の [Type] で [Covariances] にチェックを入れ、[Apply] ボタンを押すと [Report] ウィンドウに計算結果を得る。

図2.8 Price と HP の共分散の計算
図2.8 Price と HP の共分散の計算

次に,相関係数を計算するために[Correlations and Covariances] ウィンドウの [Statistic]欄の [Type] で [Correlations] にチェックを入れて、[Apply] ボタンを押す。

図2.9 Price と HP の相関係数の計算
図2.9 Price と HP の相関係数の計算

以上で Price と HP についての共分散と相関係数について計算が終了になる。

同様にして[Data]欄の [Variables] に ALL を選択することで、 8項目全てについての共分散と相関係数を同時に計算できる.
(共分散・相関係数は量的変数についてのみ計算できるので、 実質 Country、Reliability、Typeを除いた5項目について結果が出力される)

図2.10 8項目についての共分散と相関係数の計算
図2.10 8項目についての共分散と相関係数の計算

このとき[Correlations and Covariances] ウィンドウの左下にある [Results]欄の[Print Results]のチェックボックス にチェックを入れると画面上に計算結果が出力される (今までのウィンドウでは全てチェックが入っている)。 また[Save As]に任意の名前(ここでは car.correlation とした)を入れて [Apply]ボタンをクリックすると、[Object Explorer]ウィンドウの[Data]の中に 計算結果が保存される。この保存されたデータは 表形式になっているため、他の分析に利用することができる。

以上で全ての共分散・相関係数が求めることができた。
しかし2つの量的な確率変数の関連性を調べる上で、 相関係数と併せて散布図を考慮しなければならない。 その理由は後の解釈部分に譲り、ここではS-PLUSを用いた散布図の作成方法について説明する。

ツールバーの2Dプロットボタンをクリックし、Plots2D パレットを開く。

図2.11 2Dプロットボタン
図2.11 2Dプロットボタン

次に car.test.frame の Price 列をクリックし、[CTRL]キーを押しながら HP 列 をクリックしてPlots2D パレット左上の散布図ボタン をクリックする。

以上で2変数についての散布図が作成される。

図2.12 散布図の作成
図2.12 散布図の作成

さらに3変数以上について、各2変数ごとの散布図を同時に 作成・表示したい場合はS-PLUS の対散布図を用いる。

8項目のデータのうち量的変数であるPrice(価格)、Mileage(燃費)、Weight(重量)、Disp(排気量)、 HP(馬力)の5項目について、[CTRL]キーを用いて同時に 選択する(ただし、質的変数であるCountry、Reliability、Typeに ついても選択さえすれば、散布図は作成できる)。