Basic Statistics with S-PLUS 2-4

第2章統計資料の整理

2.4 回帰と相関(2)

(2) 回帰

相関では、2つの変量間の関係を相関係数という値で表しました。そこで、関係があるなら一方の変量の動きで他方の変量の動きを予測する問題に移ります。

例えば「消費は収入に依存する」という仮説で、経済学的問題と同時にその仮説その仮説が支持されるかどうか検証することは、統計学の重要な課題であります。

(i) 回帰直線

次の表は、販売実績と平均所得の推移を表したものです。

表2.5

年度	1978	1979	1980	1981	1982	1983	1984	1985	1986	1987	1988	1989	1990	1991	1992
販売実績（百万円）:y	168	182	192	235	304	304	333	343	423	484	553	548	589	639	661
平均所得（万円）:x	66	70	76	92	117	132	147	151	159	170	188	186	204	223	234

(例題 2.14) 表2.5のデータの散布図および回帰直線を描く

> win.graph()
> plot(x,y,xlab="平均所得",ylab="販売実績",pch="*")
> abline(lsfit(x,y))

図2.8

この図を見ると平均所得と販売実績の相関は非常に高く、その関係は直線で示すことが可能です。

一般に直線の方程式は

y = a + bx

で示されます。

しかし図2.8を見ると、散布された各点の集まりが右上がりの直線の回りに点在していることはわかりますが、全体を直線だけで説明するにはいたらないようです。

いま説明のために、図2.9のように一つの点をプロットしますと、その点の位置は次の式で表すことができます。

y_i = a + bx_i + u_i

図2.9

ここで、もし散布されたすべての点が直線上にあるときは、uの値は全て0になり"販売実績は平均所得によりすべて説明される"ことになります。ところが、これらの点が直線から離れ散らばりが大きくなれば、その仮説を支持することが難しくなります。そして、販売実績yを説明するには平均所得だけでなく、何か他の要因関係をさぐる必要を感じさせることになるでしょう。ここで、yを被説明変数または従属変数、xを説明変数または独立変数といいます。

したがって、回帰直線を引くことは、すべての点について出来るだけ近い距離を通る線を求めることになります。なお、直線の方程式のyは実際のy_iと区別するための表示です。

すでに述べましたように、「ばらつき」を測るのに「平均」からのずれ（偏差）を求めました。今度は、回帰直線からのずれ（残差）u "販売実績が平均所得によって説明しきれないで残ってしまった散らばり" に注目します。

そこで、偏差( X - G )の2乗和を最小にする基準量として「平均: M 」を求めたのと同じように「残差: u 」の2乗和を最小にするような「直線」を求めようとしているのです。

これはすなわち、直線の方程式 y = a + bx が与えられたとき、aやbの値をどのように決めれば残差の2乗和が最小になるかを求めることとなります。

つまり

Σu² = Σ{y - (a+bx)}² → min

を解くことになります。これは Σu² を a と b で偏微分することにより求めることができます。結果から示しますと、

Σy = na + bΣx
Σxy = aΣx + bΣx²

という連立方程式を解くことによって得られた a と b が上の条件を満たしているのです。この連立方程式を正規方程式と呼びます。

この方程式のを解いてa 、b を求めると、

a = （Σx²Σy - ΣxΣxy ） / { nΣx² - （Σx）² }
b = （ nΣxy - ΣxΣy ）/{ nΣx² - （Σx）² }

となります。簡便な求め方としては、x の平均を M_x 、yの平均を M_y としたとき、

b = Σ(x - M_x)(y - M_y)/Σ(x - M_x)²
a = Y - bM_x

と求めるのが一般的です。

(例題 2.15) 表2.5のデータの回帰直線を計算する

> lm(y ~ x)
Call:
lm(formula = y ~ x)

Coefficients:
(Intercept) x
-56.16765 3.07021

Degrees of freedom: 15 total; 13 residual
Residual standard error: 33.22254

以上の結果から、回帰式は

y = -56.16765 + 3.07021x

となります。なお、

残差の自由度: 13
残差の標準誤差: 33.22254

です。自由度および標準誤差については、回帰式が予測に耐えられるかどうかの検定に必要な値ですが、これについては次章で述べます。

(ii) 予測

ある平均所得に対する推定販売高の算出は、一度回帰式が決定したら後は簡単です。例えば、翌年度に期待できる平均所得（x_c）により、推定販売高（y_c）を求めるには、次のように回帰式に平均所得を代入することにより求めることができます。

y_c = -56.16765 + 3.07021x_c

(例題 2.16) 上の回帰式を使用して平均所得が250万円のときの推定販売高を計算する。

> -56.16765 + 3.07021 * 250
[1] 711.3848

(iii) 回帰直線のまわりの散らばり

これまで、平均所得と販売実績を結びつける平均的な関係として次のモデル式を求めました。

y = -56.16765 + 3.07021x

しかし、実際の関係は

y = -56.16765 + 3.07021x + u

のように、残差項 u が含まれています。これを統計学では撹乱要因といいます。

そこで、この回帰直線のまわりに点在する散らばりを調べることによって、モデル（仮説）の適否を判断します。つまり、残差 u = y - (a +bx) の分散 S_y² を求めることになります。一般式で書くと

S_y² = [Σ{ y - (a + bx)}²]/n

となります。

この残差の分散は、各点がすべて回帰直線の上に載っていれば、0になります。このときは、販売実績 y が平均所得 x ですべて説明されることを意味します。

これと反対に、もし平均所得が変化しても、販売実績がまったく変化しなければ、回帰式 y = a + bx の回帰係数は b=0 となり、回帰式は y = a でｘ軸に平行な直線となります。このとき、残差の分散Σ(y-a)²/n を最小にする値は最小2乗法により a = （Σy）/n となり、yの平均 M_yを意味します。分散は

σ_y² = {Σ(y - M_y)²}/2 = S_y²

となります。

さらに、その中間の場合には、販売実績の散らばりは、程度の差はあっても平均所得 x の要素によって説明されることを意味しますから

0 ≦ S_y² ≦ σ_y²

となるはずです。この式は次のように書くこともできます。

0 ≦ S_y²/σ_y² ≦ 1

(例題 2.17) 表2.5で上の式を計算する。

> sy2 <- sum((y-(-56.16765+3.07021*x))^2)/15
> sgy2 <- sum((y-mean(y))^2)/15
> sy2/sgy2
[1] 0.03484776

計算結果から 0 ≦ S_y²/σ_y² ≦ 1 であることが保証されています。

以上の結果から S_y²/σ_y² = 1 なら販売実績は平均所得によってまったく説明されていないことになります。逆に S_y²/σ_y² = 0 ならすべてを説明できることになります。したがって、S_y²/σ_y² は「非説明力」の大きさを表しています。

そこで、これを1から引けば「説明力」の大きさを表すことになります。この大きさを r² で示し決定係数と名づけます。

r² = 1 - (S_y²/σ_y²)

決定係数の平方根を相関係数といいます。したがって、上の例題の結果から相関係数は次のようになります。

> sqrt(1 - sy2/sgy2)
[1] 0.9824216

この式は相関係数の理論的説明にはまことに明快ですが、計算はかなり面倒ですので、すでに述べましたように、x と y の相関係数を直接に次の式で計算します。

r = Cov(x,y)/(σ_xσ_y）

つまり、回帰直線は2変数の平均の座標を通ることを利用します。

(例題 2.18) 表2.5の平均所得と販売実績の相関係数を求める

> cor(x,y)
[1] 0.9824216

このように回帰分析から求めた相関係数と一致することがわかります。

（次ページへ進む前ページへ戻る目次へ）

（C) 中村健二郎 1997