[株式会社 NTTデータ数理システム]

第2章 統計資料の整理


2.4 回帰と相関(2)

(2) 回帰

相関では、2つの変量間の関係を相関係数という値で表しました。そこで、関係があるなら一方の変量の動きで他方の変量の動きを予測する問題に移ります。

例えば「消費は収入に依存する」という仮説で、経済学的問題と同時にその仮説その仮説が支持されるかどうか検証することは、統計学の重要な課題であります。

(i) 回帰直線

次の表は、販売実績と平均所得の推移を表したものです。

表2.5

年度 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
販売実績(百万円):y 168 182 192 235 304 304 333 343 423 484 553 548 589 639 661
平均所得(万円):x 66 70 76 92 117 132 147 151 159 170 188 186 204 223 234
(例題 2.14) 表2.5のデータの散布図および回帰直線を描く

> win.graph()
> plot(x,y,xlab="平均所得",ylab="販売実績",pch="*")
> abline(lsfit(x,y))

図2.8

この図を見ると平均所得と販売実績の相関は非常に高く、その関係は直線で示すことが可能です。

一般に直線の方程式は

y = a + bx

で示されます。

しかし図2.8を見ると、散布された各点の集まりが右上がりの直線の回りに点在していることはわかりますが、全体を直線だけで説明するにはいたらないようです。

いま説明のために、図2.9のように一つの点をプロットしますと、その点の位置は次の式で表すことができます。

yi = a + bxi + ui

図2.9

ここで、もし散布されたすべての点が直線上にあるときは、uの値は全て0になり"販売実績は平均所得によりすべて説明される"ことになります。ところが、これらの点が直線から離れ散らばりが大きくなれば、その仮説を支持することが難しくなります。そして、販売実績yを説明するには平均所得だけでなく、何か他の要因関係をさぐる必要を感じさせることになるでしょう。ここで、yを被説明変数または従属変数、xを説明変数または独立変数といいます。

したがって、回帰直線を引くことは、すべての点について出来るだけ近い距離を通る線を求めることになります。なお、直線の方程式のyは実際のyiと区別するための表示です。

すでに述べましたように、「ばらつき」を測るのに「平均」からのずれ(偏差)を求めました。今度は、回帰直線からのずれ(残差)u "販売実績が平均所得によって説明しきれないで残ってしまった散らばり" に注目します。

そこで、偏差( X - G )の2乗和を最小にする基準量として「平均: M 」を求めたのと同じように「残差: u 」の2乗和を最小にするような「直線」を求めようとしているのです。

これはすなわち、直線の方程式 y = a + bx が与えられたとき、aやbの値をどのように決めれば残差の2乗和が最小になるかを求めることとなります。

つまり

Σu2 = Σ{y - (a+bx)}2 → min

を解くことになります。これは Σu2a b で偏微分することにより求めることができます。結果から示しますと、

Σy = na + bΣx
Σxy = aΣx + bΣx2

という連立方程式を解くことによって得られた ab が上の条件を満たしているのです。この連立方程式を正規方程式と呼びます。

この方程式のを解いてab を求めると、

a = (Σx2Σy - ΣxΣxy ) / { nΣx2 - (Σx)2 }
b = ( nΣxy - ΣxΣy )/{ nΣx2 - (Σx)2 }

となります。簡便な求め方としては、x の平均を Mxyの平均を My としたとき、

b = Σ(x - Mx)(y - My)/Σ(x - Mx)2
a = Y - bMx

と求めるのが一般的です。

(例題 2.15) 表2.5のデータの回帰直線を計算する

> lm(y ~ x)
Call:
lm(formula = y ~ x)

Coefficients:
(Intercept) x
-56.16765 3.07021

Degrees of freedom: 15 total; 13 residual
Residual standard error: 33.22254

以上の結果から、回帰式は

y = -56.16765 + 3.07021x

となります。なお、

残差の自由度: 13
残差の標準誤差: 33.22254

です。自由度および標準誤差については、回帰式が予測に耐えられるかどうかの検定に必要な値ですが、これについては次章で述べます。

(ii) 予測

ある平均所得に対する推定販売高の算出は、一度回帰式が決定したら後は簡単です。例えば、翌年度に期待できる平均所得(xc)により、推定販売高(yc)を求めるには、次のように回帰式に平均所得を代入することにより求めることができます。

yc = -56.16765 + 3.07021xc
(例題 2.16) 上の回帰式を使用して平均所得が250万円のときの推定販売高を計算する。

> -56.16765 + 3.07021 * 250
[1] 711.3848

(iii) 回帰直線のまわりの散らばり

これまで、平均所得と販売実績を結びつける平均的な関係として次のモデル式を求めました。

y = -56.16765 + 3.07021x

しかし、実際の関係は

y = -56.16765 + 3.07021x + u

のように、残差項 u が含まれています。これを統計学では撹乱要因といいます。

そこで、この回帰直線のまわりに点在する散らばりを調べることによって、モデル(仮説)の適否を判断します。つまり、残差 u = y - (a +bx) の分散 Sy2 を求めることになります。一般式で書くと

Sy2 = [Σ{ y - (a + bx)}2]/n

となります。

この残差の分散は、各点がすべて回帰直線の上に載っていれば、0になります。このときは、販売実績 y が平均所得 x ですべて説明されることを意味します。

これと反対に、もし平均所得が変化しても、販売実績がまったく変化しなければ、回帰式 y = a + bx の回帰係数は b=0 となり、回帰式は y = a でx軸に平行な直線となります。このとき、残差の分散Σ(y-a)2/n を最小にする値は最小2乗法により a = (Σy)/n となり、yの平均 Myを意味します。分散は

σy2 = {Σ(y - My)2}/2 = Sy2

となります。

さらに、その中間の場合には、販売実績の散らばりは、程度の差はあっても平均所得 x の要素によって説明されることを意味しますから

0 ≦ Sy2 ≦ σy2

となるはずです。この式は次のように書くこともできます。

0 ≦ Sy2y2 ≦ 1
(例題 2.17) 表2.5で上の式を計算する。

> sy2 <- sum((y-(-56.16765+3.07021*x))^2)/15
> sgy2 <- sum((y-mean(y))^2)/15
> sy2/sgy2
[1] 0.03484776

計算結果から 0 ≦ Sy2y2 ≦ 1 であることが保証されています。

以上の結果から Sy2y2 = 1 なら販売実績は平均所得によってまったく説明されていないことになります。逆に Sy2y2 = 0 ならすべてを説明できることになります。したがって、Sy2y2 は「非説明力」の大きさを表しています。

そこで、これを1から引けば「説明力」の大きさを表すことになります。この大きさを r2 で示し決定係数と名づけます。

r2 = 1 - (Sy2y2)

決定係数の平方根を相関係数といいます。したがって、上の例題の結果から相関係数は次のようになります。

> sqrt(1 - sy2/sgy2)
[1] 0.9824216

この式は相関係数の理論的説明にはまことに明快ですが、計算はかなり面倒ですので、すでに述べましたように、xy の相関係数を直接に次の式で計算します。

r = Cov(x,y)/(σxσy

つまり、回帰直線は2変数の平均の座標を通ることを利用します。

(例題 2.18) 表2.5の平均所得と販売実績の相関係数を求める

> cor(x,y)
[1] 0.9824216

このように回帰分析から求めた相関係数と一致することがわかります。

( 次ページへ進む 前ページへ戻る 目次へ

(C) 中村 健二郎 1997

----------------------------------------------------------------

ご感想の宛先は、株式会社 NTTデータ数理システム《S-PLUS》グループ <splus-info@ml.msi.co.jp>