Chap9 検定・推定

コンテンツ

9.1 検定・推定とは
9.2 1標本に関するt検定
9.3 2標本に関するt検定
9.4 カイ2乗検定

9.1 検定・推定とは

例を挙げて検定の考え方を説明する。

A社は接着剤を製造しているメーカーである。最近、使用者から「接着剤がなかなか乾かない」という声がよせられている。A社の製品は接着剤中のaという薬品の含有量が設定値30%からズレているときに、乾きにくくなってしまう。そこで、A社経営者は薬品aの含有量をチェックすることを決定した。

しかし、製造された全ての製品(これを母集団という)の含有量についてチェックするのは労力が必要であるし、コストもかかる。そこでA社は製造された接着剤20 個のbondデータについて調べることにした(これを標本抽出という)。

下が標本抽出により得られたデータである。

図1.1:bondデータ

ここでデータの算術平均を計算すると30.3という値を得る。
上の結果から「aの含有量は目安からズレていない」といってよいだろうか. もしかすると抽出されたデータが偶然に30.3という結果を生んだだけかもしれない。このように本当にズレているかいないかといった議論に対し、客観的・合理的に判断する手法が検定(test)という概念である。

最も重要な用語は次の3つである。

■帰無(きむ)仮説 H0: 2つの値には差がないという仮説である。例でいうと「母平均 = 30.0」である。「差がある」と考えた方が自然のように思われるかもしれないが、発生する差が「大きな差」なのか「小さな差」なのかまでは仮説にできないため、「差がない」を仮説におき肯定(採択)するか否定(棄却して対立仮説をとる)する。

■対立仮説 H1: 本来、発生しているのかもしれない状況を表した仮説である。例でいうと「母平均 ≠ 30.0」である。帰無仮説の反対の仮説で、帰無仮説が棄却された場合に採択される。「差がないとはいえない、つまり差がある」という仮説である。

■有意水準　α: 帰無仮説と対立仮説のどちらの仮説を採択するか、判断を下す基準となる確率である。一般にα=5%と設定され、検定の結果がαを下回れば有意となり対立仮説を採択する。

このように実際起こっていることはH0なのか、H1なのか判断を下すのが検定である。

次に推定について述べる。

検定(test)では帰無仮説を否定(棄却)できるかできないかの2者択1 な考え方を行った。推定(estimation)では薬品aの含有量がどれくらいの値をとるのかについて具体的に求めることを行う。推定には点推定と区間推定がある。

■点推定: 「薬品aの含有量の値は〇〇である」とピンポイントに当てる作業を点推定という。

■区間推定: 点推定がピンポイントに当てるのに対して、幅を持たせて推定を行うことを区間推定という。一般に信頼率を設定して区間を決める。信頼率が低いほど区間は広くなり、高い信頼率に設定すると相応して区間は狭くなる。

9.2 1標本に関するt検定

前節の例について、t検定を行う。t検定とは検定統計量t( 20個のaのデータを標準化した値)を自由度が(データ数-1)の t分布を用いて検定統計量を評価する検定である。統計検定量は次式で表される。

ここでt検定の特徴は、実際の状況に近づけるため母分散を未知にしている点である。そのため,標準化を行う際には分散の値として点推定量を代入する。

実際にSPLUS GUIを用いてt検定を行う。

メニューバーから「統計」→「標本比較」→「1標本」→「t検定」を選択する。

図2.1:t検定の選択

選択すると、次のウインドウが出てくるので図のように設定する。

図2.2:t検定の設定

各項目の説明をする。

Date Set:t検定を施すデータを選択する。
Variable:データセットの中のどのデータについてかを選択する。
Mean Under Null Hypothesis:帰無仮説の設定。ここでは30である。
Alternative Hypothesis:対立仮説の設定。ここでは両側検定(two.sided)を設定する。
Confidence Level:区間推定の際の信頼率の設定。ここでは95%を設定する。
Save As:出力を保存したい場合ファイル名を入力する。
Print Results:チェックを入れておく。

設定が終了したらOKボタンを押して出力を得る。以下がその出力である。

	One-sample t-Test

data:  a in bond 
t = 2.7154, df = 19, p-value = 0.0137 
alternative hypothesis: true mean is not equal to 30 
95 percent confidence interval:
 30.07861 30.60738 
sample estimates:
 mean of x 
  30.34299

出力の解釈を行う。

t = 2.7154, df = 19, p-value = 0.0137 
alternative hypothesis: true mean is not equal to 30

この2行は検定結果を表している。
数値は検定統計量tと自由度19からp値(確率)を求めている。ここでp値とは帰無仮説の起こり得る可能性を表す。

p値をみると１%と非常に小さい値であり、母平均=30という仮説が成り立っているものとは考えにくい。また設定した有意水準5%も下回っている。そこで帰無仮説を棄却し、対立仮説を採択する("有意である"という)。そのことを表しているのが出力の2行目である。

95 percent confidence interval:
 29.96309 30.47078 
sample estimates:
 mean of x 
  30.21694

この5行は推定結果を表している。上2行が区間推定でそれ以降が点推定を表す。
結果より95%信頼区間は(29.96,30.47)で点推定は30.22である。また、もし検定が有意でなくとも推定は行われる。

以上をまとめると、検定の結果A社の第1工場で作られた接着剤に含まれる薬品aは30%であるとはいえず、点推定の結果30.22%になっているといえる。

9.3 2標本に関するt検定

前節で、製造された接着剤についてt検定を行った結果、薬品aの含有量は 30からズレていると判断できた。そこでA社では原因を追窮し、改善運動を行った。この節では、改善の効果があったかどうかについて2標本のt検定を用いて検証する。

具体的には「改善前のデータの母平均＝改善後のデータの母平均」を帰無仮説として検定を行う。この結果が有意となれば、改善前と改善後で母平均が異なるとなるので改善の効果があったといえる。

用いるデータは次のとおりである。ここでa1は改善前のデータで、a2は改善後のデータである。

図3.1:使用データ

SPLUS GUIを用いて2標本に関するt検定を行う。

メニューバーから「統計」→「標本比較」→「2標本」→「t検定」を選択する。

図3.2:2標本の場合のt検定の選択

選択すると次のウインドウが出てくるので図のように設定する。

図3.3:2標本の場合のt検定の設定

各項目の説明をする。

Date Set:t検定を施すデータを選択する。
Variable1,2:各々データを選択する。
Mean Under Null Hypothesis:帰無仮説の設定。ここでは2つの母平均に差なので0である。
Alternative Hypothesis:対立仮説の設定。両側検定(two.sided)を設定する。
Confidence Level:区間推定の際の信頼率の設定。ここでは95%を設定する。
Type of Test:2つの独立したデータを扱うので、Two-sample t を選択する。
Assume Equal Variances:サンプルデータの母分散が等しいと考えられる場合チェックを入れる。 2つの工場は同じ設備を持つので等しいと考えられる。また、チェックを入れないとWelchの検定となる。

設定が終了したらOKボタンを押して出力を得る。以下がその出力である。

	Standard Two-Sample t-Test

data:  x: a1 in bond2 , and y: a2 in bond2 
t = 2.6702, df = 38, p-value = 0.0111 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 0.08277119 0.60171337 
sample estimates:
 mean of x mean of y 
  30.34299  30.00075

出力の解釈を行う。

data:  x: a1 in bond2 , and y: a2 in bond2 
t = 2.6702, df = 38, p-value = 0.0111 
alternative hypothesis: true difference in means is not equal to 0

1標本のときと同様にp値をみると,1%となっていることがわかる。よって5%有意であり、帰無仮説を棄却する。これは,改善前と改善後で製造された接着剤に含まれる薬品aの母平均には差があることを表し、改善に効果があったことを表す。

95 percent confidence interval:
 0.08277119 0.60171337 
sample estimates:
 mean of x mean of y 
  30.34299  30.00075

検定により母平均に差がある(ゼロでない)ことがわかったので推定によりどの程度の差があるのかを調べる。点推定では"30.34299 - 30.00075 = 0.34224"の差がある。さらに重要になるのが95%信頼区間である。区間は(0.0827,0.6017)となり、区間にゼロを含んでいない(=2つの母平均に差がある)ことがわかる。このことからも帰無仮説を棄却するべきであると考えられる。

以上がt検定である。

9.4 カイ2乗検定

カイ(χ)2乗値とは観測度数と期待度数のずれを数値化したもので、次式で定義される。

χ^2　=　[｛観測値 - 期待値｝^2 / 期待値　]の和

例を挙げてカイ2乗検定を説明する。

A社では第1工場と第2工場で接着剤を製造している。設備の規模の違いから第1工場では1日に200個、第2工場では1日に70個の接着剤を製造している。

2つの工場において、ある日の不良品を数えてみると第1工場では"26個/200個=13%"、第2工場では"3個/70個=4.3%"であった。第1工場と第2工場における不良品個数の間には有意な差があるだろうか？

2群の差が有意かどうか検討するには2×2分割表を書くのがよい。以下がその表である。ここで行名は第1・第2工場を表し、列名は不良品・良品個数を表す。

表4.1:例の2×2分割表

	imperfect	perfect	sum
first	23	177	200
second	3	67	70
sum	23	247	270

次に不良品の個数に差がないと仮定する(帰無仮説)と表4.1はどのようになるか考える。

表4.1からA社で製造された接着剤全体に対する不良品率は"26/270"であり、そこから得られる第1工場の不良品個数の期待値は"200×26/270=19.26個"である。同様にして第2工場についても求めると"70×26/270=6.74個"である。これらの期待値を求めた表を下に示す。

表4.2:例の期待値の2×2分割表

	imperfect	perfect	sum
first	19.26	180.74	200
second	6.74	63.26	70
sum	23	247	270

2つの表をみてもわかるように観測によって得られた不良品個数と期待不良品個数は食い違っている。この食い違いを表すのが先にも定義したカイ2乗値である。

上式でも定義したように観測値と期待値の差で表し、さらに差の２乗をとって期待値で割ったものの和をとっている。もし観測値=期待値であるならば、カイ2乗値=0となる。逆に食い違いが大きくなるとカイ2乗値は大きくなる。

下図はカイ2乗分布を表している。横軸がカイ2乗値で、縦軸が対応する確率である。分布の様子をみてもわかるように、カイ2乗分布は標本の分散と母集団の分散の"比に関する連続分布"である。よって、元々は連続変数の標本分散の検定に用いられている。しかしカイ2乗検定は連続変数、離散変数、およびそれらの組み合わせなど任意の変数に対して利用できることが大きな特徴である。

図4.1:カイ2乗分布

実際にS-PLUS GUIを用いて不良品の個数に差がないかどうかカイ2乗検定を行う。尚、t検定同様、カイ2乗検定においても有意水準は5%として検定を行う。

用いるデータは表4.1にも示したが、次のとおりである。

図4.2:不良品個数データ

メニューバーから「統計」→「標本比較」→「仮説検定」→「カイ2乗検定」を選択する.

図4.3:カイ2乗検定の設定

選択すると、次のウインドウが出てくるので図のように"Variable 1"、 "Variable 2"を設定する。

図4.4:パラメータの設定その1

設定できたら、さらに次のよう設定を続ける。

図4.5:パラメータの設定その2

各項目の説明をする。

■Date Set is a Contingency Table: 得られたデータが偶然性をもつ場合にチェックを入れる。今回は"ある日"の不良品個数であるため偶然性をもつと考えられる。

■Apply Yates'Continuity Correction: データ数が40を下回る場合にチェックを入れる(極端にデータ数が少ない場合は「統計」→「標本比較」→「仮説検定」→「フィッシャーの正確確率検定」を用いる。この検定もカイ2乗検定である)。今回は、データ数は270なのでチェックを外す。

設定できたらOKボタンを押して出力を得る。

	Pearson's chi-square test without Yates' continuity correction

data:  imperfect.product 
X-square = 3.1011, df = 1, p-value = 0.0782

出力の解釈を行う。

"X-square(カイ2乗値)"は観測値と期待値について定義式を用いて計算される。求めたカイ2乗値と"df(自由度)"を用いて"p-value(p値)"が計算される。

p値をみると約7.8%となり5%有意とはいえない。つまり「第1工場と第2工場の不良品個数には差がない」という帰無仮説を採択する。

今回の検定では帰無仮説を採択した。しかし、得たp値は5%有意ではないものの有意に近い値であるうえ、サンプリングした不良品個数もあくまで"ある1日"についてのデータであるので、今後も工場別の不良品個数に関する検定を続ける意義はありそうである。