信頼区間

MikuHatsune2011-09-23

PART2 CHAPTER4のシミュレーション。
参考
 
箱の中に赤玉と黒玉がある。
赤玉は全体の25%である。
箱の中から玉を1つ取り出し、色を記録する。
取り出した玉はもとに戻す。
これを15回行って1セットとする。
 
という条件でシミュレーションを行い、各セットから95%信頼区間を算出し、それが真の母平均(0.25)を含むかどうかプロットした。

library(binom) # 信頼区間を求めるパッケージ。
p<- 0.25 # 母平均
trials<- 50
alpha<- 0.95
sample_no<- 15^(1:4) # 取り出す回数を増やすとどうなるか。

par(mfrow=c(2,2))
for(takes in sample_no){
	data<- matrix(sample(1:0,size=takes*trials,prob=c(p,1-	p),replace=TRUE),takes,trials)
	CIcalc<- binom.confint(colSums(data),n=takes,conf.leval=alpha,method="exact")
	CIcalc<- as.matrix(CIcalc[,2:ncol(CIcalc)])
	CIin<- rep(0,trials)
	for(i in 1:trials){
		if((CIcalc[i,"lower"]<p && p<CIcalc[i,"upper"]) == FALSE){
			CIin[i]<- 1
		}
	}
	matplot(0,type="n",xlim=c(1,nrow(CIcalc)),ylim=c(0,1),
			xlab="No.trial",ylab="Confidential interval")
	for(j in 1:2){
		segments(which(CIin==j-1),CIcalc[which(CIin==j-1),"lower"],
				 which(CIin==j-1),CIcalc[which(CIin==j-1),"upper"],col=j)
	}
	abline(h=p)
	title(paste("sampling",takes,"times",",","CI",paste(alpha*100,"%",sep="")))
}


各セットの結果から求めた信頼区間に、真の母平均が含まれていれば黒のバー、含まれていなければ赤のバーで示す。
信頼区間の意味は、本によると
 
真の母集団の値は、計算で得た95%CIに含まれるか、含まれないかのいずれかである。これを知る方法はない。多くのサンプルから95%CIを求める場合、95%CIはサンプルのおよそ95%に母集団の比率を含むが、残りのサンプルには母集団の値を含まない。
これは、サンプルから求めた95%CIが母集団の比率を含むのは95%確実であることを意味する。
 
区間が真の母集団の値を含む確率を指し示す区間であり、母集団の値が区間内に存在する確率ではないことに注意が必要である。
 
ランダムな試行は集めるデータに影響を及ぼすことで、CIの区間に影響する。実験を繰り返す度に異なる区考えられるのである。しかし、ランダムな試行が、定まっているが知られていない真の母集団の値に影響することはない。
 
母集団の値が95%の確率でCIの中に存在すると述べるのは正しくない。
 
結局、"このCIが母集団の値を含む確率は95%である"のような表現が適切である。
 
ということらしい。