9/26 MIKUセミナー

MikuHatsune2011-10-06

信頼区間について。
 
信頼区間とはなんぞや、といろいろ語る人がいるけど、理解しづらい。
という訳で、自分が何をしたいか、知りたいかを例に取りながら考えることにする。
 
そもそも、統計とは、という話題で、統計とは

  • 集計すること
  • 検定すること
  • 推定すること

というのが挙がった。
こちらの状況を利用して、信頼区間について考える。
 
信頼区間とは、ある値をもつ変量があって、それがどの程度の値を取るかの推定である。
今、ボールを取るゲームを上のリンクのルールで行うとき、状況として
ボールの総数が分かっている or 分かっていない
赤玉の比率が分かっている or 分かっていない
の、組み合わせ4通りがある。
ここで、総数が分かっている、かつ、赤玉の比率が分かっている、場合には、そもそも統計なんか持ち出す必要がない(推定する、ということ)。
今、赤玉の比率が知りたい、ということにする。
 
さて、実際にボールを取り出そう。
今、1セット行い、15回のうち、赤玉4個、黒玉11個、という結果になったとしよう(集計する、ということ)。
真の母集団が分からないから、今起きた出来事から予想する、というのが統計のお仕事(推定する、ということ)。
ここで、知りたいのは比率なので、0~1の値を取る。ここで、赤玉の比率は0~1です、と言えば、100%当たる(信頼区間100%)。
100%当たるけれどもすべての範囲を指定するのはちょっと‥‥という人のために、95%くらいにしてみる(検定する推定する、ということ)。
 
結果は起きたことなので、これは信じることにする。
さあ、ここで、一体母平均がどんな具合だったら、今回の結果がどれくらい起きるか、をシミュレーションしてみる。
赤玉の割合が0~1で0.0001刻みのときに、赤玉が4/15という結果が生まれる確率を計算する(尤度)。

p<- seq(0,1,0.0001)
pp<- rep(0,length(p))
for(i in 1:length(p)){
	pp[i]<- dbinom(4,15,p[i])
}
plot(pp/sum(pp),cex=0.1,axes=FALSE,ylim=c(0,0.0005),
	 xlab="Ratio of Red balls",ylab="Likelyhood")
axis(1,
	 c(0,which(pp==max(pp)),length(p)),
	 c(0,round(which(pp==max(pp))/length(p),3),1))
axis(2)


こんな感じのグラフになる。
 
ここから、95%とはどうするのですか、ということだが、(いくつかやり方はあるらしいけど)大きいものから足していって0.95を超えるまで採用しよう、ということにしたら

a<- pp/sum(pp)
a_sort<- sort(a,decreasing=TRUE,index.return=TRUE)
plot(sort(a_sort$ix[which(cumsum(a_sort$x)>0.95)]))


途切れているところは95%内にはいっているところ。
端を探すと、1.5456と8.0800らしい。
 
やり方は違うがもっと簡単に求めるなら

library(binom)
CI<- binom.confint(4,n=15,conf.leval=0.95,method="exact")