統計学的検定法 カイ二乗適合度検定

数学いらずの医科統計学PART6 CHAPTER26をRでやってみる。
 
観察された分布と期待される分布の比較
カイ二乗適合度検定についての話。
Kales SN, et al; N Engl J Med. 2007では、消防士の勤務中に心疾患での死亡が多いかどうかを論じている。
消火活動中に心疾患での死亡が多いかどうかを、次の帰無仮説で問うている。
 
帰無仮説:死亡が勤務時間中にランダムに生じ、活動内容とは関係がない。
 
つまり、各々の教務が総勤務時間の何%にあたるかに基づき、総死亡数がその割合に応じて割り当てられるのではないか、ということで計算した。
簡単に本の値からもらうと、
活動は消火、警報反応と復帰、身体訓練、その他
死亡数は144、138、56、111(総数449)
勤務時間に対する割合は0.02、0.16、0.08、0.74
となっている。

data <- c(144, 138, 56, 111)
probs <- c(0.02, 0.16, 0.08, 0.74)
#sum(probs) 確認 = 1
chisq.test(x = data, p = probs)

	Chi-squared test for given probabilities

data:  data 
X-squared = 2249.608, df = 3, p-value < 2.2e-16

p値は次の質問に答える。
 
帰無仮説が真であるとすれば、観察された分布と期待される分布の間にこれほどおおきい差を持つ対象をランダムに抽出する確率はどの程度か?
 
p値は極端に小さい。消火活動は全死亡の2%に相当するように割り振られている、と考えるのは苦しい。何かしらの要因が消火活動と心疾患死亡に関係しているだろう、ということになる。
 
もう1例、メンデルの話。
優性形質A, Bに対して劣勢形質a, bがあるとする。
これを交配したら、表現型[AB], [Ab], [aB], [ab] = 9 : 3 : 3 : 1になるのではないかという話。

beans <- c(315, 108, 101, 32) # 本の値
beanprobs <- c(9, 3, 3, 1)/16
chisq.test(x = beans, p = beanprobs)

	Chi-squared test for given probabilities

data:  beans 
X-squared = 0.47, df = 3, p-value = 0.9254

p値は0.93である。
期待される分布にデータが従っていることを特に疑う理由はなさそう。