11/22 プログラミングセミナー

シミュレーションをやって得られた度数分布の形を評価しよう。
前回は峰の数について考え、先生NKの試行によると、峰は分離されるっぽい。
さあ、何が与えられたら分布を描いたり、評価したりできるか、ということで
平均
\mu=\frac{1}{n}\sum_{k=1}^nx_{k}
均した値のこと。
中央値
\int_{-\infty}^{\hspace{20}m}f(x)dx\geq\frac{1}{2}and\int_{\hspace{10}m}^{\hspace{20}\infty}f(x)dx\geq\frac{1}{2}
を満たすmが存在する。
というのは、度数分布グラフ下の面積が真っ二つになる点が存在する。
最頻値
データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。
統計要約量というらしいが、モーメントを用いてガチャガチャ。
\mu=\frac{1}{N}\sum_{i=1}^{N}x_{i}
\mu_{m}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^m
で表わされる。
観測した要素数がN個なら、m=Nとしたら未知数Nに対して式がN個できてどうにか解ける感じ。
m=1なら、平均。
m=2なら、分散。散らばり具合。
m=3なら、歪度。左右非対称具合。
m=4なら、尖度。尖り具合。
Rなら

data<- rpois(10000,10)
mean(data)              # 平均
var(data)               # 分散
library(e1071)          # パッケージ呼び出し
skewness(data)          # 歪度
kurtosis(data)          # 尖度
median(data)            # 中央値
mode(data)              # 最頻値 

で与えられ、

summary(data)

とするとおいしい。
先生のこのページもおいしい。