ものすごいわかりやすかったKullback-Leibler divergence

情報量を-logQ(x) と置くと、
単調に減少する
ふたつの分布が独立ならば、加算的に扱える
というので、-logQ(x) と書いておく。
 
符号化してその平均長を考えると
\sum-Q(x)logQ(x)エントロピーである。
さてここで、Q(x) はわからないけど、理論的にこれならば、上のエントロピーが成り立つ。しかし、何度も言うがQ(x) はわからないので、ひとまずP(x) を考える。これの平均長は
-\sum xlogP(x)
だが、x\sim Q(x) (実際にデータとして得ているx は、実態はわからないけれどもQ(x) からサンプリングされている)と書けるので、結局-\sum Q(x)logP(x) である。
このふたつの、(真の分布Q(x) のときの平均長)-(真の分布がわからないけれどもとりあえずP(x) とおいた平均長)を計算すると
D(Q, P)=-\sum Q(x)log\frac{P(x)}{Q(x)}
となる。
これは常に0 以上で、{P(x)}{Q(x)}=X とすれば、y=X-1y=logX のふたつの関数を考えれば成り立ち、0 になるときは恒等的にP(x)=Q(x) のときである。