間違いしかありません.コメントにてご指摘いただければ幸いです(気が付いた点を特に断りなく頻繁に書き直していますのでご注意ください).

ベルヌイモデルのエントロピーやKLダイバージェンスを考える

PBerHn(x)Dn(xy)を考える

n回の試行結果であるxnの1の発生回数をmとするとPBerθの最尤推定値θ^mnとなる. θ^=mnHn(P)=defEPn[log2P(Xn)]H(θ)=defθlog2(θ)(1θ)log2(1θ)P=PBerθH(θ^)=θ^log2(θ^)(1θ^)log2(1θ^)=mnlog2(mn)(1mn)log2(1mn)=1n{mlog2(mn)(nm)log2(nmn)}=1n{mlog2(m)+mlog2(n)(nm)log2(nm)+(nm)log2(n)}D(θ^θ)=θ^log2(θ^θ)+(1θ^)log2(1θ^1θ)=mnlog2(mnθ)+(1mn)log2(1mn1θ)=1n{mlog2(mnθ)+(nm)log2(1mn1θ)}=1n{mlog2(mn)mlog2(θ)+(nm)log2(1mn)(nm)log2(1θ)}=1n{mlog2(m)mlog2(n)mlog2(θ)+(nm)log2(nm)(nm)log2(n)(nm)log2(1θ)}H(θ^)+D(θ^θ)=1n{mlog2(θ)(nm)log2(1θ)}n{H(θ^)+D(θ^θ)}=mlog2(θ)(nm)log2(1θ) log2(L(θ|xn))=mlog2(θ)(nm)log2(1θ)n{H(θ^)+D(θ^θ)}=mlog2(θ)(nm)log2(1θ)log2(L(θ|xn))=n{H(θ^)+D(θ^θ)}=nH(θ^)+nD(θ^θ)log2(L(θ^|xn))=nH(θ^)+nD(θ^θ^)θ=θ^=nH(θ^)+n0D(θ^θ^)=0=nH(mn)θ^=mn

ベルヌイモデルとベルヌイモデルの尤度に対する情報量

ベルヌイモデル PBer

P(X|θ)={θ:(X=1)1θ:(X=0)PBer={P(X|θ):(0θ1)}

xnPBerで最短長の符号化をすることを考える

データ列xnが与えられた時の生成確率P(xn|θ)θの凾数とみなすと L(θ|xn)=P(xn|θ) としてこれを尤度(likelihood)と呼ぶ.

ベルヌイモデルの尤度に対する情報量

xnの1の発生回数をmとすると0の発生回数はnmとなるので最尤推定値(maximum likelihood estimator)は L(θ|xn)=θm(1θ)(nm) 情報量(=符号長)を考えると log2(L(θ|xn))=log2(θm(1θ)(nm))=log2(θm)log2((1θ)(nm))=mlog2(θ)(nm)log2(1θ)

確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-Leiblerダイバージェンス

例:確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-LeiblerダイバージェンスDn

y1 y2 x2
=y1y2
P(x2) Q(x2) Q(x2) Q(x2)
0 0 00 18 18 12 14
0 1 01 18 18 14 14
1 0 10 14 14 18 14
1 1 11 12 12 18 14

Q(x2)でのダイバージェンス

Dn(PQ)=EPn[log2P(Xn)Q(Xn)]=x2χ2P(x2)log2P(x2)Q(x2)=18×log21818+18×log21818+14×log21414+12×log21212=18×log21+18×log21+14×log21+12×log21=18×0+18×0+14×0+12×0=0+0+0+0=0

Q(x2)でのダイバージェンス

Dn(PQ)=EPn[log2P(Xn)Q(Xn)]=x2χ2P(x2)log2P(x2)Q(x2)=18×log21812+18×log21814+14×log21418+12×log21218=18×log214+18×log212+14×log22+12×log24=18×2+18×1+14×1+12×2=1418+14+1=78=0.875

Q(x2)でのダイバージェンス

Dn(PQ)=EPn[log2P(Xn)Q(Xn)]=x2χ2P(x2)log2P(x2)Q(x2)=18×log21814+18×log21814+14×log21414+12×log21214=18×log212+18×log212+14×log21+12×log22=18×1+18×1+14×0+12×1=1818+0+12=14=0.25

KLダイバージェンスの下限

logex(x1)の証明

f(x)=x1logexf(x)=x1xf(x)=1x2f=0x=1 よってf(1)>0よりfx=1で極小であり,また x<1 で常にf<0 及び x>1 で常にf>0 なので最小でもある.
f(1)=0なのでf0である. x1logex0logexx+1=(x1)logex(x1)

logex(x1)の底の変換等の式変形

logex(x1)(1x)logex(1x)loge1x(1x)log21xlog2e(1x)log21x(log2e)(1x)

Dn(PQ)の下限

log21x(log2e)(1x)log21Q(xn)P(xn)(log2e){1Q(xn)P(xn)}x=Q(xn)P(xn)log2P(xn)Q(xn)(log2e){1Q(xn)P(xn)}EPn[log2P(Xn)Q(Xn)]EPn[(log2e){1Q(Xn)P(Xn)}]Dn(PQ)EPn[(log2e){1Q(Xn)P(Xn)}](log2e)EPn[1Q(Xn)P(Xn)]E[cX]=cE[X](log2e)[{1Q(xm)P(xm)}P(xm)+{1Q(x2n)P(x2n)}P(x2n)+](log2e)[{P(xm)Q(xm)}+{P(x2n)Q(x2n)}+](log2e)[{P(xm)+P(x2n)+}{Q(xm)+Q(x2n)+}](log2e){XnP(xn)XnQ(xn)}(log2e){1XnQ(xn)}XnP(xn)=10XnQ(xn)=10

平均符号長の下限(エントロピー, Kullback-Leiblerダイバージェンス)

符号長(l(xn))がShannon情報量(log2P(xn))と等しい場合(確率P(xn)に基づく符号化(P-based coding))

l(xn)=log2P(xn)l(xn)=log2P(xn)2l(xn)=2log2P(xn)=P(xn)P(xn)=2l(xn)xnχnP(xn)1P(xn)1,P(xn)1xnχn2l(xn)12l(xn)=P(xn)1,P(xn)1 劣確率凾数は P(x)0 の条件は確率(質量)凾数と同じで,P(x)1となる凾数.

符号長の期待値とその下限

EPn[l(Xn)]Hn(P)Hn(P)=defEPn[log2P(Xn)]P(xn)l(Xn)=log2P(Xn) Hn(P)をエントロピー(entropy)と呼ぶ.

確率Pで発生しているデータ系列を確率Qに基づく符号化した場合の平均符号長

log2P(xn)log2P(xn)=log2Q(xn)log2Q(xn)log2Q(xn)=log2P(xn)+log2P(xn)log2Q(xn)=log2P(xn)+log2P(xn)Q(xn)EPn[log2Q(Xn)]=EPn[log2P(Xn)]+EPn[log2P(Xn)Q(Xn)]=Hn(P)+Dn(PQ)Dn(PQ)=defEPn[log2P(Xn)Q(Xn)] Dn(PQ)をKullback-Leiblerダイバージェンス(Kullback-Leibler divergence)と呼ぶ.

χ^n上の確率質量凾数P(x^n)から求める符号長(符号長の期待値, 平均符号長)

χn上の確率質量凾数P(xn)から求める符号長

I(xn)=log2P(xn)χnP(xn)(I:χnR+)

符号長の期待値

E[l(xn)]=xnχnl(xn)P(xn),(averagecodewordlength)

例:χ={0,1},n=2

y1 y2 x2
=y1y2
P(x2) log2P(x2)
Shannon情報量
I(x2)=log2P(x2)
χ2上の確率質量凾数P(x2)から求める符号長
π(x2) l(x2)
=|π(x2)|
π(x2) l(x2)
=|π(x2)|
π(x2) l(x2)
=|π(x2)|
0 0 00 18 log218=3 log218=3 000 3 1 1 00 2
0 1 01 18 log218=3 log218=3 001 3 01 2 01 2
1 0 10 14 log214=2 log214=2 01 2 001 3 10 2
1 1 11 12 log212=1 log212=1 1 1 000 3 11 2

上記例でl(x2)Iと等しい符号化(π)の平均符号長

E[l(x2)]=x2χ2l(x2)P(x2)=3×18+3×18+2×14+1×12=3+3+4+48=148=1+34=1.75

上記例でl(x2)Iと等しくない符号化(π)の平均符号長

E[l(x2)]=x2χ2l(x2)P(x2)=1×18+2×18+3×14+3×12=1+2+6+128=218=2+58=2.625

上記例でl(xn)=2と常に一定となる符号化(π)の平均符号長

E[l(x2)]=x2χ2l(x2)P(x2)=2×18+2×18+2×14+2×12=2×(18+18+14+12)=2×1=2

データ系列・符号化・符号長(語頭属性, 語頭符号, 語頭符号化)

データ系列

yχyχxn(=y1y2yn)χnχnxnP(xn)χn(probabilitymassfunction)log2P(xn)Shannon(Shannoninformation)

符号化・符号長

{0,1}01π:χn{0,1}(coding)π(xn)(codeword)|π(xn)|(π(xn)),(codewordlength)l(xn)=|π(xn)|l:χnR+(R+) 任意のx1,x2χnに対してπ(x1),π(x2)の一方が他方の先頭部分に一致しない性質(語頭属性(prefix property))を持つ符号を語頭符号(prefix code),語頭符号へ変換するπを語頭符号化(prefix coding)と呼ぶ.