式展開: 8月 2019

ベルヌイモデルのエントロピーやKLダイバージェンスを考える

$P_{B e r}$ の $H_{n} (x)$ や $D_{n} (x ∥ y)$ を考える

n

回の試行結果である

x^{n}

の1の発生回数を

m

とすると

P_{B e r}

の

θ

の最尤推定値

\hat{θ}

は

\frac{m}{n}

となる．

\begin{array}{rcl} \hat{θ} & = & \frac{m}{n} \\ H_{n} (P) & \overset{def}{=} & E_{P}^{n} [- \log_{2} P (X^{n})] \\ H (θ) & \overset{def}{=} & - θ \log_{2} (θ) - (1 - θ) \log_{2} (1 - θ) \dots P = P_{B e r} で θ を 引 数 と し て 括 弧 の 内 側 に 記 載 す る ． \\ H (\hat{θ}) & = & - \hat{θ} \log_{2} (\hat{θ}) - (1 - \hat{θ}) \log_{2} (1 - \hat{θ}) \\ = & - \frac{m}{n} \log_{2} (\frac{m}{n}) - (1 - \frac{m}{n}) \log_{2} (1 - \frac{m}{n}) \\ = & \frac{1}{n} {- m \log_{2} (\frac{m}{n}) - (n - m) \log_{2} (\frac{n - m}{n})} \\ = & \frac{1}{n} {- m \log_{2} (m) + m \log_{2} (n) - (n - m) \log_{2} (n - m) + (n - m) \log_{2} (n)} \\ D (\hat{θ} ∥ θ) & = & \hat{θ} \log_{2} (\frac{\hat{θ}}{θ}) + (1 - \hat{θ}) \log_{2} (\frac{1 - \hat{θ}}{1 - θ}) \\ = & \frac{m}{n} \log_{2} (\frac{\frac{m}{n}}{θ}) + (1 - \frac{m}{n}) \log_{2} (\frac{1 - \frac{m}{n}}{1 - θ}) \\ = & \frac{1}{n} {m \log_{2} (\frac{\frac{m}{n}}{θ}) + (n - m) \log_{2} (\frac{1 - \frac{m}{n}}{1 - θ})} \\ = & \frac{1}{n} {m \log_{2} (\frac{m}{n}) - m \log_{2} (θ) + (n - m) \log_{2} (1 - \frac{m}{n}) - (n - m) \log_{2} (1 - θ)} \\ = & \frac{1}{n} {m \log_{2} (m) - m \log_{2} (n) - m \log_{2} (θ) + (n - m) \log_{2} (n - m) - (n - m) \log_{2} (n) - (n - m) \log_{2} (1 - θ)} \\ H (\hat{θ}) + D (\hat{θ} ∥ θ) & = & \frac{1}{n} {- m \log_{2} (θ) - (n - m) \log_{2} (1 - θ)} \\ n {H (\hat{θ}) + D (\hat{θ} ∥ θ)} & = & - m \log_{2} (θ) - (n - m) \log_{2} (1 - θ) \end{array}

\begin{array}{rcl} - \log_{2} (L (θ | x^{n})) & = & - m \log_{2} (θ) - (n - m) \log_{2} (1 - θ) \\ n {H (\hat{θ}) + D (\hat{θ} ∥ θ)} & = & - m \log_{2} (θ) - (n - m) \log_{2} (1 - θ) \\ - \log_{2} (L (θ | x^{n})) & = & n {H (\hat{θ}) + D (\hat{θ} ∥ θ)} \\ = & n H (\hat{θ}) + n D (\hat{θ} ∥ θ) \\ - \log_{2} (L (\hat{θ} | x^{n})) & = & n H (\hat{θ}) + n D (\hat{θ} ∥ \hat{θ}) \dots θ = \hat{θ} \\ = & n H (\hat{θ}) + n 0 \dots D (\hat{θ} ∥ \hat{θ}) = 0 \\ = & n H (\frac{m}{n}) \dots \hat{θ} = \frac{m}{n} \end{array}

ベルヌイモデルとベルヌイモデルの尤度に対する情報量

ベルヌイモデル $P_{B e r}$

\begin{array}{rcl} P (X | θ) = {\begin{cases} θ & : (X = 1) \\ 1 - θ & : (X = 0) \end{cases} \\ P_{B e r} = {P (X | θ) : (0 \leq θ \leq 1)} \end{array}

$x^{n}$ を $P_{B e r}$ で最短長の符号化をすることを考える

データ列

x^{n}

が与えられた時の生成確率

P (x^{n} | θ)

を

θ

の凾数とみなすと

\begin{array}{rcl} L (θ | x^{n}) & = & P (x^{n} | θ) \end{array}

としてこれを尤度(likelihood)と呼ぶ．

ベルヌイモデルの尤度に対する情報量

x^{n}

の1の発生回数を

m

とすると0の発生回数は

n - m

となるので最尤推定値(maximum likelihood estimator)は

\begin{array}{rcl} L (θ | x^{n}) & = & θ^{m} (1 - θ)^{(n - m)} \end{array}

情報量(=符号長)を考えると

\begin{array}{rcl} - \log_{2} (L (θ | x^{n})) & = & - \log_{2} (θ^{m} (1 - θ)^{(n - m)}) \\ = & - \log_{2} (θ^{m}) - \log_{2} ((1 - θ)^{(n - m)}) \\ = & - m \log_{2} (θ) - (n - m) \log_{2} (1 - θ) \end{array}

確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-Leiblerダイバージェンス

例:確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-Leiblerダイバージェンス $D_{n}$

$y_{1}$	$y_{2}$	$x^{2}$ $= y_{1} y_{2}$	$P (x^{2})$	$Q (x^{2})$	$Q^{'} (x^{2})$	$Q^{″} (x^{2})$
0	0	00	$\frac{1}{8}$	$\frac{1}{8}$	$\frac{1}{2}$	$\frac{1}{4}$
0	1	01	$\frac{1}{8}$	$\frac{1}{8}$	$\frac{1}{4}$	$\frac{1}{4}$
1	0	10	$\frac{1}{4}$	$\frac{1}{4}$	$\frac{1}{8}$	$\frac{1}{4}$
1	1	11	$\frac{1}{2}$	$\frac{1}{2}$	$\frac{1}{8}$	$\frac{1}{4}$

$Q (x^{2})$ でのダイバージェンス

\begin{array}{rcl} D_{n} (P ∥ Q) & = & E_{P}^{n} [\log_{2} \frac{P (X^{n})}{Q (X^{n})}] \\ = & \sum_{x^{2} \in χ^{2}} P (x^{2}) \log_{2} \frac{P (x^{2})}{Q (x^{2})} \\ = & \frac{1}{8} \times \log_{2} \frac{\frac{1}{8}}{\frac{1}{8}} + \frac{1}{8} \times \log_{2} \frac{\frac{1}{8}}{\frac{1}{8}} + \frac{1}{4} \times \log_{2} \frac{\frac{1}{4}}{\frac{1}{4}} + \frac{1}{2} \times \log_{2} \frac{\frac{1}{2}}{\frac{1}{2}} \\ = & \frac{1}{8} \times \log_{2} 1 + \frac{1}{8} \times \log_{2} 1 + \frac{1}{4} \times \log_{2} 1 + \frac{1}{2} \times \log_{2} 1 \\ = & \frac{1}{8} \times 0 + \frac{1}{8} \times 0 + \frac{1}{4} \times 0 + \frac{1}{2} \times 0 \\ = & 0 + 0 + 0 + 0 \\ = & 0 \end{array}

$Q^{'} (x^{2})$ でのダイバージェンス

\begin{array}{rcl} D_{n} (P ∥ Q^{'}) & = & E_{P}^{n} [\log_{2} \frac{P (X^{n})}{Q^{'} (X^{n})}] \\ = & \sum_{x^{2} \in χ^{2}} P (x^{2}) \log_{2} \frac{P (x^{2})}{Q^{'} (x^{2})} \\ = & \frac{1}{8} \times \log_{2} \frac{\frac{1}{8}}{\frac{1}{2}} + \frac{1}{8} \times \log_{2} \frac{\frac{1}{8}}{\frac{1}{4}} + \frac{1}{4} \times \log_{2} \frac{\frac{1}{4}}{\frac{1}{8}} + \frac{1}{2} \times \log_{2} \frac{\frac{1}{2}}{\frac{1}{8}} \\ = & \frac{1}{8} \times \log_{2} \frac{1}{4} + \frac{1}{8} \times \log_{2} \frac{1}{2} + \frac{1}{4} \times \log_{2} 2 + \frac{1}{2} \times \log_{2} 4 \\ = & \frac{1}{8} \times - 2 + \frac{1}{8} \times - 1 + \frac{1}{4} \times 1 + \frac{1}{2} \times 2 \\ = & - \frac{1}{4} - \frac{1}{8} + \frac{1}{4} + 1 \\ = & \frac{7}{8} = 0.875 \end{array}

$Q^{″} (x^{2})$ でのダイバージェンス

\begin{array}{rcl} D_{n} (P ∥ Q^{″}) & = & E_{P}^{n} [\log_{2} \frac{P (X^{n})}{Q^{″} (X^{n})}] \\ = & \sum_{x^{2} \in χ^{2}} P (x^{2}) \log_{2} \frac{P (x^{2})}{Q^{″} (x^{2})} \\ = & \frac{1}{8} \times \log_{2} \frac{\frac{1}{8}}{\frac{1}{4}} + \frac{1}{8} \times \log_{2} \frac{\frac{1}{8}}{\frac{1}{4}} + \frac{1}{4} \times \log_{2} \frac{\frac{1}{4}}{\frac{1}{4}} + \frac{1}{2} \times \log_{2} \frac{\frac{1}{2}}{\frac{1}{4}} \\ = & \frac{1}{8} \times \log_{2} \frac{1}{2} + \frac{1}{8} \times \log_{2} \frac{1}{2} + \frac{1}{4} \times \log_{2} 1 + \frac{1}{2} \times \log_{2} 2 \\ = & \frac{1}{8} \times - 1 + \frac{1}{8} \times - 1 + \frac{1}{4} \times 0 + \frac{1}{2} \times 1 \\ = & - \frac{1}{8} - \frac{1}{8} + 0 + \frac{1}{2} \\ = & \frac{1}{4} = 0.25 \end{array}

KLダイバージェンスの下限

$\log_{e} x \leq (x - 1)$ の証明

\begin{array}{rcl} f (x) & = & x - 1 - \log_{e} x \\ f^{'} (x) & = & \frac{x - 1}{x} \\ f^{″} (x) & = & \frac{1}{x^{2}} \\ f^{'} = 0 & は & x = 1 \end{array}

よって

f^{″} (1) > 0

より

f

は

x = 1

で極小であり，また

x < 1

で常に

f^{'} < 0

及び

x > 1

で常に

f^{'} > 0

なので最小でもある．

f (1) = 0

なので

f \geq 0

である．

\begin{array}{rcl} x - 1 - \log_{e} x & \geq & 0 \\ - \log_{e} x & \geq & - x + 1 = - (x - 1) \\ \log_{e} x & \leq & (x - 1) \end{array}

$\log_{e} x \leq (x - 1)$ の底の変換等の式変形

\begin{array}{rcl} \log_{e} x & \leq & (x - 1) \\ \leq & - (1 - x) \\ - \log_{e} x & \geq & (1 - x) \\ \log_{e} \frac{1}{x} & \geq & (1 - x) \\ \frac{\log_{2} \frac{1}{x}}{\log_{2} e} & \geq & (1 - x) \\ \log_{2} \frac{1}{x} & \geq & (\log_{2} e) (1 - x) \end{array}

$D_{n} (P ∥ Q)$ の下限

\begin{array}{rcl} \log_{2} \frac{1}{x} & \geq & (\log_{2} e) (1 - x) \\ \log_{2} \frac{1}{\frac{Q (x^{n})}{P (x^{n})}} & \geq & (\log_{2} e) {1 - \frac{Q (x^{n})}{P (x^{n})}} & x = \frac{Q (x^{n})}{P (x^{n})} と し て 代 入 \\ \log_{2} \frac{P (x^{n})}{Q (x^{n})} & \geq & (\log_{2} e) {1 - \frac{Q (x^{n})}{P (x^{n})}} \\ E_{P}^{n} [\log_{2} \frac{P (X^{n})}{Q (X^{n})}] & \geq & E_{P}^{n} [(\log_{2} e) {1 - \frac{Q (X^{n})}{P (X^{n})}}] & 両 辺 期 待 値 を 取 る \\ D_{n} (P ∥ Q) & \geq & E_{P}^{n} [(\log_{2} e) {1 - \frac{Q (X^{n})}{P (X^{n})}}] \\ \geq & (\log_{2} e) E_{P}^{n} [1 - \frac{Q (X^{n})}{P (X^{n})}] & E [c X] = c E [X] \\ \geq & (\log_{2} e) [{1 - \frac{Q (x^{m})}{P (x^{m})}} P (x^{m}) + {1 - \frac{Q (x_{2}^{n})}{P (x_{2}^{n})}} P (x_{2}^{n}) + \dots] \\ \geq & (\log_{2} e) [{P (x^{m}) - Q (x^{m})} + {P (x_{2}^{n}) - Q (x_{2}^{n})} + \dots] \\ \geq & (\log_{2} e) [{P (x^{m}) + P (x_{2}^{n}) + \dots} - {Q (x^{m}) + Q (x_{2}^{n}) + \dots}] \\ \geq & (\log_{2} e) {\sum_{X^{n}} P (x^{n}) - \sum_{X^{n}} Q (x^{n})} \\ \geq & (\log_{2} e) {1 - \sum_{X^{n}} Q (x^{n})} & \sum_{X^{n}} P (x^{n}) = 1 \\ \geq & 0 & \sum_{X^{n}} Q (x^{n}) = 1 の と き は 0 \end{array}

平均符号長の下限(エントロピー, Kullback-Leiblerダイバージェンス)

符号長( $l (x^{n})$ )がShannon情報量( $- \log_{2} P (x^{n})$ )と等しい場合(確率 $P (x^{n})$ に基づく符号化(P-based coding))

\begin{array}{rcl} l (x^{n}) & = & - \log_{2} P (x^{n}) \\ - l (x^{n}) & = & \log_{2} P (x^{n}) \\ 2^{- l (x^{n})} & = & 2^{\log_{2} P (x^{n})} \\ = & P (x^{n}) \\ P (x^{n}) & = & 2^{- l (x^{n})} \\ \sum_{x^{n} \in χ^{n}} P (x^{n}) & \leq & 1 & \dots P (x^{n}) は 確 率 質 量 凾 数 な の で 総 和 は 1, P (x^{n}) を 劣 確 率 凾 数 と す る ケ ー ス を 考 え る 場 合 は 総 和 は 1 以 下 \\ \sum_{x^{n} \in χ^{n}} 2^{- l (x^{n})} & \leq & 1 & \dots 2^{- l (x^{n})} = P (x^{n}) な の で や は り 総 和 は 1, P (x^{n}) を 劣 確 率 凾 数 と す る ケ ー ス を 考 え る 場 合 は 総 和 は 1 以 下 \end{array}

劣確率凾数は

P (x) \geq 0

の条件は確率(質量)凾数と同じで，

\sum P (x) \leq 1

となる凾数．

符号長の期待値とその下限

\begin{array}{rcl} E_{P}^{n} [l (X^{n})] & \geq & H_{n} (P) & \dots 符 号 長 の 期 待 値 ・ 平 均 符 号 長 の 下 限 \\ H_{n} (P) & \overset{def}{=} & E_{P}^{n} [- \log_{2} P (X^{n})] & \dots 確 率 P (x^{n}) に 基 づ く 符 号 化 の 長 さ で あ る こ と が 条 件 l (X^{n}) = - \log_{2} P (X^{n}) \end{array}

H_{n} (P)

をエントロピー(entropy)と呼ぶ．

確率Pで発生しているデータ系列を確率Qに基づく符号化した場合の平均符号長

\begin{array}{rcl} \log_{2} P (x^{n}) - \log_{2} P (x^{n}) & = & \log_{2} Q (x^{n}) - \log_{2} Q (x^{n}) \\ - \log_{2} Q (x^{n}) & = & - \log_{2} P (x^{n}) + \log_{2} P (x^{n}) - \log_{2} Q (x^{n}) \\ = & - \log_{2} P (x^{n}) + \log_{2} \frac{P (x^{n})}{Q (x^{n})} \\ E_{P}^{n} [- \log_{2} Q (X^{n})] & = & E_{P}^{n} [- \log_{2} P (X^{n})] + E_{P}^{n} [\log_{2} \frac{P (X^{n})}{Q (X^{n})}] \\ = & H_{n} (P) + D_{n} (P ∥ Q) \\ D_{n} (P ∥ Q) & \overset{def}{=} & E_{P}^{n} [\log_{2} \frac{P (X^{n})}{Q (X^{n})}] \end{array}

D_{n} (P ∥ Q)

をKullback-Leiblerダイバージェンス(Kullback-Leibler divergence)と呼ぶ．

χ^n上の確率質量凾数P(x^n)から求める符号長(符号長の期待値, 平均符号長)

$χ^{n}$ 上の確率質量凾数 $P (x^{n})$ から求める符号長

\begin{aligned} I (x^{n}) = ⌈ - \log_{2} P (x^{n}) ⌉ & \dots χ^{n} 上 の 確 率 質 量 凾 数 P (x^{n}) か ら 求 め る 符 号 長 (I : χ^{n} \to R^{+}) \end{aligned}

符号長の期待値

\begin{aligned} E [l (x^{n})] = \sum_{x^{n} \in χ^{n}} l (x^{n}) P (x^{n}) & \dots 符 号 長 の 期 待 値, 平 均 符 号 長 (a v e r a g e c o d e w o r d l e n g t h) \end{aligned}

例: $χ = {0, 1}, n = 2$

$y_{1}$	$y_{2}$	$x^{2}$ $= y_{1} y_{2}$	$P (x^{2})$	$- \log_{2} P (x^{2})$ Shannon情報量	$I (x^{2}) = ⌈ - \log_{2} P (x^{2}) ⌉$ $χ^{2}$ 上の確率質量凾数 $P (x^{2})$ から求める符号長	$π (x^{2})$	$l (x^{2})$ $= \| π (x^{2}) \|$	$π^{'} (x^{2})$	$l^{'} (x^{2})$ $= \| π^{'} (x^{2}) \|$	$π^{″} (x^{2})$	$l^{″} (x^{2})$ $= \| π^{″} (x^{2}) \|$
0	0	00	$\frac{1}{8}$	$- \log_{2} \frac{1}{8} = 3$	$⌈ - \log_{2} \frac{1}{8} ⌉ = 3$	000	3	1	1	00	2
0	1	01	$\frac{1}{8}$	$- \log_{2} \frac{1}{8} = 3$	$⌈ - \log_{2} \frac{1}{8} ⌉ = 3$	001	3	01	2	01	2
1	0	10	$\frac{1}{4}$	$- \log_{2} \frac{1}{4} = 2$	$⌈ - \log_{2} \frac{1}{4} ⌉ = 2$	01	2	001	3	10	2
1	1	11	$\frac{1}{2}$	$- \log_{2} \frac{1}{2} = 1$	$⌈ - \log_{2} \frac{1}{2} ⌉ = 1$	1	1	000	3	11	2

上記例で $l (x^{2})$ が $I$ と等しい符号化( $π$ )の平均符号長

\begin{array}{rcl} E [l (x^{2})] & = & \sum_{x^{2} \in χ^{2}} l (x^{2}) P (x^{2}) \\ = & 3 \times \frac{1}{8} + 3 \times \frac{1}{8} + 2 \times \frac{1}{4} + 1 \times \frac{1}{2} \\ = & \frac{3 + 3 + 4 + 4}{8} = \frac{14}{8} \\ = & 1 + \frac{3}{4} = 1.75 \end{array}

上記例で $l^{'} (x^{2})$ が $I$ と等しくない符号化( $π^{'}$ )の平均符号長

\begin{array}{rcl} E [l^{'} (x^{2})] & = & \sum_{x^{2} \in χ^{2}} l^{'} (x^{2}) P (x^{2}) \\ = & 1 \times \frac{1}{8} + 2 \times \frac{1}{8} + 3 \times \frac{1}{4} + 3 \times \frac{1}{2} \\ = & \frac{1 + 2 + 6 + 12}{8} = \frac{21}{8} \\ = & 2 + \frac{5}{8} = 2.625 \end{array}

上記例で $l (x^{n}) = 2$ と常に一定となる符号化( $π^{″}$ )の平均符号長

\begin{array}{rcl} E [l^{″} (x^{2})] & = & \sum_{x^{2} \in χ^{2}} l^{″} (x^{2}) P (x^{2}) \\ = & 2 \times \frac{1}{8} + 2 \times \frac{1}{8} + 2 \times \frac{1}{4} + 2 \times \frac{1}{2} \\ = & 2 \times (\frac{1}{8} + \frac{1}{8} + \frac{1}{4} + \frac{1}{2}) \\ = & 2 \times 1 \\ = & 2 \end{array}

データ系列・符号化・符号長(語頭属性, 語頭符号, 語頭符号化)

データ系列

\begin{aligned} y \in χ & \dots y は 集 合 χ の 要 素 \\ x^{n} (= y_{1} y_{2} \dots y_{n}) \in χ^{n} & \dots 集 合 χ の 要 素 を 並 べ た 長 さ n の デ ー タ 系 列 x^{n} \\ P (x^{n}) & \dots χ^{n} 上 の 確 率 質 量 凾 数 (p r o b a b i l i t y m a s s f u n c t i o n) \\ - \log_{2} P (x^{n}) & \dots S h a n n o n 情 報 量 (S h a n n o n i n f o r m a t i o n) \end{aligned}

符号化・符号長

\begin{aligned} {0, 1} * & \dots 0 と 1 の 任 意 長 さ の 系 列 集 合 \\ π : χ^{n} \to {0, 1} * & \dots 符 号 化 (c o d i n g) \\ π (x^{n}) & \dots 符 号 ・ 符 号 語 (c o d e w o r d) \\ | π (x^{n}) | & \dots 符 号 ・ 符 号 語 (π (x^{n})) の 長 さ, 符 号 長 (c o d e w o r d l e n g t h) \\ l (x^{n}) = | π (x^{n}) | & \dots l : χ^{n} \to R^{+} (R^{+} は 正 の 実 数) \end{aligned}

任意の

x_{1}, x_{2} \in χ^{n}

に対して

π (x_{1}), π (x_{2})

の一方が他方の先頭部分に一致しない性質(語頭属性(prefix property))を持つ符号を語頭符号(prefix code)，語頭符号へ変換する

π

を語頭符号化(prefix coding)と呼ぶ．

登録: 投稿 (Atom)

PBerのHn(x)やDn(x∥y)を考える

ベルヌイモデル PBer

xnをPBerで最短長の符号化をすることを考える

ベルヌイモデルの尤度に対する情報量

例:確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-LeiblerダイバージェンスDn

Q(x2)でのダイバージェンス

Q′(x2)でのダイバージェンス

Q″(x2)でのダイバージェンス

loge⁡x≤(x−1)の証明

loge⁡x≤(x−1)の底の変換等の式変形

Dn(P∥Q)の下限

符号長(l(xn))がShannon情報量(−log2⁡P(xn))と等しい場合(確率P(xn)に基づく符号化(P-based coding))