間違いしかありません.コメントにてご指摘いただければ幸いです(気が付いた点を特に断りなく頻繁に書き直していますのでご注意ください).

ベルヌイモデルのエントロピーやKLダイバージェンスを考える

\(P_{Ber}\)の\(H_n(x)\)や\(D_n(x\parallel y)\)を考える

\(n\)回の試行結果である\(x^n\)の1の発生回数を\(m\)とすると\(P_{Ber}\)の\(\theta\)の最尤推定値\(\hat{\theta}\)は\(\frac{m}{n}\)となる. $$\begin{array}{rcl} \displaystyle \hat{\theta} &=&\displaystyle \frac{m}{n}\\ H_n(P)&\overset{\mathrm{def}}{=}& E^{n}_{P}\left[-\log_2{P(X^n)}\right] \\ \displaystyle H(\theta) &\overset{\mathrm{def}}{=}& \displaystyle -\theta\log_{2}{\left(\theta\right)}-\left(1-\theta\right)\log_{2}{\left(1-\theta\right)} \quad\dotso P=P_{Ber}で\thetaを引数として括弧の内側に記載する. \\ \displaystyle H(\hat{\theta}) &=&\displaystyle -\hat{\theta}\log_{2}{\left(\hat{\theta}\right)}-\left(1-\hat{\theta}\right)\log_{2}{\left(1-\hat{\theta}\right)}\\ &=&\displaystyle -\frac{m}{n}\log_{2}{\left(\frac{m}{n}\right)}-\left(1-\frac{m}{n}\right)\log_{2}{\left(1-\frac{m}{n}\right)}\\ &=&\displaystyle \frac{1}{n}\left\{-m\log_{2}{\left(\frac{m}{n}\right)}-\left(n-m\right)\log_{2}{\left(\frac{n-m}{n}\right)}\right\}\\ &=&\displaystyle \frac{1}{n}\left\{ \displaystyle -m\log_{2}{ \left(m\right) } \displaystyle +m\log_{2}{ \left(n\right) } \displaystyle -\left(n-m\right)\log_{2}{ \left(n-m\right) } \displaystyle +\left(n-m\right)\log_{2}{ \left(n\right) } \displaystyle \right\}\\ \displaystyle D(\hat{\theta}\parallel \theta) &=&\displaystyle \hat{\theta}\log_{2}{\left(\frac{\hat{\theta}}{\theta}\right)}+\left(1-\hat{\theta}\right)\log_{2}{\left(\frac{1-\hat{\theta}}{1-\theta}\right)}\\ &=&\displaystyle \frac{m}{n}\log_{2}{\left(\frac{\frac{m}{n}}{\theta}\right)}+\left(1-\frac{m}{n}\right)\log_{2}{\left(\frac{1-\frac{m}{n}}{1-\theta}\right)}\\ &=&\displaystyle \frac{1}{n}\left\{ \displaystyle m\log_{2}{\left(\frac{\frac{m}{n}}{\theta}\right)} \displaystyle +\left(n-m\right)\log_{2}{\left(\frac{1-\frac{m}{n}}{1-\theta}\right)} \displaystyle \right\}\\ &=&\displaystyle \frac{1}{n}\left\{ \displaystyle m\log_{2}{\left(\frac{m}{n}\right)} \displaystyle -m\log_{2}{\left(\theta\right)} \displaystyle +\left(n-m\right)\log_{2}{\left(1-\frac{m}{n}\right)} \displaystyle \displaystyle -\left(n-m\right)\log_{2}{\left(1-\theta\right)} \displaystyle \right\}\\ &=&\displaystyle \frac{1}{n}\left\{ \displaystyle m\log_{2}{\left(m\right)} \displaystyle -m\log_{2}{\left(n\right)} \displaystyle -m\log_{2}{\left(\theta\right)} \displaystyle +\left(n-m\right)\log_{2}{\left(n-m\right)} \displaystyle -\left(n-m\right)\log_{2}{\left(n\right)} \displaystyle -\left(n-m\right)\log_{2}{\left(1-\theta\right)} \displaystyle \right\}\\ \displaystyle H(\hat{\theta})+D(\hat{\theta}\parallel \theta) &=&\displaystyle \frac{1}{n}\left\{ \displaystyle -m\log_{2}{\left(\theta\right)}-\left(n-m\right)\log_{2}{\left(1-\theta\right)} \displaystyle \right\}\\ \displaystyle n\left\{H(\hat{\theta})+D(\hat{\theta}\parallel \theta)\right\} &=&\displaystyle -m\log_{2}{\left(\theta\right)}-\left(n-m\right)\log_2{\left(1-\theta\right)}\\ \end{array}$$ $$\begin{array}{rcl} -\log_2{\left( L(\theta|x^n) \right)} &=&-m\log_2{\left( \theta \right)}-(n-m)\log_2{\left(1-\theta\right)}\\ n\left\{H\left( \hat{\theta} \right)+D(\hat{\theta}\parallel \theta)\right\} &=&-m\log_2{\left( \theta \right)}-\left( n-m \right)\log_2{\left( 1-\theta \right)}\\ -\log_2{\left( L\left(\theta|x^n\right) \right)} &=&n\left\{H\left( \hat{\theta} \right)+D\left( \hat{\theta}\parallel \theta \right)\right\}\\ &=&nH\left( \hat{\theta} \right)+nD\left( \hat{\theta}\parallel \theta \right)\\ -\log_2{\left( L\left(\hat{\theta}|x^n\right) \right)} &=&nH\left( \hat{\theta} \right)+nD\left( \hat{\theta}\parallel \hat{\theta} \right)\quad\dotso\theta=\hat{\theta}\\ &=&nH\left( \hat{\theta} \right)+n0\quad\dotso D\left( \hat{\theta}\parallel \hat{\theta} \right)=0\\ &=&nH\left( \frac{m}{n} \right)\quad\dotso \hat{\theta}=\frac{m}{n}\\ \end{array}$$

ベルヌイモデルとベルヌイモデルの尤度に対する情報量

ベルヌイモデル \(P_{Ber}\)

$$\begin{array}{rcl} P(X|\theta) = \begin{cases} \displaystyle \theta & \,: \left(X=1\right)\\ \displaystyle 1-\theta & \,: \left(X=0\right)\\ \end{cases}\\ \displaystyle P_{Ber}=\left\{P(X|\theta)\,:(0\leq\theta\leq1)\right\}\\ \end{array}$$

\(x^n\)を\(P_{Ber}\)で最短長の符号化をすることを考える

データ列\(x^n\)が与えられた時の生成確率\(P(x^n|\theta)\)を\(\theta\)の凾数とみなすと $$\begin{array}{rcl} \displaystyle L(\theta|x^n)&=&P(x^n|\theta) \end{array}$$ としてこれを尤度(likelihood)と呼ぶ.

ベルヌイモデルの尤度に対する情報量

\(x^n\)の1の発生回数を\(m\)とすると0の発生回数は\(n-m\)となるので最尤推定値(maximum likelihood estimator)は $$\begin{array}{rcl} \displaystyle L(\theta|x^n)&=&\theta^{m}(1-\theta)^{(n-m)}\\ \end{array}$$ 情報量(=符号長)を考えると $$\begin{array}{rcl} \displaystyle -\log_{2}{\left(L(\theta|x^n)\right)}&=&-\log_{2}{\left(\theta^{m}(1-\theta)^{(n-m)}\right)}\\ &=&\displaystyle -\log_{2}{\left(\theta^{m}\right)}-\log_{2}{\left((1-\theta)^{(n-m)}\right)}\\ &=&\displaystyle -m\log_{2}{\left(\theta\right)}-(n-m)\log_{2}{\left(1-\theta\right)}\\ \end{array}$$

確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-Leiblerダイバージェンス

例:確率Pで発生しているデータ系列を確率Qに基づく符号化した際のKullback-Leiblerダイバージェンス\(D_n\)

\(y_1\) \(y_2\) \(x^2\)
\(=y_1y_2\)
\(P(x^2)\) \(Q(x^2)\) \(Q'(x^2)\) \(Q''(x^2)\)
0 0 00 \(\frac{1}{8}\) \(\frac{1}{8}\) \(\frac{1}{2}\) \(\frac{1}{4}\)
0 1 01 \(\frac{1}{8}\) \(\frac{1}{8}\) \(\frac{1}{4}\) \(\frac{1}{4}\)
1 0 10 \(\frac{1}{4}\) \(\frac{1}{4}\) \(\frac{1}{8}\) \(\frac{1}{4}\)
1 1 11 \(\frac{1}{2}\) \(\frac{1}{2}\) \(\frac{1}{8}\) \(\frac{1}{4}\)

\(Q(x^2)\)でのダイバージェンス

$$\begin{array}{rcl} D_n(P\parallel Q)&=&E^{n}_{P}\left[\log_2{\frac{P(X^n)}{Q(X^n)}}\right]\\ &=&\displaystyle \sum_{x^2\in\chi^2} P(x^2)\log_2{\frac{P(x^2)}{Q(x^2)}}\\ &=&\frac{1}{8} \times \log_2{\frac{\frac{1}{8}}{\frac{1}{8}}} +\frac{1}{8} \times \log_2{\frac{\frac{1}{8}}{\frac{1}{8}}} +\frac{1}{4} \times \log_2{\frac{\frac{1}{4}}{\frac{1}{4}}} +\frac{1}{2} \times \log_2{\frac{\frac{1}{2}}{\frac{1}{2}}}\\ &=&\frac{1}{8} \times \log_2{1} +\frac{1}{8} \times \log_2{1} +\frac{1}{4} \times \log_2{1} +\frac{1}{2} \times \log_2{1}\\ &=&\frac{1}{8} \times 0 +\frac{1}{8} \times 0 +\frac{1}{4} \times 0 +\frac{1}{2} \times 0\\ &=&0+0+0+0\\ &=&0 \end{array}$$

\(Q'(x^2)\)でのダイバージェンス

$$\begin{array}{rcl} D_n(P\parallel Q')&=&E^{n}_{P}\left[\log_2{\frac{P(X^n)}{Q'(X^n)}}\right]\\ &=&\displaystyle \sum_{x^2\in\chi^2} P(x^2)\log_2{\frac{P(x^2)}{Q'(x^2)}}\\ &=&\frac{1}{8} \times \log_2{\frac{\frac{1}{8}}{\frac{1}{2}}} +\frac{1}{8} \times \log_2{\frac{\frac{1}{8}}{\frac{1}{4}}} +\frac{1}{4} \times \log_2{\frac{\frac{1}{4}}{\frac{1}{8}}} +\frac{1}{2} \times \log_2{\frac{\frac{1}{2}}{\frac{1}{8}}} \\ &=&\frac{1}{8} \times \log_2{\frac{1}{4}} +\frac{1}{8} \times \log_2{\frac{1}{2}} +\frac{1}{4} \times \log_2{2} +\frac{1}{2} \times \log_2{4} \\ &=&\frac{1}{8} \times -2 +\frac{1}{8} \times -1 +\frac{1}{4} \times 1 +\frac{1}{2} \times 2 \\ &=&-\frac{1}{4}-\frac{1}{8}+\frac{1}{4}+1\\ &=&\frac{7}{8}=0.875 \end{array}$$

\(Q''(x^2)\)でのダイバージェンス

$$\begin{array}{rcl} D_n(P\parallel Q'')&=&E^{n}_{P}\left[\log_2{\frac{P(X^n)}{Q''(X^n)}}\right]\\ &=&\displaystyle \sum_{x^2\in\chi^2} P(x^2)\log_2{\frac{P(x^2)}{Q''(x^2)}}\\ &=&\frac{1}{8} \times \log_2{\frac{\frac{1}{8}}{\frac{1}{4}}} +\frac{1}{8} \times \log_2{\frac{\frac{1}{8}}{\frac{1}{4}}} +\frac{1}{4} \times \log_2{\frac{\frac{1}{4}}{\frac{1}{4}}} +\frac{1}{2} \times \log_2{\frac{\frac{1}{2}}{\frac{1}{4}}} \\ &=&\frac{1}{8} \times \log_2{\frac{1}{2}} +\frac{1}{8} \times \log_2{\frac{1}{2}} +\frac{1}{4} \times \log_2{1} +\frac{1}{2} \times \log_2{2} \\ &=&\frac{1}{8} \times -1 +\frac{1}{8} \times -1 +\frac{1}{4} \times 0 +\frac{1}{2} \times 1 \\ &=&-\frac{1}{8}-\frac{1}{8}+0+\frac{1}{2}\\ &=&\frac{1}{4}=0.25 \end{array}$$

KLダイバージェンスの下限

\(\log_{\mathrm{e}}{x}\leq(x-1)\)の証明

$$\begin{array}{rcl} f(x)&=&x-1-\log_{\mathrm{e}}{x}\\ f'(x)&=&\frac{x-1}{x}\\ f''(x)&=&\frac{1}{x^2}\\ f'=0&は&x=1\\ \end{array}$$ よって\(f''(1)\gt0\)より\(f\)は\(x=1\)で極小であり,また \(x\lt1\) で常に\(f'\lt0\) 及び \(x\gt1\) で常に\(f'\gt0\) なので最小でもある.
\(f(1)=0\)なので\(f\geq0\)である. $$\begin{array}{rcl} x-1-\log_{\mathrm{e}}{x}&\geq&0\\ -\log_{\mathrm{e}}{x}&\geq&-x+1=-(x-1)\\ \log_{\mathrm{e}}{x}&\leq&(x-1)\\ \end{array}$$

\(\log_{\mathrm{e}}{x}\leq(x-1)\)の底の変換等の式変形

$$\begin{array}{rcl} \log_{\mathrm{e}}{x}&\leq&(x-1)\\ &\leq&-(1-x)\\ -\log_{\mathrm{e}}{x}&\geq&(1-x)\\ \log_{\mathrm{e}}{\frac{1}{x}}&\geq&(1-x)\\ \frac{\log_2{\frac{1}{x}}}{\log_2{\mathrm{e}}}&\geq&(1-x)\\ \log_2{\frac{1}{x}}&\geq&(\log_2{\mathrm{e}})(1-x)\\ \end{array}$$

\(D_n(P\parallel Q)\)の下限

$$\begin{array}{rcl} \log_2{\frac{1}{x}}&\geq&(\log_2{\mathrm{e}})(1-x)\\ \log_2{\frac{1}{\frac{Q(x^n)}{P(x^n)}}}&\geq&(\log_2{\mathrm{e}})\left\{1-\frac{Q(x^n)}{P(x^n)}\right\}&x=\frac{Q(x^n)}{P(x^n)}として代入\\ \log_2{\frac{P(x^n)}{Q(x^n)}}&\geq&(\log_2{\mathrm{e}})\left\{1-\frac{Q(x^n)}{P(x^n)}\right\}\\ E^{n}_{P}\left[\log_2{\frac{P(X^n)}{Q(X^n)}}\right]&\geq&E^{n}_{P}\left[(\log_2{\mathrm{e}})\left\{1-\frac{Q(X^n)}{P(X^n)}\right\}\right]&両辺期待値を取る\\ D_n(P\parallel Q)&\geq&E^{n}_{P}\left[(\log_2{\mathrm{e}})\left\{1-\frac{Q(X^n)}{P(X^n)}\right\}\right]\\ &\geq&(\log_2{\mathrm{e}})E^{n}_{P}\left[1-\frac{Q(X^n)}{P(X^n)}\right]&E[cX]=cE[X]\\ &\geq&\displaystyle (\log_2{\mathrm{e}})\left[\left\{1-\frac{Q(x^m)}{P(x^m)}\right\}P(x^m)+\left\{1-\frac{Q(x^n_2)}{P(x^n_2)}\right\}P(x^n_2)+\dotsb\right]\\ &\geq&\displaystyle (\log_2{\mathrm{e}})\left[\left\{P(x^m)-Q(x^m)\right\}+\left\{P(x^n_2)-Q(x^n_2)\right\}+\dotsb\right]\\ &\geq&\displaystyle (\log_2{\mathrm{e}})\left[\left\{P(x^m)+P(x^n_2)+\dotsb\right\}-\left\{Q(x^m)+Q(x^n_2)+\dotsb\right\}\right]\\ &\geq&\displaystyle (\log_2{\mathrm{e}})\left\{\sum_{X^n}P(x^n)-\sum_{X^n}Q(x^n)\right\}\\ &\geq&\displaystyle (\log_2{\mathrm{e}})\left\{1-\sum_{X^n}Q(x^n)\right\}&\displaystyle \sum_{X^n}P(x^n)=1\\ &\geq&0&\displaystyle \sum_{X^n}Q(x^n)=1のときは0\\ \end{array}$$

平均符号長の下限(エントロピー, Kullback-Leiblerダイバージェンス)

符号長(\(l(x^n)\))がShannon情報量(\(-\log_2{P(x^n)}\))と等しい場合(確率\(P(x^n)\)に基づく符号化(P-based coding))

$$\begin{array}{rcl} \mathcal{l}(x^n) &=& -\log_2{P(x^n)} \\ -\mathcal{l}(x^n) &=&\log_2{P(x^n)}\\ 2^{-\mathcal{l}(x^n)} &=&2^{\log_2{P(x^n)}}\\ &=&P(x^n)\\ P(x^n) &=&2^{-\mathcal{l}(x^n)}\\ \displaystyle \sum_{x^n \in \chi^n}P(x^n) &\leq& 1&\quad\dotso P(x^n)は確率質量凾数なので総和は1,\;P(x^n)を劣確率凾数とするケースを考える場合は総和は1以下\\ \displaystyle \sum_{x^n \in \chi^n}2^{-\mathcal{l}(x^n)}&\leq&1&\quad\dotso 2^{-\mathcal{l}(x^n)}=P(x^n)なのでやはり総和は1,\;P(x^n)を劣確率凾数とするケースを考える場合は総和は1以下\\ \end{array}$$ 劣確率凾数は \(P(x)\geq0\) の条件は確率(質量)凾数と同じで,\(\sum P(x) \leq 1\)となる凾数.

符号長の期待値とその下限

$$\begin{array}{rcl} E^{n}_{P}\left[\mathcal{l}(X^n)\right]&\geq&H_n(P)&\quad\dotso 符号長の期待値・平均符号長の下限\\ H_n(P)&\overset{\mathrm{def}}{=}& E^{n}_{P}\left[-\log_2{P(X^n)}\right]&\quad\dotso 確率P(x^n)に基づく符号化の長さであることが条件\,\mathcal{l}(X^n)=-\log_2{P(X^n)}\\ \end{array}$$ \(H_n(P)\)をエントロピー(entropy)と呼ぶ.

確率Pで発生しているデータ系列を確率Qに基づく符号化した場合の平均符号長

$$\begin{array}{rcl} \displaystyle \log_2{P(x^n)}-\log_2{P(x^n)} &=&\displaystyle \log_2{Q(x^n)}-\log_2{Q(x^n)}\\ \displaystyle -\log_2{Q(x^n)}&=&-\log_2{P(x^n)}+\log_2{P(x^n)}-\log_2{Q(x^n)}\\ &=&\displaystyle -\log_2{P(x^n)}+\log_2{\frac{P(x^n)}{Q(x^n)}}\\ \displaystyle E^{n}_{P}\left[-\log_2{Q(X^n)}\right] &=&\displaystyle E^{n}_{P}\left[-\log_2{P(X^n)}\right]+E^{n}_{P}\left[\log_2{\frac{P(X^n)}{Q(X^n)}}\right]\\ &=&\displaystyle H_n(P)+D_n(P\parallel Q)\\ D_n(P\parallel Q)&\overset{\mathrm{def}}{=}&E^{n}_{P}\left[\log_2{\frac{P(X^n)}{Q(X^n)}}\right]\\ \end{array}$$ \(D_n(P\parallel Q)\)をKullback-Leiblerダイバージェンス(Kullback-Leibler divergence)と呼ぶ.

χ^n上の確率質量凾数P(x^n)から求める符号長(符号長の期待値, 平均符号長)

\(\chi^n\)上の確率質量凾数\(P(x^n)\)から求める符号長

$$\begin{array}{rl} I(x^n)=\lceil -\log_2{P(x^n)} \rceil &\quad\dotso \chi^n上の確率質量凾数P(x^n)から求める符号長(I:\chi^n \rightarrow \mathbb{R}^{+})\\ \end{array}$$

符号長の期待値

$$\begin{array}{rl} E\left[\mathcal{l}(x^n)\right]=\displaystyle \sum_{x^n\in \chi^n} \mathcal{l}(x^n)P(x^n)&\quad\dotso符号長の期待値, 平均符号長(average\;codeword\;length)\\ \end{array}$$

例:\(\chi=\{0,1\},\;n=2\)

\(y_1\) \(y_2\) \(x^2\)
\(=y_1y_2\)
\(P(x^2)\) \(-\log_2{P(x^2)}\)
Shannon情報量
\(I(x^2)=\lceil -\log_2{P(x^2)}\rceil\)
\(\chi^2\)上の確率質量凾数\(P(x^2)\)から求める符号長
\(\pi(x^2)\) \(\mathcal{l}(x^2)\)
\(=|\pi(x^2)|\)
\(\pi'(x^2)\) \(\mathcal{l}'(x^2)\)
\(=|\pi'(x^2)|\)
\(\pi''(x^2)\) \(\mathcal{l}''(x^2)\)
\(=|\pi''(x^2)|\)
0 0 00 \(\frac{1}{8}\) \(-\log_2{\frac{1}{8}}=3\) \(\lceil -\log_2{\frac{1}{8}}\rceil=3\) 000 3 1 1 00 2
0 1 01 \(\frac{1}{8}\) \(-\log_2{\frac{1}{8}}=3\) \(\lceil -\log_2{\frac{1}{8}}\rceil=3\) 001 3 01 2 01 2
1 0 10 \(\frac{1}{4}\) \(-\log_2{\frac{1}{4}}=2\) \(\lceil -\log_2{\frac{1}{4}}\rceil=2\) 01 2 001 3 10 2
1 1 11 \(\frac{1}{2}\) \(-\log_2{\frac{1}{2}}=1\) \(\lceil -\log_2{\frac{1}{2}}\rceil=1\) 1 1 000 3 11 2

上記例で\(\mathcal{l}(x^2)\)が\(I\)と等しい符号化(\(\pi\))の平均符号長

$$\begin{array}{rcl} \displaystyle E\left[\mathcal{l}(x^2)\right] &=&\displaystyle \sum_{x^2\in \chi^2} \mathcal{l}(x^2)P(x^2)\\ &=&\displaystyle 3\times\frac{1}{8}+3\times\frac{1}{8}+2\times\frac{1}{4}+1\times\frac{1}{2}\\ &=&\displaystyle \frac{3+3+4+4}{8} = \frac{14}{8}\\ &=&\displaystyle 1+\frac{3}{4}=1.75\\ \end{array}$$

上記例で\(\mathcal{l}'(x^2)\)が\(I\)と等しくない符号化(\(\pi'\))の平均符号長

$$\begin{array}{rcl} \displaystyle E\left[\mathcal{l}'(x^2)\right] &=&\displaystyle \sum_{x^2\in \chi^2} \mathcal{l}'(x^2)P(x^2)\\ &=&\displaystyle 1\times\frac{1}{8}+2\times\frac{1}{8}+3\times\frac{1}{4}+3\times\frac{1}{2}\\ &=&\displaystyle \frac{1+2+6+12}{8} = \frac{21}{8}\\ &=&\displaystyle 2+\frac{5}{8}=2.625\\ \end{array}$$

上記例で\(\mathcal{l}(x^n)=2\)と常に一定となる符号化(\(\pi''\))の平均符号長

$$\begin{array}{rcl} \displaystyle E\left[\mathcal{l}''(x^2)\right] &=&\displaystyle \sum_{x^2\in \chi^2} \mathcal{l}''(x^2)P(x^2)\\ &=&\displaystyle 2\times\frac{1}{8}+2\times\frac{1}{8}+2\times\frac{1}{4}+2\times\frac{1}{2}\\ &=&\displaystyle 2\times\left(\frac{1}{8}+\frac{1}{8}+\frac{1}{4}+\frac{1}{2}\right)\\ &=&\displaystyle 2\times 1 \\ &=&\displaystyle 2\\ \end{array}$$

データ系列・符号化・符号長(語頭属性, 語頭符号, 語頭符号化)

データ系列

$$\begin{array}{rl} y \in \chi &\quad\dotso yは集合\chiの要素\\ x^n(=y_1y_2 \dotso y_n) \in \chi^n &\quad\dotso 集合\chiの要素を並べた長さnのデータ系列x^n\\ P(x^n)&\quad\dotso\chi^n上の確率質量凾数(probability\;mass\;function)\\ -\log_2{P(x^n)} &\quad\dotso Shannon情報量(Shannon\;information)\\ \end{array}$$

符号化・符号長

$$\begin{array}{rl} \{0,1\}* &\quad\dotso 0と1の任意長さの系列集合\\ \pi:\chi^n \rightarrow \{0,1\}* &\quad\dotso 符号化(coding)\\ \pi(x^n) &\quad\dotso 符号・符号語(codeword)\\ |\pi(x^n)| &\quad\dotso 符号・符号語(\pi(x^n))の長さ,\,符号長(codeword\;length)\\ \mathcal{l}(x^n)=|\pi(x^n)| &\quad\dotso \mathcal{l}:\chi^n \rightarrow \mathbb{R}^{+}(\mathbb{R}^{+}は正の実数)\\ \end{array}$$ 任意の\(x_1,x_2\in\chi^n\)に対して\(\pi(x_1),\pi(x_2)\)の一方が他方の先頭部分に一致しない性質(語頭属性(prefix property))を持つ符号を語頭符号(prefix code),語頭符号へ変換する\(\pi\)を語頭符号化(prefix coding)と呼ぶ.