間違いしかありません.コメントにてご指摘いただければ幸いです(気が付いた点を特に断りなく頻繁に書き直していますのでご注意ください).

尤度凾数の平均情報量(離散/標本からの)

尤度凾数の平均情報量(離散/標本からの)

$$ \begin{eqnarray} p(x)&&真の確率分布\\ \theta&&パラメータ\\ q(x;\theta)&&\thetaをパラメータとした推測確率分布モデル(確率モデル)(\thetaを固定しxを動かすイメージ)\\ \Theta_0&&真の確率分布p(x)に対する確率モデルq(x;\theta)における最適なパラメータの集合\\ \theta_0&&真の確率分布p(x)に対する確率モデルq(x;\theta)における最適なパラメータ(\theta_0 \in \Theta_0)\\ q(x;\theta)&&尤度凾数(xにおける\thetaの尤もらしさ(式としては確率モデルと同じ.xを固定し\thetaを動かすイメージ))\\ \log{q(x;\theta)}&&対数尤度凾数\\ -\log{q(x;\theta)}&&尤度凾数の選択情報量(逆数の対数) \end{eqnarray} $$
$$ \begin{eqnarray} L_n(\theta) &=&\mathrm{E}\left[\log\left(\frac{1}{q(X_i;\theta)}\right)\right]\;\cdots\;尤度凾数の平均情報量(選択情報量の期待値)\\ &=&\mathrm{E}\left[\log\left(q(X_i;\theta)^{-1}\right)\right]\;\cdots\;\frac{1}{A}=A^{-1}\\ &=&\mathrm{E}\left[-\log\left(q(X_i;\theta)\right)\right]\;\cdots\;\log A^B = B\log A\\ &=&- \mathrm{E}\left[\log\left(q(X_i;\theta)\right)\right]\;\cdots\;\mathrm{E}\left[cX\right]=c\mathrm{E}\left[X\right]\\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta)\right)\;\cdots\;n個の標本,離散\\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta)\frac{q(X_i;\theta_0)}{q(X_i;\theta_0)}\right)\;\cdots\;\theta_0:最適なパラメータ\\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta_0)\frac{q(X_i;\theta)}{q(X_i;\theta_0)}\right)\\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\left\{\log\left(q(X_i;\theta_0)\right)+\log\left(\frac{q(X_i;\theta)}{q(X_i;\theta_0)}\right)\right\}\;\cdots\;\log{AB}=\log{A}+\log{B}\\ &=&-\frac{1}{n}\left\{ \displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta_0)\right) +\displaystyle\sum^n_{i=1}\log\left(\frac{q(X_i;\theta)}{q(X_i;\theta_0)}\right) \right\} \;\cdots\;\sum(A+B)=\sum A+\sum B\\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta_0)\right) -\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(\frac{q(X_i;\theta)}{q(X_i;\theta_0)}\right) \\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta_0)\right) +\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(\left(\frac{q(X_i;\theta)}{q(X_i;\theta_0)}\right)^{-1}\right) \;\cdots\;-\log{x}=\log{x^{-1}}\\ &=&-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta_0)\right) +\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(\frac{q(X_i;\theta_0)}{q(X_i;\theta)}\right) \;\cdots\;\left(\frac{A}{B}\right)^{-1}=\frac{1}{\frac{A}{B}}=\frac{B}{A}\\ &=&L_n(\theta_0)+K_n(\theta)\\ &&\;\cdots\;L_n(\theta_0)=-\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(q(X_i;\theta_0)\right) ,\;K_n=\frac{1}{n}\displaystyle\sum^n_{i=1}\log\left(\frac{q(X_i;\theta_0)}{q(X_i;\theta)}\right)\\ \end{eqnarray} $$
$$ \begin{eqnarray} f(X_i,\theta_0,\theta)&=&\log{\frac{q(X_i;\theta_0)}{q(X_i;\theta)}}\;\cdots\;尤度の比の対数(対数の比は,分母分子の対数の差なので尤度の差でもある)\\ K_n(\theta)&=&\frac{1}{n}\sum_{i=1}^n f(X_i,\theta_0,\theta)\;\cdots\;標本からのKLダイバージェンス\\ nK_n(\theta)&=&\sum_{i=1}^n f(X_i,\theta_0,\theta)\\ L_n(\theta)&=&L_n(\theta_0)+K_n(\theta)\\ K_n(\theta)&\gt&0\;\cdots\;\href{https://shikitenkai.blogspot.com/2019/08/kl.html}{KLダイバージェンスの下限}より\\ K_n(\theta)=0& \Longleftrightarrow & \theta \in \Theta_0\\ \exp\left(f(X_i,\theta_0,\theta)\right)&=&\frac{ q(X_i;\theta_0) }{ q(X_i;\theta) } \;\cdots\;A=\log{(B)},\;\exp{(A)}=B\\ q(X_i;\theta) &=&q(X_i;\theta_0) \frac{1}{\exp\left(f(X_i,\theta_0,\theta)\right)}\\ &=&q(X_i;\theta_0) \exp\left(-f(X_i,\theta_0,\theta)\right)\\ \end{eqnarray} $$

0 件のコメント:

コメントを投稿