間違いしかありません.コメントにてご指摘いただければ幸いです(気が付いた点を特に断りなく頻繁に書き直していますのでご注意ください).

回帰による変動の平方和と全平方和の比率

回帰による変動の平方和と全平方和の比率

また全平方和STのうち回帰による変動の平方和SRの比率を寄与率,あるいは決定係数R2という. R2=SRST=SRSyyST=Syy=Sxy2SxxSyySR=Sxy2Sxx=Sxy2SxxSyy=(SxySxxSyy)2=(Sxyn1Sxxn1Syyn1)2=Cov[X,Y]2V[X]V[Y]Cov[X,Y]=E[{XE[X]}{YE[Y]}],V[X]=E[{XE[X]}2]=ρ2Cov[X,Y]V[X]V[Y]=ρ()R2=SRST=STSeST=1SeSTSR=STSe=STSeSyy=1SeSyy

残差平方和とデータの各平方和

残差平方和とデータの各平方和

Se=i=1nei2=i=1n(yiyi^)2yi^=α^+β^xi=(i=1nyi2)2ny¯α^2(i=1nxiyi)β^+nα^2+2nx¯α^β^+(i=1nxi2)β^2=(i=1nyi2)2ny¯(y¯SxySxxx¯)2(i=1nxiyi)SxySxx+n(y¯SxySxxx¯)2+2nx¯(y¯SxySxxx¯)SxySxx+(i=1nxi2)(SxySxx)2α^=y¯SxySxxx¯,β^=SxySxx=(i=1nyi2)2ny¯2+2nSxySxxx¯y¯2SxySxx(i=1nxiyi)+ny¯22nSxySxxx¯y¯+n(SxySxx)2x¯2+2nSxySxxx¯y¯2n(SxySxx)2x¯2+(i=1nxi2)(SxySxx)2={(i=1nyi2)2ny¯2+ny¯2}+{2nSxySxxx¯y¯2SxySxx(i=1nxiyi)2nSxySxxx¯y¯+2nSxySxxx¯y¯}+{n(SxySxx)2x¯22n(SxySxx)2x¯2+(i=1nxi2)(SxySxx)2}={(i=1nyi2)ny¯2}+{2nSxySxxx¯y¯2SxySxx(i=1nxiyi)}+{n(SxySxx)2x¯2+(i=1nxi2)(SxySxx)2}={(i=1nyi2)ny¯2}2SxySxx{(i=1nxiyi)nx¯y¯}+(SxySxx)2{(i=1nxi2)nx¯2}i=1nyi2ny¯2=Syy,i=1nxi2nx¯2=Sxx,i=1nxiyinx¯y¯=Sxy=Syy2SxySxxSxy+(SxySxx)2Sxx=Syy2Sxy2Sxx+Sxy2Sxx=SyySxy2Sxx よって,残差平方和Seはデータの各平方和(Sxx,Syy,Sxy)より求めることができる.

全平方和の分解

全平方和の分解

以下のような和を考える.第一項は回帰直線から推定される値yi^と目的変数の平均値y¯との差の 平方和であり,第二項は残差平方和である. i=0n(yi^y¯)2+i=0n(yiyi^)2=i=0n(yi^22yi^y¯+y¯2)+i=0n(yi22yiyi^+yi^2)=i=0n{(α+βxi)22(α+βxi)y¯+y¯2}+i=0n{yi22yi(α+βxi)+(α+βxi)2}=i=0n(α2+2αβxi+β2xi22αy¯2βy¯xi+y¯2)+i=0n(yi22αyi2βxiyi+α2+2αβxi+β2xi2)=i=0n{(y¯βx¯)2+2(y¯βx¯)βxi+β2xi22(y¯βx¯)y¯2βy¯xi+y¯2}+i=0n{yi22(y¯βx¯)yi2βxiyi+(y¯βx¯)2+2(y¯βx¯)βxi+β2xi2}=i=0n(y¯22βx¯y¯+β2x¯2+2βy¯xi2β2x¯xi+β2xi22y¯2+2βx¯y¯2βy¯xi+y¯2)+i=0n(yi22y¯yi+2βx¯yi2βxiyi+y¯22βx¯y¯+β2x¯2+2βy¯xi2β2x¯xi+β2xi2)=y¯2(i=0n1)2βx¯y¯(i=0n1)+β2x¯2(i=0n1)+2βy¯(i=0nxi)2β2x¯(i=0nxi)+β2(i=0nxi2)2y¯2(i=0n1)+2βx¯y¯(i=0n1)2βy¯(i=0nxi)+y¯2(i=0n1)+(i=0nyi2)2y¯(i=0nyi)+2βx¯(i=0nyi)2β(i=0nxiyi)+y¯2(i=0n1)2βx¯y¯(i=0n1)+β2x¯2(i=0n1)+2βy¯(i=0nxi)2β2x¯(i=0nxi)+β2(i=0nxi2)=ny¯22nβx¯y¯+nβ2x¯2+2nβx¯y¯2nβ2x¯2+β2(i=0nxi2)2ny¯2+2nβx¯y¯2nβx¯y¯+ny¯2+(i=0nyi2)2ny¯2+2nβx¯y¯2β(i=0nxiyi)+ny¯22nβx¯y¯+nβ2x¯2+2nβx¯y¯2nβ2x¯2+β2(i=0nxi2)={(i=0nyi2)+ny¯22ny¯2+ny¯22ny¯2+ny¯2}+{2β2(i=0nxi2)+nβ2x¯22nβ2x¯2+nβ2x¯22nβ2x¯2}+{2β(i=0nxiyi)2nβx¯y¯+2nβx¯y¯+2nβx¯y¯2nβx¯y¯+2nβx¯y¯2nβx¯y¯+2nβx¯y¯}={(i=0nyi2)ny¯2}+2β2{(i=0nxi2)nx¯2}2β{(i=0nxiyi)nx¯y¯}=Syy+2β2Sxx2βSxy=Syy+2β(βSxxSxy)=Syy+2(SxySxx){(SxySxx)SxxSxy}=Syy+2(SxySxx)(SxySxy)=Syy=i=0n(yiy¯)2=ST よって,全平方和STであるSyyは回帰直線から推定される値y^と目的変数の平均値y¯との差の 平方和と残差平方和で表せられる.
この回帰直線から推定される値y^と目的変数の平均値y¯との差の 平方和を,回帰による変動の平方和SRと呼ぶ. i=0n(yiy¯)2=i=0n(yi^y¯)2+i=0n(yiyi^)2ST=SR+SeSyy=SR+SeSyy=SR+(SyySxy2Sxx)SR=Sxy2Sxx 回帰による変動の平方和SRもデータの各平方和(Sxx,Syy)より求めることができる.

線形単回帰の回帰直線 / 最小二乗推定量(least squares estimate; LSE)

線形単回帰の回帰直線

Xを説明変数(独立変数),Yを目的変数(従属変数)とし,線形単回帰として以下のよう関係を考える.この時,同式が直線を表すことから回帰直線と呼ぶ. Y=α+βX 線形単回帰としてデータを捉えるのでデータも次の構造式で考える. yi=α+βxi+ϵiϵiiidN(0,σ2) 回帰直線で推定されるX=xiに対応するYの値をy^iとする.またy^iを求めるためのパラメタα,βの推定値としてα^,β^とすると以下のような式となる. yi^=α^+β^xi
平均や平方和. x¯=1ni=1nxiy¯=1ni=1nyiSxx=i=1n(xix¯)2=i=1n(xi22xix¯+x¯2)=(i=1nxi2)2(i=1nxi)x¯+x¯2(i=1n1)=(i=1nxi2)2nx¯2+nx¯2i=1nxi=nx¯=(i=1nxi2)nx¯2Syy=i=1n(yiy¯)2=i=1n(yi22yiy¯+y¯2)=(i=1nyi2)2(i=1nyi)y¯+y¯2(i=1n1)=(i=1nyi2)2ny¯2+ny¯2i=1nyi=ny¯=(i=1nyi2)ny¯2Sxy=i=1n(xix¯)(yiy¯)=i=1n(xiyixiy¯x¯yi+x¯y¯)=(i=1nxiyi)(i=1nxi)y¯x¯(i=1nyi)+x¯y¯(i=1n1)=(i=1nxiyi)nx¯y¯nx¯y¯+nx¯y¯i=1nxi=nx¯,i=1nyi=ny¯=(i=1nxiyi)nx¯y¯ 残差平方和Seを展開する. Se=i=1nei2=i=1n(yiyi^)2ei=yiyi^=i=1n{yi(α^+β^xi)}2yi^=α^+β^xi=i=1n{yi22yi(α^+β^xi)+(α^+β^xi)2}(ab)2=a22ab+b2=i=1n(yi22yiα^2xiyiβ^+α^2+2xiα^β^+xi2β^2)=(i=1nyi2)2(i=1nyi)α^2(i=1nxiyi)β^+(i=1n1)α^2+2(i=1nxi)α^β^+(i=1nxi2)β^2i=0n(ai+bi)=i=0nai+i=0nbi=(i=1nyi2)2ny¯α^2(i=1nxiyi)β^+nα^2+2nx¯α^β^+(i=1nxi2)β^2i=1nxi=nx¯,i=1nyi=ny¯,i=1n1=n 極値となるα^,β^を求めるためSeα,βでの偏微分を求める. Seα^=2ny¯+2nα^+2nx¯β^=2n(α^+x¯β^y¯)Seβ^=2(i=1nxiyi)+2nx¯α^+2(i=1nxi2)β^=2{(i=1nxiyi)+nx¯α^+(i=1nxi2)β^} 二階の偏微分はそれぞれ常に正の数なので極小となる. 2Seα^2=2n>02Seβ^2=2(i=1nxi2)>0 一階の偏微分を連立させるSeα^=0,Seβ^=0. これによりα,βの推定値α^,β^を求める. {2n(α^+x¯β^y¯)=02{(i=1nxiyi)+nx¯α^+(i=1nxi2)β^}=0 {α^+x¯β^y¯=0nx¯α^+(i=1nxi2)β^(i=1nxiyi)=0 上記を正規方程式(normal equation)という.
一つ目の式をα^について解く. α^+x¯β^y¯=0α^=y¯x¯β^ 二つ目の式のα^にこれを代入する. nx¯α^+(i=1nxi2)β^(i=1nxiyi)=0nx¯(y¯x¯β^)+(i=1nxi2)β^(i=1nxiyi)=0nx¯y¯nx¯2β^+(i=1nxi2)β^(i=1nxiyi)=0nx¯y¯+{(i=1nxi2)nx¯2}β^(i=1nxiyi)=0{(i=1nxi2)nx¯2}β^=(i=1nxiyi)nx¯y¯β^=(i=1nxiyi)nx¯y¯(i=1nxi2)nx¯2=SxySxx よって回帰直線の係数α^,β^は以下のようになる. α^=y¯βx¯=y¯SxySxxx¯β^=SxySxx 残差の二乗を最小とするように求めたこのα^,β^最小二乗推定量(least squares estimate; LSE)と呼ぶ.
β^の分母はSxx=i=0n(xix¯)2であり,0または正の値である(0は全てのxix¯と等しいとき). よって回帰直線の傾きはSxyによるものである.
またα^,β^を求める際に用いた正規方程式にあるように,この直線が(x¯,y¯)を通ることがわかる. α^+x¯β^y¯=01y¯=α^+x¯β^