2. 最尤推定と最小二乗法
2.1. 最尤推定法と最小二乗法の等価性
\[p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w})
=
\frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}}
\exp{\left(
-\frac{1}{2\sigma_\varepsilon^2}
(\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})^\top (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})
\right)}\]
を採用し、実測データの発生確率を上げるように分布関数の未知パラメータを決める最尤推定を実行しよう。 上式の対数をとる
(2.4)\[\ln{p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w})}
=
- \frac{N\ln2\pi}{2} - \frac{N\ln\sigma_\varepsilon^2}{2}
- \frac{1}{2\sigma_\varepsilon^2} \sum_{n=1}^N (t_n - y(\boldsymbol{x_n},\boldsymbol{w}) )^2 .\]
これを最大化するには、次式を \(\boldsymbol{w}\) について最小化すればよい
(2.5)\[L(\boldsymbol{w}) = \frac{1}{2} \sum_{n=1}^N (t_n - y(\boldsymbol{x_n},\boldsymbol{w}) )^2 .\]
これは最小二乗問題に他ならない。
2.2. ハイパーパラメータについての最尤推定
式 (2.4) において、 \(\sigma_\varepsilon^2\) についての最大化を考えることもできる。微分してゼロとおくと
\[- \frac{N}{2\sigma_\varepsilon^2}
+ \frac{1}{\left(\sigma_\varepsilon^2\right)^2} L(\boldsymbol{w})
= 0\]
(2.6)\[\therefore
\sigma_\varepsilon^2
=
\frac{2 L(\boldsymbol{w})}{N}\]
が得られる。