2. 最尤推定と最小二乗法

2.1. 最尤推定法と最小二乗法の等価性

出力データの生成モデル(尤度関数)として、式 (1.16)

\[p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w}) = \frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}} \exp{\left( -\frac{1}{2\sigma_\varepsilon^2} (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})^\top (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w}) \right)}\]

を採用し、実測データの発生確率を上げるように分布関数の未知パラメータを決める最尤推定を実行しよう。 上式の対数をとる

(2.4)\[\ln{p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w})} = - \frac{N\ln2\pi}{2} - \frac{N\ln\sigma_\varepsilon^2}{2} - \frac{1}{2\sigma_\varepsilon^2} \sum_{n=1}^N (t_n - y(\boldsymbol{x_n},\boldsymbol{w}) )^2 .\]

これを最大化するには、次式を \(\boldsymbol{w}\) について最小化すればよい

(2.5)\[L(\boldsymbol{w}) = \frac{1}{2} \sum_{n=1}^N (t_n - y(\boldsymbol{x_n},\boldsymbol{w}) )^2 .\]

これは最小二乗問題に他ならない。

2.2. ハイパーパラメータについての最尤推定

(2.4) において、 \(\sigma_\varepsilon^2\) についての最大化を考えることもできる。微分してゼロとおくと

\[- \frac{N}{2\sigma_\varepsilon^2} + \frac{1}{\left(\sigma_\varepsilon^2\right)^2} L(\boldsymbol{w}) = 0\]
(2.6)\[\therefore \sigma_\varepsilon^2 = \frac{2 L(\boldsymbol{w})}{N}\]

が得られる。