1. 問題設定
1.1. 線形回帰
\(\{\phi_0(\boldsymbol{x}), \cdots, \phi_{M-1}(\boldsymbol{x})\}\) を与えられた基底関数のセットとして、 つぎの線形回帰問題を考える
(1.8)\[y(\boldsymbol{x},\boldsymbol{w})
=
\sum_{i=0}^{M-1} w_i \phi_i(\boldsymbol{x})
=
\boldsymbol{w}^\top \boldsymbol{\phi}(\boldsymbol{x}) .\]
実測データ \(t\) ( \(=y_{\rm true}(\boldsymbol{x})\) )を集めてパラメータ \(\boldsymbol{w}\) を決めるのだが、 その値には \(y(\boldsymbol{x},\boldsymbol{w})\) で捉えきれない不確定な要素(ノイズ)があるとして、 以下の形で問題を考えることにする
(1.9)\[t
=
y(\boldsymbol{x},\boldsymbol{w}) + \varepsilon .\]
いま、実測データとして \(N\) 個の入出力セットが得られているとする
(1.10)\[\boldsymbol{D}
\equiv
\{(\boldsymbol{x}_1, t_1), \; (\boldsymbol{x}_2, t_2),
\; \dots \; (\boldsymbol{x}_N, t_N) \} .\]
また入力だけ、出力だけをまとめたものを以下のように表すことにする
(1.11)\[\boldsymbol{X} \equiv \{\boldsymbol{x}_1, \boldsymbol{x}_2, \dots, \boldsymbol{x}_N\} ,\]
(1.12)\[\boldsymbol{t} \equiv \{t_1, t_2, \dots, t_N\} .\]
(1.8) についても、 \(N\) データ分まとめたものを以下のように表すことにする
(1.13)\[\begin{split}\boldsymbol{y}
\equiv
\begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_N
\end{pmatrix}
=
\begin{pmatrix}
\phi_0(\boldsymbol{x}_1) & \phi_1(\boldsymbol{x}_1) & \cdots & \phi_{M-1}(\boldsymbol{x}_1) \\
\phi_0(\boldsymbol{x}_2) & \phi_1(\boldsymbol{x}_2) & \cdots & \phi_{M-1}(\boldsymbol{x}_2) \\
\vdots & \cdots & \cdots & \vdots \\
\phi_0(\boldsymbol{x}_N) & \phi_1(\boldsymbol{x}_N) & \cdots & \phi_{M-1}(\boldsymbol{x}_N) \\
\end{pmatrix}
\begin{pmatrix}
w_0 \\
w_1 \\
\vdots \\
w_{M-1}
\end{pmatrix}
\equiv
\boldsymbol{\Phi}\boldsymbol{w} .\end{split}\]
1.2. データ分布のモデル:尤度関数
式 (1.9) のノイズ \(\varepsilon\) が次のガウス分布に従うとしたとき
(1.14)\[p(\varepsilon)
=
\mathcal{N}(\varepsilon | 0,\sigma_\varepsilon^2)
=
\frac{1}{\sqrt{2\pi\sigma_\varepsilon^2}}
\exp{\left(
-\frac{\varepsilon^2}{2\sigma_\varepsilon^2}
\right)}\]
出力 \(t\) もまたガウス分布になる
(1.15)\[p(t | \boldsymbol{x}, \boldsymbol{w})
=
\mathcal{N}(t | y(\boldsymbol{x},\boldsymbol{w}), \sigma_\varepsilon^2)
=
\frac{1}{\sqrt{2\pi\sigma_\varepsilon^2}}
\exp{\left(
-\frac{\left(
t - y(\boldsymbol{x},\boldsymbol{w})
\right)^2}{2\sigma_\varepsilon^2}
\right)} .\]
上記の設定は、 \(t\) というデータの生成機構に対する1つのモデル(仮定)であり、 実測データに基づいてパラメータ \(\boldsymbol{w}\) を調整するために使われる。 式(1.15) のような確率分布関数において、パラメータ \(\boldsymbol{w}\) の方を変数とみなす場合、これを尤度関数と呼ぶ。
複数の \(t\) が、式(1.15) に従って、互いに独立に得られたとすると、 その同時分布もやはりガウス分布となる
(1.16)\[\begin{split}p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w})
=
\prod_{n=1}^N \mathcal{N}(t_n | y(\boldsymbol{x_n},\boldsymbol{w}), \sigma_\varepsilon^2)
&=
\frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}}
\exp{\left(
-\frac{1}{2\sigma_\varepsilon^2}
(\boldsymbol{t}-\boldsymbol{y})^\top (\boldsymbol{t}-\boldsymbol{y})
\right)} \\
&=
\frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}}
\exp{\left(
-\frac{1}{2\sigma_\varepsilon^2}
(\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})^\top (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})
\right)} .\end{split}\]
以降の議論においても、多くの場面で、式(1.16) を尤度関数として採用する。