1. 問題設定

1.1. 線形回帰

\(\{\phi_0(\boldsymbol{x}), \cdots, \phi_{M-1}(\boldsymbol{x})\}\) を与えられた基底関数のセットとして、 つぎの線形回帰問題を考える

(1.8)\[y(\boldsymbol{x},\boldsymbol{w}) = \sum_{i=0}^{M-1} w_i \phi_i(\boldsymbol{x}) = \boldsymbol{w}^\top \boldsymbol{\phi}(\boldsymbol{x}) .\]

実測データ \(t\)\(=y_{\rm true}(\boldsymbol{x})\) )を集めてパラメータ \(\boldsymbol{w}\) を決めるのだが、 その値には \(y(\boldsymbol{x},\boldsymbol{w})\) で捉えきれない不確定な要素(ノイズ)があるとして、 以下の形で問題を考えることにする

(1.9)\[t = y(\boldsymbol{x},\boldsymbol{w}) + \varepsilon .\]

いま、実測データとして \(N\) 個の入出力セットが得られているとする

(1.10)\[\boldsymbol{D} \equiv \{(\boldsymbol{x}_1, t_1), \; (\boldsymbol{x}_2, t_2), \; \dots \; (\boldsymbol{x}_N, t_N) \} .\]

また入力だけ、出力だけをまとめたものを以下のように表すことにする

(1.11)\[\boldsymbol{X} \equiv \{\boldsymbol{x}_1, \boldsymbol{x}_2, \dots, \boldsymbol{x}_N\} ,\]
(1.12)\[\boldsymbol{t} \equiv \{t_1, t_2, \dots, t_N\} .\]

(1.8) についても、 \(N\) データ分まとめたものを以下のように表すことにする

(1.13)\[\begin{split}\boldsymbol{y} \equiv \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix} = \begin{pmatrix} \phi_0(\boldsymbol{x}_1) & \phi_1(\boldsymbol{x}_1) & \cdots & \phi_{M-1}(\boldsymbol{x}_1) \\ \phi_0(\boldsymbol{x}_2) & \phi_1(\boldsymbol{x}_2) & \cdots & \phi_{M-1}(\boldsymbol{x}_2) \\ \vdots & \cdots & \cdots & \vdots \\ \phi_0(\boldsymbol{x}_N) & \phi_1(\boldsymbol{x}_N) & \cdots & \phi_{M-1}(\boldsymbol{x}_N) \\ \end{pmatrix} \begin{pmatrix} w_0 \\ w_1 \\ \vdots \\ w_{M-1} \end{pmatrix} \equiv \boldsymbol{\Phi}\boldsymbol{w} .\end{split}\]

1.2. データ分布のモデル:尤度関数

(1.9) のノイズ \(\varepsilon\) が次のガウス分布に従うとしたとき

(1.14)\[p(\varepsilon) = \mathcal{N}(\varepsilon | 0,\sigma_\varepsilon^2) = \frac{1}{\sqrt{2\pi\sigma_\varepsilon^2}} \exp{\left( -\frac{\varepsilon^2}{2\sigma_\varepsilon^2} \right)}\]

出力 \(t\) もまたガウス分布になる

(1.15)\[p(t | \boldsymbol{x}, \boldsymbol{w}) = \mathcal{N}(t | y(\boldsymbol{x},\boldsymbol{w}), \sigma_\varepsilon^2) = \frac{1}{\sqrt{2\pi\sigma_\varepsilon^2}} \exp{\left( -\frac{\left( t - y(\boldsymbol{x},\boldsymbol{w}) \right)^2}{2\sigma_\varepsilon^2} \right)} .\]

上記の設定は、 \(t\) というデータの生成機構に対する1つのモデル(仮定)であり、 実測データに基づいてパラメータ \(\boldsymbol{w}\) を調整するために使われる。 式(1.15) のような確率分布関数において、パラメータ \(\boldsymbol{w}\) の方を変数とみなす場合、これを尤度関数と呼ぶ。

複数の \(t\) が、式(1.15) に従って、互いに独立に得られたとすると、 その同時分布もやはりガウス分布となる

(1.16)\[\begin{split}p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w}) = \prod_{n=1}^N \mathcal{N}(t_n | y(\boldsymbol{x_n},\boldsymbol{w}), \sigma_\varepsilon^2) &= \frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}} \exp{\left( -\frac{1}{2\sigma_\varepsilon^2} (\boldsymbol{t}-\boldsymbol{y})^\top (\boldsymbol{t}-\boldsymbol{y}) \right)} \\ &= \frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}} \exp{\left( -\frac{1}{2\sigma_\varepsilon^2} (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})^\top (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w}) \right)} .\end{split}\]

以降の議論においても、多くの場面で、式(1.16) を尤度関数として採用する。