.. _problem_gp: ------------------------------------ 問題設定 ------------------------------------ ====================== 線形回帰 ====================== :math:`\{\phi_0(\boldsymbol{x}), \cdots, \phi_{M-1}(\boldsymbol{x})\}` を与えられた基底関数のセットとして、 つぎの線形回帰問題を考える .. math:: y(\boldsymbol{x},\boldsymbol{w}) = \sum_{i=0}^{M-1} w_i \phi_i(\boldsymbol{x}) = \boldsymbol{w}^\top \boldsymbol{\phi}(\boldsymbol{x}) . :label: pgp1 実測データ :math:`t` ( :math:`=y_{\rm true}(\boldsymbol{x})` )を集めてパラメータ :math:`\boldsymbol{w}` を決めるのだが、 その値には :math:`y(\boldsymbol{x},\boldsymbol{w})` で捉えきれない不確定な要素(ノイズ)があるとして、 以下の形で問題を考えることにする .. math:: t = y(\boldsymbol{x},\boldsymbol{w}) + \varepsilon . :label: pgp2 いま、実測データとして :math:`N` 個の入出力セットが得られているとする .. math:: \boldsymbol{D} \equiv \{(\boldsymbol{x}_1, t_1), \; (\boldsymbol{x}_2, t_2), \; \dots \; (\boldsymbol{x}_N, t_N) \} . :label: pgp3 また入力だけ、出力だけをまとめたものを以下のように表すことにする .. math:: \boldsymbol{X} \equiv \{\boldsymbol{x}_1, \boldsymbol{x}_2, \dots, \boldsymbol{x}_N\} , :label: pgp4 .. math:: \boldsymbol{t} \equiv \{t_1, t_2, \dots, t_N\} . :label: pgp5 \ :eq:`pgp1` についても、 :math:`N` データ分まとめたものを以下のように表すことにする .. math:: \boldsymbol{y} \equiv \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix} = \begin{pmatrix} \phi_0(\boldsymbol{x}_1) & \phi_1(\boldsymbol{x}_1) & \cdots & \phi_{M-1}(\boldsymbol{x}_1) \\ \phi_0(\boldsymbol{x}_2) & \phi_1(\boldsymbol{x}_2) & \cdots & \phi_{M-1}(\boldsymbol{x}_2) \\ \vdots & \cdots & \cdots & \vdots \\ \phi_0(\boldsymbol{x}_N) & \phi_1(\boldsymbol{x}_N) & \cdots & \phi_{M-1}(\boldsymbol{x}_N) \\ \end{pmatrix} \begin{pmatrix} w_0 \\ w_1 \\ \vdots \\ w_{M-1} \end{pmatrix} \equiv \boldsymbol{\Phi}\boldsymbol{w} . :label: pgp6 .. _likelihood_function: ================================== データ分布のモデル:尤度関数 ================================== 式 :eq:`pgp2` のノイズ :math:`\varepsilon` が次の\ :ref:`ガウス分布`\ に従うとしたとき .. math:: p(\varepsilon) = \mathcal{N}(\varepsilon | 0,\sigma_\varepsilon^2) = \frac{1}{\sqrt{2\pi\sigma_\varepsilon^2}} \exp{\left( -\frac{\varepsilon^2}{2\sigma_\varepsilon^2} \right)} :label: ml1 出力 :math:`t` もまた\ :ref:`ガウス分布`\ になる .. math:: p(t | \boldsymbol{x}, \boldsymbol{w}) = \mathcal{N}(t | y(\boldsymbol{x},\boldsymbol{w}), \sigma_\varepsilon^2) = \frac{1}{\sqrt{2\pi\sigma_\varepsilon^2}} \exp{\left( -\frac{\left( t - y(\boldsymbol{x},\boldsymbol{w}) \right)^2}{2\sigma_\varepsilon^2} \right)} . :label: ml2 上記の設定は、 :math:`t` というデータの生成機構に対する1つのモデル(仮定)であり、 実測データに基づいてパラメータ :math:`\boldsymbol{w}` を調整するために使われる。 式\ :eq:`ml2` のような確率分布関数において、パラメータ :math:`\boldsymbol{w}` の方を変数とみなす場合、これを尤度関数と呼ぶ。 複数の :math:`t` が、式\ :eq:`ml2` に従って、互いに独立に得られたとすると、 その同時分布もやはり\ :ref:`ガウス分布`\ となる .. math:: p(\boldsymbol{t} | \boldsymbol{X}, \boldsymbol{w}) = \prod_{n=1}^N \mathcal{N}(t_n | y(\boldsymbol{x_n},\boldsymbol{w}), \sigma_\varepsilon^2) &= \frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}} \exp{\left( -\frac{1}{2\sigma_\varepsilon^2} (\boldsymbol{t}-\boldsymbol{y})^\top (\boldsymbol{t}-\boldsymbol{y}) \right)} \\ &= \frac{1}{\sqrt{(2\pi)^N(\sigma_\varepsilon^2)^N}} \exp{\left( -\frac{1}{2\sigma_\varepsilon^2} (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w})^\top (\boldsymbol{t}-\boldsymbol{\Phi}\boldsymbol{w}) \right)} . :label: ml3 以降の議論においても、多くの場面で、式\ :eq:`ml3` を尤度関数として採用する。