Gaussian Process

高斯过程回归预测

如同Dirichlet过程采样产生的都是符合Dirichlet分布，高斯过程采样产生的都是符合高斯分布，即： $p(y) = \mathcal{N}(y|0,K)$ 。

假设真实的target符合： $t_n = y_n + \epsilon$ 。

$\epsilon$ 是随机噪声变量，且对于每个观测n都是独立的，假设服从高斯分布，则：

p(t_n|y_n) = \mathcal{N}(t_n|y_n,\beta^{-1}) \\ p(t|y) = \mathcal{N}(t|y,\beta^{-1}I_N)

则 $p(t)$ 的边缘分布 $p(t) = \int p(t|y)p(y)dy = \mathcal{N}(t|O,C)$ 。其中协方差矩阵C的元素为： $C(x_n,x_m) = k(x_n,x_m) + \beta^{-1}\delta_{nm}$ 。

这个结果反映了下面的事实：两个随机的高斯分布（即与 $y(x)$ 相关的和与 $\epsilon$ 相关的高斯分布）是独立的，因此它们的协方差可以简单地相加。

广泛选择的核函数： $k(x_n,x_m) = \theta_0exp\left\{-\frac{\theta_1}{2}\Vert x_n - x_m \Vert^2\right\} + \theta_2 + \theta_3x_n^Tx_m$

现在假设有N个训练集，并且要预测第N+1个数据x对于的y。先求n+1联合分布： $p(t_{N+1}) = \mathcal{N}(t_{N+1}|O,C_{N+1})$ 将协方差矩阵分块： , 则可以得到 $P(t_{N+1}|t)$ 的均值和协方差分别为：

最后得到： $p(x_{N+1}) = N(x_{N+1} | k^T C_N^{-1} t,c-k^T C_N^{-1} k)$ 。

高斯过程和很多模型是等价的：ARMA (autoregressive moving average) models, Kalman filters, radial basis function networks 。

多维高斯分布由均值（向量）和协方差（矩阵）决定，那么高斯过程的均值和协方差由mean function和covariance function决定。形式如下： $f \sim gp(m(x),k(x,x^*))$

对于任意时刻 $t_i$ ，高斯过程的任意n维随机变量 $X(t_i)$ 都服从高斯分布，那么就可以用来做贝叶斯推断的先验（一些模型都会增加正太分布先验（L2正则项）），这样就可以非参数贝叶斯估计。

Last updated 5 years ago

Was this helpful?