Linear Regression
Last updated
Was this helpful?
Last updated
Was this helpful?
损失函数:需要一个机制评估 是否比较好。
为何选择平方和作为错误估计函数,假设根据特征的预测结果与实际结果有误差 ,即 一般误差 满足正态分布,那么x和y的条件概率
Andrew Ng的讲义上的,它只是表示与正态分布等价,然后并没有说明为什么用最小二乘或选择正太分布。
最小二乘可以理解为正交投影。 MLAPP 7.3.2 Geometric interpretation(page 251)
This corresponds to an orthogonal projection of y onto the column space of X.
这个几何意义,可见PRML3.1 。
求损失函数最小值,可以用梯度下降法。
将训练特征表示为X矩阵,结果表示为Y向量
Ng讲义上求梯度时结合了矩阵的迹。
矩阵的迹是它的所有特征值的和
按照Ng的讲义思路来,当只有一个样本时:
则
当用m个训练样本时,
from MLAPP 7.5 Ridge regression (page 255)
上面对参数加了先验,可以从贝叶斯的角度去看待,就成了贝叶斯线性回归。这时,在贝叶斯模型下我们需要去计算的是W的分布,而不是W的point estimation。
基本假设是
这个算法的问题在于,对于每一个要查询的点,都要重新从数据中训练一个模型出来,代价很高。
线性回归和logistic回归中都要求数据线性,但是现实中可能会遇到数据非线性的问题, 从本质出发,两种解决思路:
自变量的线性变化,因变量却没有线性相关: 对自变量离散化。
若特征维度>样本数,则不会是列满秩,解析解无法求出。 对于维度特别高的,一般会加L1范数,会产生稀疏解。此时目标函数为 ,一般称为LASSO
就是带L2正则,可以理解为均值为0高斯分布作为先验概率: 则MAP:
简化下得: 解为:
Output
其中假设符合公式
这个假设的道理是离要预测的X越近的样本权重越大,越远的影响越小。 这个公式与正态分布类似,但不是随机变量。 在学习的过程中,不仅要学习现行回归的参数,还是学习波长参数。
自变量间的非相关性: 例