hθ(x)=θ0+θ1x1+θ2x2=i=0∑2θixi=θTX 损失函数:需要一个机制评估 θ 是否比较好。
\min_{\theta} J(\theta) = \frac {1}{2m} \sum_{i=1}^m ( h_{\theta}(x^{(i)}) - y^{(i)} )^2 \quad \mbox{coursera上多了个m,让迭代步长与样本数无关} \\
为何选择平方和作为错误估计函数,假设根据特征的预测结果与实际结果有误差 ϵi ,即yi=θTxi+ϵi
一般误差 ϵi 满足正态分布,那么x和y的条件概率
p(yi∣xi;θ)=2πδ1exp(−2δ2(yi−θTxi)2)L(θ)=logi=1∏mp(yi∣xi;θ)=−mlog2πσ−2σ21i=1∑m(yi−θTxi)2 Andrew Ng的讲义上的,它只是表示与正态分布等价,然后并没有说明为什么用最小二乘或选择正太分布。
正交投影与最小二乘法
最小二乘可以理解为正交投影。 MLAPP 7.3.2 Geometric interpretation(page 251)
y^∈span(X)y^=XwXT(y−y^)=0→XT(y−Xw)=0→w=(XTX)−1XTyy^=Xw=X(XTX)−1XTy This corresponds to an orthogonal projection of y onto the column space of X.
在进行线性回归时,为什么最小二乘法是最优方法?
投影矩阵与最小二乘
正交性和最小二乘法
这个几何意义,可见PRML3.1 。
求损失函数最小值,可以用梯度下降法。
解析解
将训练特征表示为X矩阵,结果表示为Y向量
Xθ−Y=(x(1))Tθ…(x(m))Tθ−y(1)…y(m)=hθ(x(i))−y(i)…hθ(x(m))−y(m)J(θ)=2m1(Xθ−Y)T(Xθ−Y)=2m1∣∣Xθ−Y∣∣2∂θ∂J=XT(Xθ−Y)=0XTXθ−XTY=0θ=(XTX)−1XTY此解析解需要X是列满秩的,故一般求θ=(XTX+λI)−1XTYI是单位阵,这个解形式等同于加了L2范数 若特征维度>样本数,XTX则不会是列满秩,解析解无法求出。
对于维度特别高的,一般会加L1范数,会产生稀疏解。此时目标函数为
J(θ)=2m1∣∣Xθ−Y∣∣2+λ∣∣θ∣∣1,一般称为LASSO
梯度与迹
Ng讲义上求梯度时结合了矩阵的迹。
∇θJ(θ)=21∇θ(Xθ−Y)T(Xθ−Y)=21∇θ(θTXTXθ−YTXθ−θTXTY+YTY)=21∇θtr(θTXTXθ−YTXθ−θTXTY+YTY)=21[∇θtr(θTXTXθ)−∇θtr(YTXθ)−∇θtr(θTXTY)]=21∇θtr(θTXTXθ)−∇θtr(YTXθ)=21∇θtr(θθTXTX)−∇θtr(YTXθ)=21∇θtr(θIθTXTX)−∇θtr(YTXθ)=XTXθ−∇θtr(YTXθ)=XTXθ−XYT 矩阵的迹是它的所有特征值的和
迹的几何意义是什么
gradient descent
θj:=θj−α∂θj∂J(θ) 按照Ng的讲义思路来,当只有一个样本时:
∂θj∂J(θ)=∂θj∂21(hθ(x)−y)2=(hθ(x)−y)∂θj∂(hθ(x)−y)=(hθ(x)−y)∂θj∂i=0∑nθixi=(hθ(x)−y)xi 则
θj:=θj−α(hθ(x)−y)xi 当用m个训练样本时,
θj:=θj−αi=1∑m(hθ(x(i))−y(i))xi(i) Ridge regression
就是带L2正则,可以理解为均值为0高斯分布作为先验概率:p(w)=∏jN(wj∣0,τ2)
则MAP:
argwmax =i=1∑Nlogp(yi∣xi,w)p(w)i=1∑NlogN(yi∣w0+wTxi,σ2)+j=1∑DlogN(wj∣0,τ2) 简化下得:J(w)=N1∑i=1N(yi−(w0+wTxi))2+λ∣∣w∣∣22
解为: w=(XTX+λI)−1XTY
from MLAPP 7.5 Ridge regression (page 255)
贝叶斯线性回归
上面对参数加了先验,可以从贝叶斯的角度去看待,就成了贝叶斯线性回归。这时,在贝叶斯模型下我们需要去计算的是W的分布,而不是W的point estimation。
https://www.zhihu.com/question/22007264
带权重的线性回归
基本假设是
minθJ(θ)=∑i=1mωi(yi−θTxi)2
其中假设ωi符合公式
ωi=exp(−2τ2(xi−x)2)τ是波长参数 这个假设的道理是离要预测的X越近的样本权重越大,越远的影响越小。
这个公式与正态分布类似,但ωi不是随机变量。
在学习的过程中,不仅要学习现行回归的参数,还是学习波长参数。
这个算法的问题在于,对于每一个要查询的点,都要重新从数据中训练一个模型出来,代价很高。
非线性的处理
线性回归和logistic回归中都要求数据线性,但是现实中可能会遇到数据非线性的问题,
从本质出发,两种解决思路:
自变量间的非相关性: 例 y=w1∗x1+w2∗x2+w3∗x1∗x2
自变量的线性变化,因变量却没有线性相关: 对自变量离散化。
回归分析
Sparsity and Some Basics of L1 Regularization
最大似然估计和最小二乘法怎么理解?