优化目标:m个模型叠加起来最小化损失函数 {βm,αm}m=1M=argminL(y,∑m=1Mβmh(x,αm)) ,
设Fm(x)=Fm−1(x)+βmh(x,αm)=∑i=1mβmh(x,αm) ,
则βm,αm=argminL(y,Fm−1(x)+βmh(x,αm))
每一步新建的模型使得损失函数下降为当前步的负梯度方向。
gm(x)=−[∂Fm(x)∂L(y,Fm(x))]Fm(x),
为了使当前模型能够与负梯度方向一致,故优化该式子
βm,αm=argmin(gm(x)−βmh(x,αm))2
最后叠加到全部模型Fm(x)=Fm−1(x)+βmh(x,αm)
GBDT(Gradient Boosting Decision Tree)
每添加一个模型,朝着误差的负梯度方向下降,不能朝着牛顿方向下降吗?
泰勒展开
常用的
LambdaMART
在排序中,大神直接定义了每步优化的梯度!!!然后套用了gradient boosting框架,就有了LambdaMART。
参考佳文