对数几率比的解释
logit(P(y=1∣x))=logP(y=0∣x)P(y=1∣x)=log1−P(y=1∣x)P(y=1∣x)=w⋅xP(y=1∣x)=logit−1(w⋅x)=1+exp(−w⋅x)1=1+exp(w⋅x)exp(w⋅x)P(y=0∣x)=1−P(y=1∣x)=1+exp(w⋅x)1 Bernoulli分布
p(y∣p)=py(1−p)1−y=exp(ylog1−pp+log(1−p))
Exponential model的解释
P(y=k)=∑kexp(∑i=1nwkixi)exp(∑i=1nwkixi)=∑kexp(WkTX)exp(WkTX) 若只有两类,将分子分母同除分子,则有P(Y=1∣x)=1+exp(−w⋅x)1
模型参数估计
模型学习时,可以用极大似然估计法估计模型参数
wmaxL(w)=j∏py(1−p)(1−y) 如果类别标签为{−1,1},则极大似然可以改写成
maxwL(w)=j∏1+exp(−yjwTxj)1wmin−logL(w)=j∑log(1+exp(−yjwTxj))这个形式方便于并行化,比如梯度:G=j∑[1+exp(−yjwTxj)1−1]yixi L1正则形式:
N1n=1∑Nlog(1+exp(−ynWTXn))+λ∥W∥1 并行化
GBDT+LR
构造的新特征向量是取值0/1的,向量的每个元素对应于GBDT模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上,那么在新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0。新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和。
举例说明。下面的图中的两棵树是GBDT学习到的,第一棵树有3个叶子结点,而第二棵树有2个叶子节点。对于一个输入样本点x,如果它在第一棵树最后落在其中的第二个叶子结点,而在第二棵树里最后落在其中的第一个叶子结点。那么通过GBDT获得的新特征向量为[0, 1, 0, 1, 0],其中向量中的前三位对应第一棵树的3个叶子结点,后两位对应第二棵树的2个叶子结点。
Last updated