Logistic Regression
Last updated
Was this helpful?
Last updated
Was this helpful?
假设第i个特征对第k类的贡献是,则数据点属于第k类的概率正比于。
因为一个数据点属于各类的概率之和为1,所以可以得到 。
若只有两类,将分子分母同除分子,则有 。
二项分布,或者bernoulli分布的exponential family形式,就是
LR本质上是线性回归,只是在特征到的结果的映射中加入了一层函数映射
通过logistic regression模型可以将线性函数转换为概率。线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。这样的模型就是logistic regression模型。
为什么要加log,不直接是几率比? 如果P是一个分布呢?线性空间?
模型学习时,可以用极大似然估计法估计模型参数
在自然语言中, 最大熵等价于 logistic regression,是因为特征函数都是二项分布。所以与LR本质上是同分布。
LR常用来做点击,但看到最近的比赛上效果比较好的有GBDT+LR,GBDT+FM。 还看到一段话
待扩展这些知识
如果类别标签为,则极大似然可以改写成
Ad Predictor : 这是微软的研究员提出的一种算法, 论文可以参考 Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine。 Ad Predictor有几个比较好的特性 它只需要扫瞄一次数据集就可以收敛到最优解,而不是像梯度法或者拟牛顿法那样需要反复迭代数据集。 它不仅仅能预测出一个样本是正样本的概率,而且还可以给出对于这个概率预测值的置信度 Ad Predictor很好了,不过它是基于L2正则化的,这样总是让人不能满意。Google在2013年发表了一篇论文(Ad Click Prediction: a View from the Trenches),介绍了一个基于L1正则化的LR优化算法FTRL-Proximal,且又具有上述Ad Predictor的两个优点。