Maximum Entropy

见李航老师的《统计学习方法》第6章。模型的学习,优化等都很明了。

最大熵的熵指的是条件熵,H(P)=x,yP^(x)P(yx)logP(yx)H(P) = - \sum_{x,y} \hat P(x)P(y|x)\log P(y|x)

特征函数值:

  • 观察分布上的期望值:Ep~(f)=x,yp~(x,y)f(x,y)E_{\tilde p}(f) = \sum_{x,y} \tilde p(x,y)f(x,y)

  • 条件分布下的期望值:Ep(f)=x,yp~(x)p(yx)f(x,y)E_p(f) = \sum_{x,y} \tilde p(x) p(y|x)f(x,y)

为什么可以基于最大熵建模?

Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势。 Tribus证明,正态分布、伽马分布、指数分布等,都是最大熵原理的特殊情况。 结论:最大熵统计建模是以最大熵理论为基础的方法,即从符合条件的分布中选择熵最大的分布作为最优秀的分布。

最大熵统计模型需要解决的问题:

  • 特征空间的确定——问题域

  • 特征选择——寻找约束条件

  • 建立统计模型——基于最大熵理论建立熵最大的模型

Logistic Regression与 maximum entropy

自然语言中用最大熵,是构造了特征函数,然后特征发生或不反生,就是一堆伯努利事件,所以才跟logistic扯上关系

参考佳文

机器学习实战——最大熵模型 最大熵模型(Maximum Entropy Models) 最大熵模型(Maximum Entropy Models)(二)

如何理解最大熵模型里面的特征?

最大熵模型解释"知识就是力量"

Last updated