Maximum Entropy

见李航老师的《统计学习方法》第6章。模型的学习，优化等都很明了。

最大熵的熵指的是条件熵， $H(P) = - \sum_{x,y} \hat P(x)P(y|x)\log P(y|x)$

特征函数值：

为什么可以基于最大熵建模？

Jaynes证明：对随机事件的所有相容的预测中，熵最大的预测出现的概率占绝对优势。 Tribus证明，正态分布、伽马分布、指数分布等，都是最大熵原理的特殊情况。结论：最大熵统计建模是以最大熵理论为基础的方法，即从符合条件的分布中选择熵最大的分布作为最优秀的分布。

自然语言中用最大熵，是构造了特征函数，然后特征发生或不反生，就是一堆伯努利事件，所以才跟logistic扯上关系

Last updated 5 years ago

Was this helpful?