# Maximum Entropy

见李航老师的《统计学习方法》第6章。模型的学习，优化等都很明了。

最大熵的熵指的是条件熵，$$H(P) = - \sum\_{x,y} \hat P(x)P(y|x)\log P(y|x)$$

特征函数值：

* 观察分布上的期望值：$$E\_{\tilde p}(f) = \sum\_{x,y} \tilde p(x,y)f(x,y)$$
* 条件分布下的期望值：$$E\_p(f) = \sum\_{x,y} \tilde p(x) p(y|x)f(x,y)$$

## 为什么可以基于最大熵建模？

Jaynes证明：对随机事件的所有相容的预测中，熵最大的预测出现的概率占绝对优势。\
Tribus证明，正态分布、伽马分布、指数分布等，都是最大熵原理的特殊情况。\
结论：最大熵统计建模是以最大熵理论为基础的方法，即从符合条件的分布中选择熵最大的分布作为最优秀的分布。

### 最大熵统计模型需要解决的问题：

* 特征空间的确定——问题域&#x20;
* 特征选择——寻找约束条件
* 建立统计模型——基于最大熵理论建立熵最大的模型

## Logistic Regression与 maximum entropy

自然语言中用最大熵，是构造了特征函数，然后特征发生或不反生，就是一堆伯努利事件，所以才跟logistic扯上关系

### 参考佳文

[机器学习实战——最大熵模型](http://blog.csdn.net/u010487568/article/details/45512689)\
[最大熵模型(Maximum Entropy Models)](http://www.zhizhihu.com/html/y2011/3489.html)\
[最大熵模型(Maximum Entropy Models)(二)](http://www.zhizhihu.com/html/y2011/3500.html)

[如何理解最大熵模型里面的特征？](https://www.zhihu.com/question/24094554)

[最大熵模型解释"知识就是力量"](https://mp.weixin.qq.com/s/I8oL1ilZ1jz7lVkjVDJj6A)
