Maximum Entropy
见李航老师的《统计学习方法》第6章。模型的学习,优化等都很明了。
最大熵的熵指的是条件熵,
特征函数值:
观察分布上的期望值:
条件分布下的期望值:
为什么可以基于最大熵建模?
Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势。 Tribus证明,正态分布、伽马分布、指数分布等,都是最大熵原理的特殊情况。 结论:最大熵统计建模是以最大熵理论为基础的方法,即从符合条件的分布中选择熵最大的分布作为最优秀的分布。
最大熵统计模型需要解决的问题:
特征空间的确定——问题域
特征选择——寻找约束条件
建立统计模型——基于最大熵理论建立熵最大的模型
Logistic Regression与 maximum entropy
自然语言中用最大熵,是构造了特征函数,然后特征发生或不反生,就是一堆伯努利事件,所以才跟logistic扯上关系
参考佳文
机器学习实战——最大熵模型 最大熵模型(Maximum Entropy Models) 最大熵模型(Maximum Entropy Models)(二)
Last updated