Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • 为什么可以基于最大熵建模?
  • 最大熵统计模型需要解决的问题:
  • Logistic Regression与 maximum entropy
  • 参考佳文

Was this helpful?

Maximum Entropy

PreviousGMMNextIIS

Last updated 5 years ago

Was this helpful?

见李航老师的《统计学习方法》第6章。模型的学习,优化等都很明了。

最大熵的熵指的是条件熵,H(P)=−∑x,yP^(x)P(y∣x)log⁡P(y∣x)H(P) = - \sum_{x,y} \hat P(x)P(y|x)\log P(y|x)H(P)=−∑x,y​P^(x)P(y∣x)logP(y∣x)

特征函数值:

  • 观察分布上的期望值:Ep~(f)=∑x,yp~(x,y)f(x,y)E_{\tilde p}(f) = \sum_{x,y} \tilde p(x,y)f(x,y)Ep~​​(f)=∑x,y​p~​(x,y)f(x,y)

  • 条件分布下的期望值:Ep(f)=∑x,yp~(x)p(y∣x)f(x,y)E_p(f) = \sum_{x,y} \tilde p(x) p(y|x)f(x,y)Ep​(f)=∑x,y​p~​(x)p(y∣x)f(x,y)

为什么可以基于最大熵建模?

Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势。 Tribus证明,正态分布、伽马分布、指数分布等,都是最大熵原理的特殊情况。 结论:最大熵统计建模是以最大熵理论为基础的方法,即从符合条件的分布中选择熵最大的分布作为最优秀的分布。

最大熵统计模型需要解决的问题:

  • 特征空间的确定——问题域

  • 特征选择——寻找约束条件

  • 建立统计模型——基于最大熵理论建立熵最大的模型

Logistic Regression与 maximum entropy

自然语言中用最大熵,是构造了特征函数,然后特征发生或不反生,就是一堆伯努利事件,所以才跟logistic扯上关系

参考佳文

机器学习实战——最大熵模型
最大熵模型(Maximum Entropy Models)
最大熵模型(Maximum Entropy Models)(二)
如何理解最大熵模型里面的特征?
最大熵模型解释"知识就是力量"