Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • Entropy
  • 信息熵 Entropy
  • 联合熵 joint Entropy
  • 条件熵 Conditional Entropy
  • 信息增益
  • 互信息Mutual Informantion
  • 相对熵 KL散度
  • 交叉熵 cross entropy

Was this helpful?

  1. MATH-碎碎念

Entropy

PrevioussamplingNextvariational inference

Last updated 5 years ago

Was this helpful?

Visual Information Theory

[译]直观理解信息论

从数据压缩和传输角度解释的,对于高频词,以更短的码来编码。

Entropy

自信息量(香农信息量)

I(xi)=log⁡1P(xi)=−log⁡P(xi)I(x_i) = \log \frac {1} {P(x_i)} = -\log P(x_i)I(xi​)=logP(xi​)1​=−logP(xi​)

在信息论里面对数log默认都是指以2为底数。即熵的单位是比特。

倘若底数不是2,可以通过换底公式 换成已2为底数,然后乘上一个倍数就行了。 log⁡ab=log⁡cblog⁡ca\log_a b = \frac {\log_c b}{\log_c a}loga​b=logc​alogc​b​

联合自信息量

I(xi,yi)=−log⁡P(xi,yi)I(x_i,y_i) = -\log P(x_i,y_i)I(xi​,yi​)=−logP(xi​,yi​)

条件自信息量

I(xi∣yi)=−log⁡P(xi∣yi)I(x_i|y_i) = -\log P(x_i|y_i)I(xi​∣yi​)=−logP(xi​∣yi​)

看这张图,想要的量都可以推导出来。

信息熵 Entropy

熵的定义为信息的期望值。某个事件用随机变量X表示,则该事件的信息熵定义为:

H(X)=E(I(X))=∑i=1nP(xi)I(xi)=−∑i=1nP(xi)log⁡2⁡P(xi)H(X)=−∫abf(x)ln⁡f(x)dx,f(x)表示相对概率密度函数\begin{align} H(X) & = E(I(X)) = \sum_{i=1}^n P(x_i)I(x_i) = -\sum_{i=1}^n P(x_i) \log_2 ⁡P(x_i )\\ H(X) & = -\int_a^b f(x)\ln f(x)dx , f(x) \text{表示相对概率密度函数} \end{align}H(X)H(X)​=E(I(X))=i=1∑n​P(xi​)I(xi​)=−i=1∑n​P(xi​)log2​⁡P(xi​)=−∫ab​f(x)lnf(x)dx,f(x)表示相对概率密度函数​​

熵是对不确定性的测量。所以概率越平均,则熵越大。越不平均,某一事件发生的概率非常大,则不确定性小,熵值小。

联合熵 joint Entropy

联合熵:联合信息的数学期望,二维随机变量XY的不确定性的度量。

两个随机变量X和Y联合分布为p(x,y),则联合信息熵:

H(X,Y)=−∑x∑yp(x,y)log⁡⁡p(x,y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y) = -\sum_x \sum_y p(x,y)\log ⁡p(x,y) = H(X) + H(Y|X) = H(Y) + H(X|Y)H(X,Y)=−x∑​y∑​p(x,y)log⁡p(x,y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)

可以看出信息增益。 特性:

  • 大于子系统的熵:H(X,Y)≥max⁡[H(X),H(Y)]H(X,Y) \ge \max [H(X),H(Y)]H(X,Y)≥max[H(X),H(Y)]

  • 子可加性:H(X,Y)≤H(X)+H(Y)H(X,Y) \le H(X) + H(Y)H(X,Y)≤H(X)+H(Y)

  • 非负性:H(X,Y)≥0H(X,Y) \ge 0H(X,Y)≥0

条件熵 Conditional Entropy

条件熵:表示已知X时,Y的平均不确定性。

H(Y∣X)=∑xp(x)H(Y∣X=x)=−∑xp(x)∑yp(y∣x)log⁡p(y∣x)=−∑x∑yp(x)p(y∣x)log⁡p(y∣x)=−∑x∑yp(x,y)log⁡p(y∣x)或者H(Y∣X)=−∑xyp(x,y)log⁡p(y∣x)H(Y∣X)=−∫∫f(x)f(y∣x)log⁡f(y∣x)dxdyH(Y|X) = \sum_x p(x)H(Y|X=x) \\ =-\sum_x p(x)\sum_y p(y|x)\log p(y|x) \\ =-\sum_x \sum_y p(x)p(y|x)\log p(y|x) \\ =-\sum_x \sum_y p(x,y)\log p(y|x) \\ \text{或者} H(Y|X) = -\sum_{xy} p(x,y)\log p(y|x) \\ H(Y|X) = - \int \int f(x)f(y|x) \log f(y|x) \mathrm{d}x \mathrm{d}yH(Y∣X)=x∑​p(x)H(Y∣X=x)=−x∑​p(x)y∑​p(y∣x)logp(y∣x)=−x∑​y∑​p(x)p(y∣x)logp(y∣x)=−x∑​y∑​p(x,y)logp(y∣x)或者H(Y∣X)=−xy∑​p(x,y)logp(y∣x)H(Y∣X)=−∫∫f(x)f(y∣x)logf(y∣x)dxdy

可以证明H(Y)≥H(Y∣X)H(Y) \ge H(Y|X)H(Y)≥H(Y∣X),也就是说,多了X信息,Y的不确定性下降了。

同理: H(Z∣Y,X)=−∑xyzp(x,y,z)log⁡p(z∣y,x)H(Z|Y,X) = -\sum_{xyz} p(x,y,z)\log p(z|y,x)H(Z∣Y,X)=−∑xyz​p(x,y,z)logp(z∣y,x),可以证明H(Z∣Y)≥H(Z∣Y,X)H(Z|Y) \ge H(Z|Y,X)H(Z∣Y)≥H(Z∣Y,X)。就是说,三元模型比二元模型好。

信息增益

信息增益,是一种衡量样本特征重要性的方法。 特征A对训练数据集D的信息增益g(D,A) ,定义为集合D的经验熵H(D)与特征A在给定条件下D的经验条件熵H(D|A)之差,即

g(D,A)=H(D)−H(D∣A)g(D,A) = H(D) - H(D|A)g(D,A)=H(D)−H(D∣A)

一般地熵H(Y)与条件熵H(Y|X)之差称为互信息(mutual information)。 互信息定义: I(X,Y)=∑x,yp(x,y)log⁡p(x,y)p(x)p(y)I(X,Y) = \sum_{x,y} p(x,y)\log \frac {p(x,y)}{p(x)p(y)}I(X,Y)=∑x,y​p(x,y)logp(x)p(y)p(x,y)​,所以 I(X,Y)=H(X)−H(X∣Y)=I(Y,X)=H(Y)−H(Y∣X)I(X,Y) = H(X)-H(X|Y) = I(Y,X) = H(Y)-H(Y|X)I(X,Y)=H(X)−H(X∣Y)=I(Y,X)=H(Y)−H(Y∣X)

信息增益比

gR(D,A)=g(D,A)H(D)g_R(D,A) = \frac {g(D,A)}{H(D)}gR​(D,A)=H(D)g(D,A)​

互信息Mutual Informantion

yiy_iyi​对xix_ixi​的互信息定义为后验概率与先验概率比值的对数:

I(xi,yi)=log⁡p(xi∣yi)p(xi)=I(xi)−I(xi∣yi)I(x_i,y_i) = \log \frac {p(x_i|y_i)}{p(x_i)} = I(x_i) - I(x_i|y_i)I(xi​,yi​)=logp(xi​)p(xi​∣yi​)​=I(xi​)−I(xi​∣yi​)

互信息越大,表明yiy_iyi​对于确定xix_ixi​的取值的贡献度越大。

H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)MI(X,Y)=H(X)–H(X∣Y)=H(Y)–H(Y∣X)H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) \\ MI(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)MI(X,Y)=H(X)–H(X∣Y)=H(Y)–H(Y∣X)

互信息与相关性关系:当相关性为+/-1时,互信息趋于无穷;当相关性为0时,互信息为0。

相对熵 KL散度

相对熵(KL-Divergence KL散度): 用来描述两个概率分布P和Q差异的一种方法。 它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。 有人将KL散度称为KL距离,但事实上,KL散度并不满足距离的概念,因为:1)KL散度不是对称的;2)KL散度不满足三角不等式。

对于两个完全相同的分布,他们的相对熵为0。

如实际分布函数P(x),我们估计的分布函数Q(x)。KL(P||Q) 就是函数P和函数Q之间的相似度成反比,因此可以通过最小化相对熵来使函数Q逼近函数P,也就是使得我们估计的函数Q接近真实的分布函数。

定义: KL(f(x)∣∣g(x))=∑xf(x)⋅log⁡f(x)g(x)KL(f(x)||g(x)) = \sum_x f(x) \cdot \log \frac {f(x)}{g(x)}KL(f(x)∣∣g(x))=∑x​f(x)⋅logg(x)f(x)​

DKL(p∣∣q)=∑x∈Xp(x)log⁡p(x)q(x)=∑x∈Xp(x)log⁡p(x)–∑x∈Xp(x)log⁡q(x)=H(X,p,q)–H(X,p)=H(p,q)–H(p)简写\begin{align} D_{KL}(p || q) &= \sum_{x \in X}{p(x) \log{\frac{p(x)}{q(x)} }} \\ &= \sum_{x \in X}{p(x) \log{p(x)}} – \sum_{x \in X}{p(x) \log{q(x)} } \\ &= H(X,p,q) – H(X,p) \\ &= H(p,q) – H(p) \qquad \text{简写} \\ \end{align}DKL​(p∣∣q)​=x∈X∑​p(x)logq(x)p(x)​=x∈X∑​p(x)logp(x)–x∈X∑​p(x)logq(x)=H(X,p,q)–H(X,p)=H(p,q)–H(p)简写​​

就是用Q代替P,带来的信息损失。

交叉熵 cross entropy

设随机变量x的真实分布为P,用Q分布来近似P,则随机变量x的交叉熵定义为:

H(X,p,q)=Ep[−log⁡q]=–∑x∈Xp(x)log⁡q(x)H(X,p,q)=−∫Xp(x)log⁡q(x)dxH(X,p,q) = E_p[-\log q] = – \sum_{x \in X}{p(x) \log{q(x)}} \\ H(X,p,q) = -\int_X p(x) \log q(x) dx \\H(X,p,q)=Ep​[−logq]=–x∈X∑​p(x)logq(x)H(X,p,q)=−∫X​p(x)logq(x)dx

形式上可以理解为使用q(x)q(x)q(x)来代替原来p(x)p(x)p(x)的信息量。 当x取值只有两种时,比如二分类的问题, 交叉熵就等于似然估计了。

交叉熵:c=−[yln⁡a+(1−y)ln⁡(1−a)]c= - [y \ln a + (1-y)\ln (1-a)]c=−[ylna+(1−y)ln(1−a)]

另外交叉熵与KL距离的关系:

H(p,q)=–∑xp(x)log⁡q(x)=–∑xp(x)log⁡q(x)p(x)p(x)=–∑xp(x)log⁡p(x)–∑xp(x)log⁡q(x)p(x)=H(p)+DKL(p∣∣q)H(p,q) = – \sum_{x}{p(x) \log{q(x)}} = – \sum_{x}{p(x) \log \frac {q(x)}{p(x)} p(x)} =– \sum_{x}{p(x) \log p(x)} – \sum_{x}{p(x) \log \frac {q(x)}{p(x)}} = H(p) + D_{KL}(p||q)H(p,q)=–x∑​p(x)logq(x)=–x∑​p(x)logp(x)q(x)​p(x)=–x∑​p(x)logp(x)–x∑​p(x)logp(x)q(x)​=H(p)+DKL​(p∣∣q)

所以p与q的交叉熵,就是p分布的信息熵和 p与q的KL散度和。

基于期望交叉熵的特征项选择

CE(w)=∑iP(Ci∣w)log⁡P(Ci∣w)P(Ci)CE(w) = \sum_i P(C_i|w) \log \frac {P(C_i|w)}{P(C_i)}CE(w)=i∑​P(Ci​∣w)logP(Ci​)P(Ci​∣w)​

P(Ci∣w)P(C_i|w)P(Ci​∣w)表示在出现词条w时文档属于类别ci的概率。

交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。

参考佳文

如何通俗的解释交叉熵与相对熵?

反作弊基于左右信息熵和互信息的新词挖掘
https://www.zhihu.com/question/41252833
信息论
信息熵是什么?
条件熵 信息增益
特征选择方法之信息增益
第02章:深入浅出ML之Entropy-Based家族
MIFS – parallelized Mutual Information based Feature Selection module
从香农熵到手推KL散度:纵览机器学习中的信息论
详解机器学习中的熵、条件熵、相对熵和交叉熵
机器学习各种熵:从入门到全面掌握
http://colah.github.io/posts/2015-09-Visual-Information/
http://yugnaynehc.github.io/2017/01/02/visual-information-theory/