Entropy
Last updated
Was this helpful?
Last updated
Was this helpful?
Visual Information Theory
[译]直观理解信息论
从数据压缩和传输角度解释的,对于高频词,以更短的码来编码。
在信息论里面对数log默认都是指以2为底数。即熵的单位是比特。
倘若底数不是2,可以通过换底公式 换成已2为底数,然后乘上一个倍数就行了。
看这张图,想要的量都可以推导出来。
熵的定义为信息的期望值。某个事件用随机变量X表示,则该事件的信息熵定义为:
熵是对不确定性的测量。所以概率越平均,则熵越大。越不平均,某一事件发生的概率非常大,则不确定性小,熵值小。
联合熵:联合信息的数学期望,二维随机变量XY的不确定性的度量。
两个随机变量X和Y联合分布为p(x,y),则联合信息熵:
可以看出信息增益。 特性:
条件熵:表示已知X时,Y的平均不确定性。
信息增益,是一种衡量样本特征重要性的方法。 特征A对训练数据集D的信息增益g(D,A) ,定义为集合D的经验熵H(D)与特征A在给定条件下D的经验条件熵H(D|A)之差,即
信息增益比
互信息与相关性关系:当相关性为+/-1时,互信息趋于无穷;当相关性为0时,互信息为0。
相对熵(KL-Divergence KL散度): 用来描述两个概率分布P和Q差异的一种方法。 它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。 有人将KL散度称为KL距离,但事实上,KL散度并不满足距离的概念,因为:1)KL散度不是对称的;2)KL散度不满足三角不等式。
对于两个完全相同的分布,他们的相对熵为0。
如实际分布函数P(x),我们估计的分布函数Q(x)。KL(P||Q) 就是函数P和函数Q之间的相似度成反比,因此可以通过最小化相对熵来使函数Q逼近函数P,也就是使得我们估计的函数Q接近真实的分布函数。
就是用Q代替P,带来的信息损失。
设随机变量x的真实分布为P,用Q分布来近似P,则随机变量x的交叉熵定义为:
另外交叉熵与KL距离的关系:
所以p与q的交叉熵,就是p分布的信息熵和 p与q的KL散度和。
交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。
参考佳文
大于子系统的熵:
子可加性:
非负性:
可以证明,也就是说,多了X信息,Y的不确定性下降了。
同理: ,可以证明。就是说,三元模型比二元模型好。
一般地熵H(Y)与条件熵H(Y|X)之差称为互信息(mutual information)。 互信息定义: ,所以
对的互信息定义为后验概率与先验概率比值的对数:
互信息越大,表明对于确定的取值的贡献度越大。
定义:
形式上可以理解为使用来代替原来的信息量。 当x取值只有两种时,比如二分类的问题, 交叉熵就等于似然估计了。
交叉熵:
如何通俗的解释交叉熵与相对熵?
表示在出现词条w时文档属于类别ci的概率。