信息熵的度量
以上两个问题,千百年来都没有人给出很好的答案。直到1948年,香农在其著名论文《通信与数学原理》中提出了“信息熵”的概念,解决了信息的度量问题,量化了信息的作用。
没有信息,任何公式和数字的游戏都不能排除不确定性。这个简单的结论非常重要。几乎所有的自然语言处理、信息和信号处理的应用都是一个消除不确定性的过程。
什么是信息熵?
一条信息的信息量与其不确定性直接相关。
比如我们要了解一个非常非常不确定的事情,就需要知道很多信息。相反,如果你已经对某件事有了更多的了解,你就不需要太多的信息来把它说清楚。
所以从这个角度来说,信息量等于不确定性的量。
概率和信息熵;
例1:比如今天有人告诉你,2019年冬天北京不会再有雾霾。这件事我们很不确定,因为在过去的五年里,北京冬天没有雾霾的日子很少。这时,为了了解这件事,你需要查阅气象资料、专家预测等。这是一个用外部信息消除不确定性的过程。这件事越不确定,你需要的外部信息就越多。这时候信息熵就很大了。
例2:相反,比如今天有人告诉你,2019年冬天,北京将持续雾霾天气。按照之前的认知,这是一个不确定性极小的事件,也就是说,几乎不需要外界信息。此时的信息熵很小。
如果把2019年冬天北京是否有雾霾看作一个随机变量,那么上面的例子说明信息熵的度量取决于概率分布。
信息熵的定义:
?(公式-1)
其中是概率,的单位是。
为什么呢?
假设有两个独立的随机变量,它们同时出现的概率,即联合概率?(公式2)
如果我们人为地想让信息的度量满足加减运算。也就是说,信息A和信息B之和满足:A+B。
?(公式3)
很容易想到对公式的对数运算——1!
?-& gt;??(公式4)
定义,稍微整理一下公式-4得到公式-3。
信息熵的几何理解;
从图1可以看出:
概率越接近0(表示事件极有可能不发生)和概率越接近1(表示事件极有可能发生),信息熵的值越小。
例:今天下雨的概率是p。
第一种情况:当P=0时,表示今天下雨的可能性为0,事件为确定事件。这时,信息熵是:
第二种情况,当P=1时,说明今天下雨的可能性是1,这个事件也是确定事件。这时,信息熵是:
第三种情况:0
定义:
假设和是两个随机变量。我们想知道的是,假设我们知道了随机分布,那么我们就知道了熵:
现在假设我们还知道一部分情况,包括和一起出现的概率以及不同前提下的概率分布。条件熵被定义为:
?(公式5)
案例1:独立时,见图2:
第二种情况:依赖如图3所示:
从图2和图3可以看出:
?(公式6)
换句话说,有了更多的信息,关于它的不确定性就降低了!
什么是互信息?
条件熵告诉我们,当获得的信息与要研究的事物相关时,可以帮助我们消除不确定性。当然,“关系”这个词太模糊了。为了量化这种“关系”的大小,香农在信息论中提出了“互信息”的概念。
定义:
?(公式7)
实际上,互信息是随机事件的熵和条件熵之差:
?(公式8)
从公式-8可以看出,所谓互信息量,就是在知道一个的前提下,为消除另一个的不确定性而提供的信息量。
什么是相对熵?
相对熵和互信息一样,用于度量相关性。与互信息不同,相对熵用于度量两个整数值函数的相似性。
定义:
?(公式9)
-对于两个相同的函数,相对熵为0。
-相对熵越大,函数的微分越大。
-对于概率分布,如果所有值都大于0,相对熵可以度量两个随机分布的差异。
应该指出,相对熵是不对称的:
?(公式-10)
为了消除不对称性,詹森和香农提出了一种新的计算方法:
?(公式-11)