信息论

不确定性的量化

熵是一个随机变量不确定性的度量

抛一枚有均匀正反面的硬币,和抛一个均匀六面的骰子,哪一种实验的不确定性更强一点?

对于上述离散型随机事件,可以用离散熵定义其不确定性,对于一个离散型随机变量,其离散熵定义为: 其中这个随机变量所能取到的所有元素构成的集合(下文中所有的均代表

设随机变量为抛一枚均匀的硬币,其中正面朝上用表示,反面朝上用表示,于是有: 设随机变量为抛一个六面均匀的骰子的取值,其中,于是有:

我们可以进一步看,一个随机变量的熵越大,意味着不确定性越大,那么就是说,该随机变量包含的信息量越大,回顾上述两个问题的随机变量的熵: 其实意味着,在计算机中,要表示抛硬币的结果,需要用1bit,要表示掷骰子的结果需要用3bit(向上取整) 所以熵其实是随机变量的函数的期望

互信息

假设现在存在一个硬币,告知这枚硬币是均匀的,结果当抛掷100次后,记录的结果是:正面朝上90次,反面朝上10次

事件的不确定性是可以变化的

在完全均匀的情况下,这枚硬币抛掷结果的熵

现在我把频率当作概率,重新计算抛掷结果的熵: 经过100次抛掷后,我们意识到这枚硬币可能是不均匀的,且新的熵为,也就是说我们在知道100次抛掷结果的事实之后,这个硬币的熵缩小了,这个的信息量,我们就称为互信息

对于两个随机变量,如果其联合分布为,边缘分布为,则互信息可以定义为:

经过推导后,我们可以直观地看到表示为原随机变量的信息量,为知道事实的信息量,互信息则表示为知道事实后,原来信息量减少了多少。

如果随机变量独立,那么互信息应该是,从直觉上来说,知道事实并没有减少的信息量

相对熵

这玩意又叫KL散度,互熵,交叉熵,鉴别信息

对于两个随机变量之间相差多少,这两个随机变量的分布函数是否相似,它们之间的差距可以量化吗?

相对熵给出了两个分布之间的差异程度的量化,也就是说,相对熵代表了两个分布之间的距离,设是随机变量的两个概率分布,那么的相对熵定义为:

性质

  • 尽管相对熵从直观上是度量或者距离函数,但是它并不是一个真正的度量或者距离,不具有对称性,