不确定性的量化
熵是一个随机变量不确定性的度量
抛一枚有均匀正反面的硬币,和抛一个均匀六面的骰子,哪一种实验的不确定性更强一点?
对于上述离散型随机事件,可以用离散熵定义其不确定性,对于一个离散型随机变量
设随机变量
为抛一枚均匀的硬币,其中正面朝上用 表示,反面朝上用 表示,于是有: 设随机变量 为抛一个六面均匀的骰子的取值,其中 ,于是有:
我们可以进一步看,一个随机变量的熵越大,意味着不确定性越大,那么就是说,该随机变量包含的信息量越大,回顾上述两个问题的随机变量的熵:
互信息
假设现在存在一个硬币,告知这枚硬币是均匀的,结果当抛掷100次后,记录的结果是:正面朝上90次,反面朝上10次
事件的不确定性是可以变化的
在完全均匀的情况下,这枚硬币抛掷结果的熵
现在我把频率当作概率,重新计算抛掷结果的熵:
对于两个随机变量
经过推导后,我们可以直观地看到
表示为原随机变量 的信息量, 为知道事实 后 的信息量,互信息 则表示为知道事实 后,原来信息量减少了多少。
如果随机变量
相对熵
这玩意又叫KL散度,互熵,交叉熵,鉴别信息
对于两个随机变量之间相差多少,这两个随机变量的分布函数是否相似,它们之间的差距可以量化吗?
相对熵给出了两个分布之间的差异程度的量化,也就是说,相对熵代表了两个分布之间的距离,设
性质
- 尽管相对熵从直观上是度量或者距离函数,但是它并不是一个真正的度量或者距离,不具有对称性,