第5讲随机变量的信息熵
在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。物理学中的熵也称为热熵。信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。香农用信息熵度量一个物理系统内部状态和运动的不确定性。信息熵是信息论的核心和基础概念,具有多种物理意义。香农所创立的信息论是从定义和研究信息熵开始的。这一讲我们学习信息熵的定义和性质。
1信息熵我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。定义11设离散型随机变量X的概率空间为
Xx1Pp1
x2p2
x
p
我们把X的所有取值的自信息的期望称为X的平均自信息量,通常称为信息熵,简称熵(e
tropy),记为HX,即
HXEIXpilog
i1
1比特pi
信息熵也称为香农熵。注意,熵HX是X的概率分布P的函数,因此也记为HP。
定义12信息熵表达式中的对数底可取任何大于等于2的整数r,所得结果称为r进制熵,记为HrX,其单位为“r进制单位”。我们有
1
fHrX
HXlogr
注意,在关于熵的表达式中,我们仍然约定
0log00,0log
信息熵的物理意义:信息熵可从多种不同角度来理解。
x00
(1)HX是随机变量X的取值所能提供的平均信息量。
(2)统计学中用HX表征随机变量X的不确定性,也就是随机性的大小。
例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。
(3)若离散无记忆信源的符号概率分布为P,则HP是该信源的所有无损编码的“平均码长”的极限。令X是离散无记忆信源的符号集,所有长度为
的消息集合为
X
12
M
每个消息i在某个无损编码下的码字为wi,码字长为li比特。假设各消息i出现的概率为pi,则该每条消息的平均码长为
L
pili
i1
M
因此,平均每个信源符号的码长为
L
1Mpili
i1
这个平均每个信源符号的码长称为该编码的平均码长,其r