第讲联合熵与条件熵_第1页
第讲联合熵与条件熵_第2页
第讲联合熵与条件熵_第3页
第讲联合熵与条件熵_第4页
第讲联合熵与条件熵_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 6 讲 联合熵与条件熵信息熵H(X)反映了随机变量X的取值不确定性。当X是常量时,其信息熵最小,等 于0当X有n个取值时,当且仅当这些取值的机会均等时,信息熵H(X)最大,等于log n 比特。我们拓展信息熵H(X)的概念,考虑两个随机变量 X和丫的联合熵H(XY)和条件熵 H(Y|X)。1. 联合熵设X,丫是两个随机变量,则(X,Y)是二维随机变量,简写为XY二维随机变量XY的联合概率分布记为p(xy),即根据信息熵的定义可知,XY的信息熵为定义1.1二维随机变量XY的信息熵H(XY)称为X与丫的联合熵(joint entropy)。它反映了二维随机变量XY的取值不确定性。我们把它理解为

2、X和丫取值的总的不确定性。练习:假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各 50个,乙里面红、蓝色的球分别为 99个和 1 个。试计算 H(XY)我们将联合熵概念推广到任意多离散型随机变量上。定义 1.2 一组随机变量 X1,X2,L ,XN 的联合熵定义为注:为了简化记号,我们有时把 X1X2L Xn记为X",把X1X2L Xn记为xN。物理意义 :(1) H (X1X2L Xn)是这一组随机变量平均每一批取值所传递的信息量(2) 若N-维随机变量X1X2L Xn表示某信源产生的任意一条长度为N的消息,则H(XiX2L Xn)是平均每条长度为 N的消息的信

3、息量。因此,若该信源产生一个长度为N的消息,则在不知道其它条件的情况下,对该消息所含信息量的最优估计为N-维信息熵H(X1X2L Xn)。联合熵的性质:联合熵熵函数的一种特殊形式,所以熵函数的任何数学性质都适用于联合熵,包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。当然,联合熵还有自己的特殊性质。定理 1.4 (联合熵的独立界) H(XiX2L Xn) H(Xi) H(X2)L H(Xn)其中等号成立的充要条件是所有随机变量相互独立。证明:这里仅证明H(XY) H(X) H(Y),一般情形可类似证明。设对于XY的联合分布为p(xy),X和丫的概率分布简记为p(x),p(y)。由于我们

4、有注意,P(x)p(y)构成一个概率分布。应用 信息不等式可得其中等号成立的充要条件是P(xy) p(x)p(y),即X与丫相互独立。证毕2. 条件熵1条件自信息:l(y|x) log - -P(y|x)对于任何取值x,Y|X x是一个带条件的随机变量,其信息熵为再对所有x求熵的平均值可得如下条件熵:定义2.1设X, Y是两个离散型随机变量,联合分布为p(xy)。 X相对于丫的条件熵H;X|Y)定义为条件自信息l(X|Y)的期望,即物理意义:H(X|Y)表示在已知丫取值的前提下,X取值的不确定性,亦即X的每个取值平 均所提供的与丫无关的信息量。定理2.2 (条件熵非负性)对于任何离散型随机变量

5、X与丫,都有H(Y|X) >0,其中等号 成立当且仅当丫是X的函数,即X的取值可确定丫的取值。证明 根据定义由于上述加式中各加项都w 0,所以该加式=0的充要条件是各加项=0,即对于任何x和y, p(y| x)=1或者p(y| x)=0,亦即对于任何x,P(Y| x)是退化分布。这表明当X的取值确定时, 丫 的取值随即确定,即 丫是 X 的函数。证毕 定理2.3 (熵的链法则)对于随机变量序列Xi,X.,和任何N>1简记为其中 H=HXi),H2=H X2|Xi),,HN=H( XN| X1X2 XN-1)证明 :首先根据定义直接可得证毕H(XY)= H(X)+H(Y|X)应用上述

6、等式,对N用归纳法可证明熵的链法则。细节略 意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算 注:链法则与熵的可加性是等价的。思考:列不等式是否成立,其中各等号成立的充要条件是什么?这个性质说明什么?请读者尝试命名该性质。定理2.4 (条件熵递减性)对于任何随机变量X和丫,有F(Y|X) < H(Y)其中等号成立的充要条件是 丫与X相互独立。证明一:根据链法则,H(XY)=H(X)+H(Y|X)再根据联合熵的独立界定理,立刻可得H(Y|X) < H(Y)其中等号成立的充要条件是 X与丫统计独立。证毕在条件熵中,条件越少,熵值越大。相反,条件越多,熵值越小。这可

7、理解为,我们知道 的越多,则事物的不确定性越小。证明二:应用 Jessen 不等式证明。证毕3. 计算公式令 X, 丫为离散的随机变量。公式 1. H (Y | X) H (XY) H(X)公式 2. H (Y | X) P(X)H (P(Y|X)其中P(X)是X的概率分布,为行向量,P(Y|X)是X到丫的条件概率矩阵,H(P(Y|X)是条件概率矩阵中各个行分布P(Y | x)的熵H (Y |x)所组成的列向量。证明:证毕例 3.1 设 P(X) (0.4,0.6)且记号:以后对于任何N,我们将N维随机向量Xi,X.,人简记为X"注:上述条件熵概念可以推广到多个随机变量熵,例如HYI

8、XX Xn)是在已知随机向量Xi,X2,Xn取值的前提下,随机变量丫的不确定性,亦即丫的每个取值 可以提供的与Xi,人,Xn取值无关的新信息量。练习3.2设p(xy)如下表所示X01试计算01/30(1)H(XY)11/31/3H(X), H(Y)H(X|Y), H(Y|X)练习3.3已知平均100人中有2人患有某种疾病,为了查明病情,必须进行某项指标的化 验。这种化验的结果对于有病的人总是阳性的,对于健康的人来说有一半可能为阳性、一 半可能为阴性。若X表示一个人是否罹患这种疾病,丫表示其化验结果是否为阳性,试计算 H(XY)。作业51. 范九伦等所着教材第38页习题(三)设X和Y的联合分布X

9、0101/21/811/81/4算u(x, y)由下表给出:H(X),H (Y),H (XY),H(Y|X),H(X|Y),I(X;Y)2. 设一个信源有6种信号,先后输出的信号是独立同分布的,其概率分布为(1/2, 1/4, 1/8, 1/16, 1/32, 1/32)(1) 该信源输出1个符号所提供的平均信息量。(2) 该信源输出100个符号所提供的平均信息量。3. 在一段时问内,某城市交通的忙闲天数按天气阴晴和气温冷暖进行分类统计如下:(1) 计算交通忙闲状态的无条件熵。(2) 计算天气和气温状态下的条件熵。(3) 计算从天气和气温状态所获得的关于交通状态的信息4. 世界职业棒球锦标赛为 7 场赛制,只要其中一队赢得 4场,比赛就结束。设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论