李梅 李亦农 《信息论基础教程》 课件教案 第二章 信息的度量.ppt_第1页
李梅 李亦农 《信息论基础教程》 课件教案 第二章 信息的度量.ppt_第2页
李梅 李亦农 《信息论基础教程》 课件教案 第二章 信息的度量.ppt_第3页
李梅 李亦农 《信息论基础教程》 课件教案 第二章 信息的度量.ppt_第4页
李梅 李亦农 《信息论基础教程》 课件教案 第二章 信息的度量.ppt_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章:信息的度量,一、自信息和互信息,二、平均自信息,三、平均互信息,第二章:信息的度量,1. 自信息 2. 互信息,一、自信息和互信息,二、平均自信息,三、平均互信息,平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,1. 自信息(量),公理性条件: (1) 如果p(x1) I(x2), I(xi )是 p(xi) 的单调递减函数; (2) 如果p(xi)=0,则I(xi ) ; 如果p(xi)=1,则I(xi ) =0 ; (3)由两个相对独立的事件所提供的信息量,应等于它们分别提供的信息量之和: I(xi yj)=I(xi )+I(yj),平均自信息,平均互信息,自信息和互信

2、息,第二章:信息的度量,1. 自信息(量) (续1),随机事件 的自信息定义为该事件发生概 率的对数的负值: 关于对数底的选取: 以2为底,单位为比特(bit) 以e为底,单位为奈特(nat) 以10为底,单位为哈特莱 (Hartley) 一般都采用以2为底的对数,为了书写简洁,有时把底数2略去不写。,1. 自信息(量) (续2),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,单位之间的换算关系:,1奈特= log2 e 比特=1.443比特 1哈特莱= log210 比特=3.322比特 1 r进制单位 = log2r 比特,自信息可以从两个方面来理解: 自信息是事件发生前,事

3、件发生的不确定性。 自信息表示事件发生后,事件所包含的信息量。,试问四进制、八进制的每一波形所含的信息量是二进制每一波形所含的信息量的多少倍?,1. 自信息(量) (续3),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,1. 自信息(量) (续4),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,例1: 设在甲袋中放入n个不同阻值的电阻,随意取出一个,求当被告知“取出的电阻阻值为 i ”时所获得的信息量。,解:,比特,由于是随意取出一个电阻,所以取出任意阻值的电阻的概率相等:,例2: 在乙袋中放入 个电阻,其中阻值为1 的 1个,2 的2个,n 的 n个,随意取出一个

4、,求被告知“取出的电阻阻值为1 ”和“取出的电阻阻值为n ”时分别获得的信息量。 解:,1. 自信息(量) (续5),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,1. 自信息(量) (续6),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,1. 自信息(量) (续7),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,例3:设在A袋放入n个不同阻值的电阻,随意取出一个,求当被告知“取出的电阻阻值为i”时所获得的信息量。 在B袋中放入m种不同功率的电阻,任意取出一个,求被告知“取出的电阻功率为j ”时获得的信息量。 在C袋中放入n种不同阻值,而每种阻值又有m

5、种不同功率的电阻,即共有nm个电阻,随意选取一个,被告知“取出的电阻阻值为i,功率为j”时获得的信息量。,1. 自信息(量) (续8),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,I(xi)= logp(xi )=log n 比特 I(yj)= logp(yj )=log m 比特 I(xi yj)= logp(xi yj ) =log (n m) = I(xi) + I(yj)比特,解:对应A,B,C三袋,随意取出一个电阻事件的概率分别为:,因此,1. 自信息(量) (续9),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,例4:设在一正方形棋盘上共有64个方格,

6、如果甲将一粒棋子随意的放在棋盘中的某方格且让乙猜测棋子所在位置。 (1)将方格按顺序编号,令乙猜测棋子所在的顺序号。问猜测的难易程度。 (2)将方格按行和列编号,甲将棋子所在方格的列编号告诉乙之后,再令乙猜测棋子所在行的位置。问猜测的难易程度。,解: p(xi yj )=1/64 i=1,2,8; j= 1,2,8 (1) I(xi yj)= logp(xi yj )= 6 比特 (2) I(xi | yj)= logp(xi | yj ) = logp(xi yj )/ p(yj )=3 比特 I(xi ) = logp(xi)= 3 比特 I(yj) = 3 比特,1. 自信息(量) (续

7、10),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,2. 互信息(量),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,设X为信源发出的离散消息集合;Y为信宿收到的离散消息集合; 信源发出的消息,经过有噪声的信道传递到信宿;,X,Y,2. 互信息(量) (续1),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,X,Y,xi,xi,无噪,I(xi),p(xi),p(xi|yj ),I(xi),yj,I(xi;yj) =I (xi) I(xi|yj ),先验概率:信源发出消息 的概率 。 后验概率:信宿收到消息 后推测信源发出 的概率,即条件概率 。,2.

8、互信息(量) (续2),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,互信息定义为: 互信息有两方面的含义: 表示事件 出现前后关于事件 的不确定性减少的量; 事件 出现以后信宿获得的关于事件 的信息量。,2. 互信息(量) (续3),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,讨论:,(3) p(xi|yj)=1,(2) 若 p(xi) p(xi|yj) 则,I(xi ; yj)0,(1) 统计独立 p(xi|yj)=p(xi), I(xi|yj) =I (xi),I(xi ; yj)= 0,若 p(xi) p(xi|yj) 则,I(xi ; yj)0,I(xi

9、;yj)=logp(xi|yj)logp(xi)=I (xi) I(xi|yj),2. 互信息(量) (续4),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,例5:某地二月份天气构成的信源为 某一天有人告诉你:“今天不是晴天”,把这句话作为收到的消息y1,求当收到y1后, y1与各种天气的互信息量。 解:,2. 互信息(量) (续5),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,2. 互信息(量) (续6),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,观察者站在输出端 I(xi;yj)=logp(xi|yj)logp(xi)=I (xi) I(xi

10、|yj) :对 yj 一无所知的情况下 xi 存在的不确定度; :收到 yj 后 xi 仍然存在的不确定度; 互信息:收到 yj 前和收到 yj 后不确定度被消除的部分。,2. 互信息(量) (续7),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,观察者站在输入端 I(yj; xi)=logp(yj | xi)logp(yj)=I (yj) I(yj | xi) 观察者得知输入端发出 xi 前、后对输出端出现 yj 的不确定度的差。,I(yj; xi)= I(xi;yj) ?,平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,观察者站在通信系统总体立场上 互信息等于通信

11、前后不确定度的差值,通信前:X和Y之间没有任何关系,即X、Y统计独立, p(xi yj)=p(xi)p(yj), 先验不确定度为 通信后:p(xi yj)=p(xi)p(yj |xi )= p(yj)p(xi |yj),后验不确定度,2. 互信息(量) (续8),2. 互信息(量) (续9),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,1) 互信息的对称性 2) 互信息可为正值、负值,或为0 3) 任何两个事件之间的互信息不可能大于其中任一事件的自信息,互信息量的性质,2. 互信息(量) (续10),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,用公式表示为: 互

12、信息的对称性表明: 从yj得到的关于xi的信息量 与从xi 得到的关于 yj的信息量 是一样的,只是观察的角度不同而已。,1) 互信息的对称性,2. 互信息(量) (续11),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,当后验概率大于先验概率时,互信息为正。 说明事件yj的出现有助于消除事件xi的不确定度。 当后验概率小于先验概率时,互信息为负。 说明收信者未收到 yj 以前,对消息xi是否出现的猜测难度较小,但接收到消息 yj 后对 xi 是否出现的猜测的难度增加了,也就是收信者接收到消息 yj 后对 xi出现的不确定性反而增加,所以获得的信息量为负值。 当后验概率与先验概率

13、相等时,互信息为零。 这就是两个随机事件相互独立的情况。表明xi和yj之间不存在统计约束关系,从yj得不到关于xi的任何信息,反之亦然。,2) 互信息可正可负,可为零,3) 任何两个事件之间的互信息不可能大于其中任一事件的自信息,2. 互信息(量) (续12),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,例6:居住某地区的女孩中有25%是大学生,在女大学生中有75%是身高1.6m以上的,而女孩中身高1.6m以上的占总数一半。假如我们得知“身高1.6m以上的某女孩是大学生”的消息,问获得多少信息量?,2. 互信息(量) (续13),平均自信息,平均互信息,自信息和互信息,第二章:

14、信息的度量,2. 互信息(量) (续14),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,解:x =某女孩是大学生;y =某女孩身高1米6以上。则有 “身高1米6以上的某女孩是女大学生”为事件,2. 互信息(量) (续15),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,例7:已知信源发出 和 两种消息,且 。此消息在二进制对称信道上传输,信道传输特性为 。 求互信息量 和 。,2. 互信息(量) (续16),平均自信息,平均互信息,自信息和互信息,第二章:信息的度量,解:由已知,可得,2. 互信息(量) (续17),平均自信息,平均互信息,自信息和互信息,第二章:

15、信息的度量,第二章:信息的度量,一、自信息和互信息,二、平均自信息,三、平均互信息,1. 平均自信息的概念 2. 熵函数的性质 3. 联合熵与条件熵,1. 平均自信息的概念,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,平均自信息(信息熵/信源熵/香农熵/无条件熵/熵函数/熵):,自信息是一个随机变量: 自信息是指信源发出的某一消息所含有的信息量。不同的消息,它们所含有的信息量也就不同。,自信息和互信息,平均互信息,平均自信息,第二章:信息的统计度量,信息熵的单位,取决于对数选取的底: 以2为底,单位为比特/符号 以e为底,单位为奈特/符号 以10为底,单位为哈特莱/符号。,信息

16、熵的意义: 信源的信息熵是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其信息熵也不同。,1. 平均自信息的概念(续1),1. 平均自信息的概念(续2),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,通常把一个随机变量的样本空间和样本空间中的元素对应的概率称为概率空间。,离散随机变量 的概率空间为:,1. 平均自信息的概念(续3),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,例1 掷一个六面均匀的骰子,每次出现朝上一面的点数是随机的,以朝上一面的点数作为随机试验的结果,并把试验结

17、果看作一个信源的输出,试建立数学模型。,信源的输出:离散随机变量X,X:1,2,3,4,5,6 样本空间,P(X):P(X=1)=1/6,P(X=2)=1/6, P(X=6)= 1/6,解:,概率空间,1. 平均自信息的概念(续4),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,例2:一信源有6种输出符号,概率分别为P(A)=0.5, P(B)=0.25,P(C)=0.125,P(D)=P(E)=0.05, P(F)=0.025。 1)计算H(X)。 2)求符号序列ABABBA和FDDFDF的信息量,并将之与6位符号的信息量期望值相比较。,解: 1)由信息熵定义,该信源输出的信息

18、熵为,1. 平均自信息的概念(续5),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,1. 平均自信息的概念(续6),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,符号序列FDDFDF所含的信息量为 6位符号序列的信息量平均值为,符号序列ABABBA所含的信息量为,三者比较为,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质,离散随机变量X的概率空间为,记 pi=p(xi),则,由于概率的完备性,即 ,所以 实际上是 元函数。,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续1),当 n=2 时,,自信息

19、和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续2),熵函数的数学特性包括: (1)对称性 (2)确定性 (3)非负性 (4)扩展性 (5)连续性 (6)递增性 (7)上凸性 (8)极值性,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续3),当概率矢量 中各分量的次序任意变更时,熵函数的值不变,即 H(p1,p2,pn) = H(p2,p1,pn) =H(p3,p1,p2) = 该性质说明:熵只与随机变量(信源)的总体统计特性有关。如果某些信源的统计特性相同(含有的符号数和概率分布相同),那么这些信源的熵就相同。,(1)对称性,自

20、信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续4),例3: 三个信源分别为:, X与Z信源的差别: 具体消息其含义不同; X与Y信源的差别: 同一消息的概率不同; 但它们的信息熵是相同的。,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续5),H(1,0)=H(1,0,0)=H(1,0,0,0)=H(1,0, ,0)=0,在概率空间中,只要有一个事件是必然事件,那么其它事件一定是不可能事件,因此信源没有不确定性,熵必为0。,(2)确定性,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续6),只

21、有当随机变量是一确知量时,熵H(X)=0。 离散信源的熵满足非负性,而连续信源的熵可能为负。,(3)非负性,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续7),扩展性说明,增加一个概率接近于零的事件,信源熵保持不变。 虽然小概率事件出现后,给予收信者较多的信息,但从总体来考虑时,因为这种概率很小的事件几乎不会出现,所以它对于离散集的熵的贡献可以忽略不计。这也是熵的总体平均性的一种体现。,(4)扩展性,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续8),(5)连续性,(6)递增性(递推性),自信息和互信息,平均互信息,平均自

22、信息,第二章:信息的度量,2. 熵函数的性质(续9),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续10),例4 :利用递推性计算熵函数 H(1/3,1/3,1/6,1/6)的值。,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续11),例4 :利用递推性计算熵函数 H(1/3,1/3,1/6,1/6)的值。,解:,bit/符号,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续13),凸函数的定义及詹森不等式,(7)上凸性,引理(香农辅助定理): 其中 证明:,自信息和互信息,平均互信息,平

23、均自信息,第二章:信息的度量,2. 熵函数的性质(续14),时等号成立。,可以被看做是一种新的概率分布。,是概率分布 的严格上凸函数,即,证明:,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续15),等号成立条件,但是,所以等号不成立。,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续16),上凸性的几何意义: 在上凸函数的任两点之间画一条割线,函数总在割线的上方. 上凸函数在定义域内的极值必为最大值,这对求最大熵很有用。,f (x),x1,x2,f(x1),f(x2),自信息和互信息,平均互信息,平均自信息,第二章:信息的

24、度量,2. 熵函数的性质(续17),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续18),(8)极值性(最大离散熵定理),定理: 离散无记忆信源输出n个不同的信息符号,当且仅当各个符号出现概率相等时(即 ),熵最大,即,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续19),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续20),例5:,以二进制信源为例,信源的概率空间为 二进制信源的信息熵为 这时信息熵H(X)是p的函数,熵函数H(p)的曲线如图所示:,从图中可以得出熵函数的一些性质: 如

25、果二进制信源的输出是确定的(p=0或p=1),则该信源不提供任何信息; 当二进制信源符号0和1等概率发生时,信源的熵达到最大值,等于1比特/符号; 在等概率的二进制信源输出的二进制数字序列中,每一个二元数字提供1比特的信息量。如果符号不是等概率分布,则每一个二元数字所提供的平均信息量小于1比特。 这也进一步说明了计算机术语中的“比特”与信息量单位“比特”的关系。,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,2. 熵函数的性质(续21),3. 联合熵和条件熵,自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,定义2.4 随机变量X和Y的联合分布为p(xiyj),则这两个

26、随机变量的联合熵定义为: 联合熵表示对于二维随机变量的平均不确定性。,3. 联合熵和条件熵(续1),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,定义2.5 随机变量X和Y的条件熵定义为: 条件熵表示已知一个随机变量时,对另一个随机变量的平均不确定性。,表示在已知 的情况下 ,Y的平均不确定性。 对于不同的 , 是变化的。因此, 是一个随机变量。,3. 联合熵和条件熵(续2),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,3. 联合熵和条件熵(续3),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,例6: 已知 联合概率分布如下,求:H(XY),H(X)

27、, H(Y), H(Y|X), H(X|Y)。,1),解:,3. 联合熵和条件熵(续4),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,3. 联合熵和条件熵(续5),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,H(X)=2.066,2),3),H(Y)=1.856,4),3. 联合熵和条件熵(续6),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,5),3. 联合熵和条件熵(续7),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,3. 联合熵和条件熵(续8),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,各种熵之间的关系,H(

28、XY)=H(X)+H(Y|X)=H(Y)+H(X|Y) H(X|Y)H(X),H(Y|X)H(Y) H(XY)H(X)+H(Y) 若X与Y统计独立,则H(XY)=H(X)+H(Y),可推广到多个随机变量的情况:,3. 联合熵和条件熵(续9),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,引入事件的重量,度量事件的重要性或主观价值。,加权熵定义为:,加权熵,3. 联合熵和条件熵(续10),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,3. 联合熵和条件熵(续11),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,例7:信源 X= A,B,C, 信源 Y=D,E,F,G, 已知条件概率分布和X的概率分布,求联合熵 和条件熵。,3. 联合熵和条件熵(续12),自信息和互信息,平均互信息,平均自信息,第二章:信息的度量,解:,H(XY) = 3.417 H(X) =1.46 H(Y)=1.997 H(Y|X)=1.95 H(X|Y)= H(XY) - H(Y)=1.42,第二章:信息的度量,一、自信息和互信息,二、平均自信息,三、平均互信息,1. 平均互信息的概念 2. 平均互信息的性质 3. 数据处理定理,第二章:信息的度量,1. 平均互信息的概念,X,Y,xi,y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论