信息论与编码理论基础 (第二章 )ppt课件_第1页
信息论与编码理论基础 (第二章 )ppt课件_第2页
信息论与编码理论基础 (第二章 )ppt课件_第3页
信息论与编码理论基础 (第二章 )ppt课件_第4页
信息论与编码理论基础 (第二章 )ppt课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息量和熵,2.1 离散型随机变量的非平均信息量(事件的信息量) 2.2 离散型随机变量的平均自信息量(熵) 2.4 离散型随机变量的平均互信息量 2.5 连续型随机变量的平均互信息量和微分熵 2.6 凸函数与(离散型随机变量的)平均互信息量凸性,1,PPT学习交流,2.1 离散型随机变量的非平均信息量 (事件的信息量),2,PPT学习交流,非平均互信息量,例2.1.1,3,PPT学习交流,非平均互信息量,4,PPT学习交流,直观认识,对观察者来说,同样观察事件011,但输入消息等概情况下“收获”要大些,即得到的“信息”要多些。 越是不太可能发生的事件竟然发生了,越是令人震惊。获得的“信息”要

2、多些。,5,PPT学习交流,非平均互信息量,例2.1.2,6,PPT学习交流,直观认识,在接收010的过程中,消息出现的可能性,即后验概率也在不断变化,但变化趋势不再像例2.1.1 那样单调地变化,而是有起伏的,且最后并未达到1或0. 观察到010之后不能断定是哪个消息出现了。但是由观察结果计算出来的某个消息出现的后验概率大于1/2或小于1/2,使我们可比未观察前较有把握地推断消息出现的可能性,因而多少得到了一些有关出现的“信息”。 若p1/2,也即010是消息x1的输出可能性大。,7,PPT学习交流,直观认识,从上述两个系统可以看出,在一个系统中我们所关心的输入是哪个消息的问题,只与事件出现

3、的先验概率和经过观察后事件出现的后验概率有关。 信息应当是先验概率和后验概率的函数,即 I(xk;yj)=f Q(xk),P(xk|yj),8,PPT学习交流,研究表明 信息量就表示成为事件的后验概率与事件的先验概率之比的对数函数!,9,PPT学习交流,非平均互信息量,(本章将给出各种信息量的定义和它们的性质。) 定义2.1.1(非平均互信息量) 给定一个二维离散型随机变量 因此就给定了两个离散型随机变量 事件xkX与事件yjY的互信息量定义为,10,PPT学习交流,非平均互信息量直观认识,若信源发某符号xi, 由于信道中噪声的随机干扰,收信者收到的是xi的某种变形yj,收信者收到yj后,从y

4、j中获取xi的信息量用I( xi ; yj )表示,则有 I( xi ; yj )=收到yj 前,收信者对信源发xi 的不确定性 -收到yj 后,收信者对信源发xi仍然存在 的 不确定性 =收信者收到yj 前后,收信者对信源发xi 的 不确定性的消除,11,PPT学习交流,非平均互信息量性质,其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。 互信息量的性质: (1)I(xk; yj)=loga(rkj/(qkwj)。因此有对称性: I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时, I(xk; yj)=0。即当(rkj/qk)=wj时,I(

5、xk; yj)=0。 又即当(rkj/wj)=qk时,I(xk; yj)=0。 换句话说,当“X=xk”与“Y= yj”这两个事件相互独立时,互信息量为0)。,12,PPT学习交流,非平均互信息量性质,(3)当rkjqkwj时 I(xk; yj)0,当rkj wj时,I(xk; yj)0; 当(rkj/qk) wj时,I(xk; yj)0。 换句话说, 当“X=xk”与“Y= yj”这两个事件相互肯定时,互信息量为正值; 当“X=xk”与“Y= yj”这两个事件相互否定时,互信息量为负值。,13,PPT学习交流,条件互信息和联合事件互信息,三个事件集的条件互信息定义(定义2.1.2)为 可以推

6、广到任意有限多个空间情况,14,PPT学习交流,互信息的可加性,系统,u1,u2,u3,意味着:(u2,u3)联合给出的关于u1的信息量等于u2给出的关于u1的信息量与u2已知条件下u3给出的关于u1的信息量之和。,15,PPT学习交流,非平均自信息量,定义2.1.3(非平均自信息量) 给定一个离散型随机变量X, xk, qk, k=1K。 事件xkX的自信息量定义为 I(xk)=loga(1/qk), 其中底数a是大于1的常数。,16,PPT学习交流,自信息量的性质: (1)非负性. I(xk)0 (2)单调性. qk越小,I(xk)越大 (3)I(xk; yj) minI(xk),I(yj

7、) 即互信息量不超过各自的自信息量。 证明 注意到总有rkjminqk, j。(why?什么情况下相等?) 因此根据定义, I(xk; yj)I(xk),I(xk; yj)I(yj)。,非平均自信息量,17,PPT学习交流,非平均自信息量的直观认识,若信源发某符号xi,没有信道中噪声的随机干扰,收信者收到的yj就是xi本身。收信者收到yj= xi后,当然就完全消除了对信源发符号xi的不确定性,即 收到yj = xi 后,收信者对信源发xi仍然存在的不确定性=0 I( xi ; xi )=收到xi前,收信者对信源发xi 的不确定性 = I( xi ),18,PPT学习交流,19,PPT学习交流,

8、20,PPT学习交流,21,PPT学习交流,条件的非平均自信息量,定义2.1.4(条件的非平均自信息量) 给定一个二维离散型随机变量 (X, Y), (xk, yj), rkj, k=1K; j=1J 在事件yj发生的条件下事件xk的条件自信息量定义为 I(xk|yj)=loga(1/P(X=xk|Y=yj) =loga(wj/rkj),22,PPT学习交流,条件的非平均自信息量,条件的非平均自信息量实际上是非平均自信息量的简单推广,只不过将概率换成了条件概率。 条件的非平均自信息量的特殊性质: I(xk|yj)=I(xk)-I(xk; yj),23,PPT学习交流,联合的非平均自信息量,定义

9、2.1.5(联合的非平均自信息量) 给定一个二维离散型随机变量 (X, Y), (xk, yj), rkj, k=1K; j=1J 事件(xk, yj)(X, Y)的自信息量定义为 I(xk, yj)=loga(1/rkj),24,PPT学习交流,联合的非平均自信息量,联合的非平均自信息量实际上是非平均自信息量的简单推广。即可以将(X, Y)直接看成是一维的随机变量。 联合的非平均自信息量的特殊性质: I(xk, yj)=I(yj)+I(xk|yj) =I(xk)+I(yj|xk) I(xk, yj)=I(xk)+I(yj)-I(xk; yj)。,25,PPT学习交流,非平均信息量(事件的信息

10、量),小结 非平均互信息量I(xk; yj) 非平均自信息量I(xk),I(yj) 条件的非平均自信息量I(xk|yj), I (yj|xk) 联合的非平均自信息量I (xk, yj),26,PPT学习交流,非平均信息量(事件的信息量),相互关系: I(xk; yj) min I(xk),I (yj) I(xk; yj) = I(xk)-I(xk|yj) I(xk, yj) = I (yj)+I (xk|yj) = I (xk)+I (yj|xk) I(xk, yj) = I (xk)+I (yj)-I(xk; yj),27,PPT学习交流,联合自信息、条件自信息和互信息,28,PPT学习交流

11、,2.2 离散型随机变量的平均自信息量熵,29,PPT学习交流,自信息量的不足,信息函数 I(xk) 破天荒地使信息度量成为可能,是信息度量的有力工具, 但在信息度量方面仍然存在某些不足.,30,PPT学习交流,自信息量的不足,信源发符号xk不是确定事件,是以p(xk)为概率的随机事件,相应的自信息量I(xk)也是一个以p(xk)为概率的随机性的量,显然,用一个随机性的量来度量信息是不方便的. 信息函数I(xk)只能表示信源发某一特定的具体符号xk所提供的信息量. 不同的符号由不同的自信息量. 所以它不足以作为整个信源的总体信息测度. 据此,在信息函数I(xk)的基础上,构架一个确定的量,作为

12、信源的总体信息测度,就成为我们面临的一个重要课题.,31,PPT学习交流,统计平均值,能作为信源总体信息测度的确定的量,应是信源X可能发出的各种不同符号xk(k=1,2,K)含有的自信息量I(xk)(k=1,2, K),在信源的概率空间 p(x1), p(x2), ,p(xK) 中的统计平均值H(X).,32,PPT学习交流,平均自信息量熵,定义2.2.1(平均自信息量熵) 离散型随机变量X, xk, qk, k=1K的平均自信息量(又称为熵)定义为 其中底数a是大于1的常数。,33,PPT学习交流,平均自信息量(信息)熵,集X的平均自信息量表示集X中事件出现的平均不确定性,即为了确定 集X中

13、出现一个事件平均所需的信息量(观测之前),或 集X中每出现一事件平均给出的信息量(观测之后)。,34,PPT学习交流,信息熵与热熵,信息熵和统计热力学中定义的热熵在形式上完全相同。 在热力学中, X表示系统所有可能的状态,p(x)表示某一个特定状态x出现的概率。热熵H(X)描述了系统的“无规则”的程度,即在某一给定时刻一个系统可能出现的有关状态的“不确定”的程度。,35,PPT学习交流,例子,36,PPT学习交流,37,PPT学习交流,38,PPT学习交流,平均自信息量熵,注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期

14、望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为,39,PPT学习交流,平均自信息量熵,例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p 则X 的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p) 观察H(X),它是p的函数,图2.2.1给出了函数图象.,40,PPT学习交流,图2.2.1,H(X) 1.0 0.5 0 0.5 1 P,41,PPT学习交流,平均自信息量熵,该图象具有某种对称性: 当p=

15、0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0) 当00。p越靠近1/2, H(X)越大。 (X是真正的随机变量时,总有正的熵。随机性越大,熵越大) 当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特),42,PPT学习交流,平均自信息量熵,43,PPT学习交流,平均自信息量熵,44,PPT学习交流,平均自信息量熵,45,PPT学习交流,平均自信息量熵,46,PPT学习交流,平均自信息量熵,47,PPT学习交流,平均自信息量熵,48,PPT学习交流,平均自信息量熵,49,PPT学习交流,条件平均自信息量(条件熵),条件非平

16、均自信息量 是集 上的随机变量 由此可类似给出条件平均自信息量 称做是给定 条件下,集 的条件熵 同时, 又可以看作是集 上的随机变量,继续求统计平均/期望,50,PPT学习交流,条件平均自信息量条件熵,定义2.2.2(条件熵) 给定一个二维离散型随机变量 (X, Y), (xk, yj), rkj,=p(xk,yj) k=1K; j=1J, 称如下定义的H(X|Y)为X相对于Y的条件熵,51,PPT学习交流,联合的非平均自信息量,给定一个二维离散型随机变量 (X, Y), (xk, yj), rkj= p(xk, yj ),k=1K; j=1J 事件(xk, yj)(X, Y)的自信息量 I

17、(xk, yj)= -log p(xk, yj ) 求其统计平均或数学期望,52,PPT学习交流,联合的平均自信息量联合熵,定义2.2.3(联合熵) 二维离散型随机变量 (X, Y), (xk, yj), rkj= p(xk, yj ), k=1K; j=1J 的联合熵定义为,53,PPT学习交流,各熵之间的关系,熵、条件熵、联合熵之间的关系: (1) H(X,Y) =H(X)+H(Y|X) =H(Y)+H(X|Y) (由定义容易证明) (2) 当 X与 Y相互独立时, H(Y|X)=H(Y), H(X|Y)=H(X) 此时也有 H(X,Y)=H(X)+H(Y)。,54,PPT学习交流,各熵之

18、间的关系,证明 (2),55,PPT学习交流,熵的性质,对于随机变量X, xk, qk, k=1K的熵 H(X)=kqkloga(1/qk), 有以下的性质。 1、 H(X)与事件xk, k=1K的具体形式无关,仅仅依赖于概率向量qk, k=1K。 而且H(X)与概率向量qk, k=1K的分量排列顺序无关。 2、H(X)0。完全同理,H(X|Y)0;H(Y|X)0;H(X,Y)0。,56,PPT学习交流,熵的性质,3、确定性:当概率向量qk, k=1K的一个分量为1时(此时其它分量均为0),H(X)=0。(这就是说,当随机变量X实际上是个常量时,不含有任何信息量)。,57,PPT学习交流,2.

19、2 离散型随机变量的平均自信息量(熵),4、可忽略性:当随机变量X的某个事件的概率很小时,该事件对熵的贡献可以忽略不计。(虽然小概率事件的自信息量很大。这是因为当qk0时,qkloga(1/qk)0)。 5、可加性: H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。 因此,H(X,Y)H(X); H(X,Y)H(Y)。 (性质5有一个隐含的结论:设X的概率向量为 q1, q2, , qK, Y的概率向量为 q1, q2, , qK-2, qK-1+qK, 其中qK-1qK0,则H(X) H(Y)。 ),58,PPT学习交流,2.2 离散型随机变量的平均自信息量(熵),6、极值性:

20、H(X)logaK。当q1=q2=qK=1/K时,才有 H(X)=logaK。 (以下是极值性的证明过程) 引理1 对任何x0总有lnxx-1。 证明 令f(x)=lnx-(x-1),则f (x)=1/x-1。因此 当00;当x1时f (x)1时,f(x)的值严格单调减。 注意到f(1)=0。所以对任何x0总有f(x)f(1)=0。得证。,59,PPT学习交流,2.2 离散型随机变量的平均自信息量(熵),引理2 设有两个K维概率向量(什么叫概率向量?每个分量都是非负的,且各分量之和等于1) qk, k=1K和pk, k=1K 。 则总满足,60,PPT学习交流,2.2 离散型随机变量的平均自信

21、息量(熵),证明 注意到引理1,,61,PPT学习交流,2.2 离散型随机变量的平均自信息量(熵),引理2得证。(注意:此证明过程省略了若干细节,比如当概率向量的某个分量为0时,情况比较复杂) 极值性的证明 qk, k=1K是一个K维概率向量。令pk=1/K,k=1K。则pk, k=1K也是一个K维概率向量。由引理2, H(X)=kqkloga(1/qk)kqkloga(1/(1/K)=logaK。 得证。,62,PPT学习交流,2.4 离散型随机变量的平均互信息量,63,PPT学习交流,2.4 离散型随机变量的平均互信息量,64,PPT学习交流,2.4 离散型随机变量的平均互信息量,定义2.

22、4.1(平均互信息量) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就给定了两个离散型随机变量X, xk, qk, k=1K和Y, yj, wj, j=1J)。X与Y的平均互信息量定义为如下的I(X; Y):,65,PPT学习交流,注意:事件对(xk, yj)的“非平均互信息量”值为I(xk; yj)。此外,可以定义“半平均互信息量”I(xk; Y)和I(X; yj)。,I(xk; Y)表示事件“X=xk”与随机变量Y之间的半平均互信息量; I(X; yj)表示事件“Y=yj”与随机变量X之间的半平均互信息量。,66,PPT学习交流,2.4

23、 离散型随机变量的平均互信息量,平均互信息量的性质 1、I(X; Y)0。(虽然每个“非平均互信息量” I(xk; yj)未必非负,但平均互信息量I(X; Y)非负) 证明,67,PPT学习交流,2.4 离散型随机变量的平均互信息量,rkj, k=1K; j=1J是一个概率向量: qkwj, k=1K; j=1J是另一个概率向量: 故由引理2知,,68,PPT学习交流,2.4 离散型随机变量的平均互信息量,2、对称性:I(X; Y)=I(Y; X)。 3、平均互信息量的熵表示: I(X; Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)。 证明,69,PPT

24、学习交流,2.4 离散型随机变量的平均互信息量,70,PPT学习交流,2.4 离散型随机变量的平均互信息量,3、若X与Y相互独立,则 I(X; Y)=0, H(X|Y)=H(X), H(Y|X)=H(Y), H(XY)=H(X)+H(Y)。 证明 若X与Y相互独立,则rkj=qkwj, k=1K; j=1J。 因此此时loga(rkj/(qkwj)=0, k=1K; j=1J。 因此I(X; Y)=0。再由性质3,性质3得证。,71,PPT学习交流,2.4 离散型随机变量的平均互信息量,4、I(X; Y)H(X),I(X; Y)H(Y)。 (性质4有多种简单的证明方法。 第一种证明方法:由I(

25、X; Y)的定义, loga(rkj/(qkwj)loga(1/qk)。 第二种证明方法: 由性质3,I(X; Y)=H(X)-H(X|Y)H(X)。) 4、 若X是Y的确定的函数X=g(Y),则 I(X; Y)=H(X)H(Y)。 若Y是X的确定的函数Y=g(X),则 I(X; Y)=H(Y)H(X)。 (证略),72,PPT学习交流,2.4 离散型随机变量的平均互信息量,一般印象 (平均互信息量I(X; Y)的各种性质与我们对“平均互信息量”这个名词的直观理解非常吻合)。 一般情形:总有0I(X; Y)minH(X), H(Y)。 一种极端情形:若X与Y相互独立,则I(X; Y)=0。 另

26、一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X; Y)=minH(X), H(Y)。,73,PPT学习交流,2.4 离散型随机变量的平均互信息量,定理2.4.1(信息处理定理) 对于以下给定的系统串联有: I(X; Y)I(X; Z)。 信息处理定理的含义:串联的系统越多,两端的平均互信息量越小。 信息处理定理的证明思想:注意到X、Z、Y构成了马尔可夫链。简单地说,在已知Z的条件下, X与Y条件独立。根据这种马尔可夫链结构,可以证明I(X; Y)I(X; Z)。 (证略),74,PPT学习交流,2.1 2.4 诸概念直观理解,两个事件的非平均互信息量:互相肯定的程度。 一个事

27、件的非平均自信息量:令人震惊的程度。 一个随机变量的平均自信息量(熵):不可预测的程度。 一个随机变量X相对于另一个随机变量Y的条件熵:当Y的值确定时, X剩余的不可预测的程度。 二维随机变量(XY)的联合熵:联合不可预测的程度。 两个随机变量X与Y的平均互信息量:互相依赖的程度。(当Y的值确定时, X的可预测的程度;当Y的值确定时, 所能够给出的X的信息量 ) (当X的值确定时,Y的可预测的程度;当X的值确定时, 所能够给出的Y的信息量 ) 事件X=x与随机变量Y的半平均互信息量:当X=x时, 所能够给出的Y 的信息量 。,75,PPT学习交流,2.2 和2.4 中的若干公式,76,PPT学

28、习交流,2.5 连续型随机变量的 平均互信息量 和微分熵,77,PPT学习交流,事件互信息量,定义2.5.1 给定二维连续型随机变量(X, Y), p(X,Y)(x, y)(因此就给定了两个连续型随机变量X, pX(x)和Y, pY(y))。事件xX与事件yY的互信息量定义为,78,PPT学习交流,平均互信息量,定义2.5.2 给定二维连续型随机变量(X, Y), p(X,Y)(x, y)(因此就给定了两个连续型随机变量X, pX(x)和Y, pY(y))。 X与Y的平均互信息量定义为,79,PPT学习交流,平均互信息量性质,平均互信息量的性质 1、I(X; Y)0。 2、对称性:I(X; Y

29、)=I(Y; X), 3、信息处理定理:对于如下的系统串联有I(X; Y)I(X; Z)。 4、,80,PPT学习交流,微分熵、相对熵,(连续型随机变量为什么不能类似地定义平均自信息量熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“微分熵”,而“微分熵”的直观合理性大打折扣。比如“微分熵” 可以是负的) 微分熵的定义 给定连续型随机变量X, pX(x)。 X的微分熵(又称为相对熵)定义为,81,PPT学习交流,联合微分熵,联合的微分熵的定义 给定二维连续型随机变量(X, Y), p(X,Y)(x, y) 。 (X, Y)

30、的联合的微分熵定义为,82,PPT学习交流,例题,例2.5.1 设(XY)是连续型的二维随机变量,其联合分布密度函数pXY(xy)为二维高斯概率密度函数(二元正态密度函数):,83,PPT学习交流,例题,84,PPT学习交流,例题,例2.5.2 设XU(a, b),求X的微分熵(相对熵) (我们将发现, X的相对熵未必非负)。,85,PPT学习交流,例题,例2.5.3 设XN(m, 2),求X的微分熵(相对熵) (我们将发现, X的相对熵未必非负)。,86,PPT学习交流,例题,熵功率,87,PPT学习交流,微分熵的极大化,(已知:当离散型随机变量X的事件有K个时,H(X)logaK;只有当X

31、服从等概分布时才有H(X)=logaK) 1.峰值功率受限 均匀分布相对熵最大 定理2.5.1 若连续型随机变量X的取值范围在区间(-M, M)之内(即当x不在区间(-M, M) 时, fX(x)=0),则Hc(X)loga 2M;只有当X服从U (-M, M)分布时才有Hc(X)=loga 2M。,88,PPT学习交流,微分熵的极大化,2.平均功率受限 高斯分布相对熵最大 定理2.5.2 若连续型随机变量X的方差等于2 ,则Hc(X)(1/2)loga (2e2);只有当X服从N(m, 2)分布时才有Hc(X)=(1/2)loga (2e2)。 3.平均功率大于等于熵功率,89,PPT学习交流,2.6 凸函数与(离散型随机变量的)平均互信息量的凸性,90,PPT学习交流,凸函数,凸集R:a,b属于R,qa+(1-q)b也属于R,其中0q1 概率矢量 矢量a的所有分量和为1 上凸函数,91,PPT学习交流,凸

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论