第2章信源与信息熵_第1页
第2章信源与信息熵_第2页
第2章信源与信息熵_第3页
第2章信源与信息熵_第4页
第2章信源与信息熵_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章信源与信息熵2.1

信源描述与分类2.2离散信源的信息熵和互信息2.3离散序列信源的熵*2.4

连续信源的熵与互信息2.5冗余度12.1信源的描述与分类信源定义

信源是产生消息(符号)、消息序列和连续消息的来源。从数学上,由于消息的不确定性,因此,信源是产生随机变量、随机序列和随机过程的源。信源的基本特性是具有随机不确定性。22.1信源特性与分类信源分类(1)按信源发出消息在时间和幅度上分布情况离散信源:时间和幅度上都是离散分布的离散消息。如:文字、数字等。

单符号离散信源符号序列离散信源连续信源:时间或幅度上是连续分布的连续消息。如:话音、图像等。32.1信源特性与分类(2)按信源发出的符号之间关系无记忆信源:发出单个符号和发出符号序列无记忆信源。有记忆信源:发出符号序列的有记忆信源和发出符号序列的马尔可夫信源。(3)按照输出序列的平稳性,可分为:平稳信源:发出符号或符号序列统计性质与时间的推移无关非平稳信源42.1信源描述与分类几个概念样本空间:某事物各种可能出现的不同状态,即所有可能选择的消息集合。概率测度:每一个可能选择消息的概率,又称先验概率。后验概率:指条件概率P(ai/bj)。概率空间:一个样本空间和它的概率测度组合。52.1信源描述与分类信源数学模型描述:通过概率空间描述(1)单符号离散信源其中,符号集A={u1,u2,u3……un},UA成为U的样本空间,且pi≥0,。

62.1信源描述与分类例1:对某个二进制数字与数据信源72.1信源描述与分类例2:有100个球,其中有80个红色球,20个白色球,随机取出一个球,然后放回,再随机取一个球,如此反复。每次取球为何种颜色作为消息,则随机变量X的样本空间集A={x1=“红色”,x2=“白色”},而X的概率分布p(x1)=0.8,p(x2)=0.2,信源的概率空间为82.1信源描述与分类(2)离散序列信源:每次发出1组含2个以上符号的符号序列来代表一个消息的信源。每个消息要用符号序列来描述,即用随机序列或随机矢量来描述:

X=(x1x2…xL)x

∈{a1,a2

·

··an

}

最简单L=2情况,此时信源X=(x1,x2)。其概率空间为:92.1信源描述与分类例3:以3位PCM(脉冲编码调制)信源为例当p=1/2102.1信源描述与分类(3)连续信源:输出消息取值是无限的,即可能出现的消息数是不可数的无限值。其数学模型为连续型的概率空间

且概率密度分布函数P(u)≥0,。符号集中的取值是介于(a,b)之间连续值,P(u)概率密度分布函数。112.1信源描述与分类例4:一个袋中有很多干电池,随机摸出一个,测其电压值作为输出符号,该信源每次输出一个符号,但符号取值在[0,1.5]之间的所有实数,可用连续型随机变量U来描述,连续信源的概率空间为显然满足P(u)≥0,

。122.1信源描述与分类无记忆信源定义:所发出的各个符号或符号序列之间无统计(概率)关联性。则N维随机矢量的联合概率分布满足:

P(X=X1X2X3…XN)=P1(X1)P2(X2)…PN(XN)132.1信源描述与分类(1)单符号无记忆信源

定义:离散无记忆信源是由n个单符号消息组成的集合

X={x1,x2

···xn

},这n个符号消息的概率分布为:称为符号xi

的先验概率,离散信源数学模型表示为:

称为概率空间,其中142.1信源描述与分类例5:离散无记忆信源单个符号X={0,1}X={A,B,…,Z}

如果知道它们的样本对应的概率就可以描述出该信源数学模型。

152.1信源描述与分类单符号无记忆信源的性质它是最简单也是最基本的信源,是组成实际信源的基本单元。当信源给定,其相应的概率空间就已给定;反之,如果概率空间给定,这就表示相应的信源已给定。所以,概率空间能表征这离散信源的统计特性,因此有时也把这个概率空间称为信源空间。这些信源可能输出的消息数是有限的或可数的,而且每次只输出其中一个消息。因此,可以用一个离散型随机变量X来描述这个信源输出的消息。这个随机变量X的样本空间就是符号集A;而X的概率分布就是各消息出现的先验概率,信源的概率空间必定是一个完备集。162.1信源描述与分类(2)序列符号无记忆信源定义:每次发出1组含2个及以上符号的符号序列来代表一个消息的信源。每个消息要用符号序列来描述,即用随机序列或随机矢量X=(x1x2…xL)

来描述,这些符号序列中的各个符号之间没有统计关联性,各个符号出现的概率是它自身的先验概率,即

P(X=X1X2X3…XN)=P1(X1)P2(X2)…PN(XN)。172.1信源描述与分类最简单L=2的情况,其概率分布为:其中:

且182.1信源描述与分类例6:

符号序列X={00,01,10,11}X={AA,AB,…,AZ,BA,BB,…,BZ,…,ZZ}192.1信源描述与分类(3)离散平稳信源

定义:对于离散随机变量序列X1,X2,…,在任意两个不同时刻i和j(i和j为大于1的任意整数),信源发出的消息序列的概率分布完全相同,即对于任意的N=0,1,2,…;XiXi+1…Xi+N和XjXj+1…Xj+N具有相同的概率分布,也就是

P(Xi)=P(Xj)P(XiXi+1)=P(XjXj+1)┇P(XiXi+1…Xi+N)=P(XjXj+1…Xj+N)

即各维联合概率分布均与时间起点无关的信源称为离散平稳信源。一般来说,我们假设信源输出的是平稳的随机序列,也就是序列的统计性质与时间的推移无关。很多序列符号无记忆信源也满足这个假设(如取球的例子,概率分布不随时间变化)202.1信源描述与分类离散平稳信源中一些特征:

P(Xi+1|Xi)=P(Xj+1|Xj)┇

P(Xi+N|XiXi+1…Xi+N-1)=P(Xj+N|XjXj+1…Xj+N-1)

即离散平稳信源的条件概率分布均与时间起点无关,只与关联长度N有关。这样,又可推导出

H(X1)=H(X2)=…=H(XN)H(X2|X1)=H(X3|X2)=…=H(XN|XN-1)H(X3|X1X2)=H(X4|X2X3)=…=H(XN|XN-2XN-1)┇

212.1信源描述与分类例7:一个例子中,如果每次取出两个球,则两个球的颜色组成的消息就是符号序列。如先取出一个球,记下颜色后再取出另外一个球,则每次取出的两个球的颜色是独立的,因而该信源是无记忆的,即发出符号序列的无记忆信源。由于布袋中红球、白球的分布情况不随时间变化,也就是信源发出的序列的统计性质与时间的推移无关,是平稳的随机序列。这一点特别重要,会给问题的分析带来很大的方便,于是每个变量的一维分布都相同:有时也将这种信源称为离散无记忆信源X的L次扩展信源。222.1信源描述与分类有记忆信源定义:所发出的各个符号或符号序列之间有统计(概率)关联性。一般情况下,信源在不同时刻发出的符号之间是相互依赖的。表述有记忆信源要比表述无记忆信源困难得多。实际上可以限制随机序列的记忆长度。当记忆长度为m+1时,称这种有记忆信源为m阶马尔可夫信源。也就是信源每次发出的符号只与前m个符号有关,与更前面的符号无关。232.1信源描述与分类(1)序列符号有记忆信源其概率分布比较复杂,需要引入条件概率来反映符号序列内各个符号之间的记忆特征:

在实际应用中限制记忆的长度,使问题简化。242.1信源描述与分类例8:在一个布袋中放100个球,其中80个球是红色的,20个球是白色的,随机的从布袋中取球,则取出球的颜色带有随机性,由此布袋可看作一个离散信源。每次取球时,先取出一个球,记下颜色后不放回布袋,接着取另一个,这在取第二个球时布袋中红白颜色球的概已于第一次不同,此时的概率分布与第一个球的颜色有关。因此是有记忆离散信源。(P9)

现实中还有许多其它的例子,如英文单词,字母间是有关联性的。不是任何字母都能组成有意义的单词。252.1信源描述与分类(2)马尔可夫信源a)马尔可夫链定义:

若某事件发生的概率只与前m个事件相关,而与更前面的事件无关,那么该事件集合称为马尔可夫链,其概率可描述为:262.1信源描述与分类b)马尔可夫信源定义:

表述有记忆信源要比表述无记忆信源困难得多。实际上信源发出的符号往往只与前若干个符号的依赖关系强,而与更前面的符号依赖关系弱。为此,可以限制随机序列的记忆长度,这样就构成马尔可夫链。当记忆长度为m+1时,称这种有记忆信源为m阶马尔可夫信源。也就是信源每次发出的符号只与前m个符号有关,与更前面的符号无关。27c)一阶马尔可夫信源的数学描述

如果上述条件概率与时间起点i无关,即信源输出的符号序列可看成为时齐马尔可夫链,则此信源称为时齐马尔可夫信源。(齐次马尔可夫信源)2.1信源描述与分类282.1信源描述与分类d)马尔可夫状态分析对于高阶马尔可夫链通常转化为一阶马尔可夫过程来处理。对于m阶马尔可夫信源,将该时刻以前的出现的m个符号定义为一个状态si,即:

其中x

∈{a1,a2

···an

}

共有Q=nm种可能取值,即状态集S={s1,s2…sQ}这样,条件概率就可以表示为:292.1信源描述与分类更进一步的,当信源所处的状态发生变化,并转入一个新的状态,此时上述条件概率可以表示为状态之间的转移:更一般的,在时刻m系统处于状态的条件下,经n-m步后转移到状态的概率用状态转移概率表示。

其中,且。上式也可以理解为在时刻m系统处于状态i的条件下,在时刻n系统处于状态j的条件概率,故状态转移概率实际上是一个条件概率。302.1信源描述与分类通常特别关心n-m=1的情况,即,记为称为基本转移概率,也称为一步转移概率。于是有:对于齐次马尔可夫链,其转移具有推移不变性,即只与状态有关,与时刻无关,故可表示为:类似的,可以定义k步转移概率:312.1信源描述与分类转移概率矩阵:系统在任一时刻可处于状态空间中的任意一个状态,因此转移概率是个矩阵,利用一步转移概率可得:该矩阵中,每一个元素对应一个转移概率,整个矩阵表征了状态空间中所有可能的转移,并且每行代表了从一个状态转移到所有状态的概率,转移概率和均为1。每列代表了从所有状态转移到一个状态的概率,概率之和不一定为1。32K步转移概率pij(k)与l(l<k)步和k-l步转移概率之间有所谓的切普曼-柯尔莫郭洛夫(Chapman-Kormotopob)方程:上式右侧是对所有可能值求和,因而也就是k步转移概率,特别的当l=1时,若用矩阵表示:

从这一递推关系可知,对于齐次马尔可夫链,一步转移概率完全决定了k步转移概率。2.1信源描述与分类33为了确定无条件概率P(Sk=sj),令初始概率(初始时各状态的出现概率)为:某一状态的概率为:这是一个计算状态转移概率的基本公式。2.1信源描述与分类34稳态分布概率:若转移概率的极限存在,即不论马尔可夫链的起始状态是什么,最后都将等于某固定值。(但求解很困难)稳态分布的求法(若有极限,则稳态分布Wi可用下式)应用上述公式求稳态分布需要马尔可夫链为遍历的(P14),还需要满足不可约性和非周期性。2.1信源描述与分类35上节课内容回顾1、无记忆信源概念P(X=X1X2X3…XN)=P1(X1)P2(X2)…PN(XN)2、有记忆信源概念3、马尔可夫信源

A、概念

B、状态分析过程(有多少状态----nm个)

稳定状态分布的推导,求即求(1)判断不可约性(2)判断非周期性(3)36不可约性:所谓不可约性,就是对于任一状态,都可以达到另外一个状态,即存在:否则即称该马尔可夫链是可约的。如下图中的马尔可夫链就是可约的。

s1s2s31/21/21/211/2s4s51/21/21/21/237非周期性:所谓非周期性,就是的n中没有比1大的公因子。图中的矩阵就是周期为2的矩阵,其转移概率为:因为当k为奇数或偶数时,其结果是不一样的,这样就达不到稳定状态。s1s2s4s31/21/21/21/21/21/21/21/2含义??38例9:

如图所示是一个相对码编码器,输入的码,r=1,2,…为相对独立的,取值为0或1,且已知

输出的码为,求其稳态分布。+TXrYr01qqpp相对编码器状态转移图39例10:有一二阶马尔可夫链其状态图如图所示,求其稳态分布。s1s2s3s40110(0)1/4(1)1/2(0)1/500(0)1/211(1)4/5(0)1/3(0)1/3(1)2/340概率论知识复习基本事件:随机试验的每一个可能的结果(样本点)。样本空间:基本事件的集合。随机事件:无论基本事件还是复杂事件,它们在试验中发生与否,都带有随机性。先验概率:根据以往的统计规律得到的。1)条件概率41必须掌握的概率论知识2)联合概率3)全概率:设B1,B2,…是一系列互不相容的事件(Bi∩Bj

=0),且有B1∪B2∪…=Ω(样本空间);

p(Bi)>0,i=1,2,…,则对任一事件A,有:424)Bayes(贝叶斯)公式:

设B1,B2,…是一列互不相容的事件(Bi∩

Bj

=0),且有B1∪B2∪…=Ω(样本空间);

p(Bi)>0,i=1,2,…,则对任一事件A,有:必须掌握的概率论知识432.2离散信源熵和互信息信息量自信息量联合自信息量条件自信息量离散信源熵(单符号和序列)符号熵条件熵联合熵连续信源熵(了解)442.2.1离散信源熵自信息定义:对于给定的离散概率空间表示的信源,x=ai事件所对应的(自)信息为以2为底,单位为比特(bit)以e为底,单位为奈特(nat)以10为底,单位为笛特(det)转换关系如下:1nat=log2e≈1.433bit,1det=log210≈3.322bit452.2.1离散信源熵例1:若发出二进制码元0和1信源,当符号概率为p(0)=1/4,p(1)=3/4,则这两个符号所包含的自信息量分别为多少?解:I(0)=-Ib(1/4)=lb4=2bitI(1)=-Ib(3/4)=lb(4/3)=0.415bit可见,因为0出现的概率小,因而一旦出现,给予观察者的信息量就很大。462.2.1离散信源熵例2:英文字母中“e”的出现概率为0.105,“c”的出现概率为0.023,“o”的出现概率为0.001。分别计算它们的自信息量。解:“e”的自信息量“c”的自信息量“o”的自信息量472.2.1离散信源熵自信息量的几个性质:1)单调递减性,若有两个事件xi

,xj

其先验概率为p(xi)<p(xj),则事件xi

比事件xj

有更大的不确定性,同时会带来更多的信息量;I(xi

)>I(xj

)2)事件xi先验概率p(xi)=1(确定事件),则不存在不确定性,同时不会带来信息量,I(xi)=0.3)事件xi先验概率p(xi)=0(不可能事件),则存在不确定性应为无穷大,同时会带来无穷的信息量;I(xi)→∞。4)可加性,两个统计独立事件的联合自信息量应等于它们各自信息量之和;即I(x,y

)=-logp(x,y

),当x,y

相互独立时,则I(x,y

)=I(x)+I(y

)5)非负性,自信息量永远不可能是负值,这由概率决定。48自信息量、联合自信息量和条件自信息量

三者之间的关系49例3:居住某地区的女孩中有25%是大学生,在女大学生中有75%是身高1.6米以上,而女孩中身高1.6米以上的占总数一半。假如我们得知“身高1.6米以上的某女孩是大学生”的消息,问获得多少信息量?解:设事件A为女孩是大学生;设事件B为女孩身高1.6米以上。则:

p(A)=0.25

p(B)=0.50

p(B/A)=0.7550“身高1.6米以上的某女孩是大学生”表明在B事件发生的条件下,A事件发生,所以其概率为p(A/B)。由贝叶斯定律公式:

由“身高1.6米以上的某女孩是大学生”,获得信息量为

【例3】居住某地区的女孩中有25%是大学生,在女大学生中有75%是身高1.6米以上,而女孩中身高1.6米以上的占总数一半。假如我们得知“身高1.6米以上的某女孩是大学生”的消息,问获得多少信息量?512.2.1离散信源熵信源熵一个信源X发出的符号往往不只一个,各个符号的自信息量不同。信源X发出某特定符号提供的自信息量不适合描述信源X发出随机符号提供的信息量。我们关心的是整个系统的统计特性,将信源符号集合的平均不确定度定义为熵。定义:信息源的平均不确定度为信源中各个符号不确定度的数学期望,记作H(X)

其中

H(X)又称为信源X的信源熵(平均自信息量)。522.2.1离散信源熵例4:一个布袋内放100个球,其中80个球是红色的,20个球是白色的,若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。这一随机事件的概率空间为:为红球,信息量为白球,信息量每次摸出一个球后又放回袋中,再进行下一次摸取。随机摸取n次后总共所获得的信息量为:532.2.1离散信源熵平均随机摸取一次所获得的信息量则为

自信息量只是表征信源中各个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因而各个符号的自信息量就不同。54例5:

信源一:不等概信源熵(比特/符号)信源二:等概信源熵H(X2)=-0.5log0.5-0.5log0.5=1(比特/符号)2.2.1离散信源熵552.2.1离散信源熵

信源三:

等概信源熵H(X3)=-4×0.25log0.25=log4=2(比特/符号)信源四:信源为确定事件熵H(X4)=-0log0–1log1=0

(比特/符号)

计算结果说明确定事件的熵为零(P19规定)

562.2.1离散信源熵例6:二元信源是离散信源的一个特例。该信源X输出符号只有两个,设为0和1。输出符号发生的概率分别为p和q,p+q=1。即信源的概率空间为可得二元信源熵为

二元信源熵为

信源信息熵H(X)是概率p的函数,通常用H(p)表示。函数曲线如图p=q=0.5时,H(X)最大。(如同势均力敌的对手,其战斗结果最难预料)572.2.1离散信源熵例7:(1)电视画面有500×600=3×105个像素点,每点有10个灰度等级,各种画面等可能出现,则有n=10300000个画面,平均每个画面可提供的信息量为

H(X)==logn=log10300000=3×105det/画面=3.322×3×105bit/画面(2)有一篇1000字文章,假定每字可从10000字表中任选,则不同的1000字文章的总篇数为

n=100001000=104000篇,按等概率计算,平均每篇1000字文章可提供的信息量为则有H(X)=logn=log104000=4000det/千字文

=3.32×4×103bit/千字文可见,一个电视画面提供的信息量,要比一篇千字文提供的信息量大的多。58信源熵物理含义(1)信息熵H(X)表示了信源输出前,信源的平均不确定性;(2)信息熵H(X)表示了信源输出后,每个消息或符号所提供的平均信息量;(3)信息熵H(X)反映了随机变量X的随机性。59条件熵(以H(X|Y)为例,请思考H(Y|X))1.在给定yj条件下,xi的条件自信息量为:

I(xi

|yj)=-logp(xi

|yj)

集合X的条件熵为:

2.在给定Y(即各个yj)条件下,集合X的条件熵定义为:3.条件熵H(X|Y)是条件自信息量的联合概率加权统计平均值。表示已知Y后,X的不确定度。2.2.1离散信源熵60联合熵(共熵)1.联合熵是联合符号集合(X,Y)上的每个元素对(xi

,

yj)的自信息量的概率加权的统计平均值。表示X和Y同时发生的不确定度。2.条件熵与联合熵的关系

I(xi|yj

)=-logp(xi|yj

),I(xi,yj

)=-logp(xi,yj

)因

2.2.1离散信源熵612.2.1离散信源熵全概率公式所以H(X,Y)=H(X

)+H(Y|X)同理H(X,Y)=H(Y)+H(X|Y)

H(X,Y)

H(X)+H(Y)

(因H(Y|X)

H(Y)

H(Y|X)

H(X))例题8P2062例9:二进制通信系统用符号“0”和“1”,由于存在失真,传输时会产生误码,用符号表示下列事件:u0:一个“0”发出;u1:一个“1”发出;v0:一个“0”收到;v1:一个“1”收到。给定下列概率:p(u0)=1/2,p(v0/u0)=3/4,p(v0/u1)=1/2,求

(1)已知发出一个“0”,收到符号后得到的信息量;(2)已知发出的符号,收到符号后得到的信息量;

(3)知道发出的和收到的符号能得到的信息量;

(4)已知收到的符号,被告知发出的符号得到的信息量。2.2.1离散信源熵63解:(1)可求出(2)联合概率2.2.1离散信源熵64(3)因为p(u0)=p(u1)=1/2,所以H(U)=1比特/符号,

H(U,V)=H(U)+H(V/U)=1+0.91=1.91比特/符号。(4)可求出2.2.1离散信源熵65上节课内容回顾1、自信息2、信源熵定义:信息源的平均不确定度为信源中各个符号不确定度的数学期望,记作H(X)3、条件熵(表示已知Y后,X的不确定度)66

4、联合熵(表示X和Y同时发生的不确定度)

5、条件熵与联合熵的关系

H(X,Y)=H(X)+H(Y|X)

H(X,Y)=H(Y)+H(X|Y)

H(X,Y)

H(X)+H(Y)

上节课内容回顾672.2.2互信息简单的通信模型

若信源发出符号xi,由于信道存在干扰,收到的不是xi而是yj,从yj中获取有关xi的信息量称为互信息量,用I(xi

;yj)

表示。信源X有干扰离散信道信宿Y干扰源68一、单符号互信息量1、信源发送符号xi,同时信宿接收符号yj的联合概率:

其中:p(xi)为信源符号xi的先验概率。

p(yj|xi)为信源符号xi已发送,信宿接收到yj

的条件概率;称为信道的传递概率或转移概率或前向概率。注意:p(yj|xi)是在信源发送xi的情况下,信宿接收到yj

的概率,该概率是可通过统计获得的。

2、信宿接收符号yj

的概率

[全概率公式]2.2.2互信息692.2.2互信息

3、信宿接收yj后,推测信源发送的符号是xi的概率(后验概率):p(xi|yi)[Bayes公式]

704、互信息量(单符号)定义:后验概率与先验概率比值的对数称为互信息量,记为I(xi;yj)

1.当p(xi|yj)=1,则I(xi

;yj)=I(xi)2.当xi,yj

互不相关,p(xi|yj)=p(xi),则I(xi

;yj)=03.互信息量单位bit/符号

2.2.2互信息715、互信息量的性质

I(xi;yj)=I(yj

;xi)I(xi;yj)=I(xi)-I(xi

|yj

)(不一定大于或等于0,由定义式求)

I(xi;yj)=I(yi)-I(yj|xi)6、互信息量计算已知:信源符号xi的概率p(xi)---先验概率,

信源xi发送的条件下,信宿接收到yj

的概率p(yj

|xi)

互信息量计算即如何求p(xi|yj)/p(xi)(1)联合概率

(2)全概率

(3)后验概率与先验概率之比2.2.2互信息72例10:某二元通信系统x0=0,x1=1,信源发送x0和x1

的概率分别为p(0)=1/2,p(1)=1/2;信宿y0=0,y1=1。由于信道中有干扰,

当信源发送0时,信宿接收为0的概率p(y0|x0)=p(0|0)=3/4

信宿接收为1的概率p(y1|x0)=p(1|0)=1/4

当信源发送1时,信宿接收为0的概率p(y0|x1)=p(0|1)=1/5

信宿接收为1的概率p(y1|x1)=p(1|1)=4/5

求互信息量。

I(x0;y0),I(x0;y1),I(x0;y1),I(x0;y1)2.2.2互信息73

x0=0

p(0|0)=3/4

y0=0

p(0|1)=1/5p(1|0)=1/4x1=1p(1|1)=4/5y1=1

解:1.联合概率

p(x0,y0)=p(x0)p(y0|x0)=1/2×3/4=3/8

p(x0,y1)=p(x0)p(y1|x0)=1/2×1/4=1/8

p(x1,y0)=p(x1)p(y0|x1)=1/2×1/5=1/10p(x1,y1)=p(x1)p(y1|x1)=1/2×4/5=4/102.2.2互信息742.全概率

p(y0)=p(x0,y0)+p(x1,y0)=3/8+1/10=19/40

p(y1)=p(x0,y1)+p(x1,y1)=1/8+4/10=21/403.后验概率与先验概率之比

p(x0|y0)/p(x0)=p(y0|x0)/p(y0)=3/4÷19/40=30/19p(x0|y1)/p(x0)=p(y1|

x0)/p(y1)=1/4÷21/40=10/21p(x1|y0)/p(x1)=p(y0|x1)/p(y0)=1/5÷19/40=8/19p(x1|y1)/p(x1)=p(y1|x1)/p(y1)=4/5÷21/40=32/21

2.2.2互信息754.互信息量

I(x0;y0)=log(30/19)bit/符号

I(x0;y1)

=log(10/21)bit/符号

I(x1;y0)=log(8/19)bit/符号

I(x1;y1)=log(32/21)bit/符号2.2.2互信息

P23例2-10

另:请证明任何两个事件之间互信息量不可能大于其中任一事件的自信息量。

76例11:一信源有4种输出符号码,Xi(i=0,1,2,3),且p(Xi)=1/4。设信源向信宿发出X3,但由于传输中的干扰,接收者收到(X3)y后,认为其可信度为0.9。于是信源再次向信宿发送该符号(X3),信宿无误收到。问信源在两次发送中发出的信息量各是多少?信宿在两次接收中得到的信息量又各是多少?77解(1)第一次收到的符号为y,则I(X3/y)=-log2p(Xi/y)=-log20.9=0.15(比特)

第一次发出的信息量为

I(X3)=-log2p(Xi)=-log20.25=2(比特)

第一次传送的信息量为两次发送信息量之差,即I(X3;y)=I(X3)-I(X3/y)=1.85(比特)

(2)第二次发送无误收到,I(X3/y)=-log2p(Xi/y)=-log21=0(比特)

第二次发出的信息量为

I(X3)=-log2p(Xi)=-log20.25=2(比特)

第二次传送的信息量为两次发送信息量之差,即I(X3;y)=I(X3)-I(X3/y)=2(比特)78二、平均互信息量(如P22举例知I(X;Y)=H(X)–H(X|Y))定义:互信息量I(xi;yj)在联合概率空间P(X,Y)上的统计平均值称平均互信息量,用I(X;Y)表示

平均互信息量单位bit/消息平均互信息量的两种表示形式:(1)I(X;Y)=H(X)–H(X|Y);

(2)I(X;Y)=H(Y)–H(Y|X);还可以得到

I(X;Y)=H(X)+H(Y)–H(X,Y)

(由H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y))2.2.2互信息79物理意义

1、H(X)是符号集合X的熵或不确定度;

2、H(X|Y)是当信宿已收到Y时,X的条件熵或不确定度(仍有疑义),表示通信过程中信息在信道中的损失量,称为信道疑义度或疑义度;

3、H(Y|X)可以看作惟一地确定信道噪声所需的平均信息量,故称为噪声熵或散布度;

4、I(X;Y)表示信宿获得的净信息量。2.2.2互信息80物理含义(续)从通信的角度来讨论平均互信息量I(X;Y)的物理意义设X为发送消息符号集,Y为接收符号集,H(X)是输入集的平均不确定性,H(X︱Y)是观察到Y后,集X还保留的不确定性,二者之差I(X;Y)就是在接收过程中得到的关于X,Y的平均互信息量。

对于无扰信道,I(X;Y)=H(X)

对于强噪信道,I(X;Y)=0由第一等式I(X;Y)=H(X)-H(X︱Y)看I(X;Y)的物理意义2.2.2互信息81由第二等式I(X;Y)=H(Y)-H(Y︱X)看I(X;Y)的物理意义对于无扰信道,有I(X;Y)=H(X)=H(Y)

对于强噪信道,有H(Y︱X)=H(Y),从而I(X;Y)=0

H(Y)是观察到Y所获得的信息量,H(Y︱X)是发出确定消息X后,由于干扰而使Y存在的平均不确定性,二者之差I(X;Y)就是一次通信所获得的信息量。所以互信息I(X;Y)

的范围是,0≤I(X;Y)≤H(X)2.2.2互信息82

通信前,随机变量X和随机变量Y可视为统计独立,其先验不确定性为H(X)+H(Y);通信后,整个系统的后验不确定性为H(X,Y),二者之差H(X)+H(Y)-H(X,Y)就是通信过程中不确定性减少的量,也就是通信过程中获得的平均互信息量I(X;Y)。由第三等式I(X;Y)=H(X)+H(Y)-H(X,Y)看I(X;Y)的物理意义

结论:平均互信息量的大小与信道的传输能力有关:信道噪声越大,平均互信息量越小;反之,信道噪声越小,平均互信息量越大。2.2.2互信息832.2.2互信息互信息量与熵的关系(图示)842.2.2互信息∪型和∩型凸函数

从互信息定义

可看出:互信息I(X;Y)只是输入信源X的概率分布P(xi)和信道转移概率P(yj/xi)的函数,即I[P(xi),P(yj/xi)]。可以证明:当P(xi)一定时,I是关于P(yj/xi)的∪型凸函数,存在极小值;而当P(yj/xi)一定时,I是关于P(xi))的∩型凸函数,存在极大值。说明:对于矢量空间凸域K,任矢量x1,x2都有一实值函数f[θx1+(1-θ)x2]≤θf(x1)+(1-θ)f(x2)为∪型;

f[θx1+(1-θ)x2]≥θ

f(x1)+(1-θ)f(x2)为∩型。852.2.2互信息*符号xi与符号对(yj,zk)之间的互信息量定义为*条件互信息量是在给定zk条件下,xi与yj之间的互信息量,定义为所以三维联合集(X,Y,Z)上的平均互信息量有I(X;Y,Z)=I(X;Y)+I(X;Z|Y)I(Y,Z;X)=I(Y;X)+I(Z;X|Y)I(X;Y,Z)=I(X;Z,Y)=I(X;Z)+I(X;Y|Z)862.2.2互信息*例11(p23)设信源发出8种消息符号,各消息等概发送,各符号分别用3位二进码元表示,并输出事件。通过对输出事件的观察来推测信源的输出。假设信源发出的消息x4,用二进码011表示,接收到每个二进制码元后得到有关x4信息。872.2.2互信息882.2.2互信息熵的性质对称性非负性确定性香农辅助定理最大熵定理条件熵小于无条件熵892.2.2互信息非负性902.2.2互信息对称性(熵函数所有变元可以互换,不影响函数值)912.2.2互信息确定性

香农辅助定理(对任意概率分布pi,它对其他概率分布qi的自信息量-logqi取数学期望时,必大于pi本身的熵。等号仅当P=Q时成立)922.2.2互信息最大熵定理

条件熵小于无条件熵当且仅当y和x相互独立时,p(y|x)=p(y),取等号。两个条件下的条件熵小于一个条件下的条件熵,即当且仅当p(z|x,y)=p(z|y)时取等号。联合熵小于信源熵之和,即H(X,Y)≤H(X)+H(Y).当且仅当两个集合相互独立时取等号。93例12:设随机变量X的概率分布为随机变量Y是X的函数,其分布为将X的4个最小的概率分布合并为一个:(1)显然H(X)<log27,请解释原因;(2)计算H(X),H(Y);(3)计算H(X/Y)并解释其结果。94

解:(1)H(X)<log27,请解释原因根据熵的极值性,当随机变量等概分布时,随机变量的熵最大。有7个可能取值的随机变量的最大熵为Hmax(X)=log27,而随机变量X不是等概分布,所以H(X)<log27。95(2)计算H(X),H(Y)

96(3)计算H(X/Y)并解释其结果。因为随机变量Y是X的函数,所以H(Y/X)=0(比特/符号)(Y和X集合之间的函数关系将X的4个最小的概率分布合并为一个)

H(X/Y)=H(X,Y)-H(Y)=H(X)+H(Y/X)-H(Y)=2.722-1.922=0.8(比特/符号)972.2.2互信息总结:平均互信息与熵的关系982.2.3数据处理中信息的变化I(X;Z)=I(X;Y)+I(X;Z/Y)-I(X;Y/Z)集合符号替代(X代Y,Y代Z,Z代X)得

I(X,Y;Z)=I(X;Z)+I(Y;Z/X)将右边的X和Y互换得

I(X,Y;Z)=I(Y;Z)+I(X;Z/Y)最后得

I(X;Z)=I(Y;Z)+I(X;Z/Y)-I(Y;Z/X)假设在Y条件下X与Z相互独立,I(X;Z/Y)=0,而且I(X;Y/Z)和I(Y;Z/X)均非负量,则得出

I(X;Z)≤I(Y;Z)、I(X;Z)≤I(X;Y)信息不增性:

数据处理过程中只会失掉一些信息,绝不会创造出新的信息.99上节课内容回顾1、单符号互信息量定义:后验概率与先验概率比值的对数称为互信息量,记为I(xi;yj)2、平均互信息量定义:互信息量I(xi;yj)在联合概率空间P(X,Y)上的统计平均值称平均互信息量,用I(X;Y)表示1003、互信息量与熵的关系平均互信息量的三种表示形式:(1)I(X;Y)=H(X)–H(X|Y);(疑义度)

(2)I(X;Y)=H(Y)–H(Y|X).(噪声熵)(3)I(X;Y)=H(X)+H(Y)–H(X,Y)上节课内容回顾1014、∪型和∩型凸函数从互信息定义可看出:互信息I(X;Y)只是输入信源X的概率分布P(xi)和信道转移概率P(yj/xi)的函数,即I[P(xi),P(yj/xi)]。可以证明:当P(xi)一定时,I是关于P(yj/xi)的∪型凸函数,存在极小值;而当P(yj/xi)一定时,I是关于P(xi))的∩

型凸函数,存在极大值。说明:对于矢量空间凸域K,任矢量x1,x2都有一实值函数f[θx1+(1-θ)x2]≤θf(θx1)+(1-θ)f(x2)为∪型;

f[θx1+(1-θ)x2]≥θf(θx1)+(1-θ)f(x2)为∩型。上节课内容回顾1025、离散无记忆信源的序列熵当信源无记忆时,随机序列的概率为若又满足平稳特性,平均每个符号(消息)熵为上节课内容回顾6、离散有记忆信源的序列熵

H(XL)=H(X1X2…XL)=H(X1)+H(X2/X1)+…

+H(XL/X1X2…XL-1)=1032.3离散序列信源的熵2.3.1离散无记忆信源的序列熵

设信源输出的随机序列为X,X=(X1X2…XI…XL),序列中的变量Xl∈{x1,x2,…,xn},l=1,2,…,L,即序列长为L。随机序列的概率为其中:是集合X中符号的所有可能的L次组合,称为集合X的L次扩展,取自集合X中的单个符号。

X的L次扩展的不同的符号序列共有nL个.例:X1={x1,x2,…}

X2={x1x1,x1x2,x2x1,x2

x2

,…}

X3={x1x1

x1,x1

x1x2,x1x2x2,x2

x2

x2

,…}1042.3离散序列信源的熵根据信息熵的定义:

当信源无记忆时若又满足平稳特性,则有H(X1)=H(X2)=…=H(XL)平均每个符号(消息)熵为105例1:有一个无记忆信源,随机变量X∈(0,1),等概分布。若以单个符号出现为一事件,则此时的信源熵H(X)=1bit/符号,即1bit就可以表示该事件。如果以两个符号出现(L=2的序列)为一事件,则随机序列X∈(00011011),信源的序列熵H(X2)=1b4=2bit/序列,即用2bit才能表示该事件。信源的符号熵H2(X2)=1/2H(X2)=1bit/符号=H(X)。1062.3.2离散有记忆信源的序列熵离散有记忆信源的序列熵若信源输出一个L长序列,则信源的序列熵为H(XL)=H(X1X2…XL)=H(X1)+H(X2/X1)+…+H(XL/X1X2…XL-1)=

若当信源退化为无记忆时,有若进一步又满足平稳性时,则有可见,无记忆信源是上述有记忆信源的一个特例。1072.3.2离散有记忆信源的序列熵例2:已知离散有记忆信源概率空间如下。现信源发出二重符号序列(ai

,aj),这两个符号的概率关联性如下表,求信源的序列熵和平均符号熵(见P30公式)。a1a2a3a1a2a39/111/802/113/42/901/87/9表1符号之间的条件概率p(aj

|ai

)108

解:单符号条件熵单符号信源熵二重符号序列熵平均符号熵可见,,这是符号之间的关联性造成的。2.3.2离散有记忆信源的序列熵/符号/符号/符号/序列1092.3.2离散有记忆信源的序列熵几个结论联合概率具有时间推移不变性:结论1

是L的单调非增函数.结论2(平稳性)1102.3.2离散有记忆信源的序列熵结论3

是L的单调非增函数

运用结论2得:推广结论3可得:由结论1得上式中的是和式L项中最小的,所以1112.3.2离散有记忆信源的序列熵结论4

当L→∞时式中,称为极限熵,又称极限信息量.证明:取足够大的k(k→∞),固定L,前一项可忽略,后一项系数接近于1,得结论2和上式表明,的值在HL(X)和HL+k(X)之间,令L→∞,则结论11122.3.2离散有记忆信源的序列熵结论4从理论上定义了平稳离散有记忆信源的极限熵,实际上如按此公式计算极限熵是十分困难的。上述公式在工程上很实用,即马尔可夫信源的极限熵就是求它的条件熵。

平稳马尔可夫信源极限熵

对于m阶的马尔可夫信源,信源只与前面的m个符号有关,而与更前面的符号无关,则其极限熵为113

2.3.2离散有记忆信源的序列熵马氏链极限熵对于齐次、遍历的马尔可夫链,有

上式两边同取对数,并对xi1,…,xim,xim+1和si取统计平均得114

2.3.2离散有记忆信源的序列熵115即:式中p(si)是马尔可夫链的稳态分布,熵函数表示信源处于某一状态si时发出一个消息的平均不确定性。对状态si的全部可能状态作统计平均,就得到马尔可夫信源及平均符号极限熵。

2.3.2离散有记忆信源的序列熵116例3:如图所示的三状态马尔可夫信源,求其极限熵。

解得:w1=5/59,w2=9/59,w3=45/59H(X|s1)=-0.1*log0.1-0.9*log0.9=0.469bit/符号

H(X|s2)=1bit/符号

H(X|s3)=0.722bit/符号

对三个状态去平均后得到马尔可夫信源的熵

2.3.2离散有记忆信源的序列熵(1)0.5s2s3(0)0.9s1(1)0.1(1)0.2(0)0.5(0)0.8

/符号117*2.4连续信源的熵与互信息连续随机变量可以看作是离散随机变量的极限,故可采用离散随机变量来逼近。下面,将采用这一观点讨论连续随机变量的信息熵与信息量。118*2.4连续信源的熵与互信息2.4.1幅度连续的单个符号信源熵假设x∈[a,b],令Δx=(b-a)/n,xi∈[a+(i-1)Δx,a+iΔx],pX(x)为连续变量X的概率密度函数,则利用中值定理X取xi的概率是根据离散信源熵的定义,则119*2.4连续信源的熵与互信息

当n→∞时,即Δx→0时,由积分定义得定义连续信源熵:

连续信源的熵具有相对性,有时称为相对熵,在取两熵之间的差时,两者逼近时所取的Δx一致,第二项相互抵消,才具有信息的所有特性.上式等式右边第一项具有离散信源熵形式,是定值;第二项为无穷大。H(X)120应注意的是Hc(X)是连续随机变量的熵,而不是连续随机变量输出的信息量,而连续随机变量输出的信息量是Hn(X)。这就是说,在离散随机变量中随机变量输出信息量就是信源熵,两者是一个概念;但是在连续随机变量中则是两个概念,且不相等。连续随机变量输出信息量Hn(X)是一个绝对值,他取值于∞,而连续随机变量的熵Hc(X)则是一个相对值,取值是有限的。连续随机变量的熵Hc(X)是一个过渡性的概念,它虽然也具有可加性、凸状性和极值性,但不一定满足非负性,它可以不具有信息的全部特征。*2.4连续信源的熵与互信息

121例1:对一个均匀分布的随机变量,按照定义,有显然,时,Hc(U)<0,这说明它不具备非负性。但是连续随机变量输出的信息量由于有一个无限大量的存在,Hn(U)仍大于0。均匀分布连续随机变量的微分熵*2.4连续信源的熵与互信息

122

*2.4连续信源的熵与互信息用上述方法同样可定义两个变量X,Y的情况联合熵:条件熵它们之间也有与离散信源一样的相互关系,并且可以得到有信息特征的互信息。Hc(XY)=Hc(X)+Hc(Y/X)=Hc(Y)+Hc(X/Y)I(X;Y)=I(Y;X)=Hc(X)-Hc(X/Y)=Hc(X)+Hc(Y)-Hc(XY)=Hc(Y)-Hc(Y/X)123【例2】有一信源概率密度如图所示,求连续熵解:由图(a)得由图(b)得结果信息量增加一倍,实际上两种情况的绝对熵应是相同的。显然结果不对。124原因:由无穷大项造成的,两者在逼近时取值不同,得到不同证明:

结论:连续熵具有相对意义,不是绝对值。

125

*2.4连续信源的熵与互信息2.4.3最大熵定理(连续信源中,概率密度函数满足什么条件有最大熵)限峰功率最大熵定理:对于定义域有限的随机变量X,当它是均匀分布时,具有最大熵126

*2.4连续信源的熵与互信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论