第二章信息的度量_第1页
第二章信息的度量_第2页
第二章信息的度量_第3页
第二章信息的度量_第4页
第二章信息的度量_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章信息的度量第一页,共九十页,2022年,8月28日2.1

自信息和互信息2.1.1自信息定义 一个事件(消息)本身所包含的信息,它是由事件的不确定性决定的。自信息量 一个事件(消息)本身所包含的信息量,记为。 自信息量为概率的函数。

第二页,共九十页,2022年,8月28日

自信息根据客观事实和人们的习惯概念,自信息量应满足以下条件(公理化条件):1.是的严格递减函数。当时,,概率越小,事件发生的不确定性越大,事件发生以后所包含的自信息量越大。2.极限情况下当=0时,;当=1时,=0。3.另外,从直观概念上讲,由两个相对独立的不同的消息所提供的信息量应等于它们分别提供的信息量之和。可以证明,满足以上公理化条件的函数形式是对数形式。第三页,共九十页,2022年,8月28日定义:

随机事件的自信息量定义为该事件发生概率的对数的负值。设事件的概率为,则它的自信息定义为

由图可见:上述信息量的定义正是满足上述公理性条件的函数形式。含义: 1)当事件发生以前,等于事件发生的不确定性的大小; 2)当事件发生以后,表示事件所含有或所能提供的信息量。2.1.1自信息第四页,共九十页,2022年,8月28日自信息量的单位:与所用对数的底a有关。单位换算关系:1奈特=比特=1.443比特1哈特莱=比特=3.322比特1r进制单位=比特2.1.1自信息

a=2I=-log2P单位为比特(bit)I=-logP

a=e

I=-lnP单位为奈特(nat)

a=10I=-lgP单位为哈特莱(hartley)a=r

I=-logrP单位为r进制信息单位第五页,共九十页,2022年,8月28日[例1]

(1)英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算他们的自信息量。 (2)假定前后两字母出现是互相独立的,求“ac”的自信息量。 (3)假定前后字母出现不是独立的,当“a”出现后,“c“出现的概率为0.04,计算”a“出现后,”c”出现的自信息量。 (4)比较(3)中计算出的信息量,并与“c“的信息量进行比较和分析。2.1.1自信息第六页,共九十页,2022年,8月28日解: 字母出现相互独立,

[例1]

(1)英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算他们的自信息量。

(2)假定前后两字母出现是互相独立的,求“ac”的自信息量。相互独立事件积事件的信息量为各事件信息量的和。2.1.1自信息解:

第七页,共九十页,2022年,8月28日(3)假定前后字母出现不是独立的,当“a”出现后,“c“出现的概率为0.04,计算“a”出现后,“c”出现的自信息量。(4)比较(3)中计算出的信息量,并与“c“的信息量进行比较和分析。可见,“a”出现后,“c”出现的概率增大,其不确定性则变小。(前后字母出现不是独立的,“a”出现给出了“c”的部分信息,故“a”出现后,“c”的不确定性则变小。)2.1.1自信息解:解:第八页,共九十页,2022年,8月28日结论:

设有两事件a和b: (1)若相互独立,则I(ab)=I(a)+I(b); (2)若不为相互独立,则I(ab)<I(a)+I(b).2.1.1自信息证明?第九页,共九十页,2022年,8月28日[例2]8个串联的灯泡x1,x2,…,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问总共需要多少次测量才能获知和确定哪个灯泡已损坏。

2.1.1自信息第十页,共九十页,2022年,8月28日[例2]8个串联的灯泡x1,x2,…,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?总共需要多少次测量才能获知和确定哪个灯泡已损坏。

解: 收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量)=不确定性减少的量=(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性)第十一页,共九十页,2022年,8月28日已知8个灯泡等概率损坏,所以先验概率P(x1)=1/8,即第二次测量获得的信息量=

I[P(x2)]-I[P(x3)]=1(bit)第三次测量获得的信息量=

I[P(x3)]=1(bit)故:至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。

第一次测量获得的信息量=

I[P(x1)]-I[P(x2)]=1(bit)经过二次测量后,剩2个灯泡,等概率损坏,P(x3)=1/2一次测量后,剩4个灯泡,等概率损坏,P(x2)=1/4第十二页,共九十页,2022年,8月28日2.1.1自信息联合自信息量:二维联合集XY上元素(xiyj)的自信息量定义为其中,xiyj

是积事件;

p(xiyj)是二维联合概率。条件自信息量:若事件xi在事件yj给定条件下的概率为p(xi|yj),则其条件自信息量定义为对于联合事件(多维随机变量):第十三页,共九十页,2022年,8月28日定义:

一个事件所给出关于另一个事件的信息定义为互信息,用表示。

含义:互信息是已知事件后所消除的关于事件的不确定性,它等于事件本身的不确定性减去已知事件后对仍然存在的不确定性。

互信息

第十四页,共九十页,2022年,8月28日理解:

因此,已知事件后所消除的关于事件的不确定性为: 即:互信息

信道信宿信源干扰或噪声消息第十五页,共九十页,2022年,8月28日特例(无干扰信道):

因此,已知事件后所消除的关于事件的不确定性为: 即:互信息

信道信宿信源消息=1=0第十六页,共九十页,2022年,8月28日互信息[例3]

某地二月份天气出现的概率分别为:晴1/2,阴1/4,雨1/8,雪1/8。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息y1,求收到y1后,y1与各种天气的互信息量。解: 记:x1(晴),x2(阴),x3(雨),x4(雪) 1)求收到y1后,各种天气的后验概率。 则:第十七页,共九十页,2022年,8月28日互信息 同理: 2)根据互信息量定义,计算收到y1与各种天气的互信息。 则:第十八页,共九十页,2022年,8月28日设某班学生在一次考试中获优(A)、良(B)、中(C)、及格(D)和不及格(E)的人数相等。当教师通知某甲:“你没有不及格”,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?[例4]

解:令P(a)表示“得到老师通知前甲的成绩的不确定性(概率)”P(a|b)表示“得到老师通知后甲的成绩的不确定性(概率)”则P(a)=1/5,P(a|b)=1/4总的需要信息剩余信息获得信息第十九页,共九十页,2022年,8月28日互信息条件互信息量:在联合集XYZ中,在给定zk的条件下,xi与yj之间的互信息量定义为条件互信息量。其定义式为:联合互信息:联合事件{Y=yj,Z=zk}与事件{X=xi}之间的联合互信息为:对于联合事件(多维随机变量):第二十页,共九十页,2022年,8月28日回顾自信息自信息量条件自信息量联合自信息量互信息第二十一页,共九十页,2022年,8月28日自信息量与互信息量的联系第二十二页,共九十页,2022年,8月28日2.2平均自信息(信源熵,信息熵,熵)2.2.1平均自信息的概念引出: 信源不确定性的度量(信源信息的度量) 1)自信息量 2)平均自信息量 信源中每个消息信息量的统计平均值。平均自信息量又称为:信源熵、信息熵或熵。不可行第二十三页,共九十页,2022年,8月28日平均自信息的概念信源及其分布的表示形式(概率空间) 信源具有不确定性,所以我们把信源用随机变量来表示。 相应地,其可能取值和这些取值的概率就可以用概率空间

来表示。其中,X代表信源,代表其可能的各种取值,为各种取值的概率。第二十四页,共九十页,2022年,8月28日平均自信息量的定义

随机变量X的每一个可能取值的自信息的统计平均值这里q为所有X可能取值的个数。

信息熵是随机变量X的概率分布的函数,所以又称为熵函数,且为(q-1)元函数。 把概率分布,记为,则熵函数又可以写成概率矢量的函数的形式,记为。平均自信息的概念第二十五页,共九十页,2022年,8月28日平均自信息量(熵)的含义

1)熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。 2)信息熵表征了信源的随机性。 3)在信源输出前,信息熵H(X)表示信源的平均不确定性; 4)在信源输出后,信息熵H(X)表示每个消息提供的平均信息量。平均自信息的概念第二十六页,共九十页,2022年,8月28日几点说明

1)熵的单位与所取对数的底数有关。

根据所取的对数底不同,可以是比特/符号、奈特/符号、哈特莱/符号或者是r进制单位/符号。通常用比特/符号为单位。 2)信息熵也成为负热熵。 3)信源熵给出了对信源输出的消息进行无失真编码时,平均每个信源符号至少要用的符号数。 4)信息熵并不等于收信者平均获得的信息量。 传输系统往往有噪声和干扰,因此收信者不能全部消除信源的平均不确定性,获得的信息量往往小于信息熵。平均自信息的概念第二十七页,共九十页,2022年,8月28日熵的计算例:

有一布袋内放l00个球,其中80个球是红色的,20个球是白色的。随便摸出一个球,求平均摸取一次所能获得的信息量。如果被告知摸出的是红球,那么获得的信息量是:

I(a1)=-logp(a1)

=-log0.8=0.32(比特)如被告知摸出来的是白球,所获得的信息量应为: I(a2)

-logp(a2)

=-log0.2

=2.32(比特)平均摸取一次所能获得的信息量为:H(X)=

p(a1)

I(a1)+p(a2)I(a2)

=0.72(比特/符号)解:概率空间为:第二十八页,共九十页,2022年,8月28日[例1]

电视屏上约有500×600个栅格点,且每点可取10个不同的灰度等级,同时各电视画面的出现概率为相等的,求平均每个电视画面可提供的信息量。解: 由题得:电视画面的个数为

平均自信息的概念第二十九页,共九十页,2022年,8月28日[例2]设甲地的天气预报为:晴(占4/8)、阴(占2/8)、大雨(占1/8)、小雨(占1/8)。又设乙地的天气预报为:晴(占7/8),小雨(占1/8)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为1/4。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。两个信源第三十页,共九十页,2022年,8月28日解:甲地天气预报构成的信源空间为:则其提供的平均信息量即信源的信息熵:乙地天气预报的信源空间为:结论:甲地天气预报提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。第三十一页,共九十页,2022年,8月28日甲地极端情况极端情况1:晴天概率=1

结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最大。存在某消息的概率为1,则信息熵一定为0。极端情况2:各种天气等概率分布第三十二页,共九十页,2022年,8月28日乙地极端情况极端情况1:晴天概率=1

结论:在极端情况2下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。极端情况2:各种天气等概率分布对等概分布情况,消息数多的信息量大。第三十三页,共九十页,2022年,8月28日

信息熵是随机变量X的概率分布的函数,所以又称为熵函数,且为(q-1)元函数。 把概率分布,记为,则熵函数又可以写成概率矢量的函数的形式,记为。熵函数具有如下性质:熵函数的性质第三十四页,共九十页,2022年,8月28日1、对称性

H(p)的取值与概率矢量中各分量的顺序无关。理解:

从数学角度:H(P)=pi·logpi中的和式满足交换率;含义:

熵函数只与信源的总体统计特性有关。

熵函数的性质——对称性第三十五页,共九十页,2022年,8月28日熵函数的性质——对称性举例:香农信息只考虑了信源输出的统计特性,而没有考虑信息的含义和效用。第三十六页,共九十页,2022年,8月28日2、确定性 在概率矢量中,只要有一个分量为1,其它分量必为0,它们对熵的贡献均为0,因此熵等于0。也就是说确定信源的不确定度为0。理解:

从数学角度:H(P)=pi·logpi计算;含义:

信源中虽然有多种输出符号,但只要一个符号是必然出现的,而其它符号都是不可能出现的,则相当于信源为确知信源。熵函数的性质——确定性第三十七页,共九十页,2022年,8月28日3、非负性 对确定信源,等式成立。理解:

随机变量X的概率分布满足0<pi<1,当取对数的底大于1时,log(pi)

<0,-pilog(pi)

>0,即得到的熵为正值。只有当随机变量是一确知量时熵才等于零。说明:

这种非负性只适合于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。熵函数的性质——非负性第三十八页,共九十页,2022年,8月28日4、扩展性理解:

含义:

信源输出的消息数目增多时,若这些消息均为小概率事件(接近于零),则信源的熵不变。熵函数的性质——扩展性体现了熵的总体平均性性质。第三十九页,共九十页,2022年,8月28日5、连续性理解:

含义:

信源概率空间中概率分量的微小波动,不会引起熵的变化。熵函数的性质——连续性第四十页,共九十页,2022年,8月28日6、递推性(递归性,可分解性)含义:

若原信源中有一个符号分割成了m个元素(符号),这m个元素的概率之和等于原元素的概率,而其他符号的概率不变,则新信源的熵增加。

熵的增加量等于由分割而产生的不确定性量。应用:

用于熵的计算。(便于编程实现。)熵函数的性质——递推性第四十一页,共九十页,2022年,8月28日解:

[例]:运用熵函数的递推性,计算熵函数 H(1/2,1/8,1/8,1/8,1/8)的数值。熵函数的性质——递推性第四十二页,共九十页,2022年,8月28日递推性的推广含义: 它表示n个元素的信源熵可以递推成(n-1)个二元信源的熵函数的加权和。这样,可使多元信源的熵函数的计算简化成计算若干个二元信源的熵函数。熵函数的性质——递推性第四十三页,共九十页,2022年,8月28日[例]:运用熵函数的递增性(的推广),计算熵函数H(1/3,1/3,1/6,1/6)的数值。第四十四页,共九十页,2022年,8月28日7、极值性

式中n是随机变量X的可能取值的个数(信源发出的符号个数)。含义:

离散信源中各消息等概率出现时熵最大,这就是最大离散熵定理。 连续信源的最大熵则与约束条件有关。熵函数的性质——极值性证明:(先给出补充内容。)第四十五页,共九十页,2022年,8月28日补充:1.凸集合定义:

是n维实矢量空间集合R中任意两个n维矢量, 对实数θ,0θ1,有

θα+(1-θ)β∈R,则称R为凸集合。熵函数的性质——极值性第四十六页,共九十页,2022年,8月28日一维和二维凸集合的例子凸集合非凸集合

从几何上来看,若α,β是集合R中的任意两点,θα+(1-θ)β表示这两点间的连线,若该连线也在集合R中,则称为R凸集。下面给出了几个凸集和非凸集合的例子。第四十七页,共九十页,2022年,8月28日2.凸函数定义:设f(x)=f(x1,x2,…,xn)为一个n元函数,若对任意

f(x1),f(x2)∈f(x),任意正数θ,0θ1,有:f[θx1+(1-θ)x2]≥θf(x1)+(1-θ)f(x2)则称f(x)为定义域上的∩型凸函数(上凸函数)。熵函数的性质——极值性若:f[θx1+(1-θ)x2]≤θf(x1)+(1-θ)f(x2)则称f(x)为定义域上的∪型凸函数(下凸函数)。第四十八页,共九十页,2022年,8月28日x0x1

θx1+(1-θ)x2

x2

图一元∩型凸函数f(x1)θf(x1)+(1-θ)f(x2)

f[θx1+(1-θ)x2]f(x)f(x2)一元∩型凸函数可用右图所示的几何图形表示。熵函数的性质——极值性第四十九页,共九十页,2022年,8月28日3.Jensen不等式定义:设f(x)是定义在[a,b]上的实值连续上凸函数,则对任意x1,x2,……,xq∈[a,b]和任意一组非负实数λ1,λ2,……,λq,满足,则有:熵函数的性质——极值性说明:将λ1,λ2,……,λq看作概率,则Jensen不等式变换为:第五十页,共九十页,2022年,8月28日证明极值性:

式中n是随机变量X的可能取值的个数(信源发出的符号个数)。证明:

法I:

因为对数是上凸函数,满足Jensen不等式,则有:熵函数的性质——极值性第五十一页,共九十页,2022年,8月28日证明:

法II:

利用不等式logx

x–1,等号在x=1时成立。

熵函数的性质——极值性logx

x–1关系曲线x-1logx10x上面两种证明方法是信息论中经常用到的证明方法

第五十二页,共九十页,2022年,8月28日

该信源符号只有二个,设为“0”和“1”,符号输出的概率分别为“p”和“1-p”,即信源的概率空间为:则:二进制信源的信息熵为:特别地:二进制信源是离散信源的一个特例。熵函数的性质——极值性

当p=1/2时,即为等概二进制信源时,信源熵达到最大——1比特。计算机中的比特第五十三页,共九十页,2022年,8月28日8、上凸性 是严格的上凸函数。设:

则对于任意小于1的正数有以下不等式成立:

凸函数在定义域内的极值必为极大值,可以利用熵函数的这个性质可以证明熵函数的极值性。熵函数的性质——上凸性第五十四页,共九十页,2022年,8月28日作业1第五十五页,共九十页,2022年,8月28日2.2.3联合熵与条件熵提出:

多维随机变量不确定性的确定。多维随机变量描述方法:

二维随机变量的概率空间表示为其中满足概率空间的非负性和完备性:第五十六页,共九十页,2022年,8月28日2.2.3联合熵与条件熵定义(联合熵,共熵):

二维随机变量的联合熵定义为联合自信息的数学期望,它是二维随机变量的不确定性的度量。定义(条件熵):

给定时,的条件熵:其中,表示已知时,的平均不确定性。一维信源中的符号对第五十七页,共九十页,2022年,8月28日2.2.3联合熵与条件熵定义(条件熵):

给定时,的条件熵:其中,表示已知时,的平均不确定性。 同理:第五十八页,共九十页,2022年,8月28日2.2.3联合熵与条件熵各类熵之间的关系:1)联合熵与信息熵、条件熵的关系

含义:联合熵等于前一个集合X出现的熵加上前一个集合X出现的条件下,后一个集合Y出现的条件熵。

推广:对N个随机变量的情况:称为熵函数的链规则。第五十九页,共九十页,2022年,8月28日2.2.3联合熵与条件熵证明:第六十页,共九十页,2022年,8月28日2.2.3联合熵与条件熵推论:

当二维随机变量X、Y相互独立时,联合熵等于X和Y各自熵之和。证明:第六十一页,共九十页,2022年,8月28日2.2.3联合熵与条件熵推论:

当二维随机变量X、Y相互独立时,联合熵等于X和Y各自熵之和。

同理,对N个独立的随机变量X1,X2,……,XN,则有:第六十二页,共九十页,2022年,8月28日2.2.3联合熵与条件熵2)条件熵与信息熵的关系当且仅当X、Y相互独立时,等式成立。证明:备用式:

Jensen不等式:第六十三页,共九十页,2022年,8月28日2.2.3联合熵与条件熵证明:第六十四页,共九十页,2022年,8月28日2.2.3联合熵与条件熵证明:第六十五页,共九十页,2022年,8月28日2.2.3联合熵与条件熵3)联合熵和信息熵的关系当且仅当X、Y相互独立时,等式成立。证明:推广:对N个随机变量的情况:当X1,X2,……,XN相互独立时,等式成立。

第六十六页,共九十页,2022年,8月28日[例]某一离散二维平稳信源其发出的符号只与前一个符号有关,由其联合概率P(aiaj)给出它们的关联程度,如下表所示

求信源的熵H(X)、条件熵H(X2/X1)和联合熵H(X1X2)。P(aiaj)ajai01201/41/18011/181/31/18201/187/36第六十七页,共九十页,2022年,8月28日

解:根据概率关系可计算得条件概率P(aj/ai),计算结果列表如下:ajai01209/111/8012/113/42/9201/87/9P(aiaj)ajai01201/41/18011/181/31/18201/187/36第六十八页,共九十页,2022年,8月28日得:第六十九页,共九十页,2022年,8月28日2.3平均互信息2.3.1平均互信息的概念引出:

互信息:一个事件所给出关于另一个事件的信息。

平均互信息:从整体上表示从一个随机变量Y所给出关于另一个随机变量X的信息量。定义:

互信息在XY的联合概率空间中的统计平均值即为随机变量X和Y间的平均互信息。第七十页,共九十页,2022年,8月28日2.3.1平均互信息的概念推导:给定随机变量Y后,对随机变量X仍然存在的不确定度。随机变量X的不确定度。第七十一页,共九十页,2022年,8月28日2.3.1平均互信息的概念推导:含义: 收到Y前后关于X的不确定度减少的量,即从Y所获得的关于X的平均信息量。第七十二页,共九十页,2022年,8月28日[例]

掷骰子,若结果是1、2、3或4,则抛一次硬币;如果结果是5或6,则抛两次硬币,试计算从抛硬币出现正反面的情况可以得到多少掷骰子的信息量。解: 1、假设变量,则所求为 2、分析已知: 1)X: 2)关于Y:2.3.1平均互信息的概念YX第七十三页,共九十页,2022年,8月28日3、求所需量: 1)求H(X): 2)求H(X|Y): a)求 b)求2.3.1平均互信息的概念H(X)=0.918第七十四页,共九十页,2022年,8月28日 则:4、求I(X;Y)答:从抛硬币的结果可以得到多少掷骰子的信息量为0.159bit/符号。2.3.1平均互信息的概念第七十五页,共九十页,2022年,8月28日1、非负性证明:

平均互信息的性质Jensen不等式:第七十六页,共九十页,2022年,8月28日1、非负性证明:

平均互信息的性质第七十七页,共九十页,2022年,8月28日1、非负性含义:

说明给定随机变量Y后,一般来说总能消除一部分关于X的不确定性。特例(等式成立情况): 随机变量X和Y相互独立。平均互信息的性质第七十八页,共九十页,2022年,8月28日2、互易性(对称性)含义:

表示从Y中获得的关于X的信息量等于从X中获得的关于Y的信息量。证明:平均互信息的性质第七十九页,共九十页,2022年,8月28日3、平均互信息和各类熵的关系:

当统计独立时,

平均互信息的性质第八十页,共九十页,2022年,8月28日H(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论