(信息论)第2章信息的统计度量.ppt_第1页
(信息论)第2章信息的统计度量.ppt_第2页
(信息论)第2章信息的统计度量.ppt_第3页
(信息论)第2章信息的统计度量.ppt_第4页
(信息论)第2章信息的统计度量.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第 2 章 信息的统计度量,2.1 自信息量和条件自信息量,2.1.1 自信息量,从信息源获得信息的过程就是其不确定性缩减的过程。可见信息源包含的信息与其不确定性是紧密相关的。在统计分析中,使用概率作为衡量不确定性的一种指标。可以推论,随机事件包含信息的度量应是其概率的函数。,2,定义 2.1.1 任意随机事件的自信息量定义为该事件发生概率的对数的负值。,设该事件 的概率为 ,那么,它的自信息定义式为,自信息的单位与所用对数底有关:,对数的底 2 e 10 比特(bit) 奈特(nat) 哈脱来(haitely),小概率事件所包含的不确定性大,其自信息量大;出现概率大的随机事件所包含的不确定性小,其自信息量小。,(2.1),3,定义2.1.2 二维联合集XY上的元素 的联合自信息量定义为,式中, 为积事件, 为元素 的二维联合概率。,例:,(2.2),4,2.1.2 条件自信息量,定义 2.1.3 联合集XY中,对事件 和 ,事件 在事件 给定的条件下的条件自信息量定义为,(2.3),例:,5,2.2 互信息量和条件互信息量,2.2.1 互信息量,信源集合 X 的概率空间为,其中 为集合 X 中各个消息 的取值;概率 称为先验概率。,6,信宿收到的符号消息集合 Y的概率空间为,其中 是集合 Y 中各个消息符号 的取值;概率 为消息符号 出现的概率。当信宿收到集合Y中的一个消息 后,接收者重新估计关于信源各个消息发生的概率就变成条件概率 ,这种条件概率又称为后验概率。,7,定义 2.2.1 对两个离散随机事件集X和Y,事件 的出现给出关于事件 的信息量定义为互信息量。其定义式为,互信息量的单位与自信息量的单位一样取决于对数的底。当对数底为2时,互信息量的单位为比特。由式(2.4)又可得到,上式意味着互信息量等于自信息量减去条件自信息量。或者说互信息量是一种消除的不确定性的度量,亦即互信息量等于先验的不确定性 减去尚存在的不确定性 。,(2.4),8,2.2.2 互信息量的性质,互信息量的互易性,互信息量可为零,当事件 统计独立时,互信息量为零,即,互信息量可正可负,这意味着不能从观测 获得关于另一个事件 的任何信息。,任何两个事件之间的互信息量不可能大于其中任何一事件的自信息量,(2.5),(2.6),9,2.2.3 条件互信息量,(2.7),定义 2.2.2 联合集XYZ中,在给定 的条件下, 与 的互信息定义为条件互信息量。其定义式为,联合集XYZ上还存在 与 之间的互信息量,其定义式为,或进一步表示为,(2.8),10,式(2.9)表明,一对事件 出现后所提供的有关 的信息量 等于事件 出现后所提供的有关 的信息量 加上在给定事件 的条件下再出现事件 所提供的有关 的信息量。,(2.9),11,2.3 离散集的平均自信息量,2.3.1 平均自信息量(熵),自信息量,是一个随机变量,它不能用来作为整个信源的信息测度。这样,我们引入平均自信息量,即信息熵。,定义 2.3.1 集X上,随机变量 的数学期望定义为平均自信息量,集 X 的平均自信息量又称作是集 X 的信息熵,简称作熵。平均自信息量的表示式和统计物理学中热熵的表示式相似。,(2.10),12,信息熵的单位取决于对数选取的底,与自信息量的单位相一致。,在现代数字通信系统中,一般选用二进制计数方式。在信息熵的计算中也多以2为对数底。这里当以2为对数底时,信息熵写成 形式,其单位为 bit 。其他对数底的信息熵可以利用对数换底公式进行转换。 由对数换底公式,可得,(2.11),13,2.3.2 熵函数的数学特性,定义 2.3.2 设 为一多元函数。若对于任意一个小于1的正数 及函数 定义域内的任意两个矢量 有,则称 为定义域上的凸函数(Cap型函数)。若,则称 为定义域上的严格上凸函数。反之,若,或,则称 为定义域上的下凸函数(Cup型函数)或严格下凸函数。,(2.14),(2.15),(2.13),(2.16),14,引理 2.3.1 若 是定义在区间 上的实值连续上凸函数,则对于任意一组 和任意一组非负实数 满足,有,上面的不等式通常称为Jenson不等式。当取 为一个离散无记忆信源的信源符号, 取为相应的概率时,显然满足引理的条件。若取 为对数函数,不等式(2.18)可写为,或对于一般的凸函数 ,写成,(2.18),(2.20),(2.19),15,熵函数的数学性质,对称性,说明熵仅与随机变量的总体结构有关,或者说熵仅与信源总体的统计特性有关。如果总体统计特性相同,但内部结构不同,导致具有相同的熵值。这说明反映不出不同内部结构的信源间的差异。可见该定义的熵具有一定的局限性。,非负性,(2.21),其中,等号成立的充要条件是当且仅当对某 其余的 ,这表明,确定场的熵最小。,16,扩展性,这说明一个事件的概率和集中其他事件相比很小时,它对于集合的熵值的贡献就可以忽略不计。,可加性,如果有两个随机变量X,Y,它们不是相互独立的,则二维随机变量(X,Y)的熵等于X的无条件熵加上当X已给定时Y的条件概率定义的熵的统计平均值,即,其中,(对于一切 i ),(2.22),17,上式中 为集合 X 中 的概率 为已知 的条件下,集合 Y 中 的条件概率 所以 为 和 的联合概率 。,式(2.22)的物理意义是,先知道 获得 的平均信息量为 ,在这个条件 下,再知道 所获得的平均信息量 ,两者相加等于同时知道 X和Y 所获得的平均信息量 。,18,推论 当二维随机变量X,Y相互统计独立,则有,这是因为随机变量 X 和 Y 相互统计独立,故有 ,于是,(2.23),极值性,式中, n 是集合 X 的元素数目。上式表明,在离散情况下,集合 X 中的各事件依等概率发生时,熵达到极大值。由于对数函数的单调上升性,集合中元素的数目 n 越多,其熵值越大。,(2.24),19,引理 2.3.2 对任意实数 有,引理 2.3.3,式(2.26)表明,对于任一集合X,对任一概率分布 ,它对其他概率分布 的自信息 取数学期望 时必不小于由概率 本身定义的熵 。,其中等号成立当且仅当 ,这表明等概场的平均不确定性为最大,具有最大熵。这是一个很重要的结论,称为最大熵定理。,(2.25),式中,(2.26),20,确定性,在概率矢量 中,当其中某一分量 而其他分量 故上式成立。,集合 X 中只要有一个事件为必然事件,则其余事件为不可能事件。此时,集合X中每个事件对熵的贡献都为零,因而熵必为零。,上凸性,是概率分布 的严格上凸函数。,21,2.3.3 条件熵,定义 2.3.3 联合集XY上,条件自信息 的概率加权平均值定义为条件熵。其定义式为,上式称为联合集 XY 中,集 Y 相对于集 X 的条件熵。,条件熵又可写成,式中取和的范围包括 XY 二维空间中的所有点。要注意条件熵是用联合概率 ,而不是用条件概率 进行加权平均。,(2.27),(2.28),当 X 表示信道的输入,Y 表示信道的输出时,条件熵 表示在得到输出Y的条件下,输入X 中剩余的不确定性,即信道损失。,22,2.3.4 联合熵,定义 2.3.4 联合集 XY上,每对元素 的自信息量的概率加权平均值定义为联合熵。其定义式为,根据式(2.2),联合熵又可定义为,联合熵又可称为共熵。,(2.30),(2.29),23,2.3.5 各种熵的性质,联合熵与信息熵、条件熵的关系,(2.32),(2.31),式(2.31)表明,共熵等于前一个集合 X 出现的熵加上前一个集合 X 出现的条件下,后一个集合 Y 出现的条件熵。,如果集 X 和集 Y 相互统计独立,则有,此时, 。式(2.33)则表示熵的可加性。而式(2.31)称为熵的强可加性。,(2.33),24,性质1还可推广到多个随机变量构成的概率空间之间的关系。设有N个概率空间 ,其联合熵可表示为,如果N个随机变量相互独立,则有,(2.35),(2.36),25,共熵与信息熵的关系,等式成立的条件是集 X 和 Y 统计独立。,(2.37),当集合 X 和 Y 取自同一符号集合 Z 时,则有,且,性质2 可推广到 N 个概率空间的情况,同理,等号成立的充要条件是概率空间 相互统计独立。,26,条件熵与通信熵的关系,(2.38),等式成立的条件是当且仅当集X和Y统计独立,意即,例: 设一系统的输入符号集 ,输出符号集 ,如图所示。输入符号与输出符号的联合分布为,27,输入输出关系,解:,28,29,30,2.3.6 加权熵,设有随机变量X,引入事件的重量后,其概率空间为,其中,31,定义 2.3.5 离散无记忆信源 的加权熵定义为,这样定义的加权熵保留了Shannon熵的许多有用的性质,但是也失去了某些性质,不过也增加了一些新的性质。,(2.42),非负性,若权重 ,则,即若每一事件都被赋予同样的重量,则加权熵退化为Shannon熵,32,确定性,若 而 则加权熵为零,即,若 而 为样本空间,并且 ,则加权熵为零,即,这一性质表明,某些事件有意义 ,但不发生 而另外一些事件虽然发生 ,但毫无意义 。所以从主观效果来看,人们并没有获得任何有意义的信息。,33,2.4 离散集的平均互信息量,令 X 表示离散输入事件集。其中 对每个事件 ,相应概率为 ,简化为 ,且,以 表示输入概率空间, 。,类似地令 Y 表示离散输出事件集, 对每个事件 ,相应概率为 ,简记为 ,且,以 表示输出概率空间, 。,34,X 和 Y 的联合空间,与每组事件(积事件) 相应的概率为二维联合概率 ,且,以 表示二维联合概率空间。一般地有条件概率,当事件 和 彼此统计独立时,有,若上式所有的 i , j 成立,则称集 X 与 Y 统计独立,否则称为统计相关。,35,2.4.1 平均条件互信息量,定义 2.4.1 在联合集 XY 上,由 提供的关于集 X的平均条件互信息量等于由 所提供的互信息量 在整个X中以后验概率加权的平均值,其定义式为,式中, 为后验概率。,由于互信息 是表示观测到 后获得的关于事件 的信息量,即,故平均条件互信息量又可以表示为,(2.43),(2.44),36,定理 2.4.1 联合集 XY 上的平均条件互信息量,其中等号成立当且仅当 X 集中的各个 都与事件 相互独立。,(2.45),37,也可定义为,其中,当 和 相互独立时, 且,2.4.2 平均互信息量,定义 2.4.2 互信息量 在整个集Y上的概率加权平均值。其定义式为,或定义为,(2.47),(2.46),(2.48),(2.50),(2.49),38,2.4.3 平均互信息量的性质,非负性,当且仅当 X 与 Y 相互独立时,等号成立。即如果 X 与 Y 相互独立,它们之间相互不能提供任何信息。,互易性(对称性),平均互信息量 的对称性表示从集 Y 中获得关于X 的信息量等于从集 X 中获得关于 Y 的信息量。,当集 X 和集 Y 统计独立时,则有,这一性质意味着不能从一个集获得关于另一个集的任何信息。,(2.51),39,平均互信息和各类熵的关系,平均互信息和熵、条件熵的关系为,平均互信息和熵、联合熵的关系为,(2.53),(2.54),(2.52),40,和通信熵的关系,图中两个长方形的长度分别代表熵 和 。其重叠部分的长度代表平均互信息量 。不重叠部分的长度分别代表条件熵 和 。而总长度代表共熵 。当集 X 和 Y 统计独立时, 得到,41,条件熵 表示在已知输出 Y 的条件下输入 X的剩余不确定性,即信道损失。由互信息量 与条件熵 的关系看出, 等于输入平均信息量 减去信道损失,它反映信道传输信息的能力。最大平均互信息量就是信道容量。,极值性,(2.55),(2.56),凸函数性,平均互信息量是信源概率分布 和信道传递概率 的凸函数。,42,2.5 连续随机变量的互信息和相对熵,与研究离散集相似,描述连续随机变量 X 和 Y 的统计特征是边沿概率密度 和 ,以及联合概率密度 。分别为,其中, 为 条件概率密度 。,对于连续随机变量 X 取值在 x 值附近的概率 随机变量 Y 取值在 y 值附近的概率为 ,二维连续随机变量XY同时取值在 x 和 y 附近的概率为 ,其中 为任意小的区间。,43,2.5.1 连续随机变量的互信息,定义 2.5.1 连续随机变量集 XY,事件 和事件 之间的互信息定义为,与离散情况下所定义的形式一样,所不同的只是用概率密度代替了离散集情况下的概率函数。,(2.57),44,定义 2.5.2 连续随机变量集合 X 和 Y 之间的平均互信息定义为,显然,连续随机变量定义的平均互信息 和离散集情况是一样的,只要将离散情况下的概率函数换成概率密度,求和化成积分即可。,(2.58),连续随机变量平均互信息的主要性质如下:,非负性,当且仅当连续随机变量 X 和 Y 统计独立时等号成立。,对称性,45,2.5.2 连续随机变量的熵,连续随机变量的相对熵(微分熵),连续随机变量的相对熵仍然具有离散熵的主要特性,即可加性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论