![信源、熵率和冗余度计算和分类_第1页](http://file4.renrendoc.com/view/490a09098fd00f3de0b01655d0cf71ca/490a09098fd00f3de0b01655d0cf71ca1.gif)
![信源、熵率和冗余度计算和分类_第2页](http://file4.renrendoc.com/view/490a09098fd00f3de0b01655d0cf71ca/490a09098fd00f3de0b01655d0cf71ca2.gif)
![信源、熵率和冗余度计算和分类_第3页](http://file4.renrendoc.com/view/490a09098fd00f3de0b01655d0cf71ca/490a09098fd00f3de0b01655d0cf71ca3.gif)
![信源、熵率和冗余度计算和分类_第4页](http://file4.renrendoc.com/view/490a09098fd00f3de0b01655d0cf71ca/490a09098fd00f3de0b01655d0cf71ca4.gif)
![信源、熵率和冗余度计算和分类_第5页](http://file4.renrendoc.com/view/490a09098fd00f3de0b01655d0cf71ca/490a09098fd00f3de0b01655d0cf71ca5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信源、熵率和冗余度计算和分类问题一信息论对信源的研究内容包括哪几个方面?信息论对信源研究的内容信源的建模:用恰当的随机过程来描述信号关心角度:信号中携带的信息 信源输出信号中携带信息的效率的计算熵率、冗余度信源输出信息的有效表示信源编码问题二从信息论的角度如何为信源建模?信源的统计特性如何?如何对信源分类?各类信源如何建模?信源特性信源的统计特性1)什么是信源?信源是信息的来源,实际通信中常见的信源有:语音、文字、图像、数据。在信息论中,信源是产生消息(符号)、消息(符号)序列以及连续消息的来源,数学上,信源是产生随机变量X,随机序列 和随机过程X(t,)的源。2)信源的主要特性信源的最基本的
2、特性是具有统计不确定性,它可用概率统计特性来描述。信源的分类离散信源与连续信源离散信源单符号信源序列信源平稳&非平稳有记忆&无记忆连续信源连续信源波形信源离散信源单符号离散信源(1)它是最简单也是最基本的信源,是组成实际信源的基本单元。这类信源可能输出的消息数是有限的或可数的,而且每次只输出其中一个消息。因此,可以用一个离散型随机变量X来描述这个信源输出的消息。这个随机变量X的样本空间就是符号集A;而X的概率分布就是各消息出现的先验概率,信源的概率空间必定是一个完备集。离散信源单符号离散信源(2)当信源给定,其相应的概率空间就已给定;反之,如果概率空间给定,这就表示相应的信源已给定。所以,概率
3、空间能表征离散信源的统计特性,因此有时也把这个概率空间称为信源空间。 在实际情况中,存在着很多这样的信源。例如投硬币、书信文字、计算机的代码、电报符号、阿拉伯数字码等等。这些信源输出的都是单个符号(或代码)的消息,它们符号集的取值是有限的或可数的。我们可用一维离散型随机变量X来描述这些信源的输出。它的数学模型就是离散型的概率空间:离散信源单符号离散信源的数学描述对单符号离散信源U有:例31:对于二进制数字信源:U=0,1,则有 离散信源离散多符号信源实际的信源输出的消息是时间或空间上离散的一系列随机变量。这类信源每次输出的不是一个单个的符号,而是一个符号序列。在信源输出的序列中,每一位出现哪个
4、符号都是随机的,而且一般前后符号的出现是有统计依赖关系的。这种信源称为多符号离散信源。例32: THEY ARE MY FRIENDS.离散信源多符号离散信源的数学描述多符号离散信源可用随机矢量/随机变量序列描述,即 X=X1X2X3信源在不同时刻的随机变量Xi和Xi+r的概率分布P(Xi)和P(Xi+r)一般来说是不相同的,即随机变量的统计特性随着时间的推移而有所变化。离散信源离散平稳信源若信源输出的随机序列X=(,)中,每个随机变量 Xi (i=1,2,,N)都是取值离散的离散型随机变量,即每个随机变量Xi的可能取值是有限的或可数的。而且随机矢量X的各维概率分布都与时间起点无关,也就是在任
5、意两个不同时刻随机矢量X的各维概率分布都相同。这样的信源称为离散平稳信源。如中文自然语言文字,离散化平面灰度图像都是这种离散型平稳信源。一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比较困难。为了便于分析,我们假设信源输出的是平稳的随机序列,也就是序列的统计性质与时间的推移无关。很多实际信源也满足这个假设。离散信源平稳信源的数学模型(二维)最简单的离散平稳信源:二维平稳信源 X=X1X2每两个符号看做一组,每组代表信源X=X1X2的一个消息;每组中的后一个符号和前一个符号有统计关联,这种概率性的关系与时间起点无关;假定符号序列的组与组之间是统计独立的。设X1,X2 x1,x2,xn
6、,矢量Xx1x1, x1xn,x2x1, ,x2xn, xnx1, ,xnxn 令X的数学模型离散信源离散平稳无记忆信源在某些简单的离散平稳信源情况下,信源先后发出的一个个符号彼此是统计独立的。也就是说信源输出的随机矢量X=(XXX)中,各随机变量Xi (i=1,2,N)之间是无依赖的、统计独立的,则N维随机矢量的联合概率分布满足P(X)=P()P()P()我们称由信源空间X,P(x)描述的信源X为离散无记忆信源。这信源在不同时刻发出的符号之间是无依赖的,彼此统计独立的。离散信源离散无记忆信源的N次扩展信源离散无记忆信源X= x1,x2,xn,对它的输出消息序列,可以用一组组长度为N的序列来表
7、示它。这时它就等效成了一个新信源;新信源输出的符号是N长的消息序列,用N维离散随机矢量来描述。ai=(xi1xi2xiN) i=1,2, ,n 每个分量xik (k=1,2,N)都是随机变量,都取值于同一信源X,并且分量之间统计独立。由随机矢量X组成的新信源称为离散无记忆信源X的N次扩展信源。离散无记忆信源的N次扩展信源的数学模型是X信源空间的N重空间。 A B D A C B B A C C D X1 0 0 0 0 0 0 0 0 0 0 0X2 1 1 1 1 1 1 1 1 1 1 1 X3 0 0 0 0 0 0 0 0 0 0 0 X4 0 0 0 0 0 0 0 0 0 0 0
8、X5 0 0 0 0 0 0 0 0 0 0 0 X6 0 0 1 0 0 0 0 0 0 0 1 X7 0 1 0 0 1 1 1 0 1 1 0 X8 1 0 0 1 1 0 0 1 1 1 0 X 1 、X 2、X8 ,均为单符号随机变量信源X=0,1,P( X 1 X 2X8 ) 与时间起点无关平稳P( X 1 X 2X8 ) P(X 1)P(X 2)P(X8 )无记忆信源例33:电文: 女 孩 儿 在 哭X CHUYJ KOIUY HSFRT NHYTF SGTRW X1 C K H N SX2 H 0 S H GX3 U I F Y TX4 Y U R T RX5 J Y T F
9、W X1,X2,X3,X4,X5均为单符号随机变量XA、B、CZP(X1X2X3X4X5)=P (X1)P(X2)P(X3)P(X4)P(X5) 且与时间起点无关,X为一无记忆平稳信源例34:离散信源二进制无记忆信源的N次扩展信源把信源输出的序列看成是一组一组发出的。电报系统中,可以认为每二个二进制数字组成一组。这样信源输出的是由二个二进制数字组成的一组组符号。这时可以将它们等效看成一个新的信源,它由四个符号00,01,10,11组成,把该信源称为二进制无记忆信源的二次扩展。如果把每三个二进制数字组成一组,这样长度为3的二进制序列就有8种不同的序列,可等效成一个具有8个符号的信源,把它称为二进
10、制无记忆信源的三次扩展信源。二进制无记忆信源的N次扩展:把每N个二进制数字组成一组,则信源等效成一个具有2N个符号的新信源,把它称为二进制无记忆信源的N次扩展信源。离散信源离散平稳有记忆信源 一般情况下,信源在不同时刻发出的符号之间是相互依赖的。也就是信源输出的平稳随机序列X中,各随机变量Xi之间是有依赖的。例如,在汉字组成的中文序列中,只有根据中文的语法、习惯用语、修辞制约和表达实际意义的制约所构成的中文序列才是有意义的中文句子或文章。所以,在汉字序列中前后文字的出现是有依赖的,不能认为是彼此不相关的。其他如英文,德文等自然语言都是如此。这种信源称为有记忆信源。我们需在N维随机矢量的联合概率
11、分布中,引入条件概率分布来说明它们之间的关联。女孩儿在哭 X THIS GIRL IS CRYING X1 T G I C X2 H I S R X3 I R Y X4 S L I X5 N X6 GX1,X2,X3,X4,X5均为单符号随机变量XA、B、CZP(X1X2X3X4X5)P (X1)P(X2)P(X3)P(X4)P(X5)与时间起点无关, X是一有记忆平稳信源例35:离散信源马尔可夫信源表述有记忆信源要比表述无记忆信源困难得多。实际上信源发出的符号往往只与前若干个符号的依赖关系强,而与更前面的符号依赖关系弱。为此,可以限制随机序列的记忆长度。当记忆长度为m+1时,称这种有记忆信源
12、为m阶马尔可夫信源。也就是信源每次发出的符号只与前m个符号有关,与更前面的符号无关。离散信源时齐马尔可夫信源设马尔可夫信源各时刻随机变量的取值为xk,xkXk,k=1,2,,i-1,i,i+1,N,则描述随机序列中各随机变量之间依赖关系的条件概率为 P(xi|xi+2xi+1xi-1xi-2xi-3xi-mx1) =(xi|xi-1xi-2x-3xi-m) (i=1,2,N)如果上述条件概率与时间起点i无关,即信源输出的符号序列可看成为时齐马尔可夫链,则此信源称为时齐马尔可信源。1. 各字母等概、字母间不相关(字符独立) XFOML RXKHRJFFJUJ LPWCFWKCYFFJEYVKC
13、QSGHYDQPAAMKBZAACIBZLHJQD.2. 字母出现概率按照英文文本统计,字母间不相关(字符独立) OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVANAH 3. 字母出现概率按照英文文本统计,字母间存在二维相关性(两两相邻字母相关 ) ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVETUCOOWEAT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE.信源建模信源建模4.字母出现概率按照
14、英文文本统计,字母间存在三维相关性 IN NO IST LAT WHEY CRATICT FROUREBIRSGROCIDPONDENOME OF DEMONSTURESOF THE REPTAGIN IS REGOACTIONA OF CRE.5.字母出现概率按照英文文本统计,字母间存在N维相关性 REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURALHERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHESTHE LINE MESSAGE
15、 HAD BE THESE.6.单词间存在相关性(依据语法). THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED. 模型复杂度越高,越逼近实际。一个足够复杂的随机序列模型能够满意地表示自然语言的信源。离散序列信源总结 模拟信源模拟信源又可根据时间是否离散分为连续信源和波
16、形信源。连续信源是时间离散而取值连续的一类信源,波形信源是指取值连续时间也连续的一类信源。由于模拟信源的情况比较复杂,限于学时,我们只对单变量连续信源的信息测度进行讨论。连续信源单变量连续信源(1)有的信源虽输出是单个符号(代码)的消息,但其可能出现的消息数是不可数的无限值,即输出消息的符号集A的取值是连续的,或取值是实数集(-,)。例如,遥控系统中有关电压、温度、压力等测得的连续数据。这些数据取值是连续的,但又是随机的。我们可用一维的连续型随机变量X来描述这些消息。这种信源称为连续信源,其数学模型是连续型的概率空间。 连续信源单变量连续信源的描述 单变量连续信源的输出是取值连续的随机变量。可
17、用变量的概率密度、变量间的条件概率密度和联合概率密度描述。 一维概率密度函数 条件概率密度和联合概率密度函数其中:波形信源更一般地说,实际信源输出的消息常常是时间和取值都是连续的。例如,语音信号X(t)、热噪声信号n(t)、场景图像信号X(x0,y0,t)等时间连续函数。在某一固定时间t,它们的可能取值又是连续的和随机的。对于这种信源输出的消息,可用随机过程来描述。称这类信源为随机波形信源。波形信源分析一般随机波形信源比较复杂和困难。常见的随机波形信源输出的消息是时间、频带受限的随机过程。 根据取样定理,可以把这样的随机过程用一系列时间(或频率)域上离散的取样值来表示,而每个取样值都是连续型随
18、机变量。随机过程转换成时间(或频率)上离散的随机序列。在某种条件下可以转换成随机变量间统计独立的随机序列。平稳的随机过程可转换成平稳的随机序列。随机波形信源转换成连续平稳信源。若对每个取样值(连续型的)经过分层(量化),就可将连续的取值转换成有限的或可数的离散值。连续信源转换成了离散信源。 波形信源(时间连续、取值连续) 连续信源(时间离散、取值连续) 离散信源(时间离散、取值离散)采样量化实际信源实际信源在离散情况下是消息序列信源,在连续情况下是随机过程信源,它们分别代表数字与模拟信源。实际信源离散序列信源(1)其中,i=1,2,n为每个消息(符号)取值的种类数 l=1,2,L为消息(符号)
19、序列的长度应注意的是i和l是代表两个不同范畴的变量,表示不同的概念,切勿混淆。如:五码英文报:i=26+1,l=5i=1,2,nl=1,2,L实际信源离散序列信源(2)信源输出是一组随机序列(矢量):其样值为:对应概率为:由于每个随机变量U=1,2,n有n种取值,则 有 种可能取值。如:五码英文报:i=26+1,l=5 , 共有275种取值实际信源离散序列信源(3)例36:最简单L=3的三位PCM信源:这时L=3, n=2, 即i=0,1,则有:实际信源连续波形信源(1)在实际的连续波形信源中,可以采用两种方法进行分析一类是将连续波形信源转化为随机序列信源另一类是仍然采用随机过程来分析什么样的
20、信源可以进行离散化处理?实际上,只要满足一个非常宽松的条件,即满足限时(T)、限频(F)的连续消息信源,即满足物理可实现条件下,均可离散化为随机序列。实际信源连续波形信源(2)图像信源图像信源一般可以引用一个四元的随机场来表示: (简化)主要统计特性: 初步可以认为是一个近似的平稳遍历过程实际信源连续波形信源(3)语音信源 语音信源可以近似用一个一维随机过程U(, t)表示。严格的讲,它是一个非平稳过程,但是对于短时段(5-50ms)可认为是平稳的,且某些是随机噪声(清辅音),而某些时段则呈现周期性特征(浊音),还有一些短时段是二者的混合,但是对于短时段(5-50ms)可认为是平稳的。信源输出
21、信号中携带信息如何度量?(以离散信源为例)问题三信源输出信号中携带信息的度量单符号信源的熵离散无记忆平稳信源的熵无记忆平稳信源的N次扩展信源的熵有记忆平稳信源的熵率离散无记忆平稳信源的N次扩展信源的熵因为是无记忆的/统计独立 若ai =(xi1xi2xi3xiN) 则p(ai)=p(xi1)p(xi2) p(xiN) 其中i1,i2,iN1,2,n 根据信息熵的定义,N次扩展信源的熵可以证明:离散无记忆信源X的N次扩展信源的熵等于离散信源X的熵的N倍,即H(X)=H(XN)=NH(X)例37有一离散无记忆信源求这个离散无记忆信源的二次扩展信源,扩展信源的每个符号是信源X的输出长度为2的符号序列
22、。因为信源X共有3个不同符号,所以由信源X中每两个符号组成的不同排列共有32=9种,得二次扩展信源共有9个不同的符号。因为信源X是无记忆的,则有可以算得H(X)=1.5 比特/符号(此处的符号是指X信源的输出符号xi)H(X)=H(X2)=H(A)=3 比特/符号(此处的符号是指扩展信源的输出符号ai ,它是由二个xi符号组成) 所以 H(X)=2H(X)对上述结论的解释: 因为扩展信源XN的每一个输出符号ai是由N个xi所组成的序列,并且序列中前后符号是统计独立的。现已知每个信源符号xi含有的平均信息量为H(X),那么,N个xi组成的无记忆序列平均含有的信息量就为NH(X)(根据熵的可加性)
23、。因此信源XN每个输出符号含有的平均信息量为NH(X)。 离散无记忆平稳信源的熵当随机变量X1和X2相互统计独立时,则因此结论:随机变量X1和X2统计独立时,二维离散平稳无记忆信源X =X1X2的熵H(X)等于X1的熵H(X1)和X2的熵H(X2)之和。当X1和X2取值于同一集合时, H(X1)=H(X2)=H(X), H(X)= H(X2)=2H(X),与离散无记忆信源二次扩展信源的情况相同。可以把离散无记忆平稳信源的二次扩展信源看成是二维离散无记忆平稳信源的特例;离散平稳有记忆信源的信源熵N维离散平稳有记忆信源的熵H(X)= H(X1)+ H(X2/X1)+ H(X3/X1X2)+ H(X
24、N/X1X2XN-1)证明:(略) 结论:多符号离散平稳有记忆信源X的熵H(X)是X中起始时刻随机变量X1的熵与各阶条件熵之和。由于信源是平稳的,这个和值与起始时刻无关。离散平稳有记忆信源的条件熵的非递增性条件熵H(XN /X1X2XN-1)随N的增加是非递增的,即H(XN /X1X2XN-1) H(XN /X1X2XN-2)证明 前面已证明: H(X2/X1) H(X2), 同理可证: H(X3/X1X2) H(X3/X2), 由于信源是平稳的,所以 H(X3/X2)= H(X2/X1), 故得 H(X3/X1X2) H(X2/X1) H(X1) 对于平稳信源递推 H(XN /X1X2XN-
25、1) H(XN-1 /X1X2XN-2 ) H(XN-2 /X1X2XN-3 ) H(X3/X1X2) H(X2/X1) H(X1)离散平稳有记忆信源的平均符号熵H(X)/矢量熵= H(X1X2XN-1XN)/联合熵表示平均发一个消息(由N个符号组成)提供的信息量。平均符号熵:信源平均每发一个符号提供的信息量为离散平稳有记忆信源的 熵率(极限熵)对于离散平稳信源,考察其输出信息量例38XP(x) 0 1 211/36 4/9 1/4ajai01201/41/18011/181/31/18201/187/36ajai01209/111/8012/113/42/9201/87/9P(ai,aj)P
26、(ai/aj)当信源符号间无依赖性时:当考虑信源符号间的一维依赖性时:条件熵:联合熵:可见:且:考察信源符号间有依赖性时联合信源的平均符号熵:可见:比特/符号比特/符号比特/二个符号比特/符号分析:结论:符号间的相关性使得信源的平均符号熵减少,即 每个符号平均携带的信息量减少。问题:H2(X)和H(X2|X1)哪一个值更能接近实际二维平稳 信源的熵?即:用哪一个值来表示二维平稳信源 每个符号平均携带的信息量比特/符号考察:离散平稳有记忆信源符号之间的依赖长度为N的信源定义:N长的信源符号序列的平均符号熵即平均每个信源符号 所携带的信息量为比特/符号当 时,存在以下性质:条件熵 随N的增加是非递
27、增的平均符号熵 随N的增加是非递增的N给定时,平均符号熵=条件熵。即: 存在,且:结论:对于有限记忆长度的平稳信源可用有限记忆长度的条件熵来对平稳信源进行信息测度。熵率对于离散平稳信源,考察其输出信息量假设字母序列长度为N,则有限长度的序列的熵可看成随机矢量( )的熵,可用联合熵表示,平均每个字母的熵 可以表示为 当 时,若 存在,则:定义: 为该平稳信源的熵率,又称平稳信源的极限熵或极限信息量对于一般的平稳信源,可以证明,极限 一定存在。 结 论熵率的含义:代表了一般离散平稳有记忆信源平均每发一个符号提供的信息量。多符号离散平稳信源实际上就是原始信源在不断地发出符号,符号之间的统计关联关系也
28、并不仅限于长度N之内,而是伸向无穷远。所以要研究实际信源,必须求出熵率H,才能确切地表达多符号离散平稳有记忆信源平均每发一个符号提供的信息量。熵率的计算:必须测定信源的无穷阶联合概率和条件概率分布,这是相当困难的。有时为了简化分析,往往用条件熵或平均符号熵作为熵率的近似值。在有些情况下,即使N值并不大,这些熵值也很接近H,例如马尔可夫信源。问题四信源输出信号的信息携带效率如何表示?信源输出信号的信息携带效率的表示冗余度与信源效率它表征信源信息率的多余程度,是描述信源客观统计特性的一个物理量。 由广义Shannon不等式有: 冗余度1可见对于有记忆信源,最小单个消息熵应为 ,即从理论上看,对有记
29、忆信源只需传送 即可。但是这必需要掌握信源全部概率统计特性。这显然是不现实的。实际上,往往只能掌握有限的维,这时需传送 ,那么与理论值 相比,就多传送了 。冗余度2 为了定量描述信源有效性,可定义: 信源效率: 信源冗余度: (相对剩余)或者定义: 冗余度: 信源效率: 相对冗余度:冗余度3正由于信源存在着冗余度,即存在着不必要传送的信息,因此信源也就存在进一步压缩信息率的可能性。冗余度越大,压缩潜力也就越大。可见它是信源编码、数据压缩的前提与理论基础。 字母 字母 字母 空格ETOANIR0.20.1050.0720.06540.0630.0590.0550.054SHDLCF.UMP0.05020.0470.0350.0290.0230.0225 0.0210.0175Y.WGBVKXJ.QZ0.0120.0110.01050.0080.0030.0020.0010.001冗余度4例39:计算英文文字信源的冗余度)首先给出英文字母(含空格)出现概率如下:冗余度5首先求得独立等概率情况H0 ,即其次,计算独立不等概率情况H1 ,再次,若仅考虑字母有一维相关性,求H2 ,最后实际熵H,利用统计推断方法求出。由于采用的逼近的方法和所取的样本的不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设定明确的工作优先级计划
- 财务分析在企业评估中的应用计划
- 教学创新与成果分享机制计划
- 防止职业倦怠的小技巧计划
- 医学影像科医生工作计划
- 建立员工反馈与建议机制计划
- 2025年电动晾衣机项目合作计划书
- 景区承包合同
- 珠宝定制服务特殊条款协议
- 农产品电商项目开发合作框架协议
- (完整版)中心医院心血管学科的专科建设与发展规划
- 劳动合同法草案的立法背景与创新黎建飞中国人民大学法学院教授
- 第三章 检测仪表与传感器
- 服装QC尾期查货报告(中英双语)
- 冷库喷涂施工工艺(详细)
- 电机学辜承林(第三版)第1章
- 医疗机构停业(歇业)申请书
- Counting Stars 歌词
- 肩锁关节脱位的分型及其endobutton手术治疗
- 管理系统中计算机应用PPT课件
- 企业办公自动化系统设计与实现
评论
0/150
提交评论