




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息论与编码技术主讲教师:第一章 绪 论信息论 (Information Theory)是通信中的数学理论,是研究信息的传输、存储和处理的科学回答两个基本问题数据压缩信息传输速率+无失真压缩受到熵的约束限失真压缩受到信息率失真函数的约束信道容量主要讨论存在性问题有人认为是通信理论的子集实际上对统计物理、计算机科学(如算法复杂度)、概率与统计等学科都有贡献对学科发展的贡献信息论的起源1948年香农-论文“通信中的数学问题”(A Mathematical Theory of Communication)特点:概率统计方法对通信系统进行了研究,成果:揭示了通信系统传递的对象是信息,对信息进行了科学的
2、定量描述,提出了熵的概念。更早的研究内容1924年NyquistHartley对信息进行了定义解释了信号带宽与信息传输速率之间的关系1928年Hartley通信系统传输能力问题1936年Amstrong提出了增加带宽可以提高系统抗干扰能力研究进程Cover对多用户信息理论的研究做出了很大贡献。1.1信息论的形成与发展上个世纪五十年代在学术界引起极大反响六十年代扩展了研究领域点对点多用户信息论信 道 编 码 研 究采用长码、交织技术、迭代解码技术进行编解码,从而提高了编码效率和纠错能力。1.1信息论的形成与发展60年代信道编码(分组码)成为重要信息论分支70年代卷积码概率译码90年代之后Turb
3、o码LDPC1.1信息论的形成与发展信 源 编 码 研 究1948年香农:无失真编码定理(第一定理)设计香农码1952年费罗费罗码1959年香农:限失真编码定理(第三)即信息率失真理论Huffman哈夫曼码但是一般认为远远没有达到理论极限。 1.1信息论的形成与发展信源统计特性编码技术(尤其图像编码)快速发展图像编码小波比特平面编码算术编码信息率失真变换数据分类或者形成集合等熵编码码流优化作用信息论主要立足点基础:研究有效性信息可以度量可靠性信源编码信道编码提高传输数据中每个码元携带的信息量,从而提高数据传输效率。 使系统能够检测、纠正传输过程中的数据错误。通过目的信息论研究范围1.1信息论的
4、形成与发展狭义信息论信息度量信息特征信息容量干扰对信息传递影响广义信息论除了狭义信息论内容之外,还有信号设计(如信号分集)噪声理论噪声统计特性信号检测与估值信息、消息、信号三者既有联系又有区别 ;1.1信息论的形成与发展信息:表示事物的运动状态和状态变化的方式,是抽象的意识或者知识,是看不见、摸不着的。 比如人的想法,对事物的认识等等。消息是信息的载体,可以由消息得到信息指包含信息的语言、文字和图像等信息消息表述提取具体的抽象的信号不是物理性的,不能够直接在信道中传输。描述方法:随机变量或者随机序列变化来表示消息信号是消息的具体物理体现(如声波信号,电信号)信号是消息的载体,将消息转换为信号才
5、能够在信道中传输。信号变化可以表示一定的消息。信息消息信号待传输;特点:抽象;信息的表现形式;文字,图像,声音等;信号的变化描述消息;信息的基本特点1.不确定性受信者在接收到信息之前,不知道信源发送的内容是什么,是未知的、不确定性事件;3. 可以产生、消失、存储,还可以进行加工、处理;4. 可以度量2.受信者接收到信息后,可以减少或者消除不确定性;1.2 通信系统的模型 一般模型通信基本问题精确或者近似再现信源发出的消息。在存储或者通信等情况下,详细模型信息数据接收信息接收数据原始符号重建符号信道一定,数据传输错误概率一定数据并不是总是成立差错控制编码、译码足够好信息一般总是成立无失真编码符号
6、限失真失真编码有效性可靠性信 源产生消息的来源,可以是文字、语言、图像等; 输出形式:符号形式表示具体消息,是信息的载体 ;分类:连续的,离散的;基本特点:具有随机性。主要研究其统计规律和信源产生的信息速率。 1.2 通信系统的模型作用:将信源发出的符号转化为适合信道传输的信号;一般包括信源编码、差错控制编码(或者称为信道编码)和调制器等 。编码器 信源编码通过去除信源输出符号的冗余,使信源编码输出的每个符号携带更多的信息量,从而降低信息传递所需要的符号数量,即降低总体数据传输速率,提高传输效率。 1.2 通信系统的模型信源符号码序列信源编码器相关性减弱相关性强解决有效性建立准则提高信息传输的
7、效率;变换冗余相关冗余统计冗余生理冗余冗余变化统计冗余强统计冗余弱相关冗余信源输出前后符号之间存在一定相关性统计冗余信源输出符号不服从等概率分布生理冗余人的视觉对幅值失真不特别敏感,但是对相位引起失真很敏感人的耳朵对相位引起失真不敏感听音乐时,调节不同频率增益调节亮度对比度(电视、图片)调音台模型简化编码信道不会引入任何错误或者失真无失真编码与限失真编码信息传输率必要小于信道容量,否则无论采取任何信道编码技术,都会出现信息传递错误;在有些情况下,可以通过无失真编码即可满足上述要求;但是在更多情况下,必须采用限失真编码,才能使得信息传输率不大于信道容量。1.2 通信系统的模型无失真编码:信 源编
8、码器编 码信 道信 源译码器信源符号(序列)重建符号(序列)1.2 通信系统的模型重建符号与信源发送符号一致,即编码器输出码字序列与信源发送序列一一映射;重建符号与信源发送符号不完全一致;编码器输出码字序列与信源输出符号序列之间不是一一映射关系,出现符号合并,使得重建符号的熵减少了。限失真编码:总是成立的分别是编码输出码字和接收到的码字限失真、无失真是由于编译码器形成的由于信道中存在干扰,数据传递过程中会出现错误,信道编码可以检测或者纠正数据传输的错误,从而提高数据传输的可靠性。信道编码增加冗余对信道干扰的抵抗力信息传输的可靠性提高调制器 作用:将信道编码的输出变换为适合信道传输的要求的信号
9、;信道编码和调制器的组合称为信道编码器,主要是针对信道设计,其目的是为了利用信道的特性可靠地传输信息,提高信息传输的可靠性。1.2 通信系统的模型信源编码与信道编码是相互矛盾的,需要统一考虑以提高系统的总体性能。信源编码是通过去除冗余,提高系统传输的有效性;而信道编码则是通过增加冗余提高系统传输的可靠性,但是会降低系统总体有效性。信源信道联合编码技术:将信源编码和信道编码综合考虑,从而解决信源编码和信道编码之间的统筹优化问题。1.2 通信系统的模型信道与干扰 信道是信息传输的媒质,将携带信息的信号从一个地方传送到另外地方。常见的信道有明线、电缆、光纤、无线电波传输的空间等,这些都是电信号传输的
10、信道。在水中通信中可以采用声波传输,声波传输的媒质是水,所以水也是信道。随着科学技术的发展,大量的信息需要存储,存储器也是信道,而存储信息的媒质同样会收到破坏,所以也存在干扰。1.2 通信系统的模型信号在传输过程中会受到各种各样的干扰;信号的类型不同,经过的信道不同,所遭受的噪声、干扰也有差异。根据实际情况对噪声和干扰进行统计建模和分析,采用相应的处理方法。如常见的无线信号为高斯白噪声信道;移动通信为衰落信道;磁盘、光盘为突发差错信道。1.2 通信系统的模型译码器 译码器是编码器的逆过程,其目的是为了准确或者近似再现信源发出的消息。与编码器相对应,译码器一般由解调器、信道译码器和信源译码器组成
11、。解调器信道译码 器信 源译码器1.2 通信系统的模型信宿是消息传递的对象,即接收消息的人或机器,与信源处于不同地点或存在于不同时刻。它要对传送过来的消息提出可接受条件,即提出一定的准则,发端将以此来确定对信源处理时所要保留的最小信息量。信宿的数量可以是一个,也可以是多个,取决于具体应用需要。单输入、单输出的单向通信系统;单输入、多输出的单向通信系统;多输入、多输出的多向通信系统。1.2 通信系统的模型1.3信息论研究的内容通信统计理论的研究 主要研究如何分析信息和信息传输的统计规律。具体内容包括信息的度量、信息速率与熵、衡量信道传输能力的信道容量等。信源统计规律的研究不同的信源具有不同的统计
12、特性,如文字、字母的统计规律,语言 信号、静止图像和活动图像的统计特性。而不同的分解工具产生的数据也具有不同的统计特性。编码理论与技术的研究如信源编码理论与技术的研究,以提高信息传输效率;信道编码理论与技术的研究,以提高信息传输的可靠性。受信者接收器官研究 如人的听觉和视觉特点的研究,为信源编码提供编码的基本原则。第2章 信源与信源熵 目录2.2 信源的数学模型和分类2.3 离散信源的熵与互信息 2.4 熵的性质 2.5 离散信源序列的熵 2.6 连续信源的熵与互信息量 2.7信源相关性与冗余度2.1背景知识信源需要发出的消息数量不是一个,在任何指定的时刻,信源到底发出哪个消息是不能够事先确定
13、的,即具有随机性;如果信源每次发出的消息是已知的或者事先确定的,则该消息不能够提供任何信息。由于符号出现是随机,给观察者提供了一定的信息。不能够使用确定函数进行描述,应当使用统计方法对其规律进行研究。背景知识 1.概率基础知识概率空间是随机变量围绕均值分布离散程度的测度,或者说是随机变量混乱程度的一种测度。协方差互相关反应变量相关程度的指标统计量联合概率矩阵表示形式样本空间算术平均代替统计 平均样本方差EX未知EX已知大数定理相互独立条件转移概率矩阵完备性贝叶斯公式2平稳随机过程随机过程具有相同联合概率分布注意参数任意整数任意实数严格平稳条件过于严格宽(弱、广义)随机过程与时间t无关如果仅与时
14、间间隔(t-s)有关自相关互相关1由样本直接得到2算术平均形式反映数据关联程度2.2 信源的数学模型和分类 产生消息的信源符号在幅度和时间上都是离散的(与信号与系统中的概念不同),即符号数量是可数的或者是有限的,这样的信源是离散信源。 骰子只有1,2,3,4,5,6共6种点数,将掷一个骰子得到的点数看作是信源取值,那么这种信源就是离散信源 幅度和时间离散信源 连续信源幅度和时间上都是离散的时间上或者在幅度上是连续的如果信源的符号在时间上或者在幅度上是连续的,这类信源就是连续信源。如表示声音变化的电信号,不仅在时间上是连续取值,而且在幅度也是连续变化的,这样的信源就是连续信源。 可以对信号进行取
15、样,将之转换为时间上离散的信号序列,但是由于该信号序列的幅度取值是连续的,所以这样的信源仍然是连续信源;如果对序列进行量化编码,就得到数字信号序列,时间和幅度都是离散的信号,这样的信源就是离散信源。 取样、量化会造成信息损失,将在后面章节中进行分析、讨论。 模拟信号取样离散信号量化编码数字信号信号信息论连续信源连续信源离散信源消息符号之间是否关联有记忆信源无记忆信源符号序列或者矢量描述方式单个符号也可以使用符号序列2.1.1信源输出的消息由随机变量描述 离散无记忆信源可以用一个概率空间完全描述出来,即各个符号出现的概率一定,那么信源就确定了;信源一定,那么各个符号出现的概率就确定了,所以信源的
16、消息符号及其概率分布完整地描述了信源的特性。 定义2.1 如果信源输出的消息数量是有限或者可数的,而且每次只输出符号集中的一个消息,这样的信源称为简单离散信源。 且满足 简单离散信源而言,概率空间描述了信源的统计特性 投掷骰子问题 定义2.2 如果信源的输出是单个符号消息,但是消息的数量是不可数的,即输出消息的取值是连续的,这样的信源称为简单的连续信源。如使用模拟器件万用表、示波器观测的电压、电流信号都是连续数据,其取值幅度都是连续的。 R表示实数 取值范围2.1.2 信源输出的消息由随机矢量描述 信号很多情况下信源输出的消息符号之间具有一定的相关性;简单信源模型不能够描述;或者消息是由一系列
17、符号组成的简单信源模型也不能够描述这种由符号矢量构成的消息。 比如有一个布袋,内放100个球,其中白球80个,黑球20个,如果除了颜色不同之外,其它方面如手感、大小等都相同。现在从布袋中随机摸取一个球,观察球的颜色,摸到的球要么是白色,要么是黑色。如果将这样一个实验视为一个信源,这样的信源可以使用简单的离散信源加以描述,即一维形式改变实验方法,进行两次取球实验,首先取出一个球,记录球的颜色,取出的球不放回去,然后再取一个球,记录球的颜色。现在考察取出的两个球的颜色,只有4种可能:白色白色、白色黑色、黑色白色、黑色黑色 。a1,a2分别表示白色球和黑色球 二维适量定义2.3 如果离散信源输出的消
18、息是由一系列符号组成的,这样的信源称为多维离散信源。 使用N维随机矢量描述,N维随机矢量也称为N维随 机序列。一般说来,随机序列的统计特性比较复杂, 分析起来比较困难。如果信源输出的随机序列的统计特性与时间的推移 无关,那么该序列是平稳的。平稳随机序列分析相对简单,在实际中,为了分析问 题方便起见,假设分析的序列是平稳的。如果信源输出的随机序列中,每个随机变量都是离散的;随机矢量的各维概率分布都与时间无关,即任何时刻随机矢量的各维概率分布相同,那么这样的信源称为离散平稳信源;用N维概率空间描述。1离散无记忆信源 N维联合概率分布表示为 特点消息的符号之间彼此相互独立服从同一分布独立同一分布不仅
19、具有相同分布类型,而且参数也相同e.G都是正态分布,且均值、方差相等此时例如:取球方式 ,每次从袋中取出一个球,只记录球的颜色(用变量x1表示),将球放回袋中,然后再次取出一球,记录球的颜色(用变量表示x2),如果将这样两次取球实验视为信源输出符号,显然信源输出消息构成二维随机序列,而构成消息的两个随机变量相互独立,所以可以用随机变量的乘积加以描述。 比如K:编码器输入二进制数据长度N:输出二进制数据长度 。由于输送到信道编码器的数据是先经过信源编码器编码,所以相关性很弱 ;分组编码器将这些比特流数据划分为长度为k的一个个码组,并对每个码组进行信道编码 ;比特数据取值只有0,1两种符号,服从独
20、立同一分布 。(n,k)分组码线性分组码 :无记忆信源通常情况下,信源在不同时刻发出的符号之间是相互关联的。如前文所述的布袋取球实验中,先取一球不放回,然后再取一球,第二个球的颜色概率分布与第一个球的颜色有关。;如果摸出第一球为白色,则摸取第二个球颜色的概率为 若第一个球为黑色,则取第二个球颜色的概率 组成消息的两个球的颜色之间存在关联,这种信源是有记忆的 离散有记忆信源用N维联合概率分布加以描述 特点1表述的复杂程度将随序列长度N的增加而增加 ;2符号之间的相关性随着符号间隔的增加而减弱;处理方法1 根据实际研究的需要限制随机序列的长度2 需要考虑系统复杂程度来建立更为简单的模型,以达到相应
21、的研究目的。 当记忆长度为m+1时,即信源每次发出符号只与前m个符号相关,与更前面的符号无关,称这种信源为m阶马尔可夫信源。 如果条件概率与时间起点无关,这样的信源称为齐次马尔可夫信源 。定义2.4 如果连续信源输出消息时由一系列符号组成,这样的信源称为多维连续信源,也可以用N维随机矢量来描述。2.2 离散信源的熵与互信息 信源的随机性1.某时刻输出符号是随机的,接收者事先不能确定2.收到信息后可以消除或者减小这种不确定性噪声,干扰存在,不能完全消除信源的概率分布是确定的前文已知:信源可以用概率分布来描述信息量大小应该与概率有关2.2.1 非平均信息量 给定信源X,对应的概率空间为 1.给定时
22、刻,信源到底会发出什么符号,接收者事先不能确定;2.符号出现的概率不同,它的不确定性也不同;3.信息量定义应该遵循日常生活准则基本规则(1)确定性事件,即P =1时,信息量应当为0;(2)事件出现的概率越小,信息量应当越大; 反之亦 然; (3)自信息量为非负的(4)两个相互独立事件联合自信息量应等于它们各自两个信息量之和按照上述准则,在函数空间寻找满足要求的函数来定义信息量定义2.5 给定信源的概率空间 事件的自信息量定义为:取底为2,单位为比特; 取自然对数,单位为奈特(nat);以10为底,则单位为笛特(det)。 bitbit对数的底大于1例2.1 某二元信源发出符号0,1的概率分别为
23、, p(0)=1/4 ,p(1)=3/4, 求I(0),I(1)。解:根据定义知:比特比特分析:符号1出现概率大,它的出现给观察者提供的信息量就小。 符号0出现的概率较小,因此一旦出现,给观察者提供信息量大;如果二进制信源的消息0、1以等概率出现,则也就是说不管是0还是1的出现,接收者得到的信息量均为1比特,即这样信源输出用1比特表示就可以了。如果信源输出的m位二进制数,该数可以用m位0或者1组合表示,共有个等概率可能2m组合,所以每个符号的自信息量相等,都为m比特。不确定性讨论(1)自信息量是该符号出现后,提供给接收者的信息量(2)表示信源符号的先验不确定性每个符号具有一个先验概率,在信源符
24、号发出之前,存在不确定性一个出现概率很小的符号,接收者事先很难猜测它是否会发生,而概率很大的符号,出现的可能性大,很容易猜测它的出现。(3)符号的不确定性在数量上等于它的自信息量但两者含义不一样先验不确定性 信源符号固有的自信息量 信源发出后该符号为接收者提供的信息量,是为了消除该符号不确定性,接收信息者需要获得的信息量定义2.6 对于给定两个信源X、Y,对应概率空间分别为 事件bjY的出现给出的关于事件ai X的信息量为 同样定义为事件ai X的出现给出的关于事件bjY的信息量 事件关联性讨论在概率论中,反映两个事件关联程度,使用条件概率或者联合概率条件(联合)概率越大,说明两者之间的依赖性
25、(关联性)越强使用条件概率和无条件概率的比较,更能说明依赖关系比如观察到事件bjY,想知道事件ai事对bj的依赖关系,可以观察 与 大小事件bj出现有利于ai,两者关联性是相容的反之,两者之间是相斥的换种说法事件bj出现有利于事件ai的出现事件bj出现不利于事件ai的出现事件bj与事件ai之间没有关系相容相斥不相关信息论中,对两个事件概率的比值取对数,而对数运算是单值的;所以互信息定义只不过就是将上述描述事件关联程度的测度,做了一个简单函数变换;本质上没有区别。这里是讨论的事件之间的关联性;而不是随机变量的关联性(不是总体特性,后面讨论)注意:可以证明 证明:根据定义 分子、分母同时乘以概率
26、p(bj)由证明过程可知事件与事件之间的互信息量之所以存在,是因为两者之间存在相关,如果两者相互独立,则I(ai;bj)=0.如果事件ai的出现不利于事件bj的出现,那么I(ai;bj)0 ;互信息量的意义表示了事件之间的关联性,它可正可负;例2.2变量X的概率空间为变量Y取自符号集求解比特比特比特比特讨论事件b1出现有利于a1事件b1出现有利于a2a1,a2是相互对立的,有利于a1,必然不利于a2由于X,Y都只有两个取值,都是相互对立的,所以有下列关系定义2.7 给定联合概率空间 对于事件ai在事件给定条件bj下的条件自信息量定义为 条件信息量I(ai|bj)是在事件bj给定条件下 ,关于事
27、件ai的不确定性 ;I(ai|bj)较大时,则给出的关于事件ai出现保留较大的不确定性,反之就小。 物理意义给定bj条件情况下,为了唯一确定ai的出现所必须提供的信息量。 另外一种解释设ai为信源发出的符号,bj为接收的符号,如果I(ai|bj) 较大,p(ai|bj)越小.从译码角度而言, p(ai|bj)越小,在接收为条件bj下,信源发出的符号为ai的可能性越小,所以关于事件ai保留的不确定性越大;反之,信源符号剩下的不确定性变小。 直观的解释证明:相互关系例2.3 对于例2.2给定的概率空间,分别求出 I(ai),I(ai|bj),并且验证 I(ai)=I(ai;bj)+I(ai|bj)
28、解:例2.2中已求出 根据有 于是有 比特 比特 比特 比特 而 比特 由例2.2可知比特 比特 比特 比特 很容易验证:例2.4 设有两个离散信源集合1.自信息量2.条件自息量3.互信息量。解12根据概率论知识,先求注意完备性完备性比特比特比特比特由有0.7370.2230.514 比特比特比特比特定义2.8 给定联合概率空间 对于事件ai与事件bj的联合自信息量定义为 联合自信息量表示事件ai与事件bj同时出现的先验不确定性。如果X,Y表示信源输出的两个符号,那么联合自信息量表示信源符号输出符号对ai,bj提供信息量。 2.2.2平均信息量 自信息量反映了信源单个符号的先验不确定性,或者信
29、源输出某一消息所包含的信息量,即信源单个消息符号信息量的大小;信源输出的消息不同,各个消息符号对应的概率不同,所包含的信息量也就不同,所以它反映的只是具体输出消息符号的特性,不能够反映信源的总体特性,不能够作为信源的信息度量,只是单个符号的信息度量。下面讨论信源的总体不确定性,或者每输出一个消息符号所能够提供的信息量平均值,即平均信息量,也称为熵。 信息熵(Entropy) 定义2.9 定义自信息量的数学期望为信源的平均自信息量,也称为熵。H(X)表示随机变量X的熵,不是随机变量X的函数。熵的概念是来源于热力学概念,在热力学中,变量X表示系统所有的可能状态,p(ai)表示某一状态的概率,描述了
30、系统的“无规律”程度,即在给定时刻系统可能出现的有关状态的“不确定性”程度。信息论中H(X)表示信源的先验平均不确定性消息符号输出之前,表示确定信源X所需要的平均信息量发出消息符号后,每个输出消息符号所给出的信息量平均值单位与自信息量一样,信息熵的单位取决于所选取的底对数的底取2,此时相应的单位为比特/符号含义信源的熵反映的是信源的总体特性1信源的统计特性不同,信息熵也不同2给定信源,信息熵就确定了3信源符号不同,但是具有相同的统计特性,那么信息熵也是相同的即,信源熵的值与符号形式没有关系,只是取决于信源的总体统计规律,而且与符号的排列顺序也没有关系。进一步讨论在概率论中,同样有表述数据紊乱程
31、度的参数,就是方差熵与符号取值无关两种区别方差与符号取值有关更加抽象具体一些,且反映随机数据形象,有效例2.5 某二元信源的概率空间为求信源的熵。 解:根据定义信源的熵是概率的函数,为了方便起见,记作,其变化规律如图所示。 极值问题:当p=0.5时,H(p)取得极大值 当p0.5时,即两个符号出现概率相等时,对应的熵最大,H(x)=1比特/符号;由于p0.5时,两个符号输出的概率相等,信源没有输出之前,很难猜测哪个消息会出现;当pp(a2),变量随机性减少;只有当两个概率相等时,随机性最大信源编码的解释但在实际中,由于信源符号(数据)之间存在依赖性,并不是统计独立的,所以实际输出码率有可能小于
32、熵。这是因为在信息熵定义中,已经假设了信源符号之间相互独立,当这种假设不符合实际情况时,结论自然不成立。 信源符号之间相互统计独立信源熵就是对该信源进行无损压缩,输出码率最小值无论采用何种方法进行无损数据压缩,平均长度总是不小于熵信道编码的解释对于信道传输而言,信源熵只是反映了信源平均先验不确定性,一般情况下,并不等于信宿获得的平均信息量,只有在理想信道,即无噪声干扰情况下,信宿才能准确接收信源发出的消息,从而完全消除平均不确定性,获得的信息量的均值为H(X)。 例2.6 有一个布袋内放有100个求,其中红球80个,白球20个,球的大小和手感相同,从布袋内随机抽取一个球,猜测所取球的颜色,求摸
33、取一个球所获得的平均信息量。 解:令a1,a2分别表示摸取球的是红球和白球,摸取球的实验可以用一个概率空间表示 如果摸出的是红球,得到的信息量为 反之,如果摸出的是白球,得到的信息量为 bitbit如果每次摸出的球在记录下颜色后放回布袋,并且重复上述实验。从统计角度而言,那么摸取n次后,当n足够大时,摸出红球、白球的次数应当分别为np(a1),np(a2) ,那么n次实验得到的信息量为平均每次实验得到的信息量为 显然平均信息量就是熵,于是有 比特/符号 定义2.8 在联合集(XY)上,定义条件自信息量的数学期望为集合Y相对于集合X的条件熵。特别地,当X,Y相互独立时,有 物理意义:观测到集合Y
34、后,集合X保留或者剩余的不确定性。 信源编码的解释信源编码无失真信源编码器输入符号X与编码器输出Y一一对应信源X剩余的不确定性为0从Y中可以看到X的一切信息限失真X与Y不是一一对应从Y中只能看到X的部分信息X剩余不确定性不为0即条件熵H(X|Y)例2.7 已知信源的概率空间为计算条件熵 H(X|Y)解0.406 比特/符号3. 联合熵定义2.9:在联合集X,Y上,定义每对元素(ai,bj)同时出现的联合自信息量的数学希望为联合熵, 也称共熵。 联合熵表示了事件X,Y同时发生的不确定性。 对于通信系统而言,如果集合X表示信源输出符号,Y表示信宿接收符号,由于信道干扰的存在,输出消息符号与信宿接收
35、到的符号之间并非一一对应,X与Y之间都存在不完全一致的不确定性,联合熵就是X,Y之间的联合不确定性。 对于信源编码而言,X表示编码器输入,Y表示信源编码器输出如果是无失真编码,尽管符号表示方法不同,但由于编码器的输入与输出符号一一对应,概率空间分布相同,所以联合熵等于输入信源的熵,当然也等于输出信源的熵;如果是限失真编码,信源编码器输入符号数大于输出符号数,由于编码是从输入到输出的多对一映射,部分符号编码时进行合并,所以一般情况下联合熵就是输入信源的熵。 证明:由概率论可知 根据条件熵定义可知第二项就是H(Y|X),而第一项可以进一步简化 综合起来即可以得出 同理可以证明 例2. 8 信源概率
36、空间为信道转移概率矩阵为求联熵 解比特/符号方法1方法2比特/符号比特/符号比特/符号4. 平均互信息量 定义计算公式相互关系证明同理可以证明 互信息量I(X;Y)的意义:接收到Y后,所得到的关于X的信息量,或者X的不确定性减少量。 理想信道 :信道干扰很强,致使通信完全破坏 :一般情况下,信道干扰致使通信产生误码,使得X与Y之间不能够建立一一对应关系,这样从Y中不能够完全得到信源输出的全部信息,所得到关于X的信息量就是I(X;Y),或者表示信源X的不确定性减少量。 无失真编码限失真编码,一般情况下满足 各类熵之间的关系 (1) 信息熵 (2)条件熵 (3) 联合熵 (4) 交互熵 熵与统计量
37、之间的关系数学期望、方差、相关系数统计量具体与变量取值相关熵抽象与变量取值无关两组不同的数据,概率分布相同熵相同均值、方差不同平均互信息量反映两个随机变量或者信源输出前后符号之间关联性互相关、自相关系数反映数据之间的关联性联合概率分布、条件概率反映两个随机变量或者信源输出前后符号之间关联性 2.3 熵的性质 1非负性2对称性 3确定性 4扩展性5可加性如果两个信源X,Y独立,则 6香农辅助定理 对于任意r维概率矢量下列不等式成立:证明:引入下列引理 令 是凸函数,且当时取最大值。 时令x=qi/pi根据引理得到该定理表明,给定任意概率分布pi,对其它概率分布qi的自信息量取数学期望,必然会大于
38、信源本身的熵。 7最大熵定理 离散无记忆信源输出个不同的消息符号,当且仅当各个输出符号的概率相等时,信源的熵最大。 8条件熵小于无条件熵当且仅当与相互独立时等号成立。 证明: 根据条件熵的定义 为了利用香农辅助定理,将上述公式中的p(ai|bj)看作香农辅助定理中的p(ai),现在需要构造合适的 qi由于证明目标是为了找出条件熵H(X|Y)与熵H(X)之间的关系,所以令qi=p(ai),于是得到 代入上述表达式,可以得到2.4 离散信源序列的熵 更多情况下信源实际输出的消息是在时间或空间上的离散随机序列有些是无记忆信源,即序列的符号之间没有关联性更多的是记忆信源,即序列中的符号之间有相关性对于
39、离散随机序列,需要使用联合概率分布或者条件考虑分布函数来描述信源输出符号之间的关系2.4.1消息序列信息量的一般表达式 扩展信源 设基本信源输出长度为N的序列将之等效为一个新的信源联合概率分布为如果信源是无记忆的 序列熵的一般表示形式为 这是一种基本形式2.4.2离散无记忆信源的熵 条件概率等于无条件概率还没涉及是否平稳平均每个符号熵为 进一步地,如果信源是平稳的 对于离散无记忆平稳信源而言,平均每个符号的熵等于对应单个符号信源的熵。 2.4.3离散有记忆信源的熵特点1信源输出序列符号之间存在关联性;2.信源输出序列之间存在关联性结果是3.分析一般比较困难。只有在有些条件下才能够得出有意义的结
40、论这里只讨论离散平稳有记忆信源1.信源X的一维概率分布与时间起点无关;2.信源的各维联合概率分布与时间起点无关 注意i,j的任意性满足上述条件的信源为平稳信源特别地,如果当N=2时上述条件成立,即满足p(xixi+1)= p(xjxj+1),对不同的i,j, 那么该信源称为二维平稳信源。 1二维平稳信源 将X1X2作为一个新的信源 由前文讨论可知,H(X1X2)表示联合熵,它表示信源每输出一对消息(X1X2)能够提供的信息量,或者每一对消息的平均不确定性。而信源X每个可能符号的平均不确定性,或者每个符号携带的信息量为 称为二维平稳信源X的信息熵,也称为平均熵。 称为信源X的条件熵。注意形式上H
41、(X2|X1)与条件熵H(Y|X)相同,但是两者不是等价的,两者定义的信源不同,所代表的含义也不相同.H(X2|X1)描述的是同一个信源X输出前后符号之间的依赖关系;H(Y|X)描述的是两个不同信源之间的关系联合熵与条件熵之间的关系: 当前后输出符号之间不存在依赖关系时 二维平稳信源条件熵小于信源X的信息熵,只有当输出前后符号之间统计独立,也就是没有相互依赖关系时,两者才相等。 3 当前后两个输出符号之间统计独立时等号成立。 (1)由于、均属于信源X,而且信源是平稳的二维平稳信源X的熵具有下列性质(2)条件熵不大于无条件熵性质2例2.12 设离散二维平稳信源X的概率空间为 假设输出符号X2只与
42、其前一个输出符号X1有关,二维联合概率分布为 求联合熵 ,条件熵 和平均符号熵 。 解:首先求出 H(X1)比特/符号 求出联合熵 比特/二个符号 比特/符号 比特/符号 2一般离散平稳信源 符号之间的相关性不仅仅存在于相邻的两个符号之间,而且存在于更多的相邻符号之间,因此一般离散信源更为复杂对于平稳多维信源,可以将二维平稳信源的结论加以推广,得出一般离散平稳信源熵的性质1.条件熵是随N的增加而非递增的 证明由于条件熵不大于无条件熵,条件多的熵不大于条件小的熵 根据信源的平稳特性可知 依此类推 。第一次使用平稳第二次使用平稳2.当N给定时,平均符号熵不小于条件熵 注意:是N-1个条件,少一个就
43、是错误的错误的证明:平均符号熵为 使用性质1,即 可以得到3.平均符号熵是随N增加而非递增的 4.极限熵是存在的证明:根据结论3可知 又因为 故H存在,且取值范围为0,H1。 现另设一整数k,根据序列熵的定义 H 称为离散平稳信源的极限熵或极限信息量表示当输出序列相关性为无限长时信源的平均符号熵由结论1和平稳性,可以得出 当取k足够大时 因为 于是得到 极限熵的讨论表示离散平稳信源的熵;很难计算出极限熵对于一般离散平稳信源,当N不是很大时就能够得出非常接近的H实际工程对于平稳信源而言,随着N的增加,相关性迅速减弱,当N足够大时,即使再增加相关长度N,平均符号熵的几乎不再减小,所以没有必要求出信
44、源的极限熵往往根据研究需要或者实际情况,简化模型,当序列长度N能够满足要求时,就可以利用HN(X)代替信源的熵,便于展开研究; 即使信源不是严格平稳的,为了便于研究问题,可以将之视为平稳的,以便得到有意义的结果。 2.4.4 马尔可夫信源的熵 实际中,信源不一定是平稳的,而非平稳信源的分析较复杂;其中有一种非平稳信源比较特殊,称为马尔可夫信源。这类信源的主要特点是:输出符号序列中符号之间的依赖关系是有限的。 设信源输出符号之间的相关长度为m+1,即当前输出符号的概率只与此前输出的m个符号相关,与更前时刻输出的符号无关,用公式表示为 长度为N序列的联合概率可以表示为 考虑相关长度为m,该公式可以
45、简化为 这类信源称为m阶马尔可夫信源,可以用马尔可夫链加以描述。其中最简单的情况是m1 由随机过程理论可知,如果马尔可夫链的一步转移概率与时刻起点无关,则称之为齐次马尔可夫链。 当m1时,需要使用状态分析,齐次性表现为状态之间的概率转移与时刻起点无关,只与状态的取值有关。 设m阶马尔可夫信源输出符号取值于符号集A,信源在当前时刻之前的出现符号序列用矢量表示为 则共有rm种可能取值,构成状态集合s1,s2,srm 设当前符号xj出现后,信源所处的状态为则条件概率可以用状态转移概率表示,即 状态转移概率如果状态转移概率是齐次的,即与时间起点无关,则可以作为齐次马尔可夫链进行处理。马尔可夫链可以利用
46、状态转移图加以描述 。状态状态转移状态转移概率输入由于系统在任何时刻总是处于状态空间S中一种状态,因此描述状态转移的一步状态转移概率构成一个矩阵,称为一步状态转移矩阵,可以表示为 那么齐次马尔可夫链的n步转移矩阵P(n)为 该式说明齐次马尔可夫链的一步转移概率矩阵完全确定了n布转移概率。 齐次马尔可夫链的概率分布,不仅取决于一步转移概率矩阵,而且与系统的初始概率分布有关; 但是马尔可夫链经过一定步数转移后,可能达到稳态,稳态时的概率分布与初始概率已经没有关系。 假设稳态时,状态的概率分布向量为稳态就是概率分布满足下列方程 系统的稳态分布与初始时刻符号的概率分布是不同的,所以马尔可夫信源并不是平
47、稳的。但是当齐次、遍历的马尔可夫信源达到稳态后,可以看作一个平稳信源。由于对于平稳信源必须知道信源的各维概率分布,而对于阶马尔可夫信源只要知道与前个符号有关的条件概率,就可以计算出信源的信息熵,所以,一般平稳信源可以用阶马尔可夫信源来近似。 对于齐次、遍历的马尔可夫信源而言,当其达到稳定状态后,可以求出条件熵作为H 例2.13 某马尔可夫信源的转移概率矩阵为求出稳态分布和平均符号熵。解:系统到达稳态后应当满足方程其中约束条件各种状态下输出符号的平均信息量为比特/符号比特/符号比特/符号对3种状态求统计平均得到信源的熵为比特/符号2.5 连续信源的熵与互信息量 前文讨论了离散信源的熵和互信息量,
48、离散信源的统计特性是用概率分布来描述的(包括联合分布、条件概率)。有许多信源输出的不是离散符号,而是在时间或者幅度上是连续取值的,如通信中信号采样时刻的采样值在时间上是离散的,在幅度上是连续取值的,而接收机接收的波形在时间和幅度上都是连续的,这类信源称为连续信源。连续信源取值是不可数的,不能象离散信源那样使用概率分布来描述其统计特性,应当使用概率密度函数加以描述。2.5.1幅度连续单个符号信源 设X为幅度连续变化的随机变量,不失一般性,假设X的取值范围为a,b,对应的概率密度函数为PX(x) ,满足 为了使用离散信源熵的定义,对随机变量X进行量化,设量化级数为 n,则量化间隔为 量化范围的量化
49、值取为 上式中的第二项为无穷大,第一项与离散信源熵的定义具有相同的形式,只是累加变为了积分,概率变为概率密度。丢掉第二项,由第一项定义连续信源的熵为 尽管连续信源熵与离散信源熵具有相同的形式,但是意义并不相同。由于连续取值,连续熵应当为无穷大,因为连续随机变量必要使用无限多个比特才能够表示。上述连续信源熵的定义去掉了无穷大的分量,在实际中经常遇到熵之间的差,比如互信息量,只要两者逼近所选取的x相近,无穷大的分量会相互抵消。连续信源的熵具有相对性,也称为相对熵或者差熵。 满足下列关系: 例2.14 两个信源X,Y都服从均匀分布,对应的概率密度函数分别为解比特/符号比特/符号显然这种结论是十分荒唐
50、的,同样是均匀分布,只不过概率密度不一样,得出的结果完全不同,这是因为只是表示相熵,绝对熵都为无穷大,所以相对熵具有相对意义,只有在相对条件下才有意义。2.5.2波形信源 对随机过程进行采样,得到的平稳随机矢量为和定义平稳随机矢量的连续熵和条件熵分别为 连续波形熵和互信息量为 相互关系2.5.3 最大熵定理 限峰功率最大熵定理:对于定义域为有限的随机变量,当它是均匀分布时,具有最大熵。限平均功率最大熵定理:对于相关矩阵一定的随机变量,当它服从正态分布时具有最大熵。 根据最大熵定理可知,如果噪声服从正态分布,则噪声熵最大,因此高斯白噪声获得最大噪声熵;高斯白噪声是最有害的干扰,在一定平均功率条件
51、下造成有害信息最大;在通信系统中,往往各种设计都将高斯白噪声作为标准,这不完全是为了简化分析,而是因为根据最坏的条件进行的设计可获得可靠的系统。2.6信源相关性与冗余度 冗余度也称多余度或剩余度,表示给定信源实际发出消息所包含的多余信息。如果一个消息所包含的符号比表达这个消息所需要的符号多,那么这样的消息就存在多余度。冗余度来自两个方面:(1)信源输出符号间的相关性。信源先后输出符号之间存在一定的依赖关系,使得信源熵减小,这就是信源的相关性。相关程度越大,则信源的熵越小;反之,相关程度越弱,则信源熵就增大。对于离散有记忆信源,信源的熵为H,假设实际应用中只考虑m个符号之间的相关性,就用来Hm(
52、X)代替H;根据熵的性质,无论是Hm(X)还是H都不大于H(X) ,所以信源输出符号之间的相关性就是一种冗余。(2)信源输出符号的概率统计冗余,即概率分布的不均匀性。当信源输出符号为等概率分布时,信源熵最大。而实际应用中,一般信源的统计特性不是等概率分布的,实际信源的熵不大于,所以信源输出符号存在统计冗余。对于一般平稳信源来说,要传送这一信源的信息,理论上只需要有传送无限熵这么多信息即可但实际应用中,对信源的概率分布未能完全掌握,只能算出Hm(X)或者考虑到具体的实现工具的限制,只能采用相对比较简单的模型进行分析和设计,此时只能使用有限熵作为相应的分析和设计依据由于极限熵是信源熵的最小值,为了
53、衡量实际使用的Hm(X)与极限熵,之间存在的差距,引入信息效率与冗余度概念。定义2.13定义信源的极限熵与Hm(X)的比值为信息效率定义2.13 定义 为信源的冗余度第3章 信道与信道容量主讲:目 录3.1信道分类3.2 单符号离散信道及其容量 3.2.1 数学模型 3.2.2信道容量 3.2.3 离散信道容量的迭代算法3.3 离散序列信道及其容量 3.4 信源与信道的匹配3.5 连续信道及其容量 3.5.1 连续单符号加性信道 3.5.2 多维无记忆加性连续信道 3.5.3 加性高斯白噪声波形信道信道就是信息传输的通道,是通信系统的重要组成部分,是传输信息的载体,其主要任务是传输或者存储信息
54、。通信的本质就是通过信道传输信息,实现不同地点之间或者不同时间的信息交流。信道是信息论的主要研究对象之一,其主要研究内容是在理论上能够传输或者存储的最大信息量,即信道容量。3.1信道分类 信道特点输入、输出信号之间不再具有明确的函数关系,而是具有统计依赖关系通过研究信道输入输出信号以及相互之间的依赖关系来研究信道信道是指信息传输的通道实际通信系统中使用各种各样的物理通道,各种存储媒质有线的各种线路,无线的电波传输空间根据研究需要,可以选择通信系统中不同的信道输入输出点,甚至可以将其中部分子系统进行简化处理。物理信道的不同,信号传输过程中引入的噪声或者干扰类型也不尽相同,所以统计特性的研究是通信
55、理论的主要内容之一统计特性不是信息论的研究内容,一般认为已经知道信道的传输特性,在此基础上研究信息传输问题不研究信号在信道中的具体传输过程假设信道的传输特性是已知的研究方法根据不同的研究需要,将噪声或者干扰对信号传输的影响映射为对应形式的统计特性信道分类统计特性恒参信道随参信道信道的统计特性不随时间而变化。如卫星信道一般视为恒参信道信道的统计特性随时间而变化大多数的信道都是随参信道,统计特性随着环境、温度、湿度等参数而变化。如短波信道、微波信道等。 用户量单用户信道多用户信道也称两端信道,该信道只有一个输入端和一个输出端,而且只能进行单方向的通信也称多端信道,输入端或者输出端至少有一端具有两个
56、或者两个以上用户,并且可以实现双向通信输入、输出的取值特性离散信道连续信道半离散半连续信道也称为数字信道,该类信道中输入空间、输出空间均为离散事件集合,集合中事件数量是有限的,或者有限可数的,随机变量取值都是离散的也称为模拟信道,输入空间、输出空间均为连续事件集合,集合中事件的数量是无限的、不可数的输入空间、输出空间一个为离散事件集合,而另一个则为连续事件集合,即输入、输出随机变量一个是离散的,另一个是连续的波形信道也称为时间连续信道,信道输入、输出都是时间的函数,而且随机变量的取值都取自连续集合,且在时间上的取值是连续的噪声的统计特性随机差错信道突发差错信道信道中传输码元所遭受的噪声是随机的
57、、独立的,这种噪声相互之间不关联,码元错误不会成串出现信道中噪声或者干扰对传输码元的影响具有关联性,相互之间不独立,从而使得码元错误往往成串出现, 常有的如衰落信道、码间干扰信道。 在实际中这种信道经常出现,如移动通信的信道、光盘存储器等最具有代表性的是高斯白噪声信道3.2单符号离散信道及其容量3.2.1 数学模型单符号信道单维信道信道的输入符号之间、输出符号之间都不存在关联性,即无记忆的,信道的分析可以简化为对单个符号的信道分析如果信道的输入、输出随机变量都是离散的,则该信道为单符号离散无记忆信道。输入符号、输出符号不存在关联性,并不表示输出符号与输入符号之间不存在关联性信道的特性可以使用条
58、件转移概率进行描述 ;表示在输入为ai时,通过信道后接收为bj的概率,描述了信道噪声的特性。矩阵形式条件转移矩阵或者信道转移矩阵r*sp(bj|ai)通常称为前向概率p(bj|ai):后向概率表示当接收符号为bj时,信道输入为ai的概率,所以也称为后验概率贝叶斯公式后验概率都是十分重要的,可以通过前向概率和先验概率计算出3.2.2信道容量 单符号离散信道平均每个符号传送的信息量定义为信道的信息传输率R由于信道中存在干扰,输入符号经过信道可能会出现错误,信道输出端接收的符号与输入符号之间并不是一一对应信道输入平均信息量H(X)并不等于信道输出端信息量H(Y)信道的信息传输率R含义:能够正确传输的
59、信息量 对于给定信道,前向概率p(y|x)是一定的,所以信道容量就是在信道前向概率一定的情况下,寻找某种先验概率分布,从而使得平均互信息量最大,这种先验分布概率称为最佳分布。 定义3.1 设某信道的平均互信息量为I(X;Y),信道输入符号的先验概率为p(x),该信道的信道容量C定义为 条件极值问题约束条件先验概率分布已知条件前向概率p(y|x)变化输入分布p(x)极值I(X;Y)最大值使得I(X;Y)最大,这种先验分布概率称为最佳分布几点结论:1对于给定信道最佳分布总是存在的如果信道输入满足最佳分布,信息传输率最大,即达到信息容量C2信道输入的先验分布不是最佳分布,那么信息传输率不能够达到信息
60、容量3信息量R必须小于信道容量C,否则传输过程中会造成信息损失,出现错误;如果RC时, 不存在一种信道编码使得以传输信息而错误概率为任意小 第4章 离散信源编码理论主讲 目录4.1 信源编码的基本概念4.2 渐近等同分割性4.3 信源无失真编码 4.3.1 等长码 4.3.2 变长码4.4 信息率失真函数及性质 4.4.1失真测度 4.4.2 信息率失真函数的定义 4.4.3 信息率失真函数的性质 4.5 信息率失真函数的计算 4.6 信息率失真函数的迭代算法 4.7香农第三定理通信本质信源信宿信息 信源输出的符号经过信道传送到信宿,在信宿精确或者近似重现信源发送的信息 解决两个问题:(1)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年四川省乐山市中考地理真题(原卷版)
- (教研室提供)2025年山东省临沂市沂水县中考二模英语试题
- 财务会计期末复习指导
- 部编版四年级下册第五单元《海上日出》教案
- 建筑施工特种作业-桥(门)式起重机司机真题库-10
- 建筑施工特种作业-建筑架子工(普通脚手架)真题库-10
- 2023-2024学年云南省临沧市云县高二下学期期末考试数学试卷(解析版)
- 2023-2024学年江苏省宿迁市高二下学期6月期末考试数学试题(解析版)
- 2023-2024学年河北省承德市高二下学期期末考试数学试题(解析版)
- 资助育人-课题
- AQ 1083-2011 煤矿建设安全规范 (正式版)
- 2024年中华人民共和国企业所得税年度纳税申报表(带公式)20240301更新
- 江苏省苏州市常熟市2023-2024学年五年级下学期数学期末检测
- 河南省洛阳市理工学院附中2025届数学高一下期末考试试题含解析
- 珍惜时间三分钟演讲稿小学生(23篇)
- 交响音乐赏析智慧树知到期末考试答案2024年
- 2024中考复习必背初中英语单词词汇表(苏教译林版)
- 大坝模型制作方案
- 2024年北京门头沟区社区工作者招聘笔试参考题库附带答案详解
- 气缸的工作原理课件
- 易罐疗法及其作用
评论
0/150
提交评论