已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京理工大学硕士学位论文 3 9 7 0 1 f 摘要 近年来,通信技术正处在飞速的发展中,而语音编码技术便是其中非常重 要的支撑技术。本文主要研究了语音编码中的码激励线性编码( c e l p ) 问题, 更具体地说,是矢量和激励线性预测编码( v s e l p ) 。 ( 本文首先简述了语音编码的三种基本方法,然后介绍了近年来最为成功的 c e l p 编码原理,并详细阐述了美国e i a t i ag k b sv s e l p 语音编码方案,这 是一种较为理想的c e l p 算法的具体实现。接下来本文论述了对v s e l p 编码 方案的改进措施,主要包括两方面:1 对l p c 参数的改进。改进算法用线谱 频率( l s f ) 来取代v s e l p 方案采用的3 8 b i t 帧的反射系数作为l p c 参数。本 文对l s f 参数进行分裂矢量量化,每帧量化编码为2 5 b i t s ,大大降低了编码速 率。2 对自适应码本搜索的改进。v s e l p 编码方案采用闭环的方法对自适应 码本进行全搜索,改进的算法对自适应码本进行半闭环搜索,每帧对自适应码 本标号的编码比特数从原来的2 8 b i t s 降为1 9 b i t s 甚至1 7 b i t s ,不但减少了计算 量,也进一步降低了编码速率。通过这两方面的改进,可以把该v s e l p 编码 方案的编码速率降为6 9 k b s 甚至6 7 k b s 。本文在最后给出了仿真结果,表明 改进的编码算法在降低语音编码速率的情况下,其重建语音的质量并未有明显 下降,从而证明本文的改进方案是有其实际意义的。1 关键词:语音编码,码激励线性预测,矢量锺鎏蕊褒疆尊奏亭拜尹 p 、 堕室堡三查兰堡主堂堡堕塞一 一一 a b s t r a c t t h et e l e c o m m u n i c a t i o nt e c h n o l o g y , i nw h i c hs p e e c hc o d i n gp l a y sav e r y i m p o r t a n tr o l e ,i si nr a p i dd e v e l o p m e n ti nl a s ty e a r s o n eo fs p e e c hc o d i n gm e t h o d s , c e l pc o d i n g ,m o r ee x a c t l y , v s e l pc o d i n gi ss t u d i e di nt h i sp a p e r i nt h i sp a p e r ,s e v e r a ls p e e c hc o d i n gm e t h o d sa r ed i s c u s s e db r i e f l ya tf i r s t t h e n , c e l pc o d i n g ,t h em o s ts u c c e s s f u ls p e e c hc o d i n gm e t h o di nt h e | a s tt e ay e a r s ,a n d a m e r i c a ne i a t i a8 k b sv s e l pc o d i n g ,a l li d e a li m p l e m e n t a t i o no fc e l pc o d i n g , a r ep r e s e n t e d e x p l i c i t l y i n t h e f o l l o w i n gs e c t i o n s ,t h ep a p e rs p e c i f i e s t h e i m p r o v e m e n ta b o u tt w oa s p e c t so nt h ev s e l pc o d i n g f i r s t l y , i m p r o v e m e n to nl p c p a r a m e t e r s t h ei m p r o v e dc o d i n ga l g o r i t h mr e p l a c e s3 8 b i t s f r a m er e f l e c t i o n t o e f f i c i e n t sw i t hl s fp a r a m e t e r sf o rl p cp a r a m e t e r s t h el s fp a r a m e t e r sa r e c o d e dt o2 5 b i t s f r a m ew i t l ls p l i t t i n gv e c t o rq u a n t i z a t i o ns oa st or e d u c et r a n s m i s s i o n b i t r a t e s e c o n d l y ,i m p r o v e m e n to ns e a r c h i n ga d a p t i v ec o d e b o o k u n l i k ev s e l p c o d i n g ,t h ei m p r o v e dc o d i n gu s e sh a l f - c l o s e dl o o p ,n o tc l o s e dl o o p ,t os e a r c h a d a p t i v ec o d e b o o k t h ec o d i n gb i t sf o ra d a p t i v ec o d e b o o ki n d e xo fe a c hf r a m e d r o p p e df r o m2 8 b i t st o1 9 b i t s ,e v e n1 7 b i t s t h es i m u l a t i n gr e s u l t sp r o v et h a tt h e r e c o n s t r u c t e ds p e e c h ,u s i n gt h ei m p r o v e dv s e l pc o d i n ga t6 9o r6 7 k b s ,c a n h a r d l yb ed i s t i n g u i s h e df r o mt h a tu s i n gt h es t a n d a r dv s e l pc o d i n ga t8 k b s t h e r e f o r et h ef e a s i b i l i t yo f t h ei m p r o v e da l g o r i t h mi sv e r i f i e d k e yw o r d :s p e e c hc o d i n g ,c o d ee x c i t e dl i n e a rp r e d i c t i o n ( c e l p ) , v e c t o rs u me x c i t e dl i n e a rp r e d i c t i o n ( v s e l p ) n 壹塞矍三茎兰堡兰兰l 兰二生一 1 绪论 1 1语音信号数字编码的意义、内容及其发展 语音是人类相互间进行通信的最自然和最方便的形式,虽然嗅觉、触觉等 同样也是人类固有的感觉,人们可以从中得到某些外界信息,但最重要的、最 精细的信息源只有图像和语音两种,而语音是人类最重要、最有效和最方便的 通信形式。语音通信也是一种理想的人机通信方式。 语音信号数字处理是研究用数字信号处理技术对语音信号进行处理的- i 1 学科,处理的目的是要得到一些参数以便高效地传输或储存,或者通过某种运 算处理以达到某种用途的要求。语音信号处理,简称语音处理,主要包括语音 识别、语音合成、语音编码和说话人识别等四大分支,语音学则是与语音处理 密切相关的一个学科。其中语音编码技术的根本作用是使语音通信数字化,而 语音通信的数字化将使通信技术的水平提高一大步。目前正在蓬勃兴起的移动 通信和个人通信,语音编码技术就是其中非常重要的支撑技术。 从通信角度讲,语音编码就是对语音信号进行数字处理,使之交换成适合 于信道传输的形式。编码一般分为信源编码和信道编码两种。本文只讨论语音 信号的信源编码。随着信息社会和通信技术的飞速发展,频率资源也越来越紧 张,信源编码就是为了提高信号传输和存储的效率,使得同样的信道容量能传 输更多路的语音信号。因而这一类编码又称为语音信号的压缩编码。另一方面。 从信息论的角度看,一般信号普遍都具有相当的冗余度,故信源编码主要是通 过对信号冗余度的压缩来达到压缩数据率的目的。因此信源编码又可分为无失 真信源编码与率失真信源编码。当信源产生的全部信息需无损地传送给信宿, 以便精确地重现信源的输出时,此时的信源编码就是无失真信源编码。而这往 往需要很高的代价。1 9 4 8 年,先农在其经典的论文中首先提出了率失真函数 的概念。指出:在允许一定失真度d 的情况下,信源输出信息传输率可压缩 l 南京理t 大学硕上学位论文 到r ( d ) 值。这就从理论上给出了信息传输率与允许失真之间的关系,建立了 信息率失真理论。以该理论进行的信源率失真编码,往往具有较好的性能价格 比,如矢量量化技术。 语音的压缩编码,按编码后传输所需的数据速率来分,可分为高速率 ( 3 2 k b s 以上) 、中高速率( 1 6 3 2 k b s ) 、中低速率( 4 8 1 6 k b s ) 、低速率( 1 2 4 8 k b s ) 和极低速率( 1 2 k b s 以下) 五大类。一般来说,编码速率越低,则算法 复杂度越高,编码时延越大,重建语音质量越差,所以语音编码总是要对编码 速率、计算量、语音质量和编码时延等几个方面综合考虑。现在的语音编码研 究主要集中在如何在较低的速率上获得较高质量的语音。 语音编码方法,按传统的概念可分为三类:波形编码、参数编码( 声码器) 和混合编码。波形编码技术以尽可能重建语音波形为原则进行数据压缩,即在 编码端以波形逼近为原则对语音信号进行压缩编码,解码端根据这些编码数据 恢复出语音信号的波形。它具有语音质量好、抗噪性能强等优点,但所需的编 码速率高,一般在6 4 1 6 k b s 之间。而声码器则从听感的角度注重语音本身 的重现。它通常都是基于某种语音产生模型假定,在编码器端分析出该模型参 数并选择适当的方式对其进行高效的编码,解码端则利用这些参数和语音产生 模型重新合成语音。它具有编码速率低的优点,可以达到2 4 k b s 以下,但语 音质量差,而且对噪声较敏感,顽健性不够好。混合编码是上述两类方法的有 机结合。与参数编码相同的是,它也是基于语音产生模型的假定并采用了合成 分析技术,但同时它又利用了语音时间波形信息,增强了重建语音的自然度, 使得语音质量有明显提高,其代价是编码速率相应上升,一般在1 6 4 k b s 之 间。 众所周知,数字语音具有易保密、抗干扰、速交换、廉价格等方面的优点, 故语音压缩编码技术一直是令人关注的课题。语音编码技术的研究开始于3 0 年代d u d d l e y 发明声码器,但是直到7 0 年代中期,除了p c m ( 脉冲编码调制) 和a d p c m ( 自适应差分脉冲编码调制) 取得较好进展之外,中低速率语音编码 一直没有大的突破。攘个语音编码技术领域在最近2 0 年中发生了大的飞跃, 自从美国政府1 9 8 0 年公布了一种2 4 k b s 的线性预测编码标准算法l p c 一1 0 以 后,人们梦寐以求的在普通电话带宽信道中传输数字电话的愿望终于变成现 南京理工大学硕士学位论文 实。除了p c m 、a d p c m 、a m ( 增量调制) 、l p c ( 线性预测编码) 、m p - l p c ( 多 脉冲激励线性预测编码) 之外,美国于1 9 8 8 年又公布了一个4 8 k b s 的c e l p ( 码 激励线性预测编码) 语音编码标准算法,欧洲推出了一个1 3 k b s 的r p e - l t p ( 规 则脉冲激励长时预测) 编码算法,1 9 8 9 年,8 k b s 的v s e l p ( 矢量和激励线性 预测) 编码算法被美国电子工业协会( e i a ) 下属的电信工业协会( t i a ) 选为北美 t d m a 数字蜂窝电话系统语音编码标准( i s 5 4 ) ,1 9 9 2 年1 6 k b s 的l d c e l p ( 低 延时码激励线性预测) 编码算法被标准化为i t u t 建议g 7 2 8 ,i t u t 还在1 9 9 6 年通过了8 k b s 的c s - a c e l p ( 共轭结构代数码激励线性预测) 语音编码标准 g 7 2 9 ,其语音质量都能达到高音质【4 “。 1 2 本文工作背景及工作简介 本文的工作背景是美国e i a 厂r i a 制订的8 k b sv s e l p 语音编码方案 1 9 2 7 i 。 其理论基础是码激励线性预测( c e l p ) 语音编码算法口i ,基于线性预测( l p ) 、 感觉加权、合成分析( a - b s ) 和矢量量化( v q ) 技术。v s e l p ( 矢量和激励线性 预测) 是个比较理想的c e l p 改进形式,它保留了c e l p 高效率编码的优点, 同时使运算量又大大降低。两个随机码本可在保持一定的复杂度下提高语音质 量,而结构化的码本不仅减少了运算量,也增强了抗信道误码的能力。本文在 深入研究c e l p 和v s e l p 语音编码算法的基础上,对v s e l p 编码算法主要 提出了两方面改进措施,不仅降低了编码速率( 可降为6 9 k b s 甚至6 7 k b s ) , 也在一定程度上减小了运算量,计算机仿真表明,改进的v s e l p 算法得到的 重建语音与原v s e l p 算法相比,并未听出有明显区别。并且,本文所提出的 改进措施也可以在其它的语音编码算法中得到应用,表明该改进方案在理论上 和实际应用中都具有一定的现实意义。本文对于v s e l p 的改进措施主要为: 1 对l p c 参数的改进。e i a t i a8 k b sv s e l p 编码方案采用了1 0 阶反射 系数作为l p c 参数,每帧需要3 8 b i t s 对l p c 参数编码。而l s f ( 线谱频率) 系 数以其良好的量化特性、插值特性以及能够跟踪语音共振峰等优点。近年来越 来越受到人们的关注。本文即用l s f 系数来代替反射系数作为l p c 参数,对 l s f 系数采用分裂矢量量化( s v q ) 编码为2 5 b i t s 帧,大大降低了对l p c 参数 3 南京理工大学硕士学位论文 编码所需的比特数。 2 对自适应码本搜索的改进。在e i a t i a8 k b sv s e l p 编码算法中,对 自适应码本( 长时预测参数) 的搜索采用闭环的搜索方法,每个子帧( 每帧包含 四个子帧) 都需用闭环法搜索一次自适应码本标号( 即长时预测延时) 及其增 益,每帧对自适应码本标号编码需用7 7 = 2 8 b i t s 。本文提出了半闭环的快速 自适应码本搜索方法,直接从原始语音中提取基音周期作为一帧长时预测延时 的初值,每一子帧中在该初值附近进行增量搜索,既降低了编码速率( 每帧对 自适应码本标号的编码可降为7 + 4 3 = 1 9b i t s ,甚至7 + 4 2 = 1 5b i t s ) ,又在 一定程度上减少了计算量。 本文的内容是这样安排的:第一章为绪论,简要介绍语音信号数字编码的 意义、发展以及本文的工作;第二章概括介绍三种语音数字编码方法,包括波 形编码、参数编码和混合编码,并把着重点放在了线性预测( l p ) 技术上,这 是本文所作的编码算法的基础;第三章主要阐述了混合编码中的码激励线性预 测编码( c e l p ) 的基本原理及其所用到的基本技术,并在此基础上,介绍了美 国e i a t i a8 k b sv s e l p 编码算法,这是一种比较理想的c e l p 基本原理的具 体应用:本文在第四章中讨论了对v s e l p 算法进行改进的理论依据、算法实 现以及所改进v s e l p 算法的仿真结果与性能比较。 堕室望苫查堂塑主兰垡堡l 2 语音信号数字编码 在这一章中,首先要讨论语音信号的特征及其产生模型,然后简要介绍波 形编码、参数编码、混合编码这三种语音编码方法。作为c e l p 编码算法的基 础,重点要讨论线性预测( l p ) 技术。 2 1 语音信号的特征和产生模型 在研究各种语音信号数字处理技术之前,有必要了解语音信号的一些特 征。 1 通过对语音信号产生机理和语音信号频谱特性的研究,得知语音信号 的能量主要集中3 0 0 3 4 0 0 h z 在的范围内,频段很低,频带不宽,便于进行 数字处理( 本文提到的数字语音信号在没有特别说明的情况下,都采用8 k h z 的采样频率) 。 2 语音信号可以看作一种时变的、非平稳的随机过程,但具有短时平稳 性。这主要是由人类发声系统的生理结构决定的。由于发音时,人类发声系统 的生理结构始终是变化的,故语音信号不能看作平稳随机过程:又因为人类发 声系统的生理结构的变化速率是有一定限度的,在一段时间内( 1 0 3 0 m s ) 人 的声带和声道形状有相对稳定性,可以认为其特性是近似不变的,因此语音信 号又可以认为是短时平稳的。 3 语音大体上可以分为清音和浊音两大类。从语音产生的机理上看,两 者有明显的差异,因而在特征上也有明显的区别。浊音在时域上呈现出明显的 周期性,在频域上有共振峰结构,即频域上有明显的谐波结构,而且能量大部 分集中在低频段内;清音则完全不同,它没有明显的时域和频域特征,类似于 白噪声。 4 语音信号同其他信号一样,存在着相当大的信息冗余度,因此使语音 压缩编码成为可能。这些冗余度来自于语音信号的相关性。一般认为。在语音 i 堕室里土查兰堡! 兰焦丝苎 中存在两种类型的相关性,即在样点之间的短时相关性和相邻基音周期之间的 长时相关性。更简单的说,所谓长时相关性是指相距较远的语膏信号采样点之 间的相关性,从谱域的观点来看,其反映的是语音谱的精细结构;而短时相关 性则指的是语音信号邻近采样点之间的相关性,从谱域的观点来看,其反映的 是语音谱的包络结构。 语音信号的相关性可以从如图2 1 1 所示的语音信号的产生模型看出。 声道参数 图2 1 i 语音信号产生的离散时域模型 语音信号 该模型是在研究了发声器官和语音产生过程以后得出的。其中包括三个 组成部分。即使激励源不存在相关性而为白噪声,但由于声道模型与辐射模 型的存在,也将使输出信号具有相关性。实际上一般认为语音信号的相关性 更主要的是来自于声道模型。经过把声道作为一个变截面的声管加以研究, 采用流体力学可以导出,当把连续变化的声管近似为p 段声管的串联,声道模 型坎z ) 在大多数情况下可看为一个全极点滤波器【1 1 ,即v ( z ) 可表示为: a 口o 为= 1 实数 ( 2 1 1 ) p 称为该全极点滤波器的阶。显然p 值取得越大,模型的传输函数与声道实际 传输函数的吻合程度越高。但对大多数实际应用而言,尸取8 1 2 就足够了。 图2 1 1 中的激励源一般认为有两种情况:一是为周期脉冲串,此时输出为浊 音;二是为伪随机白噪声,此时输出为清音。语音信号的短时特性也反映在 其生成模型上,声道参数及激励信号都只能认为在1 0 3 0 m s 的间隔内是不变 的。因此语音信号的短时分析帧长一般取为2 0 m s 。 6 士驴 = 、j z ,l 矿 壹室些! 查兰堡:! :j 巳些j 竺! 二一 2 2 语音信号的波形编码 最基本也最简单的语音波形编码就是p c m ( 脉冲编码调制) ,即对语音信 号进行取样并用有限字长表示样本的值,然后用脉冲波形进行编码,它就可被 送到发信机进行发送传输。接收端进行解码和d a 变换就得到声音。p c m 的 过程如图2 2 1 所示。 信道 c ( n ) 厂 ;( n ) 广1x o ( t ) l 解码卜1d ar _ + 连续语音 恢复语音 图2 2 1p c m 全过程框图 p c m 的传输码率为: ,;b 只( 2 2 1 ) 式中f 为采样频率,b 为二进制码长。采样频率受信号带宽限制,通常取为8 k h z 即可。对于量化字长曰,若采用线性均匀量化,则曰应取1 2 1 4 位才不至于 听出来量化失真。采用非线性量化可以较大幅度地减小所需量化位数。c c i t t ( 即现在的i t u t ) g 7 1 1 建议给出了国际通用的两种对数压缩特性,即a 律 ( a 1 a w ) 和u 律( i x - l a w ) 特性,分别由下式给出: a 律: u 律: f 垒_ 1 1 + i n a c ( 石) = i 生! 唑 【1 + l n a 出,= 器等 o x 土 a ( 2 2 2 ) 土xs 1 a 0 z 1 ( 2 2 3 ) 式中的a 与分别取8 7 5 6 与2 5 5 ,并在具体实现中,c ( x ) 特性分别用1 3 段折 线和1 5 段折线近似,采样频率为f 。= 8 k h z ,量化字长b = 8 b i t ,总编码速率 为6 4 k b s ,目前这两种对数量化已在数字电话网中得到了广泛的应用,u 律p c m 主要用于北美和日本,中国和欧洲等都采用a 律p c m 。 若进一步利用语音信号样点间的相关性,并针对语音信号的非平稳特性, 7 南京理工大学硕_ t 学位论文 使用自适应预测和自适应量化,就可进一步降低编码速率,如c c i t t 在1 9 8 4 年提出的g 7 2 1 建议采用了3 2 k b s 的a d p c m ( 自适应差分脉码调制) 。如果 利用对信号进行变换产生不相关样本,来去除冗余度,就是变换域编码方法, 主要包括变换域编码( t c ) 和子带编码( s b c ) 。 2 3 语音信号的参数编码 2 3 1 线性预测编码原理 在语音信号中存在两种类型的相关性,即在样点之间的短时相关性和相 邻基音周期之间的长时相关性。利用线性预测( l p ) 方法对语音进行这两种相 关性的去相关处理后,得到的是预测余量信号。这样,可以将语音的生成模 型图2 1 1 改画为图2 3 1 。 图2 3 ,1 语音生成模型示意图 台成语音 图2 3 1 是计入了上述两种相关性的语音生成模型框图。如果用预测余量 信号作为激励信号源输入长时预测合成滤波器l i p ( z ) ,就可以恢复语音信号的 长时相关性:再将其输入短时预测合成滤波器1 a ( z ) 进行短时相关性的恢复, 即可在输出端得到合成语音信号。 ( 1 ) 语音的短时分析 根据语音信号的生成特点,语音信号的短时相关性( 谱包络) 可以用一个全 极点( a r ) 模型来描述,它的传输函数川z ) 为: h ( z ) 2 丽1 2 瓦1 了 2 川) 式中 口 是语音信号的短时预测系数,p 是滤波器的阶数。 南京理工人学硕士学位论文 一股称比) 为l p 综合滤波器,而称其逆滤波器爿( z ) 为l p 分析滤波器。 对于8 k h z 的采样率,p 的典型值为8 至1 22 n 。a r 模型的预测系数 口j 是 从语音信号中利用线性预测分析的方法计算得到的。预测系数随时间逐帧更 新,更新速率为3 0 1 0 0 次秒,即帧长为1 0 3 3 m s 。 ( 2 ) 语音的长时分析 滤波器1 p ( z ) 是表示语音信号长时相关性( 谱的精细结构) 的模型。它的 一般形式为: l p ( z ) 1 一匆z 一“ ( 2 3 2 ) 式中延时参数d 即等于基音周期, b 。) 为语音信号的长时预测系数。通常长时 预测系数的个数取在1 ( q = r = 0 ) 到3 ( q = r = 1 ) 之问。延时参数d 和系数 6 i 可 以从语音信号中直接提取,也可以从去除了短时相关性所得到的余量信号中提 取。这些系数随时间更新,更新速率为5 0 2 0 0 次秒。根据具体编码方案的 需要,也可以只进行短时预测,不进行长时预测,而在l p c 激励模型中引入 语音的长时相关性。 ( 3 ) 激励信号源 求得短时和长时预测信号后,将语音信号输入短时和长时线性预测( l p ) 逆滤波器一( z ) 和p ( z ) ,以去除语音信号的短时、长时相关性,在其输出端得到 类似于噪声的波形,即l p 余量信号。如果是浊音语音段,余量信号中还往往 存在以基音周期重复的尖峰脉冲。与原始语音相比,余量信号的频谱起伏变化 要小得多。这样,对余量信号进行低速率编码就成为可能。如果以l p 余量信 号作为激励信号源,则可无失真地恢复语音信号。但为了压缩数码率。不可能 直接用l p 余量信号作为激励信号。采用什么技术来有效地、精确地对余量信 号进行编码,一直是在低速率下获得高质量合成语音的关键。也是近年来研究 中、低速率语音编码的热点之一。一般速率越低,恢复的语音质量越差,或者 编码的复杂度越大。语音编码方案的研究总是综合考虑编码速率、语音质量、 复杂度和延时这四个因素,从而找出适合实际需要的具体的最佳方案。但是概 括来讲,线性预测编码的方法是:在发端将预测系数( 通常称作边信息) 和余量 南京理工大学硕士学位论文 信号进行编码后输出,在收端分别对它们进行解码,合成语音信号。 2 3 2 线性预测方程组的建立与求解 由以上的分析可知,l p c 编码的一个重要环节就是要求出预测系数 q ) , f - l ,2 ,j d 。下面具体阐述如何建立l p c 方程组,并进而由该方程组求预测系 数。 根据以上所述的语音信号生成模型,若不考虑长时滤波器,可得到下式: p ( z ) = s ( z ) u ( z ) = g 0 一吼z 4 ) ( 2 3 3 ) l 其中g 为常数,s ( z ) 和矾z ) 分别为输出信号s ( n ) 和输入信号“( 哟的z 变换,那 么s ( ”) 与“( 疗) 的关系可以表示为差分方程: p s ( n ) = 吼s - k ) + ( h ) ( 2 3 4 ) i - l 若把上式右边第一项理解为用信号的前p 个样本来预测当前样本,即定义预 测器: p j ( ) = 吼s ( n 一) ( 2 35 ) k = l 由于信号j ( n ) 并不是精确地符合式( 2 3 3 ) 和式( 2 3 4 ) 所描述的模型假定,所以 由式( 2 3 5 ) 所示的线性预测器来预测信号s ( 帕得到的预测误差g ( n ) 并不一定等 于g u ( n ) ,故e ( n ) 应表示为: p 8 ( h ) = s ( n ) - g ( n ) = s ( n ) - j 伽- k ) ( 2 3 6 ) 一i 要想使式( 2 3 3 ) 的模型尽可能精确地描述信号“行) ,应该使上式所得到的预测 误差e ( ”) 在某一短时的总能量尽可能小,并在此准则下求出最佳预测系数 q ) 。 为此,定义短时平均预测误差能量: , e n = e :( 矾) = k 仰) 一j ( 历) 】2 = h ( 珊) 一吼s 。( m 一七) 】2 ( 2 3 7 ) m_t 1 其中s n ( 埘) 是在采样点n 附近选择的个语音段,即 晶( ,1 ) 2s ( ,l + m )( 2 3 8 ) 1 0 南京理工大学硕士学位论文 使式( 23 7 ) a ee 达到最小值的 蚶必定满足a e o a , = o ( f _ 1 ,2 , 得到以 吼 为变量的线性方程组: p 吼嚷( f ,) = 嚷( f ,o ) , i = 1 “2 一,p k = l 其中 ,用,由此便可 ( 2 3 9 a ) 吃( f ,七) = 晶( m f ) 晶( 州一女) ( 2 3 9 b ) 至此,我们已经建立了如式( 2 3 9 ) 所示的l p c 方程组。关于该方程组的解 法有很多种,如基于自相关方程的d u r b i n 递推算法和s c h u r 递推算法,基于 协方差方程的乔里斯基( c h o l e s k e y ) 分解法,以及直接由信号样本递推的b u r g 递推算法。本文采用基于自相关方程的s c h u r 递推算法解l p c 方程组,下面 主要介绍这种算法: 自相关方程就是当方程组( 2 3 9 a ) c p 的系数驴。( f ,七) 按短时自相关定义时而 导出的。先用一个长为的短时窗( 如汉明窗) 截取信号: “m ) = 伊神以嘲巍 ( 2 3 10 ) 然后求自相关,那么式( 2 3 9 b ) 为: 一,弋鲁1 , 1 i p 啪,护萎咖一) 州卅七)o ;女茎p 1 1 a ) 也可写成 蝌) = “笋m + i - k:姗 - i 0 时,g f ( ,) = 0 ,j = 1 ,2 ,p ; ( o ) = f 一为p 阶预测误差的能量; ( ,) i r ( o ) ,其中等号仅当f - ,= 0 时成立。 于是得到s c h u r 递推算法如下: ( 1 ) 将自相关系数标准化 r u ) = r u ) r ( o ) r ( 一,) 5r ( ,) ,j 20 ,1 ,2 ,p ( 2 ) 令ao = 1 ,e 。= 1 ( 3 ) 令q 。( ,) = r ( ,) ,一p , p ( 4 ) 令i = 1 ,k l = r ( 1 ) ( 5 ) 对于f p ,p ,计算下列各式: 吼u ) 2 q h ( ,) + k ,q 。( i 一) 七2 q h 【,) q ( 0 ) a j ( o = q h ( i 一,) e ( ) = e o - i ) ( 1 一k ? ) ( 2 3 1 7 ) ( 2 3 18 ) ( 2 3 1 9 ) f 2 3 2 0 ) ( 2 3 2 1 ) f 2 3 2 2 ) ( 2 3 2 3 ) 1 2 壹室矍三查兰堡主兰些丝苎 佑1 如果f p ,返回第5 步; ( 7 ) 程序结束。 最终得到的慨一) 就是最小误差预测系数, 毛) 就是相应的反射系数。 s c h u r 算法的优点还在于:若只需要计算反射系数,式( 2 3 2 2 ) 和式( 2 - 3 2 3 ) 可以略去,它可以用来专门求反射系数。这时递推中所有变量都小于1 ( 除r ( 0 ) = l 之外) ,因此特别适于定点运算,这对于硬件实现是很有利的。 2 3 3 线性预测声码器 根据语音信号的生成模型,对于表征声源和声道的有关特征参数进行分析 和提取,再运用这些参数重新合成语音信号的过程,称为语音信号的分析合成。 人们把利用分析合成的方法进行语音编码的系统称为声码器( v o c o d e r ) 。 在l p c 中,语音信号逐帧地用其生成模型的特征参数来表示。当全极点 模型的阶数为p ,帧长为时,一帧内个原始语音抽样能用尸+ 3 个特征参 数来代替,这些特征参数是:全极点模型的谱参数 口,) f _ 1 ,2 p 、增益r m s 、 清浊音判决信息v o i c i n g 和浊音时的基音信息p i t c h 。这种语音的低速率表示 可以大大降低语音语音信息的存储量及语音传输时所要求的信道容量。应用 l p c 可以实现低速率( 2 4 k b s 或者更低速率) 语音编码。 美国政府于1 9 8 0 年公布了l p c 1 0 语音编码联邦标准算法( f s 1 0 1 5 ) ,这 种算法的基本内容如下: 输入语音以8 k h z 速率采样,用1 2 位二进制补码数字化,数字化后的语 音信号每1 8 0 个样本分为一帧,即帧速率为4 4 4 帧s 。基音检测和清浊判决 采用平均幅度差函数法,l p c 阶数为1 0 。在进行l p c 之前先进行预加重处理, 然后递归地计算协方差矩阵,用乔里斯基分解法求解线性预测方程组,并递推 出反射系数。前两个反射系数用对数面积比进行编码,其余按线性编码,足。 局每个系数用5 b i t ,墨局每个系数用4 b i t ,局为3 b i t ,蜀。为2 b i t ,基音周期 用6 b i t ,清浊l b i t ,还有l b i t 用于同步,每帧共计5 4 b i t ,总的传输速率2 4 k b s 。 这种算法在发端没有进行帧间压缩。本来在收端没有必要进行参数内插, 但为了使合成滤波器在帧间过渡较平滑,考虑到浊音时每帧一般都含有多个周 期,也采用了参数内插技术。根据每个周期所处位置,利用相邻两帧参数各内 堕室墨三盔堂堡主堂堡丝苎 插得到一组参数进行合成。 2 4 语音信号的混合编码 2 4 1 线性预测编码质量分析及改进措施 上面介绍的l p c 声码器是最基本的l p 编码器,让收端的合成滤波器采用 白噪声或者周期性脉冲作为激励信号,合成浊音信号时每个周期只用一个单一 的脉冲作为激励,所以也称为单脉冲激励l p c 声码器。单脉冲l p c 声码器虽 有比特率低的优点,但是要进一步提高输出语音的质量是十分困难的。这主要 是因为清浊音判决和浊音信号的基音检测,很难做到十分可靠,而且有些摩擦 浊音本身就清浊难分。特别是在辅音与元音的过渡段,清音判决和基音检测容 易发生差错,并且这种差错对合成语音的清晰度影响特别严重。另外,对于一 些非规范的话音的编码,如多人说话或有音乐背景时的话音,以及一些非语音 声音,如咳嗽声等情况时的输出都不令人满意,顽健性很差,当背景噪声增强 时,其输出语音质量迅速下降。 经过十多年的研究,人们已经认识到,导致单脉冲l p c 声码器性能差的 主要原因不在于声道模型本身,而在于激励信号的选取。单脉冲l p c 方法中 的激励信号是二元形式的,或为白噪声,或为准周期性的脉冲串。这种激励形 式对于能否准确获得基音周期估值和能否做出正确的清,浊音判决十分敏感, 也容不得较强的背景噪声和其他干扰。基于这种认识,8 0 年代以来,研究者 们针对线性预测模型中的激励源,提出了大量的改进方案,这些方案大多采用 混合编码的方法,获得了许多令人满意的结果。 2 4 2 中、低速率混合编码 在1 6 k b s 以下的速率范围内,能用于余量信号编码的比特数是有限的。 若对余量信号进行粗糙的量化会带来非白色噪声,并且余量信号与它的量化模 型之间的误差最小,不再能保证原始语音与重建语音之间误差最小。如何有效、 精确地表示余量信号,是这类编码方案的关键。大量的实践证明,用感觉加权 均方误差最小的判决准则,配合合成分析法的自适应预测编码均方误差最小的 1 4 堕室堡三查兰堡主兰垡堡塞一 判决准则,可以在这个速率段得到比较满意的语音质量。其中比较重要的实施 方案有下列几种。 ( 1 ) 多脉冲线性预测编码( m p l p c ) 1 9 8 2 年,b i s h n us a t a l 和j o e lr r e m d e 首先提出多脉冲线性预测编码方 案。在此方案中首先规定激励脉冲序列在一定时间间隔中只能出现数日有限的 非零脉冲,然后每个非零脉冲的位置和幅度用合成分析法和感觉加权均方误差 最小的判决准则进行优化,最后用优化的脉冲序列表示余量信号作为日( z ) 的 激励信号源。这样既压缩了编码速率,又改善了合成语音的质量,这样的编码 系统称为多脉冲线性预测编码( m u l t i - p u l s el i n e a rp r e d i c t i v ec o d i n g ) ,简称m p - l p c 。m p l p c 可以在9 6 1 6 k b i t s 范围内获得较好的合成语音质量。其最大 的缺点是,即使采取了准最佳顺序优化的激励参数估值方法,分析时的运算量 依然很大,这使它较难实时实现并因而妨碍了它的推广使用。 规则脉冲激励语音编码( r e g u l a r p u l s ee x c i t a t i o nc o d i n g ,简称r p e l p c ) 与m p - l p c 有相似之处,但是比m p l p c 更为实用。r p e l p c 是e d e d e p r e t t e r e 和p e t e rk r o o n 在1 9 8 5 年i e e ei c a s s p 年会上首先提出来的。它用一组间距 一定的非零的规则脉冲代替余量信号,该脉冲序列的相位( 即第一个非零脉冲 出现的位置) 和每个非零脉冲的幅度可以按照m p - l p c 同样的方法进行优化。 在r p e l p c 的激励脉冲序列中,因为各个非零脉冲的相互位置是固定的,所 以它的计算量和编码速率与m p l p c 相比都要小得多。后来人们改进了算法, 加入了长时预测l t p ( l o n g - t e r mp r e d i c t i o n ) ,并使速率降为1 3 k b i t s ,形成长 时预测规则脉冲激励( r p e l t p ) 编码方案。它的特点是算法简单,语音质量达 到了通信等级。r p e l t p 在1 9 8 8 年被确定为泛欧标准全速语音编码方案,称 为g s m 标准。 ( 2 ) 多带激励语音编码( m b e ) 多带激励语音编码( m u l t i b a n de x c i t a t i o n ,简称m b e ) 是由美国m i t 林肯 实验室提出的,它突破了二元激励的局限性,将语音按各基音谐波频率分成若 干个频带,对各带信号分别判断是浊音( v ) ,还是清音( u ) 。然后根据各带是 v 或是u ,采用不同的激励信号源产生该带的合成信号,最后将各带信号相加, 形成全带合成语音。m b e 能在2 4 4 8 k p s 速率上给出比传统的l p c 声码器好 堕塞堡三查兰堡主堂竺堕兰 得多的语音,并且具有较强的抗环境噪声的能力。 f 3 1 码激励线性预测编码( c e l p ) 在速率低于l k b i t 采样的情况下,采用矢量量化( v q ) 技术表示波形是非 常有效的。1 9 8 5 年,m a n t l e dr s e h r o e d e r 和b i s h n us a t a l 提出了用v q 码本 中的码字作为激励源的线性预测编码技术c e l p ( c o d ee x c i t e d l i n e a r p r e d i c t i v ec o d i n g ) 。c e l p 采用了线性预测、合成分析( a b s ) 、感觉加权、 矢量量化等技术。码本中每一个存储的码字矢量( 简称码矢量) 都可以代替余量 信号作为可能的激励信号源。在编码时对码本中的码矢量逐个搜索,找到与输 入语音误差最小的合成语音的激励信号源。只要将该矢量的标号传送给收端, 在接收端用储存的同样的码本根据收到的标号恢复出相应的码矢量作为激励, 即可由综合滤波器合成输出语音。c e l p 在4 8 1 6 k b s 范围内可以获得质量 相当高的合成语音,因此在数字语音通信系统中得到了最为广泛的应用。 1 6 查室墨三查兰堡主堂j 羔苎一 3 码激励线性预测编码( c e l p ) 码激励线性预测编码( c e l p ) 是近年来最为成功的语音编码算法,获得了 最为广泛的应用。在这一章中,我们首先在3 1 节中介绍c e l p 编码的几种基 本技术,然后在3 2 节中讨论c e l p 算法原理及其搜索算法,3 3 节则具体阐 述美国e i a t i a8 k b sv s e l p 编码算法,这是一种比较理想的基于c e l p 的语 音编码具体实现方案。 3 1c e l p 编码基本技术 c e l p 编码采用了线性预测、合成分析、感觉加权以及矢量量化等技术, 其中的线性预测本文在2 3 节中已经详细介绍,在此不再赘述。 3 1 1 合成分析法( a - b - s ) 在1 6 k b s 以下的高质量语音编码中,能用于余量信号编码的比特数是较 少的。若对余量信号进行直接的量化,并且使余量信号与它的量化值之间的误 差达到最小,并不能保证原始语音之间的误差最小。只有采用合成分析法来求 得余量信号的编码量化值,才能使得重建语音与原始语音的误差最小。 原始语音 图3 1 1 合成分析法( a - b s ) 示意图 堕星堡三查兰堡主兰堡堡一墨一 如图3 1 1 所示,合成分析法( a n a l y s i s b y s y n t h e s i s ) 即是将综合器引入编 码器( 即解码器是编码器的一部分) ,使之与分析器相结合,在编码器中产生与 译码器端完全一致的合成语音,将此合成语音j ( n ) 与原始语音s ( n ) 相比较,得 到误差信号口( 押) ,然后根据一定的误差准则,来调整计算l p c 参数或者激励 信号,使得二者之间的误差达到最小,这种方法即称之为合成分析法。例如, 可以在编码器将激励信号输入综合滤波器,令其产生的合成语音与原始语音相 比较,从而求得使二者均方误差最小的激励。 3 1 2 感觉加权滤波器 感觉加权滤波器( p e r c e p t u a l l yw e i g h t e df i l t e r ) 的依据是人耳听觉的掩蔽效 应( m a s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美菜调度主管述职报告
- 初中英语教案反思
- 彩色的象教案反思
- 互联网的组成说课稿
- 和许多小班说课稿
- 书店安全消防施工合同
- 数码俱乐部会员停车场地租赁合同
- 珠宝公司配电房安装协议
- 精密仪器顾问合同
- 交通枢纽供暖设备安装合同
- 2024年深圳市福田区选用机关事业单位辅助人员和社区专职工作者365人高频难、易错点500题模拟试题附带答案详解
- T-CECS120-2021套接紧定式钢导管施工及验收规程
- 全国大学英语六级词汇表
- 数字媒体艺术与民族文化传播智慧树知到期末考试答案2024年
- 美国实时总统大选报告
- 《行政许可法培训》课件
- 大学体育理论(山东联盟)智慧树知到课后章节答案2023年下泰山学院
- 研究生二级学科证明
- 高速公路安全生产标准化指南1
- 学科融合课题研究实施方案
- 生物质压块机使用说明书
评论
0/150
提交评论