(通信与信息系统专业论文)speex语音编解码算法及其在dsp上的实现.pdf_第1页
(通信与信息系统专业论文)speex语音编解码算法及其在dsp上的实现.pdf_第2页
(通信与信息系统专业论文)speex语音编解码算法及其在dsp上的实现.pdf_第3页
(通信与信息系统专业论文)speex语音编解码算法及其在dsp上的实现.pdf_第4页
(通信与信息系统专业论文)speex语音编解码算法及其在dsp上的实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(通信与信息系统专业论文)speex语音编解码算法及其在dsp上的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 s p e e x 语音编解码算法及其在d s p 上的实现 摘要 随着i p 技术的不断发展,v o l p ( v o i c eo v e ri p ) 即i p 语音技术近年 来受到越来越多人的青睐。而d s p 技术的迅速发展为复杂的语音压缩算 法的实时实现提供了可能。定点d s p 芯片以其良好的性价比被广泛应用 于音、视频处理这一多媒体应用领域。本论文就是基于a d i 公司的定点 d s p 芯片a d s p 2 1 8 1 来实现v o l p 中的语音编解码算法。 目前已在该芯片系列上实现的各种标准算法有( 2 7 1l ,( 2 7 2 1 ,( 2 7 2 9 a , ( 3 7 2 3 1 ,i l b c 等,但由于算法提出的背景和算法自身的特点,这些算法 在v o l p 应用中大都有本身专利限制或传输速率单一等问题,因而需要没 有专利限制,并且可以提供多种传输速率的算法出现。 s p e e x 算法就是这样一种集成了窄带、宽带和超宽带的可变多速率, 并且完全免费的没有专利限制的开源算法。它支持动态比特率切换,能 根据网络及终端的实际情况自适应地选择不同的语音编码速率,减少误 码和丢帧对通话的影响,以期获得尽可能好的话音质量。由于s p e e x 种 种独有的优点,所以对其算法及其实现的研究具有非常重要的现实意义。 本论文对s p e e x 算法作了较为深入的研究,并在2 4 位定点d s p 芯片 上进行了实现。同时,本文还对代码优化做了一些探讨,并减少了算法 的运算复杂度,提高了编码效率。本论文主要完成了以下几项工作: ( 1 ) 把已有的算法的定点c 代码转化为d s p 汇编代码。在此过程中通 过运行大量的测试序列,对程序进行了反复的调试,保证程序的正确性, 期间修改了定点c 中的部分溢出错误。 ( 2 ) 对s p e e x 算法的实现机理进行了较为深入的研究,并针对 a d s p 2 1 8 1 处理器的特点进行了优化。测试结果表明:经过优化,s p e e x 编码算法的运算速度提高了大约4 0 ( 4 8 m i p s 3 0 m i p s ) 。 s p e e x 编解码算法最终在一个实际的v o i p 电话终端中得到了应用。 关键词:s p e e xa d s p 2 1 8 1 语音编解码实时d s p 优化 摘要 a b s t r a s p e e xs p e e c hc o d e ca l g o r i t h ma n di t s i m p l e m e n t a l t i o no nd s p a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei pt e c h n o l o g y , v o l p ( v o i c eo v e ri p ) r e c e i v e sm o r ea n dm o r ep e r s o n sf a v o r si nr e c e n ty e a r s a n dt h er a p i d d e v e l o p m e n to fd s pm a k e st h er e a l t i m ei m p l e m e n t a t i o no fc o m p l i c a t e d s p e e c hc o m p r e s s i o na l g o r i t h mp o s s i b l e f i x e d p o i n td s pc h i p sa r ep o p u l a r l y u s e di nt h em u l t i m e d i af i e l d ,s u c ha sp r o c e s s i n go fa u d i oa n dv i d e o ,f o rt h e i r g o o dc o s tp e r f o r m a n c e t h i sp a p e rm a i n l y r e s e a r c h e sh o wt ou s et h e f i x e d p o i n td s pc h i pa d s p 2 181o fa d ic o m p a n yt or e a l i z es p e e c hc o d e c a l g o r i t h mo v e rv o i pp h o n e a tp r e s e n t ,t h e r ea r em a n ys t a n d a r d sa n da l g o r i t h m sw h a th a v eb e e n i m p l e m e n t e do nt h i sc h i ps e r i e s ,s u c ha sg 7 11 ,g 7 21 ,g 7 2 9 a ,g 7 2 3a n d i l b c h o w e v e r , b e c a u s eo ft h eb a c k g r o u n do fp r o p o s a lo ft h ea l g o r i t h m sa n d t h ec h a r a c t e r so ft h ea l g o r i t h m st h e m s e l v e s ,m o s to ft h ea l g o r i t h m sh a v et h e p a t e n tl i m i to rs o l et r a n s m i s s i o nr a t ei n t h ev o l pa p p l i c a t i o n t h u ss p e e x , 摘要a b s t r a c t w h i c hd o e sn o th a v et h ep a t e n tl i m i t ,c o m p l e t e l yf r e e ,a n dm a yp r o v i d em a n y k i n d so ft r a n s m i s s i o nr a t e s ,i sn e e d e d s p e e xi sa l la l g o r i t h mt h a ti n t e g r a t e st h en a r r o wb a n d ,t h ew i d eb a n da n d t h eu l t r a - w i d eb a n dt o g e t h e r i ta l s os u p p o r t st h ed y n a m i cb i tr a t ec u ta n di n o r d e rt oo b t a i nb e t t e rv o i c eq u a l i t y , i tc a na l s oc h o o s et h ed i f f e r e n ts p e e c h c o d i n gs p e e da u t o a d a p t e da c c o r d i n gt ot h en e t w o r ka n dt h et e r m i n a la c t u a l s i t u a t i o nt or e d u c et h ee r r o ra n dt h ei n f l u e n c ef r o mp a c k e tl o s i n g t h ep a p e ri sa b o u tt h er e s e a r c ho na l g o r i t h ma n dt h ei m p l e m e n t a t i o no n 2 4 b i tf i x e d p o i n td s pc h i p t h ep a p e ra l s oi n c l u d e ss o m ed i s c u s s i o na b o u t t h ec o d eo p t i m i z a t i o nt or e d u c et h ea l g o r i t h mc o m p l e x i t ya n dr a i s e dt h e c o d i n ge f f i c i e n c y s ot h er e s e a r c hm a i n l yi n c l u d e st h ef o l l o w i n gs e v e r a lp a r t s : f i r s t ,t r a n s l a t et h ee x i s t i n gf i x e d - p o i n tc c o d et od s p a s s e m b l yc o d e d u r i n gt h i sp r o c e s sl e tt h ep r o g r a mp a s sl o t so ft e s ts e q u e n c e st og u a r a n t e e p r o c e d u r ea c c u r a c y s e c o n d ,a i m i n ga tt h ea d s p 2 181p r o c e s s o r sc h a r a c t e r s d os o m e o p t i m i z a t i o nt os p e e xa l g o r i t h m a f t e ro p t i m i z a t i o n ,s p e e xe n c o d i n g a l g o r i t h m so p e r a t i n gs p e e dh a sb e e ne n h a n c e da b o u t4 0 s p e e xs p e e c hc o d e ch a sb e e nu s e di na na c t u a lv o l pp h o n et e r m i n a l k e y 的r d s : s p e e x ,a d s p 2 18 1 ,s p e e c hc o d e c ,r e a l - t i m e ,o p t i m i z a t i o no nd s p 北京邮电大学丁学硕十学位论文 声明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:竭爱墓 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:翊嚷墓 导师签名: 北京邮电大学硕士研究生论亨 s p e e x 语音编解码算法及其在d s p 上的实现 第一章引言 随着通信网络数字化的迅速发展,近几年来通信技术和计算机技术相互渗透的进 程明显加快,出现了基于i p 的分组语音技术,即v o 口( v o i c eo v e ri p ) 技术。由于v o l p 能广泛地采用i n t e r n e t 和全球i p 互连的环境,提供比传统业务更多、更好的服务,自1 9 9 5 年以来得到了迅猛发展,目前已成为数据语音通信中最有竞争力的技术之一【l 】。 作为v o l p 中的一个核心问题,语音编解码算法也随之引起人们越来越广泛的关 注。s p e e x 是一种集成了窄带、宽带和超宽带“多模式 的编码算法,可根据网络及 终端的实际情况自适应地选择不同的语音编码速率,提供不同的话音质量,并且能够 支持动态比特率切换;s p e e x 还是一种完全免费的没有专利限制的开源算法。鉴于 s p e e x 的种种优点,对其算法及实现的研究具有非常重要的现实意义。 1 1 课题研究的背景及意义 v o l p 业务有着和传统业务无法比拟的长处,故其发展的速度也是非常迅速。可 是由于v 0 i p 的传输媒介是m 网络,是基于u d p 协议的传输,属于无q o s 的传输。 可对于用户来说,无论网络情况如何,都希望获得尽量好的通话质量。可是网络情况 往往是非稳定,时变的,而现在用于v o 口中的语音编码算法大多是单一速率的,这 就需要一种随着网络质量变化而提供不同传输速率的变速率的编码算法出现。s p e e x 就是这样一种多速率的编码算法,它可以根据网络及终端的实际情况选择不同的编码 速率,并且能够支持动态的比特率切换,在不同的情况下提供不同的通话质量。所以 对s p e e x 算法及实现的研究就显得非常的重要。 1 2v o i p 技术简介 v o l p 是建立在i p 技术上的分组化、数字化传输技术,其基本原理是:使用语音 压缩算法对语音数据编码进行压缩编码,再按i p 协议将这些语音数据打包,并通过 i p 网络将语音i p 包分组传输到目的地,最后经解压处理,还原成原来的语音信号l l j , 从而达到由互联网传送语音的目的。p 电话系统把普通电话的模拟信号转换成计算 机可联入因特网传送的i p 数据包,同时也将收到的i p 数据包转换成声音的模拟电信 号。经过i p 电话系统的转换及压缩处理,每个普通电话传输速率约占用8 1l k b i t s 带宽,因此在与普通电信网同样使用传输速率为6 4 k b i t s 的带宽时,口电话路数是原 来的5 8 倍。 北京南r 由- e 学硕士研究生论文s p e e x 语音编解码算法及其在d s p 上的实现 1 2 1v o l p 网络组成 目前电信级v o l p 系统一般由l p 电话终端、i p 接入网关、网关( g a t e w a y ) 、网守 ( g a t e k e e p e r ) 、网管系统、认证计费系统等几部分组成【2 1 。 l 、终端:口电话终端包括传统的语音电话机、p c 、i p 电话机,也可以是集语音、 数据和图像于一体的多媒体业务终端。 2 、接入网关:接入网关即前置交换机,它的作用是与p s t n 网、移动网、专网 p b x 实现互联互通及信令转换、话务收敛、呼叫分配。接入网关与网关相连可采用 p r i 信令,与p s t n 侧可采用n o 7 号信令或r 2 号信令,优选n o 7 号信令。 3 、网关:由于不同种类的终端产生的数据源结构是不同的,要在同一个网络上 传输,这就要由网关或者是通过一个适配器进行数据转换,形成统一的i p 数据包。 i p 电话网关提供i p 网络和电话网之间的接口,用户通过p s t n 本地环路连接到i p 网 络的网关,网关负责把模拟信号转换为数字信号并压缩打包,成为可以在因特网上传 输的i p 分组语音信号,然后通过因特网传送到被叫用户的网关端,由被叫端的网关 对口数据包进行解包、解压和解码,还原为可被识别的模拟语音信号,再通过p s t n 传到被叫方的终端。这样,就完成了一个完整的电话到电话的i p 电话的通信过程。 网关负责完成p r i 信令至h 3 2 3 协议的转换。 4 、网守:网守实际上是i p 电话网的智能集线器,是整个系统的服务平台,负责 系统的管理、配置和维护。网守提供的功能有拨号方案管理、塞全性管理、集中帐务 管理、数据库管理和备份、网络管理等等。网守按管理作用的不同又可分为目录网守、 区域网守,整网通过目录网守同其他口电话运营网络实现互通。 5 、网管系统:网管系统的功能是管理整个m 电话系统,包括设备的控制及配置, 数据配给,拨号方案管理及负载均衡、远程监控等。 6 、认证计费系统:认证计费系统的功能是对用户的鉴别用户是否为有权用户并 对呼叫进行费用计算,同时提供相应的单据和统计报表。认证计费系统可以由i p 电 话系统制造商提供,也可以由第三方制作,但此时需口电话系统制造商提供其软件 数据接口。 1 2 2v o l p 的关键技术 传统的i p 网络主要是用来传输数据业务,采用的是尽力而为的、无连接的技术, 因此没有服务质量保证,存在分组丢失、失序到达和时延抖动等情况。数据业务对此 2 北京邮电大学硕士研究生论文 s p e e x 语音编解码算法及其在d s p 上的实现 要求不高,但话音属于实时业务,对时序、时延等有严格的要求。因此必须采取特殊 措施来保障一定的业务质量。v o l p 的关键技术包括:信令技术、编码技术、实时传 输技术、服务质量( q o s ) 保证技术、以及网络传输技术等。 1 信令技术 信令技术保证电话呼叫的顺利实现和话音质量,目前被广泛接受的v o l p 控制信 令体系包括i t u t 的h 3 2 3 系列和i e t f 的会话初始化协议s i p 。 i t u 的h 3 2 3 系列建议定义了在无业务质量保证的因特网或其它分组网络上多媒 体通信的协议及其规程。h 3 2 3 一共定义了四种部件:终端、网关、网守和多点控制 单元。利用它们,h 3 2 3 可以支持音频、视频和数据的点到点或点到多点的通信。h 3 2 3 是i t u t 有关多媒体通信的一个协议集,包括用于建立呼叫的h 2 2 5 0 、用于控制 的h 2 4 5 、用于大型会议的h 3 3 2 以及用于补充业务的h 4 5 0 x 等。 s i p 是一种应用层协议,可以用u d p 或t c p 作为其传输协议。与h 3 2 3 不同的 是:s i p 是一种基于文本的协议,用s i p 规则资源定位语言描述( s i pu n i f o r mr e s o u r c e l o e a t o r s ) ,这样易于实现和调试,更重要的是灵活性和扩展性好。由于s i p 仅作用 于初始化呼叫,而不是传输媒体数据,因而造成的附加传输代价也不大。与h 3 2 3 相 比,s i p 还有建立呼叫快,支持传送电话号码的特点。 虽然h 3 2 3 提供了窄带多媒体通信所需要的所有子协议,但h 3 2 3 的控制协议非 常复杂。此外,h 3 2 3 不支持多点发送( m u l t i c a s t ) 协议,只能采用多点控制单元( m c u ) 构成多点会议,因而同时只能支持有限的多点用户。与h 3 2 3 相反,s i p 是一种比较 简单的会话初始化协议。它不像h 3 2 3 那样提供所有的通信协议,而是只提供会话或 呼叫的建立与控制功能。s i p 可以应用于多媒体会议、远程教学及i n t e m e t 电话等领 域。s i p 既支持单点发送( u n i c a s t ) 也支持多点发送,会话参加者和媒体种类可以随 时加入一个已存在的会议。s i p 可以用来呼叫人或机器设备,如呼叫一个媒体存储设 备记录一个会议,或呼叫一个点播电视服务器向会议播放视频信号。 2 编码技术 话音压缩编码技术是v o l p 技术的一个重要组成部分【3 l 。我们将在下一节中给予 详细介绍。 3 实时传输技术 实时传输技术主要是采用实时传输协议r t p 。r t p 是提供端到端的包括音频在 北京邮电大学硕士研究生论文 s p e e x 语音编解码算法及其在d s p 上的立硼 内的实时数据传送的协议。r t p 包括数据和控制两部分,后者叫r t c p 。r t p 提供了 时间标签和控制不同数据流同步特性的机制,可以让接收端重组发送端的数据包,可 以提供接收端到多点发送组的服务质量反馈。 4 q o s 保障技术 v o i p 中主要采用资源预留协议( r s v p ) 以及进行服务质量监控的实时传输控制协 议r t c p 来避免网络拥塞,保障通话质量。 5 网络传输技术 v o i p 中网络传输技术主要是t c p 和u d p ,此外还包括网关互联技术、路由选择 技术、网络管理技术以及安全认证和计费技术等。由于实时传输协议r t p 提供具有 实时特征的、端到端的数据传输业务,因此v o i p 中可用r t p 来传送话音数据。在 r t p 报头中包含装载数据的标识符、序列号、时间戳以及传送监视等,通常r t p 协 议数据单元是用u d p 分组来承载,而且为了尽量减少时延,话音净荷通常都很短。 v o i p 话音分组开销很大,采用r t p 协议的v o i p 格式,在这种方式中将多路话音插 入话音数据段中,这样提高了传输效率。 此外,静音检测技术和回声消除技术也是v o l p 中十分关键的技术。静音检测技 术可有效剔除静默信号,从而使话音信号的占用带宽进一步降低到3 5 k b p s 左右;回 声消除技术主要利用数字滤波器技术来消除对通话质量影响很大的回声干扰,保证通 话质量。这点在时延相对较大的口分组网络中尤为重要。 1 3 语音编解码算法简介 1 3 1 语音编解码技术简介及分类 语音编解码算法是v o l p 技术中非常重要的一项,编解码效率及质量的好坏直接 决定了传输话音的质量。为了提供话质清晰、占用带宽小的语音编码算法,学者们投 入了很多精力,事实上,在国际标准化工作中,语音编码是一个非常活跃的领域。 从总体上看,语音编码技术的核心是要在尽可能低的码率和尽可能好的合成语音 质量之间找到平衡点。目前,语音压缩编码算法大致可分为三类:波形编码、参数编 码和混合编码1 4 1 。 ( 1 ) 波形编码岭】 波形编码是直接对语音时域或频域波形样值进行编码。这种编码方式由于保留了 信号原始样值的细节变化,编码质量较高。缺点是码速率比较高,压缩比不大。波形 4 北京邮电人学硕士研究生论文 s p e e x 语音编解码算法及其在d s p 上的实现 编码的典型代表是p c m ( p u l s ec o d i n gm o d u l a t i o n ,脉冲编码调制) 1 6 】。 a d p c m ( a d a p t i v ed i f f e r e n t i a lp c m ) 是另一种波形编码方法,它利用差分信号动态范 围小的特点,使得编码效率由p c m 的6 4 k b s 降低到3 2 k b s 。从理论上说,单纯的波形 编码在提高编码效率上有一定的极限。如,通过加大量化步长,减少每个样点值的编 码比特数,可以降低数字话音的码率;但是量化步长增大,意味着量化噪声也会增大, 当码率降到一定程度时会导致解码恢复的语音信号失真度增大。 ( 2 ) 参数编码 由于通信资源的限制和保密通信的发展需求,波形编码的能力有限,需要借助新 的压缩技术,参数编码应运而生。参数编码的基础是人类的发音模型。 语音学和医学的研究结果表明,人类发音器官产生声音的过程可以用一个数学模型 来逼近。通过对语音发音机理的研究人们得到了语音信号产生的数学模型,见图1 1 。 合成语音 图1 - 1 语音信号的分析合成模型 由图1 1 可以看出,只要合理地选择模型中的参数,我们就能生成语音。由于语 音信号是时变的,这要求模型的参数也是时变的。参数编码算法与波形编码算法的不 同之处在于:编码器并不对数字语声的样点值进行处理,而是通过分析样点值估计发 声模型的参数,并将模型参数发送给解码器;解码器利用模型参数在接收端生成语音。 总体上看,模型参数分为两大类:声音激励的模型参数和声道估计的模型参数。 参数编码算法在低码率的语音编码中有着非常广泛的应用。比如:l p c 1 0 ( l i n e a r p r e d i c t i v ec o d i n g - 10 ) 算法可以将一路话音压缩到2 4 k b s 。 ( 3 ) 混合编码 波形编码和参数编码方式具有不同的优缺点。波形编码压缩率不高,而参数编码 不能对原语音信号的波形进行跟踪,因此在背景噪音较大的情况下,由于输入的语音 信号不能根据其内在的语音模型得到很好的建模,所以合成语音质量急剧下降。 针对上面的问题引入了混合编码。混合编码方式结合了参数编码和波形编码的优 北京邮电大学硕士五犴有堆论文 s p e e x 语音编解码算法及其在d s p 上的实现 点,在中低速语音编解码算法中得到了广泛的应用。总的来说,混和编码采用了与参 数编码类似的话音生成模型:同时,为提高话音质量,它采用基于波形编码的矢量量 化方法来生成模型激励信号。目前,码速率在4 8 k b s 1 6 k b s 之间的语音编码国际标 准大都是基于混合编码方式的,如g 7 2 8 、g 7 2 9 等。表1 1 【l 】列出了三种编码方式的相 关算法和语音主观质量等的简表。 注:主观评价共5 个等级:l 、2 、3 、4 、5 ,其中5 0 为最高分。 表1 1 数字音频编码算法标准、质量简表 码率应用 主观 算法名称标准评价 ( k b p s ) 领域 质量 p c m ( a u ) 压扩法 6 4g 7 1 14 3 波形编a d p c m 自适应差值量化 3 2g 7 2 1 p s t n 4 1 码i s d n s b a d p c m子带a d p c m6 4 | s 6 | 4 8g 7 2 24 5 参数编 码 l p c 线形预测编码 2 4 保密 2 5 语音 c e l p c码激励l p c4 8 3 2 v s e l p c矢量和激励l p c8g 队 移动 3 8 通信 混 长时预测规则码 语音 3 8 厶 r p e i j 甲1 3 2g s m 1 7 1 激励 信箱 编 码 l d c e l p 低延时码激励 l p c 1 6g 7 2 8i s d n4 1 m p e m p e g多子带感知编码1 2 8 c d 5 0 g 1 3 2 语音编解码的国际标准 根据通信的需求和发展,i t u ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n 国际电信联 盟) 、n s a ( n a t i o n a ls e c u r i t ya g e n c y 美国国家安全局) 等标准化组织在语音通信方 面制定了多种通信标准,便于不同终端设备间的互连互通。下面简单介绍几个语音编 码的国际标准,包括:g 7 1 1 ,g 7 2 3 1 ,c 7 2 9 ,r p e l 1 1 p ( r e g u l a rp u l s ee x c i t a t i o n - l o n g t i m ep r e d i c t i o n 长时预测规则码激励) 。 6 北京邮电大学硕士研究生论文 s p e e x 语音编解码算法及其在d s p 上的实现 ( 1 ) g 7 11 g 7 1 1 即人们熟知的脉冲编码调制p c m ,这个标准广泛用于有线电话通信中。 p c m 编码具有良好的解码语音质量,编解码器实现简单,复杂性低,时延小,但系统 所需的带宽高。 p c m 编码主要包括:采样、量化和编码三个主要步骤。在量化过程中,为提高量 化信噪比,采用了非均匀量化。具体而言,就是对采样后的脉冲信号进行压扩处理, 放大小信号,压缩大信号,然后对经过压扩的信号进行均匀量化。这种方法等效于对 小信号进行小量化级量化,大信号进行大量化级量化,使得大小信号的量化信噪比趋 于接近。具体实现时,常用的有a 律1 3 折线或“律压扩曲线两种方案。 美国和日本采用“律压扩曲线,我国和欧洲采用a 律1 3 折线。 ( 2 ) g 7 2 1 7 】 1 9 8 4 年i t u 公布了使用自适应差分脉冲编码调铸i j ( a d p c m ) 的3 2 k b i t s 语音编码 标准g 7 2 1 ,并于1 9 8 6 年根据运行中出现的问题发布了修改版本。这一技术特点在于 不把语音信号直接量化,而是对它和预测值的差值进行量化。同时根据编码的结果, 调制线性预测系数。它不仅可以达到与p c m 相同的重建语音质量,而且具有比p c m 更优良的抗误码性能,广泛应用于卫星,海缆及数字语音插空设备以及可变速率编码 器中。 ( 3 ) g 7 2 3 1 g 7 2 3 1 是i t u 常t 定的一个双速率语声编码标准。该标准有两种编码码率:5 3 k b s 和6 3 k b s ,分别采用a c e l p ( a l g e b r a i cc o d ee x c i t a t i o nl i n e a rp r e d i c t i o n 代数码激励线 性预测) 和m p m l q ( m u l t i - p u l s em a x i m u ml i k e l i h o o dq u a n t i z a t i o n 多脉冲最大似然量 化) 算法进行处理。 g 7 2 3 1 编码器原理如图1 - 2 引所示。输入的原始数字语音先经高通滤波器滤除直 流分量,然后将每3 0 m s 的语音帧分成4 个等长子帧,对每一子帧进行1 0 阶l p ( l i n e a r p r e d i c t i o n 线形预测) 分析计算l p c ( l pc o d i n g 线形预测编码) 参数。为降低编码速率, g 7 2 3 1 只将每一帧内最后一个子帧的l p c 参数转换为l s p ( l i n e a rs p e c t r u mp a i r s 线谱 对) 参数,用预测分级矢量量化( p s v q p r e d i c t i v es p l i tv e c t o rq u a n t i f i e r ) 器量化、编码 后加以传送。解码器利用当前帧和前一帧的l s p 参数内插获得每一子帧量化后的l p c 参数。 7 北京邮电大学硕士研究生论文s p e e x 语音编解码算法及其在d s p 上的实现 蠡备1 :五- o r l p c 分析、 硼u i 石日 量化、内插 基冈信息 , 参数量化 传送比特涌 及解码 激励矢量信皂 1r l p c 信息 高通滤波 加权合成滤波器内存更新 c 信息零输入响庄 r ,h ( n 1w ( n ) 中v ( n ) t 、 r 1 l、 州闭环基音预测b 、 激励矢量搜索感知加权滤波k u 儿,j l a c e l p m p m l q jlj 1r h ( n ) 开环基音预测 开环基音预测值闭环基音信息 图l 2g 7 2 3 1 编码结构框图 解码器利用当前帧和前一帧的l s p 参数内插获得每一子帧量化后的l p c 参数。之所以 要把l p c 参数转换为l s p 参数是因为l s p 参数不仅能反映声道幅度谱特性,而且在 0 , p 】内由小到大按顺序排列,各参数之间独立性较强,这样就有利于分级矢量量化。用 每一子帧未量化的l p c 参数构造感知加权滤波器,对经过高通滤波的语音进行感知加 权,利用感知加权后的语音每两个子帧作一次基音开环预测。然后对每一子帧构造谐 波噪声整形滤波器进行滤波,并用量化和未量化的l p c 参数计算加权合成滤波器的冲 激响应h ( n ) ,从经过谐波噪声整形滤波的语音信号中减去零输入响应得到目标信号 t m ) ,利用冲激响应h ( n ) 和目标信号t ( n ) 在开环基音预测值附近的小范围内进行闭环基 音分析,搜索基音周期和预测增益。这里采用了五阶长时预测滤波器,预测增益采用 矢量量化。偶数子帧的基音周期用7 比特编码,奇数子帧的基音周期用2 比特差分编码。 将自适应码字通过长时预测滤波器计算长时贡献p ( n ) ,从目标信号t ( n ) 中减去长时贡献 p ( n ) 得到残差信号r ( n ) 。最后用冲激响应h ( n ) 和残差信号“n ) 对激励信号中的非周期脉 冲成分进行搜索,对高码率( 6 3 k b s ) 采用多脉冲最大似然量化( m p m l q ) 激励,对低 码率( 5 3 k k b s ) 贝j j 采用a c e l p 。在搜索激励矢量的过程中采用了高效的快速算法以降 低运算复杂度。 ( 4 ) ( 2 7 2 8 【9 】 i t u 在1 9 9 2 年9 月制定了g 7 2 8 标准,算法采纳了由a t & t 公司提出的1 6 k b i t s 短时延迟码激励线性预钡q ( l d c e l p ) 语音编码方案。g 7 2 8 标准的语音质量与3 2 k b i t s 的g 7 2 1 标准基本相当。l d c e l p 算法特点是语音短时谱与长时谱预测、增益因子 8 北京邮电人学硕士研究生论文 s p e e y ;喜軎编解码算法及其在d s p 上的实现 预测等参数不是从输入语音中直接提取,而是用一个5 0 阶长的预测器在后向来实现, 传送的信息则只是激励矢量,这就压缩了传输比特率。g 7 2 8 标准以其较小的时延、 较低的速率、较高的性能在实际中得到广泛的应用,例如:可视电话伴音、无绳电话 机、单路单载波卫星和海事卫星通信、数字插空设备、存储和转发系统、话音信息录 音、数字移动无线系统、分组化话音等。 ( 5 ) g 7 2 9 g 7 2 9 是i t u 制定的8 k b s 语音编码标准,算法的核心是共轭结构的算术码激励线 性预n ( c s a c e l pc o n j u g a t e s t r u c t u r e a c e l p ) 。 g 7 2 9 编码结构框图如图1 - 3 1 0 】所示。模拟信号首先经过带通滤波器滤波,按8 k h z 频率抽样并转换成1 6 b i t 线性p c m 码,这就得到了g 7 2 9 编码器所使用的输入语音信 号。把预处理后的输入信号进行线性预测分析,得到线性预测系数,g p l p c 信息,利 用该系数可构造合成滤波器。激励信号经合成滤波器后生成重构信号,与输入信号相 减后得到残差信号。该残差信号经误差加权滤波器处理,根据听觉感受改变频谱。+ 反 馈控制回路根据使加权残差信号均方差最小的原则确定激励信号及增益。误差加权滤 波器也是根据预测分析所得的l p c 信息构建的。基音分析模块首先通过自相关分析获 得基音周期,并根据该信息搜索自适应码本以确定最佳自适应码本矢量,得到语音中 具有准周期特性的激励。然后再搜索固定码本,根据加权均方差最小的准则确定最佳 固定码本矢量,得到语音模型的随机激励信号。最后确定两个码本矢量的增益g c 和 q ,采用具有共轭结构的两级码本进行矢量量化。上述过程确定的线性预测编码信息、 自适应码本矢量、固定码本矢量和矢量增益构成完整的g 7 2 9 声码器编码器参数。所 有这些参数均以码本索引的形式发往接收端。 ( 6 ) 常用编解码算法的性能比较 语音通信系统要求具有较强的实时性,为保证实时性,需要对系统中的语音编码 器的工作性能进行评估。一般从以下几个因素综合考察编解码算法和系统的性能。 9 北京邮电大学硕士研究生论文s p e e x 语音编解码算法及其在d s p 上的实现 图l - 3g 7 2 9 编码结构框图 令帧大小:帧的大小表示语音流量的时间长度,称为帧时延。中低码速率的编码器 都是分帧处理的。帧编码后信息分别存放到单独的语音分组中,传送给接收端。 处理时延:表示在编码器中对一帧语音进行编码算法所需时间。处理时延也被称 为算法时延。 前视时延:编码器为了对当前帧的编码提供帮助而检查下一帧一定长度的数据, 此长度就称为前视时延。前视的目的是利用相邻语音帧之间的相关性。 d s pm i p s :此值是指支持特定编解码器的d s p 处理器的最低速度。 6 - r a m 需求:描述了支持特定的编解码过程所需要r a m 的大小。 综上所述,评价编解码器性能的关键因素是编码时间。这和保证语音通信的实时 性是一致的。编码时间是指编码器的缓存及处理时间,其值理论上等于:帧大小+ 处 l o 北京邮电大学硕士研究生论文 s p e e x 语音编解码算法及其在d s p 上的实现 理时延+ 前视时延。显然,解码时延也非常重要。对于常用的语音编码算法,解码时 延明显低于编码时延。一般情况下,解码时延大约是编码时延的1 4 到l 2 左右。 下表给出了常用语音编解码的比较,其中复杂性以g 7 1 1 为基准,时延包含了帧 时延、处理时延和前视时间。 表l - 2 编解码算法的各项性能的比较 比特率主观话音 标准编码类型复杂性时延( m s ) ( k b p s ) 质量 g 7 1 1p c m6 44 3l 0 1 2 5 g 7 2 6a d p c m3 24 11 00 1 2 5 g 7 2 8l d c e l p1 64 1 5 00 6 2 5 g 7 2 9c s a c e l p84 03 01 5 g 7 2 3 1a c e l p6 - 33 8 2 53 7 5 a m r e f r 1 2 23 83 53 2 5 a m r h r6 73 52 02 5 1 3 3s p e e x 编解码算法用于v o i p 的优点 s p e e x 是一种开源的和免版税的语音编码算法。对于通常的音频编码来说,v o r b i s 是一个很好的选择,可是它却不是一种很好的语音编码算法。同样,s p e e x 不像其他 的很多算法一样,它不适合于移动通信,而是一种专门针对v o p 和基于文件格式的 语音编码算法。 作为一种语音编码算法,当然希望在低比特率的情况下仍然拥有好的话音质量, 基于这种思想,s p e e x 中采用了多比特率传输。如果希望获得更好的话音,便可以在 窄带编码( 8 k h z 采样率) 的基础上加入宽带编码( 1 6 k h z 采样率) 。 专门针对v o 口设计的s p e e x ,无论是鲁棒性还是有效性方面,都表现出突出的 优势。首先,在严重丢包的情况下s p e e x 依然能够提供较高质量的话音;同样,s p e e x 在一般的算法复杂度和存储容量要求情况下,并没有降低编码的执行效率。 鉴于以上这些要求,s p e e x 选择c e l p 作为基本的编码技术。经多次验证,无论 在低比特率还是高比特率情况下,c e l p 在编码和分级方面都表现出了优秀的特性。 北京邮电大学硕士研究生论文s p e e x 语音编解码算法及其在d s p 上的实现 s p e e x 的有以下几种主要特性: 免费开源,无专利和版税 用嵌入式的比特流将窄带和宽带编码集成在一起 较宽的比特率传输范围( 2 k 4 4 k ) 动态比特率切换和可变的比特率( r ,v a r i a b l eb i t - r a t e ) 语音活动监测( v a d ,v o i c e a c t i v i t yd e t e c t i o n ) ( 与可变比特率集成在一起) 可变的复杂度 3 2 k h z 情况下的超宽带模式( 最高支持4 8 k h z ) 提供超强的立体声编码 提供定点实现 1 4 本课题研究的内容、平台及流程 本课题研究的主要内容是s p e e x 编码算法及在d s p 上的实现,并在后期的优化 工作上做了一些探讨。最终在一个实际的v o i p 电话终端产品中得到了应用。 1 4 1 课题研究的平台 本课题的开发环境是基于p a l m m i c r o 公司生产的a r l6 8 8 系列芯片【1 1 1 ,该芯片是 专门为v 0 提供解决方案的s o c 芯片,该芯片主要由一个控制芯片核和一个d s p 芯片核组成,控制芯片负责语音的采集,通信的流程,主要包括协议栈的实现,用户 输入响应,显示输出等工作。d s p 芯片核主要负责语音编解码,d t m f 产生与检测, 回声抵消等与语音处理相关的内容。此外a r l 6 8 8 芯片还包含了片内a d c d a c 、 f l a s h 接口和r s 2 3 2 接口等模块。 a r l 6 8 8 系列芯片的d s p 核的指令集是与a d i 公司的a d s p 2 1 8 1 芯片指令集兼 容的,工作频率在5 0 m h z 左右,芯片的具体性能我们将在第三章中给与详细介绍。 在课题的进行过程中,选取了p a l m m i c r o 公司的p a l m a d s p 作为d s p 芯片的开发 调试工具。 1 4 2 课题展开的流程 s p e e x 的制定者给出了一个基于c 语言的定点算法参考代码【1 2 1 。本文的目标是要 把s p e e x 算法在定点d s p 上实现并做初步的优化,在本论文研究与实现的过程中, 1 2 北京邮电大学硕士研究生论文s p e e x 语音编解码笋滓两其在d s p 上的实现 采用两个步骤完成工作: 把相应的定点c 算法进行d s p 环境的搬移,然后对其中的计算量较大的模块进 行汇编语言级别的优化,尽可能地较小代码的运算复杂度。 在对s p e e x 算法实现后,进行了一些初步的优化工作,以减小m i p s 和存储空间, 这包括以下三个层次的优化。 1 ) 算法级的优化,用一些更好的算法来取代参考代码中的实现方式,从而改进 算法的计算效率。 2 ) c 语言级的优化,对定点化的代码进行优化,以改进定点编程的效率。 3 ) 汇编级的优化,充分利用d s p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论