语音压缩算法测评及质量评估_第1页
语音压缩算法测评及质量评估_第2页
语音压缩算法测评及质量评估_第3页
语音压缩算法测评及质量评估_第4页
语音压缩算法测评及质量评估_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音压缩的基本依据从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析的结果,语音信号中存在着多种冗余度m,主要有以下几个方面:幅度非均匀分布语音中小幅度样本比大幅度样本出现的概率要高。又由于通话必然会有间隙,更出现了大It的低电平样本。此外,实际语音信号的功率电平也趋向于出现在编码范围的较低电平端。因此,语音信号的幅值分布是非均匀的。样本之间的相关性对语音信号的波形分析表明to,采样数据的最大相关性存在于邻近样本之间。当采样速率为8KHz时,相邻采样值之间的相关系数大于0.85,甚至在相距十个样本之间,相关系数还有0.3左右的数it级。如果采样速率提高,样本间的相关性将更强。周期之间的相关性虽然电话语音信号的频率分布在300-3400HZ的频带内,但在特定的瞬间,某一声音却往往只是该频带内的少数频率分I起作用。当声音中只存在少数几个基本频率时,就会像某些振荡波形一样,在周期与周期之间存在着一定的相关性。基音之间的相关性语音可以分为清音和浊音两种基本类型.浊音是由声带振动产生,每一次振动使一股空气从肺部流进声道。激励声道的各股空气之间的间隔称为基音周期。浊音的波形对应于基音周期的长期重复波形。因此,对语音浊音部分编码的有效方法之一是对一个基音周期波形进行编码,并以它作为其它基音段的模板。此外,电话通信中还有很大的话音间隙。通话分析表明,语音间隙约占通话时间的60%。这本身也是一种冗余。正是由于语音信号具有以上特点,对语音的压缩编码才成为可能。在现今的通信系统当中,各种语音压缩编码得到了广泛的应用,并形成了一系列的语音编码标准。语音压缩编码技术大大缓解了信道紧张的状况。语音压缩技术的发展概况语音编码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特(帧)。这种方法使得语音在链路产生误码、网络抖动和突发传输时具有健壮性。在接收端,语音帧先被解码为PCM语音样值,然后再转换成语音波形。语音信号的数字编码方法主要分成三类:波形编码、参数编码和混合编码,其编码质量大致如图2所示,表2给出了各种编码方法的典型例子。波形编码是对语音时域或频域波形进行编码,由于这种系统保留原始样值的细节,从而保留了信号的各种过度特征,因此解码声音质量较高,但此系统编码码率较高,压缩比不大。参数编码的基础是利用人类语音的生成模型,这样在传输过程中只需要传送模型的参数,大大降低了系统的码率,特别适合于无线通信,保密和军事通信领域。参数编码的缺点在于恢复的语音质量较差。采用参数编码方法的编码器有时称为声码器。正因为上述两种编码存在着不足,因此人们又想到了混合编码的方法。混合编码是波形编码和参数编码的结合。它既利用了语音的生成模型,减少了传输码率,又使解码的语音产生接近原始语音的波形,以保留说话人的各种自然特征,因此当前各种国际标准通常采用这种方法。第一个语音压缩系统是1939年贝尔实验室的H.Duddlyf发明的通道声码器.1938年Reeves提出PCM(脉冲编码调制)编码,后来成为现代电话系统的常规语音编码方式,1977年被ITU-T采用为G.711标准建议。64Kbps速率的PCM方式,采样速率为8K,每个采样点盆化为8bit。现在所说的语音压缩编码,都是相对于64Kbps的PCM标准而言。1946年Delorain提出了增量调制(0M),1952年贝尔公司的Culter取得了差分脉冲编码调制(DPCM)的专利。为了进一步降低编码速率,以后又陆续提出了一些编码方案。1988年制定的G.722建议采用32Kbps的ADPCM编码,虽然码率较高,但是实现简单,且音质很好,在目前的ISDN系统中仍然使用这一编码方案.1992年制定的ITU-TG.728建议,采用LD-CELP(低延迟码激励线性预测),编码速率达到16Kbps,1995年制定的G.723.1建议,采用改进的激励线性预测编码,编码速率达到5.3/6.3Kbps。目前,欧洲的GSM通信系统采用的是13Kbps的RPE-LTP(规则脉冲激励长周期预测)压缩编码方案,同时正在开发6.5Kbps的CELP方案作为它的半速率标准方案。近年来,低比特率语音编码(8Kbps以下)的研究取得了很大的飞跃.美国先后公布了4.8Kbps的CELP编码,2.4Kbps的MELP编码,目前甚至出现了速率在1Kbps左右的语音编码算法noimi由于这些算法的延时都比较大,一般在20-80ms,还没有被米用为国际标准。随着算法的进一步改进,其应用前景将更加广阔。语音编码器的性能测评评估编码器的性能时要考虑几个重要因素:•帧大小:帧的大小表示语音流量的时间长度,也称为帧时延。帧是语音信号的分立部件,且每帧是根据语音样点更新的。•处理时延:它表示在编码器中对一帧语音做编码算法处理所需时间。它通常简单计入帧时延。处理时延好称为算法时延。•前视时延:编码器为了对当前帧的编码提供帮助而检查下一帧的一定长度,此长度就称为前视时延。前视的想法是为了利用相邻语音帧之间的密切相关性。帧长度:这个值表示经编码处理后的字节数(不包括帧头)。语音比特率:当编解码器的输入是标准脉冲编码调制的语音码流(比特率为64kbit/s)时,编解码器的输出速率。•DSPMIPS:此值是指支持特定编码器的DSP处理器的最低速度。值提注意的是DSPMISP与其它处理器的MISP速率无关。与用在工作站和个人计算机上通用处理器不同,这些DSP是为特定任务而专门设计的。因此,为实现上述的编解码器处理所需求MISP,通用处理器要比专用DSP处理器大。・RAM需求:它描述了支持特定的编码过程所需要RAM的大小。评价编码器性能的关键因素是编码器工作所需时间。这个时间是指编码器的缓存及处理时间,称为单向系统时延。其值等于:帧大小+处理时延+前视时延。显然,解码时延也非常重要。实际上,解码时延大约是编码时延的一半。语音编码质量评定评价通信系统性能优劣的根本标志之一是系统所输出语音质量的好坏,所以语音评估技术将成为分析各种电话网络通话质量,不断提高通信系统性能的关键技术。4.1语音质量的含义一般说来,语音质量包含个方面内容:清晰度、可懂度和自然度。清晰度是指语音中音节以下的语音单元(因素、声母、韵母等)的清晰度;可懂度是指语音中音节以上的语言单位(如字、单词和句等)的可懂程度;自然度则是指对讲话人的辨别水平。语音质量评价不但与语音学、语言学、信号处理等学科相关,而且还与心理学、生理学等学科有着密切的联系,因此语音质量评估是一个及其复杂的问题4.1语音质量评估的分类语音质量评估从评估主体上讲可分为两大类:主观评估和客观评估。4.2.1主观评估主观评估是以认为主体根据某种预先约定的尺寸来对失真语音(或参考原始语音)来划分质量等级的,它反映了评听者对语音质量好坏程度的一种主观印象。从理论上讲,语音质量的客观评估测试可分为两类:一类是音节以下(如音素、声母、韵母)的语音单元的测试,这常称为“清晰度”测试:另一类是音节以上(如词、句)的语言单位的测试,这一类的测试通常称为“可懂度”测试。这些测试的基本原理是相同的,只是测试的单元有所不同;而且可以按条件用公式从小单元的清晰度算出大单元的可懂度来。这些测试方法都属于主观听觉的测试方法。目前,国内外使用较多的主观评价方法有:平均意见分MOS(MeanOpinionScores)方法、韵母可懂度测量DRT(DiagnosticRhymeTests)方法、失真平均意见分DMOS(DegradationMeanOpinionScore-DMOS)和满意读测量DAM(DiagnsticAcceptabilityMeasure)、汉语清晰度测试等。4.2.1.1MOS法简介在实际语音系统应用中,MOS评分法使用最为普遍。它不仅用于语音编码,通信设备性能测试上,也是语音客观评估方法研究中,作为衡量评价方法好坏的重要依据之一。MOS法用于对语音整体满意度或语音通信质量的评价。其分值如表2所示。参加测试的评听人在听完测试语音后,从5个等级中选择其中某一级作为他对所测语音质量的评价。全体实验者的平均分就是所测语音质量的MOS值。由于主观上和客观上的种种原因,每次测试得到的MOS大都会有波动,为了减少波动的方差,除了参加测试的评听人要足够多之外(一般至少40人),所测语音材料也应足够丰富,测试环境也要尽量保持相同。在数字语音通信中,通常认为MOS在4.0-5.0分为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称为网络质量或长途质量。MOS在3.5左右称为通信质量,这是感到重建话音质量下降,但不妨碍正常通话,可以满足话音系统使用要求,MOS在3.0以下常称为合成语音质量,系指一些声码器合成的语音所能达到的质量。它一般具有足够的可懂度,但自然度及讲话人的确认等方面不够好。表2为国际上一些一些标准语音编码算法的语音质量主观评估分。4.2.2客观评估客观评估是指用机器自动判别语音质量.它从原理上又可分为两类评价方式:基于输入一输出方式的客观评估和基于输出方式的客观评估。基于输入输出方式的评价是建立在原始语音信号和失真语音信号的误差对比上,大多数这种方式的客观评估采用数值距离或者描述听觉系统如何来感知质量的听觉模型来量化语音质量的好坏;基于输出的客观评价是仅以语音系统的输出信号来评估语音质量的好坏。4.2.2.1客观评估方法的分类客观评估方法研究自七十年代以来迅速发展,国内外学者提出了数以千计的客观评估方法。这些方法从评估原理上可分为基于输入一输出和基于输出这两大类方法,如果从它们各自使用的主要技术方法(如谱分析,LPC分析、听觉模型分析、判断模型分析等)和主要特征参量<时域、参量、频域参量、变换域参量等)又可以将这些客观评估方法分为以下六类:基于SNR的评估方法、基于LPC技术的评估方法、基于谱距离的评估方法、基于听觉模型的评估方法、基于判断模型的评估方法、其它类评估方法。4.2.2.2主要客观评估方法的性能比较表3分类给出了目前主要客观评估方法的相关度数值表。由于受测试数据、测试方式等因素的影响,因而在不同文献中使用同样方法却会得到不同结果。4.2.2.3客观评估方法研究的发展特点及方向从上述客观评价方法研究的发展历程以及各种方法的评价性能来看,语音质量客观评价研究的发展具有以下特点:语音质量客观评价研究取得了十分可喜的成绩。基于输入一输出的客观评价方法与主观评价的相关度已达到了0.95左右,如AD/MNB,MBSD,和PSQM等方法,目前,这类评价方法的主要问题是要解决好稳定性等问题。从语音质量客观评估性能的提高过程来看,客观评估方法研究大致经历了这样几个阶段;时域分析阶段(如SNR等),频域谱分析阶段(如SD等),模型参数(LPC分析)阶段(如CD等),听觉模型阶段(BSD,MBSD,PSQM等)及听觉模型与判断模型的混合(hybrid)模型阶段(如AD/MNB)等。当然,各阶段不是严格分开的,而是互相混迭,特别是新方法往往是建立在传统方法基础上。听觉模型在语音质量客观评估研究中占有十分重要的地位。纵观客观评估的发展过程可以清楚看到只要在评估中考虑了人对语音信号的感知特性就会大幅度提高整个评估方法的性能。从这几年的研究成果来看,性能较好的客观评价方法都以听觉模型为基础;如BSD,MBSD,PSQM,AD/MNB等。判断模型的研究已开始得到重视。人对语音质量的评估包含两个过程;听过程和判断过程,因此,有必要构造良好的判断模型并和听觉模型相结合起来建立更符合主观评估过程的客观评估方法。虽然目前判断模型的研究己有所进展,如AD/MNB方法等,但是这方面的研究工作还有待于进一步深入下去。基于输出的客观评估方法研究有所发展,但尚属萌芽阶段。目前这种形式的客观评估方法与主观评估值的相关度还较低。尽管该方法具有巨大的发展前景和实际应用价值,但是在理论方法上和在使用的具体技术参数等方面还有待于突破性的进展。4.2.2.4常用客观语音评估算法介绍语音质量是一种主观的测量结果,依赖于听说双方对语音的主观评价。因此,语音质量其实是一种意见,因为它取决于大量的个体感知判断什么是可以接受的或不能被接受。传统的语音质量测试方法是通过在实验室让很多人试听语音并按照ITU规范的“综合意见评分法”(MOS)让他们对语音质量给出主观评价。很显然这样的测试手段不仅是主观依赖的,而且费时费力。因而国际电信联盟ITU在90年代中开始对端到端的语音质量自动客观测试技术进行标准化的工作,并从此发展出三个主要的测试算法可供进行自动和可重复性的测试:PSQM/PSQM+感知通话质量测量、PESQ感知评估通话质量测量、PAMS(英国电信)感知分析测量。PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势,针对VoIP和混合的端到端应用作了改进,并针对MOS和MOS-LQ计算方法做了修改。-PAMS(PerceptualAnalysis/MeasurementSystem)是由英国电信开发出来,它根据收听费劲程度和收听质量,利用感官模型比较声源信号和经过网络传输后退化的接听信号。PAMS分析退化信号中发现的不同类型的错误,将不同类型错误参数化并映射到预测感官模型上。这个模型是在进行大量的主观听力测试后建立的一个数据库。评测的结果给出一个综合意见评分值MOS,分值范围在2—5之间,5分代表最佳质量分值。-PSQM(PercepturalSpeechQualityMeasurement)是由荷兰的KPN研究机构开发出来,用于测量数字编码器的客观质量。最早被广泛应用的编码器测量手段是测试语音信号的信噪比S/N,但这种测试方法对现代越来越多的低压缩比编码器并不适用。PSQM则比较声源信号和退化信号,测出后者的失真程度、噪音和保真度。它已被ITU制定成P.861推荐规范,并有了一个增强型算法PSQM+,可更有效地分析大量瞬时失真。但这两种算法对信号过滤、不同的延时和短暂局部失真不作处理。(现ITU-T已经将P.861废弃,由P.862取代)-PESQ(PerceptualEvaluationofSpeechQuality)是由英国电信和KPN共同开发出来,并在2001年被ITU采纳为P.862规范。它比较声源信号和退化信号并给出一个类似人工听力评估测试的MOS分值。但它的功能要强大得多,不仅能测试像解码器这样的网络单元的效果,也能测量端到端的声音质量。它着重针对不同的信号退化原因,如编解码失真、错误、丢包、延时、抖动和过滤,给出-0.5到4.5的分值范围内的值。大多数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论