版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘要随着通信、计算机网络等技术的飞速发展,语音压缩编码技术得到了快速发展和广泛应用。尤其是最近20年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以与IP通信中得到普遍应用,起着举足轻重的作用。人们相互交流的信息量也在不断地急剧增加,庞大的语音信号数据给存储和传输带来了巨大的的压力,使得信道资源变得愈加宝贵。因此,语音压缩和语音编码技术显得越来越重要。本课题是基于DSP语音信号线性与非线性量化相互转化的新方法,通过DSP将采集到的语音信号进行压缩算法的处理。最后通过外设输出压缩后的语音信号。最终实现语音信号的采集、压缩与回放。本论文根据系统的功能需求,完成了该系统的算法研究,软硬件的设计。
2、设计出了A律编解码的软件流程框图,在以TMS320VC5502为处理器的硬件开发平台上实现了语音信号的A律压缩解压算法,并给出了压缩程序流程图。关键词: 语音压缩编码,线性与非线性量化转化,DSPAbstractWith the communications, computer networks of rapid development, voice compression coding technology has been rapid of development and wide of application.Especially in the last 20 years, speech
3、 coding technology was widely application in the mobile communications, satellite communications, multimedia and IP telephony technology, it plays a pivotal role. People mutually exchanging information is increasing dramatically, huge voice signal data to the storage and transmission brought huge pr
4、essure, it makes channel resources become more and more valuable. Therefore, speech compress and speech coding technology is becoming more and more important.This topic is based on the DSP of voice compression algorithm design and implementation.The collected voice signal use compression algorithm t
5、o treat by DSP. The speech signal after compression is output by external equipments finally. It has realized the speech signal collection、compression and playback finally. According to the system's functional requirements, this papers complete hardware and software design of the system. A law d
6、esigned a flow chart of the software codec in order to TMS320VC5502 processor hardware development platform for the realization of the speech signal on the A-law compression decompression algorithms, And give the compression process flow diagram. Key Words:Speech Coding,Transformation of linear and
7、nonlinear quantization ,DSP44 / 47引 言语音是人类相互进行交流时使用最多、最自然、最基本也是最重要的信息载体。语音的产生是一个复杂的过程,包括心理和生理等方面的一系列动作。由于其特殊的作用,人们历来十分重视对语音信号和语音通信的研究。近十几年来语音技术在人们实际需要的推动下快速的发展起来,语音技术是一个跨学科、涉与面广的综合学科,包括声学、语音学、生理学、心理学、数字信号处理、信息工程、通信理论、电子科学、模式识别、人工智能等众多学科,而且许多对语音数字信号处理有促进作用的学科如神经网路、小波理论、遗传算法、进化算法、模糊理论、混沌理论等也在蓬勃发展。随着当今
8、世界数字技术的飞速发展,数字业务量的急剧增长,如何在提供高质量语音的基础上用最低的码率来传送和储存数字语音信号,以增加现有信道的带宽利用率、安全性以与降低成本等已越来越受到人们的重视。在高度信息化的今天,语音处理的一系列技术与应用已经成为信息社会不可或缺的重要组成部分。目前的语音压缩专用芯片价格较高,并且采用语音压缩专用芯片的设备在信号处理的灵活性,功能扩展等方面受到很大的限制,很难加入一些新的功能或者算法。而使用 DSP 来自主开发实现语音压缩算法却可以使这一成本大大降低,同时可以方便地实现算法的更新,从而能够在不更换硬件的情况下实现功能的升级。再者,随着信息技术的发展,信道资源显得更加宝贵
9、,为了在有限的信道进行更多的信息传输,必须对语音信号进行压缩。因此,本论文研究的课题是基于DSP语音信号线性与非线性量化相互转化的新方法。1绪 论1.1课题的背景1876 年的发明可以认为是现代语音压缩编码、传输等的开端,在本世纪得到迅速普与应用,至今已有百余年的历史。随着科学技术的进步,语音信号的处理与发展已经历了三个主要阶段。 第一阶段:20 世纪 30 年代以前,语音信号的处理与传输均是以模拟的形式进行,1937 年 A.H.Reeves 提出了脉冲编码调制(PCM)理论,开创了语音数字化通信的历程。数字化语音在传输与存储可靠性、抗干扰、速交换、易等各方面都远胜于模拟语音。PCM 标准是
10、设备中第一种被采用的技术,它是一种波形编码方法,是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。第二阶段:1939 年,美国人 Dudley 研制成功第一个声码器,从此奠定了语音产生模型的基础,这一工作在语音信号处理领域具有划时代的意义。从此,语音处理开始了参数编码的研究。它通过对语音信号进行分析,提取参数来对参数进行编码,在接收端能够用解码后的参数重构语音信号。参数编码主要是从听觉感知的角度注重语音的重现,即让解码语音听起来与输入语音是一样,而不是保证其波形一样。这种编码方式一般对码率的要求要比波形编码低很多,但只能达到合成语音的质量,即使码率提高到与波形编码相
11、当时,语音质量也不如波形编码。应用广泛的线性预测 LPC(Linear Predictive Coding)声码器是典型的语音参数编码器。最新的参数编码器有正弦变换编码器、波形插编码器等1。第三阶段:20 世纪 70 年代中期,特别是 20 世纪 80 年代以来,语音编码技术有了突破性的进展,一些非常有效的处理办法被提出,产生了新一代的参数编码算法,也就是混合编码。混合编码克服了参数编码激励形式过于简单的缺点,成功地将波形编码和参数编码两者的优点结合起来,在 4kbps到l6kbps 的数码率上能够得到高质量的合成语音。既利用了语音产生模型,通过对模型参数进行编码,减少被编码对象的动态围和数据
12、量,又使编码过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了语音质量。得到最广泛研究的混合编码算法是基于线性预测技术的分析合成编码方法LPABS(Linear Prediction Analysis-By Synthesis)。从最初的 64kbps 的标准 PCM 波形编码器到现在 4kbps 以下的参量编码的声码器,语音压缩编码在几十年里得到迅速发展。进入 90 年代以来,在无线方面 GSM 又逐步替代传统的模拟无线系统。近年来,随着 Internet网的迅速发展,网络通信由单纯的数据信息向多媒体方向发展,移动通信也正向第三代移动通信方向发展,高效优质语音编码成为这些
13、新颖通信系统的基本也是关键的技术之一。在中国,语音和语言处理技术的研发略晚于国外。中国科学院声学研究所的俞铁城教授应该说是中国最早涉足这一领域的人之一,他于 1977 年在物理学报发表了全国第一篇关于语音识别的论文。清华大学语音技术中心紧随其后,语音界老前辈方棣棠教授、吴文虎教授于 1979 年创立语音技术中心(原名语音实验室),现已有 28 年的历史。随后,全国各地从事这方面研究的机构越来越多,比较著名的有清华大学电子工程系、中国科学院自动化研究所、中国科技大学、中国社会科学院语言研究所(在语音学研究方面,吴宗济先生的起步更早)、大学、工业大学等等。在这些顶尖学术机构的带动下,中国的语音和语
14、言处理技术得到很大发展,并逐步在国际上引起注意。1.2课题的意义随着通信、计算机网络等技术的飞速发展,语音压缩编码技术得到了快速发展和广泛应用,尤其是最近20年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以与IP通信中得到普遍应用,起着举足轻重的作用。人们享受着信息化带来的方便和快捷,数字广播电视、互联网、通讯和各种数码音乐产品正改变着我们的生活。与此同时,人们相互交流的信息量也在不断地急剧增加,庞大的语音信号数据给存储和传输带来了巨大的的压力,使得信道资源变得愈加宝贵。因此,语音压缩和语音编码技术显得越来越重要。语音压缩编码技术的类别语音编码就是将模拟语音信号数字化,数字化之后可以作为
15、数字信号传输、存储或处理,可以充分利用数字信号处理的各种技术。为了减小存储空间或降低传输比特率节省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语音压缩编码技术。它可以对原始数字语音信号PCM码流运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码或信源编码。它必须具有相应的逆变换,称为解压缩或解码。信源编码的任务主要是解决数据存储、交换、传输的有效性问题,通过对信源数据率的压缩,力求用最少的数码传递最大的信息量。采用语音压缩和语音编码技术可以在保证音质的同时,大减少数据传输量,节省传输所需要的带宽。总之,语音压缩技术的出现与应
16、用为人类带来了深远的影响,人们如今已生活在一个几乎语音压缩的世界之中,而语音压缩技术则称得上是应用最为广泛的数字技术之一,CD、 VCD等早已走进千家万户,数字化广播正在全球围逐步得到开展,正是这些与广大消费者密切相关的产品与应用成为了本文将要介绍的主题:语音压缩算法的设计与实现2。1.3语音压缩编码的国际标准由于数字语音编码技术具有广阔的应用围和良好的市场前景,从 20 世纪 80 年代开始,国际上著名的通信研究机构和大学均大力开展高音质低码率语音编码技术的研究,取得了大批成果,因此语音编码技术的标准化工作显得十分重要。国际电信联盟 (ITU)在语音编码技术的标准化方面做了大量的工作,制订了
17、很多标准,并逐渐受到业界的认同。其中比较典型的有 G.711, G.721, G.728, G.729 等标准。1.G.711 标准最早的语音编码方案是 PCM 编码,它的码率是 64kbps。对语音信号按8kHz 进行采样,再对每一个样本做 8bit 的标量量化。虽然它的码率很高,但处理程序简单,话音质量非常好,在网中广为使用。它被 ITU-T 定为G.711 标准。2.G.721 标准G.711 标准产生后,人们将大量的精力投向了语音压缩编码的研究。经过多年的研究,科学家们提出了一种旨在消除语音信号样本间的相关性的线性预测编码算法。它可以在基本保证音质的情况下,编码率有较大的压缩。利用当时
18、还处于雏形的线性预测方法,科学家们成功开发出了编码率为 32kbps(相对于 PCM 码,它被压缩了一半)的增量调制编码 ADPCM(Adaptive differencePCM)方案,音质略次于 PCM 编码,可懂度和自然度都不错,立即受到人们的青睐。它被 ITU-T 定为 G.721 标准。3.G.728 标准低码率、短时延、高质量是人们期望的目标,波形编码的局限性,决定了其编码率不可能降的太低,为了进一步降低编码率,必须选用参数编码和混合编码技术。ITU-T 于 1992 公布 G.728 标准,编码速率为 16kbit/s,算法延时小于 2ms,语音质量可达 MOS 4 分以上,与 G
19、.711 音质基本相当,主要应用于可视、存储和转发系统、数字移动无线系统、数字插空设备、语音信息录音、分组化语音等领域。4.G.729 标准保持高音质就是要使合成语音和原始语音的均方误差始终小到不易察觉。在 此 前 提 下 , 通 过 改 进 算 法 , 达 到 进 一 步 压 缩 编 码 率 的 目 的 。 CS-ACELP(Conjugate-Structure Algebraic Code Excited Linear Prediction)算法就是该思路的历史产物。它实现了 8kbps 的码率,所达到的语音质量一点也不亚于G.721 标准,但却比 G.721 标准的编码率压缩了整四倍。
20、ITU-T 在 1996 年将CS-ACELP 算法制定为 G.729 标准3。在实际选择语音压缩标准时,要综合考虑带宽、时延、算法复杂度等各种因素。1.3语音压缩编解码概述在现代通信中,作为组成通信系统的最基本单元之一的信源,如果不经过任何处理,会存在大量的冗余成分,直接经信道进行传输将会造成带宽的极大浪费。所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输。语音信号是通信系统中使用最多的信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后的语音信号,再经过压缩处理后方可进行传输和存储。在接收端,对信号进行解压缩处理和
21、D/A转换,还原成原始的模拟语音信号。这就是语音编解码技术。模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽。语音编解码技术的方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码。波形编码是最简单且应用最早的语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711的A律或u律、G.721和G.726标准均属于波形编码;参数编码的语音编码速率较低,基本上在2kbps到4.8kbps之间,语音的可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复
22、杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自的优点并克服它们的缺点,在较低的比特率上获得较高的语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5。最早的语音编解码标准是1972年CCITT提出的G.711标准,即64kbps的脉冲编码调制(PCM)。到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用的即是欧洲的30路脉冲编码调
23、制PCM。随后,CCITT又公布了G.721标准,即32kbps的自适应脉冲差分编码ADPCM,在达到和PCM一样语音质量的基础上,它具有更优良的抗误码性能,并且速率降低一半。接着,ITU又提出了子带自适应差分脉冲编码G.722,16kbps的短时延迟码激励线性预测G.728标准,8kbps的共轭结构代数码激励线性预测编码G.729标准以与具有两种编码速率的G.723。l标准(5.3kbps和6.3kbps,高速率采用多脉冲最大似然量化MPMLQ技术,低速率采用代数码本激励线性预测ACELP技术)等5,6,7。2语音压缩的理论依据与算法2.1语音压缩的理论依据语音通信经历了从模拟信号到数字信号
24、的发展过程,最初通信传输的是语音模拟信号,传输的效率不高,而且传输不是特别可靠、高效。因为模拟信号在传输一段距离后会减弱,当信号变弱时,必须对它们定期放大。这种信号放大既加强了语音信号,也加强了背景线路噪声,要将复杂的模拟语音信号和传输噪声区分开来是很困难的。为了进一步提高语音的传输质量和存储效率,克服模拟传输的缺点,人们又引入了语音信号数字处理技术,对语音信号进行数字化处理。数字信号只有“1”和“0”两种状态,易于同噪声区分开,不易发生畸变,而且易于存储和远距离传输。但是语音信号在数字化之后,比特率却大幅上升,也就是每秒需要更多的比特数去存储或传输,这样就使成本提高。随着信息技术的发展,信道
25、资源显得更加宝贵,为了在有限的信道进行更多的信息传输,必须对语音信号进行压缩。对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。语音信号存在多种多样的冗余,可分别从时间域和频率域描述。从时间域分析:幅度的非均匀分布,即语音中的小幅度样本出现的概率高,且通话中会有间隙信息,主要集中在低功率上;语音信号采样数据间存在相关性,相邻的样本间有很强的相关性,如果采样率提高,相关性将更强;浊音语音段具有准周期性,波形显示出周期间的信息冗余,对语音浊音部分编码最有效的方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其他基音段的参照;语音间隙,实际语音通信中,存在通话间隙,通话分析
26、表明,全双工话路的典型效率约为通话时间的 40%,即静止系数为 0.6;长时自相关,除了样本间、同期间的相关外,在较长的时间间隔上,语音信号也存在相关。从频率域分析:非均匀的长时功率谱密度,从相当长的时间统计平均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用不充分,存在固定的冗余度;语音特有的短时功率谱密度,语音信号的短时功率谱在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大的频率,称为共振峰,共振峰频率由低到高依次排列为第一共振峰、第二共振峰等,语音特征主要由前三个共振峰频率决定,随着频率的增高,对整个功率谱的影响会快速递减。语音压缩的第二个依据是
27、利用人类听觉的感知机理,其影响主要表现在三个方面: 1.人类的听觉系统对声音具有“掩蔽”效应,即一个强音能够抑制另一个同时存在的弱音的听觉,利用这一性质可以抑制与信号同时存在的量化噪声。2.人耳对不同频段声音的敏感程度不同。人的听觉对低频语音比较敏感,而对高频语音不太敏感,这主要是因为浊音的周期和共振峰。3.人耳对语音信号的相位变化不敏感。通过对人耳做短时的频率分析,表明人耳对信号的音调很敏感,但对信号相位感知不敏感。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩。对语音信号进行数字化和压缩,既可以提高语音传输的质量,又能提高传输的效率,所以对语音压缩编码
28、技术的研究一直是一个热点,特别是近十多年来,语音编码技术取得了突飞猛进的发展,出现了多个国际标准和区域标准,己具备比较完善的理论和技术体系,随着高速信号处理器的诞生,使多种算法复杂、计算量很大的编码技术的实时化变得容易起来,语音压缩编码进入实用阶段。2.2语音信号产生的数字模型建立语音信号的数字模型对于语音处理具有重要的意义。人们对语音信号进行大量的分析、模拟和实验以后,得出了语音信号产生的数字模型8。它是指利用数字技术来模拟语音信号的产生,也就是利用数字信号处理技术来实现发音器官的模拟。为了使浊音的冲激信号具有声门脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器 G(z)。其
29、传输函数表示为: (2.1)基音频率声门脉冲模型脉冲周期发生器声道模型 Av声道参数辐射模型随机噪声发生器 Au图2.1 语音信号的数字模型该模型包括三个部分:激励源、声道模型和辐射模型9。激励源分为浊音和清音两种,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。对声门波形的频谱分析表明,其幅度频谱按每倍频程 12dB 的速度递减,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的浊音激励信号频谱很接近于声门脉冲的频谱,乘系数 Av 的作用是调节浊音信号的幅度。清音时,激励信号由一个随机
30、噪声发生器产生。可设定其平均值为 0,其自相关函数是一个单位冲激函数。这表明它的任何两个不同样点都不相关且其均方差值为 1。此外,还假定它的幅度具有正态概率分布。乘系数 Au 的作用是调节清音信号的幅度10。声道模型 V(z)给出了离散时域的声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学的方法可以导出,在大多数情况下 V(z)是一个全极点函数。因此,V(z)可以表示为: (2.2)式中,a0=1,ai为实数。这里,把截面积连续变化的声管近似为 p 段短声管的串联,每段短声管的截面积是不变的,p 称为这个全极点滤波器的阶。显然,p值取得越大,模型的传输函数与声道实际传输函数的吻
31、合程度就越高。一般地,对大多数实际应用而言,p 值取 812。若 p 取偶数,一般有 p/2 对共轭极点,极点的频率分别与语音的各个共振峰相对应。辐射模型 R(z)与嘴型有关,一般可以表示为: (2.3)在这个模型中,除了 G(z)和 R(z)保持不变以外,基音频率、Av、Au、清/浊音开关的位置以与声道模型中的参数都是随时间而变化的。对于声道参数而言,在 1030ms 的时间间隔可以认为它们保持不变,因此语音的短时分析帧长一般取为 1030ms 左右。对激励源参数,大部分情况下这一结论是正确的。需要全部论文的可以加我 呀 2461557111 除了论文还有 电路图、源程序清单、外文文献、外文
32、翻译、测试源工程文件等1.3语音压缩编解码概述在现代通信中,作为组成通信系统的最基本单元之一的信源,如果不经过任何处理,会存在大量的冗余成分,直接经信道进行传输将会造成带宽的极大浪费。所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输。语音信号是通信系统中使用最多的信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后的语音信号,再经过压缩处理后方可进行传输和存储。在接收端,对信号进行解压缩处理和D/A转换,还原成原始的模拟语音信号。这就是语音编解码技术。模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特
33、率,从而节省传输带宽。语音编解码技术的方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码。波形编码是最简单且应用最早的语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711的A律或u律、G.721和G.726标准均属于波形编码;参数编码的语音编码速率较低,基本上在2kbps到4.8kbps之间,语音的可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自的优点并
34、克服它们的缺点,在较低的比特率上获得较高的语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5。最早的语音编解码标准是1972年CCITT提出的G.711标准,即64kbps的脉冲编码调制(PCM)。到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用的即是欧洲的30路脉冲编码调制PCM。随后,CCITT又公布了G.721标准,即32kbps的自适应脉冲差分编码ADPCM,在达到和PCM一样语音质量的基础
35、上,它具有更优良的抗误码性能,并且速率降低一半。接着,ITU又提出了子带自适应差分脉冲编码G.722,16kbps的短时延迟码激励线性预测G.728标准,8kbps的共轭结构代数码激励线性预测编码G.729标准以与具有两种编码速率的G.723。l标准(5.3kbps和6.3kbps,高速率采用多脉冲最大似然量化MPMLQ技术,低速率采用代数码本激励线性预测ACELP技术)等5,6,7。2语音压缩的理论依据与算法2.1语音压缩的理论依据语音通信经历了从模拟信号到数字信号的发展过程,最初通信传输的是语音模拟信号,传输的效率不高,而且传输不是特别可靠、高效。因为模拟信号在传输一段距离后会减弱,当信号
36、变弱时,必须对它们定期放大。这种信号放大既加强了语音信号,也加强了背景线路噪声,要将复杂的模拟语音信号和传输噪声区分开来是很困难的。为了进一步提高语音的传输质量和存储效率,克服模拟传输的缺点,人们又引入了语音信号数字处理技术,对语音信号进行数字化处理。数字信号只有“1”和“0”两种状态,易于同噪声区分开,不易发生畸变,而且易于存储和远距离传输。但是语音信号在数字化之后,比特率却大幅上升,也就是每秒需要更多的比特数去存储或传输,这样就使成本提高。随着信息技术的发展,信道资源显得更加宝贵,为了在有限的信道进行更多的信息传输,必须对语音信号进行压缩。对语音信号进行压缩编码的基本依据是语音信号的冗余度
37、和人的听觉感知机理。语音信号存在多种多样的冗余,可分别从时间域和频率域描述。从时间域分析:幅度的非均匀分布,即语音中的小幅度样本出现的概率高,且通话中会有间隙信息,主要集中在低功率上;语音信号采样数据间存在相关性,相邻的样本间有很强的相关性,如果采样率提高,相关性将更强;浊音语音段具有准周期性,波形显示出周期间的信息冗余,对语音浊音部分编码最有效的方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其他基音段的参照;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路的典型效率约为通话时间的 40%,即静止系数为 0.6;长时自相关,除了样本间、同期间的相关外,在较长的时间间隔
38、上,语音信号也存在相关。从频率域分析:非均匀的长时功率谱密度,从相当长的时间统计平均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用不充分,存在固定的冗余度;语音特有的短时功率谱密度,语音信号的短时功率谱在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大的频率,称为共振峰,共振峰频率由低到高依次排列为第一共振峰、第二共振峰等,语音特征主要由前三个共振峰频率决定,随着频率的增高,对整个功率谱的影响会快速递减。语音压缩的第二个依据是利用人类听觉的感知机理,其影响主要表现在三个方面: 1.人类的听觉系统对声音具有“掩蔽”效应,即一个强音能够抑制另一个同时存在的
39、弱音的听觉,利用这一性质可以抑制与信号同时存在的量化噪声。2.人耳对不同频段声音的敏感程度不同。人的听觉对低频语音比较敏感,而对高频语音不太敏感,这主要是因为浊音的周期和共振峰。3.人耳对语音信号的相位变化不敏感。通过对人耳做短时的频率分析,表明人耳对信号的音调很敏感,但对信号相位感知不敏感。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩。对语音信号进行数字化和压缩,既可以提高语音传输的质量,又能提高传输的效率,所以对语音压缩编码技术的研究一直是一个热点,特别是近十多年来,语音编码技术取得了突飞猛进的发展,出现了多个国际标准和区域标准,己具备比较完善的理论
40、和技术体系,随着高速信号处理器的诞生,使多种算法复杂、计算量很大的编码技术的实时化变得容易起来,语音压缩编码进入实用阶段。2.2语音信号产生的数字模型建立语音信号的数字模型对于语音处理具有重要的意义。人们对语音信号进行大量的分析、模拟和实验以后,得出了语音信号产生的数字模型8。它是指利用数字技术来模拟语音信号的产生,也就是利用数字信号处理技术来实现发音器官的模拟。为了使浊音的冲激信号具有声门脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器 G(z)。其传输函数表示为: (2.1)基音频率声门脉冲模型脉冲周期发生器声道模型 Av声道参数辐射模型随机噪声发生器 Au图2.1 语音信
41、号的数字模型该模型包括三个部分:激励源、声道模型和辐射模型9。激励源分为浊音和清音两种,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。对声门波形的频谱分析表明,其幅度频谱按每倍频程 12dB 的速度递减,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的浊音激励信号频谱很接近于声门脉冲的频谱,乘系数 Av 的作用是调节浊音信号的幅度。清音时,激励信号由一个随机噪声发生器产生。可设定其平均值为 0,其自相关函数是一个单位冲激函数。这表明它的任何两个不同样点都不相关且其均方差值为 1。此外
42、,还假定它的幅度具有正态概率分布。乘系数 Au 的作用是调节清音信号的幅度10。声道模型 V(z)给出了离散时域的声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学的方法可以导出,在大多数情况下 V(z)是一个全极点函数。因此,V(z)可以表示为: (2.2)式中,a0=1,ai为实数。这里,把截面积连续变化的声管近似为 p 段短声管的串联,每段短声管的截面积是不变的,p 称为这个全极点滤波器的阶。显然,p值取得越大,模型的传输函数与声道实际传输函数的吻合程度就越高。一般地,对大多数实际应用而言,p 值取 812。若 p 取偶数,一般有 p/2 对共轭极点,极点的频率分别与语音的
43、各个共振峰相对应。辐射模型 R(z)与嘴型有关,一般可以表示为: (2.3)在这个模型中,除了 G(z)和 R(z)保持不变以外,基音频率、Av、Au、清/浊音开关的位置以与声道模型中的参数都是随时间而变化的。对于声道参数而言,在 1030ms 的时间间隔可以认为它们保持不变,因此语音的短时分析帧长一般取为 1030ms 左右。对激励源参数,大部分情况下这一结论是正确的。1.3语音压缩编解码概述在现代通信中,作为组成通信系统的最基本单元之一的信源,如果不经过任何处理,会存在大量的冗余成分,直接经信道进行传输将会造成带宽的极大浪费。所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输。语音
44、信号是通信系统中使用最多的信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后的语音信号,再经过压缩处理后方可进行传输和存储。在接收端,对信号进行解压缩处理和D/A转换,还原成原始的模拟语音信号。这就是语音编解码技术。模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽。语音编解码技术的方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码。波形编码是最简单且应用最早的语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.
45、711的A律或u律、G.721和G.726标准均属于波形编码;参数编码的语音编码速率较低,基本上在2kbps到4.8kbps之间,语音的可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自的优点并克服它们的缺点,在较低的比特率上获得较高的语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5。最早的语音编
46、解码标准是1972年CCITT提出的G.711标准,即64kbps的脉冲编码调制(PCM)。到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用的即是欧洲的30路脉冲编码调制PCM。随后,CCITT又公布了G.721标准,即32kbps的自适应脉冲差分编码ADPCM,在达到和PCM一样语音质量的基础上,它具有更优良的抗误码性能,并且速率降低一半。接着,ITU又提出了子带自适应差分脉冲编码G.722,16kbps的短时延迟码激励线性预测G.728标准,8kbps的共轭结构代数码激励线性预测编码G.729标准以与具有两种编码速率的G.723。l标
47、准(5.3kbps和6.3kbps,高速率采用多脉冲最大似然量化MPMLQ技术,低速率采用代数码本激励线性预测ACELP技术)等5,6,7。2语音压缩的理论依据与算法2.1语音压缩的理论依据语音通信经历了从模拟信号到数字信号的发展过程,最初通信传输的是语音模拟信号,传输的效率不高,而且传输不是特别可靠、高效。因为模拟信号在传输一段距离后会减弱,当信号变弱时,必须对它们定期放大。这种信号放大既加强了语音信号,也加强了背景线路噪声,要将复杂的模拟语音信号和传输噪声区分开来是很困难的。为了进一步提高语音的传输质量和存储效率,克服模拟传输的缺点,人们又引入了语音信号数字处理技术,对语音信号进行数字化处
48、理。数字信号只有“1”和“0”两种状态,易于同噪声区分开,不易发生畸变,而且易于存储和远距离传输。但是语音信号在数字化之后,比特率却大幅上升,也就是每秒需要更多的比特数去存储或传输,这样就使成本提高。随着信息技术的发展,信道资源显得更加宝贵,为了在有限的信道进行更多的信息传输,必须对语音信号进行压缩。对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。语音信号存在多种多样的冗余,可分别从时间域和频率域描述。从时间域分析:幅度的非均匀分布,即语音中的小幅度样本出现的概率高,且通话中会有间隙信息,主要集中在低功率上;语音信号采样数据间存在相关性,相邻的样本间有很强的相关性,如果采
49、样率提高,相关性将更强;浊音语音段具有准周期性,波形显示出周期间的信息冗余,对语音浊音部分编码最有效的方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其他基音段的参照;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路的典型效率约为通话时间的 40%,即静止系数为 0.6;长时自相关,除了样本间、同期间的相关外,在较长的时间间隔上,语音信号也存在相关。从频率域分析:非均匀的长时功率谱密度,从相当长的时间统计平均,语音信号的功率谱呈现强烈的非平坦性,这说明语音信号对给定的频段利用不充分,存在固定的冗余度;语音特有的短时功率谱密度,语音信号的短时功率谱在某些频率上出现峰值,而
50、在另一些频率上出现谷值,这些峰值频率是能量较大的频率,称为共振峰,共振峰频率由低到高依次排列为第一共振峰、第二共振峰等,语音特征主要由前三个共振峰频率决定,随着频率的增高,对整个功率谱的影响会快速递减。语音压缩的第二个依据是利用人类听觉的感知机理,其影响主要表现在三个方面: 1.人类的听觉系统对声音具有“掩蔽”效应,即一个强音能够抑制另一个同时存在的弱音的听觉,利用这一性质可以抑制与信号同时存在的量化噪声。2.人耳对不同频段声音的敏感程度不同。人的听觉对低频语音比较敏感,而对高频语音不太敏感,这主要是因为浊音的周期和共振峰。3.人耳对语音信号的相位变化不敏感。通过对人耳做短时的频率分析,表明人
51、耳对信号的音调很敏感,但对信号相位感知不敏感。人耳听不到或感知极不灵敏的语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩。对语音信号进行数字化和压缩,既可以提高语音传输的质量,又能提高传输的效率,所以对语音压缩编码技术的研究一直是一个热点,特别是近十多年来,语音编码技术取得了突飞猛进的发展,出现了多个国际标准和区域标准,己具备比较完善的理论和技术体系,随着高速信号处理器的诞生,使多种算法复杂、计算量很大的编码技术的实时化变得容易起来,语音压缩编码进入实用阶段。2.2语音信号产生的数字模型建立语音信号的数字模型对于语音处理具有重要的意义。人们对语音信号进行大量的分析、模拟和实验以后,得
52、出了语音信号产生的数字模型8。它是指利用数字技术来模拟语音信号的产生,也就是利用数字信号处理技术来实现发音器官的模拟。为了使浊音的冲激信号具有声门脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器 G(z)。其传输函数表示为: (2.1)基音频率声门脉冲模型脉冲周期发生器声道模型 Av声道参数辐射模型随机噪声发生器 Au图2.1 语音信号的数字模型该模型包括三个部分:激励源、声道模型和辐射模型9。激励源分为浊音和清音两种,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。对声门波形的频
53、谱分析表明,其幅度频谱按每倍频程 12dB 的速度递减,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的浊音激励信号频谱很接近于声门脉冲的频谱,乘系数 Av 的作用是调节浊音信号的幅度。清音时,激励信号由一个随机噪声发生器产生。可设定其平均值为 0,其自相关函数是一个单位冲激函数。这表明它的任何两个不同样点都不相关且其均方差值为 1。此外,还假定它的幅度具有正态概率分布。乘系数 Au 的作用是调节清音信号的幅度10。声道模型 V(z)给出了离散时域的声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学的方法可以导出,在大多数情况下 V(z)是一个全极点函数。因此,V(z
54、)可以表示为: (2.2)式中,a0=1,ai为实数。这里,把截面积连续变化的声管近似为 p 段短声管的串联,每段短声管的截面积是不变的,p 称为这个全极点滤波器的阶。显然,p值取得越大,模型的传输函数与声道实际传输函数的吻合程度就越高。一般地,对大多数实际应用而言,p 值取 812。若 p 取偶数,一般有 p/2 对共轭极点,极点的频率分别与语音的各个共振峰相对应。辐射模型 R(z)与嘴型有关,一般可以表示为: (2.3)在这个模型中,除了 G(z)和 R(z)保持不变以外,基音频率、Av、Au、清/浊音开关的位置以与声道模型中的参数都是随时间而变化的。对于声道参数而言,在 1030ms 的
55、时间间隔可以认为它们保持不变,因此语音的短时分析帧长一般取为 1030ms 左右。对激励源参数,大部分情况下这一结论是正确的。1.3语音压缩编解码概述在现代通信中,作为组成通信系统的最基本单元之一的信源,如果不经过任何处理,会存在大量的冗余成分,直接经信道进行传输将会造成带宽的极大浪费。所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输。语音信号是通信系统中使用最多的信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后的语音信号,再经过压缩处理后方可进行传输和存储。在接收端,对信号进行解压缩处理和D/A转换,还原成原始的
56、模拟语音信号。这就是语音编解码技术。模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽。语音编解码技术的方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码。波形编码是最简单且应用最早的语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711的A律或u律、G.721和G.726标准均属于波形编码;参数编码的语音编码速率较低,基本上在2kbps到4.8kbps之间,语音的可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G
57、.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自的优点并克服它们的缺点,在较低的比特率上获得较高的语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5。最早的语音编解码标准是1972年CCITT提出的G.711标准,即64kbps的脉冲编码调制(PCM)。到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用的即是欧洲的30路脉冲编码调制PCM。随后,CCITT又公布了G.721标准,即32kbps的自适应脉冲差分编码ADPCM,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年农业项目居间服务合同2篇
- 二零二五年度范文设备租购服务合同2篇
- 二零二五年度集团公司内部子公司间借款合同范本3篇
- 二零二五版花岗石石材行业标准制定与实施合同3篇
- 二零二五年高空玻璃安装与玻璃清洁保养合同3篇
- 二零二五版公司独立董事薪酬及激励合同2篇
- 建筑工地2025年度水电暖供应与安装承包合同2篇
- 基于2025年度市场分析的营销推广合同标的修订3篇
- 二零二五版智能仓储物流设施施工合同协议3篇
- 二零二五年度花卉新品种研发与购销合同3篇
- 《无人机法律法规知识》课件-第1章 民用航空法概述
- 部编人教版六年级下册语文1-6单元作文课件
- NB/T 11434.5-2023煤矿膏体充填第5部分:胶凝材料技术要求
- 2020-2024年安徽省初中学业水平考试中考物理试卷(5年真题+答案解析)
- 手术器械与敷料的传递
- 提高护士手卫生执行率PDCA案例汇报课件(32张)
- 日本人的色彩意识与自然观
- 校园网络系统的设计规划任务书
- 部编版5年级语文下册第五单元学历案
- 建造师建设工程项目管理二局培训精简版课件
- 电工(三级)理论知识考核要素细目表
评论
0/150
提交评论