第三章新音频信息处理

上传人：5*** IP属地：湖北上传时间：2022-04-12 格式：PPT 页数：95 大小：955KB 积分：30 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1 多媒体技术的特点是多媒体技术的特点是交互式交互式地地综合处理声文图综合处理声文图信息。在信息。在多媒体系统中语音和音乐是不可少的。没有音频的视频是不多媒体系统中语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步，才能使视频图像更具真实性。可接受的。音频和视频同步，才能使视频图像更具真实性。娓娓动听的音乐和解说，会使静态图像变得更加丰富多彩。娓娓动听的音乐和解说，会使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。可视电话、电视会议中的声音更为重要。音频：音频：audio frequencyaudio frequency（AFAF） voice frequenc

2、y (VF)voice frequency (VF)23.1 3.1 声音概述声音概述（重点）（重点）3.2 3.2 音频信息数字化音频信息数字化（重点）（重点）3.3 3.3 音频文件的格式音频文件的格式（重点（重点, ,会用）会用）3.4 3.4 语音压缩编码及其语音压缩编码及其标准标准（标准标准重点）重点）3.5 3.5 音乐合成和音乐合成和MIDI MIDI 3.6 3.6 语音识别技术概述语音识别技术概述3.7 3.7 音频编辑软件音频编辑软件3一、一、声音及其分类声音及其分类1、声音的概念、声音的概念声音是通过空气传播的一种连续的波，声音是通过空气传播的一种连续的波，称为声波称为

3、声波。是随。是随时间连续变化的物理量。时间连续变化的物理量。4 声音的声音的基本参数基本参数振幅振幅声波压力的声波压力的大小或大小或高低幅度，高低幅度，体现声音的体现声音的强弱强弱频率频率每秒钟振动的次数，每秒钟振动的次数，体现音调的体现音调的高低，高低，单位单位Hz （由一个名叫海里奇（由一个名叫海里奇R.赫兹赫兹的人命名）的人命名）周期周期两个相邻波之间的时间长度两个相邻波之间的时间长度5 声音如何传播声音如何传播声音依靠介质的振动进行传播。声音依靠介质的振动进行传播。声音在不同介质中的传播速度和衰减率不一样，导致声音声音在不同介质中的传播速度和衰减率不一样，导致声音在不同介质中传播

4、的距离不同。在不同介质中传播的距离不同。空气（空气（15）340m/s海水（海水（25）1531m/s铁棒铁棒 5200m/s6 声音是复合信号声音是复合信号声音信号由许多频率不同的信号组成，是声音信号由许多频率不同的信号组成，是复合信号。复合信号。重要参数重要参数带宽带宽：复合信号的频率范围复合信号的频率范围例如：例如：高保真声音的频率范围为高保真声音的频率范围为10Hz20KHz，带宽约为，带宽约为20KHz。而视频信号的带宽而视频信号的带宽是是6MHz。72 2、声音的分类、声音的分类声音：声音：无规则的噪音无规则的噪音和和有规则的音频信号有规则的音频信号。音频信号携带的信息

5、可分为：语言、音乐和音效等三类。音频信号携带的信息可分为：语言、音乐和音效等三类。物体规则震动发出的声音称为物体规则震动发出的声音称为乐音乐音，由有组织的乐音来表，由有组织的乐音来表达人们思想感情、反映现实达人们思想感情、反映现实音效就是指由音效就是指由声音声音所制造的效果，是指为增进一场面之真所制造的效果，是指为增进一场面之真实感、实感、气氛气氛或戏剧讯息，而加于声带上的或戏剧讯息，而加于声带上的杂音杂音或声音。所谓或声音。所谓的声音则包括了的声音则包括了乐音乐音和效果音。包括和效果音。包括数字音效数字音效、环境音效、环境音效、MP3音效音效（普通音效、专业音效）。（普通音效、专业音效）

6、。83 3、声声音的三要素音的三要素音音调调指声音的高低。音调与声音的指声音的高低。音调与声音的频率频率有关，频率越高，音调有关，频率越高，音调就越高；通常把音调高的声音叫高音，音调低的声音叫低音。就越高；通常把音调高的声音叫高音，音调低的声音叫低音。男高音：男高音：160-523Hz160-523Hz女高音：女高音：220-1100Hz220-1100Hz160-1280 Hz160-1280 Hz几乎囊括所有的人类发出的声音频率几乎囊括所有的人类发出的声音频率150 Hz150 Hz以下（以下（低音低音）丰满，柔和富有弹性）丰满，柔和富有弹性150-500 Hz 150-500 Hz

7、（中低音）浑厚有力而不浑浊（中低音）浑厚有力而不浑浊500-5kHz500-5kHz（中高音）明亮透彻不生硬（中高音）明亮透彻不生硬5k Hz5k Hz以上（高音）纤细圆顺不尖锐刺耳以上（高音）纤细圆顺不尖锐刺耳9 音色音色指声音的感觉特性，与声音波形相关。声音分纯音指声音的感觉特性，与声音波形相关。声音分纯音和复音两种类型。纯音，指振幅和周期均为常数的声音；和复音两种类型。纯音，指振幅和周期均为常数的声音；复音，指具有不同频率和不同振幅的混合声音。复音，指具有不同频率和不同振幅的混合声音。音强音强指声音的强度，即常说的指声音的强度，即常说的“音量音量”。音强与声波的。音强与声波的振幅成

8、正比，振幅越大，音强越大。振幅成正比，振幅越大，音强越大。10说明：说明：人耳在辨别声音的能力只有在音强适中时才最灵敏；人耳在辨别声音的能力只有在音强适中时才最灵敏；一般用一般用动态范围动态范围来定义音频信号的相对强度，来定义音频信号的相对强度，单位：单位：dBdB 由于人的听觉响应与声音信号强度不是成线性关系，因由于人的听觉响应与声音信号强度不是成线性关系，因此一般用声音信号幅度取对数后再乘此一般用声音信号幅度取对数后再乘2020所得值来描述声强，所得值来描述声强，以以分贝（分贝（dBdB）为单位，此时称为为单位，此时称为音量音量。在处理音频信号时，。在处理音频信号时，一般用一般用动态范

9、围动态范围来定义音频信号的相对强度：来定义音频信号的相对强度：动态范围动态范围=20=20loglog（信号的最大强度（信号的最大强度/ /信号最小强度）信号最小强度）11说明：说明： 2008年颁布的年颁布的声环境质量标准声环境质量标准GB3096-2008规定规定，以，以居住、文教机关为主居住、文教机关为主的区域噪音最高限值的区域噪音最高限值白天为白天为5555分贝，夜间为分贝，夜间为4545分贝。分贝。 0-200-20分贝，很静，几乎感觉不到分贝，很静，几乎感觉不到20-4020-40分贝，安静，犹如轻声絮语分贝，安静，犹如轻声絮语40-6040-60分贝，一般分贝，一般普通室内谈

10、话普通室内谈话60-7060-70分贝，比较吵闹分贝，比较吵闹70-90 70-90 分贝，很吵，神经细胞受到破坏分贝，很吵，神经细胞受到破坏90-10090-100分贝，吵闹加剧，听力受损，分贝，吵闹加剧，听力受损，100100以上致聋！以上致聋！ 12(高高)(低低)(弱弱)(强强)(停停)钢琴钢琴吉他吉他小号小号小提琴小提琴13二、音频信号二、音频信号（1 1）语音：具有语言内涵和人类约定成俗的特殊媒体。）语音：具有语言内涵和人类约定成俗的特殊媒体。（2 2）音乐：规范的符号化了的声音。）音乐：规范的符号化了的声音。（3 3）音效）音效( (响）响）：人类熟悉的其他声音，如动物发声

11、、机器产：人类熟悉的其他声音，如动物发声、机器产生的声音、自然界的风雨雷电声等。生的声音、自然界的风雨雷电声等。音频的音频的作用作用：直接通过讲话表达信息、制造某种效果和气直接通过讲话表达信息、制造某种效果和气氛、演奏音乐等。氛、演奏音乐等。141、音频音频人类听觉所感知范围内的频率，也称人类听觉所感知范围内的频率，也称声频。声频。音频音频(Audio)：频率范围：频率范围-20Hz20KHz（人耳能听到）（人耳能听到）次声波次声波(subsonic)：频率低于频率低于20Hz的信号的信号（亚音）亚音）超声波超声波(ultrasonic)：频率高于：频率高于20KHz的信号的信号（超

12、音频）超音频）超声波超声波152 2、音频信号的技术指标音频信号的技术指标频带宽度频带宽度：音频信号的频率范围，是衡量：音频信号的频率范围，是衡量音质音质的标准。的标准。频带越宽，包含的音频信号分量越丰富，则音质越好。频带越宽，包含的音频信号分量越丰富，则音质越好。通常将音质定义为通常将音质定义为4 4个等级标准：个等级标准： CD-DA唱盘为唱盘为10Hz22KHz； FM广播为广播为20Hz15KHz； AM广播为广播为50Hz7KHz；数字电话为数字电话为200Hz3.4KHz。1617 动态范围动态范围动态范围动态范围2020loglog（信号的最大强度（信号的最大强度/ /

13、信号的最小强度）信号的最小强度）动态范围越大，说明音频信号的相对变化范围大，动态范围越大，说明音频信号的相对变化范围大，音响音响效效果越好。果越好。 1 1分贝大约是人刚刚能感觉到的声音，适宜的生活环境不分贝大约是人刚刚能感觉到的声音，适宜的生活环境不应超过应超过4545分贝，不低于分贝，不低于1515分贝。分贝。信噪比信噪比SRN（Signal to Noise Rate ，dB）信噪比：信噪比：有用信号有用信号的平均功率与的平均功率与噪音噪音的平均功率之比。的平均功率之比。信噪比越高，则音效越好。信噪比越高，则音效越好。183.3.音频信号的特点音频信号的特点由于音频由于音频是是

14、依赖时间的连续媒体，因此音频处理的依赖时间的连续媒体，因此音频处理的时序性时序性要求高；要求高；由于人类接收声音有两个通道，因此计算机合成的声音应由于人类接收声音有两个通道，因此计算机合成的声音应是是立体声立体声；由于语音信号携带了情感意向，因此对语音信号的处理还由于语音信号携带了情感意向，因此对语音信号的处理还要抽取要抽取语意语意等其等其它它信息。信息。19三、数字音频三、数字音频1. 1. 数字音频数字音频将模拟的将模拟的( (连续的连续的) )声音波形数字化声音波形数字化( (离散化离散化) )，以便利用数，以便利用数字计算机进行处理的过程。（字计算机进行处理的过程。（A/DA/D

15、转换）转换）主要包括主要包括采样采样、量化量化和和编码编码几个方面。几个方面。2. 2. 数字音频的技术指标数字音频的技术指标采样频率采样频率、量化位数量化位数、声道数声道数、编码算法编码算法数字音频的数字音频的质量质量取决于：取决于：采样频率采样频率和和量化位数量化位数这两个重要这两个重要参数。此外，声道的数目、相应的音频设备也是影响参数。此外，声道的数目、相应的音频设备也是影响音频质量音频质量的原因。的原因。203. 3. 数字音频等级数字音频等级信号类型频率范围（Hz）采样率（kHz）量化精度（位）电话话音 2003400 8 8 宽带音频 507000 16 16 调频广

16、播 2015k 37.8 16 高质量音频 2020k 44.1 16 各种声音质量的压缩比各种声音质量的压缩比声音质量声音质量宽带（宽带（kHz)声道声道数据率（数据率（Kb/s)压缩比压缩比CD音质音质15双声道立体声双声道立体声1121281：141：12接近接近CD15双声道立体声双声道立体声961：16调频广播调频广播11双声道立体声双声道立体声56641：271：24中波广播中波广播7.5单声道单声道321：24短波广播短波广播4.5单声道单声道161：48电话音质电话音质2.5单声道单声道81：9622一、模拟信号与数字信号一、模拟信号与数字信号在时间和幅度上都在时间和幅度上都

17、连续连续的信号称为的信号称为模拟信号。模拟信号。在时间和幅度上都在时间和幅度上都离散离散，用数字表示的信号称为，用数字表示的信号称为数字信号。数字信号。对模拟信号的处理：比较对模拟信号的处理：比较复杂复杂，难于精确控制难于精确控制，成本高。，成本高。将模拟信号数字化目的：处理将模拟信号数字化目的：处理简单，控制精确简单，控制精确。23二、模拟声音数字化过程二、模拟声音数字化过程采样采样在某特定时刻对模拟信号进行测量叫在某特定时刻对模拟信号进行测量叫采样。采样。每隔相等的一段时间进行采样，称为每隔相等的一段时间进行采样，称为均匀采样均匀采样，否则为否则为非均匀采样。非均匀采样。量化量化把信

18、号幅度划分成若干小段，若每段都是相等的，称为把信号幅度划分成若干小段，若每段都是相等的，称为线性量化线性量化，否则称为，否则称为非线性量化非线性量化。编码编码：将离散的模拟信号转化为数字信号，即对量化后：将离散的模拟信号转化为数字信号，即对量化后的离散值用二进制代码取代。的离散值用二进制代码取代。241、采样、采样采样采样(sampling)在时间轴上对信号数字化。在时间轴上对信号数字化。采样周期采样周期：对连续信号采样的时间间隔：对连续信号采样的时间间隔T采样频率采样频率：单位时间内的采样次数（：单位时间内的采样次数（1/T）。）。采样频率越高，可恢复的声音保真度越好。采样频率越高，可恢复的

19、声音保真度越好。常用采样频率常用采样频率 11.025KHz、22.05KHz、44.1KHz、48KHz。如何保证采样的声音不失真？如何保证采样的声音不失真？25奈魁斯特奈魁斯特(Nyquiest)采样定理采样定理：若对某一模拟信号进行采样，只要采样频率若对某一模拟信号进行采样，只要采样频率f(1/T)高于高于输入信号最高频率输入信号最高频率fC的两倍的两倍(f2fC)，则经过采样后的采样信，则经过采样后的采样信号能够包含原模拟信号的全部信息，且经过反变换和低通滤号能够包含原模拟信号的全部信息，且经过反变换和低通滤波后可不失真地恢复原模拟信号。波后可不失真地恢复原模拟信号。例如，例如，电话

20、话音信号的频率约为电话话音信号的频率约为 3.4kHz，采样频率选，采样频率选 8kHz。262 2、量化：量化：对声音信号波形振幅值的离散化对声音信号波形振幅值的离散化量化误差（或量化噪音）量化误差（或量化噪音）：量化后的振幅代表值与真实振幅值之间的差。量化后的振幅代表值与真实振幅值之间的差。量化跨度量化跨度：在分割振幅时一个个小区间的宽度：在分割振幅时一个个小区间的宽度量化精度量化精度(位数位数)：每个声音样本的二进制位数每个声音样本的二进制位数(bit per sample，bps)27283 3、编码编码按一定格式记录采样和量化后的数字数据按一定格式记录采样和量化后的数字数据将

21、离散的模拟信号转化为数字信号，即对量化后的离散将离散的模拟信号转化为数字信号，即对量化后的离散值用二进制代码（值用二进制代码（2 28 8或或2 21616）取代。）取代。29量化位数决定了量化等级量化位数决定了量化等级M=2n。常用的。常用的量化位数为量化位数为8bit或或16bit。显然，量化位数越多，则量化精度越高。即量化后声。显然，量化位数越多，则量化精度越高。即量化后声音信号越接近原始信号，但量化后的数据量也越大。音信号越接近原始信号，但量化后的数据量也越大。30声道数声道数一次同时产生的声波组数。若一次产生两组声波数据，则一次同时产生的声波组数。若一次产生两组声波数据，则为双声道

22、或立体声。为双声道或立体声。声道数：声道数： 2.02.0（双声道立体声）（双声道立体声） 2.12.1（双声道加一超重低音声道）（双声道加一超重低音声道） 4.14.1（发音点：前左、前右、后左、后右、超重低音）（发音点：前左、前右、后左、后右、超重低音） 5.15.1（比比4.14.1声道增加一个中置单元，增加整体影院效果）声道增加一个中置单元，增加整体影院效果） 7.17.1（比比4.14.1声道增加中左、中右发音点声道增加中左、中右发音点）31三种最常用的采样指标及等效音质：三种最常用的采样指标及等效音质：324 4、数字音频的存储量、数字音频的存储量存储量存储量=(采样频率采样频率量

23、化位数量化位数声道数声道数持续时间持续时间)/8(字节数字节数)如：如：CD光盘采用了光盘采用了双声道双声道 16 位位采样，采样频率为采样，采样频率为 44.1 KHz，可达专业级水平。若某首流行歌曲的长度为可达专业级水平。若某首流行歌曲的长度为 3.5 分钟，则该歌分钟，则该歌曲占用的存储容量为：曲占用的存储容量为：161644.144.1100010002 2(3.5(3.560)60)8=370440008=37044000（B B）=35.33MB=35.33MB33一、音频文件的分类一、音频文件的分类1 1、波形文件波形文件（声音文件）（声音文件）模拟音频信号经数字化后由计算机处

24、理、存储及传输，输模拟音频信号经数字化后由计算机处理、存储及传输，输出时经出时经D/AD/A转换将数字信号还原为原来波形的音频文件。该文转换将数字信号还原为原来波形的音频文件。该文件属于获取件属于获取声音文件声音文件。声音文件：声音文件：指的是通过声音录入设备录制的原始声音，指的是通过声音录入设备录制的原始声音，直接记录了真实声音的二进制采样数据，通常文件较大。直接记录了真实声音的二进制采样数据，通常文件较大。342、非波形文件、非波形文件（MIDI文件）文件）通过语音合成器产生相应声音的非波形格式的通过语音合成器产生相应声音的非波形格式的MIDI（Musical Instrument Di

25、gital Interface）文件）文件（.MID）。）。 MIDI文件文件：它是一种音乐演奏指令序列，相当于乐谱，：它是一种音乐演奏指令序列，相当于乐谱，可以利用声音输出设备或与计算机相连的电子乐器进行可以利用声音输出设备或与计算机相连的电子乐器进行演奏，由于不包含声音数据，其文件尺寸较小。演奏，由于不包含声音数据，其文件尺寸较小。353、混合型文件、混合型文件（MOD文件）文件）既有既有波形文件波形文件的特征，又有的特征，又有非波形文件非波形文件的特征的文件。的特征的文件。 MOD文件文件最初由最初由Commodor公司发明，用于公司发明，用于Amiga计算机中的智能音乐计算机中的智

26、能音乐芯片上，后来主要由业余爱好者使用的一种共享、自由软件。芯片上，后来主要由业余爱好者使用的一种共享、自由软件。该文件既含有该文件既含有声音的采样数据，又含有这些样本的描述性指令声音的采样数据，又含有这些样本的描述性指令，适用于网络和适用于网络和BBC等。等。 31种采样声音，可产生大型乐队的效果。但其采样位数只是种采样声音，可产生大型乐队的效果。但其采样位数只是8位，采样频率是位，采样频率是32KHz，不可能达到，不可能达到CD音质的效果。音质的效果。36二、音频文件的格式二、音频文件的格式波形文件（声音文件）：波形文件（声音文件）： WAV、 VOC、 AU、MP3、RM（RA/RA

27、M）、）、WMA、 PCM、CD唱片唱片、AIF等等非波形文件：非波形文件：MIDI 、RMI 混合文件：混合文件：MOD、S3M、XM、MTM、FAR、KAR371、Wave文件文件.WAV 由由Microsoft公司专门为公司专门为Windows开发的一种标准数字音频文件。开发的一种标准数字音频文件。该文件是通过对该文件是通过对模拟音频模拟音频以不同的采样频率、不同的量化位数进行以不同的采样频率、不同的量化位数进行数数字化字化而得到的数字信号存入磁盘而形成的而得到的数字信号存入磁盘而形成的波形文件波形文件。只要采样率高、采样字节长、机器速度快，利用该格式记录的只要采样率高、采样字节长、

28、机器速度快，利用该格式记录的声音文件能够和原声基本一致，声音文件能够和原声基本一致，质量非常高质量非常高，但代价是，但代价是文件太大文件太大。Wave文件特点：文件特点：声音不失真声音不失真未经压缩的声音文件占用存储盘空间太大。未经压缩的声音文件占用存储盘空间太大。382、Voice文件文件.VOC Voice文件是文件是Creative Labs（创新公司）开发的声音文件格式，（创新公司）开发的声音文件格式，多用于保存多用于保存Creative Sound Blaster（创新声霸）系列声卡所采集的（创新声霸）系列声卡所采集的声音数据，被声音数据，被Windows平台和平台和DOS平台所支持

29、，支持平台所支持，支持CCITT A Law和和CCITT Law等压缩算法。等压缩算法。Voice文件是声霸卡（文件是声霸卡（sound blaster）使用的音频文件格式。使用的音频文件格式。3 3、AudioAudio文件文件.AU.AU Audio Audio文件是文件是Sun MicrosystemsSun Microsystems公司推出的一种经过压缩公司推出的一种经过压缩的数字声音格式，是的数字声音格式，是InternetInternet中常用的声音文件格式，中常用的声音文件格式，Netscape NavigatorNetscape Navigator浏览器中的浏览器中的Live

30、 Audio Live Audio 也支持也支持AudioAudio格格式的声音文件。式的声音文件。394、MPEG音频文件音频文件.MP1/.MP2/.MP3 MPEG（Moving Picture Experts Group）音频文件格音频文件格式是式是MPEG标准中的音频部分，即标准中的音频部分，即MPEG音频层音频层(MPEG-1 Audio Layer)；MPEGMPEG标准主要有以下五个标准主要有以下五个： MPEG-1MPEG-1、MPEG-2MPEG-2、MPEG-4MPEG-4、MPEG-7MPEG-7及及MPEG-21MPEG-21等。该专等。该专家组建于家组建于19881

31、988年，专门负责为年，专门负责为CDCD建立建立视频视频和和音频音频标准标准。及后，建立了及后，建立了ISOISO/IEC1172/IEC1172压缩压缩编码编码标准，现时泛指的标准，现时泛指的MPEG-XMPEG-X版本，就是由版本，就是由ISO(International Organization ISO(International Organization for Standardizationfor Standardization）所制定而发布的视频、音频数）所制定而发布的视频、音频数据的压缩标准。据的压缩标准。 40 MPEG-1MPEG-1音频文件的压缩是一种有损压缩，根据压缩质

32、量和编码复杂程音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度的不同可分为三层度的不同可分为三层(MPEG-1AudioLayer1/2/3)(MPEG-1AudioLayer1/2/3)，分别对应，分别对应MP1MP1、MP2MP2和和 MP3 MP3这三种声音文件；这三种声音文件； MPEG-1AudioLayer1/2/3MPEG-1AudioLayer1/2/3的压缩比和采样率的压缩比和采样率层层1(Layer 11(Layer 1）：编码简单，用于数字盒式录音磁带）：编码简单，用于数字盒式录音磁带层层2(Layer 22(Layer 2）：）：算法复杂度算法复杂度中等，

33、用于数字音频广（中等，用于数字音频广（DABDAB）和）和VCDVCD等等；层层3(Layer 33(Layer 3）：编码复杂，用于）：编码复杂，用于互联网互联网上的高质量声音的传输，如上的高质量声音的传输，如 MP3 MP3音乐压缩音乐压缩1010倍倍压缩比压缩比采样率采样率Layer-11：4384kbpsMP1Layer-21：6到到1：8192kbpsMP2Layer-31：10到到1：12112kbpsMP341MPEG-2MPEG-2MPEG-2MPEG-2标准标准于于19941994年公布，年公布， MPEG-2 MPEG-2编码标准希望囊括数字电视、编码标准希望囊括数字电

34、视、图像通信图像通信各领域的各领域的编码标准，编码标准，MPEG-2MPEG-2按压缩比大小的不同分成五个档次按压缩比大小的不同分成五个档次（profileprofile），每一个档次又按），每一个档次又按图像清晰度图像清晰度的不同分成四种的不同分成四种图图像格式像格式，或称为级别（，或称为级别（levellevel）。五个档次四种级别共有）。五个档次四种级别共有2020种种组合组合，但实际应用中有些组合不太可能出现，较常用的是，但实际应用中有些组合不太可能出现，较常用的是1111种组合。这种组合。这1111种组合分别应用在不同的场合，如种组合分别应用在不同的场合，如MPMLMPML（主档（主

35、档次与主级别）用在具有演播室质量标准清晰度电视次与主级别）用在具有演播室质量标准清晰度电视SDTVSDTV中，中，特性：特性：MPEG-2MPEG-2的声音压缩编码采用与的声音压缩编码采用与MPEG-1MPEG-1声音相同的声音相同的编译码器，层编译码器，层1 1，层，层2 2和层和层3 3的结构也相同，但它能支持的结构也相同，但它能支持5.15.1声声道道和和7.17.1声道声道的环绕立体声。的环绕立体声。42MPEG-4MPEG-4MPEG-4MPEG-4在在19951995年年7 7月开始研究，月开始研究，19981998年年1111月被月被ISO/IECISO/IEC批批准为正式标准

36、，它不仅针对一定比特率下的视频、准为正式标准，它不仅针对一定比特率下的视频、音频编码音频编码，更加注重更加注重多媒体多媒体系统的交互性和灵活性。这个标准主要应用系统的交互性和灵活性。这个标准主要应用于视像电话、视像于视像电话、视像电子邮件电子邮件等，等， MPEG-7MPEG-7MPEG-7MPEG-7（它的由来是（它的由来是1+2+4=71+2+4=7）于）于19961996年年1010月开始研究。月开始研究。MPEGMPEG7 7并不是一种压缩编码方法，其正规的名字叫做并不是一种压缩编码方法，其正规的名字叫做多多媒体内容描述媒体内容描述接口接口，其目的是生成一种用来描述多媒体内容，其目的是

37、生成一种用来描述多媒体内容的标准，建立的标准，建立MPEG-7MPEG-7标准的出发点是依靠众多的标准的出发点是依靠众多的参数参数对图象对图象与声音实现分类，并对它们的与声音实现分类，并对它们的数据库数据库实现查询。实现查询。 435、RealAudio文件文件.RA/.RM/.RAM RealAudio文件是文件是 Real Networks公司开发的一种新型公司开发的一种新型流式流式音频音频（Streaming Audio）文件格式。）文件格式。传统的音频文件传统的音频文件可以存入硬盘或其它的存储介质中。一般来说，可以存入硬盘或其它的存储介质中。一般来说，这种音乐文件在播放之前，需要完全

38、下载。这种音乐文件在播放之前，需要完全下载。流式文件流式文件（如（如RealAudio和和QuickTime使用的文件格式）可以一使用的文件格式）可以一边下载一边听，但无法很容易地把整个文件保存到硬盘上。边下载一边听，但无法很容易地把整个文件保存到硬盘上。注意：注意：一些文件格式，如一些文件格式，如MP3和和WMA，既可以是传统文件，也可以，既可以是传统文件，也可以是流式文件。是流式文件。446、PCM文件文件.PCM 由模拟音频信号直接通过由模拟音频信号直接通过A/D转换而形成的二进制序列文转换而形成的二进制序列文件。件。特点：特点：保真度高，解码速度快，但编码后的数据量大。保真度高，解

39、码速度快，但编码后的数据量大。如：如：CD-DA就是采用该编码方式，每分钟的音乐约需要就是采用该编码方式，每分钟的音乐约需要10MB磁盘存储空间。一般可通过转换工具将磁盘存储空间。一般可通过转换工具将PCM文件转换成文件转换成WAV文文件。件。45三、三、MIDI文件格式文件格式.MID/.RMI通过语音合成器产生相应声音的非波形格式的通过语音合成器产生相应声音的非波形格式的MIDI（Musical Instrument DigitalInterface）文件（）文件（.MID）。）。属于合成声音文件，属于合成声音文件，即采用数字方式对乐器所演奏出来的声音即采用数字方式对乐器所演奏出来的声音

40、进行记录，然后在播发时再对这些记录进行合成。进行记录，然后在播发时再对这些记录进行合成。存储的是指令和数据，不是数字化的实际声音。存储的是指令和数据，不是数字化的实际声音。即存储的是发即存储的是发给音频合成器的一系列指令，给音频合成器的一系列指令，MIDI 传输的不是声音信号传输的不是声音信号, 而是音符、而是音符、控制参数等控制参数等指令指令, 它指示它指示MIDI 设备要做什么设备要做什么,怎么做怎么做, 如演奏哪个音如演奏哪个音符、多大符、多大音量音量等。等。占用磁盘空间非常小（占用磁盘空间非常小（MID文件每文件每1分钟只用大约分钟只用大约510KB）。）。缺点：缺点：处理语音能力

41、和效果相对较差。一般只适用于记录乐曲。处理语音能力和效果相对较差。一般只适用于记录乐曲。46四、模块文件四、模块文件MOD/.S3M/.XM/.MTM/.FAR/.KAR/ 同时具有同时具有MIDI与数字音频（声音文件）的共同特性；与数字音频（声音文件）的共同特性；文件中既包括如何演奏乐器的指令，又保存了数字声音信号的文件中既包括如何演奏乐器的指令，又保存了数字声音信号的采样数据，为此，其声音回放质量对音频硬件的依赖性较小，采样数据，为此，其声音回放质量对音频硬件的依赖性较小，即，在不同的机器上可以获得基本相似的声音回放质量；即，在不同的机器上可以获得基本相似的声音回放质量；根据不同的编码

42、方法有根据不同的编码方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多种不同格式。等多种不同格式。47WAVE文件与文件与MIDI文件的区别：文件的区别：1、文件格式：文件格式：WAVE文件是通过直接对模拟声波进行数字化得到的文件是通过直接对模拟声波进行数字化得到的音频信号数据；而音频信号数据；而MIDI文件只是记录了一系列乐谱指令。文件只是记录了一系列乐谱指令。2、声音来源：声音来源：WAVE文件是直接通过声卡输入端口获取的音源，并文件是直接通过声卡输入端口获取的音源，并可从输出端口直接播放；而可从输出端口直接播放；而MIDI是通过是通过MIDI接口由音序器记录电接口由音序器记录电

43、子乐谱的指令数据。子乐谱的指令数据。3、存储容量：存储容量：采用采用MIDI格式记录比采用格式记录比采用WAVE格式记录的数据量格式记录的数据量小两个数量级以上。小两个数量级以上。格格式式描描述述适用的播放软件适用的播放软件Wav未经压缩的波形（未经压缩的波形（Wav）声音文件，质量好，）声音文件，质量好，占用空间大。占用空间大。Windows中的媒体播放器、中的媒体播放器、录音机。录音机。MP3是是Wav文件经过特殊压缩后产生的一种音乐格文件经过特殊压缩后产生的一种音乐格式文件，压缩比式文件，压缩比1012。媒体播放器、超级解霸，媒体播放器、超级解霸，Realone Player、Win

44、mapRM/RA是是Real Audio，是目前最流行的格式支持，是目前最流行的格式支持流媒流媒体体技术。技术。Realone playerWMAWindows Media，功能齐全，使用方便，功能齐全，使用方便Windows平台平台CD唱片唱片是最好的一种声音格式文件，是最好的一种声音格式文件，16位采样精度，位采样精度，44.1kHz，可重现原来的声音。，可重现原来的声音。Windows自带工具自带工具CD唱机唱机MIDI乐器数字化接口（乐器数字化接口（Musical Instrumment DigitalInterface）媒体播放器，超级解霸。媒体播放器，超级解霸。MP4不是不是Mp3

45、的改进版本，是美国网络技术公司的改进版本，是美国网络技术公司（GMO）采用）采用MPEG2中的音频压缩技术。中的音频压缩技术。压缩比压缩比1：15，比，比Mp3的的1：12高。高。Vcd、DVD播放软件：播放软件：格格式式特点特点适用的播放软件适用的播放软件是否流媒体是否流媒体Wav音质好，容量大音质好，容量大媒体播放器媒体播放器否否MP3媒体播放器、超级解霸，媒体播放器、超级解霸，Realone Player、WinmapRM/RARealone playerWMAWindows平台平台CD唱片唱片Windows自带工具自带工具CD唱机唱机MIDI媒体播放器，超级解霸媒体播放器，超级解霸M

46、P4Vcd、DVD播放软件播放软件音频文件总结音频文件总结50一、概述一、概述1、压缩编码的、压缩编码的目的目的在保证一定图像（或声音）质量的条件下，以在保证一定图像（或声音）质量的条件下，以最小的数据最小的数据率率来表达和传送图像（或声音）信息。来表达和传送图像（或声音）信息。2、压缩编码的压缩编码的重要性重要性实际应用中，未压缩编码的音频数据量很大，进行实际应用中，未压缩编码的音频数据量很大，进行传输或传输或存储存储数据量很不现实数据量很不现实。513、数据能够得到压缩的数据能够得到压缩的可能性可能性（1）原始数据中存在着大量的原始数据中存在着大量的冗余冗余信息；信息；（2）视频和音频

47、信息的最终接收者是人，人的视觉和听觉器官视频和音频信息的最终接收者是人，人的视觉和听觉器官都具有某种都具有某种不敏感性不敏感性，舍去人的感官所不敏感的信息对图像或，舍去人的感官所不敏感的信息对图像或声音质量的影响很小，在有些情况下，甚至可以忽略不计；声音质量的影响很小，在有些情况下，甚至可以忽略不计；（3）对声音波形取样后，相邻样值之间存在着很强的对声音波形取样后，相邻样值之间存在着很强的相关性相关性。524.语音压缩编码算法的评价语音压缩编码算法的评价音频质量音频质量数据量数据量数据量数据量=(采样频率采样频率量化位数量化位数)/8(字节数字节数)声道数目声道数目算法复杂度算法复杂度在保

48、证质量的前提下，尽量减少算法复杂度在保证质量的前提下，尽量减少算法复杂度53分数分数质量级别质量级别失真级别失真级别5优优(Excellent)无察觉无察觉4良良(Good)(刚刚)察觉但不讨厌察觉但不讨厌3中中(Fair)(察觉察觉)有点讨厌有点讨厌2差差(Poor)讨厌但不反感讨厌但不反感1劣劣(Bad)极讨厌极讨厌(令人反感令人反感)音频质量：音频质量：主观评价：主观意见打分，歌咏比赛主观评价：主观意见打分，歌咏比赛客观评价：客观评价：信噪比信噪比SNR (signal to noise ratio)声音质量评分标准声音质量评分标准54说明：说明：声音质量的评价是一个很声音质量的评价是一

49、个很困难困难的，目前还在继续研究的课题。的，目前还在继续研究的课题。两种方法两种方法：一种是客观质量度量，另一种是：一种是客观质量度量，另一种是主观质量度量主观质量度量。用声音信号的用声音信号的带宽来衡量声音的质量带宽来衡量声音的质量，等级由低到高分别是：，等级由低到高分别是：数字电话（数字电话（telephone）调幅（调幅（amplitude modulation，AM）广播）广播调频（调频（(frequency modulation，FM）广播）广播激光唱盘（激光唱盘（CD-Audio）数字录音带（数字录音带（digital audio tape，DAT）的声音。）的声音。55

50、二、数字音频文件的编码标准二、数字音频文件的编码标准1. ITU标准标准 G.711标准：标准：1972年制定，年制定，采样率为采样率为8kHz，8位位/样本，速率为样本，速率为64kb/s，采用，采用PCM算法。算法。（其质量相当于（其质量相当于12bit线性量化线性量化）。）。应用：电话质量应用：电话质量的语音信号编码的语音信号编码所需频宽：所需频宽：64Kbps（ 8kHz 8bit）特性：特性：算法复杂度小，音质一般算法复杂度小，音质一般优点：优点：算法复杂度低，压缩比小（算法复杂度低，压缩比小（CD音质音质400kbps），），编解码延时最短（相对其它技术）编解码延时最短（相对其

51、它技术）缺点：缺点：占用的带宽较高占用的带宽较高56 G.721标准：标准：1984年公布年公布(1986年修订年修订)，采样率为采样率为8kHz，4位位/样本，数据率为样本，数据率为32kb/s，采用，采用ADPCM算法。算法。应用：应用：调幅广播和交互式激光唱盘的音频信号压缩。调幅广播和交互式激光唱盘的音频信号压缩。所需频宽：所需频宽：32Kbps特性：特性：相对于相对于PCM，其压缩比较高，可以提供，其压缩比较高，可以提供 2:1的压缩比。的压缩比。优点：优点：压缩比大压缩比大缺点：缺点：声音质量一般声音质量一般备注：备注：使用使用ADPCM转换技术转换技术，实现，实现64 kb/s A

52、律或律或律律PCM 速率和速率和32 kb/s速率之间的相互转换。速率之间的相互转换。57 G.722标准：标准：以以16kHz采样，采样，14bit量化，信号数据速率为量化，信号数据速率为224kbit/s，可以被压缩为，可以被压缩为64kb/s。利用。利用G.722标准可以在窄标准可以在窄带综合服务数据网带综合服务数据网N-ISDN中的一个中的一个B信道上传送调幅广播信道上传送调幅广播质量的音频信号。质量的音频信号。应用：调频广播应用：调频广播和和需存储大量高质量音频信号需存储大量高质量音频信号的编码。的编码。所需频宽：所需频宽：64Kbps特性：特性：G.722能提供高保真的语音质量能

53、提供高保真的语音质量优点：优点：音质好音质好缺点：缺点：带宽要求高带宽要求高备注：备注：子带子带ADPCM（SB-ADPCM）技术）技术58 G.723（低码率语音编码算法）（低码率语音编码算法）所需频宽：所需频宽：5.3Kbps/6.3Kbps特性：特性：语音质量接近良，带宽要求低，高效实现，性能稳定。语音质量接近良，带宽要求低，高效实现，性能稳定。可用于可用于IP电话电话语音信源编码或高效语音压缩存储。语音信源编码或高效语音压缩存储。优点：优点：码率低，带宽要求较小。并达到码率低，带宽要求较小。并达到ITU-TG723要求的语音要求的语音质量，性能稳定。质量，性能稳定。缺点：缺点：声音质量

54、一般声音质量一般备注备注：可以应用于可以应用于IPIP电话电话等系统中等系统中59G.723.1（双速率语音编码算法）（双速率语音编码算法）所需频宽：所需频宽：5.3Kbps特性：特性：能够对音乐和其他音频信号进行压缩和解压缩，但它对能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号最优的。语音信号最优的。优点：优点：码率低，带宽要求较小。并达到码率低，带宽要求较小。并达到ITU-TG723要求的语音要求的语音质量，性能稳定质量，性能稳定,避免了载波信号的时通时断。避免了载波信号的时通时断。缺点：缺点：语音质量一般语音质量一般备注：备注：目前该算法已成为目前该算法已成为IP电话系统电话系

55、统中的必选算法之一。中的必选算法之一。60 G.728所需频宽：所需频宽：16Kbps/8Kbps，其质量与，其质量与32kbit/s的的G.721标准基标准基本相当本相当应用：应用：用于用于IP电话、卫星通信、语音存储等多个领域。电话、卫星通信、语音存储等多个领域。优点：优点：后向自适应，采用自适应后置滤波器来提高其性能。后向自适应，采用自适应后置滤波器来提高其性能。缺点：缺点：比其它的编码器都复杂比其它的编码器都复杂61 G.729所需频宽：所需频宽：8Kbps特性：特性：可以应用于广泛的领域，包括可以应用于广泛的领域，包括 IP 电话电话、无线通信、数、无线通信、数字卫星系统和数字专用

56、线路。字卫星系统和数字专用线路。优点：优点：语音质量良好，应用领域很广泛。语音质量良好，应用领域很广泛。缺点：缺点：在处理随机比特错误方面性能不好。在处理随机比特错误方面性能不好。62G.729A所需频宽：所需频宽：8Kbps特性：特性：复杂性较复杂性较G.729低，性能较低，性能较G.729差。差。优点：优点：语音质量良，降低了计算的复杂度以便于实时实现，提语音质量良，降低了计算的复杂度以便于实时实现，提供了对帧丢失和分组丢失的隐藏处理机制供了对帧丢失和分组丢失的隐藏处理机制缺点：缺点：性能较性能较G.729差差备注：备注：96年年ITU-T又制定了又制定了G.729的简化方案的简化方案G.

57、729A，主要降，主要降低了计算的低了计算的复杂度复杂度以便于实时实现，因此目前使用的都以便于实时实现，因此目前使用的都是是G.729A。632、MPEG标准标准有有MPEG、MPEG、MPEG和和MPEG几种。几种。MPEG中中 ISO/IEC 11172-3（音频）：速率为（音频）：速率为1.5Mb/s，采样频率分别为采样频率分别为48、32、44.1kHz，与，与PCM标准兼容。标准兼容。广泛应用在多媒体领域的广泛应用在多媒体领域的高保真高保真音频编码的压缩标准。音频编码的压缩标准。适用于适用于20Hz20kHz的宽频范围。的宽频范围。643、AC-3标准标准由由Dolby实验室在实验室

58、在AC-2的基础上开发出来的音频编码技术。的基础上开发出来的音频编码技术。目前是美国目前是美国HDTV的音频标准。的音频标准。该标准将该标准将6个声道个声道进行数字编码，并将其压缩成一个通道，进行数字编码，并将其压缩成一个通道，比特率为比特率为320kb/s。适用于电视广播、数字广播、有限电视、直播卫星以及家适用于电视广播、数字广播、有限电视、直播卫星以及家庭音响等各个领域。庭音响等各个领域。654、GSM标准标准由欧洲数字移动特别工作组制定。速率为由欧洲数字移动特别工作组制定。速率为13kb/s，适用，适用于于移动通信的低速语音移动通信的低速语音编码。编码。5、CTIA标准标准美国数字移动通

59、信标准。速率为美国数字移动通信标准。速率为8kb/s，压缩率高，计算，压缩率高，计算量适中，适用于移动通信的低速语音编码。量适中，适用于移动通信的低速语音编码。音频数字压缩编码算法及其特性音频数字压缩编码算法及其特性算法算法名称名称数据率数据率 bps 标准标准应用应用质量质量波波形形编编码码 PCM 脉冲编码调制公共网 ISDN 配音 4.04.5 -lawA-law -律，A-律 64kG.711 APCM 自适应脉冲编码调制 DPCM 差分脉冲编码调制 ADPCM 自适应差分脉冲编码调制 32kG.721 SB-ADPCM 子带-自适应差分脉冲编码调制 64kG.72

60、2 5.3k6.3kG.723 音频数字压缩编码算法及其特性音频数字压缩编码算法及其特性算法算法名称名称数据率数据率 bps 标准标准应用应用质量质量参数参数编码编码 LPC LPC 线性预测编码线性预测编码 2.4k2.4k保密保密话声话声 2.53.5 混混合合编编码码 CELPC CELPC 码激励码激励LPC LPC 4.6k4.6k移动移动通信通信 4.03.7 VSELP VSELP 矢量和激励矢量和激励LPC LPC 8k8k语音语音邮件邮件 RPE-LTP RPE-LTP 规则码激励长时预测规则码激励长时预测 13.2k 13.2k ISDN ISDN LD-

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章新音频信息处理

文档简介

温馨提示

最新文档

评论

第三章新音频信息处理

文档简介

温馨提示

最新文档

评论

相关文档