版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体技术基础与实验教程第1页,共43页,2023年,2月20日,星期四第三章目录3.1数字音频基本原理
3.1.1人类听觉特性
3.1.2数字音频
3.1.3声音
3.1.4语音3.2常用音频编码算法和标准
3.2.1音频信号编码基础
3.2.2常用音频编码标准
3.2.3国际音频标准化组织简介3.3音频文件格式
3.3.1波形格式
3.3.2MIDI格式
3.3.3MP3压缩格式
3.3.4流式音频格式3.4音频处理工具Audition3.4.1功能概述
3.4.2编辑环境
3.4.3基本操作第2页,共43页,2023年,2月20日,星期四3.1数字音频基本原理
3.1.1人类听觉特性
听阈与听域
声压是声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增加。声压级为某一点的声压与参考声压的比值取常用对数后再乘以20的值,单位是分贝,即dB,是反映声音大小、强弱的最基本参量。听阈(AuditoryThreshold)就是指人能听到的最低声压级(SoundPowerLevel,SPL)。纯音的听阈与频率有关:1kHz纯音的听阈约为4dB,10kHz时听阈约为15dB,到40kHz时达到50dB左右。听域(AudibleArea)是指人能感知的声音的范围,正常人耳能够感知的频率范围大致是20Hz~20kHz;正常人能感知声音的声压级范围是0~128dB,这里基准声压级(0dBSPL)的定义是10-16W/cm2。声强是指单位时间(1秒钟)内声音通过垂直于声音传播方向单位面积(cm2)的声能量。
第3页,共43页,2023年,2月20日,星期四听域—频率曲线在“听阈-频率”曲线和“痛阈-频率”曲线之间的区域就是人耳的听觉范围。第4页,共43页,2023年,2月20日,星期四音调
音调(Pitch)是指人耳对不同频率声音的一种主观感受。人们定义一个高于听阈40dB、频率为1kHz的纯音的音调为1000Mel,这里Mel是音调的度量单位。
响度和响度级
响度(Loudness)是人耳感受声音强弱的主观感觉程度,这种感觉与音强、频率和波形都有关系,其度量单位为Sone,定义一个高于听阈40dB、频率为1kHz的纯音的响度为1Sone。响度级(LoudnessLevel)是指某响度与基准响度相比的等级,其度量单位为Phon,定义1kHz纯音的声强级为1Phon。响度和响度级L之间满足以下转换关系:第5页,共43页,2023年,2月20日,星期四第6页,共43页,2023年,2月20日,星期四绝对听觉门限
绝对听觉门限(AbsoluteThresholdofHearing,ATH)指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝对听觉门限用声压级表示(dB),静音为0dB,痛阈为140dB。
绝对听觉门限曲线横坐标是频率,表示人所能听到的声音的频率范围
纵坐标是声压级,表示所有低于门限的声音信号人类一般听不到
第7页,共43页,2023年,2月20日,星期四临界频带
临界频带(CriticalBand)是指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。这使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位叫Bark(巴克)。
频率<500Hz的情况下,
频率>500Hz的情况下,第8页,共43页,2023年,2月20日,星期四临界频带频率(Hz)临界频带频率(Hz)低端高端宽度低端高端宽度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280
25个临界频带第9页,共43页,2023年,2月20日,星期四同时掩蔽
同时掩蔽(SimultaneousMasking)又称频域掩蔽,分为噪声掩蔽音调(NMT)、音调掩蔽噪声(TMN)和噪声掩蔽噪声(NMN)。掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带内,一个大的信号可以掩蔽掉若干小的信号,无论这个信号是音调还是噪音。第10页,共43页,2023年,2月20日,星期四声强为60dB、频率为1000Hz纯音的掩蔽效应声强为60dB、频率不同的纯音的掩蔽效应第11页,共43页,2023年,2月20日,星期四异时掩蔽
异时掩蔽(NonsimultaneousMasking)又称时域掩蔽,是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。此时出现的一个强音频信号可以掩蔽到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽。而对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒,而对之后音频信号的掩蔽可以持续到最长200ms的时间。时域掩蔽第12页,共43页,2023年,2月20日,星期四感知熵
感知熵(PerceptualEntropy)是指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(bit)作为单位,实际上表示了音频信号压缩的理论极限。感知熵的计算原理是:
1)对原始信号加2048点汉明窗,然后进行2048点的快速傅立叶变换,将时域音频信号转换成频域信号。
2)通过临界频带分析得到掩蔽阈值,然后对信号进行噪音类和纯音类判决,最后将绝对听阈考虑进来。
第13页,共43页,2023年,2月20日,星期四3.1.2数字音频音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号,其特点是保真度好,动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列,其间要经历:选择采样频率,即进行采样;选择分辨率,即进行量化;最后编码形成声音文件。声音的采样与量化第14页,共43页,2023年,2月20日,星期四采样
采样(Sampling)是把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。两个取样点之间的间隔称为采样周期,它的倒数称为采样频率。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,并且可以用采样后的信号重构原始信号,就能不失真地还原出原始的声音信号。若超过此取样频率,就会包含冗余的信息;若低于此频率,则将产生不同程度的失真。对于音频,最常用的采样频率有三种:44.1KHz、22.05KHz、11.025KHz,其中44.1KHz采样频率是最常用的频率。声道数是声音通道的个数,指一次采样的声音波形个数。单声道一次采样一个声音波形,双声道一次采样两个声音波形,又称为“立体声”。
第15页,共43页,2023年,2月20日,星期四量化
量化(Quantity)的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的采样值。一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。量化方式有三种:零记忆量化、分组量化和序列量化。零记忆量化是每次量化一个模拟采样值,并对所有采样点都使用相同的量化器特性;分组量化是从可能输出组的离散集合中选出一组输出值,代表一组输入的模拟采样值;序列量化是在分组或非分组的基础上,用一些邻近采样点的信息对采样序列进行量化。第16页,共43页,2023年,2月20日,星期四3.1.3声音声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播叫做波,而在空气中传播的波就叫做声波,能被人的听觉器官所感觉到的声波叫声音,其频率一般在20Hz~20KHz之间。声音的传播是将本地振动向一个接一个的区域传播的过程,因此声音是纵向传播的。声音振动所产生压力的改变可以是周期性的,也可以是非周期性的。一系列周期性的振动是一个周期,每秒经过一个固定点的振动周期的次数就是声波的频率,用Hz表示,人类听力的大致范围是20Hz~20KHz,因此音频设备的响应设计也是在这个频率范围内。声音的三要素是音调、音色和音强。就听觉特性而言,声音质量的高低主要取决于这三要素。音强是指声音的强度,也称为声音的响度。音强与声波的振幅成正比,振幅越大,强度越大。声音的质量简称音质。音质的好坏与音色和频率范围有关。另外影响音质的因素还有:
1)与采样频率有关。
2)与音频处理设备有关。
3)与信号噪声比有关。
第17页,共43页,2023年,2月20日,星期四3.1.4语音语音是一种特殊的媒体,但也是一种波形,在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史。其研究范围主要涉及:语音编码、语音合成、语音识别的基本算法和应用。说话的意向及概念语言语音知觉语义情感压缩、存储读取、解压语音合成语音编/解码语音识别计算机处理语音过程第18页,共43页,2023年,2月20日,星期四3.2常用音频编码算法和标准
在音频编码技术三十余年的发展过程中,国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)先后提出了一系列有关音频编码的建议:
第19页,共43页,2023年,2月20日,星期四方法算法名称数据率标准应用质量波形编码PCM均匀量化
公共网ISDN配音4.0~4.5μ(A)μ(A)64kbpsG.711APCM自适应量化
DPCM差值量化ADPCM自适应差值量化32kbpsG.721SB—
ADPCM子带—自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps
保密话声2.5~3.5混合编码CELPC码激励LPC4.6kbps
移动通信3.7~4.0VSELP矢量和激励LPC8kbps
语音通信RPE-LTP长时预测规则码激励13.2kbps
ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729
MPEG多自带感知编码128kbps
CD5.0
AC-3感知编码
音响5.0第20页,共43页,2023年,2月20日,星期四3.2.1音频信号编码基础数据压缩条件
信号之所以能被压缩和编码,其原因主要是:
数据冗余度:音频信号通常存在很多用处不大的空间,空间越多,数据的冗余度也越大。通过数据的压缩,将这些不用的空间去掉。人类不敏感因素:一般而言,人类对某些频率的音频信号不敏感,有无这些频率的音频,在听觉上影响不大,在数据压缩时,就可去掉这些不敏感的成分,以便减少数据量。信息传输与存储:信息承载在数据上进行传输和存储,在传输和存储前后需要对数据进行压缩处理,其原理如下图所示。有损压缩无损压缩数据解压缩数据解压缩数据存储数据传输第21页,共43页,2023年,2月20日,星期四数据冗余
冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度叫做冗余度。信息量、数据量和冗余量之间的关系如下:
其中,表示信息量表示数据量表示冗余量,冗余量应在数据存储和传输之前去掉。
冗余大致可分为:空间冗余、时间冗余、统计冗余、结构冗余、信息熵冗余、知识冗余等
第22页,共43页,2023年,2月20日,星期四数据压缩算法分类
数据压缩算法可根据解码后的数据与压缩前的原始数据是否完全一致分为“无损压缩编码”和“有损压缩编码”两大类。第23页,共43页,2023年,2月20日,星期四第24页,共43页,2023年,2月20日,星期四3.2.2常用音频编码标准G.71164kb/s脉冲编码调制(PCM)
G.721、G.723自适应差分脉码调制(ADPCM)G.7227kHz声音编码器
G.72816kb/s低延迟码激励线性预测编码(LD-CELP)
MPEG1的音频编码
AC音频编码
第25页,共43页,2023年,2月20日,星期四
G.71164kb/s脉冲编码调制(PCM)
1972年,CCITT对一个64kb/s压扩型PCM编码器做了标准化,称为G.711。事实上,已经有两个标准。在北美和日本,使用μ律PCM。世界其他国家使用A律PCM。两种编码器的信号都用8位表示。有效信噪比大约为35dB,能够把它们看成浮点表示值。
A律PCM对小信号有较大的分辨力,其动态范围等效于12位线性PCM。
μ律PCM等效于13位线性PCM,但是,对于小信号有更多的粒状噪声。两种编码器在总体性能上是等效的。很重要的一点是:当这两种编码器级联时,可以考虑为省去了最低有效位,而降低为56kb/s的比特率。第26页,共43页,2023年,2月20日,星期四
G.721、G.723自适应差分脉码调制(ADPCM)
1984年,CCITT首先对32kbit/s自适应差分脉码调制(ADPCM)做了标准化,称为G.721。它为两个目的服务:
第一,用于数字倍增器(DCME)上,能够使系统容量有2:1的增加;第二,在有些线路上,经常会遇到一端为μ律而另一端为A律的情况,G.721是为接收μ律或A律的任一种作为输入而建立的。
G.723是在1988年标准化的。它试图为DCME提供应用,而且,是在ADPCM的基础上,对两种附加速率24kb/s和40kb/s进一步标准化。
G.721是32kb/sADPCM,已经被选中作为欧洲数字无绳电话(DECT)和无绳电话II(CT2)的标准。
第27页,共43页,2023年,2月20日,星期四
G.7227kHz声音编码器
G.722建议的音频压缩仍采用波形编码技术,为7kHz宽带编码器,主要用于电话会议和可视电话会议。人们试图找到比电话(200~3200Hz)更大的带宽,以减少使用者的疲劳。较大的带宽增加了语音的可懂度,因为在使用电话带宽的情况下,有些语音不易区分。这种编码器是基于两个子带的编码组合。一个24抽头镜面正交滤波器,用于有效地分开信号,上频带使用16kb/sADPCM,类似如G.727编码器。下频带使用48kb/sADPCM编码,具有4和5个量化器嵌入到6位量化器。第28页,共43页,2023年,2月20日,星期四
G.72816kb/s低延迟码激励线性预测编码(LD-CELP)
G.728的工作进程是从1988年由CCITT开始的。它试图建立通用的16kb/s长话质量的语音编码标准。长话质量意味着它能匹配或超过G.72132kb/sADPCM的性能;通用则表示任何地方都能够使用,所以引入了低延迟的要求。后来,CCITT限制它不能用在主干线的连接上,能够用在点到点的终端设备和电路倍增设备中。G.728的第一项应用是低比特率的视频电话,由于它能使用帧擦除,故也能够用在有衰减的无线电通道上。
G.728开始是按照浮点CELP编码算法规定的,故要求严格的按照建议中规定的算法实现。为了验证是否已经正确实现,建立了一组试验矢量。后来,按照严格定点规定的算法也在1994年完成了。
第29页,共43页,2023年,2月20日,星期四
MPEG1的音频编码
国际标准化组织/国际电工委员会所属的WG11工作组制定推荐了MPEG标准。已公布和正在讨论的标准有MPEG1、MPEG2、MPEG4、MPEG7。这里仅介绍MPEG1标准的一部分,对应于ISO/IEC11172-3(MPEG-音频)。这部分规定了高质量音频编码方法、存储表示和解码方法。编码器的输入和解码器的输出与现存的PCM标准兼容。ISO/IEC11172视频、音频的总比特率为1.5Mb/s。音频使用的采样率为32kHz、44.1kHz和48kHz。
编码输出的比特率有许多种,由相关的参数决定:
(1)编码器(2)编码层次(3)存储(4)解码第30页,共43页,2023年,2月20日,星期四
AC音频编码
AC-1应用的编码技术是自适应增量调制,它把20kHz的宽带立体声音频信号编码成512kb/s的数据流。AC-1曾在卫星电视和调频广播上得到广泛应用。
1990年DOLBY实验室推出了立体声编码标准AC-2,它采用类似MDCT的重叠窗口的快速傅立叶变换编码技术,其比特率在256kb/s以下。AC-2被应用在PC声卡和综合业务数字网等方面。
AC-3音频编码标准的起源是DOLBYAC-1。
第31页,共43页,2023年,2月20日,星期四3.2.3国际音频标准化组织简介
国际电信联盟(ITU)北美的标准化组织欧洲电信标准研究所日本的RCR中国的电信标准化组织
第32页,共43页,2023年,2月20日,星期四3.3音频文件格式3.3.1波形格式
WAV是MicrosoftWindows本身提供的音频格式,用.wav作为扩展名,其文件格式称为波形文件格式(WAVEFileFormat)。在Windows环境下,大部分多媒体文件都遵循RIFF结构来存放信息,RIFF可以看做是一种树状结构,其基本构成单位为Chunk,就像树形结构中的节点,每个Chunk由辨别码、数据长度及数据组成。
RIFF的简化结构图第33页,共43页,2023年,2月20日,星期四3.3.2MIDI格式
MIDI是MusicalInstrumentDigitalInterface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(MusicSynthesizers)、乐器(MusicalInstruments)和计算机之间交换音乐信息、播放和录制音乐的一种标准协议。MIDI标准确定了将计算机与电声乐器、录音设备连接起来所需的电缆线、硬件及通信协议。
MIDI标准的优点:
生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形。容易编辑,因为编辑命令比编辑声音波形要容易得多。可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。
第34页,共43页,2023年,2月20日,星期四
产生MIDI乐音的方法很多,现在用得较多的方法有两种。
一种是(SynthesisFrequencyModulation,FM)合成法。FM发声器的原理是先对音色本质进行研究计算之后再通过人工方式“模拟”(或合成)其频率,使用调变波去调变载波,最终获得不同的音色表现。
FM声音合成器的基本原理第35页,共43页,2023年,2月20日,星期四
另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。
乐音样本合成器的工作原理第36页,共43页,2023年,2月20日,星期四
MIDI通信形式,是将电子乐器连接起来的一种手段,它是控制乐器所用的软件和硬件的规范。大多数电子乐器内部都有与计算机类似的用于控制的微处理器。
MIDI在各种设备之间传送消息。当在一个MIDI设备上演奏时,其内部的微处理器将乐曲的详细信息包括演奏的音符,节奏的变化等发送出去,另外的MIDI设备接收这些消息并做出相应的反应。在每个MIDI乐器中使用三个连接器,一个向外发送数据,一个接收数据,另一个将收到的数据传送给其他MIDI设备。
MIDI消息有两种类型:状态字节和数字字节。状态字节描述发送的信息类别,数字字节总是跟在状态字节后面,表示动作的实际值。
第37页,共43页,2023年,2月20日,星期四
所有MIDI消息通过通道发送和接收。通道上能够传送不同乐器的声音,音序器能够让不同的乐器演奏不同的声部。
MIDI通道乐器MIDI通道乐器MIDI通道乐器MIDI通道乐器1Piano5Cellos9Harp13Bassoon2Harp6Violas10Trombone14Clarinet3Percussion7ViolinI11Trumpet15Oboe4Basses8ViolinII12French.Horn16Flute
MIDI用状态字节中的低4位表示紧随其后的数据所在的通道。4位可表示0~15这16个值,所以MIDI有16个可用通道。
第38页,共43页,2023年,2月20日,星期四3.3.3MP3压缩格式
MP3是Fraunhofer-IIS研究所(http://www.iis.fhg.de/)的研究成果,它的全称是MPEG1Layer3音频文件,是MPEG1标准中的声音部分,也叫MPEG音频层。它根据压缩质量和编码复杂程度划分为三层,即Layer1、Layer2、Layer3,分别对应MP1、MP2、MP3这三种声音文件。
MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3采取了“感知音频编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原始音频数据的声音效果。
第39页,共43页,2023年,2月20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年国际旅游服务与市场营销合同
- 住房简易合同模板
- 个人联营合作合同范例
- 品牌服务授权合同范例
- 城建项目合同范例
- 2024年度航空港建设与安装合同
- 2024年度安全生产责任合规与风险控制合同
- 2024年保险合同标的及服务细节
- 债权转让居间服务合同范例
- 修补雨棚天沟合同范例
- 建筑幕墙工程(铝板、玻璃、石材)监理实施细则(全面版)
- 小学数学与思政融合课教学设计
- 休闲生态农业观光园建设项目财务分析及效益评价
- 江西省南昌市民德学校2023-2024学年八年级上学期期中数学试题
- 国际金融(英文版)智慧树知到期末考试答案2024年
- 2024年《药物临床试验质量管理规范》(GCP)网络培训题库
- 2023年度学校食堂每月食品安全调度会议纪要
- 建筑门窗、幕墙安装工人安全技术操作规程
- 绿色高效百万吨级乙烯成套技术开发及工业应用-研究报告
- 逐梦青春志在四方规划启航职引未来
- 项目部单机油耗分析报告
评论
0/150
提交评论