版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
音频处理技术1.2多媒体特性与关键技术声学基本知识物理学意义上的声音心理学与生理学意义上的声音声音信号的数字化过程采样量化数据压缩算法简介相关标准简介音频文件格式音频处理软件1.1物理学意义上的声音声音的本质声音是由于物体的振动产生的机械波1.1物理学意义上的声音声音的频率20Hz——20kHz:声波(人耳可闻)20kHz以上:超声波20Hz以下:次声波声音的强度:与声波的振幅成正比声波在单位时间内作用在与其传递方向垂直的单位面积上的能量声音的种类纯音:振幅和频率均为常数的声音复音:多种不同频率和振幅的混合声音基音:复印中频率最低的声音,复音的基调泛音、谐音:其他频率声音的统称噪音:多频率、多强度的无规律声音频率振幅频率振幅纯音复音基音泛音/谐音1.1物理学意义上的声音声音强度的计量声强(物理学上常用)声强是指单位时间(1秒钟)内声音通过垂直于声音传播方向单位面积(cm2)的声能量。声压(听觉生理学上常用)声音在空气中传播而改变了空气原来的恒定静压力,导致了原有静压力的微小增加。1.1物理学意义上的声音这两种1.2生理及心理学意义上的声音人耳听到的声音≠自然界的声音听域(AuditoryArea):人耳可闻的声音范围频率范围:20Hz-20kHz强度范围:可用声压、声压级、声强、声强级表示听阈(AuditoryThreshold):人耳可闻的最小强度痛阈:引起人耳疼痛的最小强度声强与响度的关系声强:声音强度的客观度量(概念与度量前面已述)响度:声音强度的主观感受响度:声音强度的主观感受响度与声强不是线性关系声音能量(强度)增加近4倍,主观感觉响度增加1倍响度与声音能量是一种近似对数关系响度与频率有关:1000~4000Hz的声音人耳听起来最响响度的单位为宋(sone)频率1000Hz,强度为听阈以上40dB(感觉级)的纯音所产生的响度为1sone。绝对听觉阈限指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某各频率点)的最小能量幅度。通常绝对听觉门限用声压级表示(dB)人耳的等响度曲线音调:声音频率的主观感受音调的高低与频率的高低一致频率不变,强度的变化对音调稍有影响。强度增大时,低频率音调显得更低,而高频率音调显得更高。音色:人耳对复合音中各种谐音成分总和的主观印象人耳通过音色区分不同的乐器,如:基音为100Hz的钢琴声与基音100Hz的黑管声音的
基音频率相同钢琴有15个泛音(谐音)黑管有10个泛音(谐音)声音的掩蔽效应当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知同时掩蔽(频域掩蔽)掩蔽声音与被掩蔽声音同时出现当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。即在一个临界频带内,一个大的信号可以掩蔽掉若干小的信号,无论这个信号是音调还是噪音。25个临界频带临界频带频率(Hz)临界频带频率(Hz)低端高端宽度低端高端宽度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280
异时掩蔽(时域掩蔽)掩蔽声音与被掩蔽声音不同时出现一个强音频信号可以掩蔽到之前若干时间和之后若干时间的音频信号的感知,即导前掩蔽或滞后掩蔽对之前音频信号的掩蔽效应衰减的很快,大概只能掩蔽到几毫秒对之后音频信号的掩蔽可以持续到最长200ms的时间。2.声音信号的数字化过程从声波到数字音频文件的过程拾音放大A/D转换(模数转换)采样量化编码声—电模拟信号模拟信号—数字信号—二进制数据采样与量化:模数转换的核心采样(Sampling)采样:把模拟信号在时间域上以固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示采样周期:两个取样点之间的间隔称为采样频率:采样周期的倒数采样定理:当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失信息,能不失真地还原出原始的声音信号
若超过此取样频率,就会包含冗余的信息
若低于此频率,则将产生不同程度的失真对于音频,最常用的采样频率有三种:44.1KHz22.05KHz11.025KHz哪种采样频率产生的数字音频音质最佳?Why?声道数:声音通道的个数,指一次采样的声音波形个数。
单声道一次采样一个声音波形
双声道一次采样两个声音波形,又称为“立体声”。量化(Quantity)量化的目的是将采样后的信号波形的幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。量化位数(量化级):用于表示幅度值(样本)的二进制位数
量化位数越多,所得到的量化值越接近原始波形的采样值。一个量化器就是将整个信号的幅度值分成若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值称为量化值。均匀量化非均匀量化数据率的概念数据率(比特率):
一秒钟的数字音频信号所需的二进制位数单位:bps(bitspersecond位每秒)计算公式:采样率×采样位数×声道数例如:44.1KHz、16bit的立体声数字音频信号的数据率
44.1k*16b*2=1411.2kbps这就是CD音频的数据率如果不进行任何编码和压缩,
则产生的声音文件体积会非常大,不利于存储和传输减小音频文件大小的思路1.降低采样频率和量化位数——降低音质2.数据压缩(编码)无损压缩算法减少数据量,但不减少信息量典型实例:哈夫曼编码、Winrar有损压缩算法原理:有选择地舍弃一些信息,如人类不敏感信息典型实例:PCM编码(WAV)、MPEG编码(MP3)数据压缩算法常用音频编码标准编码方法算法名称数据率标准应用质量波形编码PCM均匀量化
公共网ISDN配音4.0~4.5μ(A)μ(A)64kbpsG.711APCM自适应量化
DPCM差值量化ADPCM自适应差值量化32kbpsG.721SB—
ADPCM子带—自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps
保密话声2.5~3.5混合编码CELPC码激励LPC4.6kbps
移动通信3.7~4.0VSELP矢量和激励LPC8kbps
语音通信RPE-LTP长时预测规则码激励13.2kbps
ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729
MPEG多自带感知编码128kbps
CD5.0
AC-3感知编码
音响5.0编码(压缩)的效果CD音质的音频未编码(压缩):1411.2kbps经MPEG-Layer3算法压缩后(mp3格式):128kbps1分钟的原始CD音频文件大小:10.34MB1分钟的接近CD音质的MP3文件:0.96MB衡量音质的指标采样频率量化位数(量化级)例如:CD音质:44.1kHz16bitDVD-Audio音质:192kHz24bit(目前最高音质)衡量编码算法(压缩效率)的指标同等音质(采样频率、量化位数、声道数)下的
数据率。典型音频编码简介PCM(PulsePulseCodeModulation脉冲代码调制编码)原理:直接存储采样量化后的数据特点:没有编码的编码
数据量大、无失真代表文件格式:wav文件PCM的实际应用形式:加入了压缩算法A律PCM:我国和欧洲采用μ律PCM:日本和北美采用标准制定组织:CCITT(CommitteeConsultationInternationalTechnicandTelegraph)国际电报电话咨询委员会标准名称:G.711MPEG1(MovingPictureExpertsGroup)音频编码特点:根据人的听觉特性进行编码
有损压缩
音质较好,文件体积较小
三种层次的编码系统,可根据需要选用
层次越高,性能越好编码层次MPEG-Layer1MPEG-Layer2MPEG-Layer3代表文件格式:mp3标准制定组织:ISO(InternationalStandardOrganization)
国际标准化组织IEC(InternationalElectroTechnicalCommission)
国际电工委员会标准名称:ISO/IEC11172-3(MPEG-音频)AC音频编码AC-1应用的编码技术是自适应增量调制20kHz宽带立体声音频信号编码后的数据率为512kb/sAC-1曾在卫星电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2比特率(数据率)降至256kb/s以下AC-2被应用在PC声卡和综合业务数字网等方面。AC-3音频编码标准的起源是DOLBYAC-1。AC-31994年,日本先锋公司宣布与美国杜比实验室合作研制成功一种崭新的环绕声制式,并命名为“杜比AC-3”(DolbySurroundAudioCoding-3)。1997年初,杜比实验室正式将“杜比AC-3环绕声”改为“杜比数码环绕声”(DolbySurroundDigital),我们常称为DolbyDigital。杜比AC-3提供的环绕声系统由5个全频域声道和1个超低音声道组成,被称为5.1声道。6个声道的信息在制作和还原过程中全部数字化,信息损失很少,是一种高音质音频标准。DVD中的音频编码采用AC-3标准播放AC-3格式的音频文件,需要安装解码插件
如:AC-3Filter3音频文件格式波形格式WAVWAV是MicrosoftWindows本身提供的音频格式,用.wav作为扩展名,其文件格式称为波形文件格式(WAVEFileFormat)WAV格式是一种文件格式,而非一种编码文件格式:文件数据的组织结构编码:编码(压缩)算法比如:书信是一种文件格式,英语是一种编码。WAV格式可以支持多种音频编码基于PCM编码的WAV格式是应用最广泛的音频文件格式,所有音频播放、编辑软件都支持。WAV是一种RIFF文件格式RIFF(ResourceInterchangeFileFormat)在Windows环境下,大部分多媒体文件都遵循RIFF结构来存放信息,RIFF可以看做是一种树状结构,其基本构成单位为Chunk,就像树形结构中的节点,每个Chunk由辨别码、数据长度及数据组成。记录采样频率、
采样位数等参数记录声音数据WAV格式的特点通用性极强(基于PCM编码的)一般音质较好(基于PCM编码的)占用存储空间较大音频素材与中间处理结果的最佳格式MIDI格式MIDI(MusicalInstrumentDigitalInterface)的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(MusicSynthesizers)、乐器(MusicalInstruments)和计算机之间交换音乐信息、播放和录制音乐的一种标准协议。MIDI标准确定了将计算机与电声乐器、录音设备连接起来所需的电缆线、硬件及通信协议。MIDI可用于基于计算机的作曲和电子音乐合成制作MP3格式MP3文件格式TAG_V2(ID3V2)+Frame+TAG_V1(ID3V1)ID3V1:存放歌曲的描述信息
歌名、作者、专辑名、年份、附注、音乐类别
位于文件尾
mp3播放器软件广泛支持ID3V2:对ID3V1的扩展
可存放更多描述信息如专辑封面图等
位于文件头
软件支持有限Frame:一系列的帧,存放音频编码信息Frame:一系列的帧,存放音频编码信息帧的个数由文件大小和帧长决定每个FRAME的长度可能不固定,也可能固定,
由数据率bitrate决定恒定数据率(CBR):96kbps、128kbps、192kbps变化数据率(VBR):针对歌曲不同的部分采用不同的数据率,用以节省存储空间。数据率越高,音质越好每个FRAME
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版工程机械设备租赁与技术创新服务合同3篇
- 二零二五版护林员劳动合同书编制指南3篇
- 二零二五版按揭购房合同:智能家居系统智能家居系统节能改造合同3篇
- 二零二五年度游戏公司代运营及运营支持合同3篇
- 二零二五版包雪服务项目风险评估与预案合同3篇
- 二零二五年度餐饮配送企业食品安全责任追究合同3篇
- 二零二五版海洋工程高低压配电系统安装合同2篇
- 二零二五版小微企业贷款合同与信用增级服务协议3篇
- 二零二五年度海洋工程设备采购合同15篇
- 二零二五年黄豆种植户风险管理采购合同3篇
- MT/T 199-1996煤矿用液压钻车通用技术条件
- GB/T 6144-1985合成切削液
- GB/T 10357.1-2013家具力学性能试验第1部分:桌类强度和耐久性
- 第三方在线纠纷解决机制(ODR)述评,国际商法论文
- 公寓de全人物攻略本为个人爱好而制成如需转载注明信息
- 第5章-群体-团队沟通-管理沟通
- 肾脏病饮食依从行为量表(RABQ)附有答案
- 深基坑-安全教育课件
- 园林施工管理大型园林集团南部区域养护标准图例
- 排水许可申请表
- 低血糖的观察和护理课件
评论
0/150
提交评论