多媒体技术应用2音频处理技术(陈永强)课件

上传人：x*** IP属地：贵州上传时间：2023-07-27 格式：PPT 页数：77 大小：3.52MB 积分：25 举报 版权申诉

已阅读5页，还剩72页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多媒体技术应用数学与计算机学院陈永强Email:chenyqwh@163.com2013-2014-2精选ppt第二章音频处理技术2.1

音频基本原理

2.1.1

人类听觉特性

2.1.2

数字音频2.1.3

声音2.1.4

语音2.2常用音频压缩标准

2.2.1音频压缩基础

2.2.2常用音频压缩标准

2.2.3音频文件格式2.3音频处理软件Audition

2.3.1功能介绍

2.3.2编辑环境

2.3.3基本操作精选ppt第二章音频处理技术2.1

音频基本原理2.1.1

人类听觉特性2.1.2

数字音频2.1.3

声音2.1.4

语音精选ppt近十年来，随着计算机技术的高速发展，以及能同时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标准得到大量开发与使用，数字音频已经广泛应用于因特网、多媒体及无线通信系统，CD品质的数字音频已经从根本上替代了模拟音频。因此，人们对音频信号数字化处理提出了越来越高的要求，相应软硬件实现手段的效率也在不断提高。精选ppt2.1.1

人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。对于人类听力感知的研究，其范围从人耳的生理设计到大脑对听觉信息的解释。当前，大部分感知音频的编码算法都是基于心理声学模型的。精选ppt2.1.1

人类听觉特性1．听阈与听域2．音调3．响度和响度级4．绝对听觉门限5．临界频带6．同时掩蔽7．异时掩蔽8．感知熵精选ppt2.1.1

人类听觉特性1．听阈与听域听阈（AuditoryThreshold）就是指人能听到的最低声压级（SoundPowerLevel，SPL）。听域（AudibleArea）是指人能感知的声音的范围，正常人耳能够感知的频率范围大致是20Hz～20kHz；正常人能感知声音的声压级范围是0～128dB。精选ppt图2-1听阈-频率曲线

精选ppt2.1.1

人类听觉特性2．音调音调（Pitch）在物理学中是指声音的高低，实际上就是指人耳对不同频率声音的一种主观感受。音调主要由声音的频率决定，同时也与声音强度有关。频率高的声音，人感觉其音调也较高，反之，人感知音调低的声音其频率也低。对音调可以进行定量的判断，其度量单位为美（Mel），定义一个声压级为40dB，频率为1kHz的纯音的音调为1000Mel。精选ppt2.1.1

人类听觉特性3．响度和响度级响度（Loudness）是人耳感受声音强弱的主观感觉程度，这种感觉与音强、频率和波形都有关系，其度量单位为宋（Sone），定义一个声压级为40dB，频率为1kHz的纯音的响度为1Sone。响度级（LoudnessLevel）是指某响度与基准响度相比的等级，其度量单位为方（Phon），定义1kHz纯音的响度级为1Phon。精选ppt图2-2人耳可听最小响度曲线

精选ppt2.1.1

人类听觉特性4．绝对听觉门限绝对听觉门限（AbsoluteThresholdofHearing，ATH）指一个人在没有噪声的环境下，能够产生听觉，感知到一个纯音信号（某频率点）的最小能量幅度。绝对听觉门限用声压级表示，静音为0dB，痛阈为140dB。

精选ppt图2-3绝对听觉门限曲线

精选ppt2.1.1

人类听觉特性5．临界频带指一个纯音可以被以它为中心频率，并且具有一定频带宽度的连续噪声所掩蔽，在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态，即称这一带宽为临界频带宽度。临界频带的单位为巴克（Bark）。

精选ppt2.1.1

人类听觉特性6．同时掩蔽掩蔽效应是指当两个响度不等的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。当两个或更多的音频信号到达人内耳时，掩蔽声与被掩蔽声同时作用发生掩蔽效应，就称同时掩蔽。

精选ppt2.1.1

人类听觉特性7．异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应，则称为超前掩蔽，否则称为滞后掩蔽。

精选ppt2.1.1

人类听觉特性8．感知熵感知熵（PerceptualEntropy）指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位（bit）作为单位，实际上表示了音频信号压缩的理论极限。

精选ppt2.1.2

数字音频音频信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要将它变成时间和幅度都是离散的数字信号，所以数字音频是指音频信号经过离散化处理后再用一系列的数字来表示的信号，其特点是保真度好，动态范围大。数字音频可分为波形声音、语音和音乐。波形声音实际上包含了所有的声音形式，因此数字音频有时也泛称为声音。精选ppt2.1.2

数字音频用计算机来处理音频信号必须将模拟音频信号转换成有限个数字表示的离散序列，过程为：选择采样频率，即进行采样；选择分辨率，即进行量化；最后编码形成声音文件。声音的采样与量化如图所示。精选ppt2.1.2

数字音频1.采样采样（Sampling）指把模拟信号在时域上以固定的时间间隔对波形的值进行抽取，再用若干位二进制数表示。对声音波形采样的频率直接影响声音的质量，采样频率越高，声音保真度越好，但所要求的数据存储量也越大。根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号，从而不失真地还原出原始的声音信号。对于音频，最常用的采样频率有三种：44.1kHz、22.05kHz和11.025kHz，其中44.1kHz采样频率是最常用的。声道数是声音通道的个数，指一次采样的声音波形个数。精选ppt2.1.2

数字音频2.量化量化（Quantity）的目的是将采样后的信号波形的幅度值（样本）进行离散化处理，样本从模拟量转化成了数字量。量化位数越多，所得到的量化值越接近原始波形的采样值。量化方式有三种：零记忆量化、分组量化和序列量化。精选ppt2.1.3

声音声学是研究声音的学科，包括声波的产生、传播和接收。物体振动在弹性体里的传播称为波，而在空气中传播的波就称为声波，能被人的听觉器官所感觉到的声波叫声音，其频率一般在20Hz～20kHz之间。

精选ppt2.1.3

声音声音的三要素是音调、音色和音强。音调是指声音的高低，音调与频率有关。音色是指具有特色的声音。音强是指声音的强度，也称为声音的响度，音强与声波的振幅成正比。精选ppt2.1.3

声音声音的质量简称音质。1）与采样频率有关。对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。采样频率越低，位数越少，音质越差。2）与音频处理设备有关。音响放大器和扬声器的质量能够直接影响重放的质量。3）与信号噪声比有关。在录音时，音频信号幅度与噪声幅度的比值越大越好，否则声音被噪声干扰，会影响音质。精选ppt2.1.3

语音语音是一种特殊的媒体，语音是人类所特有的，但也是一种波形，在计算机中表示方式与波形声音的文件格式相同。语音处理的研究已经有一百多年的历史，其研究范围主要涉及：语音合成、语音编码、语音识别的基本算法和应用。计算机处理语音过程如图所示。精选ppt图2-8计算机处理语音过程精选ppt第二章音频处理技术2.2常用音频压缩标准2.2.1音频压缩基础2.2.2常用音频压缩标准2.2.3音频文件格式精选ppt2.2.1音频压缩基础1．数据压缩条件2．数据冗余3．数据压缩算法分类精选ppt2.2.1音频压缩基础1．数据压缩条件信号之所以能被压缩和编码，其原因主要是：1）数据冗余度2）人类不敏感因素3）信息传输与存储精选ppt2.2.1音频压缩基础2．数据冗余冗余是指信息所具有的各种性质中多余的无用空间，其多余的程度称为冗余度。信息量、数据量和冗余量之间的关系如下：式中，I表示信息量，D表示数据量，du表示冗余量，冗余量应在数据存储和传输之前去掉。

精选ppt2.2.1音频压缩基础2．数据冗余空间冗余时间冗余统计冗余结构冗余信息熵冗余知识冗余等。精选ppt2.2.1音频压缩基础2．数据冗余空间冗余：一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。图像数据中经常存在的一种冗余，如规则物体和规则背景（像素相关性强）。精选ppt2.2.1音频压缩基础2．数据冗余时间冗余：视频和音频中存在的、在时间尺度上相关的一种冗余，如相邻帧之间像素的相关性；语音的连续和渐变过程。空间冗余和时间冗余，存在大量的统计特征重复，因此称为统计冗余。精选ppt2.2.1音频压缩基础2．数据冗余结构冗余：有些图像存在着非常强的纹理结构，我们称它们在结构上存在冗余。例如，布纹图像和草席图像。精选ppt2.2.1音频压缩基础2．数据冗余信息熵冗余：也称为编码冗余，是指数据所携带的信息量少于数据本身而反映出来的数据冗余。例如:自然界的很多状态不可能正好用2的整数次幂来表示,这样就会造成编码冗余。精选ppt2.2.1音频压缩基础2．数据冗余知识冗余：举例：成语、人脸的图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到，我们称此类冗余为知识冗余。精选ppt2.2.1音频压缩基础3．数据压缩算法分类图2-10数据压缩算法分类

精选ppt2.2.1音频压缩基础3．数据压缩算法分类无损压缩（冗余压缩、熵编码）法：无损压缩法去掉或减少了数据中的冗余量，但这些冗余量是可以重新恢复的，因此，无损压缩是可逆的过程。例如：压缩软件WinRAR应用。注意：无损压缩特点是压缩比小。无损压缩法不会产生失真，在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。精选ppt2.2.1音频压缩基础3．数据压缩算法分类有损压缩（熵压缩）法：有损压缩减少了信息量，而这些损失信息量是不能再恢复的，因此，有损压缩法是不可逆的。例如：视/听觉等冗余，由于人的感觉对某些失真不易觉察的生理特征，决定了在某些场合可以减少信息量。注意：有损压缩特点是压缩比大，但不可逆。精选ppt2.2.2常用音频压缩标准1．G.71164Kb/s脉冲编码调制（PCM）2．G.721自适应差分脉冲编码调制（ADPCM）3．G.7227kHz声音编码器4．G.723双速率语音编码器5．G.72816Kb/s低延迟码激励线性预测编码（LD-CELP）6．G.729语音编码器7．MPEG-1音频编码8．AC音频编码9．空间音频编码10．移动音频编码精选ppt2.2.2常用音频压缩标准1．G.71164Kb/s脉冲编码调制（PCM）脉冲编码调制（PulseCodeModulation，PCM）是ITU制定出来的一套语音压缩标准，主要用于电话。1972年，CCITT对一个64Kb/s压扩型PCM编码器做了标准化，称为G.711。这个标准主要有两种压缩算法，在北美和日本，使用μ律PCM；而世界其他国家使用A律PCM。G.711在64Kb/s速率话音质量能够达到网络等级，目前已广泛应用于各种数字通信系统中，如电缆、微波、卫星、光缆等。

精选ppt2.2.2常用音频压缩标准2．G.721自适应差分脉冲编码调制（ADPCM）自适应差分脉冲编码调制（AdaptiveDifferentialPulseCodeModulation，ADPCM）在PCM的基础上进行改进，进一步利用了语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化1984年，CCITT首先对32Kb/sADPCM做了标准化，称为G.721。G.721于1986年根据两年间运行中出现的一些问题，做了进一步修正，又重新标准化。精选ppt2.2.2常用音频压缩标准3．G.7227kHz声音编码器1988年，正式通过关于“用64Kb/s或低于此编码速率的7kHz音频信号编码器”的标准，称为G.722。G.722的主要目标是保持64Kb/s的数据率，而音频信号的质量要明显高于G.711的质量。

精选ppt.2.2常用音频压缩标准4．G.723双速率语音编码器G.723是在1996年制定的一种多媒体语音编解码标准。G.723标准传输码率有5.3Kb/s和6.3Kb/s两种，在编程过程中可随时切换。

精选ppt2.2.2常用音频压缩标准5．G.72816Kb/s低延迟码激励线性预测编码（LD-CELP）G.728的工作进程是从1988年开始的，试图建立通用的16Kb/s长话质量的语音编码标准。G.728开始是按照浮点CELP编码算法规定的。1994年完成了按照严格定点规定的算法。精选ppt2.2.2常用音频压缩标准6．G.729语音编码器在1996年3月，ITU-T的第15研究小组提出8Kb/s的语音编码协议，称为G.729。G.729标准使用的算法是共轭结构的代数码本激励线性预测（CS-ACELP），它基于CELP编码模型。

精选ppt2.2.2常用音频压缩标准7．MPEG-1音频编码MPEG-1音频编码作为MPEG标准的一部分，对应于ISO/IEC11172-3，规定了高质量音频编码方法、存储表示和解码方法。

精选ppt2.2.2常用音频压缩标准8．AC音频编码杜比实验室在1987年第一次将数字编码技术引入到HDTV的开发中，即AC-1标准。1990年杜比实验室又推出了立体声编码标准AC-2。1994年杜比公司与日本先锋公司联合推出了最新一代的杜比数码环绕声系统DolbySurroundAudioCoding-3，简称为AC-3。

精选ppt2.2.2常用音频压缩标准9．空间音频编码随着人类听觉研究在空间心理声学、认知心理学等学科的不断深入，出现了将人类空间方位感知参数引入音频压缩编码技术的研究——空间音频编码（SpatialAudioCoding，SAC）。通过将空间线索（SpatialCues）参数引入到音频压缩编码算法中，即所谓的参数立体声（ParametricStereo，PS）技术，分析声道间冗余信息量，采用立体声参数提取的联合声道编码模式，取代传统的声道分离编码模式，可以降低近50%的编码码率，使空间成为数字音频编码技术的有效组成部分。精选ppt2.2.2常用音频压缩标准10．移动音频编码在移动通信系统中采用混合压缩编码，可以根据需要动态调整编码码率，在合成音频质量、系统空间中取得平衡，最大限度地发挥系统的效能。3GPP将AMR-WB+和EAAC+两种编码标准用于第三代移动网络中的多媒体服务。

精选ppt方法算法名称数据率标准应用质量波形编码PCM脉冲编码调制公共网ISDN配音4.0～4.5μ(A)μ(A)64Kb/sG.711APCM自适应脉冲编码调制DPCM差分脉冲编码调制ADPCM自适应差分脉冲编码调制32Kb/sG.721SB-ADPCM子带自适应差分脉冲编码调制64Kb/sG.7225.3Kb/s6.3Kb/sG.723参数编码LPC线性预测编码2.4Kb/s保密话声2.5～3.5混合编码CELPC码激励LPC4.6Kb/s移动通信3.7～4.0VSELP矢量和激励LPC8Kb/s语音通信RPE-LTP长时预测规则码激励13.2Kb/sISDNLD-CELP低延迟码激励LPC16Kb/sG.728网络通信CS-ACELP共轭结构代数码激励线性预测8Kb/sG.729语音通信MPEG子带感知编码128Kb/sMPEG-1、MPEG-2、MPEG-4CD5.0AC-3感知编码音响5.0精选ppt2.2.3音频文件格式1．波形格式2．MIDI格式3．MP3压缩格式4．几种流式音频格式

精选ppt2.2.3音频文件格式1．波形格式WAV是MicrosoftWindows本身提供的音频格式，用.wav作为扩展名，其文件格式称为波形文件格式（WaveFileFormat），在多媒体编程接口和数据规范1.0（MultimediaProgrammingInterfaceandDataSpecifications1.0）文档中有详细的描述。精选ppt2.2.3音频文件格式2．MIDI格式电子乐器数字接口（MusicalInstrumentDigitalInterface，MIDI）是用于在音乐合成器（MusicSynthesizers）、乐器（MusicalInstruments）和计算机之间交换音乐信息，播放和录制音乐的一种标准协议。精选ppt2.2.3音频文件格式3．MP3压缩格式MP3全称是MPEG-1Layer3音频文件，是MPEG-1标准中的声音部分，也叫MPEG音频层。MPEG音频层根据压缩质量和编码复杂程度划分为三层，即Layer1、Layer2、Layer3，分别对应MP1、MP2、MP3这三种声音文件。精选ppt2.2.3音频文件格式4．几种流式音频格式现在使用最普遍的流格式类型是RealNetworks公司发明的支持网络流媒体技术的实时音频格式，RA、RMA这两个文件类型就是RealMedia的音频格式。精选ppt第二章音频处理技术2.3音频处理软件Audition2.3.1功能介绍2.3.2编辑环境2.3.3基本操作精选pptAudition软件是Adobe公司推出的一款完整的、应用于Windows系统的PC上的多音轨音频工作站。该软件前身称为CoolEdit，Adobe公司在2003年5月从SyntrilliumSoftware公司成功购买后将其更名为Audition。

精选ppt2.3.1功能介绍AdobeAudition3.0是一款功能强大的、专业级的音乐编辑软件，能高质量地完成高级混音、编辑、控制、合成和特效处理，允许用户编辑个性化的音频文件，创建循环，引进了45个以上的DSP特效以及高达128个音轨。AdobeAudition拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持等功能，为音乐、视频、音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案。AdobeAudition提供了直觉的、客户化的界面，允许用户删减和调整窗口的大小，创建一个高效率的音频工作范围。

精选ppt2.3.2编辑环境Audition提供了三种专业的工作视图界面，包括:编辑视图（EditView）多轨视图（MultitrackView）CD视图（CDView）精选ppt图2-16多轨视图界面

精选ppt图2-17单轨视图界面

精选ppt图2-23CD视图

精选ppt2.3.3基本操作1．单轨视图（1）打开或创建一个音频文件（2）编辑音频（3）保存更改

精选ppt2.3.3基本操作2．多轨视图（1）打开或创建一个音频文件（2）插入或录制音频文件（3）施加效果（4）混合轨道（5）输出

精选ppt推荐多媒体软件认证考试1.全国计算机信息高新技术考试(CITT)考试名称:劳动和社会保障部全国计算机信息高新技术考试（全称）

国家计算机高新技术考试（简称）证书名称:全国计算机信息高新技术考试合格证书（全称）

OSTA计算机认证（简称）发证部门:人力资源和社会保障部职业技能鉴定中心网址：模块化（12个）分级考试（5级）:相关模块：计算机辅助设计（AutoCAD,Protel），图形图像处理（PhotoShop,3DMax,CorelDRAW,Illustrator），多媒体软件制作（Director,Authorware），视频编辑（Premiere,AfterEffects）级

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体技术应用2音频处理技术(陈永强)课件

文档简介

温馨提示

最新文档

评论

多媒体技术应用2音频处理技术(陈永强)课件

文档简介

温馨提示

最新文档

评论

相关文档