模拟音频的声音质量课件_第1页
模拟音频的声音质量课件_第2页
模拟音频的声音质量课件_第3页
模拟音频的声音质量课件_第4页
模拟音频的声音质量课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

音频素材制作与处理第五章声音

声音是人类表达思想和情感的重要媒介,是用于传送信息的媒体。不同类型的声音会给人带来不同的感受,优美的乐音令人心情舒畅,繁杂的噪音使人疲劳紧张。在多媒体技术领域,声音主要表现为语音、自然声和音乐。本章介绍音频信号的特点、模拟音频与数字音频的基本概念、语音合成技术与识别技术、音频处理软件AdobeAudition基本功能介绍以及利用本软件实现相应音频素材制作技术等理论知识与应用方法。模拟音频

声音是由物体振动产生的。正在发声的物体称为声源。声音的产生:声源振动,通过空气等介质,把这种振动以机械波的形式传向远方,这就是声波。声波传入人的耳朵,促使耳膜产生振动,这种耳膜的振动被传导到人的听觉神经,就产生了对“声音”的感觉。声音是振动的波,是随时间连续变化的物理量,是连续的模拟信号,即模拟音频信号。声波与普通波形一样,可以用以下三个物理量来描述:振幅、周期、频率。(1)振幅是声音波形振动的幅度,表示声音的强弱。(2)周期是声音波形完成一次全振动经过的时间,也是两个连续波峰之间的时间长度。(3)频率是声音波形在一秒钟内完成全振动的次数,表示声音的音调。声音具有三个要素:音调、音色和音强。(1)音调代表声音的高低。频率越高,音调越高。(2)音色是声音的特色。声音分纯音和复音两种类型。纯音的振幅和周期均为常数;复音是具有不同频率和不同振幅的混合声音,是影响声音特色的主要因素。自然界的大部分声音是复音。(3)音强是声音的强度,常说的“音量”就是指音强。音强与声波的振幅成正比,振幅越大,强度越大。声音录制完毕后音强即随之确定,通过播放设备的音量控制,可改变聆听时的强度。声音频率是指声音信号每秒钟变化的次数。频率小于20Hz的信号称为亚音信号,或次音信号;频率范围为20-20000Hz的信号称为音频信号。高于20000Hz的信号称为超音频信号。在多媒体技术中,处理的信号主要是音频信号,它包括音乐、语音及自然界的各种声响。模拟音频信号通常是被转换为电信号来进行处理的。大多数电信号的处理方法一直是采用模拟元部件(如晶体管、变压器、电阻、电容等)对模拟音频信号进行处理。模拟音频的特点

1、模拟音频信号的频率范围模拟音频信号由许多频率不同的信号组成,每个信号都有各自的频率范围,这个组合信号被称为复合信号。频率范围也叫“频域”或“频带”,不同种类的声源频带是不同的。人耳听到的声音频带范围是有限的,频率低于20Hz和高于20000Hz的声音信号人类听不到,即表示人耳的可听域在20-20000Hz之间。不同声源的频带宽度声源类型频带宽度(Hz)人类语音100-10000电话声音200-3400电台调幅广播AM50-7000电台调频广播FM20-15000高级音响设备20-20000宽带音响设备10-40000模拟音频的连续性模拟音频是在时间上和幅值上都连续变化的信号,构成声音数据前后之间具有强烈的相关性。连续波形上的任何一点都代表了特定的声音信息。因此,模拟录音过程需要将连续变化的声音波形转换为连续变化的电信号,再作用于磁性存储设备的磁头,产生连续的强度不同的磁场,磁化磁带上的磁性材料。模拟音频的声音质量模拟音频的声音质量简称“音质”,与音色和频率范围有关。悦耳的音色、宽广的频率范围,能够获得更好的音质。影响音质的因素主要与声音还原设备有关。其次,噪声也是影响音质的重要因素,在录制声音时,音频信号幅度与噪声幅度的比值越大越好。模拟信号的一个重要的缺点就是噪声容限较低,抗干扰能力差,在录音过程中,噪声的影响是限制模拟音频信号质量的重要原因。数字音频数字音频是以二进制的方式记录的音频,是模拟音频的数字化表达。相对于模拟音频,数字音频可以表现出更好的音质效果。数字音频技术是指利用数字技术处理声音的方法。数字音频可以以声音文件WAV格式或者MIDI格式在磁盘中保存。通常,通过计算机的声卡(也称音频卡)将模拟音频进行模拟/数字转换,将模拟信号进行采样和量化处理,就可以得到数字音频信号了。数字音频信号特点数字音频信号可以通过计算机进行加工和处理,如进行编辑、合成、静音、增加混响、调整频率等,使得声音效果能更有力的烘托主题的气氛,因此对于多媒体展示系统、多媒体广告、视频特技等领域,数字音频信号显得更加重要。数字音频信号特点在声音存储方面,传统的模拟音频信号记录在磁带或者唱片等模拟介质中。模拟介质的缺点是难以保存。并且存储效率很低,成本很高。数字音频信号可以文件的形式存储在光存储介质或磁存储介质中,实现永久保存。在声音处理方面,模拟音频信号的修正工作非常复杂。数字音频技术在后期的音频处理过程中,可以非常容易的进行多种修正以及加工,例如改变音高、纠正语音错误、变换节奏,甚至可以增加大量的声音效果。极大程度的简化了音频编辑工作的难度。数字音频信号特点在声音的压缩方面,模拟音频的压缩率很难提高。而数字音频技术在数据的压缩方面具有绝对优势。例如目前最流行的MP3音频格式,压缩率达到了7%左右,同时还能保持良好的音质。模拟音频信号转换为数字音频信号

将模拟音频信号转换为数字音频信号的过程就是对于模拟音频信号的数字化过程。模拟音频信号的数字化过程需要三个步骤:采样、量化和编码。采样采样就是每隔一定的时间间隔,抽取模拟音频信号的一个瞬时幅度值也称作采样值,采样后所得出的一系列在时间上离散的采样值称为样值序列。采样后的样值序列在时间上是离散的。量化采样只是在时间上实现了离散化。其音频脉冲信号的幅度仍然是模拟的,因此,还必须对幅度进行离散化处理,这个过程称为量化。量化的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入同一阶距内的幅度值归为一类,并赋予相同的量化值。编码采样和量化之后的音频信号还必需转换为数字编码脉冲才是数字信号,这一转换过程称为编码。最简单的编码方式是二进制编码。就是用n比特二进制码来表示已经量化了的采样值,每个二进制数对应一个量化值,然后把它们排列,得到由二值脉冲组成的数字信息流。数字音频文件的类型

WAV格式:微软公司开发,用于windows平台,是最早的数字音频格式。MIDI格式:MIDI格式是MusicalInstrumentDigitalInterface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。在MIDI文件中存储的是一些指令,把这些指令发送给声卡,由声卡按照指令将声音合成出来。CDA格式:CDA格式是CD音乐格式,取样频率为44.1kHz,16位量化位数,CDA格式存储采用了音轨的形式,记录的是波形流,是一种近似无损的格式。MP3格式:MP3格式是MPEG-1AudioLayer3。MP3能够以高音质、低采样率对数字音频文件进行压缩。数字音频文件的类型MP3Pro格式:MP3Pro格式可以在基本不改变文件大小的情况下改善MP3的音质。WMA格式:WMA格式是WindowsMediaAudio的缩写,是微软公司开发的网络音频格式。其压缩率一般可以达到1:18。MP4格式:MP4格式采用“知觉编码”为关键技术的压缩技术。只有特定的用户才可以播放。MP4的压缩比可达到1:15,体积较MP3更小,但音质却没有下降。QuickTime格式:QuickTime格式是苹果公司推出的一种数字流媒体,它面向视频编辑、Web网站创建和媒体技术平台,QuickTime支持几乎所有主流的个人计算平台。数字音频文件的类型DVDAudio格式:DVDAudio格式是新一代的数字音频格式,是音乐格式的DVD光碟,可容纳74分钟以上的录音。MD格式:MD格式是MiniDisc缩写,是Sony公司的一种音频文件格式。采用了ATRAC算法,可以在一张尺寸较小的光盘中存储60-80分钟采用44.1khz采样的立体声音乐。RealAudio格式:RealAudio格式是由RealNetworks公司推出的一种文件格式,可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据。现在的RealAudio文件格式主要有RA、RM、RMX三种,这些文件的共同性在于随着网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较宽的听众获得更好的音质。数字音频文件的类型VOC格式:VOC格式常用在DOS程序和游戏中,它是随声卡一起产生的数字声音文件,与WAV文件的结构相似。AU格式:AU格式是应用于互联网上的多媒体声音。AU文件是UNIX操作系统下的数字声音文件。MAC格式:MAC格式是Apple公司开发的,被Macintosh平台和多种Macintosh应用程序所支持。AAC格式:AAC格式是高级音频编码的缩写。AAC是MPEG-2规范的一部分。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法(比如MP3等)。AAC可以在比MP3文件缩小30%的前提下提供更好的音质。数字音频的质量与数据量

音频数字化就是将模拟声音波形数字化,以便利用数字计算机进行处理。影响数字音频信号质量的技术指标主要包括采样频率、采样精度、声道数和编码算法。采样频率采样频率是对声音波形每秒钟进采样的次数。奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原为原来的声音,这叫做无损数字化。如果一个信号中的最高频率为f,采样频率最低要选择2f。例如:电话话音的信号频率约为3.4kHz,采样频率就选为8kHz。人的听觉的频率上限在20kHz左右。为了使声音不发生失真,采样频率一般在40kHz左右。如44.lkHz。采样频率越高,声音失真越小、音频数据量越大。采样精度采样精度是每次采样的数据位数。数位是每个采样点的振幅动态响应数据范围,经常采用的有8位、12位和16位。采样量化位数越高音质越好,数据量也越大。声道数声道数表示一次采样的声音波形数。如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为立体声(双声道)。若每次生成多个声道,则音频数据量会更大。声音数字化的采样频率和采样精度越高,结果越接近原始声音,但记录数字声音所需存储空间也随之增加。未经压缩的音频文件所需的存储空间的计算公式如下:存储容量(字节)=(采样频率*采样精度)/8×声道数×时间例如,数字激光唱盘CD-DA的标准采样频率为44.lkHz,采样数位为16位,立体声。则激光唱盘一分钟音乐需要的存储量为:44.1*1000*l6*2*60/8=10.584MB编码算法编码的作用体现在两个方面,一是采用一定的格式来记录数字数据,二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩比是压缩编码的基本指标,表示音频压缩的程度,是压缩后的音频数据量与压缩前的音频数据量的比值。压缩程度越大,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的压缩编码算法。语音合成技术语音合成是指利用计算机合成语音的一种技术,使计算机能够产生高清晰度、高自然度的连续语音,具有类似于人一样的说话的能力。语音合成技术可以通过将预先录制并存储的语音信号重新播放来实现,或者采用数字信号处理的方法,生成各种音调的语音。语音合成可分为三个层次,分别是“文字到语音”的合成(Text-To-Speech);“概念到语音”的合成(Concept-To-Speech);“意向到语音”的合成(Intention-To-Speech)。要合成出高质量的语言,不仅要对语言进行理解,还必须遵循人类语言的一些表达规则,如语义学规则、词汇规则、语音学规则。常用的语音合成方法参数合成法是通过调整合成器参数实现语音合成。基音同步叠加法是对时域波形拼接实现语音合成,在音色和自然度方面相比参数合成法有很大程度提高。基于数据库的语音合成方法是采用预先录制各种可能语境下的语音单元并保存在数据库中,建立一个庞大的语音数据库。再从数据库中选择并拼接出各种语音内容。由于声音来源于自然音,因此清晰度和自然度都非常高。语音合成的技术方式波形编辑合成。以语句、短语、词或音节为合成单元,经数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。语音合成的技术方式参数分析合成。以音节、半音节或音素为合成单元。首先对所有合成单元的语音进行分析,提取语音参数,经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。语音合成的技术方式规则合成。通过语音学规则来产生目标语音。规则合成系统存储的是较小的语音单位。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。文语转换系统文语转换系统是将文字内容转换为语音输出的语音合成系统。文本分析器根据发音字典,将输入的文本字符串分解为带有属性标记的词和读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级和语句结构及语调,以及各种停顿等。这样文字串就转变为符号代码串。采用前面介绍的合成技术的一种或者是几种的结合,合成出输出语音。语音合成技术特点(1)自然度(2)清晰度(3)表现力(4)复杂度语音合成系统应用目前,语音合成技术开始广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。此外还有一些教育娱乐软件、普通话教学软件、游戏软件中都使用了语音合成技术。语音识别技术语音识别技术是让计算机通过识别和理解过程把语音信号转变为相应的文本或命令的技术。即让计算机能够听懂人类的语言。是目前信息技术领域重要的科技发展技术之一。例如:IBM的语音识别软件ViaVoice,可以帮助人们通过话筒用语音向字处理软件输入文字,能识别英语、意大利语、德语、法语、日语、汉语等语种,已经得到了广泛的使用。语音识别的关键技术语音识别技术主要包括特征提取技术、模式匹配技术及模型训练技术三个方面。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术、隐马尔可夫模型和人工神经网络技术。音频处理软件AdobeAuditionAdobeAudition软件是一款多轨音频制作软件。具有高级混音、编辑、控制和特效处理能力。2006年1月,升级至2.0版。AdobeAudition拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持等功能,为音乐、视频、音频和声音设计专业人员提供全面集成的音频编辑和混音解决方案。AdobeAudition广泛支持工业标准音频文件格式,包括WAV、AIFF、MP3、MP3PRO和WMA,还能够利用达32位的位深度来处理文件,取样速度超过192kHz,从而能够以最高品质的声音输出磁带、CD、DVD或DVD音频。AdobeAudition基本功能(1)录音AdobeAudition能够实现高精度声音的录制,可以导入视频文件到AbobeAudition,实现对视频的同步配音。(2)混音通过混音功能可以将多个音轨声音混合在一起,输出综合的声音效果。(3)声音编辑例如声音的淡入淡出,声音移动和剪辑,音调调整,播放速度调整等。AdobeAudition基本功能(4)效果处理软件本身自带了效果器,如压缩器、限制器、噪声门、参量均衡器、合唱效果器、延迟效果器、回升效果器等。(5)降噪降噪功能可以实现在不影响音质的情况下,最大程度地减少噪声。(6)声音压缩可以将音频文件压缩为容量较小的MP3、MP3Pro等文件格式,同时最大程度地保持声音的音质。(7)协同创作能够与多种音乐软件协同运行,一起实现整个音乐创作的过程。AdobeAudition基本应用AdobeAudition2.0音频处理软件具有三种编辑模式界面,分别是多轨编辑模式、单轨编辑模式以及CD模式。多轨编辑模式界面如下:主要包括:菜单栏、工具栏、文件/效果器列表栏、音轨显示区、基本功能区和电平显示区。菜单栏File(文件)Edit(编辑)Clip(剪辑)View(查看)Insert(插入)Effects(效果)Options(选项)Windows(窗口)Help(帮助)文件/效果器列表栏其中文件栏可以对音轨显示区打开的波形文件以列表的方式显示出来,便于对音频文件的管理和操作。通过效果器栏中的效果可以直接对各个音轨进行处理,制作各种音频效果。

音轨显示区通过多个音轨的音频剪辑和处理,实现对整体音乐效果的控制。音轨显示区包含音轨属性面板和音轨波形显示窗两个部分。其中属性面板主要实现对当前音轨的音量调节、相位调节、以及静音、独奏和录音等选项。而波形显示窗则显示当前声音文件所包含的不同音轨的声音波形。

基本功能区控制以及观测音频文件的功能区域,包括走带控制器面板、时间面板、缩放面板、选择/查看面板、工程属性面板。

走带控制器时间面板缩放面板选择/查看面板工程属性面板电平显示区显示音频电平的高低情况,即音频的音量大小。AbobeAudition2.0单轨操作界面

单轨操作界面只有一个音轨,并且没有针对这个音轨的属性面板。在单轨模式下,主要进行的操作内容是针对此音轨波形的效果处理、降噪处理等等。音频素材制作-采集与录制音频采集与录制是音频处理软件的最基本的功能。在进行音频录制前,需要安装关于音频录制或者采集的外围设备,例如麦克风或CD唱机等设备。录音前的声卡设置,在音量控制窗口/选项/属性录音属性设置在面板中调整音量到合适的位置,并在选项菜单中选择“高级选项”命令。以上操作实现了对声卡的设置以及麦克风的设置。在麦克风的高级控制面板中的其它控制栏中,选择麦克风加强。新建音频文件在多轨编辑模式窗口中选择“File”/“newSession”命令,建立新的声音工程,打开NewSession窗口。在窗口中选择合适的采样频率,通常使用44.1kHz的采样频率。导入声音波形选择“file”/“imports”命令可以向当前的声音工程中导入音频文件。导入后,在文件面板中就出现了音频文件的名称。编辑或处理,只要将这个文件从文件面板中直接拖放到音轨中即可。录制声音文件通过使用麦克风进行声音录制之前,首先需要选择将要录制声音的音轨,若选择Track2作为录音音轨。按下Track2属性面板中的录音准备按钮,使之变为红色,进入录音准备状态。然后,选择音频播放控制区的录音按钮开始实际录音。音频编辑常用的音频编辑方法主要是对音频波形进行裁剪、切分、合并、锁定、编组、删除、复制以及对音频进行包络编辑和时间伸缩编辑。通常,音频编辑工作是在单轨编辑模式窗口中进行的,可以在多轨模式中双击某个音轨的音频波形,进入相应音频的单轨编辑界面。裁剪音频对音频波形进行裁剪首先要选择被裁剪的音频段落。在工具栏中按下TimeSelectionTool工具按钮,如图5-20所示,然后在波形显示面板中拖动鼠标,选中需要进行裁剪的音频区域,单击鼠标右键,在快捷菜单中选择“cut”命令。切分音频选择音频切片的区域范围,在所选音频上单击鼠标右键,在快捷菜单中选择“Split”。切分之后,可以通过选择工具栏中的移动工具,实现将音频切片移动到当前音轨的其它位置或者移动到其它的音轨。合并音频波形将单独的音频切片移动到一起,首尾连接。两个音频切片会自动吸附在一起。实现无缝连接。同理,可以实现多个独立音频切片的无缝连接,然后使用Ctrl键将要合并的音频切片全部选中,执行“Clip”/“Merge”/“Rejoinsplit”命令,实现合并音频。锁定音频波形选择需要进行时间锁定的一个或多个音频切片,单击鼠标右键,选择快捷菜单中的LockinTime命令,被锁定的音频切片上会出现一个锁头的图标,音频切片的位置被锁定。编组音频波形编组可以将多个音频切片组合成一个固定的音频切片组,能够实现组内各个音频切片的相互位置固定不变,这样可以对整个切片组进行整体移动。实现方法是选取多个音频切片,单击鼠标右键,在快捷菜单中选择“GroupClips”命令。删除和复制音频波形删除:选中音频波形或者某个音频切片,单击鼠标右键,在快捷菜单中选择“Delete”命令可以实现删除。复制:通过“TimeselectionTool”工具选中需要复制的区域范围,单击鼠标右键,在快捷菜单中选择“Copy”进行复制,然后将位置指针移动到需要粘贴的位置,单击鼠标右键,在快捷菜单中选择“Paste”实现粘贴。包络编辑包络编辑,可以实现特殊的音乐效果,例如淡入淡出。每个音轨的上方都有一条绿色的包络线,用鼠标单击包络线,会出现一个白色的控制块,可以向下拖动控制块,实现对包络线的绘制。时间伸缩编辑选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论