数字媒体技术导论(微课版)课件 第3章 数字音频技术_第1页
数字媒体技术导论(微课版)课件 第3章 数字音频技术_第2页
数字媒体技术导论(微课版)课件 第3章 数字音频技术_第3页
数字媒体技术导论(微课版)课件 第3章 数字音频技术_第4页
数字媒体技术导论(微课版)课件 第3章 数字音频技术_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现代

编著新技术数字第3章数字音频技术数字媒体技术导论3.1数字音频基础知识3.2音频数字化3.3语音合成与识别3.4数字音频编辑软件3.1.1声音的概念与特点声音是由物体振动产生的声波(即声音信号),能通过介质(空气、固体或液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源,声波是声音的载体或传播形式。发声物体在一秒钟之内振动的次数称作声音的频率,用于反映声音信号每秒钟变化的次数,单位是赫兹(Hz);发声物体振动的幅度称作声音的振幅,用于反映声音信号的强弱程度。1.声音的概念3.1.1声音的概念与特点2.声音的基本特征音调即声音的高低,指一些声音比另一些声音高或低的性质,表示人耳对声音调子高低的主观感受。音调与声音的频率有关,频率越高,音调就越高。不同的声源有其特定的音调,如果改变了声源的音调,那么声音会发生质的转变,使人们无法辨别声源本来的面目。音调音强音色音强又称音量或响度,即声音的响亮程度,音强与声音的振幅成正比,振幅越大,声音就越响亮。音色是由于声波波形的不同所带来的一种声音的感觉特性。影响音色的因素是复音。复音是指具有不同频率和不同振幅的混合声音,自然声中大部分是复音。在复音中,最低频率是“基音”,它是声音的基调;其他频率的声音称为“泛音”或“谐音”。3.1.1声音的概念与特点3.声音的传播特征人耳先感觉到声源从介质传播过来的振动,再反映到大脑,才能听到声音。从声源直接到达人类听觉器官的声音是“直达声”,直达声的方向容易辨别。但是,在现实生活中,我们周围存在许多障碍物,声音从声源发出后,往往经过多次反射才能被人们听到,这就是“反射声”。当声源停止发声后,还有若干个声波混合持续一段时间(声源停止发声后仍然存在的声延续现象),这就是“混响”。声源、直达声与反射声的示意图声音在不同的介质中传播,其传播速度有所不同(传播速度一般是固体>液体>气体,真空中没有能提供声音传播的介质,因此真空不能传递声音),这也导致了声音在不同介质中传播的距离不同。3.1.1声音的概念与特点4.声音的频率特征频率范围高于20kHz的声音称为超声波,超声波具有很强的方向性,并且可以形成波束,利用这种特性,人们制造了超声波探测仪、超声波焊接设备等。不同的声音有不同的频率范围。人耳只能听到频率在20Hz~20kHz之间的声音,听不到低于20Hz和高于20kHz的声音。人的发声器官可以发出频率范围为80Hz~3400Hz的声音,但人们说话的声音信号频率范围通常为300Hz~3000Hz。010203频率低于20Hz的声音称为次声波,次声波的特点是来源广、传播远、不易衰减,研究自然界中次声波的特性和产生机制,可以预测自然灾害性事件。同时,某些频率的次声波和人体器官的振动频率(0.01-20Hz)相近甚至相同,容易和人体器官产生共振,对人体有很强的伤害性。3.1.2音频的概念与分类音频是指人耳能够听到频率范围在20Hz~20kHz的声音,即人类能够听到的所有声音都称为音频,包括噪音。数字音频是离散的数字信号,这些数字信号可以通过计算机、数字信号处理器和其他数字设备进行存储、处理和传输。数字音频信号可以通过数模转换器(D/A转换器)和数字信号处理技术重构成模拟音频信号,以产生高保真度的音频效果。模拟音频是以连续模拟信号的形式表示音频信号,模拟音频信号是无限连续的波形,它的变化是连续而平滑的。模拟音频信号的频率和振幅可以随着时间的变化而连续地发生变化,以产生音频效果。模拟音频数字音频简单来说,模拟音频和数字音频是两种不同保存音频信号、传输音频信号的方式。3.1.2音频的概念与分类相对于模拟音频,数字音频有诸多优点。数字音频处理的过程中可能会出现量化噪声和失真,但这些问题可以通过合适的数字信号处理技术进行修复。其一,开发具有相当精度、且几乎不受环境变化影响的模拟信号处理硬件,难度大,成本高,而开发数字信号处理硬件更容易、成本更低。其二,涉及加工、修改、传输模拟信号等环节的每个操作步骤都有可能损失一些信号,最终到达输出端的音频质量可能大大降低,而处理数字信号,是运算数字,不受传输距离的限制,可以进行高效处理,且能准确地重构成原始的模拟音频信号,其可靠性有保障。3.2数字音频基础知识3.1音频数字化3.3语音合成与识别3.4数字音频编辑软件3.2.1音频数字化的过程采样采样是将模拟音频信号在时间上进行离散化处理,即每隔相等的一段时间在模拟音频信号波形曲线上采集一个信号样本。采样的时间间隔称为采样周期,采样得到的信号称为离散时间信号。量化对信号进行量化操作即是对采样后的信号,其振幅值的数目加以限定,进行离散化处理,量化后的信号称为离散幅度信号。编码编码一方面是将采样和量化后的数字化音频信号以二进制形式并按照一定的数据格式表示,另一方面是采用一定的算法压缩数字数据以减少信号的存储空间和提高传输效率。0102033.2.2数字音频技术指标1.采样频率采样频率又称采样率、取样频率,它是指将模拟音频转换为数字音频时,每秒钟对音频信号的采样次数,单位是赫兹(Hz)。采样频率越高,则经过离散数字化的声波就越接近原始的音频波形,也就意味着音频的保真度越高,音质也越好,数据量也越大。根据奈奎斯特采样定理(奈奎斯特采样定理由美国物理学家哈利·奈奎斯特于1928年提出,是通讯与信号处理学科中的一个重要基本结论),采样频率不低于声音信号最高频率的两倍,就可将以数字表达的声音还原成原始声音,也叫做无损数字化。由于人耳听觉范围是20Hz~20kHz,根据奈奎斯特采样定理,采样频率大于40kHz的音频格式都可以称之为无损格式。3.2.2数字音频技术指标2.量化位数常用的量化位数有8位、16位和32位,如8位量化位数指用8位二进制数(即1个字节(Byte),1字节(byte)=8位(bit))来存储数据,则可表示28,即256个不同的量化值;16位量化位数则可表示216,即65536个不同的量化值。量化位数的大小决定了音频的动态范围,即最高音频与最低音频之间的差值。量化位数越高,音质越好,数据量也越大。量化位数又称取样大小,它是指每个采样点能够表示的数据范围,即用多少位(bit,音译比特)二进制数来存储采样获得的数据。3.2.2数字音频技术指标3.声道数由于音频的采集和播放是可以叠加的,因此,可以同时从多个音频源采集声音,并分别输出到不同的扬声器中,故声道数一般表示声音录制时的音源数量或播放时的扬声器数量。声道数是数字音频技术发展的重要标志,从单声道(只有一个音频)到双声道(又称立体声,有两个音频)再到多声道,声音的质量越来越好,但同时也增加了对存储空间和传输媒体设备的要求。3.2.3数字音频的数据量数字音频的数据量计算公式数字音频的数据量=采样频率×(量化位数/8)×声道数×声音持续时间数字音频的数据量,是指在磁盘上存储未经压缩数字音频信号所需的字节数,即存储该数字音频文件所需的容量,采样频率和量化位数是影响数据量的两个关键因素。数字音频的比特率的计算公式由此也可得:数据量=(比特率/8)×声音持续时间采样频率×量化位数×声道数3.2.4数字音频的文件格式1.无压缩音频WAV是Windows操作系统的标准无压缩音频文件格式,是最常见的声音文件格式之一,文件扩展名为.wav,几乎所有的音频处理软件都支持这种文件格式。AIFF是苹果公司开发的一种音频文件格式,是苹果公司开发的MacOS操作系统的标准无压缩音频文件格式,文件扩展名为.aif或.aiff,大部分的音频处理软件都支持这种文件格式。无压缩音频就是不经过压缩的音频,其优点是易于生成与编辑(采样量化后的信号直接转换成二进制数据进行存储),但缺点是在保证音质的前提下,文件占用的存储空间较大。WAVAIFF3.2.4数字音频的文件格式2.有损压缩音频有损压缩是指压缩中删除部分音频信号(即损坏性的压缩),从而降低音频文件所需存储空间,方便存储和传输,但音质次于无压缩的音频文件。OGG晚于MP3、AAC格式出现,是一种免费的开源音频格式,文件扩展名为.ogg。相较于MP3只支持双声道,OGG的出众之处是支持多声道,同时,在文件体积较小的情况下可以实现更好的音质。MP3是市面上较为常见的音频文件格式,文件扩展名为.mp3,它是利用人耳对高频声音信号不敏感的特性,对不同的频段使用不同的压缩率,对高频加大压缩比(甚至忽略信号),对低频信号使用小压缩比,保证低音频部分不失真。010304WMA是微软公司开发的一种音频文件格式,文件扩展名为.wma,它以减少音频比特率但保持音质的方法来提高音频数据压缩比,其数据压缩比可达1∶18,生成的文件所需存储空间比MP3格式文件小很多。AAC是在MP3格式基础上开发出来的,文件扩展名为.m4a。相较于MP3,AAC使用的压缩算法技术性更高,相同比特率时,AAC的音质更佳,文件更小,其数据压缩比通常为18∶1。023.2.4数字音频的文件格式3.无损压缩音频无损压缩音频格式可以在完全保存源文件数据的基础上,将音频文件的体积压缩得更小,同时能够无损还原压缩的音频文件,既能保证音频质量又降低了文件的存储量。APEFLACAPE由Monkey'sAudio软件压缩WAV音频文件得到,文件扩展名为.ape。通过Monkey'sAudio解压缩还原后得到的文件与压缩前的源文件完全一致。FLAC是国际通用的无损压缩音频格式,支持大多数的操作系统,其文件扩展名为.flac。FLAC文件的数据压缩比略低于APE文件,但FLAC文件的压缩和解压速度优于APE文件。3.3数字音频基础知识3.1音频数字化3.2语音合成与识别3.4数字音频编辑软件3.3.1数字图像与计算机视觉技术语音合成又称文语转换,它是将计算机自己产生的或外部输入的文字信息转变为拟人化的、高自然度的语音输出技术。基于计算机的语音合成系统起源实用的英语语音合成系统首先被开发出来以隐马尔可夫模型(HiddenMarkovModel,HMM)为代表的、基于统计参数的语音合成方法成为语音合成技术的主流。20世纪50年代20世纪60年代至20世纪70年代后期20世纪末3.3.1数字图像与计算机视觉技术2010年左右,随着深度学习的发展应用,基于深度学习的语音合成方法被提出,因其改善了合成语音的质量包括语音的清晰度和自然度,逐渐成为语音合成领域新的主流方法。谷歌2017年推出的Tacotron是首个真正意义上的端到端语音合成系统,它先将文本转换为频谱(Spectrogram),然后通过波形生成模型WaveNet或者Griffin-Lim算法,将频谱转换成原始波形输出,与传统的语音合成相比简化了很多流程。类似的端到端模型还有DeepVoice3、FastSpeech1、FastSpeech2、百度开发的ClariNet,以及其他的FastSpeech2s、Eats等。3.3.2语音识别语音合成又称文语转换,它是将计算机自己产生的或外部输入的文字信息转变为拟人化的、高自然度的语音输出技术。贝尔研究所研发了语音识别实验系统Audrey,这台机器能够识别10个英文数字发音。英国人彼得·迪恩斯(PeterDenes)等研制出了基于计算机的语音识别系统。之后,计算机技术的发展和应用推动着语音识别技术的发展。处于主流地位的是基于混合高斯-隐马尔科夫模型(GMMHMM)的语音识别技术,该模型至今仍对语音和语言处理有着深远影响。1952年1960年2010年之前3.3.2语音识别2010年左右,基于深度学习的语音识别技术逐步得到应用。基于深度学习的语音识别技术的发展经历了3个阶段。第一阶段,仍然遵循基于GMM-HMM的系统结构,只是使用相应的基于深度学习的模型改进声学模型。第一阶段第二阶段第三阶段第二阶段,脱离GMM-HMM的系统结构,引入“LSTM+CTC”(长短期记忆人工神经网络+连接时序分类器)训练模型,实现了“端到端”的框架,但实际使用中仍然会加上语言模型,以提升识别效果。第三阶段,实现完全的“端到端”,去除中间步骤和独立子任务,充分利用深层神经网络和并行计算的优势,取得最优结果,即由语音输入直接转换为文本输出,代表模型为Transformer。我国的语音识别技术取得长足发展始于20世纪80年代,发展至今已处于世界先进行列,有着科大讯飞、出门问问、思必驰、云知声等一批具有较强研发能力和较高知名度的智能语音服务的互联网科技公司。3.4数字音频基础知识3.1音频数字化3.2语音合成与识别3.3数字音频编辑软件3.4.1认识Audition3.4.1认识Audition1.波形编辑器启动Audition,创建文件或打开一个音频文件,默认情况下,“编辑器”面板处于波形编辑器的状态,此时工具栏左侧的按钮呈蓝色状态。在波形编辑器中可以创建并编辑单个音频文件。3.4.1认识Audition2.多轨编辑器在工具栏左侧单击“多轨”按钮,打开“新建多轨会话”对话框,设置会话名称、文件夹位置、采样率等参数,单击“确定”按钮,可进入创建的多轨编辑器中。多轨编辑器中包含多个音频轨道,每个轨道都可插入音频文件。3.4.2Audition的基本操作1.新建、打开、保存、关闭音频文件启动Audition后,选择【文件】/【新建】命令、【文件】/【打开】命令、【文件】/【保存】命令、【文件】/【关闭】命令,可执行新建、打开、保存、关闭音频文件操作。3.4.2Audition的基本操作2.录制音频与降噪在计算机上连接麦克风等音频输入设备,启动Audition,单击“编辑器”面板下方的“录制”按钮,打开“新建音频文件”对话框,设置文件名、采样率、位深度(即量化位数)和声道参数,单击“确定”按钮,将进入录音状态,麦克风接收到的各种声音可转换为波形显示在“编辑器”面板中,录制完成后再次单击“录制”按钮。录制后的声音,可保存为不同格式的音频文件。降噪处理的过程3.4.2Audition的基本操作3.选择音频使用Audition处理音频文件时,往往需要先选择目标音频区域。单击工具栏中的时间选择工具,按住鼠标左键,在波形显示区中拖曳鼠标指针,便可选择需要的音频区域。3.4.2Audition的基本操作4.剪切、复制、裁剪、删除音频删除音频选择音频区域后,选择【编辑】/【裁剪】命令,或按【Ctrl+T】组合键,将保留选择的音频区域,删除未选择的其他区域。剪切音频选择音频区域后,选择【编辑】/【剪切】命令,或按【Ctrl+X】组合键剪切音频,在波形

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论