语音教学第4章-数字音频

上传人：9*** IP属地：湖北上传时间：2023-02-06 格式：PPT 页数：70 大小：18.63MB 积分：30 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第四章数字音频

（二）2023/2/6故事

讲个故事。至于故事与各位的关联，那就请诸位见仁见智吧。2023/2/6故事---草坪上的路

有一位建筑设计师在设计一幢很大的办公大楼时，设计的三个出入口都没有标明连通的道路。大楼竣工之后，他要求工人把大楼四周的空地上都种上草，任人去踩。几个月后，草坪上就分明出现了几条道，有粗有细……

于是建筑设计师便要求工人沿着人们踩出的路，铺就了通向大楼的道路，也有粗有细……2023/2/6故事---草坪上的路

建筑设计师的做法可谓独具匠心，他懂得这其中的一个重要道理：那就是顺其自然。假如一开始就设计好了通道，规定了人们行走的路线，或许会给人们带来不便。最终，草地上仍然会被踩出一条条小道。2023/2/6故事---草坪上的路

在开始的时候，你可以没有明确的目标，只要张开你的所有触角，去看，去读，去感受，你会不自觉地爱看一些东西，那是你的兴趣，也是你的知识结构决定的，日子久了，也会出现几条路，这些路也都可以通向你要追求的目标。学会倾听心音，让心来告诉你如何走，就不会被别人的价值观、流行的热点牵着跑。2023/2/6故事---草坪上的路

同学们在选题过程中可能遇到的几种情况：

1、学生所选择的领域是导师所不熟悉的：这种情况居多，因为通常老师有10多个（有的有三四十个）学生，每个人都是一个领域，导师就很难顾过来，更难给出专家级的指点——更多的是给予方法论或同同学们的讨论。2023/2/6故事---草坪上的路2、老师有现成的项目，学生做力所能及的工作：如果您碰巧遇到了这种情况，祝贺您——您很幸运。您避免了选择研究方向的痛苦。但您会遇到新的问题：首先您很难在短期内深入进去，其次老师对项目的认识在短期内也很难传给您，因此也有可能出现不得要领、毕业时感觉学没有学到任何东西的现象。2023/2/6故事---草坪上的路3、学生根据自己的知识结构选择研究方向，并在此基础上发展。学生自由发挥后，往往有出人意外的结果，师生都会因此欣喜。这是一种较好的方式。2023/2/6故事---草坪上的路需要强调的一点，由于我们国家研究生培养体制及导师只身能力的问题，研究生期间一般采用宽松管理，导师除了几个重要的时间点以外，其余时间都需要学生自我管理。所以，学生就需要自强自立……2023/2/6故事---草坪上的路研究生期间我们应该做什么1）建立尽可能合理的知识结构：尽量广地涉猎学科基本知识，尽量深地了解所研究领域的方方面面、过去和现在。2）掌握独立研究的方法和技能：尽量多的培养做事、学习及研究的正确方法，熟练掌握研究过程和步骤。2023/2/6故事---草坪上的路研究生期间我们应该做什么3）学会写论文：写论文不仅是训练表达能力，更是训练思维的逻辑性。论文体例虽是八股，但却是整理思路、与他人沟通的有效结构，不可不尊重。

2023/2/6故事——从窗口望见的别人的生活从窗口望见的别人的生活2023/2/6上节回顾我们都知道，计算机数据的存储是以0、1的形式存取的。语音信号是模拟信号。那么首先将这些电平信号转化成二进制数据保存，这就是数字音频。播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出。相比而言，数字音频具有存储方便、存储成本低廉、存储和传输的过程中失真小、编辑和处理非常方便等特点。2023/2/6模拟音频量化数字音频01100011001···编码采样音频的数字化过程上节回顾（二）2023/2/6采样频率量化位数声道数每秒钟抽取声波幅度样本的次数每个采样点用多少二进制位表示数据范围使用声音通道的个数采样频率越高声音质量越好数据量也越大量化位数越多音质越好数据量也越大立体声比单声道的表现力丰富，但数据量翻倍8kHz22.05kHz44.1kHz8位＝256个值12位＝4096个值16位＝65536个值单声道立体声上节回顾（三）2023/2/6上节回顾（四）数字音频文件的存储量(假定未经压缩)为:存储量=采样频率×量化位数/8×声道数×时间

例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则录制1秒的立体声节目，其波形文件所需的存储量为多少？

44100×16／8×2×1=176400(B)每分钟数据存储量为:176400(B)×60=10.09MB2023/2/6本章内容MIDI基本原理语音编码的基本概念语音编码算法的性能评价指标语音编码的分类数字音频的文件格式作业2023/2/6MIDI基本原理

MIDI是英语MusicInstrumentDigitalInterface的缩写，翻译过来就是“数字化乐器接口”。也就是说它的真正涵义是一个供不同设备进行信号传输的接口的名称。我们如今的MIDI音乐制作全都要靠这个接口，在这个接口之间传送的信息也叫MIDI信息。

2023/2/62023/2/62023/2/6所以,所谓MIDI文件实质上是指计算机中记录的MIDI信息的数据，MIDI文件的扩展名是*.mid。它和另外一种计算机中常用的声音波形文件（*.wav文件）有什么不同呢？表面上，两种文件都可以产生声响效果或音乐，但它们的本质是完全不同的。普通的声音文件（*.wav文件）是计算机直接把声音信号的模拟信号经过取样——量化处理，变成与声音波形对应的数字信号，记录在计算机的储存介质（硬盘或光盘）中。2023/2/6通常，声音文件都比较大，如记录一分钟的声音（立体声、CD音质），大概需要10M的储存空间。一首几分钟的歌曲需要几十兆的硬盘，一张CD光盘只能容纳十来首歌曲。为了减少声音文件储存的空间，近年来在计算机技术上采用了压缩技术，把声音文件经过处理，在不太影响播放质量的前提下，把文件的大小压缩到原来的10—12分之一，这就是近年流行的Mp3文件格式。2023/2/6而MIDI文件则不是直接记录乐器的发音，而是记录了演奏乐器的各种信息或指令，如用哪一种乐器，什么时候按某个键，力度怎么样等等，至于播放时发出的声音，那是通过播放软件或者音源的转换而成的。因此MIDI文件通常比声音文件小得多，一首乐曲，只有十几K或几十K，只有声音文件的千分之一左右，便于储存和携带。2023/2/6

MIDI信号是如何传送的？MIDI信号无论从哪儿传到哪儿都是有时间先后的，就象音乐一样，随时间的推移，音符一一“流”出才能听到完整的曲子，我们称为“MIDI数据流”。每一组MIDI数据都包含自己的时间码，并且所有的时间码都是相对的，只表示谁先走、谁后走，MIDI设备接受、处理时也会绝对遵守“先来后到”的原则。2023/2/6

MIDI设备在接收到MIDI数据时，首先会判断：哪些数据是给“自己”的，然后收下，交给内部其它程序处理；如果不是的，就通过MIDIThru或MIDI输出口送出，交给下一台设备......2023/2/6对音频文件进行编码是为了（）。A、解决字符信息的交互问题B、使声音更动听C、让声音不失真D、解决可靠性问题E、减少存储、处理和传输的成本以上那个是最根本的出发点？2023/2/6?What?Why?How

为什么要进行语音编码？如何进行语音编码？

什么是语音编码？语音编码的基本概念2023/2/6“编码”是将源对象内容按照一定方法转换为一种标准格式内容的技术。

“解码”是和“编码”对应的，它使用和编码相同的方法将编码内容还原为最初的对象内容。

1、什么是“编码”什么是语音编码？（一）2023/2/6

“编码”大体上分两类，字符编码和数据编码。字符编码：解决字符信息的交互问题，如：加密信息——经过加密的内容，不知道编码标准的人很难识别，已经有数千年历史了。如：电报码。信息交换——如邮政编码、身份证编码等。通过计算机处理和传输——如输入编码、多媒体编码等。2、“编码”的分类什么是语音编码？（二）2023/2/6数据编码包括：信源编码信道编码信源编码：是指将信号源中多余的信息除去，形成一个适合用来传输的信号，主要解决有效性问题。信道编码：为了使处理过的信号在传输过程中不出错或少出错，以及即使出了错也能自动检错或尽量纠错而进行的编码，主要解决可靠性问题。什么是语音编码？（三）语音编码属于“信源编码”2023/2/6语音编码是按照某种数学方法，对原始数字音频信号流，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率的一种数字处理技术⑤实体②对象③条件①手段④目标返回什么是语音编码？（四）2023/2/6

语音编码的目的在于压缩数据。在多媒体语音数据的存储和传输中，数据压缩是必须的。

为什么要进行语音编码？（一）2023/2/6

数字音频的优势是显而易见的。而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则传输该立体声节目所需的数据率为多少？

44100×16×2=1411200(bps)1411200(bps)=1411.2kbps为什么要进行语音编码？（二）2023/2/6是不是所有这些比特都是必需的呢？

答案是：否为什么要进行语音编码？（三）2023/2/6

如:播音员的播音语速一般为每分钟180字，由于计算机中用两个字节表示一个汉字，因此，播音员一分钟阅读的汉字共占用360个字节。为了把播音员的声音数字化，需要以高出播音员声音频率一倍的频率进行采样。这就是说，一般播音员的播音频率为3.4KHz，采样频率即为8KHz。为什么要进行语音编码？（四）2023/2/6当采用8bit的采样精度进行采样时，得到的一秒钟数字音频信号的数据量为：8KHz×8bit＝64kb/s

则一分钟的数据量为：64kb/s×60s/min=3840kb/min（480KB）

比较一下，播音员一分钟阅读的汉字共占用360个字节，两者的数据量相差一千余倍，可见数据冗余现象的严重。为什么要进行语音编码？（五）2023/2/6为什么要进行语音编码？（六）静止系数：语音本身就是一种冗余。

空间冗余：幅度的非均匀分布——统计表明，语音中的小幅度样本比大幅度样本出现的概率要高。时间冗余：样本间的关联——从语音波形的分析中可以看出，在相邻样本之间取样数据存在最大的相关性。如果语音信号取样速率提高，样本间相关性更强。

2023/2/6为什么要进行语音编码？（七）人的听觉感知机理

人的听觉具有掩蔽效应人耳对不同频段的声音的敏感程度不同，对低频端的比高频端的更敏感。人耳对语音信号的相位变化不敏感。返回语音编码不仅必要，而且可行。2023/2/6如何进行语音编码？（一）

通过对数字语音趋势的预测和冗余信息处理，进行语音数据的压缩，这样就可以使我们用较少的资源建立更多的信息。I=D－duI—信息量D—数据量du—冗余量，包含在D中信息量与冗余的关系2023/2/6●

找出数据中存在的冗余(重复数据、可忽略数据)■

45.1kHz/Stereo1.3MB■

22.0kHz/Nomo0.3MB■Stop如何进行语音编码？（二）●

找出不敏感因素返回2023/2/6音频编码的主要技术指标（一）

对数字音频信息进行编码的目的是在不影响人们使用的情况下使数字音频信息的数据量最少。通常用如下5个属性来衡量：

—编码速率（比特率）——小；

—语音质量——高；

—计算复杂度——低；

—延迟——少；

—适应能力（坚韧性，Robustness）——强。2023/2/6编码速率语音质量计算复杂度延迟Robustness音频编码的主要技术指标（二）2023/2/6音频编码的分类（一）2023/2/6无损压缩编码

无损压缩编码（Losslesscompressioncoding）：又称可逆编码（ReversibleCoding），是无损压缩形成的编码，具有可恢复性和可逆性，不存在任何误差。典型的无损压缩编码（可逆编码）有：霍夫曼编码、算术编码、行程编码、LZW编码等。返回2023/2/6

有损压缩编码（Losscompressioncoding）：又叫不可逆编码（nonreversiblecoding），是指在压缩过程中有信息的丢失，具有不可恢复性和不可逆性。有损压缩编码种类较多，主要的编码类型有：波形编码、参数编码、混合编码、感知编码。

有损压缩编码返回2023/2/6从语音信号的波形出发，对波形的抽样值、预测值、预测误差进行编码，它以重建语音波形为目的，力图使重建波形接近原信号波形。类型：脉冲编码调制PCM自适应增量调制（ADM）自适应差分编码调制（ADPCM）自适应预测编码APC波形编码返回2023/2/6

提取语音的一些特征信息进行编码，在收端利用这些特征参数合成语音。类型：LPC线性预测编码参数编码返回2023/2/6即在参数编码的基础上引入了波形编码的一些特征。混合编码=波形编码+参数编码类型：码激励线性预测CELPC向量和激励VSELP规则码激励长时预测RPE-LTP混合编码返回2023/2/6

感知编码是利用人的听觉系统的特性,通过分析心理声学原理来达到压缩声音数据、实现音频压缩的目的。类型：MPEG系列DolbyAC-3感知编码返回2023/2/6数字音频的文件格式自从数字音频产生以来，陆陆续续地出现了许多音频格式。这些格式既有流行的也有不那么流行的，有存在长久的也有昙花一现的，正是它们构成了五彩缤纷的数字音频世界，本节一一介绍。2023/2/6目前的主流音频格式不少，不同的格式有自己的用途。主流音频格式Real

Media

MIDI

Windows

Media

WAV

MP3

MP3PRO

Ogg

Vorbis

VQF

2023/2/6WAV——存在便是永恒

WAV是MicrosoftWindows本身提供的音频格式，由于Windows本身的影响力，这个格式已经成为了事实上的通用音频格式。通常我们使用WAV格式都是用来保存一些没有压缩的音频。2023/2/6MP3——老当益壮

由Fraunhofer-IIS研究所开发，第一个实用的有损音频压缩编码。

MP3利用了知觉音频编码技术，也就是利用了人耳的特性，削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。

2023/2/6MP3PRO——老树发新花

由德国Fraunhofer-IIS研究所、瑞典CodingTechnologies公司、法国Thomsonmultimedia公司共同推出。在原来MP3技术的基础上专门针对原来技术中损失了的音频细节进行独立编码处理并捆绑在原来的MP3数据上，在播放的时候通过再合成而达到良好的音质效果。

2023/2/6RealMedia——网络流媒体鼻祖它的文件格式是RA、RMA，由RealNetworks公司发明，特点是可以在非常低的带宽（28.8kbps）下，提供足够好的音质让用户能在线聆听。用途主要是在线聆听，并不适于编辑，所以相应的处理软件并不多。

2023/2/6WindowsMedia——霸气十足由Microsoft公司推出，一种网络流媒体技术，唯一一个能提供全部种类音频压缩技术（无失真、有失真、语音）的解决方案。在64kbps的码率情况下，WMA可以达到接近CD的音质。由于是微软的杰作，具有微软的一切特征。

2023/2/6MIDI–电脑与电子乐器的桥梁是MusicInstrumentDigitalInterface的缩写，意思是：音乐设备的数字化界面(或连接)。

MIDI是数码音乐文件，由曲谱、时序、乐器编号、音高等信息组成，告诉一个MIDI播放器何时用何种音高去演奏何种乐器，附带演奏一些效果比如颤音、混响等。 2023/2/6

VQF–生不逢时

VQF实际指的是日本NipponTelegraphandTelephone（NTT）与YAMAHA公司开发的一种比较先进的音频压缩技术，通常认为96kbpsVQF与128kbpsMP3质量相同。

VQF在YAMAHA公司的大力推动下也曾有相当的市场份额。不过时至今日，VQF已经在逐步淡出舞台。2023/2/6Ogg

Vorbis–开放、免费

Ogg

Vorbis

是一种音频压缩格式，类似于MP3等现有的通过有损压缩算法进行音频压缩的音乐格式。但有一点不同的是，Ogg

Vorbis格式是完全免费、开放源码且没有专利限制的。

Ogg

Vorbis可以在相对较低的数据速率下实现比MP3更好的音质！ 2023/2/6Monkey'saudio

MOD

VOXVOC

aiff

非主流音频格式2023/2/6

MOD–最热门的非主流与MIDI有点相似，Module（简称mod）是数码音乐文件，由一组samples（乐器的声音采样）、曲谱和时序信息组成，告诉一个mod播放器何时以何种音高去演奏在某条音轨的某个样本，附带演奏一些效果等。这使得mod成为一种介乎于象WAV或VOC那样的纯正样本数据文件和象MIDI那样的纯正时序信息文件之间的混合体，成为一种比较灵活的音频格式。2023/2/6

Monkey'saudio–一个也不能少是一种无损压缩技术，也就是说对压缩数据进行还原之后得到的数据与原来的数据是完全相同的。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。

2023/2/6aiff–苹果专用是Apple苹果电脑的标准音频格式，属于QuickTime技术的一部分。

AIFF虽然是一种很优秀的文件格式，但由于它是苹果电脑上的格式，因此在PC平台上并没有得到很大的流行。不过,Microsoft公司的W

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音教学第4章-数字音频

文档简介

温馨提示

最新文档

评论

语音教学第4章-数字音频

文档简介

温馨提示

最新文档

评论

相关文档