数字音频处理技术

上传人：春*** IP属地：广东上传时间：2023-02-25 格式：PPT 页数：22 大小：1.09MB 积分：15 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数字音频处理技术第一页，共二十二页，2022年，8月28日3.1.1声音概念3.1基本概念●声音定义声音是振动的波,是随时间变化的物理量，它有三个指标:(1)振幅---波的高低幅度。体现了声音的强弱(2)周期---两个相邻波波峰到波峰或波谷到波谷之间的时间长度。(3)频率---每秒钟振动的次数。以HZ为单位.体现了音调的高低。教学进程振幅周期基线第二页，共二十二页，2022年，8月28日●(1)音调—(高低)，声音的振动频率高，音调就高，反之亦然，但它们之间并非线性关系。(2)音色—(特质)，指具有特色的声音，可分为纯音和混和音。振幅和频率不变的声音信号，称为单音。单音一般只能由专用电子设备产生。在日常生活中，我们听到的自然界的声音一般都属于复音，其声音信号由不同的振幅与频率合成而得到。(3)音强—(强弱)，声音的强度，与声音幅度有关，振幅越大，则响度越大，反之亦然，但它们也不是线性关系3.1.2声音三要素第三页，共二十二页，2022年，8月28日●简称音质。音质与频率范围有关，频率范围越宽音质越好声音的质量影响音质的因素，常见的有：1）对于数字音频，音质的好坏与数据采样频率和量化位数有关。2）与还原设备有关3）与信噪比有关。第四页，共二十二页，2022年，8月28日电话语音200Hz～3,400Hz调幅广播(AM)50Hz～7,000Hz调频广播(FM)20Hz～15,000Hz超高保真10Hz～44,000Hz频带宽度●声音质量分级与带宽第五页，共二十二页，2022年，8月28日例：1、电话采用的是PCM（脉冲编码调制）方法，可进行8000次/秒的采样。

2、CD唱片：要获得CD音质的效果，则要保证采样频率是44.1KHZ3.2声音的数字化(a)模拟音频信号(b)音频信号的采样数字化音频的过程如下：采样的过程：每隔一个时间间隔，在模拟声音的波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号。3.2.1声音的采样●第六页，共二十二页，2022年，8月28日(c)采样信号的量化分割采样信号幅度的方法：采取二进制的方式，以8bit或16bit的方式来划分纵轴量化：通常把声波波形的幅度的数字化表示称之为量化。量化的过程：先将采样后的信号按声波的幅度划分为有限个区段的集合，把落入到某个区段的样值归为一类，并赋予相同的量化值。3.2.2声音的量化●第七页，共二十二页，2022年，8月28日●

声音的编码声音数字化1101110011001101模拟信号经过采样个量化后，形成脉冲数字信号，再以一定的方式进行编码，形成计算机内部运行的数据。编码：按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有效的数据中加入一些用于同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如一定范围内有错，可以加以纠正。常见的编码方式是脉冲编码调制（PulseCodeModulation，PCM）第八页，共二十二页，2022年，8月28日数字音频信号的特点

在多媒体系统中，音频信号可分为语音信号和非语音信号，非语音信号又可分为乐音和杂音，总结起来有以下几个特点：

1.音频信号是依赖时间的连续媒体，因此如果在时间上有25ms的间隙或延迟，人就会有感觉，因此处理时时序性要求很严格。

2.由于人的听觉系统是双声道的，因此计算机产生的模拟声音也应该是双声道的。

3.特别是语言信号，除了声音以外，还带有感情色彩的语意的表达，因此处理时除声音信号外，还有其他信号，如语意、声调等需要涉及，因此比较复杂。第九页，共二十二页，2022年，8月28日3.3.wav●

WAV(WaveformAudio)波形音频文件

多媒体系统、音乐光盘制作，记录物理波形，数据量大.voc●

VOC是Creative公司的波形音频文件格式同WAV格式类似.mid●MIDI(MusicalInstrumentDigitalInterface)乐器接口文件

用于合成、游戏，记录音符时值、频率、音色特征，数据量小.mp3●mp3(MPEG音频压缩标准)压缩音频文件

必须经过解压缩，数据量小●文件种类及特点数字音频文件的种类教学进程第十页，共二十二页，2022年，8月28日WAV文件●WAV文件来源于对于声音的模拟波形的采样，它使用的是资源交换文件（ResourseInterchangeFileFormat，RIFF)的格式描述的。RIFF格式文件是一种带有标记的文件结构。RIFF文件格式文件头：包含一个标志符、语音特征值、声道特征值以及

PCM格式类型标志等数据块：数据子块标记、数据块长度、波形音频数据3个数据子块组成、第十一页，共二十二页，2022年，8月28日例如1.采样频率22.05kHz，量化位数是8位，单声道，录制时间长度是10秒：2.用44.1KHz的采样频率进行采样，量化位数选用16位，则录制10秒的立体声节目，其波形文件所需的存储量为：

WAV文件的容量的计算：对于PCM采样得到的波形文件，其声音文件的大小与采样频率、量化位数和声道数有关，其计算公式为：

S=R×D×(r／8)×NS

文件的大小，以B为单位R

采样频率，以Hz为单位D

录音时间，以s为单位r

量化位数，以二进制计，如8位，16位。r/8是把二进制用B表示（1B＝8bit）N

声道数，对于单声道为1，双声道为2 ，依此类推。S＝22050×10×（8／8）×1＝220.5KB

S＝44100×10×（16／8）×2=1764KB第十二页，共二十二页，2022年，8月28日VOC文件●是声霸卡使用的音频文件格式。VOC文件格式文件头：包含一个标识、版本号个一个指向数据块起始地址的指针数据块：分为各种类型的子块。如声音数据、静音、标记、

ASCII码文件、重复、重复的结束及中止标记等。第十三页，共二十二页，2022年，8月28日●指MPEG标准中的音频部分，即MPEG音频层（MPEGAudioLayer）。根据压缩质量和编码复杂程度的不同可分为3层（MPEGAudioLayer1/2/3分别对应MP1,MP2,MP3这三种声音文件。MPEG音频编码具有很高的压缩率：MP1-------4:1MP2-------6:1~8:1MP3-------10:1~12:1MP3文件第十四页，共二十二页，2022年，8月28日

一般情况下，声音的制作是使用麦克风或录音机来产生，再由声卡上的WAVE合成器的(模/数转换器)对模拟音频采样后，量化编码为一定字长的二进制序列，并在计算机内传输和存储。在数字音频回放时，再由数字到模拟的转化器(数/模转换器)解码可将二进制编码恢复成原始的声音信号，通过音响设备输出。如下图所示。模拟音频信号输入采样/量化编码传输/存储解码播放3.4数字音频信号的编码●第十五页，共二十二页，2022年，8月28日

由前面的学习我们知道数字波形文件数据量大，数字音频的编码必须采用高效的数据压缩编码技术。音频信号能够被压缩编码的依据有两个：一是声音信号存在着数据冗余；二是利用人的听觉特性来降低编码率，人的听觉具有一个强音能抑制一个同时存在的弱音现象，这样就可以抑制与信号同时存在的量化噪声；另外人耳对低频端比较敏感，而对高频端不太敏感，由此引出了“子带编码技术”。

音频信号的压缩编码方式可分为波形编码、参数编码和混合编码三种。第十六页，共二十二页，2022年，8月28日1）.波形编码波形编码是基于音频数据的统计特性进行编码，典型技术是波形编码，其目标是使重现的语音波形保持原有的形状，其特点是算法简单，易于实现，可获得高质量的语音。

常用的四种波形编码方法为：

脉冲编码(PCM)

差分（差值）脉冲编码(DPCM)

自适应量化编码(APCM)

自适应差分编码(ADPCM)第十七页，共二十二页，2022年，8月28日常用的四种波形编码方法为：脉冲编码(PCM)，实际为直接对声音信号作A／D转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。差分（差值）脉冲编码(DPCM)，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应量化编码(APCM)

，对于不同频段设置不同的量化字长，使数据得到进一步的压缩。自适应差分编码(ADPCM)，是DPCM方法和APCM方法的有机合并的进一步改进，使数据得到进一步的压缩。第十八页，共二十二页，2022年，8月28日2).参数编码

参数编码是基于音频的声学参数进行的编码，可进一步降低数据率。其目标是使重建音频保持原来的音频特性。将声音信号用模型参数来表示，再对参数进行编码，在声音播放时根据参数重建声音信号。常用的音频参数有共鸣峰、线形预测系数、滤波器组等。它通过建立起声音信号的产生模型，其特点是算法复杂，计算量大，压缩率高，但还原声音的质量不高。第十九页，共二十二页，2022年，8月28日*混合编码

混合编码是把波形编码的高质量和参数编码的低数据率结合在一起，可取得更好的效果。常用的编码有：码本激励线性预测编码CELP、多脉冲激励线性预测编码MCELPC。3).人体工程学编码

这是一种基于人的听觉特性的编码，从人的听觉系统出发，利用听觉掩蔽效应，设计心理声学模型，从而实现更高效率的数字音频的压缩，其中以MPEG标准中的高频编码和DolbyAC-3最有影响。第二十页，共二十二页，2022年，8月28日AC-3的技术特点

AC-3技术是DOLBY实验室于1992年提出的，它可以提供5个声道，每个都是从20Hz到20KHz的全通带频，从而实现前左、前中、前右和后左、后右五个声道。另外还特别提供了一个100Hz一下的超低音频声道，可由用户自己选择，用以弥补低音的不足，这就是我们常说的5.1系统。

AC-3系统将这6个声道进行数字编码，并压缩成

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数字音频处理技术

文档简介

温馨提示

最新文档

评论

数字音频处理技术

文档简介

温馨提示

最新文档

评论

相关文档