第3章音频信息处理技术_第1页
第3章音频信息处理技术_第2页
第3章音频信息处理技术_第3页
第3章音频信息处理技术_第4页
第3章音频信息处理技术_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 3章 音频信息处理技术3.1 声学基础知识 3.2 音频信号数字化 3.3 音频信号压缩编码 3.4 语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择3.6 IP电话技术 3.1 声学基础知识人类从外界获得的信息大约有 16%是从耳朵得到的。在多媒体技术中,音频信息占有很重要的地位,比如视频会议系统,音频信息的优先级最高。了解音频信息的相关知识对更进一步掌握多媒体技术是很重要的。3.1.1 声音概念1. 声音定义声音是振动波,具有振幅、周期和频率。2. 声音三要素(1) 音调 ( 高低 )(2) 音强 ( 强弱 )(3) 音色 ( 特质 )3. 声音的质量简称音质。音质与频率范围成正比,频率范围越宽音质越好。4. 声音的连续时基性声音具有连续性和过程性,数据前后相关,数据量大,具有实时性。3.1.2 声音频率分布次声波次声波 人耳可听域人耳可听域 超声波20,000Hz模拟波信号有三个要素:基线、周期和振幅。振幅即波形的最高点(或最低点)与基线间的距离,它表示了声音音量的大小。周期是波形中两个相邻波峰之间的距离,它表示完成一次振动过程所需的时间,其大小体现了振动的速度。频率是周期的倒数,周期越短,频率越高。人的耳朵只能感觉到振动频率在 20Hz到 20000Hz之间的声波,超出此范围的振动波不能引起听觉器官的感觉。其中,人耳对 400-4000Hz的声波最敏感。 女性语音 150Hz 10,000Hz调幅广播 (AM) 50Hz 7,000Hz调频广播 (FM) 20Hz 15,000Hz高级音响 10Hz 40,000Hz男性语音 100Hz 9,000Hz声声源源种种类类频频带带宽宽度度电话语音 200Hz 3,400Hz3.1.3 声音信号特性分析1. 时域起始 稳定 结束2. 频域声音信号由正弦分量组成 周期、非周期频谱分析 线状谱、连续谱声音信号的描述 声波频率、声压、声强人耳对声音的感觉通过声压或声压级描述 非线性听域( 1kHz): 210-5Pa 0dB痛域: 20 Pa 120dB 3.1.4 人耳听觉特性1. 人耳对声音强弱的感觉特性人耳对声音强弱的感觉与声压级成正比。2. 响度和响度级响度是听觉判断声音强弱的属性 主观,与声压级有一定关系:声压级每增加 10dB,响度增加 1倍。3. 人耳听觉的掩蔽效应安静的环境和嘈杂的环境中人耳可以分辨的声音不同。掩蔽:一个频率声音的听域由于另一个声音的存在而上升的现象。掩蔽效应:复合声音信号中,响度较低的声音频率分量被高者淹没。(1) 听觉掩蔽 在人类听觉系统中,一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的 “掩蔽效应 ”。(2) 频谱掩蔽 频谱掩蔽发生在高电平音调使附近频率的低电平声音不能被人耳听到的情况下。(3) 瞬态掩蔽 在冲击前和衰退后,声音都有掩蔽效应。4. 声道 声音的三个属性分别是: (1) 幅值 (Amplitude):如果左耳听到的声音比右耳的大, 那么我们就认为声音在左边。 (2) 相位 (Phase):如果人的两耳听到的信号具有相同的相位,那么大脑就认为声音在中部;如果两耳听到信号有 180的相位差,那么声音就不包含方向信息了。(3) 时序 (Timing):声音的传播速度为 1英尺每毫秒;如果声音到达右耳的时间比到达左耳的早,我们就认为声源就在右边。 5. 声音质量评价(1) 声音客观质量的度量方法声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。许多计算和测量工作都使用了计算机或程序实现。 (a) 评价值的测量 响度和响度级,噪音级,清晰度指数,噪音评价数。(b) 声源的测量 频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。 (c) 音质的测量 混响时间,隔音量,吸音量。 度量声音客观质量的一个主要指标是信噪比 SNR( Signal to Noise Ration),信噪比是有用信号与噪声之比的简称。(2) 声音主观质量的度量MOS 质量级别 失真级别5 优 (Excellent) 觉察不到4 良 (Good) 觉察得到,但不难听3 中 (Fair) 有点难听2 差 (Poor) 难听,但不反感1 劣 (Unacceptable) 难以忍受表 3.1-1 5分制平均观点分举例 3.2 音频信号数字化 采样 量化 编码模拟音频信号 按不同应用目标 进行数字压缩音频信号数字化图 3.2-1 音频信息处理框图 (1) 采样过程10 20 50 200 3400 7k 15k 20k 频率 /Hz电话AM无线电广播FM无线电广播数字激光唱盘 CD图 3.2-2 常见音频应用带宽示意图(2) 量化过程(3) 编码过程3.3 音频信号压缩编码声音文件所需的存储空间可用下式来计算 以 16位、 22.05 kHz的频率录制 1分钟的立体声,所需存储空间为 5.292 MB。如果录制 1小时的立体声。其所要求的存储空间为605.292=317.52 MB。音频信息编码技术可分为三类:(1) 波形编码基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。优点:实现简单、语音质量好、适应性强,有成熟的技术实现方法。缺点:压缩程度不高、实现的码速率较高,码率低于 32kbit/s时音质降低明显, 16kbit/s时音质就非常差了。常用的波形法编码技术有增量调制 (DM)、自适应差分脉冲编码调制 (ADPCM)、子带编码 (SBC)和矢量量化编码 (VQ)等等。(2) 参数编码通过构造发声模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并进行量化编码,以实现语音信息的数字化。优点:语音编码速率较低( 2 9.6kbit/s),压缩比特率低。缺点:合成语音质量较差,实现的复杂度高。典型代表:线性预测编码器( LPC)(3) 混合编码混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。波形编码:保真度好,计算量小,但编码后速率高;参数编码:码速率较低,但保真度欠佳,计算复杂。波形编码与参数编码结合 混和编码:克服弱点,结合优点压缩比特率: 4 16kbit/s编码器:多脉冲激励线性预测编码器( MPE-LPC)、规则脉冲激励线性预测编码器( RPE-LPC)、码激励线性预测编码器( CELP)、矢量和激励线性预测编码器(VSELP)和多带激励线性预测编码器。三种压缩编码的性能比较三种压缩编码的性能比较2 4 6 168 32 kbit/s主观音质评价 混和法参量法 波形法3.3.1 增量调制 1. 一般增量调制 比较器 调制器极性判别 信道译码器脉冲发生器输入信号 图 3.3-1 增量调制的系统结构框图 图 3.3-2 增量调制编码过程示意图1 1 1 1 1 11 0 0 0 0 1 100 0 1 0 0 010(模拟输入 )输出码2. 自适应增量调制 (ADM) 在 ADM中,常用的规则有两种: 一种是控制可变因子 M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的 M倍。而 M的值则由输入信号的变化率来决定。其典型的规则为另一类使用较多的自适应增量调制称为连续可变斜率增量 (CVSD)调制。 CVSD的自适应规则为式中, 可在 0 1之间取值。可以看到, 的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。 P和 Q为增量,而且 P要大于等于 Q。3.3.2 自适应差分脉冲编码调制1. 非均匀 PCM( 律压扩方法) 对小信号扩展、大信号压缩的特性可用下式表示: 式中 x为输入电压与 A/D变换器满刻度电压之比,其取值范围为 1 1; sgn(x)为 x的极性; 为压扩参数,其取值范围为 100 500, 越大,压扩越厉害。0 0.5 1.0-0.5-1.0-0.5-1.00.51.0xy图 3.3-3 律压扩特性b7 b6 b5 b4 b3 b2 b1 b0折线编号 数据位符号位图 3.3-4 律压扩数据格式2. 差分脉冲编码调制( DPCM) 预测值可以由过去的采样值进行预测, 其计算公式如下所示: 式中, 为预测系数。当前值与预测值的差为图 3.3-5 差分脉冲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论