DAY5.1心理声学模型及音频压缩课件_第1页
DAY5.1心理声学模型及音频压缩课件_第2页
DAY5.1心理声学模型及音频压缩课件_第3页
DAY5.1心理声学模型及音频压缩课件_第4页
DAY5.1心理声学模型及音频压缩课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Part I-音频掩蔽,音频掩蔽,2012/9/21,2,音频信号种类 亚音信号,次音信号(subsonic) 频率小于20Hz的信号 音频(Audio)信号 频率范围为20Hz20kHz的信号 音乐、话音、风声、雨声、鸟叫声、机器声 话音(speech)信号 频率范围为3003000Hz的信号,音频掩蔽,2012/9/21,3,超音频信号,超声波(ultrasonic)信号 频率高于20kHz的信号 具有很强的方向性,形成波束 在工业上得到广泛的应用,如超声波探测仪,超声波焊接设备等,音频掩蔽,2012/9/21,4,听觉系统的感知特性 响度、音高和掩蔽效应 对响度的感知 声音的响度 声音的

2、强弱 物理测量单位,dyn/cm2(达因/平方厘米)(声压)或w/cm2(瓦特/平方厘米)(声强) 心理主观感觉,响度级,方(phon)/宋(sone) 完全不同的两种概念,又有一定的联系,音频掩蔽,2012/9/21,5,听阈 声音弱到人耳刚刚可以听见时的声音强度 1kHz纯音的声强达到10-16w/cm2(0 dB声强级)时,人耳刚刚能听到,主观响度定为零方 听阈随频率变化,音频掩蔽,2012/9/21,6,绝对听阈曲线,音频掩蔽,2012/9/21,7,听觉范围 听阈频率曲线和痛阈频率曲线之间的区域 人耳对频率的敏感程度 对2kHz5kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到

3、 低频区和高频区,幅度要高得多才能听到 等响度级曲线 1kHz的10dB的声音和200Hz的30dB的声音,在人耳听起来具有相同的响度,音频掩蔽,2012/9/21,8,对音高的感知 客观测量 用频率(Hz)来表示声音的音高 人耳的频率感觉范围 约20Hz18000Hz 主客观音高的关系 Mel=1000log2(1+f) 主观感觉的音高单位-美(Mel),音频掩蔽,2012/9/21,9,主观音高的测量 以40dB声强为基准 让实验者听两个声强级为40dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍,音频掩蔽,2012

4、/9/21,10,实验表明,音高与频率之间不是线性关系 测出的音高频率曲线如图所示,音频掩蔽,2012/9/21,11,掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone) 分成频域掩蔽和时域掩蔽。心理声学的基础 【例】 安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了,音频掩蔽,2012/9/21,12,频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,也称同时掩蔽(simultaneous masking),音频掩蔽,2012/9/21,13,【例】

5、一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,只能听到1000Hz的强音 一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音,同时听到这两个声音 要想让2000Hz的纯音也听不到,则需要把它降到比1000Hz的纯音低45dB 一般弱纯音离强纯音越近就越容易被掩蔽,音频掩蔽,2012/9/21,14,一组曲线分别表示频率为250Hz、1kHz、4kHz和8kHz纯音的掩蔽效应,声强均为60dB 在纯音附近,对其他纯音的掩蔽效果最明显 低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显,不同纯音的掩蔽效应曲线

6、,音频掩蔽,2012/9/21,15,临界频带(critical band)-I 声音频率与掩蔽曲线不是线性关系 从感知上来统一度量声音频率 人类听觉系统HAS在20Hz到16kHz范围内有24个临界频带,单位叫Bark(巴克) 1Bark = 一个临界频带的宽度 f(频率) 500 Hz, 1Bark9+4log(f/1000) 在中心频率为500Hz以下的临界频带中,带宽恒定为100Hz,随着中心频率的增加,临界带宽进一步增加,音频掩蔽,2012/9/21,16,临界频带表,音频掩蔽,2012/9/21,17,临界频带(critical band)-II 主观反映突然发生变化的带宽 人耳以

7、临界频带为单位对声音进行处理 在一个临界频带内 耳朵的听觉感知特性很类似 很多心理声学特性都相同 即使加入噪声,人耳也不能察觉出与原信号间的差别 各种声音相互作用,合成声音的响度由这些频率共同决定。如果超出临界区,声音的响度不再相互作用,音频掩蔽,2012/9/21,18,时域掩蔽 时间上相邻声音之间的掩蔽 预先掩蔽(pre-masking) 在强信号打开前5到20ms时产生,由于掩蔽信号与被掩蔽信号之间的听觉处理相互干涉引起的 后掩蔽(post-masking) 在强信号关闭后50到200ms时产生,由于神经行为具有一定的持久性,Part II-音频压缩,音频压缩,2012/9/21,20,

8、为什么压缩? 数字信号存储容量大,传输信道容量要求高 CD 采样率44.1kHz,量化精度16比特,1分钟的立体声音频信号需占约10M字节的存储容量 所有比特都是必需的? PCM码流进行存储和传输存在非常大的冗余度 无损的条件下对声音至少可进行4:1压缩,即只用25%的数字量保留所有的信息,视频领域压缩比甚至可以达到几百倍,音频压缩,2012/9/21,21,音频压缩(压缩编码) 原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率 必须具有相应的逆变换(解压缩或解码) 可能引入大量的噪声和一定的失真,音频压缩,2012

9、/9/21,22,音频压缩的声学原理 原始信号本身存在着冗余度 客观冗余 可以计算,用来确定音频信号的某些数字上可预测特性的数量,如周期波形 人类的听觉感知系统对某些失真不敏感 主观冗余 音频信号中包含被人耳忽略的分量,音频压缩,2012/9/21,23,音频压缩技术分类 按照信息损失 无损(lossless)压缩及有损(lossy)压缩 按照压缩方案 时域压缩、变换压缩、子带压缩、混合压缩 算法的时间、空间复杂程度、音频质量、算法效率(即压缩比例)、编解码延时等都有很大的不同,音频压缩,2012/9/21,24,时域压缩(波形编码) 直接对音频PCM码流的样值进行处理,通过静音检测、非线性量

10、化、差分等手段进行压缩 算法复杂度低、声音质量一般、压缩比小(CD音质400kbps)、编解码延时最短 多用于语音压缩等低码率应用场合 G.711、ADPCM、 LPC、CELP,音频压缩,2012/9/21,25,ADPCM 自适应地改变量化阶的大小 使用小的量化阶去编码小的差值 使用大的量化阶去编码大的差值 LPC 通过分析话音波形来产生声道激励和转移函数的参数并对其编码 在接收端通过话音合成器(代表人的话音生成系统模型)重构话音,音频压缩,2012/9/21,26,子带压缩 以子带编码理论为基础的一种编码方法 最早是由Crochiere等于1976年提出的 基本思想 对各子带分量根据其不

11、同的分布特性采取不同的压缩策略以降低码率 感知(Perceptual)压缩 音源性质没有假设,去除人耳不可感知的部分 根据心理感知模型,决定子带样值或频域样值的量化阶数和其它参数,音频压缩,2012/9/21,27,子带压缩与感知压缩的特点 相对时域压缩技术复杂得多,编码效率、声音质量大幅提高,编码延时相应增加 子带编码的复杂度要略低于感知编码,编码延时也相对较短 各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响 在编码时各子带的量化阶数不同,采用了动态比特分配技术,压缩效率高的主要原因,音频压缩,2012/9/21,28,MP3音频 MPEG-运动图像专家组,IS0/IEC的一个

12、工作组 MPEG-I 1ayer 3,注意不是MPEG-3! 因特网上事实的音频标准 压缩比高,音质较好,制作简单,交流方便 支持采样率为32,44.1, 48kHz的单声道(Mono)及双声道(stereo)等编码模式,音频压缩,2012/9/21,29,MPEG-1 Layerl(MP1) 复杂度最低,每声道位数据率为192Kb/s MPEG-1 Layer2(MP2) 编码较为复杂,128kbit/s比特率接近CD音质 MPEG-1 Layer3(MP3) 算法最复杂,压缩性能最好。不定长编码、霍夫曼编码,比特率64kbit/s,压缩比1:101:12时,接近CD音质,音频压缩,2012/9/21,30,MP4 一种商品 GMO公司, AT&T授权MPEG-2AAC压缩+知识产权保护,全新的数字音乐A2B MPEG-1 Layer4(X!),MPEG-4(XX!) A2B数字音乐 AAC音频压缩,知觉编码,最高20:1不损失音质 安全数据库,A2B音乐文件含有特定密钥 协议认证 复制许可、允许复制副本数量、歌曲总时间、歌曲可以播放时间,经营销售许可等,音频压缩,2012/9/21,31,MP4特点-I exe文件,内嵌播放器,双击运行 与MP3相比 大小仅为MP3的四分之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论