(信号与信息处理专业论文)现代音频编码中的立体声相关信息处理技术研究.pdf_第1页
(信号与信息处理专业论文)现代音频编码中的立体声相关信息处理技术研究.pdf_第2页
(信号与信息处理专业论文)现代音频编码中的立体声相关信息处理技术研究.pdf_第3页
(信号与信息处理专业论文)现代音频编码中的立体声相关信息处理技术研究.pdf_第4页
(信号与信息处理专业论文)现代音频编码中的立体声相关信息处理技术研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(信号与信息处理专业论文)现代音频编码中的立体声相关信息处理技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文是围绕联合立体声编码模块研究展开的一个课题。 当我们细耳聆听周围的声音时,不但能感觉出声音的强度、音调和音色,而 且还有一种空间印象感,即立体感。感知音频编码是有损的压缩,目的就是在保 证音质的前提下,将表示音频信号的所需比特数最小化。通过合理使用m s 编 码、i s 编码 强度立体声编码) 和l r 编码( 左右编码) ,就可以避免过高的立体声 编码代价,同时解决噪声声像、控制信号声像的变化以及节省比特率。心理声学 模型分析信号的掩蔽效应,提供信号掩蔽比( s m r ) 和掩蔽阈值( m a s k i n g t h r e s h o l d ) 。根据立体声非掩蔽原理,如左右声道信号相似,则进行m s 编码。 反之则不进行m s 编码。强度立体声编码来源于对立体声双声道的数据进行轴 变换( a x i st r a n s f o r m ) ,它仅对高于6 k h z 左右的频率范围适用。m ,s 编码和强度 立体声编码两种方法的组合提供了很好的处理方法。对四个苛刻测试信号进行了 编码试验,单个声道的编码增益可达1 0 2 0 k b i t s 。在进行主观试听时,低码率时 的音质改善效果很明显。m p e g 2 声音信号再生( r e p r o d u c t i o n ) 技术已发展到5 声 道环绕立体声系统,其码率必须远低于用5 个单声道单独编码时的码率,这就需 要发挥联合立体声编码的潜力。 关键词: 感知音频编码,m s 编码,强度立体声编码,a a c ( 先迸音频编码1 东南大学硕士论文 a b s t r a c t t h i st h e s i si sf o c u s e do nr e s e a r c hi nj o i n ts t e r e oc o d i n gm o d u l e w h e nl i s t e n i n g t os o u n d so v e ra r o u n d ,w ec a nn o to n l yf e e lt h ei n t e n s i t y , t o n ea n dt i m b r e ,b u ta l s o s p a t i a li m p r e s s i o n p e r c e p t u a la u d i oc o d i n g i sal o s s yc o m p r e s s i o n ,w i t ha ni n t e n t i o n t om i n i m i z ei t sb i t r a t ew h i l ep r e s e r v i n gt h ea u d i oq u a l i t y b yu s i n gm s ( m i d s i d e ) c o d i n g ,i s ( i n t e n s i t ys t e r e o ) c o d i n g a n dl r ( l e f tr i g h t ) c o d i n g , h i g h c o d i n g c o s t sc a n b ea v o i d e d ,w h i l ea tt h em e a n t i m es i g n a la n dn o i s ei m a g ec a nb ec o n t r o l l e da n d b i t r a t eb e r e d u c e d p s y c h o a c o u s t i c m o d e l a n a l y z e ss i g n a l s m a s k i n ge f f e c t s , p r o v i d i n gs m r ( s i g n a lm a s k i n gr a t i o ) a n dm a s k i n gt h r e s h o l d a c c o r d i n gt o s t e r e o u n m a s k i n gt h e o r y , n u sc o d i n gs h o u l db eu s e dw h e n t h es i g n a l so fb o t hc h a n n e l sa r e s i m i l a r i n t e n s i t ys t e r e oc o d i n gc o m e sf r o ma x i st r a n s f o r ma n di to n l ya p p l i e sf o r b a n d sa b o v e6 k h z t h ec o m b i n a t i o no ft h e s et w oc o d i n gm e t h o d sp r o v i d e sag o o d h a n d l i n g f o u r c r i t i c a l s i g n a l s w e r et e s t e da n dc o d i n g g a i n s o f10 - 2 0 k b i f f s p e r c h a n n e lc a nb ea c h i e v e d i nt h es u b j e c t i v er e s u l t sa f t e r w a r d s ,a u d i oq u a l i t yw a s g r e a t l yi m p r o v e d w h i l eb i t r a t e sw e r el o w m p e g - 2s i g n a lr e p r o d u c t i o nt e c h n i q u eh a s d e v e l o p e dt oas y s t e mw i t h5c h a n n e l s i no r d e rt oe n s u r ei t sb i t r a t et o b ew e l lb e l o w t h a to f t l l ef i v ei n d i v i d u a lc h a n n e l s 。j o i n ts t e r e oc o d i n gc a l la l s ob e u s e d k e vw o r d s : p e r c e p t u a la u d i oc o d i n g ,m sc o d i n g ,i n t e n s i t ys t e r e oc o d i n g , a a c ( a d v a n c e d a u d i o c o d i n g ) 东南大学硕士论文 i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 裁稼 e t 期:墨型2 d 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:鲤导师签名:塑 e t 期:2 口d ;一二d 第一章绪论 1 1 感知音频编码 第一章 绪论 音频信号的数字化带来了一场革命。随着计算机处理能力的提高和信号处 理理论的不断完善,数字音频技术得到了迅猛发展。今天,数字音频技术已经 在数字影音系统、高清晰度电视( h d t v ) 、数字音频广播( d a b ) 、电话会议 系统、无线通信、互联网多媒体业务等领域中得到了广泛的应用。 在上述领域内使用数字音频有一个共同的需求:就是要尽量节约存储空间 和或传输带宽,换言之,就是要对数字音频进行压缩。按照数字式激光唱盘 ( c d d a ) 标准,数字音频通常的采样频率为4 4 1 k h z ,量化精度为1 6 位,具 有很高的保真度,但占用的存储空间很大,码率也高达7 0 5 6 k b s ( 单声道) 和 1 4 1 1 2 k b s ( 双声道) 。音频压缩技术对经过采样量化的p c m 信号进行分析处理, 力求使处理后的音频数据存储量达到最小,而音质不受影响,即所谓的与c d 信号“透明的音质”。有的专业编码系统甚至提高重放数字音频的质量嘲i 如 用“相干声学编码方式”代替线性p c m ,能够利用c d 信号提供比目前专业音 乐录音室更高逼真度的音频信号【2 】,该技术超出了本文的讨论范围。 早期的数字音频压缩技术主要是数字波形编码,这种编码技术以数学意义 上的最接近来进行量化和编码。输入和输出信号在波形上的差异是编码设计的 基本失真度量。这种编码器往往适用于高码率应用。 而为了获得更高的压缩比,一种期望在主观感知意义上更接近的、高质量 低码率的音频编码技术,越来越成为数字音频压缩技术的主导。这种编码器对 失真的考虑是基于人类对输出信号的有效感知,而不再追求输入输出信号在波 形上的接近程度。这样的编码器称为感知音频编码器( p e r c e p t u a l a u d i o c o d e r ) 。 感知音频编码主要利用人类听觉的感知特性和信号的统计特性,一方面去 除信号之间的统计相关性,另一方面把量化噪声引入信号,而不用担心音质的 损伤,因为这些噪声会被隐藏在与信号幅频特性有关的昕觉阂值之下。 感知音频编码显然是有损压缩,但往往会得到令人满意的质量,例如“透 明的c d 音质”。与此同时,它也带来了低码率和高压缩比。 感知音频编码器的结构框图如图l - 1 所示。 东南大学硕士论文 第一章绪论 鼽- 匦卜牛 无 数据 失 复 真 - - 4 心理声学模型l 兰竺! 竺 三j i ;i j i : 编 边带信息 用 码 图1 1 感知音频编码器框图 编码器对输入信号的处理是一帧一帧进行的,不同的编码方案中帧的长度 可能不同,约为2 5 0 m s 不等。帧与帧之间往往互相重叠。为了保证帧与帧之间 的衔接,在进行时频分析之前,对一帧数据进行加窗处理。 根据不同编码方案的需要,可以选用不同的时频分析工具,例如f f t 、d c t 、 m d c t 和子带滤波器等,这主要取决于编码系统在时间分辨率和频谱分辨率方 面的权衡。 心理声学模型是感知编码器的核心,构造模型的数据大都是基于2 0 世纪 5 0 年代后期z w i c k e r 等人的研究成果。模型解释了心理声学中的掩蔽现象,提 出了临界频带( c r i t i c a lb a n d ) 的概念,以b a r k 作为临界频带的单位。现在许多 编码方案的子带划分都来源于z w i c k e r 的2 5 个临界频带划分。心理声学模型对 一帧数据进行分析,以临界频带为单位分析信号的掩蔽属性和掩蔽效果,模型 输出信号掩蔽比和阈值曲线,提供给比特分配模块来控制量化噪声的产生,在 阈值曲线以下的信号分量是我们要抛弃的冗余,阈值曲线也是能够引入量化噪 声的上限,因为这些弱信号分量和量化噪声,都是我们无法感知的。 比特分配模块依据心理声学模型的信息,分配给该帧适当的比特数,然后 通知量化和编码模块。量化和编码模块很重要的一点就是协调心理声学模型和 比特分配之间的矛盾,目的是在一定码率的限制下、在有限可分比特情况下, 获得满意的音频质量。 量化编码平衡心理声学模型和比特分配两者的需求,在码率和音质之间找 到所谓最佳,这就是感知音频编码的特点所在。量化的方法可以多种多样,如 d p c m 、a d p c m 、v q 等。 无失真编码可以采用游程编码或熵编码( h u f f r n a n 编码、算术编码等) 。 量化编码模块按照分配的比特数进行量化和编码,并将结果送给复用器, 进行比特流封装,在比特流中加入头信息和必要的边带信息,形成最终的输出 东南大学硕士论文 2 第一章绪论 码流。 当然,在追求主观音质和较低码率的前提下,还要兼顾考虑算法的复杂度、 延迟等其它一些实现中的实际问题。 1 2 当前的几种音频编码标准 当前得到广泛应用的音频编码标准是m p e g ( 活动图象专家组) 制定的 m p e g 数字音频编码标准和美国杜比实验室开发的a c 3 数字音频编码标准。下 面对m p e g 系统和杜比系统的几种音频编码标准作一简单介绍【3 l o 1 2 im p e g l 音频编码标准 国际标准化组织i s o h e cj t c i s c 2 9 w g l l ( 即运动图象专家组m p e g ) 从 1 9 8 8 年以来承担了音频压缩技术的标准化工作。m p e g 1 的音频部分是m p e g 在数字音频压缩领域制定的第一个音频编码的国际标准。m p e g 1 系统是 a s p e c ( a t & t 、c n e t 、f h g e r ( d n g e n 大学、t c e ) ) 和m u s i c a m ( c c i t t 、 i r t 、p h i l i p s 、m a t s u s h i t a ) 两个小组合作制定的音频编码标准草案的结果。1 9 9 2 年1 1 月,正式成为国际标准i s o d e c l l l 7 2 3 1 1 】【4 】嘲。m p e g 1 音频编码系统可以 工作在单声道或双声道立体声方式,其采样频率为3 2 ,4 4 1 ,4 8 k h z ,每通道的 数据率为1 2 8k b s ,能提供极高品质的音频。该标准定义了一种三等级的编码 算法,从等级i 到等级i ,系统复杂性和音质性能逐渐增加。根据应用的不同 选择不同的等级。 m p e g 1 音频等级i 和等级 等级i 和等级l i 编码器的基本结构框图如图1 2 所示。 图1 2m p e g - 1 等级i 和等级i i 编码器的基本结构 比特流_ 等级i 将数据按一定格式分块,在心理声学模型的控制下进行量化编码,块 状自适应比特分配就是从这个模型取得的。3 2 个子带每个子带有1 2 个样本值, 东南大学硕士论文 苎= 童堕丝一一 传输一个比例因子。等级i 是m u s i c a m ”编码方案的简化形式;用于那些不强 调很低码率的应用。 相比较于等级i ,等级i i 通过对比例因子消除冗余度和不相干性而带来了 进一步的压缩。每个子带的3 6 个样值包含了3 个比例因子,但这3 个比例因子 并不一定都传输,而是根据比例因子选择信息来决定传输1 个、2 个还是3 个比 例因子。比特分配作为掩蔽门限的函数,它通过搜索和优化来决定量化的比特 数,使需要的时变码率变为固定值。进行f f t 计算可动态获得掩蔽门限。算出 每一子带内的最低掩蔽阚值和最大信号电平,用于在比特分配中确定每一子带 的实际量化电平,最后根据每一个子带的信号掩蔽比来调节比特分配以便同时 满足码率的要求和掩蔽的要求。等级i i 与m u s i c a m 方案完全相同,在消费电 子和专业音频中有广泛应用。 实际上,等级i 和等级i i 可以称为子带编码系统,下面可以看到,等级i i i 由于采用了离散余弦变换m d c t ,可以称为变换编码系统。 m p e g 一1 音频等级 等级i i i 由a s p e c 和m u s i c a m 两种编码方案的最有效的模块组成,可在 每声道低于1 2 8 k b i t s 的速率获得满意的质量,特别是在低码率时,如每声道 6 4 k b i t s 时,等级m 的编码效率要优于等级i i ,但其复杂度最高。图1 3 是等级 i i i 的编码器结构图。 世恃豌+ 等级i i i 压缩的基本原理与等级i 和等级i i 没有本质区别,但等级i i l 9 1 入了 许多新的技术,如混合滤波器组、比特池缓冲技术、非均匀量化、预回声控制 和熵编码等。等级i 采用多相m d c t 混合滤波器组来提高频率分辨率和增加编 码增益。把等级i 和等级使用的多相滤波器组的每路输出送到1 8 通道的 m d c t 滤波器组,产生了5 7 6 条频率线。把多相滤波器组的输出通过m d c t 进 东南大学硕士论文 4 第一章绪论 一步细分后,就可做相应处理来减少多相滤波器组带来的频率混叠。如果信号 包含有冲激将导致量化后可听见的预回声。m d c t 滤波器组能在低的频率分辨 率和高的时间分辨率之间切换以减少预回声。避免预回声的方法是动态地改变 窗口的形状。为保证时域混叠消除,m d c t 的长度必须是4 的倍数,共使用四 种窗口:长窗、短窗、开始窗和结束窗。开始窗和结束窗用于长窗和短窗之间的 切换。等级i 使用的是心理声学模型2 。 等级i 和i i 没有考虑噪声分配即量化步长是不变的,每块中的比特分配固 定,而等级i 采用噪声分配的方法实现动态比特分配,加入了非均匀量化、量 化值霍夫曼编码和弹性存储技术。量化可分为三层,最高层循环程序调用外迭 代循环子程序,外迭代循环子程序调用内迭代循环子程序。外迭代循环子程序 根据单个频带量化失真程度,把超过允许失真的频带样值放大,内层迭代循环 又通过减少总增益使总比特数够用。这样外迭代循环每运行一次,量化噪声就 在各频带间重新分配一次,原先未超过允许失真的频带量化噪声增大,原先超 过了允许失真的频带量化噪声减少。如此反复直到满足一定条件时循环终止。 m p e g 1 等级i 在商业上获得了巨大的成功,这就是我们熟悉的m p 3 。m p 3 是目前流传最广的一种音乐压缩格式,其c d 般的音质、高压缩比、开放性和 易用性使之深受好评,尤其在i n t e m e t 网络上广为流行,有的硬件厂商还推出了 播放m p 3 的硬件设备。 5 1 2 2m p e g 2 b c 和m p e g - 2 l s f 在第二阶段的发展计划中,m p e g 的目标是制定一个对m p e g 1 音频进行 多声道扩展的编码m p e g 一2 b c 。它能够与已有的m p e g 1 系统向下兼容,以及 一个在较低采样频率( 1 6 ,2 2 5 ,2 4 k h z ) 时效率高于m p e g 1 的音频编码标 准m p e g - 2 l s f 。1 9 9 4 年1 1 月,完成了m p e g - 2 b c 和m p e g 2 l s f 的制定。对 五个全带宽声道,m p e g - 2 b c 在数据率为6 4 0 - - 8 9 6 k b i q s 的情况下提供了高品 质的音频。m p e g 一2 b c 定义了m p e g i 的多声道扩展,传统的双声道声音格式 的替代者是3 2 + 1 多通道系统。m p e g - 2 b c 采用m p e g 1 编码器,也有三种等 级的多通道扩展。等级i 是最灵活的系统,作为一个特别的特点,m p e g 2 b c 等级i i i 允许使用数目灵活的扩展通道。m p e g 2 b c 除了后向兼容多声道编码之 外,还提供了对多个附加声道传输的支持。利用这些附加声道可以支持多语言 编码。在l s f 背后的基本想法是提高较高频率分辨率滤波器组的编码增益,l s f 的另一个优点是提高了主要信息对附带信息之比。对于那些需要很低码率的音 频应用场合,l s f 等级i i i 成为优选方案。 东南大学硕士论文 苎= 童堕丝一一一 s 1 2 3d o l b ya c 3 a c 3 是由美国杜比( d o l b y ) 实验室开发研制的。美国现在已经把杜比a c - 3 标准作为高清晰度电视( h d t v ) 和数字有线电视的音频编码格式。 a c 3 是一种高效率编码【6 1 ,它采用自适应变换编码,具有很多优点。它更好 地模拟了人耳的听觉特性。a c 一3 滤波器组的频率选择性非常接近人耳的掩蔽效 应。时频变换采用了基于时域混叠抵消( t d a c ) 的m d c t 。a c - 3 也采用了窗 处理,输入时间信号在变换到频域之前先对其进行加窗处理,而且窗口长度是 可变的。由于音频信号的时变特性,为了同时满足时间分辨率和频率分辨率的 要求,在编码中采用了自适应分块技术以便有效地控制预回声的发生。 a c 3 编码器还采用了耦合技术和组合技术。耦合技术利用入耳对高频信号 不能分辨出两个频率非常接近的信号的方向的特性,在编码器中将多个声道信 号的高频部分耦合到一个公共声道中。当信道传输码率很低时,单独对各个声 道进行处理仍然达不到信道要求的码率,这时就采用耦合技术。 编码依据不同的声道将数据表示为不同位数的比特数。根据传输码率和频 率分辨率的要求采用三种模式进行编码,三种模式的分辨率不同。 a c 3 技术包含着灵活性,它可以重现一到五个声道的各种播放配置,再加 上一个任选的低频增强声道,a c - 3 方案可使用3 2 和6 4 0 k b s 之间的可调整数据 率,可配置成通道安排的各种组合。a c 3 数据格式用来在已经采用了高度误码 校正的环境中应用。 墨1 2 4m p e g 2a a c m p e g - 2a a c ( a d v a n c e d a u d i oc o d i n g ) 是m p e g 在以b o s i 、b r a n d e n b u r g 、 j o h n s t o n 等为首的音频编码研究组织于1 9 9 7 年提出的,它总结了m p e g 1 、 m p e g 2 和a c - 3 等的长处,在m p e g 系统上进一步改进并加入了很多新的功 能,大大增强了编码的灵活度,在保证音质的同时更大限度地压缩了码率。 m p e g - 2a a c 的编码器框图如图1 4 所示。 东南大学硕士论文 6 蒸= 蔓堑笙 图1 4m p e g 2a a c 编码器框图 a a c 工作过程简要叙述如下: 输入p c m 信号按1 0 2 4 点声道划分成帧,再同前一帧1 0 2 4 点信号组合起来, 通过高分辨率的滤波器组( m d c t ) ,由于m d c t 系数的对称特性,输出1 0 2 4 个窄带的频谱分量。将这些频谱分量划分成不同带宽的比例因子频带 ( s c a l e f a c t o rb a n d ) ,比例因子频带的划分应尽量符合临界频带。 心理声学模型并行地对这段输入信号进行计算,估计出每个比例因子频带 的信号,掩蔽比s m r 。在量化和编码的模块中各个比例因子频带的m d c t 谱线 能量乘掩蔽玎言号比,就得到了最大可容许失真x m i n 。这是在量化和编码模块中 所需要的重要参数,它体现了心理声学模型控制编码质量的要求。具体地说: 如果量化噪声超过了x m i n ,就提高量化精度降低量化噪声,直接的结果就是使 用更多的比特来编码;另一方面由于码率的限制,编码比特数不能无限量地增 加,必要的时候,只能牺牲掉一定的量化精度,导致某种可闻失真。 心理声学模型的另一个重要输出是决定帧数据进行m d c t 变换的块类 东南大学硕士论文 第一章绪论 型:是长序列、短序列抑或是两种过渡序列。对于频谱结构存在较大起伏的音 调信号,使用长度为2 0 4 8 的长序列变换可以提高编码效率,但对于瞬变信号就 有必要提高时域分辨率,使用长度为2 5 6 的短序列变换得到更糟确的重建。长 变换和短变换进行切换时,则使用开始和结束的过渡序列。 以比例因子频带为基本单位对频谱分量进行量化和无噪声编码。在短序列 时,使用所谓“分组和交叉”的方法能够得到更高的编码效率。非均匀量化可 以获得一定的噪声整形,无噪声编码使用n 重组的霍夫曼编码,利用一种“贪 婪合并分区”机制,即提取出倾向于降低霍夫曼编码效率的高能量谱峰单独编 码,提高了编码的效率。最后,进行比特流装配,比特流结构包括量化和编码 后的频谱系数以及控制系数。 上述是编码器的基本工作模块。此外,在预回声控制方面a a c 有其独到之 处,不仅具备信号自适应的长短块切换和心理声学模型的预回声控制,j o h n s o n 还提出了时域噪声控制( t e m p o r a l 幻加s h a p i n g ) 技术,简称t n s 。其思想来 源于时域和频域信号的对应比较。当时域信号为音调时,频域为冲激,此时的 最佳编码为时域的预测编码或频域直接编码;与之相反,当时域出现冲激时, 为平坦的频谱信号,此时以时域宣接编码或频谱预测为佳。而暂态噪声和打击 乐器的信号更接近冲击,所以对它们在频域的某一频段内进行预测编码能取得 良好效果,且由此引入的预回声也将削弱。 为进一步去除帧间的相关性,a a c 提出了频域预测的概念。在进行长块变 换时,即假设信号为准平稳,对相邻帧相同频率位置的分量进行预测编码。为 保证声音质量的抖动不大,频域预测是分组轮流进行的。 1 2 5 立体声编码研究现状 为了进一步提高编码器的性能,m p e g 2a a c 系统包括两种立体声编码技 术中间旁边( m s ) 立体声编码( 也被称为和一差编码) 与强度立体声编 码。两种立体声编码方法都可以有选择地结合起来使用,以适应不同的频率区 域。强度立体声工具和m s 工具的安排应使m s 操作和强度立体声操作在任意 给定的比例因子频带及频谱对组中都是相互独立的。适当地利用m s 立体声编 码和强度立体声编码,在解决噪声声像问题时。可以避免由于两耳掩蔽电平降 低所引起的代价巨大的过量编码并且经常能够显著地降低数据率。 在m p e g - 2 a a c 系统中,m s 立体声编码用于多声道信号的每对声道,也 就是说,一对声道对称地安排在昕者轴向的左右两边,这个方法可以很大程度 上避免由于空间非掩蔽引起的声像问题。单独编码声道的尺度化的逆量化频谱 值不可由m s 工具块处理,它们直接通过该块而不进行任何修正。如果m s 工 东南大学硕士论文 第一章绪论 具块无效,则所有频谱都直接通过该工具块而不进行修正。 m s 立体声编码用来控制编码噪声声像( 与原始信号声像相比较) 。特别是, 这种技术能够解决两耳掩蔽电平降低的问题( b m l d ) 。在b m l d 中,较低频率 的信号与掩蔽门限有2 0 d b 的差值。当然,这个差值也取决于信号的相位和当前 的噪声( 或在有噪声时缺乏相关性) 。第二个重要作用是能够控制瞬态信号或冲激 信号的高频时域声像。无论哪种情况,进行恰当编码的立体声信号所需要的比 特可能比对两个单声道信号进行独立编码所需要的比特要多。 通过在时间上逐块逐块地有选择地开关,或在频率上按比例因子频段一段 一段地开关,m s 立体声编码就可以灵活地使用。开关状态( m s 立体声编码开 或关) 以一串符号位( m su s e d ) 的形式传输给解码器,可以在l 和r 声道之间允 许短时间的时延,并同时完成声像控制和一些信号处理增益。允许的时延是有 限的,但这个时延也比两耳问的时延长,并且可以对最重要的声像分量进行控 制。 在m s 编码器中使用了与在调频立体声传输中所使用的技术相类似的矩阵 运算,而在解码器中具有适当的解矩阵运算。由于进行的是同址运算,所以不 需要额外的存储器。在立体声( 双声道) 情况下,直接对其信号的和差分别编 码;在3 2 0 1 声道,用一个m s 矩阵处理,以去除声道间冗余信息。 除去声道间不相关的第二种重要的立体声编码方法是著名的强度立体声编 码。过去,这个方法有着不同的名字( 例如动态串音或声道耦合) ,在立体声和 多声道编码中有着广泛的应用。 强度立体声编码( i n t e n s i t y s t e r e oc o d i n g ) 是方向性变换编码的一般想法的 简化方法。该编码技术是建立在心理声学的基础上,人对水平面上高频率( 6 k h z 以上) 声源的定位不像低频率信号那样直接利用信号的相位,而是利用了声音 信号的时间包络,不需要对两个立体声信号( l 和r ) 波形的细微结构进行校 正。换句话说,只要两个信号的包络正确,两个声道使用共同的信号,在高频 率就可以实现相当好的立体声定位效果。通过计算,编码声道的原始能量一时 间包络可以近似地保存,从而,解码之后,用信号的原始电平重建得到每个声 道的信号。对于静态信号来说,由于其包络是恒定的,定位可以通过两个声道 之间的电平差控制。当码率紧张时,只传送信号的和以及标度因子,以保持声 音的空间位置。强度立体声编码可用来提高声音质量( 在相同的码率下) 或降 低码率( 在相同的质量下) ,通常可节省约1 0 k b s - 3 0 k b s 的码率。只要该工具 块的任何一部分失效,则尺度化的逆量化频谱都直接通过该工具块而不进行任 何修正。这种算法对解码器所要求的附加复杂度的影响可忽略,编码器的复杂 度增加不多,编码器和解码器原有的延时不受影响。 东南大学硕士论文9 1 3 论文的主要工作和组织 本文是围绕联合立体声编码模块研究展开的一个课题,主要工作概括如下: 在论文的第一部分,向大家介绍了近些年来的有关音频编码的进展情况, 并讨论了联合立体声编码的当前研究现状。在概述感知音频编码的基本架构之 后,从原理和主要相关技术上对当前的几种音频编码标准进行了比较。a a c 即 先进音频编码,是其中最新的标准,它融合了许多最新的技术和方法。 接着,简要分析总结了人耳的听觉特性,从分辨能力、定位特性和掩蔽特 性三个方面进行了讨论,在感知机理上为后文作了理论铺垫。 m s 编码即中间,旁边编码,是联合立体声编码中的一种重要的方法。它基 于心理声学模型。在讨论了不同信号的立体声非掩蔽效应之后,从编码模式的 识别、声像控制和稀化技术三个方面探讨了m s 编码的实现方法。 强度立体声编码是轴变换的一种,理论基础是k l 变换,从而实现数据的 压缩。在较为详细地讨论了强度立体声变换在a c 3 和m p e g 编码器中的实现 方法后,指出了简单强度立体声编码的不足之处。m s 编码和强度立体声编码 的适用条件不尽相同,两者的组合相得益彰。对于一类苛刻信号,联合立体声 编码效果不尽如人意,预测技术的使用可以更好地消除冗余,对此也作了介绍。 通过大量比较和实验,选择了四个苛刻信号对编码器进行测试,采用编码 增益这一直接体现编码效果的指标进行客观评价;设计出接近正规试听的评分 方法,选择可靠的试听者进行主观评价。 将系统从双声道扩展到更多声道,并实现数据的压缩,同样需要联合立体 声编码技术的应用。对此,在本文的最后作了概括性的描述。 东南大学硕士论文 第二章人耳的听觉特性 第二章 人耳的听觉特性 当我们细耳聆听周围的声音时,不但能感觉出声音的强度、音调和音色, 而且还能够感觉出声源的方向和距离。例如,在音乐厅中欣赏交响乐队的演奏 时,不但从音色中能区别出各种乐器的类别,而且还能判断出各种乐器的位置, 即所谓有现场感或临场感。这说明,人们的听觉除了对声音的强度、音调、音 色有所感觉外,还有一种空间印象感,即立体感。也就是说,人耳具有“声学 透视”的特性。 既然人们的听觉具有立体感,在声音的记录、传输或重发过程中,欲保持 原发声的真实性,就必须保持原发声的“立体特性”。我们所熟悉的单声道系统 的重发声,虽然在一定程度上可以使聆听者有声音的深度感,但却没有方向感。 因此,单声道系统不能满足立体声传输的要求1 7 1 i s 。 声音信号能否被入耳感知,主要取决于声音的频率和强度。正常人所能听 到的频率范围约为2 0 h z 2 0 k h z ,强度范围约为5 d b 1 3 0 d b 。人耳所能听到的 最低声压级称为绝对阈值( a b s o l u t et h r e s h o m ) ,与声音的频率有关,是人耳对 声音各频率分量所能听到的最小声压,也叫安静阈值( t h r e s h o l d i n q u i e t ) 。声压 级低于安静阈值的频率分量是不能被人耳听到的。但是,人耳对声音的感知并 不是绝对的,还要受到所谓“掩蔽效应”的影响。 2 1 人耳分辨能力 音强、音调、音色( 还有音品) 决定了声音的音质。音质是人们对声音的 主观感觉,它不但与声音的振幅、频率、频谱有关,而且还与人耳的听觉特性 及心理因素有关 9 1 1 们。 音强即晌度,是人耳对声音强度的主观感觉。 音调是人耳对声音调子高低的主观感觉。音调的高低主要取决于声音的频 率,频率越高,音调越高;频率越低,音调越低。但在可闻声频范围内,音调 和频率并不成线性关系,而是成对数关系。 音色主要决定子声音的声谱结构。乐器发出的声音都是复音,其频率成分 含有基波和高次谐波,即通常所说的基音和泛音。各种乐器所发声音的谐波分 布不同,谐波的幅度也不同,因而音色就不同。 东南大学硕士论文 第二章人耳的听觉特性 2 2 听觉定位特性 人耳不但能分辨出声音的强度、音调及音色,而且还能分辨出声源的方向 及深度,即具有立体感。这种立体感主要是由人耳的听觉定位特性引起的。 产生听觉定位的原因是复杂的,其基本原因是由于声音传到两耳时的差别 以及优先效应、耳壳效应所造成的,另外还与人的心理作用有关【外。 2 2 1 声音传到双耳时的差别 人的双耳位于头颅两侧,它们不但在空间上处于不同的位置,而且还被头 颅阻隔。因此,由同一声源传来的声波,到达两耳时,总产生不同程度的差别, 如时间差、声级差、相位差、音色差等。借助这些差别,人们就可辨别出声源 的方位。 ( 1 ) 时间差 图2 1 为从左前方传来的声音,到达两耳时的路径示意图。由图可知,从 左前方传来的声音,到达左耳的路径短,到达右耳的路径长。因此,声音先传 到左耳l ,经& 时间后,才传到右耳r 口 r j i 、 图2 1声音传到两耳时的路径 设人头是一个直径为2 口的球体,声波传播方向与人头正前方的夹角为0 则声波到达两耳的路程差,就是弧一r 的长度。若用a 和p 来表示,则有: a r = a ( o + s i n o )( 2 - 1 ) 东南大学硬士论文 1 2 第二章人耳的听觉特性 设声速为c ,则时间差为 a t = 兰( 口+ s i n 0 ) ( 2 2 ) 一般人的头颅直径为1 7 2 0 厘米,若取直径为1 7 厘米,声速c 为3 4 0 米秒, 则式( 2 2 ) 可简化为 a t = o 2 5 ( 0 + s i n 0 )( 2 - 3 ) 根据此式可得出时间差f 和方位角的关系曲线,如图2 2 中实线所示。由m - 7 知,当0 = 9 0 。( 即声音从左方或右方传来) 时,r 有最大值,约等于0 6 4 毫 秒:当 9 = 0 。或0 = 1 8 0 。( 即声音从正前方或正后方传来) 时,f 为零:从其 他方向传来的声音,f 在零与最大值之间。实际上,弧a r 可用弦j 豆近似代 替,因此有 at“2asin0(2-4) c 这时得出的,和0 的关系曲线,如图2 2 中的虚线所示。由此可知,两种结果 很相似。 a t ( m s ) 0 6 0 3 o3 08 09 0 1 2 0l s o1 8 0 0 ( 度) 图2 2 时间差与方位差的关系曲线( 示意图) 实验表明,两耳能鉴别出的最小偏角0 m h 约为3 。左右,这相当于a t = 0 0 3 m s 的时间差。 ( 2 ) 相位差: 既然传到两耳的声音有时间差,就必然产生相位差。对于角频率为的纯 音,相位差庐与时间差的关系为 矿= a t c o ( 2 - 5 ) 将式( 2 2 ) 或式( 2 4 ) q - t x ( 2 5 ) ,可得出由不同方位角传来的声音到达双耳时的相 东南大学硕士论文 第二章人耳的听觉特性 位差为 庐= 望曼( 口+ s i n 曰)( 2 6 ) c 或者 西:呈皇坚s i n 口( 2 - 7 ) f 对于复音,由于含有各种频率分量,因而不同频率成分的声音到达两耳时的相 位差也不同,其值由式( 2 6 ) 或式( 2 7 ) 确定。相位差也是造成人耳对声源定位的 一个因素。 ( 3 ) 声级差 两耳虽然相距不远,但由于头颅的阻隔作用,使得从某方向传来的声音需 要绕过头部才能到达离声源较远的一只耳朵中去。在传播过程中,其声级( 即 声强级) 会有一定程度的衰减,使靠近声源的一侧声级大,远离声源的一侧声 级小,产生了声级差。 声级差p 不但与声源的方位角8 有关而且还与频率有关。在同一方位角 的情况下,频率较高时,声级差较大( 最大可达2 5 分贝左右) ;频率较低时, 声级差较小。频率在3 0 0 赫以下时,声级差几乎为零。当到达两耳的声音声级 差达1 6 分贝左右时,人耳就感到声音只来自一侧( 既感到声源的方位角0 为 9 0 0 ) 。 ( 4 ) 音色差 当声波绕过头颅到达另一只耳朵时,还会产生音色差。由波的性质可知, 波的绕射现象与波长有关。当波长大于障碍物尺寸时,波可以绕射到障碍物的 后面;当波长远小于障碍物尺寸时,波就会被反射而不能绕到障碍物后面。一 般的声音都包含有复杂的频率成分。当声波绕过头颅时,不同的频率分量会发 生不同程度的衰减,使音色发生变化,从而使两耳昕到的声音发生了音色差。 音色差在高频段较大,在低频段较小。 ( 5 ) 直达声与混响声的差别 直达声与混响声的差别,也能造成双耳的空间印象感。 实践证明,声级差、时间差和相位差对听觉定位影响较大。对于不同的频 段,它们的作用不同。在水平定位方面,低中频段( 3 0 0 0 赫以下) 的定位主要 决定于相位差庐;而高频段的定位则主要决定于声级差p 。在深度定位方面。 东南大学硕士论文1 4 蔓三童曼塑咝! 茔丝一二 直达声与混响声的强度比贝是。个重要陵索。_ ;f 时间差- ,对瞬态声的定位贡献较 大。 以上结论是指声源离听者较远的情况。如果声源离听者很近,则高、低频 端的定位主要依靠声级差p 。 2 2 2 优先效应 实验证明,人的听觉还有先入为主的特性。当两个强度相等而其中一个经 过延迟的声音一同传到耳中时,如果延迟时间在3 0 毫秒以下,听觉上将感到声 音只来自未经延迟的声源。延迟时间为3 0 5 0 毫秒时,听觉上可以感觉到延迟 声的存在,但仍感到声音来自来延迟的声源。在这种延迟声被掩盖的情况下, 延迟声只是加强了声音的响度,使声音音色变得更丰满。当延迟时间超过5 0 毫 秒时,延迟声就不能被掩盖,听觉上会感到延迟声成为一个清晰的回声。这种 现象成为优先效应,也称哈斯效应。人耳的这种特性也是产生听觉定位的重要 因素。 2 2 3 耳壳效应 近几年,通过对听觉定位的进一步研究发现,当外界声音传入人的耳朵时, 耳壳对声波也有反射作用。由于耳壳是椭圆形的,垂直方向轴长,水平方向轴 短,各部位离耳道的距离不同,形状也不同,因而直达声经各个部位反射到耳 道时,会产生不同延时的重复声,而且这些重复声是随着直达声的方位不同而 不同。研究结果表明,垂直方向的直达声、重复声的延时量约为2 0 4 5 微秒; 水平方向的直达声、重复声的延时量为2 2 0 微秒。人耳借助这些重复声的差别, 也可判断直达声的方位。这就是耳壳效应。实验表明,耳壳效应对4 2 0 千赫频 段内的定位起重要作用。 人耳的听觉器官的功能是错综复杂的,各种因素在相互交错地起着作用。 每个人的听觉差别及心理作用对听觉定位也有很大影响。 2 3 听觉掩蔽效应 诸多声学实验证实了掩蔽效应是一种常见的心理声学现象,指的是人耳对 个声音的听觉感受。受到其它声音影响的现象。表现为在一个较强的声音附 近,弱的声音将变得不可闻,被掩蔽掉了。这个较强的声音称为掩蔽者( m a s k e r ) , 弱的声音称为被掩蔽者( m a s k e e ) 。不可闻的被掩蔽者的最大声压级称为掩蔽门 限或掩蔽闽值。掩蔽效应的描述可见图2 3 。图中最下面的一条曲线为安静阈值 曲线,可以看到,在很低的频段和很高的频段内,阈值曲线很高,入耳对这些 东南大学硬士论文 第二章人耳的听觉特性 区域不甚敏感;而在中频约3 - - 一5 k h z 的范围内,曲线较低,入耳对这些区域的 声音最敏感。这说明了不同的频率分量对人耳听觉的贡献是不同的。图中显示 在l k h z 附近有个掩蔽信号,由于它的存在,在其附近形成了一个新的听阈曲 线,导致其附近声音信号听阈的提高,只要声压级低于这个昕阈曲线,即使声 压级高于安静阈值,也将被掩蔽掉。图中可以清楚地看到,黑线表示的频率分 量位于听阈曲线以下,被白线表示的掩蔽信号所掩蔽。 7 0 6 0 4 0 2 0 0 0 20 10 5151 02 0 频率( k h z ) 图2 3 掩蔽效应 掩蔽效应与掩蔽信号的属性有关,为了更好地描述和分析掩蔽效应,许多 学者进行了大量的心理声学实验。最初的实验集中在被掩蔽者是音调性( t o n eo r t o n a l ) 分量,而掩蔽者是噪声( n o i s eo r n o n t o n a l ) 分量的情况。实验中发现, 噪声的存在会对音调产生掩蔽,为了描述这种掩蔽的效果,就引入了临界频带 的概念。 一个音调分量可以被以它为中心频率、且具有一定带宽的连续噪声所掩蔽, 如果在这带宽内,噪声的功率等于该音调的功率,这时该音调分量处于刚好能 被听到的临界状态,即称这一宽度的临界值为临界频带。 实验中发现,临界频带的带宽是其中心频率的函数。在不同频率处,有不 同带宽的临界频带,一般在频率低于5 0 0 h z 时,临界频带带宽约为1 0 0 h z ,在 高于1 0 0 0 h z 时,i 临界带宽约为中心频率的1 6 。连续的临界频带的序列号称为 临界频带率,单位用b a r k 来表示,1 b a r k 用来指明一个临界频带的带宽( 带宽 往往是不相同的) 。在一个临界

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论