已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:签童芏日期:彬罗 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:盥导师签名:弛日 期:丝:兰丝 7 山东人学硕士学位论文 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 研究背景及意义1 1 2 研究现状及趋势1 1 3 混合乐音分离的概念2 1 4 论文安排3 第二章技术基础和理论4 2 1 乐音基础知识4 2 2 听觉的掩蔽效应4 2 3 叠接相加法一5 2 4 正弦分析与综合6 2 4 1 正弦分析7 2 4 2 正弦综合7 2 5 分离技术的评价标准8 2 6 本章小结1 0 第三章乐音信号分离的典型技术1 1 3 1 基于正弦模型的乐音分离1 1 3 1 1 传统算法的乐音分离1 1 3 1 2 改进算法的乐音分离1 2 3 2 计算听觉场景分析的乐音分离1 2 31 3 基于k n n 聚类的乐音分离1 3 3 4 频谱域滤波分解算法1 4 3 4 1 频谱抽取的分离算法1 4 3 4 2 时域滤波的分离算法1 4 3 5 非负矩阵分解算法1 4 3 6 本章小结l5 第四章算法性能比较1 7 l, 山东大学硕十学位论文 4 1 基于正弦模型的乐音分离1 7 4 1 1 算法描述17 4 1 2 试验结果分析2 1 4 2 计算听觉场景分析的乐音分离2 5 4 2 1 算法描述2 5 4 2 2 试验结果分析2 6 4 3 基于k n n 的乐音分离2 7 4 3 1 算法描述2 7 4 3 2 试验结果分析2 8 4 4 基于频谱滤波的乐音分离2 8 4 4 1 算法描述2 8 4 4 2 试验结果分析2 9 4 5 非负矩阵分解的乐音分离3 2 4 5 1 算法描述3 2 4 5 2 试验结果分析3 4 4 6 分离算法性能评价3 5 4 6 1 测试评估3 6 4 6 2 总体评价3 9 第五章总结4 l 参考文献4 4 致谢4 7 攻读学位期间发表的学术论文4 8 - 1 刀 、 山东大学硕上学位论文 c o n t e n t s a b s t r a c ti nc h i n e s e i a b s t r a c ti ne n g l i s h i i i c h a p t e r1 i n t r o d u c t i o n 1 1 1b a c k g r o u n da n dm e a n i n go fs u b j e c t 1 1 2s t a t u sa n dt r e n d 1 1 3p r o b l e md e f i n i t i o n 。2 1 4c o n t e n t sa n df r a m e 3 c h a p t e r2t e c h n o l o g ya n db a s i ct h e o r y 。4 2 1b a s i ck n o w l e d g eo f m u s i ca c o u s t i c 4 2 2a u d i t o r ym a s k i n ge f f e c t 4 2 3o v e r l a p a d d 5 2 4s i n u s o i d a la n a l y s i s & s y n t h e s i s 6 :! 4 1s i n u s o i d a l a n a l y s i s 7 2 4 2s i n u s o i d a ls y n t h e s i s 7 2 5e v a l u a t i o no fs o u r c es e p a r a t i o n 8 2 6c h a p t e rs u m m a r y 1 0 c h a p t e r3s t r e a m i n gm e t h o d s 11 3 1s i n u s o i d a lm o d e l i n gb a s e d m u s i cs o u r c es e p a r a t i o n 11 :;1 1t r a d i t i o n a ls i n u s o i d a lm o d e l i n g 11 3 1 2i m p r o v e ds i n u s o i d a lm o d e l i n g 1 2 3 2c a s ab a s e dm u s i cs o u r c es e p a r a t i o n 1 2 3 3k n nb a s e dm u s i cs o u r c es e p a r a t i o n 1 3 3 4s p e c t r a lf i l t e r i n gb a s e dm u s i cs o u r c es e p a r a t i o n 1 4 :;4 1s p e c t r u me x t r a c t o n 1 4 :;4 2t i m e - d o m a t i o nf i l t e r i n g 1 4 3 5n m fb a s e dm u s i cs o u r c es e p a r a t i o n 1 4 3 6c h a p t e rs u m m a r y 1 5 c h a p t e r4s y s t e mp e r f o r m a n c e s 17 l 哆 山东大学硕上学位论文 4 1s i n u s o i d a lm o d e l i n ga l g o r i t h m 1 7 4 1 1a l g o r i t h md e s c r i p t i o n 17 4 1 2r e s u l t sa n a l y s i so fe x p e r i m e n t 21 4 2c a s a a l g o r i t h m 2 5 4 2 1a l g o r i t h md e s c r i p t i o n 2 5 4 2 2r e s u l t sa n a l y s i so f e x p e r i m e n t 2 6 4 3k n n a l g o r i t h m 2 7 4 3 1a l g o r i t h md e s c r i p t i o n 2 7 4 3 2r e s u l t sa n a l y s i so fe x p e r i m e n t 2 8 4 4s p e c t r a lf i l t e r i n ga l g o r i t h m :2 9 4 4 1a l g o r i t h md e s c r i p t i o n 2 9 4 4 2r e s u l t sa n a l y s i so fe x p e r i m e n t 2 9 4 5n m fa l g o r i t h m 3 2 4 5 1a l g o r i t h md e s c r i p t i o n 3 2 4 5 2r e s u l t sa n a l y s i so f e x p e r i m e n t 3 4 4 6e v a l u a t i o no fm u s i cs o u r c es e p a r a t i o ns y s t e m s 3 7 4 6 1s u b j e c t i v et e s ta n do b j e c t i v et e s t 3 6 4 6 2o v e r a l lr a t i n g 3 9 c h a p t e r5s u m m a r y a n ds c o p e 4 1 r e f e r e n c e s 4 4 a c k n o w l e d g e m e n t 4 7 p u b l i s h e dp a p e r s 4 8 山东大学硕十学位论文 摘要 本文要研究的混合乐音信号分离是指从多音混合音乐信号中分离得 到参与演奏的各个乐器或某个特定乐器的声音。乐音分离系统在很多领域 都有其应用,如乐器辨认、旋律提取、乐音信息检索、自动乐音分离及乐 音转录等,混合乐音分离在近几年越来越受到人们的关注。 本文简要介绍了混合乐音分离相关的基础知识,传统的分析和综合技 术及分离技术评价标准等。本文将混合乐音分离技术分成分流法和分解法 两大类,并在文中介绍了各类算法的思想。分流算法中介绍了三种分离技 术,包括基于正弦模型的乐音分离、基于听觉场景分析的乐音分离和基于 k n n 聚类算法的乐音分离。分解算法中介绍了两种分离技术,包括基于 频谱滤波的乐音分离和基于非负矩阵分解的乐音分离。 本文中采用的正弦模型技术是较为传统的一种方法,峰值匹配同时采 用了基于音高的谐波轨迹曲线算法和综合考虑音高和幅度信息的改进算 法。其中,改进算法得到了更好的分离效果。计算听觉场景分析采用了 g a m m a t o n e 滤波器和掩蔽滤波来分离信号。k 最近邻的信号分离算法中, 较多地采用了乐音信号的先验信息,一定程度上可实现信号分离。 分解算法中的滤波分离方法基于乐音信号的谐波性设计滤波器组,分 别从频域抽取和时域滤波两个层面实现信号分离。非负矩阵分解采用梯度 下降算法得到的基谱在音色空间上并不是完全独立的,容易造成分离信号 失真。本文提出了基于音高修正基谱的方法,一定程度上改善了分离效果。 本文对上述五种分离算法进行了仿真实验,并分别从主观评价、客观 评价和总体评价几个方面对比分析了各算法的分离性能。本文中,主观评 价方法采用的是平均意见得分法,客观评价方法采用了信噪比、相关系数 和峭度三个指标。 关键词:乐音分离;分流法;分解法 l哆 山东大学硕上学位论文 , 山东大学硕士学位论文 a b s t r a c t m u s i cs o u r c es e p a r a t i o nr e f e r st ot h ep r o b l e mo fe x t r a c t i n ge a c hs i n g l e i n s t r u m e n ts o u n do rs o m es p e c i f i ci n s t r u m e n ts o u n d sf r o mt h em i x t u r e i t a r o u s e sm o r ea n dm o r ei n t e r e s t si nr e c e n ty e a r ss i n c em u s i cs o u r c e s e p a r a t i o nt e c h n o l o g yp l a y s s u c has i g n i f i c a n tr o l ei nm u s i ci n s t r u m e n t r e c o g n i t i o n ,m u s i cm e l o d ye x t r a c t i o n ,c o n t e n t r e l a t e dm u s i c i n d e x i n g , a u t o m a t i cm u s i cs e p a r a t i o n ,a u t o m a t i cm u s i ct r a n s c r i p t i o n ,e t c t h i s p a p e rb r i e f l y i n t r o d u c e sm u s i cs o u r c e s e p a r a t i o n r e l a t i v e f o u n d a t i o nt h e o r i e s s i n u s o i d a l a n a l y s i s & s y n t h e s i st e c h n o l o g y a n d s e p a r a t i o np e r f o r m a n c ea s s e s s m e n tm e t h o d sa tt h eb e g i n n i n g i nt h i sp a p e r , t h em u s i cs o u r c es e p a r a t i o nt e c h n i q u e sa r ec l a s s i f i e di n t o 。t w oc a t e g o r i e s : s t r e a m i n ga l g o r i t h m sa n dd e m i x i n ga l g o r i t h m s ,w h i c ha r ef o l l o w e db ya n i n t r o d u c t i o no ft h em a i ni d e a so fe a c hc a t e g o r yr e s p e c t i v e l y f o rs t r e a m i n g a l g o r i t h m s ,s i n u s o i d a lm o d e lb a s e da l g o r i t h m ,c a s a ( c o m p u t e ra u d i t o r y s e n s ea n a l y s i s ) ,a n dk n n ( kn e a r e s tn e i g h b o r ) a r ed i s c u s s e di nd e t a i l w h e r e a sf o rt h ed e m i x i n ga l g o r i t h m s ,t h i sp a p e rf o c u s e so ns p e c t r a lf i l t e r i n g b a s e dm u s i cs o u r c es e p a r a t i o na n dn m fb a s e dm u s i cs o u r c es e p a r a t i o n s i n u s o i d a lm o d e lb a s e da l g o r i t h md i s c u s s e dh e r ei s at r a d i t i o n a l a p p r o a c h p e a k sm a t c h i n gm o d u l ec o m b i n e st h ei n t e g e rm u l t i p l eh a r m o n i c t r a c k sw i t ha ni m p r o v e da lg o r i t h mc o n s i d e r i n gb o t ht h ep i t c ha n dt h e a m p l i t u d e t h ee x p e r i m e n tr e s u l t sd e m o n s t r a t et h a tt h ei m p r o v e ds i n u s o i d a l a l g o r i t h mh a sb e t t e rp e r f o r m a n c et h a nt h et r a d i t i o n a l s i n u s o i d a la l g o r i t h m c a s ab a s e dm u s i cs o u r c es e p a r a t i o na l g o r i t h mu t i l i z e sg a m m a t o n ef i l t e ra n d m a s k i n ge f f e c t t o s e p a r a t em u s i cs i g n a l t h ek n nb a s e d m u s i cs o u r c e s e p a r a t i o na l g o r i t h mu t i l i z e sp r i o ri n f o r m a t i o no fm u s i cs o u r c ew h i c hc a na l s o a c h i e v em u s i cs o u r c es e p a r a t i o n s p e c t r a lf i l t e r i n gb a s e ds e p a r a t i o na l g o r i t h m d i s c u s s e di nt h i s p a p e r d e s i g n sf i l t e rb a s e do nm u l t i p i t c hd e t e c t i o n ,a i m i n gt os e p a r a t em u s i cs i g n a l f r o mt w oa s p e c t s ,n a m e l y ,d e c i m a t i o n i n f r e q u e n c ya n dt i m e - d o m a i nf i l t e r i n g t h et y p i c a ln m f ( n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ) a l g o r i t h mc a n te n s u r e t h ei n d e p e n d e n c yo fb a s i ss p e c t r a lw h i c ha r o u s e st h ed i s t o r t i o no fs e p a r a t e d m u s i cs o u r c e t os o l v et h i sp r o b l e mt os o m ed e g r e e ,t h i sp a p e rp u r p o s e sa n i m p r o v e dn m fa l g o r i t h m i l l , 山东人学硕+ 学位论文 t h i sp a p e rs i m u l a t e st h ef i v es e p a r a t i o na l g o r i t h m sd i s c u s s e da b o v ea n d a s s e s s e st h e i rp e r f o r m a n c e sf r o ms u b j e c t i v ee v a l u a t i o n ,o b j e c t i v ee v a l u a t i o n a n do v e r a l le v a l u a t i o nr e s p e c t i v e l y t h i sp a p e ru t i l i z e sm o s ( m e a n o p i n i o n s c o r e ) a st h es u b j e c t i v ee v a l u a t i o n t h et h r e eo b j e c t i v ee v a l u a t i o ni n d i c a t o r s a r es n r ( s i g n a l - t o - n o i s er a t i o ) ,c c ( c o r r e l a t i o nc o e f f i c i e n t ) ,a n dk u r t o s i s k e yw o r d s :m u s i cs o u r c es e p a r a t i o n ;s t r e a m i n gm e t h o d s ;d e m i x i n gm e t h o d s 1j1 山东大学硕上学位论文 1 1 研究背景及意义 第一章绪论 通常,音频信号是几个不同声源同时起作用的。例如,语音录音在“鸡 尾酒会”环境下得到的是不同的语者同时讲话的混合声音信号,乐音c d 是乐器演奏的乐音和歌者的混合体,电影原声是语音、乐音和环境声音的 混合体。由此可见,在现实生活中音频信号的混合现象随处可见,非常普 遍,音频信号分离就是指从混合信号中抽取、分离得到原始的音频信源。 乐音信号分离是指从多音混合音乐信号中分离得到参与演奏的各个 乐器或某个乐器的声音。近年来,随着对网络在线乐音音频信号的自动分 析、重组、自动检索等技术的需求r 增,乐音分离技术得到越来越多的关 注。该问题的解决有益于更加有效的音频编码、更为精确的音频信息分析 同时也利于对信号进行更加复杂的操作控制。而且,乐音分离系统在某 些领域有它的应用。如乐器辨认、旋律提取、音乐信息检索、自动乐音分 离及乐音转录等。随着分离技术的改进,分离乐音质量的提高,应用领域 也会越来越广。 1 2 研究现状及趋势 近年来,信号分离技术得到了越来越多的关注。国内外许多在不同应 用技术领域的专家学者纷纷就这一技术提出了自己的见解,取得了不同的 效果。混合信号分离算法主要包括如下几种技术:正弦模型技术2 巧】、计 算听觉场景分析技术【6 。1 1 】、模式识别技术【12 1 、频谱滤波技术【1 3 州1 和非负矩 阵分解技术【1 5 1 等。然而,乐音信号的分离技术涉及得较少。 虽然乐音信号分离的研究已取得了一些进步,然而该课题仍然是个未 解决的问题,已存在的分离方法存在一些缺点。例如:盲源分离算法一般 假设信号间是统计独立的,并要求信源数大于通道数,通常地这些限制条 件对于某些信号来讲是不太合理的;对于基于模型的非监督分离算法来 讲,已存在的算法只能限定信号的基频,确保在各次泛音频率处信号的能 量不为零,但是却又无法保证被分离信号的谐波特性,而这会导致分离效 r l 山东大学硕士学位论文 果对于没有明显音高的乐器不理想;基于正弦模型的分离算法对基频估计 精确性的依赖过大,如果信号基频提取的不够理想,分离效果也不会特别 的理想;时频分析的信号分离多采用改进的时频分析方法,而这些算法普 遍存在交叉项的问题,它们不仅给混合信源的分析带来误差,还给信号的 分离重构带来难题,造成最终的分离效果不理想。 各类分离算法,多少都涉及到乐音音高信息,分离效果与基频检测相 关联,而多基频检测本身就是个未充分解决的问题。因此,将来的研究应 是在提高多基频检测精度的同时关注其它乐音音色空间,同时采用多个音 色特征,提高分离效果。其次,也可以考虑多种算法的综合运用,充分发 挥各类算法的优点,进而提高分离效果。例如多参数混合模型是近年来研 究较多的一个方向。 1 3 混合乐音分离的概念 当几个乐音信号同时存在时,观测到的音频信号是几个不同声源的混 合体【1 1 。一些算法侧重于单个声源的分离,也有些算法尝试分离出所有的 声源信号。 目前,对于声源的定义主要有两种思路。一种思路是考虑每种振动 物理实体,例如每个乐器作为一个声源。另外一种思路是结合人耳对于声 音的感知。通常,混合乐音信号分离的具体定义是与特定算法相关的,一 定程度上是由设计者的应用领域决定的。 混合乐音信号分离的一大类算法称为分流法,该类算法可以追溯到计 算听觉场景分析。当声音经外耳道传入中耳时,镫骨的运动引起耳蜗内流 体压强变化,从而引起行波沿基底膜的传播。在每一声音频率上,随着强 度的增加,基底膜运动得幅度增大,不同声音频率沿着基底膜的分布是对 数型的【他】。计算听觉场景分析算法根据人耳的听觉感知效应将各感知听觉 对象分为各不相同的组,据此实现混合信号的分离。另外一大类乐音信号 分离算法定义为分解法,该类算法很大程度上是依赖于混合信号间的结 构,独立成分分析i 协2 1 】和主成份分析是两种常用的分析方法。 2 山东人学硕上学位论文 1 4 论文安排 本文主要从原理、分离性能及客观和主观试听效果几个方面研究几种 典型分离算法,取得了一定的成果。全文分六章,各章节安排如下: 第一章,介绍了混合信号分离的起源和发展及相关问题的研究现状和 存在的问题,继而确定了本文的研究内容和方向。 第二章,介绍了混合乐音分离相关的基础知识,包括乐音基础知识、 听觉掩蔽效应、叠接相加法、较为传统的j 下弦分析和正弦综合技术以及分 离技术评价标准。 第三章,介绍了分流算法中的三种分离技术,包括基于正弦模型的乐 音分离、基于听觉场景分析的乐音分离和基于k n n 聚类算法的乐音分离。 第四章,介绍了分解算法中的两种分离技术,包括基于频谱滤波的乐 音分离和基于非负矩阵分解的乐音分离。 第五章,针对上述五种分离技术完成了仿真试验,分析了试验结果并 分别从主观评价、客观评价和分离效果总体评估方面做了系统性能比较。 第六章,对本文所做工作进行了总结。 山东大学硕士学位论文 2 1 乐音基础知识 第二章技术基础和理论 音乐声学是研究乐音和乐律的物理问题的科学。乐器基本由三个部分 组成:振动体,激发体,共振体。振动体是主要声源,它与激发体共同决 定基音频率和基本音色。激发体用以激发主要声源,它决定激发的强度和 频率,共振体则给乐器的音色以具体的感知特征【2 2 1 。 乐音信号是一种典型的非平稳信号。但是,由于乐音信号通常具有较 为明显的音高、周期性明显,因此乐音信号通常可被认为是短时平稳的音 频信号,其谱特性和某些物理特征参量可被近似地看作不变。这样,就可 以用平稳过程的分析方法处理。 乐音信号参数分析是乐音信号处理的前提和基础。特征参数是为了便 于信号的处理,从信号中抽取出来的能表征信号某一或者某些属性的参 数。乐音信号的特征参数有很多,分别表征了音频信号的感知属性和物理 属性。在音频自动分类中,所选取的特征应该能够充分表示音频的重要分 类特性,对环境的改变具有鲁棒性。乐音参数可以分为感知属性参数和物 理属性参数两大类。 音高表示声音的高低,由声音信号的频率决定,可通过频谱对其进行 估计。音高提取方法依据分离准则主要分为三类,即时域方法、频域方法 和人耳感知域方法。 时域方法主要有过零率法、自相关法、最大似然法。频域方法有谐波 峰值法、倒谱法。人耳感知域方法与自相关法很接近,不同之处在于感知 域方法在自相关运算前将信号通过模拟人的听感知系统的耳蜗滤波器进 行滤波处理。 2 2 听觉的掩蔽效应 掩蔽现象2 3 2 4 】是种常见的心理声学现象,它是由人耳对声音的频率分 辨机制决定的。当两个响度不等的声音作用于人耳时,则响度较高的频率 成分的存在就会影响到人耳对响度较低频率成分的感受,使其变得不易察 4 山东人学硕+ 学位论文 觉,这种现象称为掩蔽效应。 由于频率较低的声音在内耳耳蜗基底膜上行波传递的距离远于频率 较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较难。掩 蔽会造成因一个声音的存在,而使得另一个声音的听阈上升。 噪声的存在也会影响到纯音的接受,即对纯音产生掩蔽。为了描述掩 蔽效应,引入临界带宽( c r i t i c a lb a n d ) 的概念。一个纯音可以被以它为 中心频率且具有一定带宽的连续噪声所掩蔽。如果在这一频带内噪声功率 等于该纯音功率,此时该纯音处于刚好能被听到的临界状态,即称这一带 宽为临界带宽。实验表明,人类在对1 0 0 0 h z 以上的声音频率范围的感知 遵循在对数坐标上的近似线性关系,b a r k 刻度是根据主观音高均匀划分的 频率刻度。 这种掩蔽效应可以从听觉生理上找到依据,人耳的基底膜具有与频谱 分析仪相似的作用。频率群的划分相应地将基底膜分成许多小的部分,每 一部分对应一个频率群。掩蔽效应就是在这些频率群内发生,这是因为同 一频率群的声音作用于基底膜的相同部分,它们在大脑中似乎是可以叠加 在一起来评价的。如果这时同时发声,可以互相掩蔽。划分后的b a r k 域 与耳蜗中基底膜的长度是线性关系,而与声音频率呈近似对数关系。 2 3 叠接相加法 在叠接相加法中,对每个固定时刻的离散s t f t 做逆d f t ,得到对应 的时域信号,然后在各短时段之间采用重叠相加的方式处理。 假设输入信号工被窗函数分割为多个帧,则第m 个窗函数所表示的数 据帧可表示为: x m ( n ) - - x ( n ) w g m r ) ,n ( - ,o 。) ( 2 1 ) 其中,r 为帧长,m 为帧索引值。信号是分帧处理的,那么,若是想要从 各帧信号中重构得到原始信号,则需要进行如下处理步骤: j ,g ) = o ) ( 2 - 2 ) 将x 。带入上述式子,则为: 山东大学硕十学位论文 y g ) = x ( n ) w ( n - m r ) 将上式中的x g ) 提到求和号的前面,则: 若是y g ) = x 0 ) ,则需要: 少0 ) = x ( n ) zw ( n - m r ) w ( n - m r ) = 1 ( 2 - 3 ) ( 2 4 ) ( 2 5 ) 上式( 2 - 5 ) 是o l a 对分析窗的约束条件,只要满足上述条件则对于任何 窗函数都可以实现原始信号的重构。 一些常见窗函数的定义如下: 汉明窗 w ( 聆) :1 0 5 4 - 0 4 6 c o s ( - 等) ,。门洲 。2 6 , 10 ,其它 汉宁窗 w g ) :i o s _ o s c o s ( 等) ,。门洲。2 7 , l0 , 其它 w g ) :i o 4 2os c o s l 等l + o o s c o s ( 等) ,。门洲。2 8 , 1 0 , 其它 2 4 正弦分析与综合 乐音信号谐波分量丰富,和谐性强,且具有短时平稳性。大多数乐音 信号都有一定的音高范围,并具有较明显的泛音结构。本文就是在充分利 用乐音信号这一特性的基础上,进采用正弦模型分析乐音信号。 信号序列的傅立叶理论表明任何周期波形信号都可模拟为一系列具 有不同频率及不同幅度的正弦信号的和。加性正弦模型是较早应用在信号 重构领域内的技术。实际上,很早之前在计算机音乐杂志上就曾较为详细 地阐述过该技术。早在2 0 世纪7 0 年代,a n d ym o o r e 就写程序实现并证 6 明了加性正弦重构技术。 2 4 1 正弦分析 正弦分析技术就是将音频信号看作一系列正弦信号的叠加,通过分析 给定乐音信号的频谱得到其泛音信息,即幅度、频率和相位三个参数。 j 下弦信号模型表示为: m x o ) = 0 ) ,z = 1 ,2 ,n( 2 9 ) m = l mh 。 x ( 玎) = 口聊。c o s ( 2 , , f 。,。n + o 。) ,? = 1 ,2 ,n( 2 1 0 ) - x 是由m 个声源混合得到的乐音信号,( 玎) 是第朋个声源。饥是声源历的 谐波次数,a m ,。、无矿吃。分别是第h 次谐波的幅度、频率和相位。通常 认为,厶,。= 毗 1 ,其中厶。是第聊个声源的基本频率。 2 4 2 正弦综合 正弦综合就是利用正弦分析得到的正弦参数幅度、频率及相位合成信 号。假设某泛音的瞬时幅度通过线性内插得到,如下: 伽m h + 竿m ( 2 - 1 1 ) 瞬时相位是瞬时频率的积分,由线性内插得到,如下: w ( 聊) = 一1 + 丁w i _ _ w 1 - 1 历 ( 2 1 2 ) 第厂个泛音的瞬时相位为: b ( 聊) = g ( ,一1 ) + ,”( 聊) ,砌。( 2 1 3 ) 第,帧其时刻m 的重构方程可表示为: d ( 聊) = ( 咖:。s e o ! ( m ) ( 2 1 4 ) 公式( 2 1 4 ) 表示重构得到的第,帧其时刻聊的信号,依据上式重构得到 各帧任意时刻的信号后即可得到所需的乐音信号。 7 山东大学硕士学位论文 2 5 分离技术的评价标准 乐器主要分弦乐器、管乐器和打击乐器等,各种乐器的音色是各不相 同的。乐音是具有短时平稳性和明显周期性的音频信号,频谱分析是观测、 了解乐音信号的常用方法,并且乐音信号的谱图很大程度上展现了乐音信 号的相关信息。 目前,常用的音频混合信号分离技术评价方法主要包括主观评价方法 和客观评价方法。 主观评价方法 平均意见得分( m o s :m e a no p i n i o ns c o r e ) 法用于对音频整体满意 度或语音通信系统质量的评价。m o s 采用5 级评分标准,其中1 对应最 差的感知质量,5 对应最高的感知质量,如表2 1 所示。参加测试的评听 人首先听完被测试音频,然后从这5 个等级中选择其中某一级作为他对所 测音频质量的评价。全体试验者的平均分就是所测音频质量的m o s 。由 于主观上和客观上的种种原因,不同试验者对同一音频的评价是不尽相 同。为了消除主观和客观的因素,保证对被测音频有一个中肯的评价,所 测音频材料应足够丰富,测试环境也要尽量保持相同。 在数字语音通信中,通常认为m o s 在4 o 分以上为高质量的语音, 也常称之为网络质量或长途质量。m o s 在3 5 分左右称作通信质量,这时 会感到重建话音质量下降,但不妨碍正常通话。m o s 在3 0 分以下常称合 成语音质量,一般具有足够的可懂度,但自然度及说话人的确认等方面不 够好。本文分离乐音信号质量的评价也参照了上述语音质量的评价标准。 表2 1m o s 评价标准 m o s 质量损害程度 5 完美不可感知的 4 很好 可觉察但可忽略 3 较好的轻微干扰 2 差感知干扰 1 很差干扰明显 目前所用的客观评价方法主要包括时域客观评价方法和频域客观评 价方法,下面简要介绍这两类评价方法。 8 山东人学硕十学位论文 时域客观评价方法 ( 1 ) 信噪比( s n r :s i g n a l t o n o i s er a t i o ) 信噪比是时域客观评价方法中最常用的。如果把分离后的乐音信号看 作是比对于原始音频信号上的噪声,那么,可以通过计算信噪比来衡量分 离乐音信号的质量。这是一种最简单的时域客观评价失真测度。设为音 频数据段长度,分离后乐音信号为x ( 甩) 和原始纯净乐音信号为x ( n ) ,则信 噪比定义如下: , x ( 聆) s n r ( x ,x ) = 2 0 l o g 可l 一 ( 2 15 ) z i x ( n ) - x ( 行) 】 ( 2 ) 相关系数( c c :c o r r e l a t i o nc o e f f i c i e n t ) 为检验分离后信号与原始纯净乐音信号之间的相似性,还可通过计算 它们的归一化相关系数来判定。设为音频数据段长度,分离后乐音信号 为x 7 ( ,z ) 和原始纯净乐音信号为x ( n ) ,则归一化相关系数可表示为: p ( x ,x 7 ) = x ( n ) x ( 刀) ( 2 1 6 ) ( 3 ) 峭度( k u r t o s i s ) 描述了随机变量的概率分布集中于均值的程度,或者随机变量的增加 速度,即分布函数的变化陡度。假设一个零均值的实随机信号x ( f ) 的概率 密度函数为p ( x ) ,那么其峭度定义为: k p ( x ) l = c u m 。伍) = e k 4 ) 一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022年福建省中考物理模拟试题分类:力学填空题
- 2019-2021年河北省中考物理试题分类汇编-实验题
- 中南大学《重力场与重力勘探》2022-2023学年第一学期期末试卷
- 中南大学《土力学》2022-2023学年第一学期期末试卷
- 中南大学《生产运作管理》2022-2023学年第一学期期末试卷
- 中南大学《基础工程》2021-2022学年第一学期期末试卷
- 中南大学《构造地质学》2023-2024学年期末试卷
- 中南大学《儿科护理学》2022-2023学年第一学期期末试卷
- 中南大学《材料结构分析(一)》2021-2022学年第一学期期末试卷
- 中国劳动关系学院《应急管理学》2021-2022学年第一学期期末试卷
- 解决员工冲突和问题的方法
- 小学二年级综合实践二单元第3课《纸陀螺》课件
- 城市排水管网收益计算方法
- 伤口评估(测量)专项考核试题及答案
- 飞机总体设计设计过程及算例
- 矿山开采与环境保护
- 健康管理解决方案
- 质子泵抑制剂用药参考汇总
- 初三化学半期考试总结(实用十五篇)
- 认识飞机(课堂PPT)
- 《国歌法》、《国旗法》主题班会
评论
0/150
提交评论