




已阅读5页,还剩51页未读, 继续免费阅读
(信号与信息处理专业论文)基于内容的哼唱音乐检索.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士学位论文 摘要 随着计算机网络和多媒体技术的发展,越来越多的人开始从互联网下载获 取音乐资讯。这种趋势对音乐信息检索提出了更高的要求。现有的网上音乐检 索局限于按作曲者、歌唱者、出版公司等基于文字的信息分类浏览。一种基于 内容的哼唱检索可以帮助用户通过哼唱旋律的片断,在大规模的音乐数据库中 找到想要的乐曲。这种新型的人机接口方式,对于通过电话网、互联网等实现 自然便捷的音乐检索有着巨大的现实意义。 基于内容的音乐检索主要涉及音乐旋律特征提取问题、音乐旋律匹配问题 以及音乐数据库构造问题等很多方面,这些都是建立一个完整、有效的音乐检 索系统的关键。本文在目前已有研究成果的基础上,对基于内容的音乐检索涉 及的以上各个方面展开了研究音乐旋律特征提取包括基频提取和音符切分两 部分,基频提取结合谐波和算法与自相关算法基频曲线的差异。消除了哼唱中 噪声的影响与半频、倍频提取错误,提高了系统的准确度。音符切分使用能量 曲线先粗切分基频曲线再细切分的分层切分方法保证音符切分的正确性。音乐 旋律特征本文使用四维矢量来表示,适应了绝对音高匹配与相对音高匹配相结 合的旋律匹配算法。最后根据哼唱者可能出现部分哼唱错误的现象,提出了两 层动态规划距离度量方法,提高了系统的鲁棒性和准确度。 根据以上的方法,本文构建了一个基于哼唱的音乐检索系统,实验结果也证 明了上述方法的有效性。 关键词:哼唱检索、基频提取、旋律匹配 中国科学技术大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rn e t w o r ka n dm u l _ t h n o d i at e c h n o l o g i e s ,m o r o a n dm o r ep e o p l es t a r tt od o w n l o a dm u s i ci n f o r m a t i o nf r o mt h ei n t e m e t t h i st r e n d h a ss e tm u s i ci n f o r m a t i o nr e l r i e v a lh i g h e rr e q u i r e m e n t s n o wp e o p l ec a ns e a r c h m u s i co n l yb yc o m p o s e r , s i n g i n g ,p u b l i s h i n gc o m p a n i e sa n do t h e rt e x t - b a s e d i n f o r m a t i o no n l i n e q u e r yb yh u m m i n gc o n t e n t - b a s e dc a nh e l pu $ e r ss e a r c ht h e m e l o d yb ys m g i n gt h et r n ew h i c ht h e yr e m e m b e r , t h e nt h em e l o d yc a nb ef o u n d f r o mt h el a r g e s c a l ed a t a b a s e s t h i sn e w 锣p eo fh u m a n - m a c h i n ei n t e r f a c eh a sg r e a t p r a c t i c a ls i g n i f i c a n c e f o rm u s i cr e t r i e v i n g n a t u r a l l ya n dq u i c k l yi nt e l e p h o n e n e t w o r ko ti n t e r n e t c o n t e m - b a s e dm u s i cr e t r i e v a l m a i n l y i n v o l v e sm u s i c a l m e l o d y f e a t u r e e x t r a c t i o n , m u s i c a lm e l o d ym a t c h i n ga n dt h es m m m r co fm u s i c a lm e l o d yd a t a b a s e a n dm a n yo t h e ri s s u e s ,t h e s ea r et h ek e yo fe s t a b l i s h i n gac o m p r e h e n s i v e ,e f f e c t i v e m u s i cr e t r i e v a ls y s t e m b a s e d0 1 1t h ea 】r :阽mr e s e a r c hp r o g r e s s ,t h i sp a p e rh a s r e s e a r c h e dm o s ta s p e c t so fm u s i cr e t r i e v a lc o n t e n t - b a s e da sa b o v eo v e ra 1 1 m u s i c a l m e l o d yf e a t u r ee x t r a c t i o ni n c l u d e sp i t c he x t r a c t i o na n dn o t es e g m e n t a t i o nt w op a r t s p i t c h e x t r a c t i o nc o m b i n e ds u b h m u n o n l cs u m m a t i o n a l g o r i t h m a n dt h e a u t o - c o r r e l a t i o na l g o r i t h m , u s i n gt h ed i f f e r e n c e si nt h ef r e q u e n c yc u f v e ,e l i m i n a t e d t h ee f f e c t so fn o i s ea n de x t r a c t i n gt h ew r o n gp i t c hl i k es e m i - f r e q u e n c yo rd o u b l e f r e q u e n c y , i m p r o v e dt h es y s t e m sa c c u r a c y n o t es e g m e n t a t i o nu s e de n e r g yc u r v e r o u g hp r o c e s s i n gf i r s t l y , t h e nu s e dp i t c hc u l n ef i n ep r o c e s s i n g ;g u a r a n t e e dt h e c o r r e c 恤e s so f n o t es e g m e n t a t i o n t h i sp a p e ru s ef o u r - d i m e n s i o n a lv e c t o r st oe x p r e s s t h em u s i c a lm e l o d yf e a t u r e a d a p t e dt ot h ec o m b i n a t i o na l g o r i t h m 、i t ha b s o l u t e p i t c hm a t c h i n ga n dr e l a t i v ep i t c hm a t c h i n g a tl a s tt h i sp a p e rp r o p o s e dt h et w o l a y e r sd y n a m i ct i m ew a r p m gd i s t a n c em e a s u r e m e n t , i m p r o v et h es y s t e m s r o b u s t n e s sa n da c c u r a c y , a c c o r d i n gt ot h ep h e n o m e n o no fs i n g e rs o m e t i m e ss i n g i n g t h et l m ew i t h p a r tw r o n g a c c o r d i n gt ot h ea b o v em e t h o d s ,t h ep a p e rc o b s t r u c t e dam u s i c a lr e t r i e v a l s y s t e mb u s e do ns i n g i n gt h et u n e ,e x p e r i m e n t a lr e s u l t ss h o wt h ee f f e c t i v e n e s so f t h e s em e t h o d s k e y w o r d s :o u e r yb yh u r m i n g 、p i t c he x t r a c t i o n 、m e l o d ym a t c h i n g n 中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和纸写的地方外,论文中不包含任 何他人已经发表或者撰写过的研究成果。与我一同工作的同志对本研 究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅或借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 包屯养 加7 年岁月勰日 中国科学技术大学硕士学位论文 第一章绪论 1 1 哼唱音乐检索技术简介 基于内容的多媒体信息检索技术成为解决如何在信息网络中迅速有效的找 到自己需要的多媒体信息的重要方式在音乐信息检索系统中。用哼唱构造查询 ( q u e r y b y - h u m m i n g , q b h ) 的方法提供了一种自然和方便的用户查询接口而得 到了广泛和深入的研究。 1 1 1 本研究的目的和意义 随着互联网的发展,搜索引擎成为网络上最流行的工具。用户只要在搜索 引擎中输入自己要检索的关键词,搜索引擎就会很快返回用户所需要的资料; 但是,现在的搜索引擎只处理文本信息( 对多媒体数据,也只使用该多媒体数 据周围的文字信息) ,还不能检索多媒体数据的内容信息。对海量的无标注信息 多媒体数据内容的有效检索,也渐渐成为下一代搜索引擎关注的热点技术之一, 也是对基于文本描述的检索方法的一个十分有效的补充。 哼唱检索( q u e r y b y h u m m i n g ,以下简称为q b 啪系统是基于内容的音频检索 ( c b m r , c o n t e n t - b a s e da u d i or e t r i e v a l ) 中近年才兴起的一个分支。用户对麦克风 哼唱一段时间,系统就能够在数字乐曲库中匹配,查找出旋律一致的歌曲;从 而即便用户不知道歌曲的名称、作者或者其他文字信息,只要他能记得歌曲中 的一段旋律并哼唱出来,系统就能够帮助他找到想要的歌曲。 可以想象,哼唱检索这种方便、自然的寻找音乐的方式具有极其广泛的应 用前景。例如,手机是现代社会中人们不可缺少的通讯工具,也是年轻人追求 娱乐、展示个性的途径,很多人经常会从互联网上下载歌曲作为自己的手机铃 声。由于手机上输入汉字不太方便,而且有时会忘记确切的歌名。这时如果只 需唱上- d , 段就可以下载到自己想要的歌曲。对用户来说是非常有吸引力的。 哼唱检索系统还可以应用到k t v ,作为卡拉o k 点歌的工具。现在基于歌名或 演唱者的点歌系统往往需要经过多次的选择才能找到目标歌曲。如果利用哼唱 检索,人们只需要哼唱一小段旋律,计算机就能很快返回一个可能的候选列表, 6 中国科学技术大学硕士学位论文 这样点歌就便捷多了。类似这样的应用还有很多。这里不一一列出。 总而言之,哼唱音乐检索具有广泛的应用空间,同时也可能成为下一代搜 索引擎的核心技术之,已经引起了国内外研究者的浓厚兴趣。 1 1 2 哼唱音乐检索技术的发展和现状 最早进行哼唱音乐检索的研究是1 9 9 5 年g h i a s 等发表的一篇这方面的文章 u 】。当时他们只用了非常简单的三个符号来表示曲调音高的变化,即u ( 升高) 、 r ( 重复,即音高不变) 、d ( 降低) 。在这种旋律表示方法下,他们采用最大相 同符号序列的匹配方法,来比较两段旋律的相似程度。由于这种表示方式对旋 律的描述能力很有限,他们需要2 0 - 4 5 秒长的哼唱作为输入,而且因为当时计 算机的计算能力比较低,所以数据库中只有1 8 3 首歌曲。 m c n a b 等人实现了第一个可以在互联网上进行哼唱检索的系统伫一1 他们采 用g o l d e n - r a b i n e r 方法来提取基频【6 1 ,然后根据能量和基频来分割音符,最后 以音符作为最小匹配单元来进行搜索。他们的哼唱检索系统m e l d e x 中有 9 4 0 0 首歌曲。 s o n o d a 提出了种基于“动态阈值调整”检索方法,并实现了一个检索系 统。“动态阈值调整”同时考虑了音高和音长信息。由于采用了由粗到精的匹配 策略,而且使用了大量内存来索引音符,所以该系统的检索速度比较快 7 - 耵。 k o s u g i 等人提出了采用音赢转移和音高分布来提高检索系统的性能1 9 - m 】。 在他们的s o u n d c o m p a s s 系统中有1 0 0 8 6 首歌曲,不过在使用过程中用户必须 跟着他们提供的节拍器哼唱。这个要求对用户很不方便,对广泛的使用也带来 很大的限制。 台湾清华大学的张智星等人在哼唱检索方面起步较早,在这方面他们已经 做了不少研究工作【1 1 ”l 。目前他们已经开发出了名叫“卡拉迷”的多模态点歌 系统,目前该系统大约有1 3 0 0 0 首歌曲【1 6 1 。因为音符切分是一个很容易出错的 步骤,而且错误的音符切分对旋律匹配会造成很大的负面影响,所以他们采取 了避开切分音符的策略,直接使用基频曲线进行旋律匹配。但是在这个策略下, 系统的检索速度比较慢。 微软亚洲研究院的卢烈等采用音高轮廓、音高变化以及音长作为旋律的特 征,搜索时首先对音高轮廓特征采用动态规划方法进行比较,然后再做音高变 化和音长的精细比较,他们的歌曲库有大约1 0 0 0 首歌曲【1 7 】。 上海交通大学的吴亚栋等人也做了一些这方面的研究【1 8 】。他们提出了一种 7 中国科学技术大学硕士学位论文 近似旋律的匹配方法,即线性对齐匹配方法。他们在这个方法基础之上实现了 一个哼唱检索的原型系统,该系统中包含有3 8 6 4 首歌曲。 1 1 3 哼唱音乐检索系统的整体框架 图1 1 哼唱系统的整体框架 本文所构建的哼唱检索系统地整体框架如图1 1 所示。该检索系统主要包 含三个部分,分别是旋律提取模块、旋律匹配模块和音乐旋律数据库的构建; 其中旋律提取模块又包括基频提取模块和音符切分模块。 对于输入的一段哼唱语音,首先调用基频提取模块,提取哼唱输入的基频 曲线;再切分哼唱输入中的音符,从而得到以音符为单位的哼唱输入的旋律信 息;最后在音乐旋律数据库中,根据旋律相似度的匹配程度搜索出需要的候选 歌曲。 1 2 论文的主要工作和创新点 在本论文中,作者所做的主要工作和创新点如下: 1 结合谐波和算法与自相关算法基频曲线的差异,消除了哼唱中噪声的影 响与半频、倍频提取错误,提高了系统的准确度。 2 根据哼唱者可能出现部分哼唱错误的现象,提出了两层动态时间规整距 离度量方法,提高了系统的鲁棒性和准确度。 3 将音阶模型音调调整为基础的绝对音高匹配算法与相对音高匹配算法结 合起来,提高了系统的准确度。 8 中国科学技术大学硕士学位论文 1 3 论文的内容安排 本论文对哼唱音乐检索中的主要问题逐一详细阐述本文所采用的方法。 第二章主要阐述了如何从哼唱中提取基频和切分音符从而得到旋律信息, 旋律最主要的信息是音高和音长,音高的变化反映了旋律的起伏,而音长则表 达了旋律的节奏信息。音高的表示方法有很多,但都是由基频得到的。因此稳 定准确的基频提取,对于哼唱检索具有至关重要的作用。本论文采用了自相关 方法与谐波和方法相结合提取基频,减少了倍频和半频错误。然后,该章介绍 了本文使用的音符切分方法,采用该方法可以得到比较满意的音符切分结果。 第三章详细描述了本文提出的旋律搜索匹配方法。因为旋律搜索需要面对 很多不确定的因素,比如哼唱者跑调、漏唱几个音符、多唱几个音符等情况, 此外,切分音符过程中也会出现漏切或者多切的错误,乐曲的乐谱在个别地方 可能也会有错误。在使用过程中,为了减少对用户的限制,往往允许用户可以 从歌曲的任意地方开始哼唱,这导致了哼唱旋律起始点的不确定性。在这些不 确定性下,如何进行快速有效的搜索匹配就是个很重要的问题。本文采用了绝 对音高与相对音高分别代表旋律的两种方案相结合的复合算法;对符合音阶模 型的歌曲使用音阶模型音调调整为基础的绝对音高匹配方法,对不符合音阶模 型的歌曲使用音高差代表音高信息的相对音高匹配算法;从而提高了旋律匹配 的鲁棒性和准确性。同时,为了进一步提高系统的容错性和鲁棒性,解决用户 哼唱中可能部分出错的问题,提出了一种两层动态时间规整算法,再结合贝叶 斯公式使用概率准则挑选可能性最大的结果。 在论文的最后对本文提出的方法进行了总结,展望了以后研究工作的方向。 9 中国科学技术大学硕士学位论文 2 1 引言 第二章旋律特征提取 将哼唱输入的旋律信息与乐曲库中的旋律进行比较匹配,首要的任务就是 将旋律以适当的方式表示出来。旋律中最重要的因素是音高和音长,围绕这两 个因素有多种的表达方式。 在早期的有关哼唱检索的文献中【1 1 ,他们只用了非常粗略的音高变化方向 来表示旋律,即u 表示音高升高,r 表示音高保持不变,d 表示音高降低。在 这种表示方式下,旋律特征具有很强的稳定性,而且旋律比较的计算也相当简 单。但是这种旋律刻画过于粗略,对于旋律的区分能力非常有限。 在【5 】中,他们采用了音高变化值、节奏和音高变化方向作为旋律的特征。 而【l9 】使用音高变化的斜率作为旋律特征的一部分, 2 0 l 中则把所有的音高变化 可能出现的情况细分为四种基本音高变化轮廓片断。 以上旋律的表示方式的共同之处在于,旋律的表示都以音符作为最小组成 单元,这就会涉及到如何从基音曲线中提取切分音符的问题。由于旋律的变化 多种多样,尤其当哼唱的风格很随意或者节奏感比较弱的时候,切分音符很容 易出错。也有人直接使用基频曲线作为旋律特征,规避音符切分,但是搜索匹 配的计算量成倍增长,而且当前后音符的音高不变时丢失了节奏信息。 本文中还是采用了切分音符的策略,以音符作为旋律的最小组成单位。旋 律的特征以音高或者音高的变化为主,同时兼顾音长信息。旋律匹配部分本文 采用了分而治之的策略。对符合不同条件的歌曲采用不同的有针对性地的算法, 详细介绍见第三章。本章主要介绍如何从哼唱输入和m i d i 中提取出旋律信息, 即音符的音高和音长信息。 2 2 基频提取 提到基频或者基音周期,这里先介绍一下有关基频的一些基础知识。然后 再分析一些基频提取的经典方法,最后提出本论文所采取的算法。 2 2 1 基音频率的产生 模拟语音信号经过a d 数字化采样后就得到了离散的语音信号,数字化采 i o 中国科学技术大学硬士学位论文 样值以文件形式存储到计算机中后就可以用有关专门工具程序如c 沁o l e d i t 等读 出并显示在计算机屏幕上,得到便于观察分析的语音时域波形图。随意打开一 段语音信号如图2 1 ,图中由于时间轴压缩到很短,只能看清该段语音的轮廓, 无法辨别语音波形的具体细节。如果我们把该信号展开,就能得到很长一段, 图2 2 是其中一个汉字发音的波形。可以看到,语音信号具有很强的“时变特 图2 - 1 一段语音信号 图2 - 2 一个汉字发音对应的语音信号 中国科学技术大学硕士学位论文 性”,有些波形段具有很强的周期性,有些波形段则具有很强的噪声特性,而且 周期性语音和噪声性语音的特征也在不断变化之中。但是在较短的时间内,如 5 - 5 0 m s ,语音信号的特征可以认为基本保持不变。这就是语音信号的“短时平 稳性”。语音信号的短时平稳性是语音信号数字处理的基础,通常截取兵有短对 平稳性的一段语音如l o 3 0 m s 进行分析处理,即为语音信号的分帧。分帧之后, 就能一帧一帧的分析提取语音的某些特征了。 语音的最基本组成单位是音素,语音就是由一连串的音素所组成的。这些 音素及其相互间的过渡就是代表信息的符号。音素的排列是有语音的规则所控 制,对这些规则及其在人类通信中的含义的研究属于语言学的范畴,而对语音 中的音素的分类和研究即为语音学。语音的产生依赖于人类的发声器官。发声 器官主要由喉、声道和嘴等组成,声道起始于声带的开口( 声门) 而终止于嘴 唇。对男性来说声道的平均长度约为1 7 c m ,声道的截面积取决于舌、唇、颌和 小舌的位置,它可以从零( 完全闭合) 变化到约2 0 c m 2 ,鼻道则从小舌开始到鼻 孔为止。当小舌下垂时,鼻道与声道发生声耦合而产生语音中的鼻音。完整的 发声器官还应包括由肺、支气管、气管组成的次声门系统,这一次声门系统是产 生语音能量的源泉当空气从肺里呼出来的气流由于声道某一地方的收缩而受 到扰动。语音就是这一系统在这时候辐射出来的声波。 语音按其激励形式的不同可以分为三类: ( 1 ) 浊音( v o i c e ds p e e c h ) :当气流通过声门时,如果声带的张力刚好使声带 发生张弛振荡式的振荡,产生一股准周期的气流,这一气流激励声道就 产生浊音。 ( 2 ) 清音( u n v o i c e ds p e e c h ) :当气流通过声门时,如果声带不振动,而在 某处收缩,迫使气流以高速通过这一收缩部分而产生湍流,就得到了清 音。 ( 3 ) 爆破音( p l o s i v es p e e c h ) ;如果使声道完全闭合,在闭合后建立起气压, 然后突然释放,就得到爆破音。 但发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串。 这 个脉冲串的周期就称为“基音周期”,其倒数称为“基音频率”。音频与个人声 中国科学技术大学硕士学位论文 带的长短、厚薄、韧性、劲度和发音习惯等有关,在很大程度上反映了个人的 特征。一般来说,男性说话者的基音频率大致分布在5 0 2 0 0 h z 的范围内,而女 性说话者和小孩的基音频率在2 0 0 4 5 0 h z 之间。 基频的提取有时会受到共振峰频率的干扰。人类的声道和鼻道都可以看作 是非均匀截面的声道管,声道管的谐振频率称为共振峰频率,简称共振峰。共 振峰与发声器官的确切位置有很大的关系,即共振峰频率与声道的形状和大小 有关,每种形状都有一套共振峰频率作为其特征。改变声道的形状就产生不同 的声音,因此,当声道形状改变时。语音信号的频谱特性就随之改变。共振峰 频率由低到高排列依次为第一共振峰,第二共振峰。第三共振峰,。一般 的浊音中可以辨别的共振峰有5 个,其中前面3 个对于区别不同语音至关重要。 汉语语音的基础是汉语拼音,有1 0 个元音和2 2 个辅音组成,共计2 1 个声 母和3 8 个韵母。所有的元音都是浊音。元音、辅音与声母、韵母是两个不同的 概念,声母、韵母是以在音节中位置而论的,元音、辅音是以发音方式而定的。 但两者又是相互联系的,汉语中声母都是辅音,大部分韵母是元音,少部分韵 母由元音加辅音构成。 总之,语音的产生可以理解为三个部分:激励源、声道模型和辐射模型。 激励源分为浊音和清音两种。浊音的声带振动基频就称为基音频率。辐射模型 指人嘴将发声气流送出体外。基音周期是语音的一个非常重要的特征参数,在语 音编码、语音合成等方面有相当重要的作用。基音周期估计有许多方法,但是 迄今为止,对各种说话人、不同使用环境和不同应用都能给出满意结果的基音 周期估计方法还没有出现。基音周期估计的困难主要在于语音变化的不确定性 和变化性,主要表现在: ( 1 ) 语音信号常根据不同的发音而发生变化,这一变化降低了连续语音 段的相关性,特别是在清浊音的过渡段以及基音周期发生抖动过程, 语音波形变化更加剧烈,加上无周期性的清音段语音合背景噪声的 影响,给基音周期的检测造成了许多障碍。 ( 2 ) 即使当发音稳定的时候,由于通过声门的脉冲幅度大小还是有区别 的,如此一来,语音信号相当于被调幅处理了,也给基音周期的检 测带来了困难。 中国科学技术大学硕士学位论文 ( 3 ) 不同的人说话的基音周期频率分布有所不同,男性主要分布在 6 0 2 0 0 h z 范围内,女性和小孩主要分布在2 0 0 4 5 0 h z 之间,基音检 测所跨频率范围比较大,必然会降低基音检测的准确性。 旋律特征中最重要的是音高或者音高的变化,而音高都是由基频值得到的, 基频也就是基音周期的倒数。稳定准确的基频提取算法对于得到准确的旋律特 征具有至关重要的作用。提取基频的方法有很多,现有的方法一般都是在短时 域上作信号处理,按其分析的算法可分为时域分析和变换域分析两种。总的来 说可以分为下面几类: 1 ) 时域估计法直接由语音波形来估计基音周期。其中,有并行处理法,数据 压缩法,中央削波自相关法,平均幅度差函数法。 2 ) 变换域法在语音信号的频域或倒谱域估计基音周期。比如,谱均衡l p c 法,倒谱法,谐波峰值法,直方图法,最大似然法,谐波和法等等。 3 ) 混合法先将信号抽取声道模型参数,然后再利用它对信号进行逆滤波,得 到音源序列,最后再用自相关法或平均幅度差函数法求得基音周期。比如,简 化逆滤波器跟踪法。 此外,还有基于小波变换的基音提取方法。下面先介绍一种常见的自相关 基频提取方法,然后介绍本文所采用的谐波和基频提取方法。 2 2 2 自相关算法介绍 自相关算法的主要步骤如图2 - 3 所示: 图2 3 自相关算法步骤 1 低通滤波 将输入的语音信号通过一个截止频率为9 0 0 h z 的低通滤波器,该滤波器可 以是9 9 点的线性相位有限冲击响应的数字滤波器,该滤波器的具体特性可以参 考文献口1 1 。 2 分帧 每3 2 毫秒作为一帧语音,每两帧之间重叠1 6 毫秒。帧长的大小和帧移的大 1 4 中国科学技术大学硕士学位论文 小可以根据具体应用作调整。 3 计算自相关 对每帧内的信号计算自相关,具体公式为 r ( f ) = 古s ( n ) s ( n - e r ) ( 2 1 ) n , - i 其中,s ( ) 为语音信号,n 为一帧语音的采样点数。 4 寻找极值点 在经过以上处理的自相关值中找临近的极值点。极值点之间的距离即为基音 周期,取其倒数即为基频。 下面简单分析一下自相关算法提取基频的基本原理。能量有限的语音信号 s ( n ) 的短时自相关函数定义为; n - i - r 氏( f ) = 【s ( n + m ) w ( m ) 】【s ( n + m + f ) w ( m + f ) 】( 2 - 2 ) m o 其中。f 为移位距离,w 0 虬) 是偶对称的窗函数。该函数具有以下性质: ( 1 ) 如果 s ( n ) 是周期信号,周期是p ,则r ( f ) 也是周期信号,且周期相同, 即r ( f ) = 更( p + f ) 。 ( 2 ) 当f = 0 时,自相关函数具有最大值,即在抽样0 ,p ,+ g p ,周期信 号的自相关函数达到最大值。 ( 3 ) 自相关函数是偶函数即r ( f ) = r ( _ f ) 短时自相关函数法基音检测的主要原理大都是利用短时自相关函数的性 质,通过比较原始信号和它的移位后的信号之间的类似性来确定基音周期的, 如果移位距离等于基音周期,那么。两个信号具有最大类似性;或是直接找出 短时自相关函数的两个最大值间的距离,即作为基音周期的初估值。在实际采 用短时自相关函数法进行基音检测时,可以采用两种思路,一种是使用一个窗 函数,窗不动,语音信号移动,这是经典的短时自相关函数法。窗口长度n 的 选择至少要大于基音周期的两倍,n 越大,短时自相关函数波形的细节就越清 楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器( d s p ) 的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换 法、递归计算法等;n 越小,误差越大,但计算量较小。另一种思路是使用两 个窗函数,为变形的短时自相关函数法。两个窗函数可以等长不等起点。如协 方差函数法;也可以不等长,如短时互相关法。 中目科学技来大掌硬士学位论文 自相关函数特别适用于噪声环境下的基音提取。但通常情况下,基音频率与 第一共振峰频率比较接近,当声道响应的自相关峰大于基音周期的自相关峰时, 单独使用自相关函数会导致半倍和双倍基音的提取误差,产生半频或倍频错误。 2 2 3p r a a t 与基频提取 p r a a t 程序由阿姆斯特丹大学语音科学研究所( 龇i n s t i t u t eo fp h o n e t i c s s c i e n c e so ft h eu n i v e n i _ i yo fa m s t e r d a m ) 的p a u lb o e r s m a 与d a v i dw e e n i n k 共同 开发的语音研究开发工具主要用于语音分析和合成,可以在其主页: h t t p :w w w p r a a t o r g 或h t t p :w w w f o n h u m u v a n l p r a a t - v 载到各个版本,这 里使用了p r a a tf o rw n d o w s4 3 2 7 版本。 图2 - 4p r a a t 分析语音信号频谱 选择p r a a t 作为开发论文中基频提取模块的辅助工具之一是由p m a t 具有的 许多优点决定的。首先它是一款免费软件,使用者可以从网络上随意下载使用。 1 6 中国科学技术大学硕士学位论文 只要不用作商业目的即可。p r a a t 运行时所占空间小于4 m b ,对计算机的性能 要求不高。另外经过作者近十年的开发和完善,该软件的操作很简便,代码也 是公开的,有很详细的说明和介绍文档,移植性也很好。 图2 - 4 是用p m a t 获取的语音的频谱。p r a a t 不仅能获取了语音信号的频谱图, 还能提取出语音信号的音高( p i t c h ) 、音强( i n t e n s i t y ) 、共振峰等信息。图 2 5 中蓝线是这段信号的音高即基频曲线,黄线是音强曲线,红线是共振峰曲 线。 图2 - 5p r a a t 获取的音高、音强、共振峰信息 p m a t 中提取基频也是使用自相关算法,通过先f f t 变换再f f t 反变换的方 法求得信号的自相关值。 对于时域信号x ( t ) ,延迟f 的自相关( f ) 定义为 ( f ) = j x ( r ) x o + f ) 出 1 7 ( 2 - 3 ) 中圈科学技术大学硕士学位论文 由于语音信号是非平稳信号。但短视内能当成平稳信号来处理,一般处理是使 用加窗技术,p r a a t 中求取语音信号自相关步骤如下: 1 对信号加窗:使用汉明窗: 口o ) = ( 工( f ) 一以) 似r ) ,以为所取时间段内x ( t ) 的均值。( 2 - 4 ) w ( t 户。触5cos孕(2-5) 2 计算加窗信号归一化自相关 您 i 口( o 口( r + r ) d t r o ( r ) = ( - f ) = 卫1 一 ( 2 - 6 ) k 2 ( t ) d t 6 3 计算窗口函数归一化自相关 。( f ) :( 1 一铷g + c o s ! 娑勺+ 去s i n 2 笋 ( 2 7 ) 4 碍到原始信号x ( t ) 的自相关 ( f ) = 器 ( 2 8 ) p r a a t 中提取基频的函数原型为: i n tc s o u n d :s o u n dt op i t c h ( c p i t c h p p i t e h , d o u b l ed t i m e s t e p ,d o u b l e d m i n i m u m p i t c h ,d o u b l em a x i m u m p i t c h ,d o u b l ed s i l e n c e t h r e s h o l d ) ; 函数名:c s o u n d = s o u n dt op i t c h 函数功能:从语音分析得到基频 返回值:c p i t c h s o u n dt 0p i t c h 。求出的基频数据 参数说明: p s o u n dp s o u n d :输入语音 d o u b l ed t i m e s t e p :o 8 f i n i n d o u b l ed m i n i m u m p i t c h :该语音的最低可能基频( - - 般定为5 0 h z ) d o u b l em a x i m u m p i t c h :该语音的最高可能基频( 一般定为6 0 0 h z ) 2 2 4 谐波和算法 基音具有一个很重要的特性,在基音的谐波处频谱的能量会有明显的加强。 图2 - 6 是一段哼唱语音的频谱图,在图中最下方的亮线就是基音曲线,在此基 音曲线之上的二次、三次谐波以及更高次谐波处都能看到明显的能量增强。谐 波和方法主要是利用谐波和能量的加权和来检测基频。由于加性噪声和共振峰 1 8 中国科学技术大学硕士学位论文 都没有这种特性,所以基于基音谐波和的方法对加性噪声和共振峰的有很强的 抗干扰能力。此外,根据基音感知理论,人对基音的感知不仅仅是通过基音本 身,而且也通过基音的谐波。人对电话语音中基音的感知就证明了这一点:大 部分电话的低频截止频率在3 0 0 h z 左右,人的基频的范围大部分在 6 0 f i z - - 6 0 0 h z ,但人对电话中基音的感知却几乎不受影响,这说明了人对基音的 感知,在相当大程度上来自于对基音谐波的感知。 图2 - 6 一段哼唱语音的频谱 谐波和方法的基本步骤如下 2 2 】: 1 为了增大f f t 的精度,首先将信号降采样率到2 k ,对于输入为8 k 的 语音,每四个采样点的平均值作为降采样率后的数据。 2 计算降采样后语音的f f t 。 3 对f f t 进行插值,每个倍频插值后得到4 8 个点。 4 使用式( 2 9 ) 计算谐波和。 日( 五) =s ( 矾) ( 2 9 ) 其中,s ( ) 为插值后得到的精细频谱,h 为压缩因子,0 h l ,n 为最大谐 波次数。 1 9 中国科学技术大学硕士学位论文 肛姗r 每 ( 2 1 0 ) 其中,f l o o r ( x ) 为下限函数。求得小于等于x 的最大整数。f 。为最大谐波 频率。将h ( f o ) 的最大值对应的f o 作为最佳的基频,或者采取动态规划2 l 等方法,选取每帧最佳的基频值。 2 2 5 自相关与谐波和算法的结合 基频提取中一直还存在着两大难点:一个是确定某一帧有无基频的问题。清 音段或静音段是不存在基频的,其基频值应该置零;人哼唱的时候经常会有一 些换气的动作,往往会在发声的音符间留下具有一定能量的噪声,试验中这类 噪声对系统的影响较大,必须去除从这类噪声中提取的基频。第二个难点是针 对有基频段的基频值提取中常见的半频和倍频错误问题。 自相关算法提取的基频曲线存在半频、倍频错误,但是能在一定程度上解决 第一个问题。本文采用的谐波和方法加入了动态规划后平滑处理,有效的降低 了半频倍频错误,但没有判断基频的有无。为了既很好的解决换气噪声基频的 干扰,又准确的提取出基频,防止半频倍频错误,可以结合自相关算法提取的 基频曲线和谐波和算法提取的基频曲线,使用数据处理的方法达到理想的效果。 图2 7 中蓝线是自相关算法提取的基频曲线。红线是谐波和算法提取的基 频曲线。可以看到蓝线与红线大部分都是吻合的,对应的基频曲线提取得也是 正确的;但是那些曲线差距较大的地方就是具有一定能量的噪声数据所提取出 来的伪基频。 卜 - 厂、 1 - 飞a , 、 - i l 1 胡 - 1 , 1 中国科学技术大学硕士学位论文 图2 7 自相关算法与谐波和算法基频曲线 图2 8 是同一段语音的不同比例的频谱图,从该图上就能看到这个语音小 片段中频谱有三个明显的缺失,但基频不可能在这么短的时间内反复变化。图 2 - 9 是它的基频曲线图,可以看到谐波和算法克服了自相关算法产生的倍频错 误。 图2 - 8 一段语音的频谱图 鬟畦t 1 0 0 3 a a4 图2 - 9 倍频错误 图2 - l o 显示了某段哼唱的结合算法提取的基频曲线去除了自相关算法提取 基频中的噪声错误。 使用自相关算法与谐波和算法结合的要点是要分清两种算法某一段基频曲 线的差距是噪声的伪基频还是半频倍频错误造成的,在本文实验中对两种算法 的基频值差设定阈值达到了较好的效果,既去除了噪声又抑制了半频倍频错误。 2 l 中国科学拄术大学硕士学位论文 实验结果表明使用自相关与谐波和结合的算法有效的降低了自相关算法提 取的基频中的倍频错误。实验中1 5 6 首测试歌曲,使用自相关算法提取基频时 其中有1 2 首歌曲存在倍频现象,使用结合算法则去除了这些倍频错误。 图2 1 0 结合算法去除噪声基频错误 下面的表2 1 是使用结合算法提取基频的系统与只使用自相关算法提取基 频的系统的最终识别结果对比。可以看到,结合算法提取的基频更好。实验数 据说明:选择了未经专业音乐训练的男女,共1 5 人,在安静的房间里通过麦克 风哼唱录制歌曲。对哼唱方式没有限制,是否哼唱歌词也不限,哼唱长度在8 s 到2 5 s 之间,录音采用8 z ,1 6 b i t 量化。共得到了1 5 6 个哼唱片段:实验中 收集的m i d i 音乐数据库共包含9 7 4 首中国歌曲。测试的硬件环境是p e n t i u m - i v 2 4 g h z ,r a m 5 1 2 m b 。 t o p lt o p 3t o p 5t o p l 0t o p l 0 0 自相关算法( ) 6 3 4 6 1 57 3 0 7 6 97 6 9 2 3 17 9 4 8 7 29 1 6 6 6 7 结合算法( ) 6 9 8 7 1 87 7 5 6 4 17 8 8 4 6 28 3 9 7 4 49 4 2 3 0 8 2 3 音符切分 表2 1 基频提取改进系统准确度结果 音符切分,就是从一段连续的音频信号中切割出离散的音符。虽然有些乐器, 尤其是m i d i 乐器,能够发出十分准确的音高,使得音符切分可以直接通过观 中国科学技术大学硕士学位论文 察音高的跃变完成,但是对于人声哼唱,音高的变化往往是连续和不规则的, 很难通过音高变化来判断。 2 3 1 发音段的检测 对于语音信号的处理,大部分情况都需要进行语音端点检测,即需要检测 发音的起始点和终止点。在安静情况下端点检测比较简单,但在环境噪声不确 定或者信噪比很低的情况下,端点检测并不容易。在端点检测方面已经有了相 当多的研究 3 7 - 3 纠。 一般来说要对高信噪比环境下录制的语音鉴别端点是很容易的事情,因 为此时背景噪声的能量远远低于语音能量,所以仅凭能量特征就可以很好的确 定语音的起点和终点。但是在实际应用中很难有这么高的信噪比,在发音开始 时的语音能量与背景噪声能量可比拟时,仅仅根据能量来判决是粗糙的。例如, 当语音的起点和终点是弱摩擦音、弱爆破音或鼻音等情况时,此时的能量很弱, 极易与背景噪声混淆,造成端点检测不精确,其后果是检测出来的语音不完整, 有“切音”现象。 论文中的端点检测,也只考虑安静条件下的端点检测问题,主要能适应不 同发音人哼唱时音量不同情况下的端点检测。具体的过程如下: ( 1 ) 计算一段完整哼唱录音在时域上的平均能量e 。和其标准差e 如h 。 ( 2 ) 对能量小于e 。一- 2 玩h 的语音段被认为是静音段,能量大于 e 。+ e d 。i 忸2 的部分被判定为语音段。 ( 3 ) 如果静音段占整个长度的比例小于5 ,则e d e h = e d e m l + l ,返回到2 。 如果静音段占整个哼唱长度的比例大于5 0 ,则判定该文件需要重新制作。 时域平均能量用来适应不同哼唱者音量不同的情况,能量标准差则用来解 决哼唱者之间能量动态范围不同的情况。这里的端点检测能检测出绝大部分静 音段语音,但是由于哼唱输入中存在噪声的干扰,音符切分中还需要进一步结 合音高曲线,才能取得较好的效果。 2 3 2 音符切分算法回顾 对于哼唱输入,切分音符的方法很多,但一般都是依据能量的起伏 1 7 1 中国科学技术大学硬士学位论文 来切分音符的。即求出输入信号的能量对数曲线,在其上判断每个时间点为有 声时刻或无声时刻。连续的有声区域如果达到一定的长度,即认为是一个音符。 判断有声或无声的依据并不唯一,但大多是根据整个能量曲线的极大和极小值 动态估测有声区的能量阈值,然后用阈值来判决这种方法对音频输入有一个 假设,那就是在音符的交界处有一个能量低谷,或者说要求哼唱旋律在音符之 间留出一定的间隙。要保证这一点,通常可以提示用户以“d a d a ”声哼唱; 事实上,实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代工外包合同标准文本
- 保利地暖合同标准文本
- 乔木购销合同标准文本
- 二零二五版厂区租赁协议书
- 二零二五公司内部合伙投资协议书
- 个人茶地出租合同样本
- 二零二五版人投资入股协议书
- 个人租房合同样本首
- 保险投保合同标准文本
- “像”-与-“不像”05年度美术教案
- 供应室的质量改进课件
- 机械公司产品销售合同签订评审申请表
- 统信UOS桌面版系统产品白皮书
- 年产1000吨甲壳素项目环评报告书
- 摄影培训教学课件:摄影用光
- 食品从业者工作服清洗消毒记录
- 化妆品经营使用单位现场检查表
- 骨料检测知识培训讲义
- DB33∕T 2387-2021 外贸综合服务企业服务规范
- 农药经营许可管理制度
- 通用精美电子小报模板(35)
评论
0/150
提交评论