已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东9 l n 范人学烦i :学位论义 摘要 随着通信技术和计算机技术,尤其是i n t 锄e t 的飞速发展,各种各样的信息 成几何级数增长,人们也更有机会接触到大量的多媒体内容,如图像、视频、音 频等。这些多媒体数据已经逐渐成为信息处理领域中主要的信息媒体形式。但是 随着数据量的快速增长,如何自动的对这些内容进行管理就成为了一个突出的问 题。特别是对于身边日益繁多的海量音乐信息,人们要求有快速高效的方法对它 们进行分类管理( 根据音乐流派或演唱者等) 。 音乐的自动分类实质是语音信号识别问题,一直以来都得到了人们的重视和 研究。尽管随着语音识别技术的发展,许多新的方法都被应用到音乐分类这一领 域来,却由于音乐的多样性和不确定性,使其离大规模的实际应用尚有一段距离。 目前大部分的音频音乐分类算法都包含了两个阶段:特征提取阶段和分类阶段。 许多音乐特征可用于实现这一算法,包括时域的短时能量、短时过零率等,频域 的带宽、谱质心等,还有基于听觉感受的m f c c ( m e l 珩e q u e n c yc 印s t r a lc o e m c i e n t s ) 系数等。而分类算法可利用模式识别和模式分类中的大量现存的高效算法,例如 c m m ( 高斯混合模型) m 3 、n n ( 神经网络) 、h m m ( 隐马尔可夫模型) n 0 m 地2 1 3 乜3 m 4 1 等 世 奇。 面对如此多的特征和分类算法,如何组合它们来得到较好的分类精确率,是 否有可能对某些特征进行预处理来提高分类精确率,或是根据音乐分类的特殊性 对分类器进行优化来取得高精确率? 为了解决这个问题,本文在大量现存的音乐 分类算法的基础上,提出了一种与支持向量机集成技术相结合的新的音乐分类算 法及结构。 自v a p n i k 于1 9 9 5 年提出支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 后, 支持向量机已经在很多领域得到了成功的应用。它以统计学习理论( s t a t i s t i c a l l e a m i n gn l e o s l t ) 为基础,具有简洁的数学形式、标准的训练方法和良好的 泛化性能,己广泛应用于模式识别、函数估计和时间序列预测及分类问题中。但 在s v m 的研究中仍然存在许多问题尚待解决,例如:模型选择问题、针对大规 模训练集的学习效率问题等。目前,在s v m 的学习训练过程中,几乎所有研究 都以单个支持向量机作为训练器,关于s v m 的多学习器学习方法研究甚少。集 山东帅池人学硕i j 学位论文 成学习( e n s e m b l el e a m i n g ) 技术作为一种有效的多学习器学习方法已获得许多有 价值的结果,将集成学习技术引入到s v m 学习中,可以更好地提高s v m 的泛 化能力,因此,基于集成学习的s v m 学习方法研究成为目前s v m 研究中一个 重要的方向。 本文系统地研究了s v m 集成学习方法及音乐分类的原理、方法与技术,对 现有的支持向量机集成算法进行了改进,并尝试把s v m 集成应用于音乐分类的 研究,最后对提出的算法进行了大量的数值实验和性能测试,实验中对不同的分 类器针对不同特征集进行分类的结果进行了仿真,仿真结果不但验证了使用 s v m 集成后音乐分类的最终精确度有了较大的提高,而且也显示了s v m 在分类 问题上相对于其它分类器的优势。 关键词:音乐分类支持向量机集成学习特征提取 中图分类号:t p 3 9 1 4 1 l l 山东帅范人学坝i j 学位论文 a b s t r a c t w i t l lm er a p i dd e v e l o p m e n to fc o m 脚u n i c a t i o n ,c o m p u t e ra 1 1 di n t e m e t ,v 撕o u s i n f o 彻a t i o ni n c r e a s e se x p o n e n t i a l l y :t h e r ea r em o r e 黟e a to p p o r h l n i t i e sf o rp e o p l et o h a v ea c c e s st ot h el a r g eq u a n t i t i e so fm u l t i m e d i ac o n t e n t s ,s u c ha si m a g e s ,v i d e o s 锄d a u d i o 7 r h e s em u l t i m e d i ac o n t e n t s h a v e 母a d u a l l y b e c o m et h em a i nf o mo f i n f o n n a t i o nm e d i ai nt h ef i e l do fi n f o n l l a t i o np r o c e s s b u ts i n c et h e 缸tg r o w i n go ft h e d a t av 0 1 u m e ,h o wt om a n a g et h ec 0 n t 印t sa u t o m a t i c a l l yh a se m e r g e da s 锄u r g e l l t p r o b l 锄e s p e c i a l l yt ot h e 猷lk i n d so fm u s i cs i 朗a l sa r o u n du s ,f a s ta n de 街c i e n t m e t h o d sa r er e q u i r e dt oc l a s s i 母a n dm a n a g et h e m ( a c c o r d i n gt od i 日e r e n ts t y l e s0 r s i n g e r s ) m u s i cc l a s s i f i c a t i o nh a sa l w a ) ,sb e e nm u c ha c c o u n t e do f b yp e o p l ea so n eo ft h e v o i c er e c o g n i t i o np r o b l e n l a l o n gw i t ht h ef a s td e v e l o p m e n t so fv o i c er e c q g n i t i o n t e c h n o l o g y ,m a n ya j 9 0 n t h m sa n dm e t h o d sh a v eb e e l la p p l i e di nt h i sa r e a h o w e v i t s s t i l lf 缸f 而mt h e1 a r g e s c a l ea p p l i c a t i o no fm u s i ca u t oc l a s s i 6 c a t i o na st h ev a n e t ya n d c o m p l i c a c yo fm u s i c m o s to ft h ec o m e m p o r a y ra l g o d t h m sf o ra u d i o蓟g n a l c l a s s i 行c a t i o ni n c l u d em os t a g e s :f e a t u r ee x t r a c t i o ns t a g ea i l dc l a s s i f i c a t i o ns t a g e l o t s o fm u s i cf e a t u r e sc a nb ea p p l i e dt oi m p l e m e n tt h i sa l g o 订t h m ,i n c l u d i n gt h es h o r t t i m e e n e r g ya n ds h o r t - t i m ez e r o c r o s s i n g - r a t ee t c 抒o mt h et i m ed o m a i n ,t h eb a n d w i d t ha i l d b r i 曲t n e s se t c f r o mt h e 丘e q u e i l c yd o m a i n ,a l s ot h em f c c ( m e l 一疔e q u e n c yc 印s t m l c o e 佑c i e n t s ) c o e 衔c i e n tw h i c hi sb a s e do nt h ep e r c 印t i o n a n dt h em a n yh i 曲e 佑c i e n t a l g o n t h m si n t h ep a t t e mr e c o g n i t i o na n dp a t t e mc 1 a s s i f i c a t i o ns u c i ha sg a u s s i a n m i x t u r em o d e l ( g m m ) 37 1 、n e u r a ln e t w o r k ( n n ) 、h i d d e i lm a r k o vm o d e ( h m m ) n 。1 1 2 】 2 1 儿2 3 儿2 4 i ,e t c c a nb eu t i l i z e dt oi m p l e m e n tt h ec l a s s i f i c a t i o n w h e nf a c i n gs u c hm a n yf i e a 劬广e sa n dc l a s s i f i c a t i o na l g o n t h m s ,h o wt oc o m b i n e t h e mt oa c h i “eab e t t e rc l a s s 讯c a t i o na c c u r a c yr a t e ? i si t p o s s i b l e t 0d os o m e p r 印r o c e s s i n go ns o m eo ft h ef e a t l l r e so rd os o m eo p t i m i z a t i o no nt h ec l a s s i f i e r sb a s e u p o nt h es p e c i a l i t yo fm u s i cc l a s s i f i c a t i o nt oa c h i e v eah i 曲e rc l a s s i f i c a t i o na c c u r a c y m t e ? t ba i l s w e rm e s eq u e s t i o n s ,“st h e s i sp r o p o s ean e wm u s i cc l a s s i f i c a t i o nm e t h o d l l l 山东帅池人学坝l :学位论文 b a s e0 nt 1 1 et h e o r yo fe n s e i l l b l ea 1 1 dt h es u p p o r tv e c t o rm a c h i n e s s u p p o r tv e c t o rm a c h i n e s ( s v m ) h a sb e e i l 印p l i e di nm a n yf i e l d sa n da c h i e v e d p l e l l t i 如l 丘1 】i t sa l r e a d ys i n c ep r o p o s e db y 、,a p i l i ki nl9 9 5 b a s e do ns t a t i s t i c a ll e a n l i n g t h e o 巧( s l t ) ,s v mp o s s e s s s e sm a n ym e t ss u c h a sc o n c i s em a t h 锄a t i c a lf o 咖, s t a n d a r df 瓠tt r a i n i n ga 1 9 0 r i t h f na n de x c e l l e n tg e n e r a l i z a t i o np e r f o n l l a n c e ,s oi th a s b e e nw i d e l y 印p l i e di nd a t am i n i n gp r o b l e n l ss u c ha sp a t t e mr e c o 印i t i o n ,如n c t i o n e s t i m a t i o n ,t i m es 甜e sp r e d i c t i o na n dc l a s s i f i c a t i o n ,e c t h o w e v s o m ep r o b l e m s ,f o r e x a m p l e ,t h em o d e ls e l e “o n ,e m c i e n c yo fs v m f o rl a 唱e - s c a l et r a i n i n gs e t ,c t c ,s t i l l n e e dt ob es 0 1 v e di ns v mr e s e a r c h g e n e r a l l y ,a l m o s ta l lr e s e a r c h e su s es i n 西es v m a sl e a n l e r a n dm u l t i s v ml e a r n e rm e m o d sa r es c a r c et h o u 曲to u t e n s e m b l el e 锄i n g t e c l u l o l o g ya sa 1 1e f i e c t i v em u l t i - 1 e a m e rm e m o dh a sb e e no b t a i n e dm a n yv a l u a b l e a c h i e v 锄e n t s i ft h ee i l s e m l b e1 e 锄i n gt e c h n o l o g yc a l lb ei n t r o “c e dt os v m ,t h e g e n e r a l i z a t i o np e 墒m a l l co fs v mm a yb ei m p r o v e de 腧i e n t l y t h e r e f o r e ,r e s e a r c h o ne n s 锄b l es v ml e 锄i n gb e c o m e sa i li m p o r t a n tr e s e a r c hi s s u e i nm et h e s i s ,e i l s 锄b l es l e 锄i n gm e t h o da n dt h e 研n c i p l ea n dm e t l l o do f m u s i cc l a s s i f i c a t i o na r ei n v e s t i g a t e ds y s t 锄a t i c a l ly a n dt l l e 、n o we x i s t i n ga l g o r i t 贸e n s e m b l es v mi si m p r 0 v e d 趾da p p l i e di nn l u s i cc l a s s i f i c a t i o nm e m o d s i nt h el 嬲t p l a c e a r et h ee x p e r i m e n t sf o rt h ea l g o d m mp e r f l 0 咖a n c ee v a l u a t i o n i i lm e e x p e r i m e n t s ,t h es i m u l a t i o n sa r ep e r f o m e do nd i f f b r e n tf e a t u r es e t su s i n gd i 伍:r e n t c l a s s i f i e r s ,a n dt h er e s u l t sn o to n l yv e r i f ym et m t ht h a tt h ec l a s s i f i c a t i o na c c u r a c yr a t e i m p r o v e sal o ta r e ru s i n gt h ee n s e i n b l es v m ,a l s os h o wc l e a r l yt h ea d v a n t a g eo f e n s e m b l es v m so v e rt h o s et r a n d i t i o n a lc l a s s i f i e r si nt h e 矗e l do fm u s i cc l a s s i f i c a t i o n k e yw o r d s : m u s i cc l a s s i f i c a t i o n , s u p p o r tv e c t o rm a c h i n e ( s v m ) ,e n s e l t l b l e l e a m i n g ,f e a t u r ee x t r a c t i o n c l a s s i f i c a t i o n :t p 3 91 4 1 i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得 ( 注:如没 有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示谢意。 学位论文作者签名:,司鬈 导师签 学位论文版权使用授权书 本学位论文作者完全了解数有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本 人授权邋可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解 密后适用本授权书) 学位论文作者签名:7 丑茗、 导师签 签字同期:2 0 07 年莎月岁只 签字同期:2 0 09 年多月多日 山东师范人学颂;j 学位- 论文 1 1 研究背景和意义 第1 章绪论 随着互联网络以及广播技术的发展,人们有机会接触到大量的多媒体内容。 所谓多媒体系统是指使用计算机交互技术和数字通信网络技术处理多种表示媒 体,如文本、图像和声音,使多种信息建立逻辑连接的集成交互式系统。因此, 多媒体本身是计算机技术与音频、视频和通信技术的集成产物。 多媒体技术和i n t e m e t 的发展给人们带来巨大的多媒体信息海洋,并进一步 导致了超大型多媒体信息库的产生。光凭关键词是很难做到对多媒体信息的描述 和检索的,这就需要有一种针对多媒体的有效的检索方式。如何有效的帮助人们 快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。 基于内容的信息检索( c o n t e n t b a s e dr e t r i e v a l ) 就是在这样的背景下产生的,它 是一种新的检索技术,脱离了关键词,根据媒体对象内容及上下文的语义、特征 进行检索,女附图像中的颜色、纹理,或视频中的场景、片段进行分析和特征提 取,并基于这些特征进行相似性匹配。基于内容的检索是一项实用性很强的高科 技技术,能广泛应用于遥感图像处理和空问探测、医疗图像、建筑工程图、天气 预报、公安、艺术馆藏资料管理等许多领域。尤其是随着i n t 锄e t 的发展,视频、 音频及图形、图像将成为网上重要资源,而基于内容检索技术则是不可缺少的检 索手段。目前市面上存在许多较成熟的产品:q b i c ( q u e 叫b yi m a g ec o n t e n t ) 是由 l b m a l m a d e l l 研究中心开发的基于内容检索系统,它可以对图像、视频、文本和 语音进行检索:v i s u a l s e e k 是美国哥伦比亚大学电子工程系与电信研究中心图 像和高级电视实验室共同研究的一种在w w w 上使用的基于内容的图像视频检 索系统:美国加利福尼亚有限责任公司的m u s c l ef i s h 是一种正在丌发中的音频 分析引擎,用于数据库中声音的自动分类和检索,等等。 对于多媒体信息中的一员音乐信息来说,是身边的音乐数量增长极快,每 天都有大量专辑出版或放于网上提供下载;二是音乐信号种类繁多,如流行音乐、 民歌及纯音乐等等,不同的人往往会喜欢某一固定类型的音乐。因此,为了快速 准确的找到自己喜欢的音乐,人们迫切要求有快速高效的方法对所有音乐进行分 l j 东帅范人学坝! j 学位论文 类管理( 如根据不同流派或演唱者等) ,这就促使了大量快速高效音乐分类系统 的出现。上面提到的m u s i ef i s h 就是这一方面较成功的代表,而学术界对此领域 也投入了大量的热情,提出了许多高效的音乐分类算法或结构。 1 2 音乐分类算法发展的历史与现状 音乐分类,顾名思义,就是按照一定的标准将现存的音乐分到不同的种类中 去,而分类的标准一般是根据人的主观感知( 特别是不同的风格) 来确定的。在 实现音乐分类的整个系统框架中涉及到了音乐心理学、音乐信号处理、模式识别 等学科的知识。目前已有许多研究者提出了很多有效的算法来实现音乐分类。 音乐分类本质上是一种模式分类的过程,当前绝大多数的音乐分类算法都是 采用如下图所示的结构: 测试分类当 - 预处理 t 特征提取 - 分类器 涮试样本音乐讪i 练 图1 1音乐分类算法结构方框图 f i g u r e l - 1 m u s i cc l a s s i f i c a t i o na l g o d t h ms t n l c t i l r e 由图中可见,音乐分类系统要包括语音信号预处理、特征提取、分类器训练 和分类器测试等几个功能模块,下面简单说明各个模块的功能: 1 ) 预处理模块对输入的原始音乐信号进行处理,滤除掉其中不重要的信息 以及噪声等,并进行音乐分帧以及预加重等处理工作。 2 ) 特征提取模块负责计算音乐的声学参数,并进行特征的计算,以便提取 出反映信号特征的关键特征参数,以降低维数并便于后继处理。音乐分 类系统常用的特征参数有幅度、能量、过零率、线性预测系数( l p c ) 、 l p c 倒谱系数( l p c c ) 、线谱对参数( l s p ) 、短时频谱、共振峰频率、反 2 山东帅范人学硕i :学位论文 映人耳听觉特性的m e l 频率倒谱系数( m f c c ) 等。特征的选择和提取是系 统构建的关键。 3 ) 在训练阶段,选取若干首音乐构成音乐分类中的训练集,使用从每首训 练集音乐中提取的特征去训练选用的分类器,确定分类器结构中待确定 参数的值,从而得到专门用于音乐分类问题的分类器。 4 ) 在测试阶段,当新的测试音乐到来时,使用上面得到的分类器将测试音 乐分类到训练过程中预先设定的类别中的一个,测试音乐是否被正确的 分类到它应该属于的那个类中,最后统计音乐分类系统的总体分类精确 率。 音乐分类实质是音频处理的一部分。而音频处理是一个涵义甚广的概念,包 括音频数字信号处理、心理声学、语言学、声乐学以及语音信号处理技术、计算 机技术和多媒体数据库技术等。音频处理己有很长的历史,并且取得了一定的成 果。其主要是语音领域,在语音识别方面,i b m 的v i a v o i c e 已趋于成熟,另外 剑桥大学的v m r 系统,以及卡内基梅隆大学的i n f o m e d i a 都是很出色的音频处 理系统。人们对广义的声音研究很少,对音频分类技术的研究则更是近些年才开 始的。音频分类技术是音频深度处理的基础,它在音视频交互处理系统和其它多 媒体应用系统中都有着广泛的应用。 有关音频分类技术的研究最早可以追溯到语音识别中清音、浊音的分类,汉 语中的声母和韵母的识别,以及阴平、阳平、上声和去声的分类等。但是,它们 的粒度都比较小,并不能很好的反映音频中的主题内容语义。由于人类往往是用 自然语言来表达音频内容的“主题”,因此,比较直观的方法是建立起音频数据 和主题内容的关键词之问的联系。例如,b f e i t e n 在1 9 9 1 年的一篇文章呻1 中将神 经网络用到音频分类中,训练了一个神经网络,直接将声音类别映射到所标注的 文本。在1 9 9 4 年,b f e i t e i l 又提出用自组织映射( s o m ,s e l f o r g a n i z i n gm a p s ) 聚类算法对具有相似感觉特征的声音进行聚类。 而真j 下意义上的基于相似性的音频内容自动分类的研究工作是我们之前提 到的由美国m u s c l ef i s h 公司的e r l i n gw 0 1 d 等人于1 9 9 6 年间完成的n 1 。w b l d 等 首先提出了根据内容对音乐进行分类的方法( m u 8 c l ef i s h ) ,在此方法中,从每一 首样本( 训练样本或测试样本) 音乐中提取出一些时域或频域的统计特征,包括均 3 山东师范人学坝i j 学位论义 值、方差及自相关系数等,它们代表了该首音乐的感知特征:响度( 1 0 u d n e s s ) 、带 宽( b a n d w i d t h ) 、亮度( b 订g h t n e s s ) 及音调( p i t c h ) 等等,这些特征用于后一阶段的 分类器中进行分类。在此之后,其它一些音频内容自动分类的研究工作和产品也 开始相继出现,音频分类技术的真正发展是在2 0 世纪9 0 年代。随着音频信息检 索的发展,对音频分类技术的研究也逐渐热了起来。当前已存在许多成熟有效的 音乐分类算法,它们都是基于图卜l 所示的音乐分类结构,其它一些较为常用的 著名的方法还包括: f o o t e 口3 从音乐中提取1 2 阶m f c c 加能量项作为代表待分类音乐的特征,使用 一种树状结构的矢量量化器将特征空问分隔为数个不重叠的区域,计算待分类音 乐特征与这些区域的距离( 欧几旱德距离或余弦距离) ,使用n n ( n e a r e s tn e i 曲b o r ) 规则作为分类器。 “口1 选取m f c c 和包括基音频率、子带能量等在内的感知参数的级联作为特 征,并使用了新的模式分类方法n f l ( n e a r e s tf i e a t u r el i n e ) 作为分类器,他的实验 表明这种分类方法优于n n 、n c 及k n n 等分类器,最终在1 9 8 首待分类音乐 中出现4 0 首分类错误。 而l i n 等n 1 在“的基础上使用小波变换的方法提取子带能量及基音频率等特 征,这种方法得到的特征与其他方法相比更为精确,分类阶段采用一种由底向上 的分类结构,并使用s v m 作为分类器,利用s v m s 优秀的泛化能力,取得了较 好的分类精确率( 9 7 o ) 。 t z a n e t a l ( i s 嵋1 提取基于音色结构( t i m b r a l t e x u t r e ) 、节奏内容( i h ”h m i cc o n t e n t ) 和音调内容( p i t c hc o c t e n t ) 的特征,使用一种层次性的分类结构对音频进行分类, 特征集由3 0 个特征组成,在总共1 0 类的音频分类中最终精确率达到6 1 。 除了上述一些典型的音乐分类算法外,还有许多其他的有效的音乐分类算 法。从本质上讲音乐分类是一个模式识别过程,包括特征提取和分类两个基本过 程( 如图卜l 所示) 。音乐分类技术研究是一个交叉学科的研究领域,它涉及许 多相关的技术。与此相关的领域包括:人耳的听觉特征、信号与系统、数字信号 处理、语音信号处理、模式识别、机器学习、认知科学、知识处理、人工智能、 知识发现、数据挖掘等。目前,该领域的研究重点主要在两个方面:音乐特征分 析与提取和分类器的设计与实现。系统中所用的分类器主要包括基于高斯模型的 4 l i ! 东i f f f i 抱人学彻i j 学位论文 分类器1 、基于神经网络的分类器阳k 引、基于决策树的分类器曲1 、基于隐马尔科夫 模型的分类器n 州1 2 儿2 1 黜1 幽1 。在特征选取方面,时域和频域的特征都被研究使用了。 早期的音频特征大致包括短时能量、静音率、过零率、和谐度、基频、频谱、带 宽、谱中心、子带能量;后来又引入了倒谱系数、m e l 倒谱系数以及线性预测系 数9 m 邮3 5 1 n 旬n 7 m 1 9 制翻。这两方面具体的情况将在以后的章节中进行深入的讨 论。 1 3 本文的主要内容 本文详细介绍了音频分类的原理与技术以及支持向量机理论与集成学习方 法,对支持向量机集成方法进行了改进,并尝试将其应用于音乐分类中,最后对 算法进行了大量的实验仿真,给出了实验结果,并证明了改进算法对分类效率的 提高。论文的整体结构安排为: 第l 章为绪论,介绍音乐分类算法的意义及历史现状,并给出了系统的框图 和主要的改进措施; 第2 章详细介绍了音频分类算法的技术及原理; 第3 章给出了统计学习理论和支持向量机的基本原理; i 第4 章介绍了集成学习的基本方法策略,基于传统常用的集成方法提出了一 种改进的支持向量机集成算法; 第5 章重点讨论了本文的核心部分,即将支持向量机集成应用于音乐分类 中:首先对音乐信号进行预处理并提取其音乐特征,然后使用集成的支持向量机 对提取的特征进行分类,得到类别标记; 第6 章为系统的设计与实现 第7 章对论文作了总结,并提出对未来工作的展望。 5 山东帅范人学坝l j 学位论文 第2 章音频分类技术及原理 在讨论如何对音乐进行分类前,先介绍音频分类的原理及目前采用的技术及 方法。现阶段音频分类技术研究领域的研究重点主要在两个方面:音频特征分析 与提取和分类器的设计与实现。而在特征分析与提取前应先对待分类的音频样本 进行一些预处理操作。本章将对音频样本的预处理技术、特征分析与提取以及分 类器的设计实现进行深入地讨论研究。 2 1 音频信号预处理技术 2 1 1 短时处理技术 音频是多媒体中的一种重要媒体n 引。人耳能够听见的音频的频率范围是 、 6 0 h z 2 0 k h z ,其中语音大约分布在3 0 0 h z 4 k h z 之内,而音乐和其它自然声响 可以分布在6 0 h z 2 0 k h z 任何区域。人耳听到的音乐是连续模拟信号,而计算机 只能处理数字化的信息,所以模拟连续音乐信号要经过离散化即抽样后变成计算 机处理的采样离散点。 因为音频信号本质上是非稳定的,也就是说,相隔很短的时间,音频信号特 征就会发生很明显的剧烈变化。可是对每个采样点均进行处理,数据量太大,又 是不现实的。于是在音频信号处理中,根据一般音频信号特性在很短时间区间内 变化很缓慢的这个特点,假设在这个变化缓慢的时问内所提取的音频信号特征保 持稳定。这样对信号进行处理的一个基本概念就是将离散音频信号分成一定长度 单位进行处理,即将离散信号采样点分成一个个音频帧,这种方法就是音频信号 的“短时”处理方法n 引。一般一个“短时”音频帧持续时间长度约为几个到几十 个微秒。 假设一段连续音频信号流x 采样后的离散音频信号可以表示为x = ( x ( 1 ) , x ( n ) ,x ( k ) ) ,这意味着从此连续音频信号中得到了k 个采样数据,其中x ( n ) 是时刻n ( 1 n 垒) 得到的数据。在“短时 处理时,假设将k 个数据分成l 组,每 一组就是一帧,每一帧包含 l 个采样点( 为了保持其连续性,一般相邻帧间 有迭加,其迭加率通常为5 0 7 0 左右) 。 6 山东帅范人学坝! j 等:位论文 下面参照参照文献 1 4 】及图2 1 描述具有不同时间粒度的音频结构单元定义 音频 i i 上 高层语义单 音频高层语义单元| _ 元生成方法 ,、 音频镜头l 音频镜头2 | - 。1 音频镜头m 卜一叫音频分割 1 l r 一一 音频段l音频段2音频段f音频分类 i 1 i 音频帧l音频帧2音频帧k i () i 特征抽取 音频特征库 、- 一 j 一 姑求慧石m 图2 1 音频层次化结构图 f i g i l r e2 一l1 1 1 es t m c n 鹏o ft h ea u d i oh i e r a r c h y 音频帧:音频是一个非平稳随机过程,其特性是随时间变化的,但这种变化 是很缓慢的。鉴于此,可以将音频信号分成一些相继的短段进行处理。这些短段 一般长为2 0 3 0 m s ,称为音频帧,是音频处理中的最小单元。 音频段:由于音频帧的时间粒度太小,很难从中提取有意义的语义内容,所 以需要在帧的基础上定义时间粒度更大的音频结构单元( 通常比帧长若干个数量 级) ,称之为音频段。音频段由若干帧组成,时间长度一定,是音频分类的基本 对象,具有一定语义,如语音音频段、音乐音频段等。音频段的特征在音频帧特 征的基础上计算得到。 音频镜头:这是从视频镜头引申过来的概念。由于音频段太短,不适合进行 语义内容分析。含有同种音频类别的音频结构单元定义为音频镜头,音频镜头由 若干相同类别的音频段组成,时间粒度更大,时间长度不定,是音频分割的结果。 具有一定的语义,如坏境音镜头、音乐镜头等。 音频高层语义单元:由音频镜头的不同组合形成的具有完整丰富语义内容的 7 山东帅范- :学f 0 ;! i j 学位论义 音频结构单元。根据需要可以有多层。它的分析是以下层单元为基础的,是音频 结构化的目标。 上述这些结构单元是层次化音频结构的组成要素,描述了音频结构化从低到 高不断提升的过程。它们之间的关系如下:音频帧和音频段是特征提取对象,其 中音频段的特征在音频帧特征的基础上计算得到。音频段是音频分类对象,该层 次上得到的是经过类别标注的音频段序列。相同类别的音频段序列构成音频镜 头,采用的相关技术是音频分割技术。音频段和音频镜头都具有一定的语义,主 要是类别信息。不同的音频结构的不同组合形成高层音频结构单元,是具有完整 丰富语音内容的音频对象。 2 1 2 音频信号分类技术 音频分类本质上来讲是一个模式识别过程,音频分类的处理过程应该符合模 、 式识别应用的一般处理过程,因而可以用模式识别的思想来设计音频分类技术流 程,一个典型的模式识别过程如图2 2 所示。 输 传 预 感 处 器理 分 后 类处 器理 决策 图2 2 模式识别过程框图 f i g i l r e2 21 l l ec h a r to fp a t t e mr e c o 驴i t i o np r o c e s s 很多模式识别系统都可以按图2 2 的方式划分为模块。传感器把物理输入转 化为输入信号;预处理对输入信号进行处理以强化积极影响、减弱消极影响;特 征提取器测量用于分类的物体属性;分类器根据特征给物体赋予类别标记;最后, 后处理器做一些其它需要的后续工作。 分类器的设计是模式识别的关键,通常涉及如下几个不同步骤的重复:数据 采集、特征选择、模型选择、训练分类器、评价分类器。如图2 3 示,设计模式 识别系统包含如图的设计循环。用于训练与测试的数据必须首先被采集,根据采 8 山东师范人学颀i :学位论义 集数据的特性决定选择的特征和模型,然后要训练分类器,确定系统参数,最后 通过多次测试评价循环得到满意的分类器。 开始 结束 幽2 3 分类器设计循环图 f t u r e2 - 3t h ec i r c u l a rd i a g r a mo fc l a s s m c a t i o nd e s i g n 根据音频内容分析的结论和模式识别的思想,文献 1 4 设计了一种音频分类 技术流程,如图2 4 所示。包括分类器设计模块、预处理模块、特征提取模块、 分类器模块。最后对音频分类的结果进行存储,用于音频检索、音频深度处理以 及辅助视频分析等工作。各个部分介绍如下: 9 山东帅范人学颂i :学位论文 分 类 器 设 计 模 块 训练数据 预加重处理 切分音频段 加窗成帧 1r 帧特征提取 段特征提取 特征集构造 图2 _ 4 音频分类流程图 f e a m r e2 _ 4t h en o wc h a r to f a u d i oc l a s s i f i c a t i o n 预 处 理 模 块 特 征 提 取 模 块 分 类 器 模 块 1 预处理模块 原始音频来源可能多种多样,格式、采样率的参数也可能不同,直接对大段 音频流进行处理也是不现实的,所以需要对原始音频流进行预处理,以方便后续 处理。预处理工作包括对原始音频流进行格式和采样率的统一。 2 特征提取模块 音频特征分析与提取是音频分类的基础,所选取的特征应该能够充分表示音 频频域和时域的重要分类特性,对环境的改变具有鲁棒性和一般性。这一模块主 要涉及基于帧的特征的计算,在此基础上计算基于音频段的特征,最后选取合适 的特征构造特征集。 i o l j 为:师范人掌颂i j 学位论叟 3 分类器设计模块 提取一组理想的特征使得后续分类器的工作变得十分简单,或者设计一个万 能的分类器,使得不必考虑复杂的特征提取就可以独立完成任务。这是十分理想 的想法,但理想的特征和万能的分类器从理论和实践上来说都是不可能的。特征 提取与分类器是相辅相成的,不能割裂丌来独立考虑,从宏观上讲二者应该是统 一的、密不可分的,这里从概念上划分二者是为了设计的方便。特征提取和分类 器都是依赖于具体问题和具体领域的,比如一个性能高超的音频分类器可能在图 像分类中毫无用处。所以分类器的设计是与特征提取相互验证、不断改进的过程。 根据模式识别理论,分类器的设计本质上是一个设计循环。包括特征提取、 选择分类器、训练分类器、评价分类器。 4 分类器模块 分类器模块是利用训练好的分类器,根据特征提取模块得到的特征向量给一 个被测对象赋予一个类别标记,即完成分类。 音频分类技术涉及到信号处理、模式识别、机器学习等诸多领域。由音频分 类技术流程,可以总结出音频分类研究涉及的关键技术,这也是本文主要解决的 核心问题,即特征分析与提取及分类器的设计与实现: 特征分析与提取 音频特征分析与提取是音频分类的基础,所选取的特征应该能够充分表示音 频频域和时域的重要分类特性,而且对环境的改变应该具有鲁棒性和一般性。音 频特征提取要用到很多信号处理技术,如音频信号短时分析、同态分析、倒谱分 析等,是分类与分割等后续工作的基础。 分类器设计技术 根据模式识别理论,设计一个万能的分类器是不可能的,分类器的设计是与 特征提取相互验证不断改进的一个循环过程。构建分类器的过程:给定一般的模 型或分类器的形式,利用训练样本去学习或估计模型的未知参数。这罩的学习是 指用某种算法来降低训练样本的分类误差,即分类器的训练过程。该问题是本文 要解决的一个重要问题,将在以后的章节中进行详细的介绍。 山为铷i 范人学颂l j 学位论史 2 2 音频信号特征分析与提取 音频特征分析与提取是音频分类的基础,所选取的特征应该能够充分表示音 频频域和时域的重要分类特性,对环境的改变应该具有鲁棒性和一般性。 前面提到过的m u s c l ef i s h 瞳别是一个商业化的基于音频感知特征的音频检 索引擎。m u s c l ef i s h 分析音频数据的听觉特征包括基音、振幅、声音亮度、带 宽和倒频谱,可以对语音、音乐和其它音频数据分类,并对语音和音乐做深入的 分析。j o n a t h a nf o o t e 心儿2 町开发了一种基于量化树的方法,它提取音频数据的倒频 谱特征m f c c ,并借鉴了语音分析中的方法,利用音频数据的频谱表示并构造一 个量化树,最后的特征是一种量化柄的直方图。c 锄e 西em e l l o n 大学的t s u h a l l c h e n 和p o l ”e c l l l l i c 大学的z h u “u 、y a ow a n g 等人乜7 3 对音频分类与分割研究中 通常选取得音频特征进行了详尽的分析,基本概括了音频特征分析领域早期研究 成果,包括:短时能量、短时过零率、音调、带宽、短时频谱、频谱质心、m e l 变换对数和倒频谱系数等。微软亚洲研究院的h o n 酊i a n g 、l i el u 等人口儿川为了 提高环境声音的识别精度,提出了噪音率和带周期等新的音频特征,取得了不错 的效果。随着音频分类与分割技术研究的发展,音频分类更加细化,如何提取能 够准确表征的音频类别的特征是特征分析研究的重点。 2 3 分类器的设计与实现 分类器的设计与实现是系统的应用部分,比较典型且常用的音频分类算法有 以下几种: 1 基于规则的音频分类方法。 该方法的基本思路是:选取可以识别某种音频类别的合适的特征,然后设定 该特征的一个阈值,根据事先约定的规则,用实际计算的特征值与阈值比较,来 识别音频类别。这种方法操作简单,但也由于其简单,所以只适用于识别特征简 单的音频类型,比如静音。这种方法存在以下缺点:决策规则和分类顺序并不一 定是最优的;上层的决策错误会积累到下一层而形成“雪球”效应;分类误差大,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 展览展示策划公司合伙协议
- 医疗设备采购合同管理
- 果园菜场租赁条款
- 医疗设备租赁公司招聘合同范例
- 医疗器械保养操作方案
- 企业购房合同模板二手房买卖
- 大型项目合同搅拌站租赁合同
- 建筑垃圾清理起重机服务协议
- 垃圾焚烧发电招投标文件目录
- 新能源项目在线招投标模板
- 苏霍姆林斯基教育思想-PPT课件
- 9.《复活》课件28张2021—2022学年统编版高中语文选择性必修上册
- XX老干部活动中心可行性研究报告
- 安全系统工程课程设计DOC
- 第三章 农产品市场与价格zyx
- pf建筑工程测量教案
- 新能源汽车简介PPT课件:节能减排低碳环保
- [长沙]2021年安装工程材料价格手册Excel
- 新人教版八年级下册英语教案(全册)
- 宝钢总平面图
- 动物屠宰加工场所动物防疫条件审查表
评论
0/150
提交评论