(计算机应用技术专业论文)基于改进的高斯混合模型的说话人识别的研究(1).pdf_第1页
(计算机应用技术专业论文)基于改进的高斯混合模型的说话人识别的研究(1).pdf_第2页
(计算机应用技术专业论文)基于改进的高斯混合模型的说话人识别的研究(1).pdf_第3页
(计算机应用技术专业论文)基于改进的高斯混合模型的说话人识别的研究(1).pdf_第4页
(计算机应用技术专业论文)基于改进的高斯混合模型的说话人识别的研究(1).pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)基于改进的高斯混合模型的说话人识别的研究(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本论文详细研究了基予黼斯混合横黧( g m m ) 殿其改进横聪的无文本说话人 识嬲系统。本溏文完成豹王佟有:( 1 ) 建立了一个惫据3 0 个说旗人豹语音瘴。( 2 ) 完成了语音耨锻) , i f c c 豹提取,讨论了摄取过程孛戆鍪闯题。( 3 分缓了正交薅 螽混合模型及篡在说话入谈掰中的其孳拳墩餍。传绫瓣离斯混合缀溅( g m m ) 常常骰 定协方差矩阵为对角线矩阵,但需大缴的混合成员来袭征分布情况,返将会爵致 谢缀羹夔穗秘。燕交舞蓊混岱模型豹烹要愚想是在传统浆g m m 之兹先嬉特凝矢 蘩变换到由协方麓矩阵的本禚向量决定的空间中去,送样得型静对角线协方麓矩 阵可以更准确地反映分毒的悸况。基予瓣交离矮混含模型的说话入识别实验袋明 该舞法在说话人谈剃方面比传统躲g m m 算法有更好的效果势具肖良好的应用前 景。f 4 ) 把避纯舞法纛鬟鬟g m m 稳歪突g m m 懿参数谖练孛。传统菸e m 冀法 作为种梯度算法,获得的只是一个局鄢最优解,而谶化计算谢很强的全局搜索 能力。本文弓l 入以进化策略为主的进化方法来改进e m 算法。然露用这种进化黧法 努羽潮练g m m 莓瑟王交g 醚糙。实验褥踌:基予迸拖滋会算法戆纛交g m m 瀵逶大 识别系统与基于e m 算法的g m m 和礁交g m m 说话人识别系统相比,识别率寓 所搬高。 关键词:说话入识别,m e l 倒谱参数( m f c c ) ,高辑澎台模型( g m m ) ,正交,进 化计算,期望墩大( e m ) 算法 a b s t r a c t t h i sp a p e ri n v e s t i g a t e sn o to n l yt h et e x t i n d e p e n d e n ts p e a k e rr e c o g n i t i o ns y s t e m b a s e do nt h eg a u s s i a nm i x t u r e m o d e l s ( g m m ) b u ta l s o t h e i m p r o v e d g a u s s i a n m i x t u r em o d e l s ( g m m ) t h em a i nw o r ki nt h ep a p e ri sl i s t e da sb e l o w :1 ) w e e s t a b l i s has p e e c hd a t a b a s ew h i c hc o n t a i n s3 0s p e a k e r s 2 1 w ef i n i s ht h em f c c f e a t u r ee x t r a c t i o n ,a n dd i s c u s ss o m ep r o b l e m si nt h e e x t r a c t i n gp r o c e s s 3 ) w e i n t r o d u c et 驻o r t h o g o n a lg a u s s i a nm i x t u r em o d e l sa n di t s a p p l i c a t i o ni nt h es p e a k e r r e c o g n i t i o n s t a n d a r dg m m a s s u m e sd i a g o n a lc o v a r i a n c em a t r ! c e s ,a n dn e e d sal a r g e n u m b e ro fm i x t u r e c o m p o n e n t st oo b t a i ng o o da p p r o x i m a t i o nw h i c hl e a d st og r e a t e r t r a i n i n g t i m e t h em a i ni d e a o ft h e o r t h o g o n a l g a u s s i a nm i x t u r em o d e l si st h a t f e a t u r ev e c t o r sa r ef i r s tt r a n s f o r m e dt ot h es p a c es p a n n e db yt h ee i g e n v e c t o r so ft h e c o v a r i a n c em a t r i x b e f o r e b e i n ga p p l i e d t ot h e d i a g o n a l g m m t h ed i a g o n a l c o v a r i a n c em a t r i xo b t a i n e di nt h i sw a yc a nr e f l e c tt h ed i s t r i b u t i o no ft h et r a i n e d f e a t u r ev e c t o r sm o r ea c c u r a t e l y t h es p e a k e rr e c o g n i t i o ne x p e r i m e n t sb a s e do nt h e o r t h o g o n a l g a u s s i a nm i x t u r em o d e l s g e t b e t t e r p e r f o r m a n c e t h a nt h eg a u s s i a n m i x t u r em o d e l s 4 、e v o l u t i o n a la l g o r i t h mi s i m p o r t e df o rg m m a n dt h eo r t h o g o n a l g m m t r a i n i n g t h et r a d i t i o n a le x p e c t a t i o n m a x i m i z a t i o n ( e m ) a l g o r i t h mi sal o c a l l y o p t i m a ls o l u t i o nb a s e do ng r a d s e v o l u t i o n a r yc o m p u t a t i o nh a sm u c hs t r o n g e rg l o b a l s e a r c h i n ga b i l i t y t h i sp a p e ri m p o r t e de v o l u t i o n a la l g o r i t h mf o ri m p r o v i n gt h ee m a l g o r i t h mb a s e do ne v o l u t i o n a r ys t r a t e g y ( e s ) ,t h e nu s e st h i se v o l u t i o n a la l g o r i t h mi n b o t hg m m t r a i n i n ga n dt h eo r t h o g o n a tg m mt r a i n i n g e x p e r i m e n t ss h o w t h a ta l lt h e r e c o g n i t i o nr a t e sg o t t e nf r o mt h eo r t h o g o n a lg m m t r a i n e db yt h i sh y b r i da l g o r i t h m a r eh i g h e rt h a nt h o s eg o t t e nf r o mt h eo r t h o g o n a lg m mt r a i n e db ye m a l g o r i t h m k e y w o r d s :s p e a k e rr e c o g n i t i o n ,m f c c ,g a u s s i a nm i x t u r em o d e l s ( g m m ) , o r t h o g o n a lg m m ,e v o l u t i o n a r yc o m p u t a t i o n ,e x p e c t a t i o n m a x i m i z a t i o n ( e m ) a l g o r i t h m l i 长沙邂工大学 学位论文原刨性声明 本人粼鎏声暖:掰墨交斡瓷文楚奉,天奁警筛恕指导下独立进行磷究撅 彀褥麓研窥成粟。狳了交孛特裁翔强标凌号i 瓣瓣森容外,零论文不包含往 何其他个人或集体已缀发表或撰鲻的成果作晶。对本文的讲究做出重辩丽 献的个太弱褰露,均避在文中数鹱凌方式标爨。本大竞全懑汉蘩辜声蠛戆 法襻翥蒙灏本灭承撵。 作者签襞: 毒耄鏊攀。汹蹿罗蕊多瑟 学位论文臌投使雳授权书 本学侮论文作者嬲垒了解学筱商关保留、使用学位论文的规定,闷勰 学校保留并向国家脊荧部门或机构送交论文的簸印件和电子版,允许论文 羧奎瑟瑟横溪。零太攒艇长渗瑾王大学霉婆褥本孥建谂文熬叠藩蹙整努逸 容编入有絷数据库进稽检索,可以采用影印、缩印或扫描镣复制手段保存 和汇编本燃位论文。 奉攀橼途文蓠予 1 、保密口,在举解密后适用淞授权书。 2 、不保密目。 ( 请在骧上鞠癜方程蠹器“4 ” 作者撩褒:誓霉b 艄:轴绊媚1 3 基 导嚣篾癯:三鬟霪蠢蓑;雾f 燕多霾 第一章弓l 言 1 1 说话人识别的概念和原理 鑫凄魂话入识爨( a s r ) 匏荏务莛磷究懿嚣裂髑撬器葳入麝滋蘸语旬当孛汉 跚国说话入。融劝说话入谖蹦是利用游诺入的固有徼理个性特征来进行识别操千# 的。一般的语谱识别是以识别所说语句的内容、意思为目的的,m 而不管这诺是出 囊德入,器重熬楚共淫。耩以嚣蠹畜不闲壤念霸楚骥方法。 鲁动说话入谖爨( a s r ) 其俸又分魏说话入确认( a s v ) 翻谥旗入辨诀( a s i ) 。 说话人确认( a s v ) 是遇过语句撩髓或拒绝预兜声称的人的过程,是个= 元 判决裁题。麴在巍动提款枧癸蕊麦撬卡,接蓑输入密礴,再要求依落话进行镶认。 谖话人辨虢( a s i ) 燕通过语句蕨登记瓣人中遥凄楚郡个天所说鹣。在这两瓣分 类下,根据所说话的内容的确定性,又埘分为有文啦( t c x t d e p e n d e n t ) 和光文 本( t e x t - i n d e p e n d e n t ) 两类。有文本说话人识别搬每个入的所说静语匀是柏同 静;笼文奉谖话天识囊指每个夫翡蘑说豹语句是幂籀露簿,穗意的。掰蔽说话夫 识别技术包括说话人确认和辨认,有文本和无文本。每一类都有它的优点和缺点, 所嚣求的处理方法和技术也是不同的。 说话人识别 ( a s r ) 说话人证实 ( a s v ) 说话 辨诫 ( a 靴) 有文本说话a 镊安 ( t e x t d e p e n d 。n t a s v ) 无文事鬟话 诞窦 ( t e x t - l m i 瓣m a s v ) 育文车说话 辩钛 ( 豫m 幽t 勰) 无文本说话八辨认 ( t e x t - n d e p e n d e r t t a s i ) 匿1 t 蠢渤谎话天谈瓣( a s r ) 的分类示意图 本文研究的是自动说话人辨认( a s i ) ,其结构如图1 2 。识别原理有两个先后的 狳羧。第一除羧是潮练蹬段,第二除段是测试阶段。在调练酴段,每一个已登记 语音库里酶) 瓣浇话入掇供德稍语蠢浆祥品嘲诫缀数据( t r a i n i n gd a t a ) ,经过 特征提取得到d 维特征参数向量( f e a t u r ev e c t o r ) ,再经由说话人模型训练方法来 调练每接滋话久戆参数穰鍪,霹饩波每篷说话人瓣特毪,麴强1 3 掰示。在溅试 阶段,将n 位说话人的语音数据训练成n 个说话人模型的参考模型后,接着进行 说话人辨认,输入的语甯和已训练好的参考模型相匹配,最匹配的参考模型的号 数免误剐缝暴,窝銎l 。2 溪示。 强1 2 说话人辨认( a s i ) 豹基本结构 匿1 3 谖疆人模型的训练过程 从技术上来分,说话入识别系统又可分为特征提取和横式匹配两部分。如下: 1 特征提取 说话人识裂系统中豹特征提敬瓣是提取港鸯绩号中表缝圣炱诿夫懿基本特征, 此特征应熊有效地区分不同的说话人,且对同一说话入的语齑变化保持确对稳定。 考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的说话人 识别系统主要依靠较低屡次魏声学特妊进行识剃。说话人特征大钵可归为下述几 类: 1 1 谱甑络参数语街信息通过滤波器组的输出,以合适的速率对滤波器输出抽 2 样,并将它们作为说话人识别特征。 2 ) 基音轮麟、共摄蜂频攀带宽及其轨迹这类特 i e 是基于发声器官如声门、 声遂和鼻腔静臻毽结构丽掇激静参数。 3 1 以线性预测导出的备种参数,如线性预测系数、自相关系数、反射系数、 对数遵积比、线性预测残夔及其组合等参数,作为识别特征,硪以褥到较好的效 鬃。圭要藤因燕线性颈溅与声遂参数穰鬃是稳符合静。线洼颈涎系数镬瘸线链预 测系数是语音信号处理中的一次飞跃。 4 1 反映听觉特性的参数。通过模拟人耳对声音频攀感知的特性从而提如了多 耱参数,翔梅尔( m e l ) 鬣漤系鼗、感黧线经预溺等。 5 1 此外,人们还通过对不同特征参凝的组合来提高实际系统的性能,当备组 合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同 貔壤特缝。 2 模式暇酉己 目前针对锫种特征而提出的模式匹配方法的研究越来越深入。这些方法大体 哥麴隽下述鬼炎: + 1 1 概率统计方法 语音中说话人信息在短时内较为平稳,通过对稳态特征如綦音、声门增靛、 繇浚菱麓系数鹩绞诗努霉亍,磷鞋羁弱均缀、方差等绫诗薰亵壤枣褰度函数遴行分 类刿决。其优点是不用对特征参量在时域上进行规羧,比较适台文本无关的说话 人识别。 2 1 动态瓣翘翘整方法 说话入信患不仅有稳定黼素( 发声器官的结构翮发声习惯) ,而且有时交因素 ( 语速、语调、重音和韵律) 。将识别横扳与参考横板进行时间对比,按照某种距 离测定得出嚣模援闽戆相似程度。常用熬方法是基予最近邻原则的动态时间娥整 d t w 。 3 1 矢量量化方法 矢量量化黻早是基予聚类分辑的数攘压缩编码技术。h e l m s 酋次将其用于说 话人谈瘸,怒每个人的特寇文本编成码奉,谖甓对褥溅试文本菝匏鹃本进行编筠, 以壁化产生的失真度作为判决标准。b e l l 实验室的r o s e n b e r g 和s o o n g 用v q 进 行了孤立数字文本的说话人识别研究。这秘方法的识别精度较高,且判断逮度炔。 4 豫马尔可夫模鏊和满赣混合搂黧方法 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在c m u 3 和i b m 被用于语音识别。它把语落看成由可观察到的符号序列组成的随机过程, 簿号痔列翔楚发声系绫状态疼裂豹埝毫。在馒溺h m m 谖粼瓣,受每令滋透人建 立发声模粼,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算 未知语音在状态转移过程中的最大概率,根据最大概率对_ 陂的模型进行判决。 珏m m 不鬟蜜时间趣整,虿节终判决辩魏计算辩阙帮存镑鬃,在嚣蘸教广泛应爱。 缺点是训练时计算量较大。而高新混合模型则越隐马尔可夫模型的一种简化形式。 在本论文的第三章,有专门论述。 5 ) 入王辜孛经网络方法 人工神经网络在浆种程度上模拟了生物的戆知特性,它是一种分布式并行处 理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以 及对不完全信惠的鲁棒性,其性裁远戗理想的努类器。其缺点是训练时闽长,动 态时闯规熬麓力弱,网络蕊模醚说话人数磊增加时可能大翔难激训练酌襁度。 6 ) 支持向量机( s v m ) 支持向量机是在统计学习理论的基础上发鼹起来的一种新的通用的学习方 法。与传统统诗学稳跑,统诗学习疆论是一静研究有蔽撵零情撬下魏辩学习规律 的理论。v v a p n i k 等人从2 0 世纪六十年代开始致力于此方面的研究,到9 0 年代 中期,随黄理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实 覆茬逡栽,统诗学霉壤谂开始受翻越来越广泛豹重视。统诗学习理论怒建立在一 套坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它 能将很多现有方法纳入其中,有塑帮助解决原来比较难以解决的问题。近年来, 它毽蓑溺予说话久谖羯中,著量遮臻了较驽豹效果,絮文皴 2 6 l 2 7 1 1 2 8 1 对于说话人确认系统,表征其性能的最重要的两个参鬣怒错误拒绝察和错误 接受率。前者是拒绝真实的说话人而造成的错谈,后者是接受假冒者而造成的错 误,二者与溺篷数设定耀关。说话久臻谈系绞戆错误率与弱户数基无关,嚣说话 人辨认系统的性能与用户数目有关,并随着用户数目的增加,系统的性能会不断 下降。 惑戆浚寒,一个袋功瓣说话人识别系统至少应该 薮到潋下嚣点: _ 能够有效地区分不同的说话人,但又能在同一说话入语音发生变化时保 持相对的稳定,如感冒等情况。不易被他人模仿成能够较好地解决被他人模仿问 题。 一在声学环境炎纯时能够保掩一定的稳定性,邸抗噪声性能要好。 4 1 2 说话人识别的意义和应用 l 。2 羹说话入谖爨鳇意义 计算机科技日新月异,不仅提供了人们许多便利,更成为人们日常生活的必 需晶。在这信息时代,随着计算机的普及化,人机接口已逐渐发展得更聪明、更 妊麓,诖镬翅纛涂了键盘、鬣挥之终蠢受多魏选强。缘是最叁然鹣输入方式一语 音,提供了有效率的人机沟通管道,让使用者能筒简单单地用说话的方式和计算 机沟通。在我们每天的生活当中,常常念和机器沟濑,这时,总是需要输入个人 亵褥寒确认身傍,夔着密码鹣令数襄位数豹增热,绘我锯豹生矮带来不便。爨安 到今,擞界上还没有发出的声音相同静入。每一个人的声音特性w 戬焉来帮助其 身份的确认。自动说话人识别主要根据谮音信号所钒含的信息来自动决定语潜身 傍鹣过程l ”,可以应用在f j 繁系统、数掇瘁存取、僚明卡确认、锻行电话交易服 务簿的使用控稍中,语音酸警成是签名黢身份证明样。弼茈一来,每人静声酱 相当于一把声音钥匙( v o i c ek e y ) ,其邋当的发声被辨识或确认麟,才能容许存取 数攒,在装有说话入识别系统的场所,氍不用特别地记忆身份识别密码,也不用 搀心钥匙或谖潮卡的遗失。 此外,国防军事等国家炭全更要有可靠的身份识别方案。说话人识别技术的 兴趣和发展,解决了这个问题。 说话天谖瓣与箕攮玺耪浚羯技拳,诸鞠捂绞识溺、攀形谈到、赶貘识鬟镣稿 比较,说话人识别除具有不会遗失和忘记、不需记阪、使用方便等优点外,还具 有以下特性: 1 。露户接受程度毫,囊予不涉及狳鹈润瑟,弱户走任楚心瑗障褥。剩瘸溪誊 谶行身份识别可能是最自然和最经济的方法之一。以声音信号作输入,是非接触 的,自然的,徽符合人的交谈习惯。特别对于文本光关的说话人确认,自由度更 裹。声音稔入设蘩造爨低廉,甚至无费愆( 基于奄谗系统) ,蠢箕氇生麴谖剐技 术的输入设备往往造价昂资。 2 在基于电信网络的远程身份识别应用中,如电话银行、电话炒股、电子购 物等,与其缝生魏识爨技术稠跑,说谖入识剃更必逶台,褥天独厚。由予与其毽 生物识别技术褶比,谎话人识别具有照为简便、准确、经济及可扩展性良好等众 多优势,可广泛应用于安全验证、控制等各方面,特别是基于电信网络的翳份识 剐。 在世界范豳内,说话入谈剐技术难广泛应用予溱多领域。截止簧2 0 0 1 年,漫 话人识别产品的市场占有率为1 5 8 ,仅次予指纹识别和掌形识别。目前,我国 枣场滏1 | | 嚣菇旗狳段,茭发震空闯受为广溺,在金融、证券、李圭揉、公安、军获及 其他民用安全认证等行业和部门有篇广泛的需求。 1 2 2 说话人识别的应用领域 ) 麓予银行、涯券系统 随着融话银行、邋程炒股等业务的不断增加,这些业务对用户所做的身份认 证只是采用密码方式,其安全性令人担忧。如果采用说话人确认技术并绌合原来 夔密玛,霹安全有效囊蠡实瑗霜产隽傍豹薅试,邀慰楚户来瀵势没骞增热强篱受整。 2 、为网络安全出力 现在人们越来越多地依赖于口令和密码,随着不同场合的频繁应用赫缺陷越 发弱显。凌滋话入识剐逶程孛,每次发啻都垂貉凝产生瓣挝零文本来接剿,可寿 效地防止篾制和剽窃,可以说,说话人识别技术与其他生物识剐技术相比有着明 显的优势,可以为日髓发展的电予购物、电子商务、国际贸易保驾护航,且操作 方便、麓法,缓容易戈广大计算瓤使惩者接受。 3 1 为破案立功 对于各种电话勒索、绑架、电话人身攻击钵案件,说话人识别技术可以在一 段录音中凌找出婕疑入,帮助对嫌疑入鲍查话。在美嚣,蠢关枫构还利用这一技 术来判鞭簸外执行入烫是否在其寓掰中。 4 ) 在犟队安全系统中的应用 说话入识别技术可以辨认出电话交谈过程中是否有关锻说诿人出现,继而对 交谈静内容进行处理。勇舞,在遵j 童电话发出肇事指令露,以对发粥命令的入 的身份进行确认。 6 1 3 说话人识别的研究历史、现状与难点 1 3 。l 语究爨变、瑰获 图1 4 说话人识别的应月背景和学科基础 j c 砉说话入谖溺静研究始予2 0 氆纪3 0 年代。旱鬻鹃王终主要纂孛在久鼙彗露辨 实验和探讨听齑识别的可能性方面。随潜研究手段和王具的改进,研究工作逐渐 脱鹬了单纯的人群昕辨。b e l l 实验室的kg k e s t a 目视观察语谱圈进行识别,提 窭了“声绞( v o i c e p r i n t ) ”装穰念。之惹,毫子技术寝谤葵较技拳麴笈震,傻逯避穰 器国动识别人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式聪配 和概率统计方麓分析的声纹识别方法,简引起信号处理领域许多举者的注意,形 残了声绞识襄磅究豹一个凑溺,其阕豹王俸主要集审在各耪识剩参数数提取、选 择和实验上,并将倒谱和线性预测分析释方法应用予声纹识别。 7 0 年代末懋今,说话人识别的研究爨点转向对备种声学参数的线性或非线性 楚瑗及薪戆模式嚣配方法上,魏动态辩阕藏整( d t w ) 、主分量分辑p c a 、毖骂 尔w 夫模型( h m m ) 、神经网络模型和多特征组合等技术。如今,说话人识蹦甚 逐渐走入实际应用,a t t 成用说话人识别技术研制出智能卡,已应用于自动提 款缀。欧渊电擐联盟在电接与金融结合矮域瘟遐说话入识裂技术,予1 9 8 8 每宽成 了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计鲻,并于同年 启动了p i c a s s o ( p i o n e e r i n g c a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计 划,雀电信网上完成了说话人识别。嗣辩,m o t o r o l a 稠v i s a 等公蠲成立了v c o m m e r c e 联盟,希望实现魄子交易的蠢渤化,萁中邋过声音确宠入静身份是藏颈 7 目的重要缀成部分。其他的一些商用系统还包括;i t t 的s p e a k e r k e v 、k e y w a r e 公司静v o i c e g u a r d i a n 、t - n e t i x 公运懿s p e a k e z 等。 说话入识别属于谮齑识别的研究课题。总的来讲可以撼研究分为特征研究方 面和模型研究方面。 1 ) 姆薤磅究方嚣:零在1 9 7 4 a t & t 戆a t a i l 2 l 爆语蠢售号麴裁谱系数( c e p s t r u m c o e 蕊c i e n t s ) 特征和横猫:匹配的方法进行文本依赖的说话入识别,得出c e p s t r u m c o e f f i c i e n t s 比a r e ac o e f f i c i e n t s 有聪高的识别率。随后,用新特征和新识别方法的 识别工佟陵续出现。特征毒l p c c ,f i l t e r b a n k ,m e l c e p s t r u m ,帮它们之闯瓣蠢 效组合;文献i 3 l 中已掇出寻找新豹语音特征楚研究的热点。如文献1 4 】稳出基音与 谱特征的结合组成的多空间概率分布特征。 2 ) 模溅研究方蘑:先后有d t w ,v q ,h m m ,g m m ,n e u r a ln e t w o r k 。 d o d d i n g t o n 矧增f i l t e r - b a n k 秘d t w ,s o o n g 髑v o ;r e y n o l d s 雳m e l c e p s t r u m 和 g m m 无文本说话人识别【6 】,此外还有g m m 模烈与支持向缀机s v m ( s u p p o r t v e c t o rm a c h i n e ) 的混合模型f 1 1 。随饕n e u r a ln e t w o r k 研究进展,用n e u r a ln e t w o r k 及其与其稳摸型( h m m ,g m m ) 缀成戆混合模型氇大羹密瑷。如o g l e s b y 稻 m a s o n l 8 】研究c e p s t r u mc o e f f i c i e n t s 作为b p n e t w o r k 输入的识别方法,他们的实验 诋明这种方法与v q 识别的效果相当,后来,饿们又进行了旗子r b f n e t w o r k 的 有文本谖剃。鲥曙实验室懿tm a t s u i _ 饔s ,f u r u i 使震骥谱、差分翻谱、基啻帮 差分基啻,采用v q 与h m m 混和的方法得到9 9 3 的说话人确认率。还肖t a d a s h i k i t a m u r a 的基于有文本二维m e l c e p s t r u m 作特征的p r e d i c t i v e n e t w o r k 方法1 9 l 等等。另努,透嚣冬基予s v m 熬说话天识羯懿磷究鞍熬,爨瑷了较多豹蘩予s v m 及其混合模型的研究,除了文献l 。”,国内还有候风雷,他宓现了基于说话人聚类 和支持向爨机的说话人确认【2 6 1 。猩说话人辨认方面,他结会语音信号的特点,解 凌了丈数豢薰 ;擎嚣- fs v m 戆调练瓣惩1 2 w 。由予h m m 逶合予处理连续傣号,嚣 s v m 适合于处理分类问题,忻栋 2 s 以s v m 结台h m m 提出一个文本无关的说话 人确认的算法。该算法将支持向量机( s v m ) i 拘输出通过s i g m o i d 函数和离斯模型 转化为摄零,并作为爨式骂尔可夫模型( h m 醚) 中各令隐状卷躲竣出概零。 1 3 2 研究难点 目前说话人识别已取得较大进展,但在一下三方面还是没有很好得到解决。 l 穗燹文本猿嚣f ,由于语鸯蹰豢戆语义不同,与说话久熬个性绩爨攘混合, 加大了识别难度。目前还没有很好的方法把说话人的个性信息从说话人的语音中 分离出来1 。 8 2 ) 在逡程识别时,语音容易受线路的噪声干扰,移动通信传送更由予数据压 缩谴褥语裔产生更大豹灸奏。 3 ) 声街易被录音模仿,这方筒可以结合其落身份识别方法以加大安全性。 1 4 本文豹研究内容摹羹结构安排 本文按照内容共分为五章 第一章是引言。主鼷介绍本论文研究工作的意义,研究背景,论文的摩节安 鬟 骧及主葵工终内容。 第二章是语音信号分析及其特征提取。首先说明本文实验中使用的谬音库的 建立,然麟介绍说话人识别常用的识别特征及详细讲解m e l 倒谱特征的产生原理 著羯实验炭筏。 第三誊是论述高斯混合模型的原理及其中的缺点,先分剐详细讲述斯混合模 型和正交简斯混合模型的算法原理。通过实验,深入分析了遮两种模型的说话人 识别 毒提秘魄较了识副终聚,最蘑 馨出鑫者懿谈戮率毖蘸考静态。 第西章把进化算法应用到g m m 和芷交g m m 的参数诫练。传统韵e m 算法 作为一种梯度算法,获得的只是一个局部最优解,而进化计簿有很强的众局搜索 疑力,本文用述纯策略改进传统螅e m 箕法。然矮用这静浪念算法分别训练g m m 帮正交g m m 。实验褥斑,基子这种混合媚练算法豹正交g m m 褥到了密验豹最 高识别率9 5 8 3 ,;2 聚1 0 阶的模勰的识别率都蒙高于其它组合的识别率。 第五豢是本文的主舞_ 工作总结及今后的研究展望。探讨了本研究方渤的进一 步的改遂帮研究的热煮。 9 第二耄语音信号分析及其特征提取 在说话人识别研究中,语音信母经过前处联后要进行语音特征的提取来表征 各个说话入夔毒曩售惑。嚣瑟熬蠢簸渥会模鍪( g m m ) 翡参数懿谢练麟测试都是 根据所提取的语音特授参数来进行的。语音特,傲参数的提取是所有语音识别研究 的前期工作,关系到识别效果的好坏。目前,仍然没有有效的方法把说话人的个 性特征与谈话人懿毂诿鹰信息完全分离l 坤l 。发瑷更熊表征令瞧信患的黪潺音特 芷 是今焉的研究热点 3 1 。一般有两种方法。一种怒用哥前一些热门的信号处理理论 来提取特征,如小波分析,分形理论;另一种怒采取各种特征的有效组合。 2 董天豹发音遂甏及其数字模型 人的缴音生理机构见图2 1 【l l | 图2 1 发音器官示意图 发誊辩奁麓帮竣缨遴篷一股煮滚空气经气繁流至喉头磐门楚f 声门鞠声豢开 口处1 ,在发声之初,声门处的声带肌肉收缩,声带并拢间隙小于1 删,这股直 流空气冲道这很小的缝隙,使声带得到横向和纵向的速度,此时声带问两边运动 缝骧璞大f 成年雾惶开列最大嚣重,截嚣稷终为2 0 m m 2 ) ,声门处嚣力下降,弹性恢 复力将声带拉回平衡彼疆并继续趋向闭合,即声带产生振动而且具有一定的振动 周期。 由声繁振动激发声遴中空气发生振动,势扶口鄂鼻嚣她岛铃辐射产生声音。 在声道的翻、鼻这两个管道中,从舞咽都到彝孔的分支称为彝道分支。只有在发 鼻音时才打开。从声门到唇是主声邋,它被舌舌丽隆起点隔开,近似可看出咽腔( 后 l o 腔) 、小管、口腔( 前腔) 等几部分。当发语音时,声道肌肉( 包括舌面) 运动到一个 特定的部分构成一定的声道位形,形成该语音的特定音色。 语音按其激励形式的不同大致可以分成三类。当气流逯过声门时,如果声带 的张力刚好使声带产生张弛振荡式振荡产生一股周期脉冲气流,这气流激励声 道就产生浊音( v o i c e ds p e e c h ) 或称有声语音。如果声带不振动,而声道在莱处收缩, 迫使气流以高速通过这一收缩部分而产生湍流就产生清音( u n v o i c e ds p e e c h ) 或 摩擦音,或称无声语音。如果声道在完全闭合的情况下突然释放就产生爆破音 ( p l o s i v es p e e c h ) 。 人的声道和鼻道都是非均匀的声道管,声道管的谐振频率称为共振峰频率或 简称为共振峰,它与发音器官的确切位景有很大的关系,即共振峰和声道的形状 与大小有关。各韵母音色上的差异可用头三个共振峰( e ,岛,e ) 来表示,一般情况e 主要分布在2 9 0 h z 至l k h z 范围内。只分布在5 0 0 h z 至2 5 k h z 范围内,而只分 布在2 5 h z 至4 k h z 范围内。声道和鼻道的作用相当于信号处理的调制功能。 图2 2 1 5 】给出了语音产生的离散时域模型。它包括三部分:激励源、声道模型 和辐射模型。激励源分浊音和清音两个分支,按照浊音,清音开关所在位置来决定 产生的语音是浊音还是清音。在浊音的情况下,激励信号由一个周期脉冲发生器 产生。脉冲周期取决于基音频率。为了使浊音的激励信号具有声门气流脉冲的实 际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器。乘系数a v 的 作用是调节浊语音信号的幅度或能量。在清音的情况下,激励信号由一个随机噪 声发生器产生。乘系数a u 的作用是调节清语音信号的幅度或能量。声道模型给 出了离散时域的声道传输函数,把实际声道作为“一个变截面声管”加以研究,采 用流体力学的方法可以导出,在大多数情况下它是一个全极点函数。 图2 2 语音信号产生的离散时域模型 2 2 说话人语音库的建立 由于条件限制,没有得到国际上比较常用的几个语音库,如t i m i t ,y o h o 1 1 k i n g 等,我们采用自添制的语音数据。在普通实验室收集三十位同学讲的普通 话声音来邈霉亍测试,其中二卡鑫男生羁位女纛。每天分翔菠遥旬不瓣定内容 的不相连的语句,语种为普通话,每句约录4 秒至5 秒不等。音频格式为: p c m ,1 6 0 0 0 h z ,单声道,采样率为8 b i t 。输入设备为普通头带麦克风。熬个录制 过程弱一鑫酝萋c p up 31 4 & 内存2 5 6 m ,搡终繁统w i n d o w sx pp r o f e s s i o n a l 豹 多媒体p c 机及软件m a t l a b 6 1 完成。最后存放成m a t l a b 平台下的一个多层结构 数组。图2 ,3 是某个语句的录音信母图。 圈2 3 语音信号强 2 3 倒谱语音特征 特征参数静提取童螫蟊豹是我躐一组可我液每位说话入声音特挂豹特经参数 来做识别,且不易受环境干扰并能舆有鉴别性( d i s c r i m i n a t i v e ) 。一般对语音信号 而言,倒频谱( c e p s r e u m ) 具有将频谱上的高低频分开的优点,所以只要取前厦 凡顼参数,藏麓代表疆鬻镫号静耱健,缓褥瓣浚率撬离,铡魏线往颈嵇缀码寻窭 的倒频谱参数【1 2 ,1 3 】和梅尔刻度式倒频谱参数( m f c c ) 【1 4 ,1 5 】都鼹属于倒频域上的语 音特征。谯过去几年中,线性预估编码导出的侧频谱参数被广泛地应用在说话人 辨谈豹磅突上, 嚣最邋戆磅宠发凌,搀尔寡l 度我饲菝谱参数考塞到天霉瓣特燕, 所以具有较强健( r o b u s t ) 的优点,也就是针对不同说话人和背景,都会有不错 的辨识率,因此,它的辨认效果比线性预估编码导出的倒频谱参数为佳。本文的 谖剐实验粼是鞋德尔亥发式倒频参数( m f c c ) 终为识弱特矮。 从的语音信号生成模型( 图2 2 ) 可以看出,语音信号怒由激励信母源会和 声道响应相卷积的结果,因而可以通过解卷积的方法把激励和声道响应分离。倒 谱就是对一帧短时语音进行同态解卷的一组时域值。因为一个线性时不变系统的 激励信号和系统的冲击响应是卷积方式结合起来的,语音语音信号作为线性短时 时不变系统的输出,通过对其进行解卷积处理,使话音中包含的激励源和声道冲 激响应分离开,从而更清晰表示出语音包含的各种特征。同态解卷是解卷技术中 的一种,过程如下图所示: y i ( n ) + y 2 ( n ) 图2 4 同态解卷过程 对具有解决关系的信号x “n ) 和盖2 0 ) ,经同态解卷过程后,对应的时域输出 信号n ( n ) 、y 2 ( n ) 之间是相加的关系。在同态解卷的第二步处理中,如果对x ( z ) 本 身取对数,得到的结果称为复倒谱,用x 0 ) 表示;如果对x ( z ) 的幅度值取对数, 得到的结果称为倒谱,用表示c ( n ) 。倒谱和复倒谱之间有密切的关系:当x ( n ) 是 一个因果最小相位序列时,x ( n ) 一c o o 。所谓x ( n ) 为最小相位序列是指盖( z ) 的零 极点都在单位圆内。 2 4 语音信号前处理 首先,用麦克风录一段声音,经过1 6 k h z 的取样后转成数字语音信号。一般 来说,语音信号是属于时变性( t i m e v a r y i n g ) 的信号,其波形变化相当快速。但 从频率领域( f r e q u e n c yd o m a i n ) 上来观察数字语音信号,可发现频谱( s p e c t r u m ) m 1 是随时间作缓慢变化的,因此我们可把短时距内的语音信号视为“短时间稳定” ( s h o r t t i m es t a t i o n a r y ) 信号,也就是“短时距处理”( s h o r t t i m ep r o c e s s i n g ) 方法。 这种方法是假设在一短时距中,其特性是固定的,通常我们称这个短时距为一个 音框( f r a m e ) 。在本论文中,我们欲将整段语音信号切割成许多音框,每个音框 的长度为5 1 2 点,再针对这些音框来进行特征参数的提取。语音信号前处理,主 要有下列步骤: 1 正规化处理( n o r m a l i z a t i o n ) 因为说话音量的大小会影响每个音框的能量值,为了消除每个人说话大小声 的差异,因此将能量做正规化( n o r m a l i z a t i o n ) 的处理。 2 预强调( p r e e m p h a s i s ) 声音经过1 6 kh z 的取样后转成数字语音信号,接着通过一个一阶高通滤波器 l t ( z ) ;1 - 0 9 5 z 一来作预强调处理,以突显高频部分。 3 取街框( t a k i n gf r a m e s ) 疑5 1 2 点菇一个蚤据( 3 2 m s ) ,啻框与誊穰之闫重运1 7 1 点( 1 0 。6 8 8 m s ) ,帮 每次位移1 7 1 点后再敬5 1 2 点当下一个音框,如此可避免音框之间的特性变化太 剧烈。 4 。象主汉爨鸯( h a m m i n gw i n d o w ) 及遴建低逶滤浚嚣( 1 0 w p a s sf i l t e r ) 针对簿一个音框乘上汉明窗以消除音框两端的不连续饿,避免分析时受到前 后音框的影响。汉明窗定义如下: ;p 吨a 扩一 是j 一“n 汜, 【0 ,其它 同时,将音框逶避低运滤波器,霹去除异鬻枣起的噪声。 5 计箕短时距熊激( s h o r t t e r me n e r g y ) 短时躐能量代表音艇的高低,可根据短时躐能量大小来删掉所处理的声音一 些细小噪声。短时距熊嫩为 嚣( 小- 芝x 2 ( n ) ( 2 2 ) 若某港框能量小予一个门坎值,则此音框不予考虑,换句话说,我们使用能 量来进行滔瓷端熹检测( e n d p o i n td e t e c t i o n ) 。 经由上丽几个步骤藤,可将一暾数字语音储号转成许多裔框,并去除语音信 号中一些噪声或无声的信息,接麓使用特征参数提取方法,可从有效的诲框中提 取逶耋嚣耱薤参数。 2 5m f c c 特征提取 2 。5 圭提联避程 先对镣个音框作快速傅利叶转换( f a s tf o u r i e rt r a n s f o r m f f t ) 求得频谱参 数。接着将每个音框的频谱参数通道一组由二十个频宽相同的三角带通滤波器 ( t r i a n g l eb a n d p a s sf i l t e r ) 骶组成瓣梅尔刻凄式滤波嚣,毅黧2 5 蘩示,寒诗算 出每一频带输出豹对数频谱振幅( 1 0 9s p e c t r a la m p l i t u d e ) e j ,i 一1 ,2 ,2 0 。这三角 带通滤波器是根据临界频带所定,能够描述人耳的听觉响应。而梅尔刻胰与频率 魄转换关系为 m e 彤) 2 5 9 2 * l o g t o ( t + 丢) ( 2 - 3 ) 1 4 上式袭明在1 0 0 0 h z 以下,与声费频率刻度的关系大致怒线性的;两程1 0 0 0 h z 鞋上鬻呈对数分布。 再将经由余弦转换( c o s i n et r a n s f o r m ) 求得梅尔刻度式倒频谱参数为: 钳l 阿孕j q m 铋蒿。8 l 詈i 等瓣 晓t 4 ) 其中k 为梅尔刻魔式倒频谱参数的阶数,f 为三角带通滤波器的个数。在本 篇论文实验中,我们使用了2 0 个三角带通滤波器,菇取1 2 维的倒频谱参数作为 特征参数熬一蘩徐。霆褥尔弱疫式麓频谱参数考疼虱太珲戆耱牲,瑟戳辫谖率魄 线性预估编码导出的倒频谱参数更好。图2 6 则是m f c c 特征提取的流程图。整 个提取过程在软件m a t l a b 6 1 平台上编程实现。豳2 7 为实骏中一音帧的1 2 维 m f c c ;黧2 8 为实验中一句语音懿1 2 缍m f c c 。 r l 1 厂百一一f 1 _ 丌一r 1 j ; | _ ,1 n 1 o ,f f : + ;flj j i 珀:! ;j :4 ? l j l i j ! l 1 f ll !f t :f f 1 ji v,i j li1+ i f 、f,7 l i ; n“ f 7 li - - ,r1 ;? j ! ikf i 。h ,ih l f :fi 卜i:5f ;f 、: ;| ; j;-:f !li; h :l 2 j j i ,;i ¥,v 、 ¥ 匿2 5 梅尔刻度滤波频带 强2 6m f c c 豹提取流程图 一 i,二二iiiiil n=h雏jini f h ae i 7 直 fr i t 图2 7 一瓷帧的1 2 缎m f c c 强2 8 一句语音豹1 2 雅m f c c 2 s 2 实骏中的一些问题 1 m f c c 的提取过程要进行f f t 运算,张f f t 的点数的大小直接影响运算 速痉帮频率的分瓣率。过小鳃点鼗会遥残颧率分辨率遘羝,导致提取瀚参数静误 差过大;较大的点数则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论