




已阅读5页,还剩62页未读, 继续免费阅读
(基础数学专业论文)基于分段模型的帧间相关性建模研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
塑壹盔堂堡主堂丝丝兰塑里 摘要 , 声学模型豹研究对提高语音识别系统性能有蔫重要作用。隐马尔可夫模 型( h m m ) 是目前国内外普遍使用的方法。h m m 的一个基本假设是各观测矢 量阈独立同分布,这一假设没有考虑相邻帧特征矢量间的相关性信息。于 是,如何充分利用特征矢髓f 磅的桐关性侑怠,以得到更精确的数学模堑, 就成了众多学者努力的目标。) 本文在随机分段模型的框架之下,对语音识 莉中的帧间稆关性建模方法进行了深入的研究。主要工作包括: f 1 ) 分摄了夔捉分段模型的建模愿想,重点礤究了基于分段熊线蛙动态 系统声学模型。随机分段模型在建模阶段能够充分利用特征之间的动态特 性,其对语警番号懿数学撼述比熬h m m 来也熨显精确。另外,通过大量 的实验研究发现,语音帧间的依赖关系可以用线性模型来描述。基于这两 方嚣考虑,线性动态系统分段声学模型可以更好地描述语音信号。 ( 2 ) 实现了线性系统辨识e m 算法,提出了一种基于统计分析的算法初 始纯方法。e m 算法跫一爨缀毒效熬最大锹然绩诗方渣。经是,它最大豹不 足就是收敛速度太慢。加快收敛速度的最直接的方法就是解决算法的初值 闫题。本文提遗熬冀法拐戆纯方法鸯曩抉了算法睃姣速度,且黪保涯冀法数 值稳定。 ( 3 ) 提螯了在分羧露蔑l 羟整嚣菘送嚣较遗平潜衽根据上下文谊怠嚣多令 模型为一个音节建模两个思想。轨迹平滑体现了线性动态系统的轨迹建模 愚怒。透过考虑音节豹上下文信爨毒鞋蔻音节建立更精确懿数学模型。实 验结果表明,将这两种思想在系统中实现,都可以使识别率有所提高。 关键词:分段模型,帧间柏关性,线性模型,语音识别 河南丈学硕士学位论文 a b s t r a c t a c o u s t i cm o d e l i n gi sv e r yi m p o r t a n tf o ri m p r o v i n gt h ep e r f o r m a n c eo fs p e e c h r e c o g n i t i o ns y s t e m h m mi sw i d e l yu s e di ns p e e c hr e c o g n i t i o ns y s t e mp r e s e n t l y , b u to n eo ft h e a s s u m p t i o n s o fh m mi ss t a t e ,c o n d i t i o n e d s t a t i o n a r i t y o ft h e o b s e r v a t i o nv e c t o r s i m p l y i n g 氆a te a c hs t a t ei sas t a t i o n a r ys o u r c eg e n e r a t i n g i n d e p e n d e n ti d e n t i c a l l yd i s t r i b u t e “i d ) o b s e r v a t i o nv e c t o r s t h i sa s s u m p t i o no f s t a t i o n a r y i sn o tv a l i da st i m es e q u e n c eo ft h eo b s e r v a t i o nv e c t o r si s h i g h l y c o r r e l a t e d 。t h u s ,m o d e l i n go ft i m ec o r r e l a t i o no fas e q u e n c eo fo b s e r v a t i o nh a s b e c o m et h em o s tc h a l l e n g i n gt o p i c so fc u r r e n tr e s e a r c hf o ra c o u s t i cm o d e l i n g i n t h i s t h e s i s ,w e d i s c u s st h e m o d e l i n g o fi n t e r - f r a m ec o r r e l a t i o nf o r s p e e c h r e c o g n i t i o ni nt h ef r a m e w o r k o fs t o c h a s t i cs e g m e n t m o d e l i n c l u d i n g : ( 1 ) w bd e s c r i b et h em o t i v a t i o no f s t o c h a s t i cs e g m e n tm o d e la n dd e v e l o pl i n e a r d y n a m i c a ls y s t e mm o d e lf o rs p e e c hr e c o g n i t i o n + s t o c h a s t i cs e g m e n tm o d e lc a r l b e t t e rc a p t u r et h ed y n a m i c ss t r u c t u r eo v e rt h es e g m e n to fs p e e c h t h u s ,w el o o ka t s p e e c ho n as e g m e n t a ll e v e lr a t h e rt h a no naf r a m e - b y - f r a m eb a s i s m o r e o v e r , m a n y e x p e r i m e n t ss h o w l i n e a rm o d e l sa r ea d e q u a t ei nm o d e l i n go fi n t e r - f r a m ec o r r e l a t i o n s ow et h i n kt h a tl i n e a rs e g m e n t b a s e dm o d e l sc a nb e t t e rc h a r a c t e r i z es p e e c h s i g n a l f 2 ) t h ee ma l g o r i t h mf o rl i n e a rs y s t e mi d e n t i f i c a t i o ni si m p l e m e n t e da n da n i n i t i a l i z a t i o no ft h ee m a l g o r i t h mi sp r o p o s e db yu s i n gs t a t i s t i c a la n a l y s i s e m a l g o r i t h mh a sb e c o m e o n eo ft h em e t h o d so fc h o i c ef o rm le s t i m a t i o n 。b u ti to f t e n c o n v e r g e ss l o w l y i f m o d e l p a r a m e t e r i s s u i t a b l yi n i t i a l i z e d ,t h es p e e d o f c o n v e r g e n c ei sq u i c k e r t h ei n i t i a l i z a t i o nm e t h o do f t h ea l g o r i t h mp r o p o s e dc a n q u i c k e ns p e e do f c o n v e r g e n c e ,a n dt h ea l g o r i t h mi sn u m e r i c a l l yv e r ys t a b l e ( 3 ) w ip r o p o s e dt w oi d e a s :o n ei st h es m o o t h i n go ft r a j e c t o r ya n dt h eo t h e ri s c o n t e x tm o d e l i n g s m o o t h i n go f t r a j e c t o r yi m p l yt h a tl i n e a rd y n a m i c a ls y s t e mi s s t o c h a s t i c t r a j e c t o r ym o d e l i n g b yc o n t e x tm o d e l i n g ,w ec a np r o v i d ea ne x a c t m a t h e m a t i c a lm o d e if o re a c h s y l l a b l e 。t h ee x p e r i m e n tr e s u l t s s h o wt h a tb o t h s m o o t h i n go ft r a j e c t o r ya n dc o n t e x tm o d e l i n gc a ni m p r o v et h ep e r f o r m a n c eo f t h e s y s t e m k e y w o r d s :s e g m e n t b a s e dm o d e l ,i n t e r - f r a m ec o r r e l a t i o n ,l i n e a rm o d e l ,s p e e c h r e c o g n i t i o n i i 翌塑盔釜鍪圭兰塞望塞 。釜二皇i ! 董 第一章序言 语言是久类交换倍惑最方缆、最謇然、绶毒效静手袋。熟暴怒够蠲溪言 l 寒控潮枫器,港细诗葬枫、枫器入等,为人类完成特定任务,那姆大大建 撵离社会懿舞动纯霹管感化程凄。尤其在蓬跨、漳褥、积手被占麓等特定 场台,这种需求就鼹突出。语音识剐的融的就是让机器听懂人类的语言。 它怒一个囊黧静边缘擎秘,怒计算孛嚣科学、电予笺稷学、生物攀、心毽学、 语言擎、绞诗举、穆理学积数学臻缝合瓣产秘。蘧罄诗算丰昱按术戆发麓, 入瓿潮的遥流曼褥越来越鬟豢,语窘识剥也显示趣越来越重要鹣捧麓。 l 。l 语妾谈鬟系缝壤遮 研究语音识剐的弱的就是让机器能够“昕幢”人的自然语言l l 州,f ” ,这 个美好的愿麓甚麓在计算枫诞生以前就礴了。但辩谬言的理解建个非常 复杂熬遘程,蠢麓熬骚突承平还是缝激蘩“辨鑫”入翡鑫然语言,澎楚子 稻语啻信号转换为文字序捌的阶段。“昕出”不等子“晰懂”,农“听磁” 的基础上做剥对内容的“理解”,楚未来谬音识别研究的发展方向。 个奠蘩翡诿酱谖鬟系统溅程魏鍪1 1 获示f h 4 l f 7 “s l ,f 4 搬。语鸯蕊号进入 谈涮慈统嚣,首先簧经过将疑变换,然爱由声学识别模块加颤处瑗,识裂 的黠祭荐送劐语落熊理模筑,最最褥蓟与语音信譬楣辩斑的文字蹲巅。“特 征提取”、“声学模型”和“滔言模型”分别提供了三个处理模块的支持, 蠢枣学蒺壅警萋霰要薅决静瓣题圭瑟鸯强个方瑶;模式越努窥对溺辩馥。 特征提取簧解决的问题怒语音信号的数字表示f 4 川5 l ,这直接影响着语音 识剃嚣鹤性繇。霹黻蔫俸诱漪信号特征鹃参数缀多,懿矮瓣平瓣能量、短 对平均过零警、熬蠢趱期、熬予绞牲颚测熬髑镬、基予m e i 频率的攒壤、 薄立时蔟谱等辩域职颓壤特援参数。在特缝提取方瑟镣解决豹阏题蠢特征 的鲁棒性、多种特,征的综合刹用、特征性能评价以及岛识别器( 声学模型) 河南大学硕士学位论文 第一章序言 的配合等。另外,语音信号的听觉特征、时频特征、小波分析以及分形特 短也在研究中。 语言模型要解决的问题是如何依据声学模测的结聚组成满足一定要求 的文字序列( 短语斌句予) 1 3 8 4 0 。由于汉语同学字比较多,声学识别的结 果必须经过语言处理才能得到有意义的结果。语言模獭通常默词为耩本单 位,用n g r a m 模裂来描述语言现象,袋用统计方法加以实现。存在的问题 是,语言模型如何反映米被训练语料覆盖的语富规则,如何解决语裔模型 对谬料领域的严蘸依赖,如何尽可能地描述语法和语义知识并将其肖效地 应掰于语裔模型中。 j r 一 i l 语音信母一特槎变换0 一声学识掰 一语音娃理一静文字痒捌l j 一 r ? ljo 。丽茬箍矿7 蓠磊西r ,7 氟瀛三一 型l 三 嘲1 i谮音识剩系统静荧型流程 1 2 声学模型研究豹瑗状分耩 声学摸娶的磅交涉及戮模型摄架、模型训练、识裂搜素、声学燕识、基 元选取等方面”,重点在于“模式划分”和“时间对准”的方法。 诲音识别戆声学模型基本上哥以分为题类卜4 j ,1 7 埘】:一类是以熟识翻判颧 力为基础的启发式方法;另一类足以统计模式识别技术为基础的方法。下 面主要讨论后一类方法。几十年来,在谮音识别统计模式匹配方强比较成 功的方法主要有三种5 5 j : ( 1 ) 动态时阅归熬( d y n a m i c a lt i m ew a r p i n g ,d t w ) : ( 2 ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e t ,h m m ) : ( 3 ) 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) ; d t w 最数学上的动态观划,在孤立谪识别中显示了良好的性能。由于 2 淫囊文学疆学煎凳支 舞一章黪言 语啻信号静隧橇襁,鞠使怒游一个入在不满辩裁对溺一訇话耩教翡弼一令 音,也不可能有完全相同的时间长度,从而导致特征矢量序列的长度不问, 瑟戳在特征羲:鞍簿必矮送行醅滴整熬靛处灌。d t w 楚对瓣菇整弱鞭离灏菠 相绪台的一种非线性动态规划技术。为了计算长度不铸的两个特征矢量之 耨鼢最小距离,d t w 楚矢鬣长凄或毙镶线褴缭敖扩餍爨强线蛙绦靛鏊线为 中心黝援划隧域的非线牲缨放。由于动态耀划计辣静笈杂度缀大,对予丈 溺汇爨黪语音识涮在实时实瑷方嚣澄难缀大,舅舞它的谈露莲怒遂分依赖 端点检测结聚的正确性,所以在语音识别单元较小的识别系统中使用效果 共不好。尽繁人翻也磅变了黠端点不敏黪瓣d t w ,憾蹙d t w 燃裂连续语 音识聚方瑟镶然怒不藏功熬。 a n n 是大瘦棱并行处理瓣囊适废嚣线瞧凌力学系统,这类搂烈以搓取戆 特征作为网络的输入参数,根据各个节点的输出值进行判决,所采用的具 搭摸型结臻鸯多麟感熟嚣、缀繇爨络等。这类蔟爨静貔点是毙较套荔缀合 各种特征,攘塑裔较疆酶援述姥力,并鼓游于联慧、癸魄、概耩帮推理, 这与人齄缀类似;还蠢鸯学秘戆力,傻箕程语音识别中药搌强的爨逶皮能 力。缺点是从建模的结果很港分橱出各种闲素对谬音中模式分布躲影响, 著基模登对落绦数据琵较敏感。 h m m 采掰一个有限状态累统作为语裔特征的嫩成模黧,每个状态能产 生有限个输出;h m m 认为,镬生成个滔酱单位时,对成的h m m 不蛾地 峦一令状态转移戮贯一今旋惫,每令状态产生一个羧穗,盏舞楚令语鸯擎 位静垒成结束;这个状态转移怒个马尔可夫过疆,丽盛怒不可观测的( 憋 含的) ,人们能够稽烈的只怒状态的输出。h m m 怒个特征发生器,依据 其产生的特缀与观测剿豹语裔特征姥较,从丽识剃语器。 运曩年来,铃瓣h m m 熬鼹跟谯,入髑提篷了诲多鲍改进方法。荚中, b o s t o n 太学的m a r lo s t e n d o r f 等人对各种随机模型避行归纳总结,认为褶 当多瓣模型霹戳嬲入一个统一的柩架,称为分段横篷或随梳分袋模鳖 ( s t o 战a s t i cs e g m e n tm o d e l ,s s m ) 1 4 搬3 k 1 3 2 1 。这耱摸黧先涛交嫒凌分羧蘧 溺遵过时阕熬整为潮定长度分浚,然后两概率模蘩对溺定长度静分段避符 建模。随机分段模型在建模阶段能够充分利用特秘之间的动态特性,其对 3 游离走学硕士学位埝交 第一章露雷 语街信号的数学描述比越h m m 来也鼹显精确,鼓独特的框勰允许纳入更 多艟特薤。本文豹主要工作就是密醚机分段模型辩框絮之下避雩亍讨谂。 l ,3 当前语巍识别领域的主要问题 滔音识裂系统尽管在受隈蘸领域内驳镄了毙鞍大鹣遴震,德禽实鞲豹霉 餮还有穰丈瓣躐离。语啻识掰傍嚣赣煎蓬大援战鸯f 1 7 1 鼹f 2 8 球。州5 4 7 j : ( 1 ) 鲁棒性( r o b u s t n e s s ) :目前的谢音识别系娩在训练和测试语料条件 一致懿薅嚣下蠢鞍舞魏谈裂攀,毽魏祭溅试与镯练条释下熬声学琢缓察遴 邋姆经不两辩,系统嚣浚巍就会严重下海; ( 2 ) 鑫遮应( a d a p t a t i o n ) :系统黧掰缀蕹舔辘静嶷纯,蠡稳濮整参数戳 摁商性能也是当前研究的一个重疆问题; 3 ) 哥蘩藏发璧 c o n f i d e n c em e a s u r i n g ) :娄懿谈鞴系统主簦蹩袋豢嘏 选词得分离低剡断识别的结果。两得分的高低哭能说明一个谈选词眈其它 嫉逸运努袋者黼,无法谠骥攘逡楚歪薅黪霹巍魏蠢多大。毽越,麴镑锯计 识别结果蚋可僚发是一个急德解决的任务; 婵) 语紊穰激( l a n g u a g e m o d e l ) :誊靛鹣瀑裔谈剩系统主瑟蔻秘露统诗 语宙模型来减小搜索空间和解决声学识别结果的螋义问题。似随着词表的 增艇,更多鲍豹寒售塞显褥越寒越重要,因此,如秘褒统诗避喾摸黧豹纂 垂窭上结合锈法积诿义售息叛撬藏语言壤登戆蠖熊毽惹羹要豹添熬; 5 ) 集岁 溺( o u t o f - v o c a b u l a r yw o r d s ) :疆演豹语密识鄹系练主要是有 限词表限制的,但在实际_ 陂用中,用户光法确切判断那些词髓袋内词,那 些遮楚集终溺。这样裁不爵避兔媲蔹髑些在装统词表之多 粒谪,遮裁要 求篆统本鸯其寄检溅稻处骥鬃井谣斡麓力; ( 6 ) 豹律( p r o s o d y ) :韵律一般指人们说话慰的骥嵌、语调嚣超毒段信 息。试验表明,人的听觉系统从韵律中获褥很多重鬻信息。键燕目前韵律 信患羟语毒识嬲审熬繇窕方澍灏起步,在嚣蘸獒语帮识蘩系绞审还不麓有 效缝和用静律傣息: ( 7 ) 动态建横( d y n a m i c sm o d e l i n g ) t 目前煦语落识烈系统瓤假设输入 语啻姣是不褪必豹,毽实黼上语啻喷特蜒之霹甏缀髅的援关魏,逡藏怎襻 矗 簿毒文拳鞭学袋谂文 第一掌黟喜 为添鬻特征的动态悭建模也怒当前人们正在研究瀚一个羹簧课舔m 1 4 本文豁囊; 究意义帮磷究馨嚣 自二十世纪九十年代以来,语音识别取得了很大的进膨,已经商很多研 究荤位研究出了大词汇璧菲特定人连续添港识爨系统,这些系统酱遍采籍 了主淀熬“m e l 频零燧谱系数+ h m m + n g r a m 语言骥黧”粒结秘。德h m m 没有赢分秘瑟语谤的帻圆援关性信惑。在霹箭系统健赭豹捷离已缀嚣达 定瓶颂的状况下,帧间相关性信息的利用便成为一个有效的突破口。为了 有教缝巅嚣添密煞犊趣耀关髓僖惠,必须考虑一令委广泛黪声学骥鳖。蓬 褪分疑声学搂鍪虢键燕了这榉麓建模框絮。翻瘸藏搂激霹以更辩翘为诿啻 游蔽潮援关毪建横。 本文就是穗随机分段模型的框架之下进行语音识别研究的。通过对线性 动态系统声擎挨整鹤磅突,建立一囊妖速旺易实疆懿模式诞羲亵识辩臻素 算法;通过对线德动态系统遽模思想的研汽,探索摁商系统识别饿能的方 法。 1 5 零文兹癌容安捧 全文共有七章缀成。第一濑酋先概述了语音识别声学模型研究的现状, 分疆了警嚣添密谈黧镁壤兹主襞箨瓣,提穗了零文熬骈究感义霹磅究筵爨。 第二露奔绍了港蠢缓号豹产生羧瑾释语音结号懿颡楚骥,绘密了繁掰黪语 啻信母特短提双方法。第三攀,穷绥了 薹艇酝夔漂理,讨论了 | m 艇诿誊 识别系统中的训练和识别算法,分析了h m m 对谣音信号描述的不足。第 嚣章,麓莘攒逑了隧辍分羧摸懋熬蘧貘悉想,逮较了它与h m m 之鬻静不 丽,g l 入基予分段的线性动惑系统声学模溅。第五牵,给出了线性渤态系 绫豹辫谈算法,撼爨了算法鹣裙始像方法。第六寒,拣分段模型熬撰絮之 下,实现了以钱髅动态系统作为声攀模型的语音识剐系统,通过对线性动 惫系统建揍方法熊鹾究,挺国了毵离系统链能魏簿个慰戆,著对实验缮莱 进行了分析。第七帮,总结了本文的工作殿进一步可以进行的工作。 5 游辩大学疆圭学位论文 第二章遥蠹信号豁特薤挺敬 第二攀语音信号的特征提取 语音信号熙一种典型的非乎稳信号。但是,由予谮瞽的形成过程憝与发 蠢器富豹遮囊密甥穗关懿,这转穆璎运动魄莛声裔缀动速度柬漭要缓褒褥 雾,因此谮音信号常常可假定为短时平稳的,即在】o 3 0 m s 这样的对闻段 内,其频谱特性和某些物蠼参量可近似看作是不波的。这样,就可以采用 警稳信号鹣分辑方法来黔纛了。这耱辩淹袄赖照壤翡綦零手段,一般是餍 一令长度蠢隈的序列截敬段语音来逶行分桩,并让送个窑滑动以便分聿斤 僚时亥0 附近的倍号。遮熙截取的信芍段称为信号“帧”,帻的长度般取 l o 3 0 m s ,对每帧语音傣号在时域、频域进行分析,得到一个特征矢量, 婚整个语蠢援可戮试秀痰这撑黪矢量黪魏维或。这整姣序蘩勰瓣交纯薅瑗 了语音信譬的时炎特性。 2 。l 语音信号的产生 了舞诿黉穗芍煎产生税蘧及谬音簧号浆数掌横型接述,聪稿譬鹣特薤疆 取和信号的建模有非常爨鬻的意义。 2 1 1 语音象弩产裳兹瓿理 凌研究谮啻信号懿产擒射,接崴实际系统主簧的特征是缀谢妻孑处黪,这 样可以得到一个极符合实际又便于处瓒的数学模型。图2 1 表示发音系统的 示赣图”4 】。躲、支气管、气管缀戒次声f 1 系统,它锄是产生潘裔豹我量源 泉。警空气觚辣曩呼文采露,释赉来黪气流毒予声遴菜一瑰方瓣收缩两受 到扰动,语音就赵这一系统在这个对嫉辐射出来的声波。图2 2 ( a ) 给出“放 大”的时域波形。 诿音趣声鸯羧箕激弱澎式懿不羯可戳分受三类。集一是淫酱,当气浚透 过声门时t 如鬃声带静张力澍好使声带发生张骓振荡式盼振动,那么就产 生礁周期冉句空气脉冲,这空气脉冲激励声道得到浊卺。第二鼹摩擦音或 滴酱,热鬃在黟遂莱怒( 一般奁接近壤戆簿骏) 发嫩救缝,溺辩遥蕊空气 6 河南大学硕士学位论文第二二章语裔信号的特征提取 以高遮冲过这收缩部分丽产生湍流,就得到清裔。第三类是缣破音,如 果使声道完全闭合,在闭合后建立起气压,然后突然释放,这样就得到爆 破音。 鼻道和声道均表示成非均匀截面的声管。当声音由声门产生以后就顺着 声管传播,它鼢颓潜形获会被声管静选择往爵改变。这效应称为谐攘褒 象,声道管的谐振频率称为共振峰频率或简称为共振峰,共振峰频率和声 遥的形状与大小有关。改交声道静形祓藏产生不瓣静声密。蠢褥,当声道 形状改变时语音信号的谱特性就随之改变。 圈2 i 发音器官示意图 图2 2 语音的时域波形及语谱图 ( a ) “放大”一疆驰渡彤 ( b ) 摇应麴语谱圈 7 辩瘩文学硕士学垃论文 第二章潺费信号静特挺攥戡 语音信号的谱特性可以用语谱图来波示,螫喜方向对应于频率,水平方 翔对瘟予辩翔,露嚣缘熟爨骞歪拢子臻号熬能量。“放丈”一谣浆语瀵图表 示如蚕2 2 国) 掰示。语谱图一壹遛语音磷究静个黧娶工其壮“m ”。飘语谣 躅上不仅麓器如强一时猁发音器官的熬振峰特锤,嚣且可以赭出语蠢的基 本颓率,怒否清蠢、爆破酱等。有经验的入可以从图中读出谮音的静索及 调涤,还可疆爝它邋行浚谗天辩试,繇戳久爨称玄麓琴嚣语鸯。 2 1 2 语音信号产生的数学模型 在骚究了诱鬻缤号翡产黧过瑕戳磊,藏虿蔽建立一令离散辩域懿添音僖 号产生模鬣,这怼予避一爹斡各项磷究鞋及其体斑鬻裙穰重蔡。语鬻信号 靛产生模黧祗躐魏图2 3 掰示f 引。 黼2 3 镶酱信肇赞产生横型 謦2 3 鲶爨了语音詹母产生懿离散辩域模墼。它键撩三个舔分:激磁深, 声邋模型和辐射横垄。激耥源分清音和辅音两个分支,按照漓浊音这个开 关所处的位嚣来决定产生的语音是清裔还是浊齑。在浊音情况下,激励信 号出一令蘧麓躲转产生,翳产釜瓣穿魏怒一个瘸麓必甄瓣洚激露舞,鼯每 。个采样点便脊一个样德为l ,其它样傻为0 ,如阁2 4 ( a ) 所示,n 。= 2 0 0 。 瘸翘甄取凌予涟鼗黉麓磊蕈拜语巍信号熟采样频率疋,n o = ( f o 。为了霞 浊鬻的激黝接垮县有声 3 气漉踩抟豹安际波形,还鬻要楚上逃鹣;孛激净确 遥过一夸声弼躲冷模型滤波嚣,其二域镑输交数为g ( 2 ) 。黠声门波形黪频 谱分析表明,奠幅度频谱按每倍频程1 2 d b 的速度递减。如果令 s 鎏篓銮堂璧主兰蒸釜塞 。篓三兰望冀童童堕登麴! 塞墅 g 0 ) = ( 1 g i z 。) ( 1 一9 2 z 。) ( 2 1 ) 其中g ,9 2 缀接近t ,那么出之形成静浊音激励信譬灏谱穰搂遗声门气流 默持戆频谱,声门气浚辣冲审如图2 4 ( b ) 舔示。袋a ,麴 蕈用是渊节浊音激 强2 , 4 渖擞穿利及声门气流躲肄枣 励绩号的蝠瘦或熊鳖。在清鬻情况下,激瓤售号肖一个涟规噪声发生器产 生。慕矗,戆 蕈掰建诞节溥蓊信号戆疆震蠛能量。声遗模型绘出了离散黠城 的声道传输瀚数,把实际声邋看作一个畿截面积声镣加以研究,采用流体 力攀懿方法瑶皴够出,奁大多数辏况下它怒一令全缀纛添数。这捞,y 硷表 示为 l 瑕z ) = 百二( 2 2 ) 啦g ”山 1 扫0 其频率响应形式如瞬2 5 所示,f i f 5 表示五个慕振蜂。这里,撼截西袄连 续变他豹声蛰避觳蔑p 段短澎管熬枣联,繇段声蛰鹣裁嚣瑕莛不搿静,p 穆 为这个全极盘滤波器的除。鼹然尹值驭褥越大,模型钓镄臻函数与声道蜜 舔谨输函鼗翁戆合稷疫越离。毯蹩,瓣予大多鼗实耩藏掰孬言,r 敬s 1 2 就够了。在这个模型中,除了g ( z ) 和r ( z ) 保持不变外,圪,a ,a u ,清 浊誊羚关戆袋置以及声道模型中熬参数都愚睫薅翔交化熬。史予发声嚣害 9 海南丈学颓士学位沦支 第二章瓣啻信号静特征提取 的惯性使遗些参数的变化涟度受到限制,对于声道参数,在1 0 3 0 m s 的时 阕鹅疆亵霹以认为它翻镙持苓交。这个模型魏弱融性主要表现在它熬转簸 函数不包含寄黻零点。一释籁凌方法怒在模型中弓l 入有限传输零点,毽愚 遮憋使模裂熨杂纯。另方法是适当撼裹模型输数,使褥全擞患模型毙更 好地逼近舆有肖隈零点的传输函数。 图2 5声道传输函数的频率响应( 共振峰) 2 2 语音信号的预处理 语音信譬怒模拟信号,穗粪正静语帮信号分群帮簸壤之前必矮送行溪处 理,这些包括增益控制、颥滤波、模数转换,预加重,端点检测等【卜4 1 。 2 。2 1 港盏按黝、颈滤波、模,数矗国) 转抉 媾盏控裁怒梵了调整添漕竣入信号黪骥度,嫂蕻竣_ i 嚣a d 转掇竞诲熬最 大幅度限制,充分提高储噪比。滤波通常是为了排除工频干扰( 5 0 h z 或 6 0 h z ) ,羝遴滤波器截止簇肇巾予等于采样频率转一半,玖藐瞠频竣溅囊丽 拜重消除高颓噪声。模数转羧是稻模叛傣号到数字信号的转换。 2 2 + 2 颈燕麓 鞭臻重蹩捂旋a d 转换嚣麴一令6 d b 氆菝纛簸鬻菝提嚣滤渡器,诿音绩 号的平均磅率谱受声门激励鞍日彝辐赫的影响,大约谯2 0 0 5 0 0 h z 按6 d b 倍频程跌落,颓加藿的耳的就是提升商频部分,使谮裔信号的频谱变褥比 较乎逛,瑟予避行鞭谱努橱域嚣声道参数努裁。颞糖羹数字滤波器熬一般 l o 鋈塞奎堂鐾主兰堡篷塞 茎三墨至耋簦蔓鳖鲎篓! ! 整 形式为 口0 ) = 1 一一,声。0 9 4 o 。9 8 2 3 ) 2 2 3 加窗 已敬出静一颧谮瓷数据s ( 辫) 要经过龆窝怒理, 乘s ( 妨,熬焉影成热密疆音蕊譬q ( n ) ,露 q ( h ) = s ( m ) w ( n m ) = 一 嚣耀定静密滋羧w ( 群) 采 ( 2 + 4 ) 上式蹙卷积澎式黪,孽( 癣可以璀熊袭离散信号s o 聚过一个擎位狰激蹶藏为 w ( ”强鼢f i r 滤波器产生的输穗。葵带宽和频率响应取决予窗函数静选簿。 在语蒲信号处理中常糟的窝濒数是方窗黎l 晤明窑,它们的表达式如下 方镰 州* :? n e o n - 1 n 诺 o , n _ 1 豫5 ) 晗髓窗 廿f f 6 4 - 0 5 4 - c 辞精) 一t 抖嘣t 删协。, 1 0 ,弹诺 1 ,n 一1 】 方密嬲蹬翡窝精疫戆滤滚爨嚣矮毒蕺逶特经f 扣撼。葜鬣爨黢频率镌纛鼗凌予 窗礁数的选择。哙褥窟函数及英频率墒瘦鳓蘑2 6 所示。 2 2 。4 端点检测 放背景嗓声串找窭语音辩弹始帮终止,遮在狠雾添潦鼹毽领域审楚镬基 本的i 嗣题,它曼群地影蛹着落酱识别的训练过程以及系统的识剐瞧能。特 别对予孤立词的诺啻识别,谬酱的端点检测更是举足轻鬣。好的端点检测 囊尽胃鼹多逮检溅密疆安是诿鬻售譬,霉瓣又犍辍盘嚣谮密售萼避入系缝, 懿免系统的错误识稍戏剿决。邋年采,人们提出了多种端点检测髀法,其 中大磐数是基予越单的时域特挺,例如能熬靼过零率f h 4 1 。 滗裔大学硬圭孥醢论文 蘩二章遥啻信号鹣特薤提款 图2 + 6 蛤氍密函数投其频率响成 2 。3 语音攘号熬对域褥裰 语音信号的时域特征主鬻有短时能墩、短时平均幅度和短时过零率f l , 这楚语音信号魏组最基本熬短 l 亨特缝,在冬转落卷傣号数字处理巾都有 应建。在计冀这些特翟辩,簸镬矮戆怒经过鸯鬟密簸毽嚣豹语蠢信号。 ( ) 短时我爨 当窗的超点r t = 0 ,语音倦号的短时熊量用f 袭示,则 幽 e = x , ( 3 ) 短时过零率 矮时过零率怒爨蘩号每秽遴过零蓬豹次数,其霆义为 一l z * s i g n s ( n ) s ( n + 1 ) ( 2 9 ) = 0 其孛s i g n t 】为簿号懑数。一般来讲,淫鸯懿避零率糕,渣寒嚣过零窭嵩。谖 啻“放大”蛉辩域特征如图2 + 7 掰示。 銎2 ,7 语嚣缕号秘对域特经( 赜长一3 0 0 ) ( 盎时壤波形( 醵翘种舷羹( c ) 平蚜幅度捌) 短时进霉率 2 4 语音信譬的频域特征 在警蒋大多数的语音谖裂系统中,逶索袋糟勰褥链怒信号兹颓域特链, 包括綦于线性预i 孵4 的倒谱系数和基于m e l 频率的倒谱系数f 】。 1 3 海露夫学颈圭喾往论文 第二章语裔信号瓣特薤舞歌 2 4 1 基于线憾预测的倒谱系数( l p c c ) l p c c 爨线瞧羧嚣摸燮l p c 系数豹拿_ 芷交变羧。按爨全缎焦模登戆霰 竣,对予实际值s ( 疗) ,它的预测值i ( 辫) 可由p 个避去的样本值j 0 一1 ) , s ( n 2 ) ,s ( n p ) 瓣线性组合褥剃,鄹 ( 斑) = 2 g s ( n i ) ( 2 。l o ) 则予厦测误藏为 # “ 、。 予魁可得 ,( 歹) 一a , r ( j 一力= 0 ,j = o ,1 ,2 ,p ( 2 。i 3 ) 式中r ( j ) = e s ( n ) s ( n 一朋媳自相关函数。解上述方程,可得一组预测系数a , i = 1 , 2 ,p 。将其转化为倒谱系数为 盔= a lf 2 。1 4 ) 红= q 十善 ( t 孚) 掰。魄。) ,l - - 0 ,吩一l 3 上述隧缀过程豹输撼邋缓获悫,露拿获态誊发雯雀浆个瓣蘩,醛置各辩 7 河南太学硕士学位论文第三章隐马尔可夫模型 应一个可观测的物理事件,因此称为可脱测马尔可夫模登。假这种模型静 限制条 牛过予严格,因丽在许多实际问题中不熊碍到成用。现在将这种模 型加以推广。使它适用于通常遇到的情况,即躐测是亳跫态的概率函数。这 样得到的模型称为隐马尔可夫模型 2 - 4 1 ,【“。它是一个双重随机过程,其 中之是基本随机过程,粥一组随机过程产生躐测序辫。基本随机遮程是 隐藏起来观测不到的,而只能够通过另一组随机过程才能观测到。 3 2 隐马尔可夫模型的参数 掖据上述h m m 的原理,不难看出,一个隐马尔霹夫模型由下列参数来 确定。 ( 1 ) 模鼙中状态的数酲n 状态的集合记为 s = 溉,s 2 ,s ( 3 4 ) 瑟t 黪剡的状态表示为承。 ( 2 ) 观测符号数材 簿个状态可能输如观测符号豹数目。双测符号记为 v = “,v 2 ,1 j , , d j( 3 5 ) ( 3 ) 鼹溺符号序翔静长发r 隐马尔可夫模型产生的观测符号序列浅示为 0 = o l ,0 2 ,0 r ( 3 6 ) 其长艘r 以融钟周期为单佼。 ( 4 ) 状态转移概率矩阵一 这是由状态转移概率构成的一个矩阵,其元索娌。是攒f 时刻状态为墨, 而在,+ 1 时刻转移到状态s ,的概率,即 a = 拓,;,d ,= p ( q ,十 = s , 譬,= s ,) ,l f ,歹n( 3 ,7 ) ( 5 ) 状态的观测符号概率分布矩阵曰 宅建虢态熬鼹溅簿号攘搴棱或豹一个矩薄,冀元素6 ,( 秘是撂状态s ,赣窭 1 8 鲨整墼篓墼一 筵童璧墨塑壅蹩 瘸测符号v k 静概率。郎 嚣= 抗( 意) 知哆种) = 以琢i q , = ) ,i 歹,l s 后s 鲋o ,8 ) ( 6 ) 窃始的状态分布z 它跫撰f 一1 对( 纫始时刻) 处于巢个状态豹攘露。即 万* 巧 ,置= p ( 锄- - s , ) ,l f g ( 3 ,9 ) 泠定上述参数螽,跨骂尔可夫撰登穗可作为一个蕊号发釜器,出它瓣盛 观测掰号序列 。 9 ;溉,龟,唧 o , 孬 这墅每个舞瓣傻g 魑溉灏集合矿中秘往一个符号,r 怒输蹬蕊溅符号序弼中 观测德的个数。脱测序列的产生方法如下陬f t 6 】: ( 2 ) 按初始状恣分布万戆钒选取个初始状态瓠:s ; ( 2 ) 令t = l : ( 3 ) 按状态s 的符号概率分布龟( 蠹) 随机产生一个输出符号d ,;v 。; ( 4 ) 按状态薯豹状态转移穰零分布锡,髓税转移到个新螽状亲s ,繇 m 2 s | ; ( 5 ) 令# = t + l ,著f r ,剩醋舞步骤( 3 ) ;否弼过程结柬。 。曼,要! 耋模型产生信号的机理如图3 1 所示,横向表示状态产生过程, 缀固表示敬态爨鼹溺兹产叟过程。 图3 1 隐岛尔可夫模型产生信号的机璁 1 9 海密太掌矮圭学经论变 第三章戆马尔爵失模型 对于一阶h m m ,我们假设f 时刻某个观测的输融概率只依赖于当前时刻 的状态,蕊与过去款状态滗关。尽管从严墙豹慧义上来说,邀葶枣假设是不 对戆。嚣烫怼予港警痿母泉说,菜个醚裁爨楚懿不饺与裁一蟪粼有蓑,蔼 且逐同更前蕊的状态有关,同时某个时刻所处状态的输出不仪与当前状态 有关,而且还两前时刻的输出和状态秣关,霞藏遮稀骰设会弓l 入误蓑。僵 是这耱缓设可以大大藏少鬟 鑫诗麴模黧参数,袋褰了模型载露谢练程菠。 弼时若在话音特征参数中翩入差分信息,就能巍一定稔度上弥补这种假设 带_ 束的损失,暇此现有的大多数系统都采用一阶h m m 建模。 由疆土讨论褥辍看窭,为了宠整建襁述一令戆舄拳莓夫筷登,建巍疆定 参数和耐,瓣灏符号,三个槭率分蠢参数a ,b 耱霈。实舔主这冀参数 之阀蠢一定联系,掰竣魏了方便藤觅,紫将隐秘尔斑夫模鍪及菸参数表示 为 2 - - - - ( ,鼠芹 够。 ) 对于大多数成髑来说,参数7 最不爨鬻,因为它仅仅是初始状态。b 最 耋鬻,函菇它豢按与蕊灞镣号鞠鼗系。a 慰菜黧翘鼹缀重要,鬻对男些 问题( 如孤立溺谬音识别溜越) 鞠不大鎏要。 3 3 训练算法 魏簿餐舞模懋参数 墨魏力,楚躐溪痔麟崔绘窥模型条斧下豹发生橇率最 丈。莛兹港秃解决这个阉鬈麓解氍方法。僵是哥戳嚣焉途代怒遴方法( e m 算法) 寒选择冀s ( 蠢,b , x ) t 2 秘,戳毽褥p ( o l 弱黼壤大。 为了确定模测参数的熏估方程,首先定义, 强= p l ,0 2 ,口;,q := 莲| 蠢3 。 2 苁( d w p ( o 。,0 t + 2 ,0 ,iq ,= s ,固( 3 。13 ) 参,j ) 一p ( q ,= s ,q ,“= s l | 0 ,五) ( 3 。1 4 ) 一( f ) = p ( q ,= f 0 ,五)( 3 1 5 ) 稷据菸囊变黎颤) 窝嚣囊变鬟砖( f ) 懿定义,基毽歹霹戳篝藏下列搿式 2 0 溽离丈学颈士学往沦定鼙三章黪马拳霉夫缕整 删) = 盟鬻警塑 c t , ( i ) a g b t 颤+ i 璃“ 3 + 1 6 q ( 0 6 ,( q + ,墉+ l ( ,) 麟净篱。篇 谯功 壤舔懿嚣定义魏交登艿葶耩l ( i ,刃,可以褥劐重然公式 g ( i ) = 甄( f )( 3 、l8 ) ,一l 螽( ,) 弓= 号r 蠢国 * i ( 3 。1 9 ) 甄鹣重毽公戴怒程= l 黠测憝予凝态墨憩壤率。a 0 熬蓬绩公式怒麸竣态 墨转移蘩获态薯瓣麓望数狳苏获获悉转移熬麓鍪数。6 ,( 硒豹整德公式是 处予状态s j 莠鼹测劐簿号k 躺次数爨期越数跨以她予状态s l 魏次数弱期望 数。式( 3 1 6 ) 和( 3 1 7 ) 中的搿,( f ) 、砖( ,) 由前向算法和后向算j , z 一1 0 。 嚣淘算法臻述魏下: ( 1 ) 初始纯:( f ) = r c i b ,( o i ) ,l - i 兰n ; rn1 ( 2 ) 迭代计算:q + ( 力= 群( f ) 吼阮) ,t - t t - 1 ,1 篓i ( 3 ) 最后计算:p ( o i 五) - = z r z ,( f ) i 2 1 娅跏 溯薅大学矮士学位埝文 第三章瓣马尔霹失攘壁 后向算法捅述如下: ( 1 ) 拐戆纯:露玲= l ,1 i n ; ( 2 ) 迭代计髯:黟国= d f 屯( o m ) 韪+ l ( ,) ,f = r i ,t 2 ,l ,l = 。m a x p 您l ,譬2 ,嚷= s ,o i ,秽2 ,一,o ,| 五) ; ( 3 2 7 ) 吼,口2 i 商,l 罄最( f ) 跫沿羲镦潍经在理李蒯鹣最好褥分。 v i t e r b i 算法搐述如下: ( ) 拐薅恁 抗( i ) = 牙,4 ( 0 1 ) ,1s i 兰( 3 2 8 ) 矿l = 0 f 3 + 2 9 ) ( 2 ) 逛我诗箨 蠼) 2 磷瓣。l 吩魏溉) ,2 s f 蔓,t g 歹兰 ( 3 。3 0 ) 妒;( ,) = a r g m a x 髓一l ( i ) a 0 1 ,2 s ,1 歹g n ( 3 3 i ( 3 ) 鼓后计算 p + 。燃嗡湖 ( 3 3 2 ) 爵= 罐i 毪铡络甥( 3 。3 3 ) ( 4 ) 路径( 状态序列) 回溯 藓= 辨+ ,蠢;) ,f = t - 1 ,t - 2 , - - , l f 3 。3 毒) 2 3 篇舞 k 游谁大学矮圭攀使论寰 第三章貉薅皋蘑夹摸型 由v i t e r b i 算法得到最能状态序列q j ,r = l ,2 ,。遮样利用v i t e r b i 解码 冀法霄竣蛩冀每个模型豹 戳然褥分。 3 s 模型的优缺点 秘前最成功黢流行的建横方法为豫黪尔可夫模鼙,这是西为它其裔很多 壤点 4 j l 【5 1 娥2 2 2 3 j ( 1 它黼解;爽了餍短时模型来绉述乎稼段酶管号,又解狭了缚个怒时平 稳段是如何转强到下一个缀时平稳段的,可以说,它解决了时疑的非平稳 信譬鼹模型纯弼邃,繇它可默描述信母瓣态熬符健,又霹澄嵇逑薅专蘑态 懿祷经。 ( 2 ) 容器建立各释层次的语音蓼 鬟攀元( 音素、啻节、予、词斌句子) 静禳 型,而且能由小的语音单元模型构成大的语音荤元模型。 ( 3 h m m 毅零零奏惫会裔辩瓣簿整数意妹,露戳腻瑷溅数据求缮交整疼 部状态序列,因此不需要避行单独的时间归整。 ( 4 ) 有秘予练台不同静攀擎蔹信怠。 尽管h m m 翁土蘑诸多俊点。疆对它徽了很多假设,存在默下三个方露 魏鼹羧链隗驻3 7 1 ,咎2 4 镰攀8 l ( 1 ) h m m 的状态驻留分布与语音信号的实际特性不符。 ( 2 ) 绘惠状悫,毂没各糕溯矢鬟裙鼙猿立,赘鑫犊之鲻不禳关,这迄跫 不簿台实簿熬。漫然,数松无关穗夔霰浚袈舞楚耱鑫然懿瓣凌方法,毽 舔不易实褒。一攀孛麓孳豹髂决方法是莘| j 溺将 垂蔚鑫犊瓣貔差壤 喾隽将缝美 量的扩展维数。另外人们撼出了许多h m m 的变化形式用于体现帧问的相 关褴,毽捶悫戆臻谨麓、分段h m m 等。 ( 3 ) 基予短辩帧为基础瀚特征援取的隈毹。 h m m 这些软点或黪属黢魅,本质琢闲在于褥誊偿警及语袁谶裂趣越豹 复杂性,人们为了研究的方便捧了附加条件豹暇设。当人们对这一限定条 箨豹缓本箨了深入斡研究之鬃缛离结论:要避一疹褥麓语音谈掰系统壤麓, 就翳设法放松下条件或粥萁他措施弥补其不足。因为完全放松限制条件 是不可毙豹,潮聪为研究嚣锻提供了广溺约愚缎空澜,可以提出套式各择 河南大学硕士学位论文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 年个人借款合同范本
- 1东莞劳动合同标准文本
- 分包配合费协议书
- 内退协议合同书范例二零二五年
- 二零二五版全新房地产租赁合同范例
- 二零二五房东与租客安全协议范文
- 入伙协议合同样本
- 修路砍树补偿合同样本
- 内资股东转让合同
- 个体招工免责合同样本
- 医院陪护服务投标方案(技术标 )
- 幼儿园小班音乐教案《做客》含反思
- 研学旅行PPT模板
- 施工组织设计-暗标
- 小区车位出租合同范本(三篇)
- 道路桥梁隧道工程监理单位抽检记录表
- GB/T 20522-2006半导体器件第14-3部分:半导体传感器-压力传感器
- GB/T 13824-2015旋转与往复式机器的机械振动对振动烈度测量仪的要求
- 三相三线电能表错误接线分析课件
- 三体系管理手册ISO
- 开关柜局部放电检测技术课件
评论
0/150
提交评论