




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)方言转换系统中的语音识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 论文研究了用于方言转换的语音谚 别技术,包括说话人自适应算法、连续语 流音节切分算法和基于力l l 权有限状态转录机( w e ig h t e df i n it es t a t e t r a n s d u c e r s ,w f s t ) 的关键词谚 别算法。普通话与沈阳、济南和两安三种北方方 言之间的差异,主要体现在声调的基频模式和特殊词汇的发音上。论文面向普通 话到这三种方言的实时语音转换,构建了方言转换系统。 论文工作的主要贡献如下: 论文根据方言的发音特点,给出了说话人音色自适应方法。确定了说话 入自适应的语料;并利用隐马尔科夫模掣( h i d d e nm a r k o vm o d e l ,h m m ) 强制对齐算法( f o r c ea 1i g n m e n t ) 来去除个性化语音中的静音,同时用这 种方法还实现了特殊声韵母的切分。 _ 提山了一种基j - 自动机的逐级占节切分算法,该算法川于支持声调转换。 方言转换是以声调基频模式转换为皋 i :i ;的,而声调以音节为单位。因此 首先要对连续语流进行音1 了切分,在音节的暴础上进i j :皋频模式转换。 音节切分的准确性将直接影响基频模式转换的效果。 - 实现了基:w f s t 的关键词识别算法。在方言转换系统中,设计了一个基 于方音差异的小词表。并利用娃于w f s t 的连续语音识别算法实现了方言 特殊词汇检出,用于在方言转换中特殊训汇转换。 关键词方言转换;音节切分;w f s t ;关键词识别 a b s t r a c t a b s t r a c t t h i sp a p e rs p e e c hh a sr e s e a r c h e dr e c o g n i t i o nt e c h n o l o g yi nd i a l e c tc o n v e r s i o n , a n dl a y se m p h a s i so nt h ei n d i v i d u a ls e lf - a d a p t i n ga l g o r i t h m ,c o n t i n u o u ss p e e c h s y l l a b l es e g m e n t a t i o na l g o r i t h ma n dk e y w o r ds p o t t i n ga l g o r i t h mb a s e do nw e i g h t f i n i t es t a t et r a n s d u c e r s ( w f s t ) t o n eo fp i t c hc o n t o u ra n dp r o n u n c i a t i o no fs p e c i a l w o r d sa r et h em a i nd i f f e r e n c e sb e t w e e np u t o n g h u aa n dt h ed i a l e c to fs h e n y a n g ,j i n a n a n dx i a n f o rt h er e a l - t i m es p e e c h - t o - s p e e c hd i a l e c tc o n v e r s i o n t h i sp a p e rb u i l d sa d i a l e c tc o n v e r s i o ns y s t e m t h em a i nc o n t r i b u t i o n so ft h i sp a p e ra r ea sf o l l o w : _ a i m i n ga td i a l e c tp r o n u n c i a t i o n ,p r e s e n t st h es p e a k e 卜a d a p t i n ga l g o r i t h m i n d i v i d u a l s e l f - a d a p t i n gc o r p u sh a sd e t e r m i n e d ;h m mf o r c ea l i g n m e n t a l g o r i t h mh a sb e e nu s e dt od e l e t es i l e n c ef r o mi n d i v i d u a ls p e e c hd a t a ,a n d a l s ou s e dt os e g m e n ti n i t i a la n df i n a li ns p e e c h _ p r o p o s e ap r o g r e s s i v es y l l a b l es e g m e n t a t i o na l g o r i t h mb a s e do na u t o m a t o n i ts u p p o r t st o n ec o n v e r s i o n d i a l e c tc o n v e r s i o nb a s e do nt h et o n eo fp i t c h c o n t o u rc o n v e r s i o n ,a n ds y l l a b l ei st h eu n i to ft o n e 。s of i r s ts e g m e n t c o n t i n u o u ss p e e c hi n t os y l l a b l e ,t h e np i t c hc o n t o u rm o d e lc o n v e r tb a s e do n s y l l a b l e t h ea c c u r a c yo fs y l l a b l es e g m e n tw i l ld i r e c t l ya f f e c tt h ee f f e c to f p i t c hc o n t o u rc o n v e r s i o n _ k e y w o r ds p o t t i n ga l g o r i t h mb a s e do nw f s th a sb e e nf u l f i l l e d i nd i a l e c t c o n v e r s i o ns y s t e m ,w ed e s i g nas m a l lw o r dl i s t ,a n df u l f i l lt h es p e c i a ld i a l e c t w o r d s p o t t i n g ,i tu s e dt of u l f i l ls p e c i a lw o r dc o n v e r s i o n k e yw o r d s :d i a l e c tc o n v e r s i o n ,s y l l a b l es e g m e n t a t i o n ,w f st ,k e y w o r ds p o t t i n g 学位论文版权使用授权书 本人完全了解北京信息科技大学关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位沦文的印刷木和 电子版本;学校有权保存学位论文的e i j 嗣j 本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供奉学位论文全义或者部分的阅览服务;学校有权按有关规定向 中困科学技术信息研究所等围家有关部门或者机构送交论文的复印 件和电子版;在不以赢利为目的的前提下,学校可以适当复制沦文的 部分或全部内容用于学术活动。 学位论义作者签名: 年目口 经指导教师同意,本学位论义属于保密,在年解密后适用 本授权书。( 注:论文属公开论文的,作者及导师本处不 签字) 指导教师签名:学位论文作者签名: 年月口年月日 硕士学位论文原创性声明 本人郑重声明:所呈交的论文题目为方言转换系统中的语音识 别技术研究学位论文,是本人在导师指导下,进行研究工作所取得 的成果。尽我所知,除文中已经注明引用的内容外,本学位沦义的研 究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品 的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均 已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人 承担。 作者签字: 月 夕面 第+ 章方;i 转换系统慨述 第一章方言转换系统概述 1 1 方言转换技术的背景 中国地域辽阔,在九百六十多万平方公里的十地卜,居住着十三亿人口,共 有5 6 个民族。地域和民族的1 i 同,语言也不同。官方语言足汉语,但即使同样 说汉浯的地区,南j j :地域的差异也有着种类繁多的方言。汉语方言的分类说法不 一,其中七类划分法具有代表性,分为:官话、吴方言、湘方言、赣方言、客家 方言、粤方言、闽方言。普通话足中幽的标准语言,但是很多地区人们在日常交 流中仍旧使用方言。彳i 同方言区的人们由于方言的差异交流起来有一定困难,有 时因为方言的不同会造成误解,如果能在人们的交谈过程中,通过语音技术把一 方的方言语音转换为兄一方的方言语音,就可以克服人与人之间交流的障碍。 在饭j j 、银行、旅游景点等场所,利用方言提供个性化的语音服务,会使方 言使用者感到亲切,增加客,_ 满意度;在公共交通领域,在r 1 国尤其是铁路交通, 客流量较人,源自不同的方言区,征这些场合应用方言转换技术提供服务,可以 极大地提高服务质量和效率;在电视、广播等传媒领域,方言栏目近年来迅猛发 展,为大众广为接受,充分体现了地域特色,有着广阔的发展窄问:随着与:联网 的迅猛发展,网络聊天成为新兴的交流方式,利用方言转换可以中富人与人语音 通讯的方式,增加趣味件;随着人口的迁移,很多人需要适应4 | 一j 地方的生活, 利用方言转换系统学习当地方言,可以很快的听懂方言,从而尽快的融入到当地 的生活中;随着移动设备的普及,诸如电子导航系统、手机、电了阅读器已经越 来越多的应j j 到人们的日常牛活当中,将方言转换技术集成到嵌入式设备中,可 以提高设备的人机交互界【j l f ,为人们的日常乍活带来便利;客户语爵服务巾心利 用方言提供支持,可以提高服务的质最,提高氽业的信誉度。方言转换技术可实 现方言之间语音的转换,町以应用j :以上的领域。 1 2 与方言相关语音技术简介 通过文献调研发现,只前针对方言语音技术的研究主要集中在方言语音合成 一卜。把文本转换为语音的系统称为文语转换系统。文献【1 2 1 研究了粤语合成才h 关 技术,义献川研究r 天津语合成系统,文献4 1 研究了吴i 等的合成系统。以上的系 统均都足从文本到地方方言语音的文语转换系统。 相对于文语转换系统,同i 等种之问f l , j i g - 爵剑语音的方言转换研究卡h 对较少。 1 第一章方矗转换系统慨述 现有的方言转换系统可以分为两类:一类是文字读音和语法大部分不相同的两种 方言之问的转换。这种转换不同语种之l u j 的转换难度基本卡h 同,一般需要语音 识别为基础,首先通过语占识别将语音转换为义字,冉通过语音合成系统将文字 转换为语音。如文献i5 l 实现了普通话到粤语的实时语音转换。另一类转换足方言 之间的差异主要集中在声调,这类研究f 1 前尚无文献。本文正是针对此类方言语 音转换进行研究,构建了普通话到两安、沈阳和济南三种北方方言的实时语音转 换系统。 1 3 方言转换系统的特点 本文构建的方言转换系统与文语转换系统不同,文语转换系统实现的是文本 到语音的转换,而本文实现的足语音剑语旨的实时转换。通过埘原始普通话语音 信号直接修改,使其具备目标方占的特性,从而实现方言转换。同时,本文实现 的转换系统与语种 1 i j 语音转换系统所采取的技术方案不同,语种间转换需要利用 语音识别将语音转换为义字,再通过语音合成将文字变换为语占。 本义根据普通话和三种北方方言( 两安、沈阳和济南) 之问的差异主要集中 在声调和特殊训汇发音上的特点,利用卢调罐频模式转换和方言。特殊浏汇替换技 术实现了方言转换。该方法在实现方言转换的同时,不改变说话人的音色。详细 见第二章和第三章。 1 4 语音识别技术在方言转换中的应用 语音识别技术中的连续语流音节切分算法和关键词识别算法分别支持声调 基频模式转换和方言特殊词汇替换,在方言转换中具有重要的地位。 连续语流音节切分算法是声调基频模工转换的罐础。汉语是声调语言,通过 修改基频模式u 以达到声调转换的目的,而声调足以音节为单位的。凶此首先利 用连续语流音节切分算法将普通话语音切分成音1 了,以音节为单位,将普通话的 基频模式修改至目标方言的基频模式,从而达到声调转换的f 1 的( 详细见第二 鲞) 。 关键词谚:别算法是方言特殊词汇替换的基础。普通i 焉和三种同标方言之问除 了具有声调的普遍x t ;l 关系以外,还具有特殊词 厂的差异。这些特殊词汇发音完 全不相同,以济南话为例,“我”读作“俺”。因此首先利用关键训识刖算法识别 出这些特殊i r d 汇,再利川特殊i q f k 替换技术进行方言特殊词汇的替换。 语音谚 咒0 技术在方言转换系统中占何极其驱要的地化。连续语流音 了。剀分算 第一章方言转换系统慨述 法的准确性直接影响基频模式转换的效果。关键训识别算法则决定着特殊词汇替 换的效果。 1 5 选题意义 论义的主要工作包括连续语流音1 了切分算法和基于加权有限状态转录机 ( w e i g h t e df i n i t es t a t et r a n s d u c e r s w f s t ) 的关键词识别算法。这炳项核心技术 除了在方言转换系统中有着非常重要的应用外,在其它领域,也有着_ l 卜常重要的 研究和应i t j 价值。 连续语流音节切分算法有着非常重要的科研和实用意义,音1 7 切分属于语音 检测的一部分,与音段切分、声韵母切分乃至音素切分一样都是为了找剑单位语 音的边界。自动切分算法在以下的领域有着非常重要的应用价值。 音1 了切分算法可以应用在语料库建设上。在语爵合成中,基于大语料库的拼 接合成算法,由于其合成出的语音清晰自然,而得到了7 “泛的应j 1 3 ,而语料库是 语音合成系统的罐 i j l :。波形拼接合成一般包含一个大规模的语音库,基元来自自 然语音,冈此基兀切分的精确度赢接影响到最后合成语音的质黾。人i :切分人语 料库耗时、耗钱日不- f 定制。因此,越米越多的单位及个人开始研究人语料库的 自动切分系统,音节切分算法随之成为一项重要的研究课题。另外,在语音合成 系统中,随着合成意图的改变或者为j ,得到不同发音人的合成系统,常常需要重 新构建语音库,如果采用人工校对,那么整个系统的研发将变得十分漫长。相反, 自动切分及标注方法有助r 高效的建立各类语料库,尤其对于大语料库有其明显 的优势。在语音识别中也需要建设不同的语料库,用于训练模型。通过自动的音 节切分可以缩短产品的研发周期,节省了大最的人力物力。 音节切分算法在语音识别中可用于端工检测,直接提高识别系统的效率,彳i 至于在静齑段白白浪费时间计算,减少搜索量。甚至如果能够精确的找剑每个音 节的边界,则i j j 以直接将连续语音识_ ) j 0 转换为孤立字识别,极人提高系统效率和 识别准确率。 火键词识刖算法用j 二在迩续的、无限制的自然语音中识别出火键词集合巾的 词。在很多领域,都有着重要的科研和应川价值。 关键词 j 别一个重要的应川是临听。在出于同家安全和刷侦的考虑对电话网 络进行监听时,要耗费大量的人力和时间;再者,由于人的精力是仃限的,有时 也会把极其重要的内容忽略掉。但关键侧i 只别器可以厂1 夜监摔电话网络,一旦发 现有某些火键训出现,及时预警、跟踪i d 标。这可以。肖省人力,同时l 岛忖能的火 键词谚 别系统可以做剑真正实时临控。 第一章方占转换系统概述 关键词识别还可以应用到语音信箱的消息分类上。当接收到语音消息时,通 过对其关键词的检索与识别,把它们按关键词的性质分fj 别类。 w f s t 是语音识别领域近期的一个研究热点,w f s t 作为一种通用的语音识 别框架,源自于自然语言处理领域,w f s t 可以将h m m 声学模型、发音词典以 及语言模型,通过状态之间的转换,紧密的整合在一起。它可以应用在连续语音 识别、天键词识别、孤立训识别等1 i i 司的识别任务巾,具有通用性。 1 6 论文主要内容 论文主要研究了方言转换系统中的说话人白适应、连续语流爵节切分和关键 训识别算法。并在此皋础卜构建了普通话剑西安、济南和沈阳的方言转换系统。 本义的章节安排如f : 第一章给出了方言转换系统的概述。 第二章研究了方言转换系统的可行性。通过对普通话和三种北方方言之间差 异的研究,利用一个原型系统,证明了利用声i :j j 转换和方言特殊词 厂转换来实现 普通话至0 目标方言的转换的技术方案的可行性。 第二章给了方言转换系统的实现。内容包括了系统同标、框架设计、详细 设计以及最后的用户界面。 笫阴章研究了说活人自适应方法。内容包括白适应语料设汁和罐于h m m 的 强制对齐算法在自适应巾的应用。 第五章介绍了音节切分算法。首先对近年来音节切分的算法进行调研,给出 了一个调研报告。然后介绍了基于自动机的逐级音。1 了切分算法的设计与实现。 第八章介绍了基于w f s t 的语音识别框架,研究了基于w f s t 的语占识别 搜索算法,构建了一个皋于w f s t 的连续语酱识别系统。 第七章研究了方言转换系统中的方言特殊词汇替换技术。首先介绍了方言特 殊词汇表的构建。然后介绍了方言特殊词汇的检山算法。 第八章是结论与展望。 第二章方言转换系统可行性研究 第二章方言转换系统可行性研究 本章研究了三种北方方言和普通话差异,并通过实验验证了以声调转换为核 心的方言转换技术是完全可行的。本文选取的三种北方方言与普通话的差异主要 集中在声调、特殊词汇发音两部分。普通话到三种北方方言之间的实时语音转换, 正是建立在对上述两种差异转换的基础上。 2 1 节介绍了基音和声调的关系。2 2 节介绍了五度标调法。文本在分析三种 北方方言和普通话的声调差异时,使用了五度标调法。2 3 节研究了三种北方方 言和普通话的声调差异,从理论上证明了以声调转换为核心的方言转换技术是完 全可行的。通过一个原型系统从实验角度验证了以声调转换为核心的方言转换的 可行性。2 4 节研究了三种北方方言和普通话的声韵母差异。2 5 节研究了三种北 方方言和普通话的其它差异,包括清入声字和特殊词汇差异。 2 1 基音和声调 浊音的声带振动的频率称为基音频率,可以用以或只表示。基音频率的倒 数称为基音周期。基音周期具有时变性和准周期性,它的大小与个人声带的长短、 厚薄、韧性以及发音习惯有关,还与发音者的性别、年龄、发音时的力度以及情 感有关。无论在说一个单音节或说一段连续语音时,各个音节中的韵母段的r 都 是随着时间而变化的,只的不同轨迹称为声调。在汉语普通话中具有四种声调, 它们是阴平、阳平、上声和去声,或称之为一声、二声、三声和四声。相同的声 母和韵母构成的音节随着声调的不同而具有完全不同的意义,对应不同的汉字, 例如妈、麻、马、字辨意作用。 图2 1 声调基频曲线示意图 声调曲线,即f o 的轨迹。四种声调的基频曲线( 如图2 1 所示) 在开始的一 第章方言转换系统可行件研究 段( 约6 0 m s ) 呈共i 一的 :升走向,这一段称为弯头段。它们末尾一段( 约4 0 5 0 m s ) 呈共同的下降走向,这一段成为降尾段。而中f u j 的一段则具有f i 同的特点,这一 段称为凋型段。一般认为,弯头段和降尾段对于声调的听辨f i 起作用,起作川的 是渊刑段。在研究声调时只需要讨论它们的调型段。阴平( 声) 曲线的特点是 几乎与横轴平行而目平均值很高。阳甲( 二声) 曲线的特点是从较低的频率一直 上升剑较高的频率,或者住起始处稍稍l - 降后一直上升。上声( 三声) 曲线的特 点是先降后升。去声( 伊i 声) 曲线的特点足从较高的频率出发一直f 降到极低的 频率。 2 2 五度标调法 汉语是声调语言,每个音印i t - 何不同的声调,音节内部有着音高的变化。声凋 的特点是由卣节皋频的变化方式决定的。普通话中基频变化方式j f 缓为阴平,上 扬为阳平,先抑后仰为上声,下降则为去声。但这只是从直观上定性地来分析声 调的特点。 赵元任从量化的角度发明了卢调的瓦度标注法1 6 j ,即订i 音音高按照低、半低、 中音、半高、高,分别用l 、2 、3 、4 、5 表示。五度值足个相对的数值,而没仃 固定的频率值与之对戍。比如:一个人的i f 常语音基频范围是1 0 0 h z 到2 0 0 h z , 那么】0 0 h z 对应血度中的l ,2 0 0 h z 对应五度中的5 ,五度对应的频率值之间不 是等分的,而足与频率的对数成线形关系。 五度频率值的对数呈现等比关系。即:x 度的音高为: f 一1 ( 毕帆t s j(2一l0 凡= l 、 4 zl 7 x 为1 到5 之间的任意整数。其巾。是发音人基频范围的最大值,;。足 发音人基频范同的最小值。普通话四卢凋的血度表示如图2 2 所示: 图2 2 普通i l e 网声凋的五度农示法 6 第拳方南转换系统”,行忡研究 图中的数字代表的是音高的相对值。以阴、i ,5 5 为例,5 5 代表的足音一岛相对 值的变化,从5 度变化剑5 度,用来表j :基频的变化方式。 2 3 普通话和三种北方方言的声调差异 北方方言分布的地区很 阔,包括华北、东北、两南、两北以及江淮地区。 北方方言内部一致性较高,不同地区的方言语法和词汇基本一致。不过,“腔调” 很不相同,这种腔调的不同,很大程度上是由声调所决定的。本文选取了典型的 三种北方方言进行研究,表2 1 给出了j 种北方方言和普通话的声调对应关系。 表2 1 :普通话与方言声调对应表 彤j 甲阳平卜声去声; l 普通话 5 5 3 5 2 1 45 1 4+ l 济南 2 1 3 4 2 :5 5 2 1 一 j 两安 2 1 2 4 5 34 5 i 沈阳 3 3 :3 5 :2 1 3 i4 i : 由表2 1 所示,我们发现普通l 舌和选取的三种北方方言之间的声调存在一一 对应关系。表中的声调采用五度标凋法表示( 见图2 1 ) 。普通活和三种北方方言 之间存住着声调酱遍对应关系,从理论i :证明了基于基频模式转换的方言转换技 术是完全可 j :的。 荩频曲线包含了声调的信息7 1 ,因此最初的想法是利用修改普通话的基频模 式到目标方言的基频模式来实现声调转换,从而达到5 - 言转换的f 1 的。 为了从实验角度验证以声渊转换为核心的方言转换技术的可行性,项目组的 李明同学实现了一个原犁系统1 1 6 1 来验证这个想法的可行性。原型系统设计思路 如下: 将普通话语音首先利川手工标注进行预处理。将每个音节的声调信息川手工 标注出来,同时将目标方言的卢调模式( 通过人量方言语音数据曲线拟合而成 【1 6 1 ) 存储起来。具体流程图如图2 3 所示。 音节和基 频信息标 沣义件 普通话语 i = i 浯音内容 标沣义件 力言声调 l 冬j 2 3拐i ) i ! 系统结 j ,j :意隆i 7 乃言语音 第章方占转换系统可行件研究 输入包括四个部分:普通活语音、普通岳标注义件、语占内容标注文件、方 言声调模式。 ( 1 ) 普通话语旨是转换的对象: ( 2 ) 音节和基频信息标注文件,记录了语音信号的音节和琏频信息; ( 3 ) 语音内容标注文件记录了各音节的文本内容; ( 4 ) 方言声调模式,是基频变换的依据,通过大量方言语音数据曲线拟 合得到。 首先通过标注信息埘普通活语音进行韵律短语的划分;利用语音内容标注文 件以查字典的方式可以获得卢渊信息,但是汉语存在很多多音宁,因此需要用户 对声调结果进 j :手_ 修i e 。 接下来就- 叮以按照摹频变化规律( 表2 1 所示) ,以音节为单位,对普通话语 音依照f i 司的方言声调模式进行变换并进 j :平滑和修正。最后对修改了笨频的语 音进行重构,使j j 的方法是时域基音同步波形叠加算法( t i m ed o m a i n p i t c h s y n c h r o n o u so v e r l a p a n d a d d ,t d p s o l a ) 8 1 ,至此普通话向方占的转换完 成。 将转换后牛成的语音,l 司录制好的方言语音进行比较,发现炳者具有较高的 相似性,说明以声调转换为基础的方言转换技术完全可行的。 综上所述,先通过对声调差异的研究,从理论上验证了方言转换的可行性。 然后通过原掣系统的实验,证明了方言转换技术的可ij - 性,实现方言转换系统, 原型系统中的手工标注文件需要自动生成。详细见第二章方言转换系统的设计与 实现。 2 4 普通话和三种北方方言的声韵母差异 普通话和选耿的三种北方方言之间,除了具有声调的差异之外,还具有声韵 母的差异( 如沈阳话中的声母z h 渎作z ) 。声韵母的差芹体现了方言特点,为了 增强方言转换的效果,需要对这些特殊声韵 世进行转换。经过查i 弼文献,发现三 种北方方言与普通话之f u j 的声韵母筹异,仃如下几种情况( 三种北方方言和普通 话的卢韵母差异列表见第七章) 。 ( 1 ) 普通话和方言之f i j 的声韵埘具有一一对应的关系。 ( 2 ) 普通话和方言之间的声韵母只有一对多的关系。 ( 3 ) 普通话和方言之间的声韵母具有多对一的关系。 对于第二种和第二三种情况,声韵母之问不是一对一的关系。有时要考虑到前 后关系的影u 向( 如存西安力言巾,韵母e i 存卢母n 和l 之后,变成u i 。在其它情 第:章办言转换系统可t t f k t i j t :究 况下不变) ;有时在修改的过程中,也要根据- 4 变 r 一 厂一一 换 i 语料库l! 基频转换l i 基频转! 建 建设r建模r 换模型f 模 1 一i 一 一j 1 1 普通话换一一一 j “丝艏了 寺殊 语音 1 提取 1 切分_ 识别_ r i 夕r f ? ? 兰1 词 i :雪换 + f 说 国陶 话 人 自 适 应 基出圃陌纛习 系 统 3 3 详细设计 i 割3 1 :方吉转换系统 变换建模部分离线训练普通话与三种北方方言之间声调转换模型。方言转换 部分包含语音采集、音1 了切分、基频提取、基频模式转换、关键训识别、语音替 换共六部分,是系统的核心部分。说话人自适应系统足用来获取用户信息,辅助 方言转换系统的。其中本文研究的是说话人白适应系统和方言转换中音节切分、 关键词识别和语音替换技术。其它的部分是项目组的其它同学负责完成。 住本节中介绍了方言转换系统的各个模块的详细设汁。3 3 1 小节介绍了说 话人白适应系统,3 3 2 小节介绍了语音采集模块,3 3 3 小节介绍了基频提取模 块,3 3 4 小节介绍了音节切分模块,3 4 5 小节介绍了皋频模式转换模块,3 4 6 小节介绍了基频模式转换模开! 训练模块,3 4 7 小1 了介绍了语音重构算法,3 4 8 小1 了介绍了关键词谚 别模块。本文的主要工作包括说话人自适应系统、音节切分 和天键词识别的详细算法。以f :二部分将分别在第 j 【| 章、第五章、第人章和第七 章展开论述。 第三章方吉。转换系统的设汁与实现 3 3 1 说话人自适应方法简介 说话人自适戍系统在方言转换的同时,能够保留说话人的音色。在自适应的 过程中,系统获取用户信息。用户信息包括两部分:用户的平均基频和特殊词汇 的发音。 j ,、的平均皋频信息用于基频模式转换:用户的特殊词汇发音川于方言 特殊词汇替换( 自适j 通用户界面见木章3 4 节) 。 在基频模式转换中,基频转换模型是基于特定人的,冈此转换后的基频曲线 与用户的f i 同,需要以用户的平均基频值为中心调整到用户的皋频范围内。为了 准确获取用户的平均基频信息,语料设汁为:光悦鸟性,潭影空人心。人事有 代谢,往来成古今。语料覆盖了所仃的声调,并且声调个数基本相同。声母覆盖 了清音和浊音。这样语料设计的f 1 的足准确的获取说话人的平均基频值。 在特殊i 司t l - 转换中,需要将普通话中的特殊词汇用说话人对应的方言特殊词 汇发音进行替换( 如“我”在济南话巾用“俺”进行替换) 。冈此在a 适应系统 中,需要获_ 驭用户的方言特殊词汇发音。在方言转换系统中,特殊词汇替换规则 如下所示: ( 1 ) 济南话:我专俺。 ( 2 ) 两安话:我- - ) n g e 3 ( 其巾n g e 是围际音标,3 代表二声) 。 ( 3 ) 沈1 5 同话:z h - - ) z 、c h - - ) c 、s h - ) s 、地方专嘎达、聊大专唠嗑。 由转换规贝0 可知,在说话人自适应巾需要获取语料“俺”、“n g e 3 ”、“z ”、“c ”、 “s ”、“嘎达”、“唠嗑”的川广1 读音。自适应系统中,设计的语料( 具体语料的 设计原则以及特殊词 厂的获取算法详见第四章) 如下所示: 自( z i ) 、此( c i ) 、i 匹t ( s i ) 、俺、n g e 3 、嘎达、唠嗑。 系统录制好语料的标准发音,在用户进行t h - 适应的过程中,以提示音的方式 播放。用户按照提示音进行朗读,i h 适应系统即可获取相应的特殊词汇的发音。 3 3 2 语音采集 语音采集模块中,采样率为1 6 k h z ,量化位数1 6 b i t ,单声道。该模块实现了 活动语音检测功能( v o i c ea c t i v i t yd e t e c t i o n ,v a d ) ,通过v a d 可以实现录音的 a 动开始和结束。当川户开始说话时,系统自动进行录音:当用户长时间没有发 声时,系统会自动停j l :录音。 v a d 技术在很多领域有着很重要的应用,在移动通信和分组网等带宽受限 的通信系统中l l j + 以节省资源;住语音识别中町以进i j :起止点少0 决;此外还i t j | 在语 音识别系统、说话人t j ! 别系统、蜂窝电话和孤立同谚 别系统巾作为预处理器。 第i 章方言转换系统的设汁与实现 本文采用静占垃圾同收算法来实现该功能。当j j ,1 点击录音按钮后,将数据 放到一个静音回收循环队列当中去,当进入静音队列的语音的能量闽值大于静音 闽值时,将静音回收队列回溯2 0 0 m s ( 经验值) ,并将数据送入数据缓冲区,同时 开始录音。 3 3 3 基频提取 声调转换是通过修改基频曲线来实现的,因此基频提取的好助i 直接影响方言 转换的效果。这一模块由项目组徐英进i 司学完成。 现有的基音检测方法可分为皋j 二事件和非肇二于二事件检测两种,这单事件指声 | 、j 闭合。基于事件的检测方法足通过定位声门曲 合时刻来估计基音周期,这方而 已有很多方法,其中常见的有基于小波变换的方法l 1 0 1 。非事件检测方法也钉很 多,如自相关法【1 、倒谱法【12 1 、并行处理法、简化逆滤波器法【1 4 1 和平均幅差 函数法【l5 j 等。广泛使用的足自相关法。自相关法利用了语音信号的准周期性。 浊音信号是准周期的,其自相关函数在基音周期的整数倍上将出现峰值,而清音 信号的自相火函数无明显的峰值,因此检测语音信n 的白相关函数峰值位置,即 可提取基音周期。 本义采用自相关法进行基频提取,该方法在遇到基频较低的情况时,基频曲 线会发卞断裂或者跳变,所以在堆频提取之后需要对基频曲线进行平滑处理。 3 3 4 音节切分 本文提出了基于自动机的逐级音节切分算法,成功的支持了基频模式转换。 汉语是声调语言,声调转换是方言转换的核心,声调以音节为单位。因此首先需 要对连续语流进行音节切分,在音节的雏础上,应川基频转换模型进行语音修改, 输出f 1 标方言。南此町见,音1 了切分的准确率直接影响着举频模式转换的效果, 在方言转换系统中占有重要的地化。详细的音节切分算法见第五章。 3 3 5 基频模式转换 本文使用聚类的方法米实现方言的基频模式转换。该部分是由项目组的李明 同学完成。聚类就是将物理或抽象对象的集合分组成为南相似的埘象组成的多个 簇的过程。南聚类所生成的簇是数据对象的集合,每个对象与同个簇中的其它 对象彼此卡h 似,与其他簇一t - 的刈象相异。聚类分析已经广泛地川伍许多应川中, 第二章方言转换系统的设计j 实现 包括模式识别,数据分干厅,图像处理,以及市场研究。 要进行聚类分析首先要明确被聚类对象之间能体现出差别的属性足哪些。根 据这些差别选取特征参数,然后利用选取的特征参数进行聚类。对于汉语声调而 言,差异卡要足调型,即基频包络的形状。相i j 声调的音节其基频包络形状基本 一致。系统选取了3 个特征分别是调型特征、皋频均值特征和基频丌始位置特征。 3 个特征其6 维参数来对调掣进i j :描述。聚类算法选取混合凝聚层次和怨平均的 综合算法。详细的算法见文献【l 制。 3 3 6 基频转换模型训练 基频转换模型1 1 6 1 是方言转换系统的重要部分,它决定了转换得到的语音是 否具仃方言的特点。为了建立基频模型,首先设计相同文本的普通话与方言语料, 在这个语料的基础上利用聚类算法建立基频转换模型。这个语料包括单字和双字 词两大类,我们的基频模型就是建。谚在单字、舣字词前字、双宁词后字这三个韵 律位置基础之上的。在洲练过程中,我们把每个音= 竹的声调用三个特征米表示, 它们分别是:调型、基频均值、基频开始位置。然后对同一韵律位置的音节进行 了聚类以得到最终的基频转换模型。 3 3 7 语音重构算法 本文使用了时域基音同步波形叠加( t i m ed o m a i np i t c h - s y n c h r o n o u s o v e r l a p a n d a d d ,t d p s o l a ) 1 8 1 算法,对普通话语音按照基频转换乍成的语音参 数进行重构,输山方言语音。基频转换模型是应用在语音参数上的,经过基频模 式转换后得到的是方言语音的各种语音参数,最后需要根据这些语占参数对普通 话语音进彳j :重构。该部分是由项目组李明同学完成,详细算法见义献【1 6 】。 3 3 8 关键词识别 为了实现特殊词汇的替换,使用关键t r d 识别算法,将普通话语音中的方言特 殊词汇识别出来,然后利用语音替换技术进行特殊词汇的替换。本文利用基于加 权有限状态转录击j l ( w e i g h t e df i n i t es t a t et r a n s d u c e r s ,w f s t ) 的连续语音识别算法 实现了关键训枪出,成功的支持了方言转换l l 的特殊浏 厂转换,详细算法见本文 第八章和第七章。 在第二章l f j 研究了普通i 再与三种北方方言之间具有三种特殊的差异,分别足 翌:竺互立堑堡垒兰堕堡! ! ! ! 兰墨 特殊闻汇差异、特殊卢韵母和i i | f 入声字的特殊变调的茬芹并儿这些特殊筹异谯 根大程度上体现了方占的特点( 比如沈阳方占中的“s h ”读作“s ”,西安话巾的 “我”读作“n g e 3 ”) 。通过埘这些特殊i 川汇的转换可以增强坩言转换的散粜,使 转换后的方言语音更接近开杯方言。 3 4 方言转换系统用户交互界面 靠言转换足由醺话人自适应和方占转换两部分组成本。竹演示了j = | j 户界面, 并介纠方言转换系统的使用a 法。 方言转换系统川广不需要特殊的设徭,h 需要有一台普面的带柯青辅和壹克 风帕p c 即可。软件环境要求扫:w i n d o w s 9 8 n t 2 0 0 0 x p 下。 川p 运行方言转换系统后首先会i l 仍b 登陆框如罔3 2 所示。如果j 、已经 进行过“适应“练) i ;么输入用户名即可使川方言转换系统。如果用户首次使 i a 言转换系统,需要进行自适应洲练点击“沌册”按钮,进行训练。 * g ”女;獬t t f d t ,l _ j m m ,b 月p _ j 丝划兰苎_ _ j! 苎1 月p :阿r 一 _ ! 旦_ j _ ! 生_ j 喇3 2 方言转换乐统特陆框 点r h 注册之后,出现方占说话人自适应界l i l 如图3 3 所示。具体训练步骤如 i :所求: ( 1 )输入用户名,并选拌简单模武或者高级模式。简单模式;只获取用 广的基频信息方言转换时不能进行a 言特殊训汇的替换,只能进 行毖额模武转换。高级模式:获舣1 产的肇须信盛和特殊谢f i 二信息, 靠苦转换时以使用特殊i r d 厂竹换。 ( 2 )手动漆加罄频平均值,该项为实验设霄参数,川卜不他用醌选顾。 1 3 )谈取j f j 户r 均塾频f 占息:刷户点- i “求曲”按钮按照上面给m 的 第三 方言转换系统的设与宴现 了 ( 2 )手动添加基频平均值,该项为实验设置参数,用户不使用该选项。 ( 3 )获取用户平均基频信息:用户点击“录音”按钮按照上面给出的 语料进行朗读,如果录音失败,点击“重新录制”按钮,录音完毕 后,点击“完成”按钮。 ( 4 )如果用户类型选择的是高级模式,则需要获取用户的方言特殊词汇 发音。用户点击“高级训练”按钮,会有一段提示音播放,告诉用 户如何进行高级训练。点击“下一步”按钮,按照提示音的示范, 进行朗读然后点击“完成”按钮。 按照以上四个步骤进行训练后,用户就可以使用方言转换系统进行方言转换 雌月 i 张口明2 p g m e 月p gk 1 # n t : a z l q “ e 日p 月p g 日m 删“ a 档t ,目“糖 自i m 十q i 丽09 m融 t 镕t 酗“ e “o 一。卜巨 “m 自舳捌蝠开自删两* ,n 口r _ 嗽f ,n 嘲m 幽3 , 3 说话人白适应系统h j 户界面 训练完毕后,进入方言转换主界面如图3 4 所示。工具栏上按钮的使用方法 见图片上的注释。界面上记录了一次方言转换的实例: ( 1 ) 原始波形区上显示的是普通话语音“我是河北人”的语音波形,同时 显示了自动音节切分的结果。 ( 2 ) 识别替换示意图中,显示的是方言特殊词汇检出的结果,包括特殊词 汇的边界以及要被替换的对象。 圉 刍 苎三苎互壹壁墨墨竺丝垦盐要苎墨 ( 3 ) 关键词替换波形图显示的是经过方言特殊词l 汇替换后的语音波形图。 ( 4 ) 在基频示意图中显示的基频修改的结果白色曲线是原始基频曲线, 即普通话的基频曲线。黑色曲线是修改后的基频曲线,即日标方言的基频曲线。 ( 5 ) 最下面的区域是修改基频曲线后语音波形图。用户点击播放方言按钮, 即可听到转换后的方言语音。 - 叫兰丑士 * # 啪 一- 一h - 一 】。一,u - 气,_ ,、 一_-_一 凹3 4 方言转换系统主界面 第四节说话人自适j 娅方言研究。j 实现 第四章说话人自适应方法研究与实现 本章详细介绍说话人自适应方法。4 1 节研究了用j :挟取“z ”、“c ”和“s ” 发音的语料设计方法。4 2 节介绍了隐马尔科大( h i d d e nm a r k o vm o d e l ,h m m ) 强制对齐( f o r c ea l i g n m e n t ) 算法的引入。4 3 节h m m 强制对齐算法的研究综述。 4 4 小节h m m 强制对齐算法在说话人自适应系统中的应用。 4 1z ,c ,s 声母的说话人自适应方法 在普通话到沈刚话的特殊词汇替换中,需要利川关键渊识别技术,将声母 “z h ”、“c h ”、和“s h ”识别出来,然后用“z ”、“c ”和“s ”的读音进行替换。 在考虑这三个声母转换时,遇到了两个问题。第一:用户不可能发出单独的声母 “s ”的音,因此需要选择包含声母“s ”的字让川广玄朗读。选取什么样的宁来 获取“z ”、“c ”和“s ”声母的读占? 第二:将识) j 0 山来的“s h ”直接替换成“s ” 是否能够体现山沈刚方言的特,7 i ? 从声学参数角度来看,不同韵母对声母“s ”的影响基奉相同。最后选取“s ” 和韵母“i ”的组合作为 ,苦料。因为以“i ,为韵母寸,声母“s ”的过渡音段长度 为0 ,受韵母的影响最小i j 7 1 。 在选定了语料之后,下一步就是确定替换方案。本文通过对比实验,验址 了将声母“z h ”、“c h ”和“s h ”直接替换为“z ”、“c ”和“s ”可以很好的表现出 沈阳方言不分半卷舌的特点。具体实验方案如下: 选取声母“s h ”进行替换实验,一共可跟1 9 个韵母进行组合,并考虑不同 声调。最后选取的实验单字如表4 1 所示。 4 1 箭换实验单字列表 韵坶以及瞥, 声调aa n a n g a oee fe n e n g l o u uu au a luanu a n 叠u lu uu n 杀l i ;i烧9 味:;i j | j l f j 收 5 刷拌拴烈说 l 懦j蛇h #神升时热 傻叫少沈竹他r数殳甩爽水吮 凹 j 埋墒 f :l i j f 什 于肿址受一怪帅睡 j !顺 按照列表给_ h 的语料进jj :录音,并埘a 适应语料的“q “进行录爵。手工获 取“四”中声母“s ”的发音,并将所有的单字中的声母“s h ”川“s ”替换。 经过实验审l 叫学以及沈阳人的试听,发现通过“s h ”到“s ”的卣接替换, 1 9 第四母说话人f 1 适应房言研究与实现 可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 微生物检验项目的选择与设计试题及答案
- 注册会计师在财务政策制定中的作用试题及答案
- 项目管理工作量评估与优化考题及答案
- 项目管理过程中的伦理道德考评分试题及答案
- 项目管理绩效改善措施试题及答案
- 项目细节管理的试题及答案
- 关注法规变动的证券从业资格证试题及答案
- 微生物实验室的人员培训内容试题及答案
- 微生物检验技师证书考试复习要点与试题
- 2025年银行从业资格证考试学员互助活动与试题与答案
- 人工智能导论知到智慧树章节测试课后答案2024年秋天津大学
- 人教版(新教材)高中物理选择性必修2教学设计4:2 2 法拉第电磁感应定律教案
- 《可复制的领导力》读书分享
- Unit 3 We should obey the rules. Lesson15(说课稿)-2023-2024学年人教精通版英语五年级下册
- 2023年全国高中数学联赛北京赛区预赛试题
- 国开(河北)2024年秋《宣传工作实务》形考任务1-4答案
- 农村产妇对产后盆底康复的认知及需求调查
- 煤矿人员定位系统管理制度
- 《海南省安居房建设技术标准》
- 光纤光缆线路维护技术 第3部分:基于光传感技术的光缆识别 征求意见稿
- 医院管理安全生产主体责任清单
评论
0/150
提交评论