带拼音纠错的汉语音字转换技术_第1页
带拼音纠错的汉语音字转换技术_第2页
带拼音纠错的汉语音字转换技术_第3页
带拼音纠错的汉语音字转换技术_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、带拼音纠错的汉语音字转换技术张瑞强,王作英,张建平清华大学 电子工程系, 北京 100084文 摘 提出了一种基于统计和规则的混合方法来实现汉语音字转换。利用汉语的语法规则, 在统计语言模型中采用 了两种基于词和词性的混合语言模型。在实验中, 将这两种 混合语言模型与基于词的语言模型进行了比较。 实验证明, 在语言模型中引入词性后, 提高了音字转换正确率。 考虑了 出现拼音错误时的音字转换问题, 提出了一种拼音纠错方法 来纠正错误。实验证明, 当拼音正确率高于 85% 时, 这种带 纠错的音字转换方法可以提高音字转换正确率。关键词 连续语音识别; 统计语言模型; 自然语言理解分类号 tn 91

2、2. 34是完全正确的, 总是存在错误拼音。本文提出了一种基于统计方法和规则方法相结 合的音字转换方法。 在统计方法中使用了词性的知识, 构造出了基于词和词性的混合语言模型。音字转换过程分三步: 1) 利用统计语言模型 对输入拼音串进行初次转换, 得到初次转换词串;2) 将初次转换词串纠错, 得到正确的候选拼音; 3)对 2) 中得到的候选拼音再一次利用统计语言模型 转换, 得到最终词串。 见图 1。本文所研究的语音识别的任务, 是无限词汇量、语法不受限制的汉语连续语音识别。 要求对于输入 的自然语音, 用计算机输出与此语音相对应的汉字串。识别过程分两步: 第一步是底层声音识别, 将输入的语音

3、信号经过识别得到一串汉语拼音; 第二步 是上层拼音理解, 将拼音串转化为对应的汉字串, 即 音字转换。 音字转换的关键是解决同音字的问题。解决这个问题一般用两种方法。 一种是基于统 计的方法1 5 , 其优点是不需要进行汉语语法分析, 不必构造复杂的语法规则; 缺点是由于它必须充分 训练大量的数据, 因而必须要有一个很大的语料库, 且对语料库的依赖性强。 当用于与训练语料不同的 领域时, 正确率会下降很多。另一种是基于规则的方法6 8 , 它需要对汉语进行详细分类, 归纳词类与词 类之间以及词与词类之间的用法。 这种方法用于大 词汇量且语法不受限制的任务时不太好用。用以上两种方法进行音字转换,

4、 在转换拼音完 全正确的条件下, 都能够达到很高的字转换正确率4, 7 。 但是, 语音识别的底层声音识别结果不可能可信度字正确拼音图1 音字转换过程框图统计语言模型假定语言可以看成是由一个m a rk ov 信源产生 的, 信源的符号就是词, 假设由词串w 1w 2 w n 构成 的句子, 它的概率可以由条件概率公式得到。p (w 1w 2 w n ) =n1p (w 1 ) 7 p (w i|w 1w 2 w i- 1 )(1)i= 2音字转换的数学模型就是在给定拼音 a , 欲得到该拼音对应的汉字串w ;w = a rg m a x p (w |a ) =wa rg m a x p (w

5、 ) p (a |w ) |p (a ) =wa rg m a x p (w ) p (a |w )收稿日期: 1996210214第一作者: 男, 1967 年生, 博士研究生w a rg m a x p (w )(2)词库含错 拼音串生成词图找出最大p (w )二元词 连接组确定最小规则最终词串找出最 大p (w )生成候选清 华 大 学 学 报 (自 然 科 学 版)1997, 37 (10)10式 ( 2) 的意义在于: 在对应于拼音串 a 的所有本文采用的纠错方法是: “词组匹配纠正法”,纠错的步骤分两步: 首先找到错误拼音所在的位 置。 用统计语言模型对拼音串进行第一步转换。 用

6、“可信度”来衡量音字转换结果中汉字的正确程度。可信度越低, 该汉字出错的可能性就越大。 可信度( r) 的计算依据下式:候选词中, 那个使得 p (w ) 最大的词w就是所求。p (w ) 由式 ( 1) 求出, 为简单计, 采用二元文法,式(1) 变为:np (w 1w 2 w n ) = p (w 1 ) 7 p (w i|w i- 1 )(3)i= 2p (w i |w i- 1 ) 可以由许多模型求出, 本文作者实验了三种模型。模型 1p (w i|w i- 1 ) c (w i- 1w i) c (w i) = f (w i|w i- 1 )其中 c (w i- 1w i) 和 c

7、(w i) 是词串w i- 1w i 和词w i 在语 料库中的出现次数, 可以由语料库统计得到。为解 决 零 概 率 问 题 并 能 更 好 地 估 计 p (w i |w i- 1 ) , 采用基于词与词性的混合语言模型, 即模型 2p (w i|w i- 1 ) = 1 f (w i|w i- 1 ) + 2 f (w i) +3 f (w i| g i) f (g i| g i- 1 )其中, 1 , 2 , 3 0; 1 + 2 + 3 = 1。g i 为词 w i 所对 应的词性, 作者建立了一个汉语的语法类, 共 80 类, 包括名词、动词、形容词等大类, 还详细地分了一些 小类

8、如姓氏类, 地名类等。我们对语料库的语料进行 了词性标注, 这些标注是依据上下文, 在一些语法规 则支持下完成的, 然后再从标注好的语料中提取词 的词性。 这样每个词的词性都有 1 个或多个。 为了 使用模型 2 和模型 3, 作者还对标注了词性的语料 库进行了词性频率的统计。另外, 汉语的词对它后面相邻词的词性有要求, 比如: “吃”后边一般跟名词, 所以在语言模型中也 引入了这一知识。模型 3p (w i|w i- 1 ) = 1 f (w i|w i- 1 ) + 2 f (w i) +3 f (w i| g i) f (g i|w i- 1 ) +4 f (w i| g i) f (g

9、 i| g i- 1 )(4)r= a 1 + a 2 + a 3a 1 是一个词所含字的个数。一般来说在转换结果中单字词容易出错, 多字词不易出错。所以当一个 词为单字词时, 它的 a 1 = 0; 为二字词时, 它的 a 1 =为多于二字词时, a 1 = 2。a 2 指两个相邻词之间的连接关系。 如果词 w i与词w j 按照语法规则可以组成短语w iw j 或者词串 w iw j 的连接曾经在语料库中出现过且被统计到, 那 么 w i 与 w j 的关系用 (w i w j ) 来表示。 对于词串 w 1w 2w 3 , 如果 (w 1 w 2 ) 且 (w 2 w 3 ) , 则 w

10、 2 的 a 2 =1;如果 (w 1 w 2 ) 和 (w 2 w 3 ) 有一个成立, 则w 2 的2;a 2 = 1; 如果 (w 1 w 2 ) 和 (w 2 w 3 ) 均不成立, 则 w 2的 a 2 = 0。a 3 的意义与 a 2 相同只不过 a 3 考虑词性连接而 不是词连接。假设词w 1w 2w 3 对应的词性为 g 1 g 2 g 3 ,如果 (g 1 g 2 ) 而且 (g 2 g 3 ) , 则 w 2 的 a 3 = 2; 如果( g 1 g 2 ) 和 (g 2 g 3 ) 仅有一个成立则 w 2 的 a 3 = 1; (g 1 g 2 ) 和(g 2 g 3 )

11、 均不成立, 则 a 3 = 0。得到每个汉字的可信度后, 假设可信度最小的汉字附近存在错误拼音。 纠错就是纠正可信度最低 的汉字及其相邻字所对应的拼音, 进而产生一个候选的正确拼音序列, 然后再一次应用统计方法进行音字转换。 候选拼音有两种方式产生。 第一根据统 计的二元词连接对。假设要纠正句子w 1w 2w 3w 4w 5 , 由式 ( 4) 计算出 w 3 的可信度最小, 那么可以假定错 误拼音在w 3 或w 2 , w 4 中。根据二元词连接对, 可以 找到使 (x w 3 ) 或者 (w 3 x ) 成立的所有词 x , 然 后从 x 中保留含有与w 2w 3w 4 拼音相同的词。并

12、把 这些词的拼音作为候选拼音。比如“热爱祖国”误识 为“热赖祖国”, 通过二元词连接对知道“热爱”与 “祖国”可以连接, 则用“爱”的拼音代替“赖”的拼音。 第二种产生候选拼音的方法是根据汉语的词组生成 规则。因为统计语料是有限的, 许多二元词连接没有 被统计到, 这时要依据规则。 比如“他热爱他的 祖国”误识为“他热赖他的祖国”, 根据规则, “热爱”与“祖国”可以构成动宾短语, 而且在本文的 短语库中存在这一短语, 则就用“热爱”替代“热赖”。 用“爱”的拼音替代“赖”的拼音。其中,1 , 2 , 3 , 4 0; 1 + 2 + 3 + 4 = 1。模型 2 和模型 3 可以参考文1,

13、2, 5 。规则方法进行纠错用统计方法进行音字转换, 当拼音串完全正确 时, 字转换正确率能够达到 98% 4 。 当转换拼音串 中有错误拼音时, 字转换正确率下降很快。比如当拼 音串正确率下降 10 个百分点 (90% ) 时, 则字转换正 确率将会下降 20 个百分点, 仅到 80% 。所以由于音 字转换的正确率下降, 使得整个语音识别系统的性 能下降。 所以应对转换结果进行纠错。2张瑞强, 等: 带拼音纠错的汉语音字转换技术11当代到可信度最低的词的侯选拼音后, 再一次应用统计语言模型从中选出最终的转换词串。带纠错的效果非常明显, 字正确率显著提高。表 1 三个实验中字转换正确率的比较知

14、识库3实验 1实验 2实验 3有三种知识库用于音字转换。1) 词典 本文的词典分两部分。一部分是基本词库, 共有56 000; 另一部分是扩充词库。约有 20 000 词。这些 词均有拼音和词性。2) 语料库根据从 1991 年到 1993 年的约 4 千万字的人民 日报的语料, 对语料库进行分词。对语料库进行词性 标注, 从中得到统计语言模型所需要的数据如二元 词连接对, 词性连接对, 词频等。3) 规则库将词分为 80 类, 包括名词、动词、形容词等大类 和一些小类, 建立了 100 多条规则用于纠错。集内集外集内集外集内集外模型 1模型 2模型 398. 598. 899. 195. 2

15、97. 698. 572. 374. 577. 471. 273. 376. 584. 585. 788. 581. 384. 386. 5结束语5本文应用了一个新的基于词和词性的统计语言模型来处理音字转换问题。 实验证明带词性的语言 模型的结果要比单纯基于词的模型好, 而且本文还 提出了一种拼音纠错方法来提高拼音中含错误拼音 时的字转换正确率, 得到很好的结果。非常感谢黄昌宁教授和孙茂松教师为本文语料 库词性标注所作的工作。实验结果为了实验三种语言模型的性能以及纠错的效 果, 本文作了三个实验。实验 1在拼音串完全正确时, 模型 1、模型 2和模型 3 的比较。用于训练的语料从 1991 年

16、 1 月到 1993 年 11 月, 随机抽取了 1993 年 2 月份的集内语料 30 万字 和 1993 年 12 月份的集外语料 30 万字进行比较。先 对这些语料注上拼音。注音正确率达 100 , 然后将这些拼音进行转换, 实验结果见表 1。 可以看出, 模 型 2 与模型 3 的结果比模型 1 好。 说明语言模型加 入词性后, 字正确率得到提高。 特别是对集外语料, 效果更加明显。实验 2当拼音串正确率为 85 时, 不带纠错时模型 1、模型 2 与模型 3 的比较。从 1993 年 2 月份和 1993 年 12 月份中各选取1 000个句子且标注上拼音, 然后从这些拼音中随机 选

17、出 15 , 将这些拼音用错误拼音替换掉, 这时拼 音的正确率为 85 。 先不作纠错, 直接用统计语言模型进行音字转换, 转换结果见表 1。 可以看出, 拼 音出错后, 与表 1 相比正确率下降很多。 但是模型2, 模型 3 的结果仍比模型 1 好, 说明带词性的语言 模型还是有效的。实验 3当拼音串正确率为 85 , 带纠错时模型 1、模型 2 与模型 3 的比较。 测试数据完全同实验 2, 结果见表 1。可以看出,4参考文献1j e linek f. se lf2o rgan ized language m o de ling fo r sp eech reco gn it io n.

18、ica ssp 89: 450iso tan i r , m a t sunaga s. a sto cha st ic language m o de l fo r sp eech reco gn it io n in teg ra t io n lo ca l land g lo ba l co n st ra in t s. ica ssp 94: 5l ee k f , h o n w h , r eady r. a n o ve rv iew o f thesph in x sp eech reco gn it io n sy stem. ie e e t ran s o na ss

19、p , 1990, 38 (1) : 35 45郭 进. 统计语言模型及汉语音字转换. 中文信息学 报, 1989 (1) : 18 27d e ro uau lt a , m e r ia ldo b. n a tu ra l language m o de ling fo r p ho nem e2to 2tex t t ran scr ip t io n. ie e e t ran s o npam i. 1986, 8 (6) : 742 748l ee l s, t seng c y , c h en k j. a m anda r ian d icta t io n m ach i

20、ne ba sed upo n a h ie ra rch ica lreco gn it io n app ro ach and c h ine se na tu ra l language23456ana ly sis.704王晓龙.ie e e t ran s o n pam i, 1990, 12 (7) : 695音字转换中的机器学习研究. 计算机学报,71993, 16 (5) : 371 377l ee l s, l in l j , c hen k j. a n eff ic ien t na tu ra l language p ro ce ssing sy stem sp

21、ec ia lly de signed fo r the c h ine se language. com p u ta t io na l l ingu ist ic s, 1991,17: 347 374(下转第 20 页)8清 华 大 学 学 报 (自 然 科 学 版)1997, 37 (10)20sy stem fo r m o b ile te lecomm un ica t io n (gsm ) to cop e w ith seve re t im e2and f requency2se lec t ive d isto r t io n s cau sed by m u lt

22、 ip a th p rop aga t io n. a sim p lif ied m ax im um like lihoo d rece ive r st ruc tu re is de r ived and tw o a lgo r ithm s, o ne fo r ch anne l p a ram e te r e st im a t io n and ano the r fo r m ax im um like lihoo d e st im a t io n o f th e info rm a t io n b it, h ave been sugge sted. t h

23、e la te r is ba sed o n a r t if ic ia l neu ra l ne tw o rk. com p a red w ith the v ite rb i a lgo r ithm , th is new a lgo r ithm fo r m ax im um lik e lihoo d e st im a t io n h a s sign if ican t ly reduced com p lex ity w ith no sacr if ice o n th e sy stem p e rfo rm ance.s im u la t io n re

24、su lt s a re g iven.key words g lo ba l sy stem fo r m o b ile te lecomm un ica t io n结论4gsm 信号的最大似然接收如按严格的非线性调制考虑并采用维特比算法将是非常复杂的。本文 对此提出了系统的解决方法。首先用最优波形下的线性调制逼近 gm s k 调制, 这样带来的相位误差可在一度以下。其次, 利用前导码元可对信道参数进行 快速最优估计。这一估计所用的算法在准则上与 k a lm a n 算法一致且计算量小。最后对信号的最大似然估计可用 h op f ie ld 人工神经网络算法取代传 统的维特比算法,

25、这样不但计算量可小一个量级以 上且在性能上仍能达到维特比算法的水平。仿真结 果与理论分析一致。(gsm ) ;m ax im umlike lihoo drece ive r;h op f ie ld neu ra l ne tw o rk参考文献1h agm anns f j . a n op t im um d e tec t ion of l inea r lyf i l te red c pm s ig na l. i e e e t rans c om m u n , . 1991,com 239 (7) : 1 034 1 036l o n w k , f a lcone r d

26、d , s h e ik h u h . a d ap t iv e equ a l iz a t ion and d iv e rs i ty com bin ing f o r m obi le rad io u s ing in te rp o la ted ch anne l es t im a tes. i e e e t rans v eht ech nol 1991 t v 240 (3) : 636 645a r ia g d , p ie rm a r in i r , z ing a re l l i v . f as t ad ap t iv e equ a l iz e

27、 rs f or na r row 2band t dm a m obi le rad io.i e e e t rans v eh t ech nol 1991 v t 240 (2) : 392 404w en k u e i2a nn , w en t ing 2s h ium , w ang j h ing 2fa .a new t ransf o rm a lg o r i thm f or v i te rbi d ecod ing.i e e e t rans c om m u n 1990 com 238 (6) : 764 772h op f ie ld j j . c om

28、 p u t ing w i th neu ra l c i rcu i ts: am od e l. s c ience, 1986, 233: 625 633e t s i gsm r ecom m end a t ion 05. 05 t ransm iss ion and recep t ion. b e rne: c e p t , 1988(上接第 11 页)2ch in e se p in y in - to- tex t tran sla t iontechn ique w ith error correc t ion used f or con t in uous speec

29、h recogn it ion3zha ng r u iq ia ng , w a ng zuo y ing ,z ha ng j ia np ing4d ep a r tm en t o f e lec t ro n ic e ng inee r ing,t singhua u n ive r sity, b e ijing 10008456a bstrac t t h is p ap e r m ak e s u se o f a hyb r id sta t ist ica l andru le app ro ach to rea lize c h ine se p iny in 2to 2tex t t ran sla t io n.w ith th e he lp o f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论