版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、自然语言概率语法模型(n-gram)的研究 摘要:本文主要介绍了基于语料库的自然语言处理技术,即语料库语言模型中常用的统计语言模型n-gram的研究,及其在语料库自然语言处理中的应用。对语料库的概率统计及在这过程中出现的一些问题的解决方法进行了比较系统的讨论,使读者对n-gram模型及其应用得到初步的理解。关键词:马尔可夫模型;n-gram模型;复杂度(困惑度);平滑算法;后继统计训练算法。 1、引言自然语言处理是一项十分龙大而繁复的工程,它是自然科学和社会科学交叉的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学
2、,而且对人知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另外语音识别领域在20世界70年代开始逐渐采用概率模型替代原来的基于规则的识别手段,概率模型的参数是通过大量语声语料经行统计顺练得来的。概率模型的识别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的 研究提供了有益的借鉴。2、 n-gram及
3、其在语料库处理方面的应用2.1 基于语料库的语言模型语料库的语言模型可分为两种类型,即其于知识的语言模(规则模型)和统计语言模型,基于知识的语言模型是利用形式语法理论,文法规则和句法树经行研究的。自然语言句法,语义分析的最基础的理论是chomsky的形式语法理论。由于知识的语言模型进展缓慢,因此由于大规模真实语料库的统计语言模型自20世纪80年代以来逐渐成为自然语言研究的热点。统计语言模型是用概率统计的方法揭示语言单位内在的统计规律。假设一个句子可以表示为一个序列语言模型就是要求句子w的概率: =这个概率的计算量太大,解决问题的方法是将所有历史 按照某个规则映射到等价类等价类的数目远远小于不同
4、历史的数目当两个历史的最近的n-1个词(或)字相同时,映射两个历史到同一个等价类,在此情况下的模型称之为n-gram模型。2.2 马尔可夫模型自然语言可以假设成是一个马尔可夫信源产生,该信源的符号集就是语言的最小单位词,信源不断的发出符号,这些符号串形成句子,文本或者语料库。假设由词串构成的句子它的概率可由条件概率得到p(w)=.=.=. (1)这里称为n元文法式(1)在于计算公式的值,精确的是不可知的,只能采用估计值,用频率逼近,即:(2)其中,和是词串和在训练语言模型时出现在训练语料库中的次数,假定大数定理成立,只要训练语料库的容量足够大,频率便趋近概率。2.3 n-gram模型该模型基本
5、这样一种假设,在词串中第个词的出现只与前面-1个词相关(=1,2.n),而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积,即:=也就是说,设n-1阶马尔可夫过程产生的词集串,第i个词wi的概率是由前i-1个词的条件概率给出的:p(wi/w1w2wi-1)p(wi/wi-(n-1)wi-2wi-1)(3)假设句子中第i个词的概率为:p(wi/wi-(n-1)#wi-jwi-1)=p(wi/#wi-jwi-1) (4)p(wi/wi-(n-1)$wi-jwi-1)=p(wi/$wi-jwi-1) (5)式(4)中#是句子的开始符,式(5)中$是句子的结束符。n-gram模型的参数数量是r
6、n,其中r是词数,参数是由统计语料文本得来的,n的值不能太大,否则计算会很大。当n1时的n-gram模型称为unigram模型,此时这种模型假定语言单元之间相互独立,求解仅利用了语言单元的统计频度信息。当n2时的n-gram模型称为bigram模型,此时当n3时的n-gram模型称为trigram模型,此时2.4 转移概率的稀疏数据问题与平滑处理当语料库的规模不是足够大的条件下,大多数词或邻接词的搭配在语料中出现的词数都很少,甚至根本不出现。这样就形成了数据稀疏现象,造成知识短缺。如当n=2和n=3,词的个数r=50000时则要估计的对应二元词对的转移概率和三元词对的转移概率的个数分别为r(2
7、5亿个)和r(125亿个),而目前硬盘和语料库的容量远远小于这个数量级。n-gram模型中n值越大,语言理解能力就越高,但n变大时,模型的参数估计变得困难,此时n-1阶马尔可夫模型的概率矩阵大到难以处理的程度,所以到目前为止大多使用bigram和trigram模型。由于训练语料文本相对全部n-gram参数数量来讲还是较小,这意味着不能预测未知文本的全部n-gram参数转移概率来进行理解处理,此时严重影响了后处理的性能,因此必须进行参数空间的平滑处理。它是在训练数据不充分的条件下,采用某种方式对统计结果及概率评估进行必要的调整和修补。对于n-gram模型训练数据稀疏容易导致两种错误的概率评估,一
8、种是小概率事件,即词与词之间的n元联结在训练语料种出现的频度极小,不能反映实际的语词联结关系;另一类则是零概率事件,即一些可能的语词联结关系在训练语料种从未出现过,但很可能在实际语料种出现。平滑算法在很多文献中都有研究,归纳起来有两种,一种是back-off方法,另一种是删除插值法。其中删除插值法的基本思想是,由于n-gram比n+1-gram出现的可能性大的多,所以使用n-gram估计n+1-gram的概率,它是trigram概率和更低阶的bigram,unigram,zerogram(常数)概率的加权和,即(6)其中;,(参数的确定:将训练数据分为两部分,一部分用于估计,一部分用于计算参数
9、,求使语言模型的困惑度最小的),是每个词的概率,(r为统计语料中出现的词条数)。随着统计语料的增加,trigram权值所占的比重也随着增加。平滑算法的性能通常用交叉熵和复杂度来衡量。交叉熵的意义是用该模型对文本识别的难度。复杂度(困惑度)的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。困惑度代表了一个给定语言模型处理语料的困惑程度和不定成分的程度。困惑度与连续语音的识别率是强正相关的。按照信息论的观点,假设词库。其中r为词数,其符号取自的信源,它的熵定义为 (7)用随机变量来表示长度为n的自然语言序列,其中每个随机变量w(i=1,2n)代表自然语言序列上的一个语言单位,
10、如字,词,词组等。w可在其所代表的语言单位集w中取值。由于自然语言序列可视为离散的平稳有记忆信源,可用长度为n的平均信息熵的极限值近似描述语言信源的联结熵; (8) 如信源是各态遍历的,根据shannon-mcmillan-brenmain定理,式(8)可由下式求出; (9)ww,式(9)可由统计语料库近似求出。假设语料库的容量为r,信源熵的近似值lp定义为lp= (10)语言模型的困惑度pp定义为pp= (11)它被认为与识别pp个词串的任务具有同样的难度。即如某种语言的困惑度为pp,则表明该语言中每个词可以平均等概率的后接pp个不同的词。pp值越小,表示语言模型用于识别时的可选词个数越小,
11、语言模型的约束越强。语料库的识别越困难,困惑度就越大。困惑度依赖于语言模型和预料内容。对于给定的语料序列,如所有的语言单位均为等概率分布,且相互独立,则识别难度为lp=(-1/r) (12)此时它的困惑度为pp=r,说明没有任何语言知识的情况下,识别器在识别每个词时都要有与词汇表中全部r个词进行匹配计算。由式(10),实际中很难估计,把自然语言假设为一个n阶马尔可夫信源,用条件概率来表示,其熵也用条件概率来表示。可以证明任何条件熵小于无条件熵,高阶条件熵小于低阶条件熵,即困惑度值pp反映了信源熵的大小,表示该信源不可知的程度,即。说明在建立了语言模型后,语言序列中语言单元的求解不必在词汇表的全
12、部r个候选中匹配,而只对一个小于r的词集中进行。因此语言模型的利用等效于缩小了候选的词汇表,降低了求解难度。对于n-gram语言模型,n值越高,其条件熵越小,困惑度也越小,语言处理的效果也越好,说明语言处理的困惑度是表征语言模型处理语言能力的有效单位。理论上,语言的困惑度定义为基于一个长序列n的语言串的指数熵值,由式(9)和(11),得;pp= (13)对于训练语料文本,其对数概率对应的unigram,bigram和trigram的计算分别为= ,=,=2.5 应用域变化的后继训练算法由于基于词的统计语言模型是依赖于应用领域的语料,如果待识别的内容与基于大规模语料统计的内容相似,能达到较好的识
13、别性能;当要求识别的领域范围发生变化时,其识别性能将明显下降,因为该识别模型并不能适应新领域,建立每个应用领域的大规模统计语料库的工作量将是惊人的。因此必须研究一中能适应新任务的统计语言模型,用一种与待识别内容相似的适量文本语料进行有监督的后继训练学习,比如说,由于人民日报内容涉及政治,经济,科技,文化,外交,教育,社会发展等多门类的信息报道,其范围较宽,因此将其大规模统计结果作为初始训练语料,而将某一待识专业领域的语料作为后继训练语料,以适应领域的变化。该适应性训练的性能评估也是利用语言困惑度来测量的。目的是减少测试集的困惑度。研究两种文本语料的相似性对于识别很重要,假设两个领域语料a和b经
14、过平滑算法后的三元统计概率分别为和,则距离度量采用kullback距离;d(a,b)=(1/t) (14)其中r和t分别是三元词对集和三元词条数。当统计语言模型是从语料文本a中产生,而则试文本来自语料b时,则平均似然度l(b/a)为 l(b/a)=(1/) (15)其中,t为语料文本b的三元词对数,是从语料文本a中统计得到的,则测试集的困惑度为pp(b/a)= (16)sho-ichi针对日语音节文本提出了利用对称困惑度作为两种语料的相似性度量; d(a,b)=pp(b/a)+pp(a/b)/2 (17)并得出如下结论;待添加的隐藏文字内容21两种语料涉及内容越相似,则对称困惑度和kullba
15、ck距离越小。2对于混合语料,若某一语料在混合语料中所占的比重越多,则两种语料相近程度越高,其对称困惑度和kullback距离越小。如果从涉及内容广泛的大规模文本语料a(如人民日报)中统计得到初始统计训练的trigram语言模型,而测试集使用专业较强的语料b(如计算机世界报)中进行识别,识别性能由困惑度计算式(16)或(17)来估计,当困惑度降低时,其识别性能升高。因此应当采用文本内容与语料b相似的语料进行适应性后继统计训练,若适应性后继统计训练的困惑度比未进行适应性训练的低,则说明这种适应性训练是有效的。若从语料a中选取250万字的统计语料,如表1-1所示;表1-1 1994年人民日报语料一
16、元词条二元词条三元词条词条数目/个37 812295 601395 059词条累计数目/个1 153 289914 366716 161经平滑算法后的trigram概率为=+其中,。困惑度结果见表1-2。表1-2 250万字1994年人民日报语料各n-gram模型困惑度的比较模型一元文法二元文法三元文法删除插值三元文法困惑度pp8291.97342.17212.34174.53从语料b中选取75万字的统计语料如表1-3所示;表1-3 1995年计算机世界报语料一元词条二元词条三元词条词条数目/个15 451106 170138 756词条累计数目/个339 083268 386211 232经
17、平滑算法后的trigram概率为=+其中,。困惑度结果见表1-4。表1-4 75万字1995年计算机世界报语料各n-gram模型困惑度的比较模型一元文法二元文法三元文法删除插值三元文法困惑度pp4211.15287.64179.56126.17则自适应性trigram概率为=+ (18)其中,01,和为加权结合因子,可由held-out方法得出。表1-1和1-2与表1-3和1-4为人民日报与计算机世界报的统计结果与各统计语言模型删除插值平滑处理后的困惑度。由于计算机世界报较人民日报用词和内容相对集中,不确定性少,因此计算所得的困惑度也小。由式(10),(11)从语料a中得到统计模型,测试集为语料b,得到的语域转移困惑度为853.14,而经适应性训练后由式(16)得到的困惑度为136.85,说明经适应性训练后困惑度降低,使用注音程序给与语料b内容相似的测试集文本注入拼音,然后对适应性训练前,后的模型进行音字转换,实验结果如表1-5所示;表1-5 适应性训练前,后的统计模型的困惑度和进行音字转换精度困惑度无调拼音转换精度有调拼音转换精度三元文法模型后处理初始训练(语料a)853.1473.7%86.4%后继训练(语料a+b)136.8590.6%92.1%93.6%3、 结论已完成的大量实验结果表明,n-gran模型是强有力的静态语言模型,即n-gram的先验概率值受
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国工控机控制系统数据监测研究报告
- 2024至2030年中国医疗用毒性药品数据监测研究报告
- 2024年中国黑胶模市场调查研究报告
- 2024年中国自调心离合器分离轴承市场调查研究报告
- 2024年中国直系线镊市场调查研究报告
- 2024年济南客车从业考试题库及答案
- 2024年辽宁客运从业资格证考试题库模拟考试答案解析
- 2024年黑龙江客运从业资格证考试
- 2024年河南客运急救知识与技能培训
- 2024年浙江客运资格证紧急救护试题及答案
- 《爱护身体 珍惜生命》教学设计+学习任务单道德与法治2024-2025学年三年级上册统编版
- 北师大版(2024新版)七年级上册数学第一章《丰富的图形世界》大单元整体教学设计
- 2024年护理工作计划及年度工作计划6篇
- DB15-T 3652-2024 沙化土地综合治理技术规程
- 鸭肉:营养全解析
- 2024至2030年全球与中国仓储机器人市场现状及未来发展趋势
- 2025届高考语文复习:补写语句+课件
- 2024中国移动黑龙江公司校园招聘224人高频考题难、易错点模拟试题(共500题)附带答案详解
- 2023-2024学年北京市西城区育才学校七年级(上)期中数学试卷【含解析】
- 运动与身体教育智慧树知到答案2024年温州大学
- 2024年中国葛洲坝三峡建设工程限公司成熟人才招聘若干人(高频重点提升专题训练)共500题附带答案详解
评论
0/150
提交评论