正向最大匹配和反向最大匹配_第1页
正向最大匹配和反向最大匹配_第2页
正向最大匹配和反向最大匹配_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正向最大匹配和反向最大匹配根据以上对最大正向匹配算法的分析利用Visual 仁卄中的1比对最大正向匹配算法进行了实现以下 是程序中实现正向最大匹配的关键代码:"iL'fiHi' ituukii s最大i司长为寤宇符RP丨个汉宇-山谴畀标记为空格I W. I 最近看了一下分词算法的东西,整理如下:下面介绍的分词算法中最简单的正向最大匹配和反向最大匹配。这种两种方法都是机械分词方法,它是按照一定的策略将待分析的汉字串与一个”充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别岀一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;

2、按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词 方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: 正向最大匹配法(由左到右的方向); 逆向最大匹配法(由右到左的方向); 最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成 双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹 配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率 为1/169,单纯使用逆

3、向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准 确率。n |Hir ,1 T' |: '定义分词词與OlriiiCSlnr ef对 円进行正向最大匹分词/,用于SfifcB词结杲川山a -.i-hi id-.|. g串不空则循环芬词| iikl h>n=>F.G"m0H i:F 疑輝串的娠JSif (Itii&nwMlrn) f如果源串爭长度丈于最:大询长 lrri=ivbi deic.CSlrin其 m同4刈:H正向最天匹旣

4、诚左边取岀佞度为 加I的子串I 'i = Y 11 rt.ii .1 - In :;住词典由雀行匹自I近回値为我I M II I h H Ir KX 11 Il /环昱词且亨串长就于一牛汉宇 :从惟选词右边减掉一个汉昌,继续进行匹®从V,jJfl(lrtn:nshlyl) ktmuhhiw); |4 m + Npindor J将匹旣存到的词淮同词弄标记加到 输岀串耒尾<i = IMiil(M.OlljrnglhQi; |一种方法是改进扫描方式, 称为特征扫描或标志切分, 优先在待分析字符串中识别和切分出一些带有 明显特征的词, 以这些词作为断点, 可将原字符串分为较小的

5、串再来进机械分词, 从而减少匹配的错误率 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中 又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率定义比较抽象,举个例子来说明正向最大匹配和反向最大匹配。例子 :'今天来了许多新同事'1. 正向最大匹配方式,最大长度为5今天来了许今天来了今天来今天=得到一个词-今天来了许多新来了许多来了许来了来 =得到一个词-来了许多新同了许多新了许多了许了 =得到一个词-了许多新同事许多新同许多新许多=得到一个词-许多新同事新同新 =得到一个词-新同事=得到一个词-同事最后正向最大匹配的结果是:

6、/今天/来/了/许多/新/同事/2. 反向最大匹配方式,最大长度为5许多新同事多新同事新同事同事=得到一个词-同事来了许多新了许多新许多新多新新 =得到一个词-新天来了许多来了许多了许多许多=得到一个词-许多今天来了 天来了 来了了 =得到一个词-了今天来 天来 来 =得到一个词-来 今天=得到一个词-今天 最后反向最大匹配的结果是: /今天/来/了/许多/新/同事/ 正向最大匹配和反向最大匹配的结果并不一定相同 例子 :'我一个人吃饭'1. 正向最大匹配方式,最大长度为5我一个人吃我一个人 我一个 我一 我 =得到一个词-我一个人吃饭 一个人吃 一个人 一个 =得到一个词-一个人吃饭 人吃 人=得到一个词-人 吃饭=得到一个词-吃饭 最后正向最大匹配的结果是: /我/一个/人/吃饭/2. 反向最大匹配方式,最大长度为5一个人吃饭个人吃

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论