《汉语分词简介》PPT课件.ppt_第1页
《汉语分词简介》PPT课件.ppt_第2页
《汉语分词简介》PPT课件.ppt_第3页
《汉语分词简介》PPT课件.ppt_第4页
《汉语分词简介》PPT课件.ppt_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、汉语分词,1,汉语分词简介,2011.12,汉语分词,2,分词的定义,中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。 通俗的说,中文分词就是要由机器在中文文本中词与词之间加上标记。,汉语分词,3,分词的意义,正确的机器自动分词是正确的中文信息处理的基

2、础 文本检索 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) 词频统计(汉语中最常用的词是哪个?) 句法分析、语义分析、机器翻译、语音合成、自动分类、自动摘要、自动校对等,汉语分词,4,主要的分词方法(一),基于字符串匹配的分词方法:按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功

3、。可以切分, 否则不予切分。 实现简单, 实用性强, 但机械分词法的最大的缺点就是词典的完备性不能得到保证。 a. 正向最大匹配(由左到右的方向) b. 逆向最大匹配法(由右到左的方向) c. 最少切分(使每一句中切出的词数最小) d. 双向匹配法(进行由左到右、由右到左两次扫描),汉语分词,5,正向最大匹配分词,基本思想: 设自动分词词典中最长词条所含汉字个数为I; 取被处理材料当前字符串序数中的I个字作为匹配字段,查找分词词典。若词典中有这样的一个I字词,则匹配成功,匹配字段作为一个词被切分出来,转6; 如果词典中找不到这样的一个I字词,则匹配失败; 匹配字段去掉最后一个汉字,I-; 重复

4、2-4,直至切分成功为止; I重新赋初值,转2,直到切分出所有词为止。,汉语分词,6,分析,“市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法 错误切分率为1169 往往不单独使用,而是与其它方法配合使用,汉语分词,7,逆向最大匹配分词,分词过程与FMM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字 “市场/中/国有/企业/才能/发展/ 实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1245,汉语分词,8,双向匹配法,比较FMM法与BMM法的切分结果,从而决定正确的切分 可以识别出分词中的交叉歧义 算法时间、空间复杂

5、性较高,汉语分词,9,主要的分词方法(二),基于理解的分词方法:通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。,汉语分词,10,主要的分词方法(三),基于统计的分词方法 :基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词 无词典分词法也有一定的局限性, 会经常抽出一些共现频度高、但并不是词的常用字符串, 如“这一”、“之一”以及“提供了”等等。 在实际应用的统计分词系统中都

6、要使用一部基本的分词词典(常用词词典)进行串匹配分词, 即将字符串的词频统计和字符串匹配结合起来, 既发挥匹配分词切分速度快、效率高的特点, 又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。,汉语分词,11,三种分词方法综述,到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。例如,海量科技的分词算法就采用“复方分词法”,所谓复方,就是像中西医结合般综合运用机械方法和知识方法。对于成熟的中文分词系统,需要多种算法综合处理问题。,汉语分词,12,分词面临的主要难题,有了成熟的分词算法,是否就能容易的解决中文分

7、词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破:歧义词的识别和新词的识别,汉语分词,13,切分歧义(1),交集型歧义 对于汉字串AJB,AJ、JB同时成词 例:结合/成,结/合成 美/国会,美国/会 组合型歧义 对于汉字串AB,A、B同时成词 例:门/把手/坏/了,请/把/手/拿/开 将来,现在,学生会 混合型歧义 同时包含交集型歧义和组合型歧义 例: 这样的/人/才能/经受住考验 这样的/人才/能/经受住考验 这样的/人/才/能/经受住考验 中文文本中,交集型歧义与组合型歧义出现的比例约为1:22。,汉语分词,1

8、4,切分歧义(2),真歧义 歧义字段在不同的语境中确实有多种切分形式 例:地面积 这块/地/面积/还真不小 地面/积/了厚厚的雪 伪歧义 歧义字段单独拿出来看有歧义,但在所有真实语境中,仅有一种切分形式可接受 例:挨批评 挨/批评()挨批/评() 如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等 对于交集型歧义字段,真实文本中伪歧义现象远多于真歧义现象,汉语分词,15,歧义的消解,基于记忆的歧义消解 伪歧义所占比例很大远大于真歧义现象。鉴于伪歧义的消解与上下文无关,可以把它们的正确(唯一)的切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。 基于规则的歧义消解 在大规模

9、真实语料库中,通过对大量歧义字段的提取和分析,把 它们按某种指标或属性进行分类,然后给出每类歧义字段的切分规则,组成歧义切分规则库。 基于字典的歧义消解 利用单词在词典中不同义项的定义,计算歧义词的各词义的定义和上下文词汇的词义定义覆盖量,选择覆盖量最大者作为当前词义。 基于语料库的歧义消解 以语料库作为知识源,核心是从语料库自动或半自动学习决定单词词义的上下文.,汉语分词,16,未登录词(OOV),虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词 分类: 专有名词:人名、地名、机构名称、商标名 网络语:“给力”、“神马” 重叠词:

10、“高高兴兴”、“研究研究” 派生词:“一次性用品” 与领域相关的术语:“互联网”、“排气量 ”,汉语分词,17,未登录词识别的方法,统计的方法:根据相邻词同现的次数来统计得到各类用字、词的频率。优点:占用的资源少、速度快、效率高;缺点:准确率较低、系统开销大、搜集合理的有代表性的统计源的工作本身也较难。 基于规则的方法:核心是根据语言学原理和知识制定一系列规则。优点:识别较准确;缺点:很难列举所有规则,规则之间往往会顾此失彼,产生冲突,系统庞大、复杂,耗费资源多但效率却不高 两者融合:取长补短。即在规则中加入了统计信息或在统计方法过后又用到过滤规则以提高新词总体的识别效果,汉语分词,18,结束语,从上面的分析来看,随着中文分词技术研究的不断深入,单独利用规则的方法会由于规则获取的限制,将越来越不能满足逐渐加快的信息的产生速度和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论