中文分词算法及其比较分析_第1页
中文分词算法及其比较分析_第2页
中文分词算法及其比较分析_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文分词算法及其比较分析

各种分词方法的优劣对比分词方法基于字符串匹配分词基于理解的分词基于统计的分词歧义识别差强强新词识别差强强需要词典需要不需要不需要需要语料库否否是需要规则库否是否算法复杂性容易很难一般技术成熟度成熟不成熟成熟实施难度容易很难一般分词准确性一般准确较准分词速度快慢一般(1)歧义识别歧义识别指一个字符串有多种分词方法,计算机难以给出到底哪一种分词算法才是正确的分词系列。如”表面的”可以分为”表面/的”或”表/面的”。计算机无法判断哪一种才是准确的分词系列。基于字符串的分词算法:仅仅是跟一个电子词典进行比较,故不能进行歧义识别;基于理解的分词算法:指通过理解字符串的含义,故有很强的歧义识别能力;基于统计的分词算法:根据字符连续出现次数的多少,得到分词系列,故常常能够给出正确的分词系列选择,但是也有可能判断错误的情况。(2)新词识别新词识别也称作未登录词识别,指正确识别词典中没有出现的词语。姓名、机构名、地址、称谓等千变万化,词典中常常不能完全收录这些词语;另外,网络中出现的流行用语也是一种未登录词的常见来源,如”打酱油”为最近出现在网络中,并迅速流行,从而成为一个新词。大量的研究证明新词识别是中文分词准确性的一个重要影响因素。基于字符串的分词算法:无法正确识别未登录词,因为这种算法仅仅与词典中存在的词语进行比较;基于理解的分词算法:理解字符串的含义,从而有很强的新词识别能力;基于统计的分词算法:这种算法对第二种未登录词有很强的识别能力,因为出现次数多,才会当作一个新词;对于第二类未登录词,这类词语有一定的规律,如姓名:”姓”+名字,如李胜利;机构:前缀+称谓,如希望集团;故需要结合一定的规则进行识别,仅仅统计方法难以正确识别。(3)需要词典基于字符串的分词算法:基本思路就是与电子词典进行比较,故电子词典是必须的。并且词典越大,分词的正确率越高,因为词典越大,未登录词越少,从而可以大大减少未登录词识别的错误;基于理解的分词算法:理解字符串的含义,故不需要一个电子词典;基于统计的分词算法:仅仅根据统计得到最终的结果,故电子词典不是必须的。(4)需要语料库基于字符串的分词算法:分词过程仅仅与一个已经存在的电子词典进行比较,故不需要语料库;基于理解的分词算法:理解字符串的含义,故不需要电子词典;基于统计的分词算法:需要语料库进行统计训练,故语料库是必须的;且好的语料库是分词准确性的保证。(5)需要规则库基于字符串的分词算法:分词过程仅仅与一个已经存在的电子词典进行比较,不需要规则库来进行分词;基于理解的分词算法:规则是计算机进行理解的基础,故准确、完备的规则库是这种分词算法的前提;基于统计的分词算法:根据语料库统计训练,故规则库不是必须的。(6)算法复杂性基于字符串的分词算法:仅仅进行字符串的比较操作,故算法简单;基于理解的分词算法:需要充分处理各种规则,故算法非常复杂;事实上到目前为止,还没有成熟的这类算法;基于统计的分词算法:需要语料库进行训练,虽然算法也比较复杂,但是已经比较常见,故这种分词的复杂性比第一种大,比第二种容易。现在的实用分词系统都采用这种算法。(7)技术成熟度基于字符串的分词算法:是最早出现也是最成熟的算法;基于理解的分词算法:是最不成熟的一类算法,到目前为止还没有成熟的算法;基于统计的分词算法:已经有多种成熟的这类算法,基本上能够满足实际的应用。故技术成熟度:基于匹配的分词算法〉基于理解的分词算法〉基于统计的分词算法。(8)实施复杂性同上面的道理,实施复杂性:基于理解的分词算法〉基于统计的分词算法〉基于匹配的分词算法。(9)分词准确性到目前为止还没有一个准确的结论,不过从理论上说,基于理解的分词算法有最高的分词准确性,理论上有100%的准确性;而基于匹配的分词算法和基于统计的分词算法是一种”浅理解”的分词方法,不涉及真正的含义理解,故可能会出现错误,难以达到100%的准确性。(10)分词速度基于匹配的分词算法:算法简单,操作容易,故分词速度快,所以这种算法常常作为另外两种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论