中文自动分词计算机科学与技术学院

上传人：我*** IP属地：北京上传时间：2023-02-06 格式：DOCX 页数：63 大小：1.80MB 积分：12 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

苏州大学计算机科学与技术学HewillcometoShanghai他明天将区

(英文(中文中文中最小单位是字，英文为单词(有意义中文中具有意义的最小单位是词(含中文中字与字或词与词之间没有明显的界基本概分词规分词词分词算分词系分中文分例：他/明天/将/来应文本校抛妻别于简繁转

——抛弃别干

（字音编码输入（字形编码输入後面，皇后——松树，鬆开—— 造造句义消新名词8

这个学生会打蓝你认为学生会听老师的江大当结合成分子交集型歧“AB/CA/BC/网球/场，网/球组合型歧如果AB和A、B都是词典中的词，那么如果待切分字串“ABA/B门/把手/坏/了，请/把/手/拿/我/现/在，我/现在/去混合型歧真歧例地面伪将技术/应用/于/项精力/应/用于/学解除/了/职方程的/解/除了/0还有歧义字段单独拿出来看有歧义，但在所有真实语境中，仅有一种切分形式例对于交集型歧义字段，真实文本中伪歧义现象远多于真歧义现实体名词和专有名翻译人名机构名：苏州大学苹果公科技商标字号专业术语和新词缩略新词

：计：序国际中文自然语言处理评精度失落：未登录词是义的5.6-25.6 未登录词识：通常每一类未登录词都要构造专门的识别算识别依内部构成规律（用字规律外部环境（上下文较成名、译中国地较商标字机构很专业术新词基本概分词规分词词分词算分词系《信息处理用现代汉语分词规范》GB13715《资讯处理用中文分词规范》中研院” 汶等1999 切分规切分和标注相结合的规《现代汉语语料库加工规范切分单位：沿用“分词单位”，主要是词一部分结合紧密、使用稳定的词组。在某些特殊情况例：出/v了/u一/m次/q差例《现代汉语语料库加工规范例：三/m个/q，10/m公斤/q，一个《现代汉语语料库加工规范例：本报/r/r，本/r地区切分规切分和标注相结合的规标注规《现代汉语语料库加工规范形式不切分，ABAB形式切糊涂/z，高兴/a高兴/a/nr，老张/nr，花儿/n，爷儿们/n，求知者义者如单纯方位词＋名（单音）的定中结构作为一个切分单前院/s，左肩/n，后天基本概分词规分词词分词算分词系 ——用于基于词典的分词算查询速度：匹配算法效率的直接决定因效能：插入、删除、更新等操作的难易程基本概分词规分词词分词系正/逆向最大匹正/逆向最小匹邻近匹基于统计的算正向最大匹该子串，指针后MAXL个汉字后继续切分，否则，子串长度逆向最大匹与前者区别在于抽取顺序，从汉字串尾端开始抽取正/逆向最大匹配（例“他们明天正向最大匹配过他们明天他们明明天来

明天来上明天来们明天来他们们明天明天 umMatchingmethod,错误切分率为 umMatchingmethod,错误切分率为Bi-directionMatchingmethod,正/逆向最大匹正/逆向最小匹邻近匹基于统计的算正向最小匹按照从左到右的顺序，首先从汉字串中取长度为2的子串查词逆向最小匹与前者区别在于抽取顺序，从汉字串尾端开始抽取正/逆向最小匹配（例“他们明天正向最小匹配过他们明天来上逆向最小匹配过天明天来来明天他正/逆向最大匹正/逆向最小匹邻近匹基于统计的算算max{k|C0C1……CkW}C

Ck1Ck2……Cn改进的正向最大匹配，以降低时间复杂度邻近匹配（例“为奥运会健儿加油啊“为奥”W= “奥W奥运，奥运3“健W健儿2健“加油”W={加油 ”≠“加油啊”不匹配加正/逆向最大匹正/逆向最小匹邻近匹基于统计的算建立一个结点数为n+1的切分有向无环图各结点编号依次为V0，V1…Vn，通过以下两种方式建立G所有(1)相邻结点Vk-1，Vk之间建立有向边<Vk-1，Vk>，对应的词为(2)若w=CiCi+1…Cj是字典中词，则结点Vi-1，Vj之间建立有向采用Dijkstra算法求有向图GCi+1…Cs/……/Ct+1…Cj/Cj+1…Cn。最短路径匹配（例最短路径：V0-V1-V2-V4-对应词串：C1/C2/C3C4/切分结果：他的确切地址正/逆向最大匹正/逆向最小匹邻近匹最短路径匹基于统计的算路径1路径2

W1:有/意见 W2:有意/见 Max(P(W1|S),P(W2|S))P(W|S)P(S|W)P(W)P(WP(SP(W)P(w1,w2,...,wi)P(w1)P(w2)...P(wiP(w)

wi在语料库中的出现次数语料库中的总词数词概……有意见……P(W1)=词概……有意见……=1.8×10-P(W2)=P(有意)*P(见)* =1×10-P(W1)> W1=这/事的确定不下来W2=这/事的确定不下来

W1=做/完作业才能看电视W2=做/完作业才能看电视

根据这个数据结构，可以把词法分析中的几种操作转化为给词图上添加边（查词典，处词、离合词、前后缀和未定义词寻找一条起点S到终点E的最优路径（切分排歧 $$结结合合成成成成分分分分子子分分子子6,时子子8时子子2时时时91 基本概分词规分词词分词算分词系 Paoding（庖丁解牛分词提供lucene和solr 基于CRF（ConditionRandomFie

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中文自动分词计算机科学与技术学院

文档简介

温馨提示

最新文档

评论

中文自动分词计算机科学与技术学院

文档简介

温馨提示

最新文档

评论

相关文档