中文自动分词计算机科学与技术学院_第1页
中文自动分词计算机科学与技术学院_第2页
中文自动分词计算机科学与技术学院_第3页
中文自动分词计算机科学与技术学院_第4页
中文自动分词计算机科学与技术学院_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苏州大学计算机科学与技术学HewillcometoShanghai他明天将区

(英文(中文中文中最小单位是字,英文为单词(有意义中文中具有意义的最小单位是词(含 中文中字与字或词与词之间没有明显的界 基本概分词规分词词分词算分词系 分中文分例:他/明天/将/来 应文本校抛妻别于简繁转

——抛弃别干

(字音编码输入(字形编码输入後面,皇后——松树,鬆开—— 造造句 义消 新 名词8

这个学生会打蓝你认为学生会听老师的江大 当结合成分子 交集型歧“AB/CA/BC/网球/场,网/球 组合型歧如果AB和A、B都是词典中的词,那么如果待切分字串“ABA/B门/把手/坏/了,请/把/手/拿/我/现/在 ,我/现在/去 混合型歧 真歧例 地面伪将技术/应用/于/项 精力/应/用于/学解除/了/职 方程的/解/除了/0还有歧义字段单独拿出来看有歧义,但在所有真实语境中,仅有一种切分形式例 对于交集型歧义字段,真实文本中伪歧义现象远多于真歧义现 实体名词和专有名 翻译人名 机构名:苏州大学苹果公 科技商标字号 专业术语和新词缩略新词

:计:序 国际中文自然语言处理评 精度失落:未登录词是 义的5.6-25.6 未登录词识: 通常每一类未登录词都要构造专门的识别算识别依内部构成规律(用字规律外部环境(上下文 较成 名、译中国地较商标字机构很专业术新词 基本概分词规分词词分词算分词系 《信息处理用现代汉语分词规范》GB13715《资讯处理用中文分词规范》 中研院” 汶等1999 切分规切分和标注相结合的规 《现代汉语语料库加工规范切分单位:沿用“分词单位”,主要是词一部分结合紧密、使用稳定的词组。在某些特殊情况例:出/v了/u一/m次/q差例 《现代汉语语料库加工规范 例:三/m个/q,10/m公斤/q,一个 《现代汉语语料库加工规范例:本报/r/r,本/r地区 切分规切分和标注相结合的规标注规 《现代汉语语料库加工规范 形式不切分,ABAB形式切糊涂/z,高兴/a高兴/a/nr,老张/nr,花儿/n,爷儿们/n,求知者 义者如单纯方位词+名(单音)的定中结构作为一个切分单前院/s,左肩/n,后天 基本概分词规分词词分词算分词系 ——用于基于词典的分词算 查询速度:匹配算法效率的直接决定因 效能:插入、删除、更新等操作的难易程 基本概分词规分词词分词系 正/逆向最大匹正/逆向最小匹邻近匹基于统计的算 正向最大匹该子串,指针后MAXL个汉字后继续切分,否则,子串长度逆向最大匹与前者区别在于抽取顺序,从汉字串尾端开始抽取 正/逆向最大匹配(例“他们明天 正向最大匹配过他们明天他们明明天 来

明天来上明天来们明天来他们们明天明天 umMatchingmethod,错误切分率为 umMatchingmethod,错误切分率为Bi-directionMatchingmethod,正/逆向最大匹正/逆向最小匹邻近匹基于统计的算 正向最小匹按照从左到右的顺序,首先从汉字串中取长度为2的子串查词逆向最小匹与前者区别在于抽取顺序,从汉字串尾端开始抽取 正/逆向最小匹配(例“他们明天 正向最小匹配过他们明天来上 逆向最小匹配过天明天来来明天他 正/逆向最大匹正/逆向最小匹邻近匹基于统计的算 算max{k|C0C1……CkW}C

Ck1Ck2……Cn改进的正向最大匹配,以降低时间复杂度 邻近匹配(例“为奥运会健儿加油啊“为奥”W= “奥W奥运,奥运3“健W健儿2健“加油”W={加油 ”≠“加油啊”不匹配加 正/逆向最大匹正/逆向最小匹邻近匹基于统计的算 建立一个结点数为n+1的切分有向无环图各结点编号依次为V0,V1…Vn,通过以下两种方式建立G所有(1)相邻结点Vk-1,Vk之间建立有向边<Vk-1,Vk>,对应的词为(2)若w=CiCi+1…Cj是字典中词,则结点Vi-1,Vj之间建立有向 采用Dijkstra算法求有向图GCi+1…Cs/……/Ct+1…Cj/Cj+1…Cn。 最短路径匹配(例最短路径:V0-V1-V2-V4-对应词串:C1/C2/C3C4/切分结果:他的确切地址 正/逆向最大匹正/逆向最小匹邻近匹最短路径匹基于统计的算 路径1路径2

S

W1:有/意见 W2:有意/见 Max(P(W1|S),P(W2|S))P(W|S)P(S|W)P(W)P(WP(SP(W)P(w1,w2,...,wi)P(w1)P(w2)...P(wiP(w)

wi在语料库中的出现次数 语料库中的总词数 词概……有意见……P(W1)=词概……有意见……=1.8×10-P(W2)=P(有意)*P(见)* =1×10-P(W1)> W1=这/事 的确 定 不 下来W2=这/事 的 确定 不 下来

W1=做/完 作业 才能 看 电视W2=做/完 作业 才 能 看 电视

根据这个数据结构,可以把词法分析中的几种操作转化为给词图上添加边(查词典,处 词、离合词、前后缀和未定义词寻找一条起点S到终点E的最优路径(切分排歧 $$结结合合成成成成分分分分子子分分子子6,时子子8时子子2时时时91 基本概分词规分词词分词算分词系 Paoding(庖丁解牛分词提供lucene和solr 基于CRF(ConditionRandomFie

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论