中文指代消解方法研究讲义_第1页
中文指代消解方法研究讲义_第2页
中文指代消解方法研究讲义_第3页
中文指代消解方法研究讲义_第4页
中文指代消解方法研究讲义_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文指代消解方法研究姓名:郎君指导老师:秦兵答辩时间:2004年6月29日Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作研究背景及意义指代消解基本概念MUC信息抽取自动文摘国内外研究现状CR基本原理:构造候选->筛选+优选理论模型:Hobbs算法、中心理论目前主要方法基于规则:句法知识,RAP,Mitkov,王厚峰HNC机器学习:McCarthy,Cardie,MBL,boostrapping决策树:Resolve95,Soon99,01,XiaofengYang03,04语料库的加工与标注指代消解的评估指标论文研究方法及内容在PFR上试验方法的可行性加入底层NLP技术实现系统改进系统文档分词命名实体识别名词短语识别指代消解词性标注中文指代消解文档处理流程Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作名词短语识别指代消解采用MUC定义名词短语之间的指代消解名词短语识别的必要性名词短语识别(NP分组)组别词性符号词性词性说明一般名词组G(General)an名形词具有名词功能的形容词Ng名语素名词性语素n名词nx英语等其他外语的字母或字符串nz其他专名vn名动词具有名词功能的动词人名组H(HumanName)nr人名地名组P(PlaceName)ns地名机构名组O(OrganizationName)nt机构团体代词组D(PronounName)r代词时间词组T(Time)Tg时语素时间词性语素t时间词基本名词成分分组情况名词短语识别(识别步骤)第一步:识别出基本名词成分。各种名词成分分为六组,如上页所示。第二步:同组短语局部最大化,亦即如果两个相邻的标出的短语的组别相同,那么就将二者合并为一个短语。第三步:并列名词性短语合并。如果出现在“和”、“与”或“、”两侧的短语组别相同,则将两侧短语连带“和”、“与”或“、”一起合并为一个短语(这里排除代词组的情况)。名词短语识别(识别结果){19980101-01-001-001/m}Q{迈向/v}Q{充满/v}Q{希望/n}G{的/u}Q{新/a}Q{世纪/n}G{--/w}Q{一九九八年/t新年/t}T{讲话/n}G{(/w}Q{附/v}Q{图片/n}G{1/m}Q{张/q}Q{)/w}Q{19980101-01-001-002/m}Q{中共中央/nt}O{总书记/n、/w国家/n主席/n}G{江/nr泽民/nr}H特征向量选定参考国内外相关研究选定16个特征I的句法搭配I的单复数I的性别I的类型I的被修饰限定类型I的被修饰数量类型J的句法搭配J的单复数J的性别J的类型J的被修饰限定类型J的被修饰数量类型I、J的距离I、J的全匹配信息I、J的子串缩略信息I、J的抽取缩略信息Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作基于决策树的中文指代消解决策树学习概况:ID3、C4.5、C5.0实验数据准备情况正反例类型指代类型数量百分比正例(有指代关系)名词短语4429.3%代词3523.3%反例(无指代关系)名词短语5838.7%代词138.7%样例的不同类型分布情况C5.0生成的决策树+FT

IJ全匹配+FT

J是I的抽取+FTJ是I的子串TJ的类型in{H,P,O,T,G}_++FTJ的类型

=DI的被修饰数量类型+_TI的单复数in{S,P}I的单复数=U训练得到的中文名词短语指代消解决策树实验测试结果测试类型正反例类型指代类型数量正确个数正确率封闭测试正例(有指代关系)名词短语313096.8%代词2424100%反例(无指代关系)名词短语3737100%代词8675%开放测试正例(有指代关系)名词短语1313100%代词1111100%反例(无指代关系)名词短语2121100%代词5120%自由文本指代消解系统实现加入底层NLP技术断句、分词、词性标注、命名实体识别特征向量自动构建性别、单复数指代消解主控模块思想系统运行结果示例[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。系统运行结果示例[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。Outline研究背景及意义国内外研究现状论文研究方法及内容名词短语识别及特征向量选定基于决策树的中文指代消解结合规则的决策树中文指代消解结论下一步工作结合规则的决策树中文指代消解两种方法:增大指代样例库、加入规则加入七条规则七条规则代词的指代消解仍然存在全匹配的问题保留“这/这些”、“那/那个那些”、“哪/哪些/哪个”的指代消解研究->增大精确率人名NE->“他”或“她”机构名NE、地名NE、专名NE->“它”保留“我”或“我们”->增大精确率排除第三人称代词间的指代情形排除时间短语与第三人称代词间的指代情形加入规则后的系统运行结果示例加入规则前的识别结果加入规则后的识别结果[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。[妈妈]12总有一片[园子]11。[我]8刚开始懂事时,[妈妈]12的[园子]11里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]8的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]8听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]14老古董手摇缝纫机缝啊钉啊,把[我们]15兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]15几个风卷残云。最吸引人的,是[妈妈]12任教的[那]14片[天地]16。[妈妈]12教的是生物,[她]12的[天地]16里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]17。[每年]12不多的几次,[妈妈]12带[我]18去[那]14片在校园围墙边上的[实验地]17。[我]18在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]18则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]18有问不完的问题,[妈妈]19有用不尽的答案。有一天,[我]18似懂非懂地告诉[妈妈]19,[我]18也知道“粒粒皆辛苦”了。加入规则后的系统运行结果示例加入规则前的识别结果加入规则后的识别结果[妈妈]12总有一片[园子]10。[我]11刚开始懂事时,[妈妈]12的[园子]10里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]12的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]12听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]11老古董手摇缝纫机缝啊钉啊,把[我们]11兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]12几个风卷残云。最吸引人的,是[妈妈]12任教的[那]12片[天地]14。[妈妈]12教的是生物,[她]12的[天地]14里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]15。[每年]12不多的几次,[妈妈]12带[我]12去[那]12片在校园围墙边上的[实验地]15。[我]12在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]12则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]12有问不完的问题,[妈妈]16有用不尽的答案。有一天,[我]12似懂非懂地告诉[妈妈]16,[我]12也知道“粒粒皆辛苦”了。[妈妈]12总有一片[园子]11。[我]8刚开始懂事时,[妈妈]12的[园子]11里有最美妙的天地。[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]8的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]8听着[故事]13入睡。[妈妈]12会做衣服,在桌子上量呀剪呀,用家里[那]14老古董手摇缝纫机缝啊钉啊,把[我们]15兄弟姐妹五个打扮得整整齐齐。周末,节日,[妈妈]12会下厨房切呀炒啊,变戏法似地做出好吃的菜,看着[我们]15几个风卷残云。最吸引人的,是[妈妈]12任教的[那]14片[天地]16。[妈妈]12教的是生物,[她]12的[天地]16里有栩栩如生的模型,泡着药水的标本,还有一片[实验园地]17。[每年]12不多的几次,[妈妈]12带[我]18去[那]14片在校园围墙边上的[实验地]17。[我]18在一旁,听[她]12跟学生讲种子发芽、开花结果,好奇地看着光合作用的挂图,带着恐惧寻找菜叶上胖胖的虫子。收获时节,西红柿鲜红,麦子金黄,[我]18则最爱在地瓜陇中,花生地里翻,体验发现新大陆似的惊喜。[我]18有问不完的问题,[妈妈]19有用不尽的答案。有一天,[我]18似懂非懂地告诉[妈妈]19,[我]18也知道“粒粒皆辛苦”了。运行示例分析加入的代词全匹配的规则1是有效的。文中大量的“我”与“她”的指代问题都得到了解决如“[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]8的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]8听着[故事]13入睡。”“儿子降生后的繁忙中,[妈妈]27忘不了、离不开[她]27的[园子]34,和[妻子]32一起把原来堆满废土的小院子换上生机嫣然的绿色,告诉[我]31这样才和[梅花村]33幽雅的环境相配。”运行示例分析(续)规则2强调的“那/那些”等指代情形除了在规则1下执行了全匹配外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论