




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于规则的信息抽取技术的研究及其在中医医案文献中的应用- PAGE 42 -基于模式的语义信息抽取及应用研究王双北京科技大学MACROBUTTON NoMacro 公开 密级:_论文(lnwn)题目:基于(jy)模式的语义信息(xnx)抽取及应用研究G20118233王双学 号:_软件工程作 者:_专 业 名 称:_2013年11月10日基于(jy)模式的语义信息(xnx)抽取及应用研究Semantic information extraction technology and application based on patterns研究生姓名(xngmng):王双指导教师姓名:孙义北京科技
2、大学计算机与通信工程学院北京100083,中国Master Degree Candidate: Wang ShuangSupervisor: Sun YiSchool of Computer &Comunication EngineeringUniversity of Science and Technology Beijing30 Xueyuan Road,Haidian DistrictBeijing 100083,P.R.CHINAMACROBUTTON NoMacro 公开 MACROBUTTON NoMacro 单击此处键入UDC号TP3910008分类号:_密级:_:_单位(dnw
3、i)代码:_北京科技大学硕士学位论文(lnwn)基于模式的语义信息抽取及应用研究论文(lnwn)题目: 王双作者:_北京科技大学 孙义指 导 教 师: 单位: 指导小组成员: 单位: 单位: 论文提交日期:2013年 11月1 0日学位授予单位:北 京 科 技 大 学北京科技大学硕士学位论文- PAGE XIII -致 谢本课题能够顺利完成,与我所得到(d do)的多方面的无私而热情的帮助是分不开的。我首先要感谢(gnxi)我的导师孙义教授(jioshu)。在本人读研期间,孙老师无论在学习还是在生活上,都给予了无微不至的关心。在整个毕业论文完成过程中,孙老师定期了解课题进展,积极提出宝贵意见,
4、在老师严谨治学、精益求精的工作作风中体会到了老师崇高的人格魅力。另外我还要感谢实验室的另外两位老师张德政老师和刘宏岚老师,感谢张老师和刘老师对我的鼓励和肯定。张老师积极的人生态度和拼搏精神,对我们产生深远影响,同时感谢张老师为我们提供的良好的工作和学习环境。我还要感谢帮助和鼓励过我的每一位同学,他们是韦仕伟、于留宝、付彬、华镇。感谢在这近三年时间里给予我知识的老师们,正是由于他们的辛勤施教,使我学到了许多宝贵的知识,能够顺利完成学业。真诚感谢我的父母、姐姐和朋友们。在他们的鼓励下,我勇敢前进,克服很多困难。他们的关心与帮助是我学习和生活最大力量来源。最后,感谢所有在百忙之中参加我论文答辩的老师
5、们,在此致以我崇高的敬意和衷心的感谢。摘 要中医学作为中国特色的传统医学具有(jyu)重要的社会价值,但是由于中医学理论体系的复杂性和特殊性,对中医理论和技术的全面把握需要(xyo)较长的时间。特别是经过多年临床实践,而且拥有(yngyu)多年中医实践经验的专家,很好的反映出了中医学的特色。从而可以通过研究这些医案,进而了解中医学的方法和理论,从而快速、全面地了解中医理论和技术。面对海量文本形式的医案,目前普遍采用手工填写结构化采集模板的方法结构化病案信息,不仅耗费大量人力物力,而且不能反应各个专家的特点。因此,本文主要研究如何通过计算机技术自动结构化文本形式的病案信息,从而为挖掘名老中医的临
6、床经验和诊疗思路打下基础。本文针对中医病案文本信息的特点,从多个方面、不同角度对基于中医病案信息的自动抽取进行了深入研究,实现了一个基于模式匹配的医案信息自动抽取系统。本文的主要工作包括以下几个方面:1、综述信息抽取及相关技术方法,主要内容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。2、重点研究了基于聚类的模式获取问题,以及基于模式的中医医案的信息抽取问题。实现了利用机器学习方法自动获取模式,利用模式识别文本中的人名、地名、时间以及实体间关系信息。3、设计并实现了一个基于中医医案的信息抽取原型系统。该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。关
7、键词:自然语言处理,信息抽取,模式生成,模式匹配Semantic information extraction technology and application based on patternsAbstractTraditional Chinese medicine as a Chinese traditional medicine has important social value .Medical records as the doctor clinical thinking and treatment based on syndrome differentiation proce
8、ss records, is a concrete reflection of comprehensive application forms of traditional Chinese medicine. Pattern matching is a commonly used method in information extraction system, how to generate the model is the key problem in the field of information extraction. This paper presents a method of c
9、lustering based machine learning, the system can automatic pattern acquisition from text. The application of this method in traditional Chinese medical experiments in the literature, has achieved a good result. According to the characteristicsof text informationofmedical records, Study is conducted
10、for theautomatic extraction ofChinese medical recordinformation based onmany aspects,from different angles, amedical informationautomatic extraction system ofpattern matching.The main work of this paperinclude the following aspects:1. Summary of informationextractionand relatedtechniques, The main c
11、ontentsinclude therelated concepts introduced, Technicalterminologyexplanation, also includes theanalysis of all kinds oftechnology. 2. Focus on the information extractionproblembased on the pattern oftraditional Chinese Medicine, Construction of patternlibrary.3. The design and implementation of ap
12、rototype systembased oninformation extractionoftraditional Chinese medicine.The system provides amethodfor the user touse,can be achieved on thetraditional Chinese medicineinformation extractionis verygood.Key Words:Natural Language Processing , Information Extraction,Pattern Acquisition,Pattern Mat
13、ching(用英文逗号(duho)“,”分隔(fng))目 录 TOC o 1-3 h z u HYPERLINK l _Toc371872020 致 谢 PAGEREF _Toc371872020 h I HYPERLINK l _Toc371872021 摘 要 PAGEREF _Toc371872021 h III HYPERLINK l _Toc371872022 Abstract PAGEREF _Toc371872022 h V HYPERLINK l _Toc371872023 插图(cht)和附表清单 PAGEREF _Toc371872023 h XI HYPERLINK l
14、 _Toc371872024 1 绪论(xln) PAGEREF _Toc371872024 h 1 HYPERLINK l _Toc371872025 1.1 课题(kt)背景 PAGEREF _Toc371872025 h 1 HYPERLINK l _Toc371872026 1.1.1 课题的来源,目的和意义 PAGEREF _Toc371872026 h 1 HYPERLINK l _Toc371872027 1.1.2 课题的研究内容 PAGEREF _Toc371872027 h 1 HYPERLINK l _Toc371872028 1.2 论文的主要工作 PAGEREF _T
15、oc371872028 h 2 HYPERLINK l _Toc371872029 1.3 本文的组织结构 PAGEREF _Toc371872029 h 2 HYPERLINK l _Toc371872030 2 信息抽取模式学习系统综述 PAGEREF _Toc371872030 h 3 HYPERLINK l _Toc371872031 2.1 信息抽取模式学习系统分类 PAGEREF _Toc371872031 h 3 HYPERLINK l _Toc371872032 2.2 基于人工语料标注的IE模式学习系统 PAGEREF _Toc371872032 h 3 HYPERLINK
16、l _Toc371872033 2.2.1 基于人工语料标注的IE模式学习系统的原理 PAGEREF _Toc371872033 h 3 HYPERLINK l _Toc371872034 2.3 基于人工语料分类的IE模式学习系统 PAGEREF _Toc371872034 h 6 HYPERLINK l _Toc371872035 2.4 基于自举的IE模式学习系统 PAGEREF _Toc371872035 h 7 HYPERLINK l _Toc371872036 2.5 基于WordNet和语料标注的IE模式学习系统 PAGEREF _Toc371872036 h 9 HYPERLI
17、NK l _Toc371872037 2.6 本章小结 PAGEREF _Toc371872037 h 11 HYPERLINK l _Toc371872038 3 中医医案特征分析 PAGEREF _Toc371872038 h 13 HYPERLINK l _Toc371872039 3.1 中医医案特征分析 PAGEREF _Toc371872039 h 13 HYPERLINK l _Toc371872040 3.1.1 中医医案结构特征分析 PAGEREF _Toc371872040 h 13 HYPERLINK l _Toc371872041 3.1.2 中医医案内容特征分析 PA
18、GEREF _Toc371872041 h 15 HYPERLINK l _Toc371872042 3.1.3 中医领域本身的特点 PAGEREF _Toc371872042 h 15 HYPERLINK l _Toc371872043 3.2 中医医案语义信息抽取的研究基础及存在的问题 PAGEREF _Toc371872043 h 16 HYPERLINK l _Toc371872044 3.3 本章小结 PAGEREF _Toc371872044 h 17 HYPERLINK l _Toc371872045 4 一种基于聚类的信息抽取模式自动生成方法 PAGEREF _Toc37187
19、2045 h 18 HYPERLINK l _Toc371872046 4.1 基于聚类的模式生成方法的比较与选择 PAGEREF _Toc371872046 h 18 HYPERLINK l _Toc371872047 4.2 单链法聚类的基本思想 PAGEREF _Toc371872047 h 18 HYPERLINK l _Toc371872048 4.3 相关(xinggun)概念 PAGEREF _Toc371872048 h 18 HYPERLINK l _Toc371872049 4.4 模式生成(shn chn)流程 PAGEREF _Toc371872049 h 20 HYP
20、ERLINK l _Toc371872050 4.4.1 文本处理与聚类 PAGEREF _Toc371872050 h 21 HYPERLINK l _Toc371872051 4.4.2 同类(tngli)之间的模式合并 PAGEREF _Toc371872051 h 24 HYPERLINK l _Toc371872052 4.5 实验结果和分析 PAGEREF _Toc371872052 h 26 HYPERLINK l _Toc371872053 4.6 本章小结 PAGEREF _Toc371872053 h 29 HYPERLINK l _Toc371872054 5 基于模式匹
21、配的信息抽取方法 PAGEREF _Toc371872054 h 30 HYPERLINK l _Toc371872055 5.1 国内外研究进展 PAGEREF _Toc371872055 h 30 HYPERLINK l _Toc371872056 5.1.1 本课题国外研究进展 PAGEREF _Toc371872056 h 30 HYPERLINK l _Toc371872057 5.1.2 本课题国内研究进展 PAGEREF _Toc371872057 h 30 HYPERLINK l _Toc371872058 5.2 中医医案信息抽取过程中模式的表示方式 PAGEREF _Toc
22、371872058 h 31 HYPERLINK l _Toc371872059 5.3 信息抽取程序的实现过程 PAGEREF _Toc371872059 h 33 HYPERLINK l _Toc371872060 5.3.1 自动分词的实现 PAGEREF _Toc371872060 h 34 HYPERLINK l _Toc371872061 5.3.2 加载模式库 PAGEREF _Toc371872061 h 38 HYPERLINK l _Toc371872062 5.3.3 读取医案文件 PAGEREF _Toc371872062 h 39 HYPERLINK l _Toc37
23、1872063 5.3.4 确定医案文件的段落主题 PAGEREF _Toc371872063 h 41 HYPERLINK l _Toc371872064 5.2.5逐句遍历 PAGEREF _Toc371872064 h 41 HYPERLINK l _Toc371872065 5.2.6正则匹配算法 PAGEREF _Toc371872065 h 42 HYPERLINK l _Toc371872066 5.2.7存储提取结果 PAGEREF _Toc371872066 h 43 HYPERLINK l _Toc371872067 5.4 本章小节 PAGEREF _Toc3718720
24、67 h 44 HYPERLINK l _Toc371872068 6 基于模式匹配的中医医案信息抽取系统的设计与实现 PAGEREF _Toc371872068 h 45 HYPERLINK l _Toc371872069 6.1 信息抽取系统的通用体系结构 PAGEREF _Toc371872069 h 45 HYPERLINK l _Toc371872070 6.2 需求分析 PAGEREF _Toc371872070 h 45 HYPERLINK l _Toc371872071 6.2.1 用户登录 PAGEREF _Toc371872071 h 45 HYPERLINK l _Toc
25、371872072 6.2.2 中医医案管理 PAGEREF _Toc371872072 h 45 HYPERLINK l _Toc371872073 6.2.3 用户词典管理 PAGEREF _Toc371872073 h 46 HYPERLINK l _Toc371872074 6.2.4 模板匹配 PAGEREF _Toc371872074 h 46 HYPERLINK l _Toc371872075 6.3 系统设计 PAGEREF _Toc371872075 h 46 HYPERLINK l _Toc371872076 6.3.1 系统功能结构 PAGEREF _Toc3718720
26、76 h 46 HYPERLINK l _Toc371872077 6.3.2 定义抽取任务 PAGEREF _Toc371872077 h 47 HYPERLINK l _Toc371872078 6.3.3 构建(u jin)开发程序 PAGEREF _Toc371872078 h 48 HYPERLINK l _Toc371872079 6.3.4 数据库设计(shj) PAGEREF _Toc371872079 h 49 HYPERLINK l _Toc371872080 6.4 详细(xingx)设计 PAGEREF _Toc371872080 h 50 HYPERLINK l _T
27、oc371872081 6.4.1 用户登录模块 PAGEREF _Toc371872081 h 50 HYPERLINK l _Toc371872082 6.4.2 系统主界面 PAGEREF _Toc371872082 h 51 HYPERLINK l _Toc371872083 6.4.3 用户词典模块 PAGEREF _Toc371872083 h 52 HYPERLINK l _Toc371872084 6.4.4 中医医案管理模块 PAGEREF _Toc371872084 h 53 HYPERLINK l _Toc371872085 6.4.5 基于模板匹配的抽取模块 PAGER
28、EF _Toc371872085 h 53 HYPERLINK l _Toc371872086 6.5 软件测试 PAGEREF _Toc371872086 h 54 HYPERLINK l _Toc371872087 6.5.1 软件测试的步骤 PAGEREF _Toc371872087 h 54 HYPERLINK l _Toc371872088 6.5.2 本系统的测试方案 PAGEREF _Toc371872088 h 55 HYPERLINK l _Toc371872089 6.6 本章小结 PAGEREF _Toc371872089 h 56 HYPERLINK l _Toc371
29、872090 7 结论 PAGEREF _Toc371872090 h 57 HYPERLINK l _Toc371872091 7.1 总结 PAGEREF _Toc371872091 h 57 HYPERLINK l _Toc371872092 7.2 进一步的工作 PAGEREF _Toc371872092 h 57 HYPERLINK l _Toc371872093 参考文献 PAGEREF _Toc371872093 h 59 HYPERLINK l _Toc371872094 附录 人工提取的语言模式 PAGEREF _Toc371872094 h 63 HYPERLINK l _
30、Toc371872095 作者简历及在学研究成果 PAGEREF _Toc371872095 h 69 HYPERLINK l _Toc371872096 独创性说明 PAGEREF _Toc371872096 h 71 HYPERLINK l _Toc371872097 关于论文使用授权的说明 PAGEREF _Toc371872097 h 72 HYPERLINK l _Toc371872098 学位论文数据集 PAGEREF _Toc371872098 h 73插图(cht)清单(qngdn) TOC h z c 图2. HYPERLINK l _Toc372218579 图2. 1 A
31、utoSlog采用(ciyng)的语言表达模式及IE模式 PAGEREF _Toc372218579 h 4 HYPERLINK l _Toc372218580 图2. 2一个标注后的语句及AutoSolg从中学出的一个概念节点 PAGEREF _Toc372218580 h 5 HYPERLINK l _Toc372218581 图2. 3 PALKA的一个FP-structure的例子 PAGEREF _Toc372218581 h 6 HYPERLINK l _Toc372218582 图2. 4 AutoSlog-TS学习IE模式的流程 PAGEREF _Toc372218582 h
32、7 HYPERLINK l _Toc372218583 图2. 5 ExDisco中用到的”管理职位继任”IE领域的两个种子IE模式 PAGEREF _Toc372218583 h 8 HYPERLINK l _Toc372218584 图2. 6 Exdisco的IE模式学习流程 PAGEREF _Toc372218584 h 9 HYPERLINK l _Toc372218585 图2. 7TIMES中的模式例子 PAGEREF _Toc372218585 h 10 HYPERLINK l _Toc372218586 图2. 8 TIMES的IE模式学习流程 PAGEREF _Toc372
33、218586 h 10 HYPERLINK l _Toc372218587 图2. 9一个语句经过相应的NLP步骤处理后所得到的内部结构 PAGEREF _Toc372218587 h 11 HYPERLINK l _Toc372218588 图2. 10 TIMES形成的特例模式 PAGEREF _Toc372218588 h 11 TOC h z c 图3. HYPERLINK l _Toc372218589 图3. 1 一份典型的中医肝病病案 PAGEREF _Toc372218589 h 14 TOC h z c 图4. HYPERLINK l _Toc372294495 图4. 1信
34、息抽取模式生成流程 PAGEREF _Toc372294495 h 21 HYPERLINK l _Toc372294496 图4. 2相关文档集 PAGEREF _Toc372294496 h 21 HYPERLINK l _Toc372294497 图4. 3相关文档集经过预处理后的结果 PAGEREF _Toc372294497 h 22 HYPERLINK l _Toc372294498 图4. 4分词后的文本划分为不同的类别 PAGEREF _Toc372294498 h 23 HYPERLINK l _Toc372294499 图4. 5相关文档集的聚类结果 PAGEREF _To
35、c372294499 h 24 HYPERLINK l _Toc372294500 图4. 6模式合并结果 PAGEREF _Toc372294500 h 26 HYPERLINK l _Toc372294501 图4. 7泛化后的模式结果 PAGEREF _Toc372294501 h 26 HYPERLINK l _Toc372294502 图4. 8中医医案文本 PAGEREF _Toc372294502 h 27 HYPERLINK l _Toc372294503 图4. 9测试语料划分为不同的类别 PAGEREF _Toc372294503 h 27 HYPERLINK l _Toc
36、372294504 图4. 10实验得到的信息抽取模式 PAGEREF _Toc372294504 h 28 HYPERLINK l _Toc372294505 图4. 11信息抽取模式 PAGEREF _Toc372294505 h 28 HYPERLINK l _Toc372294506 图4. 12不适宜全部合并的实例 PAGEREF _Toc372294506 h 29 TOC h z c 图5. HYPERLINK l _Toc372294512 图5. 1中医信息抽取流程图 PAGEREF _Toc372294512 h 33 HYPERLINK l _Toc372294513 图
37、5. 2典型中医肝病医案 PAGEREF _Toc372294513 h 35 HYPERLINK l _Toc372294514 图5. 3典型中医肝病医案分词标注结果 PAGEREF _Toc372294514 h 36 HYPERLINK l _Toc372294515 图5. 4MapRules的数据结构 PAGEREF _Toc372294515 h 39 HYPERLINK l _Toc372294516 图5. 5典型中医(zhngy)肝病医案信息抽取结果 PAGEREF _Toc372294516 h 44 TOC h z c 图6. HYPERLINK l _Toc37229
38、4629 图6. 1基于模式匹配的中医(zhngy)医案信息抽取系统结构图 PAGEREF _Toc372294629 h 47 HYPERLINK l _Toc372294630 图6. 2信息抽取(chu q)模块流程图 PAGEREF _Toc372294630 h 49 HYPERLINK l _Toc372294631 图6. 3用户登录界面设计 PAGEREF _Toc372294631 h 50 HYPERLINK l _Toc372294632 图6. 4用户管理界面设计 PAGEREF _Toc372294632 h 51 HYPERLINK l _Toc372294633
39、图6. 5系统主界面设计 PAGEREF _Toc372294633 h 51 HYPERLINK l _Toc372294634 图6. 6用户词典管理界面 PAGEREF _Toc372294634 h 52 HYPERLINK l _Toc372294635 图6. 7基于模版匹配的抽取界面 PAGEREF _Toc372294635 h 53附表清单 TOC h z c 表5. HYPERLINK l _Toc372219170 表5. 1模式(msh)库-系统(xtng)用到的16个模式(msh) PAGEREF _Toc372219170 h 31 HYPERLINK l _Toc
40、372219171 表5. 2模式中数字的含义 PAGEREF _Toc372219171 h 32 HYPERLINK l _Toc372219172 表5. 3模式中字母的含义 PAGEREF _Toc372219172 h 32 HYPERLINK l _Toc372219173 表5. 4中医医案的用户词典 PAGEREF _Toc372219173 h 34 HYPERLINK l _Toc372219174 表5. 5 VecWordCate数据结构图 PAGEREF _Toc372219174 h 39 HYPERLINK l _Toc372219175 表5. 6基本信息部分实
41、例 PAGEREF _Toc372219175 h 40 HYPERLINK l _Toc372219176 表5. 7主诉部分存储实例 PAGEREF _Toc372219176 h 40 HYPERLINK l _Toc372219177 表5. 8治则部分存储实例 PAGEREF _Toc372219177 h 41 HYPERLINK l _Toc372219178 表5. 9 VecWordCate数据结构图 PAGEREF _Toc372219178 h 41 TOC h z c 表6. HYPERLINK l _Toc372219185 表6. 1用户信息表 PAGEREF _T
42、oc372219185 h 49 HYPERLINK l _Toc372219186 表6. 2案例信息表 PAGEREF _Toc372219186 h 50- PAGE 67 -绪论(xln)课题(kt)背景课题的来源,目的(md)和意义该研究课题来源于“十二五”国家科技支撑计划“名老中医临床经验、学术思想传承研究(一)”项目。本课题研究目标是从中医传承的临床需求出发,汇聚中医学、认知科学、信息技术,研发中医医案信息抽取系统,即临床医案收集、储存、分析、管理为一体的系统,实现临床患者病案采集、数据存储、结构化处理等功能。研发模式库生成系统,实现自动化地从文本中获取模式,生成模式库,用于支持
43、信息抽取的过程。研发信息抽取系统,实现系统自动识别出医案文本中特定语义信息。随着近几年来中医学研究的深入进行,对中医医案的信息分析需求越来越迫切,经历了中国五千年的文化变迁,中医历史积累了海量的中医医案,收录散杂,在内容和文字上不免也存在着讹、漏、误、衍等错误现象15,采用人工手段进行查找与分析已经不能满足快节奏需求。利用信息抽取的办法,将形式多样、内容丰富繁杂的中医医案以统一、完整结构化的形式提取出来,有效而抢救性地整理和保留了临床经验,将无形的经验变成有形的可供大家共享的知识,这对我国中医药领域的传承意义重大。课题的研究内容本文研究基于模式的信息抽取技术及应用,课题解决的主要技术难点及技术
44、方案:(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是课题研究的难点和重点。本文根据中文自身的特点,考虑到模式即为在文本中经常出现的句法结构, 同时借鉴英文文本的模式获取方法, 提出一种基于聚类的模式获取方法,实现了从中医医案中自动获取模式。首先对文本进行预处理,然后对分词后的文本聚类,将分词后的短语划分为不同的类别, 则每个类别为一个模式集。将同一模式集中的模式实例进行合并, 就可以得到最终的信息抽取模式。(2)研究信息抽取技术在中医医案领域的应用,实现机器自动识别中医医案里包含的“病”、“证”、“症候”等相关属性及病人基本信息形成最小数据冗余的数据。本文尝试采用基于模式匹配的正则匹配
45、算法。第一步对文本进行分词、词性标注处理,第二步在模式库的支持下,采用模式匹配算法,最终实现了机器对医案的“人名”、“出诊时间”、“症候”信息的识别,以及实体间关系识别。论文的主要(zhyo)工作本文的主要工作包括(boku)以下几个方面:1)综述信息(xnx)抽取及相关技术方法,主要内容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。2)重点研究了基于模式的中医医案的信息抽取问题。构建动词库、模式库。3)设计并实现了一个基于中医医案的信息抽取原型系统。该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。本文的组织结构本文共分7章,每部分的组织如下:第一章
46、首先介绍了本课题的课题背景,阐述了课题的来源,目的及意义,说明了课题的研究内容。第二章给出了模式自动生成的学习方法以及它们的优缺点。第三章介绍了中医领域中文文本的特点,提出了信息抽取的任务。第四章介绍了模式自动生成方法的思想和具体步骤,并给出了实验结果。第五章介绍了基于模式匹配的信息抽取方法第六章完成基于模式匹配的中医医案信息抽取系统,实现了其中的命名实体识别(人名、地名、时间等名词性短语)的工作第七章总结与展望最后是本文的参考文献,及本文作者对导师和实验室同学的衷心感谢!信息(xnx)抽取模式学习系统(xtng)综述(zngsh)信息抽取模式学习系统分类为了进行IE(Information
47、Extraction)模式的学习,人们先后设计过各种IE模式获取系统,例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlog-TS、ExDisco、TIMES等。根据IE模式获取系统需要用户辅助工作方式的不同,可以把这些系统分为四个类别:它们为基于人工语料标注的IE模式学习系统,如AutoSlog、PALKA、CRYSTAL、LIEP等;基于人工语料分类的IE模式学习系统,如AutoSlog-TS等;基于种子模式的自举IE模式学习系统,如ExDisco等;基于WordNet和语料标注的IE模式学习系统,如TIMES等。下面分别介绍这四类系统的工作原理。基于人工语料标注的I
48、E模式学习系统基于人工语料标注的IE模式学习系统的原理基于人工语料标注的IE模式获取系统的基本原理是:使用一种IE模式表示方式,人工预先标注训练语料,接着利用机器学习的方法从训练语料中学出IE模式。例如AutoSlog、PALAK、CRYSTAL、LIEP。本节详细介绍AutoSlog和PALKA的工作原理。AutoSlog是世界上第一个成功实现利用机器学习的方法获取信息抽取模式的系统,由Univ.of Massachusetts开发。AutoSlog的核心就是一个模式学习算法。对于一个特定的IE任务,系统的输入是人工标注的训练语料,一套语言模式集(领域无关)和一个相关领域的语义词典。系统的输
49、出是对应案例语句的IE模式。另外,整个统的实现需要CIRCUS句法分析器的辅助支持,CIRCUS句法分析器的功能是自动识别句子中的主语、谓语和宾语等。最后需要人工对学出的模式进行审定和筛选。语言模式集(领域无关)由人工设计而成。对于不同领域的信息抽取任务,语言模式集并不需要做较大改动。图2.1列出了针对恐怖活动事件用到的语言模式,以及与它们对应的一条IE模式。 Linguistic Pattern Example passive-verb was murdered active-verb bombed verb infinitive attempted to kill auxiliary no
50、un attempted to killactive-verb bombed infinitive to kill verb infinitive threatened to attack gerund killing noun auxiliary fatality was noun prep bomb against active-verb prep ki11ed with passive-verb prep was aimed at 图2. SEQ 图2. * ARABIC 1 AutoSlog采用(ciyng)的语言表达模式(msh)及IE模式(msh)这里的语言模式集和IE模式的不同之
51、处在于:语言模式是领域无关的,是由人工预先给定的。而IE模式是由该系统自动生成的,是给出的语言模式实例化的结果。IE模式用于对一个事件进行信息抽取。语言模式“ active-verb”的含义是:一个充当主语的语法成分后面紧跟着一个主动形式的动词短语。该种形式的句法结构在英语文本中经常出现,因而将此句型抽象出来作为一条语言模式。对应于该语言模式的一个IE模式“was murdered”的含义是:句子经过CIRCUS句法分析器处理后,“was murdered”充当动词短语,动词短语的左侧是主语语法成份,则此主语作为bombing事件的victim角色。若一个含有动词短语“was murdered
52、”的语句经过句法分析后,在该动词短语的左侧有一个充当主语的语法成分,则该语法成分充当bombing事件的victim角色。上图中列出的其它语言模式和与每条语言模式相对应的IE模式案例可按类似的方法解释。可以使用此方法一次对上述语言模式和IE模式解释。AutoSlog13和PALKA13等是最早向知识获取自动化迈进的系统之一。随后实现的CRYSTAL和LIEP,也旨在实现知识获取的自动化。但这些系统仍较多的依赖于手工的参与,可认为这些系统仅是一种半自动化的知识获取系统。如AutoSlog需要用手工标注训练数据,并设置启发式搜索规则以获取锚点(可认为是触发词);CRYSTAL除了要有手工标注数据,
53、还要有语义层次和相关的词典;PALKA需要手工定义的框架(含触发词)、语义层次和相关的词典;LIEP则使用预先定义的关键词和对象识别器,依赖与用户的交互,给相关的语句分配事件类型。这些系统的特点是依赖手工标记过的数据或通过与用户的交互过程,利用加工过的语料,学习语言的模式规则,是一种典型的机器辅助式知识获取。尽管如此,通过知识的半自动获取,系统仍然可以(ky)很大程度上减少手工的参与。如AutoSlog,其输入可描述为“标注实例+启发(qf)规则”,虽然该系统仍在一定程度上依赖于领域专业和语言学知识,但已大大减少了手工的参与,原先需1500人小时构建的概念节点,AutoSlog只要5人小时进行
54、(jnxng)监督即可完成。CRYSTAL则向自动化更靠近了一步,它的输入可描述为“标注实例+语义层次词典”,无须人工监督过程即可完成学习过程。Sentence: In La Oroya,Junin department,in the central Peruvian mountain range , public buildings (bombing,TARGET) were bombed and a car was detonated.CONCEPT NODEName: target-subject-passive-verb-bombedTrigger: bombedVariable Sl
55、ots: (target(SUBJECT*l)Constraints: (class PHYS一TARGET *SUBJECT*)Constant Slots: (type bombing)Enabling Conditions: ( passive) 图2. SEQ 图2. * ARABIC 2一个标注后的语句及AutoSolg从中学出的一个概念节点FP-structure = Meaning Frame+Phrasal PatternMeaning Frame:(BOMBINGis-a:(TERRORIST-ACTION)keywords:(explode,hurl, throw, exp
56、losion, bomb,explosive, dynamite, grenade.)agent:(ANIMATE) ;optionalpatient:(PHYSICAL-OBJECT) ;optionaltarget:(PHYSICAL-OBJECT) ;optionalinstrument:(PHYSICAL-OBJECT) ;optionaleffect:(STATE) ;optionalPhrasal Pattern:(BOMB) BE HUTL AT (PHYSICAL-OBJ)FP-structure:(BOMBINGtarget:PHYSICAL OBi nstrument:BO
57、MBpattern:(i nstrument)BE HURL AT(target)图2. SEQ 图2. * ARABIC 3 PALKA的一个(y )FP-structure的例子基于人工(rngng)语料分类的IE模式学习(xux)系统该类系统的典型代表是AutoSlog-TS,它是有Riloff于 1996年发明的。AutoSlog-TS是AutoSlog的 后继产品,相比AutoSlog,AutoSlog-TS对用户的工作量与技能要求大大降低。该类系统的工作原理是:由人工将语料分为领域相关和领域不相关两类,系统根据这种分类方式学习出IE模式。图2.4显示了AutoSlog-TS学习出I
58、E模式的过程。AutoSlog-TS系统的输入是用户给出的领域相关和不相关文档集及AutoSlog中用到的语言模式。AutoSlog-TS系统的输出是学习出的语言模式。整个过程可以分为两个阶段。第一阶段,用户提供出领域相关的和领域非相关的语料,使用CIRCUS句法分析器对语料进行句法分析,然后根据(gnj)AutoSlog中用到的语言模式学习出相应的Concept Node。例如(lr)句子“World trade center was bombed by terrorists”,经过(jnggu)CIRCUS句法分析器处理的结果为:“World trade center”充当句子的主语,“w
59、as bombed”充是句子的动词短语,“by terrorists”是介词短语。根据AutoSlog中用到的语言模式“passive-verb”和“passive-verb prep (np)”,生成两个Concept Node“ was bombed”和“bombed by ”。第二阶段,对于第一阶段学习出来的多个Concept Node,利用CIRCUS句法分析器对这些Concept Node进行领域相关性打分。如果Concept Node的领域相关性较低,则去除这个Concept Node。例如图2.4列出了计算出的领域相关性值,由于Concept Nodesaw 的领域相关性为49%
60、,小于50%,表示相关性较差,因此去除这个Concept Node。RRSentenceAnalyzerS:world trade centerV:was bombedPP:by terroristssAutoSlogHeuristicsConcept Nodeswas bombedbombed by RRConcept Node Dictionary:was killedwas bombedbombed by sawSentenceAnalyzerConcept Nodes REL%was bombed 87%bombed by 84%was killed 63%saw 49%图2. SEQ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 苏州工业园区服务外包职业学院《瑶族民歌演唱》2023-2024学年第二学期期末试卷
- 山东轻工职业学院《大学英语4B级》2023-2024学年第一学期期末试卷
- 湖南体育职业学院《中国现当代文学2》2023-2024学年第二学期期末试卷
- 宾川县2024-2025学年数学三下期末学业水平测试模拟试题含解析
- 阜阳幼儿师范高等专科学校《高等工程结构》2023-2024学年第二学期期末试卷
- 河南省长葛市第三实验高中2024-2025学年5月高考英语试题模练习(一)含解析
- 浙江农业商贸职业学院《数据可视化技术》2023-2024学年第二学期期末试卷
- 广州大学《舞蹈技能(男生)实训》2023-2024学年第二学期期末试卷
- 古代诗歌常识知识
- 针对大学生喜爱的舞种调研
- 研发综合项目管理新规制度
- GB/T 43860.1220-2024触摸和交互显示第12-20部分:触摸显示测试方法多点触摸性能
- 医疗机构制剂管理规范
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
- 2023年 新版评审准则质量记录手册表格汇编
- 2024年全国版图知识竞赛(小学组)考试题库大全(含答案)
- 博物馆保安服务投标方案(技术方案)
- (高清版)TDT 1047-2016 土地整治重大项目实施方案编制规程
- 2024年新疆维吾尔自治区中考一模综合道德与法治试题
- 医药代表专业化拜访技巧培训
- 今年夏天二部合唱谱
评论
0/150
提交评论