人机交互文本标注工具开发论文_第1页
人机交互文本标注工具开发论文_第2页
人机交互文本标注工具开发论文_第3页
人机交互文本标注工具开发论文_第4页
人机交互文本标注工具开发论文_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-. z- . - .可修编-毕 业 论 文论文题目:姓 名:学 号:学习中心:专 业:指导教师: 二 年 月毕业论文承诺书提示:根据语言大学网络教育学院论文写作的规定,如发现论文有抄袭、网上下载、请人代写等情况,毕业论文一律不及格。同时取消学士学位申请资格。毕业论文不及格者,可申请重写一次,并按重修缴纳费用。本人承诺:本人已经了解语言大学的毕业论文写作的有关规定;本人的论文是在指导教师指导下独立完成的研究成果。整篇论文除了文中已注明出处或引用的容外,绝没有侵犯他人知识产权。对本论文所涉及的研究工作做出奉献的个人和集体,均已在文中以明确方式注明。签 名:_ 日 期:_目 录 TOC o 1-3

2、 h z u HYPERLINK l _Toc182814517目录 PAGEREF _Toc182814517 h2HYPERLINK l _Toc182814518摘要 PAGEREF _Toc182814518 h 2HYPERLINK l _Toc182814519Abstract PAGEREF _Toc182814519 h 3HYPERLINK l _Toc182814520第一章绪论 PAGEREF _Toc182814520 h 1HYPERLINK l _To前言 PAGEREF _Toc182814521 h 1HYPERLINK l _Toc1

3、8281452212 研究背景 PAGEREF _Toc182814522 h 1HYPERLINK l _Toc182814523信息抽取概述 PAGEREF _Toc182814523 h 1HYPERLINK l _Toc182814524基于容的文本信息提取 PAGEREF _Toc182814524 h 2HYPERLINK l _To发人机交互的标注工具的意义 PAGEREF _Toc182814525 h 3HYPERLINK l _To务描述 PAGEREF _Toc182814526 h 3HYPERLINK l _Toc1

4、8281452715论文的组织和安排 PAGEREF _Toc182814527 h 3HYPERLINK l _Toc182814528第二章标注工具的设计原则和设计思想 PAGEREF _Toc182814528 h 5HYPERLINK l _To究方法和指导思想 PAGEREF _Toc182814529 h 5HYPERLINK l _To注工具的设计原则 PAGEREF _Toc182814530 h 5HYPERLINK l _Toc1828145312.2.2 文本标注工具的设计原则 PAGEREF _Toc182814531

5、 h 5HYPERLINK l _To人机交互界面设计原则 PAGEREF _Toc182814532 h 5HYPERLINK l _Toc182814533第三章标注工具的具体开发 PAGEREF _Toc182814533 h 5HYPERLINK l _To发环境的选择 PAGEREF _Toc182814534 h 5HYPERLINK l _To注工具的设计 PAGEREF _Toc182814535 h 5HYPERLINK l _Toc182814536标注工具的界面算法 PAGEREF _Toc18

6、2814536 h 5HYPERLINK l _Toc182814537构造设计 PAGEREF _Toc182814537 h 5HYPERLINK l _To标注工具的详细设计 PAGEREF _Toc182814538 h 6HYPERLINK l _Toc182814539人机交互界面详细设计 PAGEREF _Toc182814539 h 6HYPERLINK l _Toc182814540菜单和工具栏的设计 PAGEREF _Toc182814540 h 6HYPERLINK l _To注过程文本的处理 PAGEREF _Toc1

7、82814541 h 6HYPERLINK l _Toc182814542实体标注详细设计 PAGEREF _Toc182814542 h 6HYPERLINK l _Toc182814543关系标注详细设计 PAGEREF _Toc182814543 h 6HYPERLINK l _Toc182814544事件标注详细设计 PAGEREF _Toc182814544 h 6HYPERLINK l _To标注结果 PAGEREF _Toc182814545 h 6HYPERLINK l _To术难点讨论 PAGEREF _Toc1828145

8、46 h 6HYPERLINK l _Toc182814547第四章标注工具的缺陷分析和功能展望 PAGEREF _Toc182814547 h 7HYPERLINK l _Toc182814548完毕语 PAGEREF _Toc182814548 h 2HYPERLINK l _Toc182814549致 PAGEREF _Toc182814549 h 2HYPERLINK l _Toc182814550参考文献 PAGEREF _Toc182814550 h 2-. z人机交互文本标注工具开发摘要:基于容的文本信息提取是当前的一个研究热点,无论搜索引擎还是问答系统,其根本的根底是有效的获取

9、文本中的信息。使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库则是这一技术的根底。 带标语料库的建立的根底就是对大量的文本进展标注,并以一定的构造来存储。这样一来就需要开发一个具有友好的人机交互界面的文本标注工具来辅助文本标注,在一定程序上减轻标注工作者的负担。这次文本标注工具的设计,处理的目标是纯文本文件,以一篇文档为单位提供用户进展实体,事件,关系的标注,并在标注过程中给出标注的中间结果,最后在保存标注文件的时候进展处理,以*ml语言格式进展输出存储。标注工具的功能包括对文本的实体,事件,关系三大类的标注,对标注过的文本进展标记

10、,提醒用户标注进度,最后对标注中间结果的处理与保存。本文是对这次人机交互文本标注工具的设计与实现的详细的阐述。首先对背景及理论知识作了具体的介绍。然后,分别进展文本标注工具的系统分析、总体架构分析,并对每个模块的具体实现做详细地讲解。最后,本文还介绍本次文本标注工具设计的缺陷以及未来改良的方案,并对本次标注工具的开发作总结。关键词: 人机交互,文本标注,MFC编程The Interactive Te*t tagging Tool Development Author: * Tutor: * Abstract:The te*t information e*tration based on con

11、tent is a current study hotspot. Regardless of the search engine or the interrogator-responder system, their basic foundation is gain te*t information in effective. Use the method of machine learning to gains the effective knowledge from Corpus , supporting the te*t information processing is already

12、 bee putaional linguisticsa mainstream technology. The tagged corpus is the technical foundation.The target of this te*t tagging tool design is the processed corpora(te*t). Taking the single piece of te*t for users to tag entities, relations, events, and show intermediate results during tagging proc

13、ess . culminating in the preservation of tagging documents processed *ml language to the output format for storage. The tools functional annotation including tagging the entities, the events, the relations labeled the tagging off te*t , remind users the tagging progress, and dealing the intermediate

14、 results processing and preservation.The paper will describe and discuss over the design and realization of this interactive te*t tagging tool. Firstly, detailed theoretical backgrounds will be given; secondly, analysis of this tool and general structure for it and the full descriptions about the re

15、alization of each model will be introduced; finally, the defects of the design of the tool and improvement to its future development will be given and a summary of the structure and the performance of the system will be delivered as well. Key word:Human puterInteractive, Te*t tagging, MFC-. z第一章 绪 论

16、11 前言随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。语言资源有方案有规模的开发对于语言信息处理领域的研究和开发具有重要意义。对文本进展标注就是语言资源建立的一个方面,人机交互式的标注工具是进展语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果。 开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时构造化的输出更方便标注数据的后续使用。12 研究背景信息抽取概述信息抽取是指从一段文本中抽取指定的事件,事实等信息,形成构造化的数据并填入一个数据库中供用户查询使用的过程。即它从文本中抽取用户感兴趣的

17、事件,实体和关系,被抽取出来的信息以构造化的形式描述,然后存储在数据库中,为情报分析和监测、比价购物、自动文摘、文本分类等各种应用提供效劳。例如,灾害预防部门可以从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况;医生可以从病人的医疗记录中抽取出病症、诊断记录和检验结果;平安部门分析有线新闻和播送电视的文本来找到和总结恐惧分子活动记录等。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非构造化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。基于容的文本信息提取基于容的文本信息提取是当前的一个研究热点,无论搜索

18、引擎还是问答系统,其根本的根底是有效的获取文本中的信息。使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库则是这一技术的根底。由于语言本身的复杂性和富含信息的特点,使得语料库标注的容、对象可以在语法、语义、语用等各个层次上进展,语料库标注的容和程度,从根本上决定了从文本中可以提取出的信息容和信息粒度,也决定了进展文本容计算的对象、方法。比方,对于文本片断,据美国加利福尼亚州罗斯维尔市警方说,一架单引擎飞机12日在罗斯维尔市郊坠毁,机上2人全部死亡,被飞机撞毁的一座房屋中2人失踪。其中所包含的信息有:飞机坠毁的时间12日、地点罗斯维尔市

19、郊、伤亡情况2人死亡,2人失踪、该消息的来源警方、飞机本身的状态属性单引擎、消息来源的属性美国加利福尼亚州罗斯维尔市警方、死亡人员的属性(机上2人)、失踪人员的属性被飞机撞毁的一座房屋中2人、。这些信息直接反映了文本片断的意义,包括了命名实体、实体如罗斯维尔市、飞机;实体的属性及其间的关系如罗斯维尔市警方与警方,失踪人员和房屋的关系;事件如坠毁事件及其属性事件的时间、地点、伤亡情况等。表达这些信息的语言形式是丰富多样的,我们将其称为意义单元。因此,有效地标注文本中的意义单元,是面向文本容计算进展资源建立的一个尝试。根据突发事件的类型,对真实文本中意义单元的属性、特征、相关连方式进展研究,并通过

20、标注体系将其表现出来,是前人没有做过的。从真实文本的实际数据出发,探索支持文本容计算、具有意义信息标注的语料库建立是一个新的尝试。目前,面向文本信息提取的带标语料库的研究,ACE工程进展的较为深入。ACE对语料库标注形式、方法、容、对象都作了大量的研究,其标注容包括文本中的实体表达、实体间的关系表达、事件的表达等。本文受ACE标注容的启发,通过对ACE已标数据的分析,确定了以意义单元作为标注对象,期望在标注容上更加精炼,标注的语言层次上能够贯穿各个层级,同时面对不同的事件信息,能有更准确的表达形式。此外,从资源建立的角度来看,我们必须建立我们自己的语料库。13开发人机交互的标注工具的意义目前语

21、料加工的方式主要有三种方式,即人工、自动、和人机结合的半自动方式。由于自然语言处理技术的限制,自动加工方式会给语料库标注带来一些错误,而人工加工方式非常昂贵,需要大量的人力资源。相比之下,半自动加工方式则兼顾两者的优点。人机结合的方式有两种:一种是计算机自动选择语料库中需要人工干预的自动加工方式不能解决的局部,从而减少人的工作;另一种反是则实现由计算机对加工的语料进展自动加工,然后由人工校对。对文本进展标注就是语言资源建立的一个方面。人工标注的过程是一个艰辛的、费时费力的,然而从语言信息处理开展的观点来看,是一个必须进展的过程。h_L% V/Y pz因此开发一个可以辅助标注工作的工具就有它的意

22、义。人机交互式的标注工具是进展语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果的一致性等问题。 开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时构造化的输出更方便标注数据的后续使用。14任务描述本次标注工具开发的主要工作是windows风格的交互环境设计与实现和适用于文本成分的标注风格的设计与实现。具体就是要完成以下的这些任务:人机交互界面的设计人机交互界面的实现实体,关系,实现具体标注的实现标注中间结果的显示标注结果的构造化输出15论文的组织和安排整个论文分为四个局部,绪论介绍了这个标注工具出现的背景,解释了我们构造这个工具的必要性,后面各章

23、节全部围绕标注工具设计开发的各个细节来描述。分别为第2章标注工具的设计原则和设计思想,包括用户的各种需求和工具要具备的功能,预先估计工具开发过程中可能会遇到的困难,为工具的具体开发和实现打好根底。第3章标注工具的具体开发,包括开发环境的选择,设计思想的详细实现,技术难点的分析讨论。第4章对这次标注工具开发的总结,分析工具的缺陷以及没有解决的问题,以及对系统以后改良开展的看法。第二章 标注工具的设计原则和设计思想21研究方法和指导思想22标注工具的设计原则 文本标注工具的设计原则23 人机交互界面设计原则第三章 标注工具的具体开发31开发环境的选择32标注工具的设计标注工具的界面算法构造设计33 标注工具的详细设计人机交互界面详细设计菜单和工具栏的设计34标注过程文本的处理实体标注详细设计关系标注详细设计事件标注详细设计35 标注结果36技术难点讨论标注工具的缺陷分析和功能展望尽管工具经过反复的设计和考虑,性能进展尽可能的优化,但是本次的标注工具的缺陷还是非常多的,由于时间的紧和能力的有限,还有许多的功能可以去实现,还有许多的地方需要改良。本次标注工具实现了简单的人机交互环境,但还有许多需要处理的过程。如用户标注之后发现标注出错撤销标注的操

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论