信息提取概述_第1页
信息提取概述_第2页
信息提取概述_第3页
信息提取概述_第4页
信息提取概述_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息提取概述第1页,共19页,2022年,5月20日,0点51分,星期一研究背景与进展IE:多种自然语言处理技术的综合应用研究概况Tipster计划(由DARPA组织)三大评测会议:MUC、MET和TREC中文IE:北京大学NLP(孙斌)、台湾大学第2页,共19页,2022年,5月20日,0点51分,星期一IE的内涵信息提取(Information Extraction) :从一段文本中抽取指定的一类信息并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。MUC定义的文本提取:从纯文本字符串形式的文本中提取信息并进行处理,将其放入标记着可填入信息类型的槽中。如:George Bush

2、Cannon第3页,共19页,2022年,5月20日,0点51分,星期一Tipster文本计划三项基础技术文档检测、信息提取、摘要发展阶段第一阶段(19911994)文档检测和信息提取算法、MUC、TREC 第二阶段(1994.41996.9)共享软件、MET(中文、日文)第三阶段(1996.10)摘要第4页,共19页,2022年,5月20日,0点51分,星期一MUC评测任务NameOrgLocationDate实体及其属性实体间的关系事件及各角色实体TETRST第5页,共19页,2022年,5月20日,0点51分,星期一MUC评测任务命名实体任务NE:将一个SGML标志插入到文本中以标识每个

3、代表人名、机构名、地名、日期、时间或百分数的字符串。多语言实体任务MET:中文和日文的NE任务。模板元素任务TE:从文中任何位置寻找证据,提取关于机构、人和人工物品的基本信息。第6页,共19页,2022年,5月20日,0点51分,星期一MUC评测任务模板关系任务TR:提取关于employee_of、manufacture_of、location_of等关系的信息。脚本模板任务ST:提取预定义的事件信息,把此信息和参与该事件的组织、人和人工物品关联起来。互指任务CO:捕捉关于互指表达的信息:包括那些已在NE、TE任务中做了标记的对于某个命名实体的所有表述。第7页,共19页,2022年,5月20日

4、,0点51分,星期一MUC3-7评测任务的演化Evaluation/TasksNamed EntityCoreferenceTemplate ElementTemplate RelationScenario TemplateMultilingualMUC-3YESMUC-4YESMUC-5YESYESMUC-6YESYESYESYESMUC-7YESYESYESYESYESMET-1YESYESMET-2YESYES第8页,共19页,2022年,5月20日,0点51分,星期一MUC3-7最优评测结果比较Evaluation/TasksNamed EntityCoreferenceTemplat

5、e ElementTemplate RelationScenario TemplateMultilingualMUC-3R 50%P 70%MUC-4F 56%MUC-5EJV F 53%EME F 50%JJV F 64%JME F 57%MUC-6F 97%R 63%P 72%F 80%F 57%MUC-7F 94%F 62%F 87%F 76%F 51%MultilingualMET-1C F 85%J F 93%S F 94%MET-2C F 91%J F 87%第9页,共19页,2022年,5月20日,0点51分,星期一MUC-7训练与数据集语料库纽约时报新闻服务社(由Linguis

6、tic Data Consortium提供)评测资料时间:,约158,000篇文章对Managing Gigabytes文本检索系统使用领域相关词汇,对语料库进行检索得到训练与测试集两组100篇文章用于初步训练,包括试运行(飞机事故领域)考虑相关性、类型和来源的均衡选出的两组100篇文章用于正式测试(发射时间领域)第10页,共19页,2022年,5月20日,0点51分,星期一测试文本样例 nyt960214.0704 A4479 BC-MURDOCH-SATELLITE-NYT 02-14 0608 BC-MURDOCH-SATELLITE-NYTMURDOCH SATELLITE FOR L

7、ATIN PROGRAMMING EXPLODES ON TAKEOFF(kd)By MARK LANDLERc.1996 N.Y. Times News Service第11页,共19页,2022年,5月20日,0点51分,星期一测试文本样例Chinese rocket carrying a television satellite exploded seconds after launch Wednesday,dealing a potential blow to Rupert Murdochs ambitions to offer satellite programming in Lat

8、in America.Murdochs News Corp. is one of four media companies in a partnership that had leased space on the Intelsat satellite to offer the Latin American service. The other partners are Tele-Communications Inc., the nations largest cable operator; Grupo Televisa SA, the Mexican broadcaster and publ

9、isher, and the giant Brazilian media conglomerate Globo.NYT-02-14-96 2029EST第12页,共19页,2022年,5月20日,0点51分,星期一NE任务说明命名实体(ENAMEX标记元素)Organization:named corporate,governmentalPerson:named person,familyLocation:city,province,country,mountain时间表述(TIMEX标记元素)DateTime数字表述(NUMEX标记元素)Money:monetaryPercent:perce

10、ntage第13页,共19页,2022年,5月20日,0点51分,星期一TE、TR和ST任务的说明TE任务:两种模板元素对象:Entity、LocationTR任务:LOCATION_OF,EMPLOYEE_OF,PRODUCT_OFST任务scenario Fill Rules,BNF第14页,共19页,2022年,5月20日,0点51分,星期一IE工作流程用一组信息模式(Info Patterns)描述感兴趣的信息 对文本进行“适度的”(浅层、非完整的)词法、句法及语义分析,并作各种文本标引使用模式匹配方法识别指定的信息 进行上下文关联、指代、引用等分析和推理,确定信息的最终形式 输出结果

11、 第15页,共19页,2022年,5月20日,0点51分,星期一泛型信息提取系统要描述一个信息提取系统就需要回答:转换程序或模块是什么? 它们的输入输出各是什么? 要添加哪些结构? 损失了哪些信息? 规则的形式是什么? 如何使用规则? 如何获取规则? 第16页,共19页,2022年,5月20日,0点51分,星期一泛型信息提取系统文本提纯程序预处理程序过滤程序预分析程序 分析程序片断组合程序语义解释程序词语消歧指代消解模板生成程序第17页,共19页,2022年,5月20日,0点51分,星期一对MUC-7评测标准的几点看法TE扩展duration(时段)、frequency(频率)、age(年龄)、number(数值)、fraction(分数)、decimal(小数)、ordinal(序数)、math equation(数学等式) 类型层次扩展:增加子类型,如Worker、Student、Faculty,Person处理能力:嵌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论