中文信息过滤_第1页
中文信息过滤_第2页
中文信息过滤_第3页
中文信息过滤_第4页
中文信息过滤_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文信息抽取专题苏州大学计算机科学与技术学院信息抽取概述含义从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入数据库中供用户查询使用的过程。从文本中抽取用户感兴趣的事件、实体和关系被抽取的信息以结构化的形式描述存储到数据库中为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务信息抽取应用灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况从病人的医疗记录中抽取出症状、诊断记录和检验结果税务分析不同企业交税记录、发现异常模型和趋势。。。信息抽取与文本理解信息抽取需要一定程度的理解只关心有限的感兴趣的事实信息不关心文本意义的细微差别不关心作者的写作意图等深层理解问题信息抽取只能算一种浅层的文本理解信息抽取可以看作信息检索的进一步深化信息抽取实例课本P252从新闻中抽取出相关信息信息抽取与信息检索密切相关但又存在差异功能不同检索:从文档集合中找文档子集抽取:从文本中获取用户感兴趣的事实信息处理技术不同检索:通常利用统计与关键词等技术抽取:借助于自然语言处理技术使用领域不同检索:通常领域无关抽取:通常领域相关中文信息抽取的特殊性词典、词语切分和词性标注句法与语义分析句法成分的识别与标引、关键字抽取、检索特征集的抽取、索引等句群分析与篇章表示历史与现状20世纪60年代起步LinguisticString纽约大学大规模的英语计算语法从医疗领域的X光报告和出院记录抽取信息格式RogerSchank耶鲁大学故事理解期望驱动与数据驱动历史与现状(续)20世纪80年代商业应用ATRANS自动处理银行坏账JASPER通过新闻分析公司收入和盈利SCISOR分析公司合并与盈利蓬勃发展MUC会议MessageUnderstandingConference美国国防高级研究计划委员会资助评测信息抽取系统87-98进行了7次中文信息抽取起步中文起步晚主要研究工作中文命名实体的识别参加MUC-7评测台湾国立大学新加坡肯特岗数字实验室信息抽取系统的评测召回率准确率F指数召回率和准确率的加权几何平均信息抽取任务(一)命名实体NE最主要的任务命名实体是文本中基本的信息元素,是正确理解文本的基础狭义:指现实世界中具体或抽象的实体如人、组织、公司、地点等广义:还可以包含时间、数量表达式等确切含义,根据具体应用来确定信息抽取任务(二)模板元素TE模板元素又称为实体的属性通过槽(Slots)描述了命名实体的基本信息为命名实体建立各种属性槽从而更加清楚地描述命名实体槽Slots名称类别描述符种类信息抽取任务(三)共指CR不同的命名实体表达了相同的含义,这些实体之间的关系就是共指,也称为等价概念共指任务在于抽取关于共指表达的信息包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述抽取方法:基于句法、基于“优先知识”、基于简单共现、基于统计、基于决策树、基于聚类、基于记忆的学习MBL、基于HNC理论信息抽取任务(四)模板关系TE模板元素之间的各种关系,又称为事实法拉利-舒马赫雇佣关系研究方法基于知识库的方法基于特征的机器学习方法基于kernel的方法Bootstrapping方法信息抽取任务(五)场景模板ST又称事件,是指实体发生的事件主要研究点模板的获取手工写模板自动获取主流研究方向研究核心基于抽取事件动词来将其转化为模板。首先抽取事件动词以及其主语动宾形成候选模板,对候选模板排序,然后为事件动词建立域本体论,最后对其分类信息抽取系统的构建方法知识工程方法基于规则的方法靠手工编制规则使系统能处理特定只是领域的信息抽取问题性能好、易开发缺乏人才、开发过程耗时信息抽取系统的构建方法(续)自动训练方法通过学习已经标记好的语料获取规则通过学习已经标记好的语料库获取规则,任何对该领域比较熟悉的人都可以根据事先的约定的规范标记语料库。经过训练的系统能够处理没见过的新文本。开发速度快于知识工程需要足够数量的训练数据,才能保证其处理质量通用信息抽取结构Hobbs1993通用体系结构文本分块预处理过滤预分析分析片段组合语义解释词汇消歧共指消解或篇章处理模板生成BareBones结构Hobbs结构的简化版本由Applet和Israel提出符号化词汇和词法处理句法分析领域分析信息抽取中的自然语言处理技术命名实体识别句法分析文章分析和推理知识理解信息抽取技术基于规则的抽取技术信息抽取系统模型词法分析命名实体识别部分句法分析场景模板匹配共指分析推理与事件整合隐马尔可夫模型HMMHiddenMarkovModel一种随机的有限状态自动机容易建立、无需大规模的词典集和规则集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论