第15章 自动文摘及问答系统_第1页
第15章 自动文摘及问答系统_第2页
第15章 自动文摘及问答系统_第3页
第15章 自动文摘及问答系统_第4页
第15章 自动文摘及问答系统_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第14章 自动文摘与自动问答自动文摘问题的提出 n由于信息量的爆炸式增长,使得人们从网络上获得自己真正需要的信息变得更加困难如:用户在Google上输入几个关键字,它有可能返 回成千上万的网页,用户将浪费很多时间在这些网页中查找自己所需要的信息。n 利用搜索引擎可从互联网中筛选出与检索条件相关 的信息,但利用搜索引擎不能提供给用户简洁、直 接的答案。n 以关键词的逻辑组合来表达检索需求,因为人们的检 索需求往往是非常复杂而特殊的。以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。问题的提出 n 自动文摘技术的目标是致力于将信息全面、简

2、洁的 文档直接呈现给用户,刚好可以解决单独利用搜索 引擎的方法获取信息所产生的问题,弥补搜索引擎 的不足n自动问答系统既能用自然语言句子提问,又能为用户直接返回所需的答案,而不是相关的网页。用户不需要把自己的问题分解成关键字,用户可以把整个问题直接交给问答系统。自动文摘主要内容 n关于自动文摘n自动文摘的方法n自动文摘的评测n自动文摘系统 文摘的定义 n国际标准 一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别 n美国标准 某一文献内容简要而准确的表述,不加解释和评论,也不区分这篇文摘是谁写的 n我国标准 以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地

3、记述文献重要内容的短文 文摘的客观性 自动文摘实例n澜科文本内容自动标引系统n网址:http:/ Summary)n报道性文摘(Informative Summary) n评论性文摘(Critical Summary) n 通用文摘(Genetic Summarization)n 偏重文摘(Biased Summarization) n 依据文摘的功能(用途): n 按文摘面向的用户划分: 文摘的分类(续1)n按文摘处理的文本对象划分: n单文档文摘 (Single Document Summarization,SDS) n多文档文摘(Multiple Documents Summarizat

4、ion,MDS) 每篇文章独立的生成文摘 对这个文档集生成一个概括多篇文档内容的综合文摘 文摘的分类(续2)n 文摘的制作方法划分: n摘录型文摘(Summarization Based on Extraction,SBE)n基于理解的文摘(Summarization Based On Understanding,SBU)n模板型文摘(Summarization Based On Template,SBT)n基于结构的文摘(Summarization Based On Discourse Structure,SBS)国际国内会议 nACLnACM SIGIRnAIRSnTRECnDUCn全国计

5、算语言学联合会JSCL n全国搜索引擎和网上信息挖掘学术研讨会 SEWM 主要内容 n关于自动文摘n自动文摘的方法n自动文摘的评测n自动文摘系统 自动文摘的方法 n基于统计的自动文摘n基于理解的自动文摘n基于信息抽取的自动文摘n基于结构的自动文摘 基于统计的自动文摘n基本思想: 基于统计的自动文摘将文本视为句子的线性 序列,将句子视为词的线性序列 基于统计的自动文摘(续1) 步骤:4步进行n计算词的权值;n计算句子的权值;n对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句;n将所有文摘句按照它们在原文中的出现顺序输出。 基于统计的自动文摘(续2)n计算词权、句权、选择文摘

6、句的依据是文本的6种形式特征 :n词频(Frequency) n标题(Title) n位置(Location) n句法结构(Syntactic Structure) n线索词(Clue) n指示性短语(Indicative Phrase) 这6种特征是自动摘录的依据,它们从不同角度指示了文章的主题,但都不够准确,不够全面 自动文摘的方法 n基于统计的自动文摘n基于理解的自动文摘n基于信息抽取的自动文摘n基于结构的自动文摘 基于理解的自动文摘 n基本思想:n以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法n它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理n得到文

7、摘的意义表示,最后从意义表示中生成摘要基于理解的自动文摘(续1)n步骤:4步进行n语法分析:借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构树n语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示 n语用分析和信息提取:根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键内容存入一张信息表 n文本生成:将信息表中的内容转换为一段完整连贯的文字输出基于理解的自动文摘(续2)n篇章意义的机内表示:是原文分析的结果和文摘生成的依据,它在基于理解的文摘系统中处于中枢地位 n脚本 -美国耶鲁大学的SAM 和FRUMP系统n概念从属结构 -改进的F

8、RUMP系统 n框架 -美国GE研究与开发中心的SCISOR系统n一阶谓词 -意大利 Udine大学的SUSY系统自动文摘的方法 n基于统计的自动文摘n基于理解的自动文摘n基于信息抽取的自动文摘n基于结构的自动文摘 基于信息抽取的自动文摘方法 n基本思想: 基于信息抽取(Information Extraction)的自动文摘方法只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高 基于信息抽取的自动文摘方法(续1)n信息抽取的自动文摘以文摘框架(Abstract Frame)为中枢,分为选择与生成两个阶段。文摘框架是一张申请单,它以空槽的形式提出应从原文中获取的各项内容n在选择阶段,

9、利用特征词从文本中抽取相关的短语或句子填充文摘框架 n在生成阶段,利用文摘模板将文摘框架中的内容转换为文摘输出。文摘模板是带有空白部分的现成的套话,其空白部分与文摘框架中的空槽相对应自动文摘的方法 n基于统计的自动文摘n基于理解的自动文摘n基于信息抽取的自动文摘n基于结构的自动文摘 基于结构的自动文摘 n基本思想:n篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系n篇章结构分析清楚了,文章的核心部分自然能够找到 语言学对于篇章结构的研究还很不够,可用的形式规则就更少了,这使得基于结构的自动文摘到目前为止还没有一套成熟的方法 基于结构的自动文摘(续1)n常

10、用的几种方法有:n关联网络 n修辞结构 n语用功能 主要内容 n关于自动文摘n自动文摘的方法n自动文摘的评测n自动文摘系统 自动文摘的评测 n广义的角度分为两类:n一类称作内部评价方法,它通过直接分析摘要的质量来评价文摘系统n另一类是外部评价方法,它是一种间接的评价方法,将自动文摘应用于某一个特殊的任务中,如自动问答、阅读理解等,根据摘要功能提高这项任务的效果来评价自动文摘系统的性能内部评价方法n“理想文摘”比较法n“提问一回答”评价方法n可接受性评价方法 将系统产生的“机器摘要”与“理想摘要”进行比较,根据两者的差距进行评价 认为好的摘要必须能够阐述原文中的关键要点。因此,该方法要求首先对文

11、章进行分析,取出其中的要点,根据摘要中是否包含这些要点来进行评价 采用纯粹的主观性评价方法,评价结果为可接受或不可接受,以及摘要是否流畅、原文写作风格是否保留等 内部评价方法(续1)n优点:内部评价方法比较有针对性,对系统的改进有较大的帮助,其评价过程也是对系统的一种深入研究学习过程。n缺点:在于该方法主观性太强,不利于大规模的对多个文摘系统进行客观评测。自动文摘的外部评价 n根据一般性的摘要进行主题相关判定 n利用文摘系统对每篇文章生成一篇一般性的摘要,评测者根据该摘要对原文章进行分类n以分类的准确度和花费的时间作为测评指标n根据具有偏重性的摘要进行主题相关判定n偏重性摘要就是系统对原文信息

12、进行有偏向性的浓缩。n系统可以利用偏重性功能从原文中摘要出感性的内容(比如有关农业的内容)来满足他的特别需要 自动文摘的外部评价(续1)n优点:外部评价方法具有较少的主观性,易于对多个文摘系统进行评价,也有助于自动文摘在其他领域中的应用研究。n缺点:每次测评只是针对一个特定任务,有一定的局限性,不利于系统性能的全面改进;由于情报处理中有各种各样的任务,因此评测方法也相应的种类繁多,难以实现标准化。 DUC介绍nDUC(Document Understanding Conference):国际上比较权威的关于自动文摘的评测会议n在DUC2004中,对自动文摘规定了五项评测任务:n非常短的单文档文

13、摘n关于TDT事件的较短多文档文摘n非常短的多语言单文档文摘n关于TDT事件的多语言较短多文档文摘n基于问题的较短文摘863智能评测 n04年的评测大纲中指出:根据评价者的主观感觉来对文摘进行评分。评价标准由主题的反映度和文字的流畅度综合评价n主题的反映度文摘内容真实反映原文主题的程度,包括文摘内容是否与原文相符 (不能歪曲原文)、概括是否全面 (不能遗漏原文的主要内容)、是否体现原文篇章结构等n文字的流畅度文摘在文字上的流畅程度,包括句子是否通顺、句子间意义是否连贯,句子间是否有关联词连接、逻辑结构是否合理等 主要内容 n关于自动文摘n自动文摘的方法n自动文摘的评测n自动文摘系统 自动文摘系

14、统举例 哈工大中文多文档自动文摘系统摘自:http:/ 自动问答的主要内容 n自动问答系统的结构n自动问答系统的评测n自动问答系统自动问答系统的结构问题分析n问题的分析是问答系统首先进行的分析工作,需要完成以下几部分工作:n确定问题的类型n提取出问题的关键词n依据问题的类型等因素对关键词进行适当的扩展。问题分类关键词提取n在用户提问的问题中,提取出对后面检索系统有用的关键字n关键词主要由名词、动词、形容词、限定性副词等组成。n两种:一般性关键 词和“必须含有”的关键词。关键词扩展n为了提高检索系统的召回率,一般的问答系统都对关键词进行扩展。在答案句中某些词常常不是与原来问题的关键词,而是这些关

15、键词的同义扩展。n通过统计方法扩展关键词。需要大量的问题和答案语料训练。例如,对于询问地点的问题,答案中会出现“在、位于、地处”等关键词。通过统计找出这些词,把他们加入query中。n使用检索返回得到相关文档扩展关键词。信息检索模块n在问答系统中的信息检索模块也可以直接调用已有检索系统,比如 Smart 系统,或者也可调用Internet 上的搜索引擎比如 Google。n建立一个信息检索模块,需要对文档库建立索引。信息检索模块(续)n信息检索模块中的关键是对文档权重的确定和对文档进行排序。文档的权重可以按照如 下公式来计算: n其中:KWi是该文档中包含第i个关键词在问题分析中的权重,TFi

16、是该关键词在文档中出现的频率,IDF i是该关键词在文档中出现的反频率,D 是指关键字在文档中的分布密度。信息检索模块(续)n信息检索模块中的关键是对文档权重的确定和对文档进行排序。文档的权重可以按照如 下公式来计算: n其中:KWi是该文档中包含第i个关键词在问题分析中的权重,TFi是该关键词在文档中出现的频率,IDF i是该关键词在文档中出现的反频率,D 是指关键字在文档中的分布密度。答案抽取n信息检索模块搜索出来的相关文档就要提交给答案抽取模块来提炼答案。答案可以是一句话,或者是几句话,也可以是几个词或者短语。以句子作为答案以词或短语作为答案 n对于那些问时间地点的问题,其答案就比较简短

17、,而用不着一句话。n比如,对于问题:“中华人民共和国是什么时候成立的”。我们可能检索出这样的一句话:“自年月日中华人民共和国成立以来至年底止,我国已经同世界上的约个国家建立了外交关系,而且还同更多的国家和地区发展了经济贸易关系和文化往来。”。从这个例子可以看出,我们所要的答案只是这句话中的一小部分,如果我们能把这整句话作为答案都提交给用户的话,显然冗余信息太多。n问答系统希望直接把包含答案的那段话抽取出来。 以文摘作为答案 n对于有些问题,简短的一个短语或者一句话很难说清楚。n比如对于问题“9.11 事件的是怎么回事?”。像这种问题,在互联网上有许多相关的报道,如果把这些相关报道都交给用户的话,那么用户将要花很多时间来阅读。n如果能把这些相关报道做成一个简短的文摘,让用户只要看文摘就能知道整个事件的前因后果,那么将会为用户带来很大的方便。这就需要用到多文档自动文摘技术。多文档自动文摘模块把信息检索模块检索出来的相关文档做成文摘,再把这个文摘作为答案返回给用户。 评价n问答系统需要一个评价机制来衡量问答系统的性能。首先需要建立一个测试集,这个测试集是人工做出来的问题和答案对的集合。把这个测试集中的问题提交给问答系统,让问答系统自动的给出答案。Trec会议评价 自动问答系统 n基于FAQ自动客户服务系统(以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论