版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第13章 文本自动摘要北京市海淀区中关村东路95号:100190: +86-10-82544588邮件:jjzhang主要内容u 文本摘要概述u 文本摘要分类u 文本摘要方法u 文本摘要评价与评测3/52张家俊:文本自动摘要文本摘要概述u 文本摘要的定义u 文本摘要的需求u 文本摘要的发展简史u 代表系统4/52张家俊:文本自动摘要文本摘要的定义u 定义:u 文本自动摘要是利用计算机按照某类应用自动 地将文本(或文本集合)转换生成简短摘要的 一种信息压缩技术u 要求:u 信息量足、覆盖面广、冗余度低和可读性高5/52张家俊:文本自动摘要文本摘要的需求u 快速的信息获取u 搜索引擎u 一句话标题
2、u 科技文献摘要u 适应特定的环境u、平板等屏幕受限的设备u6/52张家俊:文本自动摘要文本摘要的发展简史u 统计、混合方法u Luhn 1955, 提出文本自动摘要的概念u Edmundson 1969, 提出简单的抽取自动摘要的启发式方法:句子位置、线索词、线索短语u 句法结构树、框架语义网等等基于统计的自动摘要1991-基于语言学的摘要1971-1990启发式自动摘要1955-19707/52张家俊:文本自动摘要代表系统n NewsInEssenceu 密歇根大学开发u Dragomir Radev., 2005. Newsinessence: Summarizingonline new
3、s topics, ACM Communicationsn NewsBlasteru 哥伦比亚大学开发u DavidKirkEvans.,2004.ColumbiaNewsblaster:Multilingual News Summarization on the Web,In HLT- NAACL.8/52张家俊:文本自动摘要NewsInEssencen 抽取式方法的代表系统u 利用词汇计算文本中心u 抽取与文本中心n 应用范围u 单文档摘要u 多文档摘要的句子作为摘要u 基于用户的摘要 u 9/52张家俊:文本自动摘要NewsBlaster10/52张家俊:文本自动摘要主要内容u 文本摘要
4、概述u 文本摘要分类u 文本摘要方法u 文本摘要评价与评测11/52张家俊:文本自动摘要文本摘要分类单语或多语摘要单文档抽取式摘要压缩式摘要理解式摘要档用户12/52张家俊:文本自动摘要文本摘要分类文档数目:单文档摘要、多文档摘要单语或多语摘要单文档抽取式摘要压缩式摘要理解式摘要档用户13/52张家俊:文本自动摘要单文档摘要14/52张家俊:文本自动摘要多文档摘要文本摘要分类输入语言与输出语言的关系:单语摘要、跨语言摘要、多语言摘要单语或多语摘要单文档抽取式摘要压缩式摘要理解式摘要档用户16/52张家俊:文本自动摘要跨语言摘要17/52张家俊:文本自动摘要多语言摘要18/52张家文本摘要分类单
5、语或多语摘要单文档抽取式摘要压缩式摘要理解式摘要档用户是否有用户输入: 通用摘要、用户张家俊:文本自动摘要摘要19/52文本摘要分类摘要方法:抽取式摘要、压缩式摘要、理解式摘要单语或多语摘要单文档抽取式摘要压缩式摘要理解式摘要档用户20/52张家俊:文本自动摘要文本摘要分类摘要长度:标题式摘要、短摘要、长摘要单语或多语摘要单文档抽取式摘要压缩式摘要理解式摘要档用户21/52张家俊:文本自动摘要主要内容u 文本摘要概述u 文本摘要分类u 文本摘要方法u 文本摘要评价与评测22/52张家俊:文本自动摘要文本摘要方法u 抽取式摘要u 直接从原文中抽取已有的句子组成摘要u 简单易实现,但不符合摘要本质
6、u 众多实际系统中,抽取式方法占主导u 压缩式摘要u 抽取并简化原文中的重要句子u ABACDCDFDSGFGDA ABADFDSDAu 理解式摘要u 改写或重新组织原文内容形成最终23/52张家俊:文本自动摘要抽取式摘要u 三个重要模块u 句子重要性评估u 信息冗余句子去重复u 根据长度、字数等约束生成最终摘要24/52张家俊:文本自动摘要句子重要性评估u 启发式规则u 句子位置(越靠段首越重要)、词频、与标题相似度以及线索词(总之、总而言之)等学习方法u 句子分类u 最优化方法u 图模型方法u TextRank(PageRank的无向图模型)u HITS算法u25/52张家俊:文本自动摘要
7、学习方法26/52张家图模型方法u G=(V, E)u V:句子u E:句间关系PageRank算法:计算每个句子的重要性得分27/52张家俊:文本自动摘要图模型方法-TextRanku G=(V, E)u V:句子u E:句间关系𝑺 𝒖= 𝒗𝒂𝒅𝒋𝑾𝒖𝒗𝑺 𝒗𝒖冗余句子消除u 必要性u 多文档摘要中,不同文档通常包含非常相似的句子u 为了得到精简的摘要,需要消除冗余的句子u 主要方法u CSISu MM
8、R𝑀𝑀𝑅 𝑅, 𝐴= argmax 𝜆𝑆𝑐𝑜𝑟𝑒 𝑠𝑖𝑠𝑖𝑅𝐴1 𝜆max 𝑆𝑖𝑚 𝑠𝑖, 𝑠𝑗 𝑆𝑐𝑜𝑟𝑒 w
9、904;𝑗 𝑠𝑗𝐴29/52张家俊:文本自动摘要MMR算法30/52张家俊:文本自动摘要压缩式摘要模块:句子压缩uABACDCDFDSGFGDA ABADFDSDA31/52张家俊:文本自动摘要1.可视为树结构的精简问题32/52张家俊:文本自动摘要33/52张家俊:文本自动摘要34/52张家俊:文本自动摘要压缩式摘要模块:句子压缩u2.可视为01序列标注任务ABACDCDFDSGFGDA ABADFDSDA1 1 1 0 0 0 1 1 1 1 0 0 0 1 135/52张家俊:文本自动摘要理解式摘要u 改写或重新组织原文内容
10、形成基于AMR的方法AMR:Abstractive Meaning Representation张家俊:文本自动摘要理解式摘要u 基于谓词论元结构的理解式摘要思想:选择并重组概念与行为uu 选择:基于图的重要性打分+基于约束的整数线性37/52张家俊:文本自动摘要理解式摘要38/52张家俊:文本自动摘要理解式摘要Stanford端到端摘要方法n 哈佛大学(Harvard University)u Alexander M. Rush提出Seq2Seq摘要的思想u 牵头实现并开源了Seq2Seq代码OpenNMTn 斯坦福大学 (Stanford University)u 实现了目前最优的Seq2
11、Seq摘要模型u 包括copy机制和coverage机制u 40/52张家俊:文本自动摘要主要内容u 文本摘要概述u 文本摘要分类u 文本摘要方法u 文本摘要评价与评测41/52张家俊:文本自动摘要文本摘要评价u 自动评价u 给定人工参考摘要,评价自动摘要结果的质量,综合考虑内容的忠实度与行文的流畅度u 省时省力、一致性高、方法迭代更新u ROUGE:基于N-元组计算自动摘要与人工摘要的匹配率u BE:基于语义单元的ROUGE,语义单元由句法分析得到42/52张家俊:文本自动摘要文本摘要评价𝑅𝑂𝑈𝐺𝐸 Ү
12、73; 𝑠𝑢𝑚 𝑟𝑅 𝑛𝑔𝑟𝑎𝑚𝑟 𝑐𝑜𝑢𝑛𝑡𝑚𝑎𝑡𝑐𝑛 𝑔𝑟𝑎𝑚, 𝑠𝑢𝑚= 𝑐𝑜𝑢𝑛
13、𝑡 𝑛 𝑔𝑟𝑎𝑚𝑛𝑔𝑟𝑎𝑚𝑟𝑟𝑅43/52张家俊:文本自动摘要文本摘要评价u 人工评价u 人工评价自动摘要结果的质量u 可靠性高、性强u 内容的忠实度:金字塔方法u 行文的流畅度(可读性):1-544/52张家俊:文本自动摘要金字塔方法45/52张家俊:文本自动摘要A2:2016年美国大选,击败希拉里,当选第45任。B4:他赢得了第45任大选。C3:成为第45任。D1:20
14、16年的美国大选悬念迭起,最终有惊无险,赢得胜利。金字塔方法46/52张家俊:文本自动摘要SCU1:当选第45届A2:击败希拉里,当选第45任B4: 他赢得了第45届大选C3:成为第45任D1:有惊无险,赢得胜利SCU2:2016年美国举行总统大选A2: 2016年美国大选D1: 2016年的美国大选金字塔方法47/52张家俊:文本自动摘要文本摘要评测u DUC(Document Understanding Conference)2000- 2007u 由NIST组织u 评测任务:单文档、多文档、相关u TAC (Text Analysis Conference)2008-2011u 仍由NI
15、ST组织u 评测任务:更新式摘要、观点摘要、指导性摘要、自动摘要评价48/52张家俊:文本自动摘要主要内容u 文本摘要概述u 文本摘要分类u 文本摘要方法u 文本摘要评价与评测49/52张家俊:文本自动摘要参考文献1. Lexrank graph-based lexical centrality as salience in text summarization, 20042. A survey on automatic text summarization, 20073. Automatic summarizaiton, 20114. Improvingmulti-documentssumm
16、arizationbysentencecompression based on expanded constituent parse trees, 20145. Extractive summarization based on keyword profile and language m 20156. Toward abstractive summarization using semantic representations, 2015,50/52张家俊:文本自动摘要扩展阅读7. A new approache to improving multilingual summarization using a genetic algorithm, 20108. Using bilingual information for cross language document summarization, 20119. Abstractive Multi-Document Summarization via Phrase Selection and Merging, 201510. Rouge: A package for automatic evaluation of summaries, 200411. Alexander M Rush, Sumit Chop
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京航空航天大学《电动力学》2022-2023学年期末试卷
- 南京工业大学浦江学院《信号与系统》2021-2022学年第一学期期末试卷
- 南京工业大学浦江学院《设计语义与风格》2021-2022学年第一学期期末试卷
- 分数初步认识的说课稿
- 渠涵施工组织设计
- 《元次方程应用》说课稿
- 《下雨啦》说课稿
- 南京工业大学浦江学院《发动机原理》2023-2024学年第一学期期末试卷
- 租船合同范本(2篇)
- 纹身免责协议书(2篇)
- 2024年山东青岛城投金融控股集团有限公司招聘笔试参考题库含答案解析
- 工业机器人应用4-装配
- 中医外治治疗风湿病
- 美国实时总统大选报告
- 外贸业务与国际市场培训课件
- 信创医疗工作总结
- 教师教育教学质量提升方案
- 灭火器的规格与使用培训
- 2024《中央企业安全生产治本攻坚三年行动方案(2024-2026年)》
- 纪录片《园林》解说词
- 《民间文学导论》课件
评论
0/150
提交评论