自动文摘技术点概要_第1页
自动文摘技术点概要_第2页
自动文摘技术点概要_第3页
自动文摘技术点概要_第4页
自动文摘技术点概要_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、自动文摘的技术点概要 指导老师 姜老师 报告人 丁晓菲 四种主要的方法 自动文摘 基于抽取的自 动文摘 基于统计的自 动文摘 基于图模型的 自动文摘 基于抽象的自 动文摘 基于理解的自 动文摘 基于seq2seq 的自动文摘 目录 contents 概述 part one 基于统计 part two 基于图模型 part three 基于seq2seq part five 展望 part six 基于理解 part four 概述 part one part one 概述 海量文本数据 人该如何去获得有 价值的信息? part one 概述 part one 概述 自动文摘 自动文摘就是利用计

2、算机自动地从原始文献中提取文摘。文 摘是准确全面地反映某一文献中心内容的简洁连贯的短文。 part one 概述 基于统计 part two 抽取式的自动文摘抽取式的自动文摘 part two 基于统计 。 计算词 频 tf-idf 构建句 子向量 word2vec 计算相 似性 weighted overlap 生成摘 要 part two 基于统计 词频 根据句子中有效词的个数可以计算句子 的权值 权值按其所含代表性“词串”的数量来 计算 共现频率最高 标题 标题是作者给出的提示文章内容的短语, 借助停用词词表(stoplist),在标题或 小标题中剔除功能词或只具有一般意义 的名词,剩下

3、的词和原文内容往往有紧 密的联系,可以作为有效词。 位置 段落的论题是段落首句的概率为85%,是 段落末句的概率为7%。因此,有必要提 高处于特殊位置的句子的权值。 句法结构 句式与句子的重要性之间存在着某种联 系,比如文摘中的句子大多是陈述句, 而疑问句、感叹句等则不宜进入文摘 线索词 取正值的褒义词(bonus words),取负指 的贬义词(stigma words),取零值的无 效词(null words)。句子的权值就等于 句中每个线索词的权值之和 指示性短语 基于图模型 part three 抽取式的自动抽取式的自动文摘文摘 part three 基于图模型 part three

4、基于图模型 pagerank part three 基于图模型 part three 基于图模型 基于抽取的自动文摘 textrank 提取摘要 part three 基于图模型 textrank part three 基于图模型 提取关键字 每个单词做为pagerank中的一个节点,设定窗口大小为k w1, w2, ., wk 、 w2, w3, .,wk+1 、 w3, w4, .,wk+2 等都是一个窗口 在一个窗口中的任两个单词对应的节点之间存在一个无 向无权的边 基于上面构成图,可以计算出每个单词节点的重要性。 最重要的若干单词可以作为关键词 part three 基于图模型 你们

5、帅气很 part three 基于图模型 提取关键句 将每个句子看成图中的一个节点,若两个句子之间有相 似性,认为对应的两个节点之间有一个无向有权边,权 值是相似度 通过pagerank算法计算得到的重要性最高的若干句子可 以当作摘要 基于理解 part four 抽象抽象式式的自动文摘的自动文摘 part four 基于理解 模拟人脑? 分析? part four 基于理解 。 语法分析 语义分析 语用分析和信息提取 文本生成 基于seq2seq part five 抽象式的自动抽象式的自动文摘文摘 part five 基于seq2seq 基于抽象的自动文摘 seq2seq模型 attent

6、ion机制 part five 基于seq2seq rnn part five 基于seq2seq seq2seq模型 part five 基于seq2seq 编码(encode) 在seq2seq中,各类长度不同的输入序列x将会经由循环神经 网络(recurrent neural network,rnn)构建的编码器编译为 语境向量c。向量c通常为rnn中的最后一个隐节点(h,hidden state),或是多个隐节点的加权总和。 part five 基于seq2seq 解码(decode) 编码完成之后,我们的语境向量c将会进入一个rnn解码器中 进行解译。简单来说,解译的过程可以被理解为

7、运用贪心算法 (一种局部最优解算法,即选取一种度量标准,默认在当前状 态下进行最好的选择)来返回对应概率最大的词汇,或是通过 集束搜索(beam search,一种启发式搜索算法,可以基于设 备性能给予时间允许内的最优解)在序列输出前检索大量的词 汇,从而得到最优的选择。 part five 基于seq2seq part five 基于seq2seq attention机制 attention机制是(非常)松散地基于人类的视觉注意机制。就 是按照“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”感 知图像的周边区域的模式,然后不断地调整聚焦点。 part five 基于seq2seq part five 基于seq2seq 一个简单的例子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论