版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
NLP中的Attention机制介绍李世杰复习Attention机制通用定义Attention
score的计算变体更多attention种类总结内容利用点积dot得到attentionscore利用softmax函数:attentionscores转化为概率分布按照上一步概率分布:计算encoder的hiddenstates的加权求和复习Attention机制通用定义Attention
score的计算变体更多attention种类总结内容Attention机制的一个更加通用的定义(课程里面的定义)给定一组向量集合values,以及一个向量query,attention机制是一种根据该query计算values的加权求和的机制。attention的重点就是这个集合values中的每个value的“权值”的计算方法。有时候也把这种attention的机制叫做query的输出关注了(或者说叫考虑到了)原文的不同部分。(Queryattendstothe
values)举例:seq2seq中,哪个是query,哪个是values?从定义来看Attention的感性认识The weightedsum
is
aselective
summaryoftheinformationcontainedinthevalues,wherethequery
determines
whichvalues
to
focuson.换句话说,attention机制也是一种根据一些其他向量表达(query)从向量表达集合(values)中获得特定向量表达(attention)的方法复习Attention机制通用定义Attention
score的计算变体更多attention种类总结内容针对attention向量计算方式变体SoftattentionHardattention“半软半硬”的attention(localattention)动态attention静态attention强制前向attentionSoftattentionSoftattention就是我们上面讲过的那种最常见的attention,是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布
Hardattention
Soft是给每个单词都赋予一个单词match概率,那么如果不这样做,直接从输入句子里面找到某个特定的单词,然后把目标句子单词和这个单词对齐,而其它输入句子中的单词硬性地认为对齐概率为0,这就是HardAttentionModel的思想。localattention(半软半硬attention)
在这个模型中,对于是时刻t的每一个目标词汇,模型首先产生一个对齐的位置pt(alignedposition),context
vector由编码器中一个集合的隐藏层状态计算得到,编码器中的隐藏层包含在窗口[pt-D,pt+D]中,D的大小通过经验选择。寻找pt并计算alpha的方式又大致分为两种:Local–m:假设对齐位置就是pt=t(线性对齐)然后计算窗口内的softmax,窗口外的alpha可以取0
Local–p:先通过一个函数预测pt在[0,S]之间,然后取一个类高斯分布乘以softmax。动态attention、静态attention、强制前向attention动态attention:就是softmaxattention静态attention:对输出句子共用一个St的attention就够了,一般用在Bilstm的首位hiddenstate输出拼接起来作为St(如图所示中的u)强制前向attention:要求在生成目标句子单词时,如果某个输入句子单词已经和输出单词对齐了,那么后面基本不太考虑再用它了针对Attention
score的计算方式变体已有的情况下,计算query的attention向量a(很多时候也称作上下文向量,contextvector)使用的公式为:点积attentionscore
(Basicdot-productattention):这个就是我们常见的attentionscore计算方式乘法attentionscore
(Multiplicativeattention):加法attentionscore(Additive
attention:复习Attention机制通用定义Attention
score的计算变体更多attention种类总结内容Selfattention思想:Selfattention也叫做intra-attention在没有任何额外信息的情况下,我们仍然可以通过允许句子使用selfattention机制来处理自己,从句子中提取关注信息。它在很多任务上都有十分出色的表现,比如阅读理解(Chengetal.,2016)、文本继承(textualentailment/Parikhetal.,2016)、自动文本摘要(Paulusetal.,2017)。特殊的attentionscore计算方式Selfattention计算方式1.以当前的隐藏状态去计算和前面的隐藏状态的得分2.以当前状态本身去计算得分,这种方式更常见,也更简单Selfattention计算方式针对第二种计算方式,其又有矩阵的变形,令矩阵H=[h1,h2,h3,h4……hn]∈nx2u表示句子的隐藏状态矩阵,每个隐藏状态为2u维。那么上面的公式矩阵化之后就是:Key-valueattentionKey-valueattention是将hi拆分成了两部分[key_i;value_i],然后使用的时候只针对key部分计算attention权重,然后加权求和的时候只使用value部分进行加权求和。公式如下,权重计算:另一种特殊的attentionscore计算方式Attentionisallyouneed中的multi-headattention部分不妨从一个向量出发Scaleddot-productattentionAttentionisallyouneed中的multi-headattent
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品质量持续改进培训课件
- 电子产品回收处理标准
- 单病种临床路径管理制度
- 智能小区物联网应用系统
- 《Excel数据获取与处理实战》 课件 陈青 第3、4章 数据的输入、工作表的格式化
- 溶剂泄露应急处置
- GMP基础知识培训
- 病从口入教案反思
- 胸腔闭式引流器的护理
- 城市娱乐设施建筑平房施工合同
- 乡村振兴战略项目经费绩效评价指标体系及分值表
- 构造柱工程施工技术交底
- 读《学校与社会明日之学校》有感
- 医院科室质量与安全管理小组工作记录本目录
- 断路器失灵保护及远跳详解
- 300字方格纸模板
- 草诀百韵歌原文及解释
- 钢网架防火涂料施工方案
- 肺癌的护理常规(PPT课件)
- 农村商业银行信贷业务发展规划-2019年文档
- 一汽大众供应商物流管理评价标准
评论
0/150
提交评论