版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序列生成模型《神经网络与深度学习》2025序列数据在深度学习的应用中,有很多数据是以序列的形式存在,比如声音、语言、视频、DNA序列或者其它的时序数据等。序列数据的潜在规律以自然语言为例,后一个句子在人脑的语义整合时需要更多的处理时间,更不符合自然语言规则。规则是什么?语言模型自然语言理解→一个句子的可能性/合理性!在报那猫告做只那只猫在作报告!那个人在作报告!一切都是概率!序列概率模型
序列概率模型
序列概率模型
序列概率模型
自回归生成模型在这种序列模型方式中,每一步都需要将前面的输出作为当前步的输入,是一种自回归(autoregressive)的方式。自回归生成模型(AutoregressiveGenerativeModel)序列生成自回归生成模型(AutoregressiveGenerativeModel)非自回归生成模型同时生成所有词序列生成机习器学<eos>$自回归的方式可以生成一个无限长度的序列。为了避免这种情况,通常会设置一个特殊的符号“<eos>”来表示序列的结束。在训练时,每个序列样本的结尾都加上符号“<eos>”。在测试时,一旦生成了符号“<eos>”,就中止生成过程。生成最可能序列当使用自回归模型生成一个最可能的序列时,生成过程是一种从左到右的贪婪式搜索过程。在每一步都生成最可能的词。这种贪婪式的搜索方式是次优的,生成的序列并不保证是全局最优的。束搜索一种常用的减少搜索错误的启发式方法是束搜索(BeamSearch)。在每一步的生成中,生成K个最可能的前缀序列,其中K为束的大小(BeamSize),是一个超参数。N元统计模型平滑技术
N元模型的一个主要问题是数据稀疏问题。数据稀疏问题的一种解决方法是平滑技术(Smoothing),即给一些没有出现的词组合赋予一定先验概率。平滑技术是N元模型中的一项必不可少的技术,比如加法平滑的计算公式为:δ=1时,称为加1平滑。深度序列模型深度序列模型一般可以分为三个部分:嵌入层、特征层、输出层。嵌入层词嵌入(WordEmbeddings)https://indico.io/blog/visualizing-with-t-sne/上海北京高兴难过特征层特征层可以通过不同类型的神经网络来实现,比如前馈神经网络和循环神经网络。常见的网络类型有以下三种:简单平均前馈神经网络循环神经网络特征层:简单平均历史信息的平均特征层:前馈神经网络特征层:循环网络前馈网络模型和循环网络模型的不同之处在于循环神经网络利用隐藏状态来记录以前所有时刻的信息,而前馈神经网络只能接受前n−1个时刻的信息。输出层输出层为一般使用softmax分类器,接受历史信息的向量表示,输出为词表中每个词的后验概率。评价方法困惑度困惑度(Perplexity)是信息论的一个概念,可以用来衡量一个分布的不确定性。给定一个测试文本集合,一个好的序列生成模型应该使得测试集合中的句子的联合概率尽可能高。困惑度可以衡量模型分布与样本经验分布之间的契合程度。困惑度越低则两个分布越接近。困惑度BLEUBLEU(BilingualEvaluationUnderstudy)是衡量模型生成序列和参考序列之间的N元词组(N-Gram)的重合度,最早用来评价机器翻译模型的质量,目前也广泛应用在各种序列生成任务中。BLEUROUGEROUGE(Recall-OrientedUnderstudyforGistingEvaluation)最早应用于文本摘要领域。和BLEU类似,但ROUGE计算的是召回率(Recall)。序列到序列模型序列到序列模型序列到序列模型基于循环神经网络的序列到序列模型基于前馈神经网络的序列到序列模型基于注意力的序列到序列模型基于卷积神经网络的序列到序列模型基于自注意力的序列到序列模型回顾:注意力模型
回顾:自注意力基于自注意力的全连接神经网络
也可以看作是一种全连接的图神经网络回顾:自注意力示例图片来源:http://fuyw.top/NLP_02_QANet/QKV模式(Query-Key-Value)图片来源:http://jalammar.github.io/illustrated-transformer/ThinksMachinesThinksMachinesThinksMachines多头(multi-head)自注意力模型图片来源:http://jalammar.github.io/illustrated-transformer/TransformerTransformer基于Transformer的序列到序列模型其它应用文本摘要/2017/04/16/taming-rnns-for-better-summarization.html文本摘要/2017/04/16/taming-rnns-for-better-summarization.html对话LiJ,MonroeW,Ritter
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 五年级数学(小数除法)计算题专项练习及答案汇编
- 活动二 无土栽培一种植物说课稿-2024-2025学年北师大版生物七年级上册
- 全国清华版信息技术小学四年级上册新授课 第18课 信息安全-计算机病毒及防治 说课稿
- 浙教版高中信息技术选2《多媒体技术应用》说课稿:3.5遮罩动画应用001
- 沪科版 信息技术 必修一 1.2.2 信息技术的发展 说课稿
- 青春力量未来辉煌
- 全国人教版初中信息技术七年级上册第一单元第4课一、《操作要点总结》说课稿
- 热情澎湃青春奋斗
- 2024版数据采集与维护服务协议标准格式版B版
- 学院元旦晚会节目单课件
- 2025年正规的离婚协议书
- 2025中国地震应急搜救中心公开招聘应届毕业生5人高频重点提升(共500题)附带答案详解
- 部编版八年级初二语文上册第六单元《写作表达要得体》说课稿
- 公共卫生管理制度(3篇)
- 政治-2025年八省适应性联考模拟演练考试暨2025年四川省新高考教研联盟高三年级统一监测试题和答案
- 2024年中国医药研发蓝皮书
- 坍塌、垮塌事故专项应急预案(3篇)
- 2024年融媒体中心事业单位考试工作人员另选录用55人内部选题库及参考答案(研优卷)
- 陕西省安康市2023-2024学年高一上学期期末考试 生物 含解析
- WPS Office办公软件应用教学教案
- 安徽省合肥中学2025届高三第一次模拟考试数学试卷含解析
评论
0/150
提交评论