




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汇报人:100871单击此处添加文本11
无监督深度学习目录
|
CONTENTS概述1基于掩码的任务2基于语言模型的任务3基于时序的任务4基于对比学习的任务5经典无监督深度学习模型6概述111.1概述无监督学习特点深度学习的进展依赖大量标记数据,但无监督学习兴起,通过无标签数据挖掘潜在信息,降低人力成本,提升模型泛化性。数据无标签,但内部结构丰富,无明确训练目标,无法量化效果,但能增强模型的健壮性和泛化性。无监督学习任务分类包括基于掩码、语言模型、时序和对比学习的任务,通过上述不同方式,程序无标签数据处理成输入输出对,揭示数据内在规律。11.2基于掩码的任务211.2基于掩码的任务掩码模型在无监督学习中的使用最为广泛,适用于文本和图片数据。经过这两种数据训练的方式分别称为掩码语言建模任务(MaskedLanguageModeling,MLM)和掩码图片建模任务(MaskedImageModeling,MIM)掩码语言建模任务:对文本数据进行部分遮掩,模型通过上下文学习还原被掩码信息,训练模型理解语言结构。掩码图片建模任务:图片数据的某部分被掩码,模型需重建原图像块,学习图片的内在特征,适用于图像处理任务。掩码模型应用通过特殊标记替换数据某部分,但整体信息不受影响,深度学习能推导被遮掩内容,学习数据自身蕴含的内部特征和结构信息,这种模型称为掩码模型(MaskedModel)。掩码任务原理能够从大规模数据中自动学习,而无需人工标注数据。通过预训练和微调的方式,可以适用于各种下游任务,结果令人瞩目。掩码模型优势基于语言模型的任务311.3基于语言模型的任务通过学习大量文本数据,预测给定上下文的下一个单词或字符的概率分布。一个语言模型通常构建为字符串s的概率分布p(s),如式,式中p(s)反映字符串s作为一个句子出现的频率,wi表示字符串s中第i个单词。语言模型概念使用深度神经网络,以大量无标签文本为训练数据,根据给定的上下文序列预测下一个单词或字符,并通过最小化预测与实际目标的差异来优化模型网络参数,这个过程被称为自回归(AutoRegression)。模型结构与训练语言模型对于文本数据的理解能力和泛化能力不如掩码语言模型,但更擅长于文本生成任务,给定文本起始部分,能自动生成连贯的后续文本。任务类型差异基于时序的任务411.4基于时序的任务下句预测任务(NextSentencePrediction,NSP)和语句顺序预测(Sentence-OrderPrediction,SOP)是两种常见的时序任务,都是判断语句对是否为前后句,区别主要体现在负样例的构建。下句预测任务是随机将文档中的两个作为句子对构建负样例,而语句顺序预测任务是将相邻的两个句子颠倒顺序构建负样例。相比之下,语句顺序预测任务更为复杂,能够学习到更多语句间的语义关系。两种时序任务是以学习数据的时序信息为目的的判别任务,判断数据对是否相邻或前后顺序正确,常用于文本数据。时序任务定义基于对比学习的任务5学习样本间相似性,拉近相似,推远不相似,构建数据间距离关系的无监督学习方法,是一种表示学习。对比学习概念利用数据差异训练,设计损失函数使相似样本接近,不相似样本远离,形成表示或嵌入空间。基本思想广泛应用于文本、图片、音频等多种数据形式,在多模态数据中也有优异表现,通过对比不同模态信息学习对应关系。应用领域无需标注数据,适用于大规模无标签场景,提取的特征表示反映样本信息,可用于多种识别任务。优势11.5基于对比学习的任务需自动构建正负样本对,设计区分相似不相似的损失函数。挑战经典无监督深度学习模型611.6经典无监督深度学习模型BERT模型预训练语言模型,采用掩码语言建模和下句预测任务,学习上下文语义表示。BEIT模型利用双向编码器从图像中提取特征,通过掩码图片建模任务训练,适合大规模无标签数据的预训练。掩码自编码器扩展自编码器,通过掩码任务学习数据恢复,增强生成与表征能力。GPT模型GPT系列单向语言模型,通过自回归方式生成文本,GPT-3展现上下文学习能力。SimCLR模型采用对比学习方法,通过数据增强形成相似图片,最小化同类间距离。11.6.1掩码自编码器泛指经过掩码任务训练的神经网络模型,本质上是一种解码器。(公式)通过启发式的规则对输入数据进行掩码或者破坏,并训练网络模型对掩码后的数据进行还原,在文本生成、图像生成以及表征学习等各种领域均具有出色表现。掩码自编码器也称自动编码器,功能是对输入信息进行表征学习,主要目的在于对高维数据进行降维,同时保留数据的主要特征。由编码器和解码器两个主要部分组成,编码器用于将输入编码,而解码器使用编码重构输入。(公式)x与y与足够相似,则隐藏层很好地压缩了输入内容,同时能保留输入信息,那么编码器的输出h即特征向量可以代替输入数据,完成后续内容的研究。自编码器11.6.2BERT模型由Transformer编码器网络构成,并通过大规模语料数据进行无监督预训练训练,其本质是为了获取文字的语义向量表示。在预训练阶段中,BERT模型主要同时训练两个任务:掩藏语言建模(MLM)任务和下句预测(NSP)任务。BERT模型的训练过程谷歌在2018年推出了BERT模型,这是一个基于大规模语料预训练的无监督预训练语言模型,通过“预训练-微调”两阶段方式在自然语言处理任务上取得最佳效果。BERT模型的推出在微调阶段,将迁移至私有数据域上进行微调,以提升当前任务上的效果,使得BERT模型能在文本分类、命名实体识别、语义关系抽取等各项自然语言处理任务中发挥出色表现。BERT模型的应用与微调RoBERTa
与
ALBERT隐藏层单元数量增加ALBERT通过将隐藏层的单元数量翻倍,引入词嵌入的因式分解和交叉层的参数共享技术,有效减少了模型的参数量,同时保持了性能。0102去除下一句预测任务ALBERT去除了BERT中的下一句预测任务(NSP),转而使用语句顺序预测任务(SOP),简化了训练过程并提高了模型的性能。RoBERTa优化ALBERT精简RoBERTa模型在BERT的基础上进行了关键优化,去除了下一句预测任务(NSP)去除下一句预测任务01、通过采用动态掩码策略训练掩码语言建模任务(MLM),RoBERTa模型能够随机掩盖输入文本中的不同部分动态掩码策略的应用02、这些优化措施共同作用,显著提高了RoBERTa模型处理文本数据的能力,使其在多项自然语言处理任务中表现出色,超越了原始的BERT模型。性能提升的显著性03、11.6.3GPT模型将归一化层放到了每一层Transformer网络的最前端,而GPT模型的归一化层在每一层Transformer网络的最后端,同时在最后一层Transformer网络之后增加了一层归一化层。将语言视为多任务学习者,将所有具体的任务都构建为文本的形式,GPT-2模型通过自回归的方式生成文本,进而完成具体的任务。GPT-2模型是由OpenAI在2018年提出的基于Transformer解码器的单向预训练语言模型,不含有编码器,可以视为带有单向掩码的Transformer编码器网络。其无监督训练方式采用标准的语言模型训练方式,给定文本序列(T1,T2,T3,…,Tn-1),预测目标Tn,并最大化似然函数,可以直接使用自回归的方式生成文本。GPT模型GPT-3模型参数量达到了1750亿,在Transformer网络中加入了稀疏注意力机制。因为其具有足够大的模型规模,使得GPT-3模型出现了涌现能力,能够实现上下文学习,在多数任务中达到了最好成绩。11.6.4BEIT模型在图像分类和语义分割方面的实验结果表明,与以前的无监督方法相比,BEIT模型获得了更出色的结果。同时,BEIT对大模型也更有帮助,特别是当标记数据不足以对大模型进行有监督预训练时,BEIT的无监督训练方法能够更充分的利用大规模无标签数据。模型成果类似于BERT模型,二者区别在于BERT模型使用文本数据训练,而BEIT模型使用图片数据训练。BEIT模型同样由Transformer编码器构成,采用掩码图片建模任务(MIM)训练,随机掩码一定比例的图像块,然后预测与掩码图像块对应的视觉token。模型原理11.6.5SimCLR模型SimCLR通过无监督学习到的图片表示,在各种具体任务中的效果能够媲美有监督的训练。不仅可以使用图片数据,也可以使用文本数据。模型优势对比学习框架,用来学习图片数据的表示。SimCLR通过最小化同类之间的距离占总距离的比例,实现“同类相吸、异类互斥”。模型原理本章小结本章介绍了深度学习中的无监督学习,无监督学习是一种不依赖于标注标签的训练方式,其主要目的是训练网络模型学习无标签数据的自有特征。根据所学习数据特征的不同,本章将无监督学习划分为四种训练任务,具体而言,基于掩码的任务学习数据的上下文特征,基于语言模型的任务学习文本数据的概率建模,基于时序的任务学习数据的逻辑特征,基于对比学习的任务学习数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 育婴师知识更新试题及答案
- 激光技术的市场推广策略试题及答案
- 卫生管理考试常识知识试题及答案
- 光电工程师证书考试的知识整合与构思技巧试题及答案
- 王牌驾校考试题及答案
- 一个有意义的建军节
- 校团委考试试题及答案
- 卫生管理领域证书考试的必考试题及答案
- 激光技术工程师能力评估要点试题及答案
- 药剂学核心概念试题及答案
- 2025年医保知识考试题库:医保定点医疗机构管理制度要点试题
- 2025届陕西省高考适应性检测(三)物理试题+答案
- 2025工厂职工安全培训考试试题及答案可打印
- 儿童寓言故事-乌鸦喝水
- 2025年河南工业和信息化职业学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 热力管网安全风险评估-全面剖析
- 人道主义补偿协议书
- 2025年北京市顺义区高考英语一模试卷
- 2025年03月国家药品监督管理局医疗器械技术审评中心合同制人员公开招聘2人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025-2030中国实验室FTIR光谱仪行业市场发展趋势与前景展望战略研究报告
- 福建省漳州市医院招聘工作人员笔试真题2024
评论
0/150
提交评论