版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
预训练模型发展介绍01预训练语言模型发展详述目录contents预训练语言模型发展第一部分预训练模型概念各预训练模型介绍预训练模型发展趋势预训练模型概念近年来,预训练模型(PTMs,Pre-trainedLanguageModels)的出现将自然语言处理带入了一个新的时代。所谓的语言模型就是建模一个句子存在的可能性,我们提到的PTMs指的是利用大量在人们生活中出现过的文本来训练,使模型在这些文本中,学习到每一个词或字出现的概率分布,以此来建模出符合这些文本分布的模型。语言模型的语料的标签可以通过它的上下文来构建,这就决定了人们几乎可以无限制地利用大规模的语料来训练语言模型,这些大规模的语料,使PTMs得以获得了强大的能力。预训练模型的基本思想是通过海量的无监督文本数据的训练,获得语言中通用性的文法、语义和知识,得到一个具有强大能力的base。要解决具体问题时,通过少量特定场景的语料,便可训练出一个可靠的模型。预训练模型概念预训练模型的发展可以追溯到word2vec和GLove这两种词向量训练模型,通过无监督训练得到的词向量,学习到了大量的语义信息。但这两模型都是静态表征,即同一个词在不同语义环境下的词向量是一样的,但是在语言中存在大量的多义词,静态表征不符合实际。因此,ELMo应用而生,ELMo可以根据不同的输入文本生成不同的词向量,实现动态表征。但其实,ELMo和word2vec都只是简单的做了预训练,对下游任务的模式,例如NER,MRC等并没有太大的影响。直到BERT和GPT的出现,因其极强的表征能力,彻底的改变了NLP的范式和下游任务的设计模式。预训练模型概念预训练模型出现的背景:
前面提到,词向量其实可以认为是预训练模型的一种。但因为word2vec等词向量模型的效果确实不够出色,对下游任务的影响有限。所以在BERT及GPT等重量级预训练模型登场之前,预训练模型并没有得到重视,业内的主要注意力还是在如何改变各种任务的模型结构,提升各种任务的效果上。直到BERT和GPT的出现,因其效果惊人,才真正让预训练这种模式得到承认和发展。预训练模型可以解决什么问题:
预训练模型最主要的好处在于,可以通过大量无监督语料,让预训练模型习得大量词汇、语法及语义知识。对具体的任务和场景,只需通过特定的形式和语料进行少量的FineTune即可获得不错的效果。着从根本上改变了NLP的研究和开发范式。词向量模型我们前面讲过词向量模型word2vec。word2vec的目标是学习词向量,而且词向量在语义上要支持一些”线性的语义运算“,如”皇帝-皇后=男-女“(忽略武则天)。通过下面两种任务,word2vec能够高效的学习到大量的语义信息,得到词汇的语义表征。ELMo模型前面提到过,word2vec这些词向量模型属于静态表征,不能实现多义词的动态表征。ELMo的出现就是为了解决这个问题。ELMo源于《DeepContextualizedWordRepresentations》这篇论文,是自华盛顿大学的工作,发表在2018的NAACL会议上,并获得了最佳论文。他们认为一个预训练的词表示应该能够包含丰富的句法和语义信息,并且能够对多义词进行建模。而传统的词向量(例如word2vec)是上下文无关的。例如下面"apple"的例子,这两个"apple"根据上下文意思是不同的,但是在word2vec中,只有apple一个词向量,无法对一词多义进行建模。ELMo模型所以他们利用语言模型来获得一个上下文相关的预训练表示,称为ELMo,并在6个NLP任务上获得了提升。在ELMo中,他们使用的是一个双向的LSTM语言模型,由一个前向和一个后向语言模型构成,目标函数就是取这两个方向语言模型的最大似然。ELMo模型在预训练好这个语言模型之后,ELMo就是根据右面的公式来用作词表示,其实就是把这个双向语言模型的每一中间层进行一个求和。最简单的也可以使用最高层的表示来作为ELMo。然后在进行有监督的NLP任务时,可以将ELMo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。总结一下,不像传统的词向量,每一个词只对应一个词向量,ELMo利用预训练好的双向语言模型,然后根据具体输入从该语言模型中可以得到上下文依赖的当前词表示(对于不同上下文的同一个词的表示是不一样的),再当成特征加入到具体的NLP有监督模型里。GPT模型GPT模型出自《ImprovingLanguageUnderstandingbyGenerativePre-Training》,是OpenAI团队操刀之作,到目前更新了3个版本,是预训练模型的利器,特别是在自然语言生成方面,表现出众。相比于ELMO,其差别主要在于:1.模型更大,表征能力更强。GPT引
入了transformer作为特征抽取器,
而不是LSTM。2.GPT训练任务不同,采用单向的语
言模型。BERT《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》源自google,这篇论文把预训练语言表示方法分为了基于特征的方法(代表ELMo)和基于微调的方法(代表OpenAIGPT)。而目前这两种方法在预训练时都是使用单向的语言模型来学习语言表示。这篇论文中,作者们证明了使用双向的预训练效果更好。BERT其实这篇论文方法的整体框架和GPT类似,是进一步的发展。具体的,BERT是使用Transformer的编码器来作为语言模型,在语言模型预训练的时候,提出了两个新的目标任务(即遮蔽语言模型MLM和预测下一个句子的任务),最后在11个NLP任务上取得了SOTA。BERT在语言模型上,BERT使用的是Transformer编码器,设计了一个小一点Base结构和一个更大的Large网络结构。对比一下三种语言模型结构,BERT使用的是Transformer编码器,由于self-attention机制,所以模型上下层直接全部互相连接的。而OpenAIGPT使用的是Transformer解码器,它是一个需要从左到右的受限制的Transformer,而ELMo使用的是双向LSTM,虽然是双向的,但是也只是在两个单向的LSTM的最高层进行简单的拼接。所以作者们认为只有BERT是真正在模型所有层中是双向的。预训练模型发展趋势在GPT和BERT之后也出现了一些改进模型,例如RoBERTa和ALBERT。为了更好地从未标记的数据中获取知识,除了RoBERTa和ALBERT之外,近年来还提出了各种PTM。一些工作改进了模型架构并探索了新的预训练任务,例如XLNet、MASS、SpanBERT和ELECTRA。预训练模型发展趋势从BERT的应用来看,已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数NLP应用领域快速应用,并在部分应用领域取得了突破性的效果提升,而且各大互联网公司都已开始普及应用BERT模型。从预训练模型改进的角度看,最近一年多也陆续出现了大量效果突出的改进模型,比如XLNet、SpanBert、RoBERTa、ALBert、BART等一系列改进。在众多的BERT预训练改进模型中,RoBERTa可能是目前为止最简单有效的,它仅仅通过增加更大规模的高质量数据、延长训练时间以及增大BatchSize等简单手段,就能将预训练模型效果推到一个很高的精度,效果超过了很多其它的改进模型。这说明了:目前BERT采用的Transformer结构,从模型复杂度来说是足够复杂的,表达能力也足够强大,我们仅仅通过增加高质量数据、增加训练时间,依然能够极大幅度提升BERT的性能。相对提出新的复杂模型来说,这种改进更加简洁有效。预训练模型发展趋势从模型结构来说,以GoogleT5、MASS、UniLM以及BART模型为代表的预训练网络结构代表了目前为止较好的模型结构,相信以后BERT模型的结构会逐步收敛到这个结构上来。它们都采取基于Transformer的Encoder-Decoder网络结构来进行模型预训练:Encoder采取双向Transformer,Decoder则往往采取从左到右的序列生成结构Transformer。这样做的好处是:它能够同时兼顾比如文本分类等判别类任务,也能够解决NLP中另外一大类任务,即生成类任务。这样就使得BERT的应用范围更加广泛。预训练模型发展趋势从工程实用化角度看,因为BERT的基础结构采用了12层或者24层的Transformer,所以存在参数量大计算速度慢的问题,而真正要想使模型大规模落地应用,如何将预训练模型做小做快是关键所在。目前在这方面的模型改进有几种思路:一种思路以ALBert的做法为代表。它一方面将输入单词Embedding参数矩阵进行矩阵分解,一方面将Transformer各层参数共享。通过结合两者来大量减少参数,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023届新高考化学一轮课时跟踪练第15讲元素周期表与元素周期律
- 惠沂通供应链合同范本
- 花园种植合同范本
- 社会组织参与艾滋病汇报
- 网络安全演练
- 2023年中国联通内蒙古各分公司社会招聘工作人员考试真题
- 外资投资合同范本
- 新西兰雇佣合同范本
- 2023年宁波余姚市市属企业招聘考试真题
- 2023年齐齐哈尔市总工会所属事业单位招聘笔试真题
- 高三班主任经验交流课件
- 拔罐疗法-课件
- 《赤壁赋》《登泰山记》群文教学课件-统编版高中语文必修上册
- 园长课程领导力课件
- 半导体前道制造工艺流程课件
- 《康复辅助器具技术》复习考试题库(附答案)
- 臀位分娩课件-
- 大学生节能减排科技竞赛作品申报书
- 幼儿园大班剪纸《窗花》课件
- 2022中国大学排名Excel
- CNAS实验室评审不符合项整改报告
评论
0/150
提交评论