自然语言处理导论 课件 第5章 预训练语言模型_第1页
自然语言处理导论 课件 第5章 预训练语言模型_第2页
自然语言处理导论 课件 第5章 预训练语言模型_第3页
自然语言处理导论 课件 第5章 预训练语言模型_第4页
自然语言处理导论 课件 第5章 预训练语言模型_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《自然语言处理导论》第5章预训练语言模型1.预训练语言模型概览2.预训练语言模型技术预训练语言模型概览词向量(Word

Embeddings)是自然语言处理(NLP)中的核心技术,即将文字转化为可计算的低维向量自然语言处理中的预训练词向量(word2vec,

Glove)等一般通过共现统计在自然语言文本中预训练获得预训练语言模型概览固定词向量出现在不同上下文中代表不同的语义自然语言处理中的预训练解决方案:上下文化(Contextualized)的词向量预训练语言模型概览现代的预训练语言模型在大规模无标数据进行训练,展现出在各类下游任务的强大迁移能力现代预训练语言模型基于特征的方法下游任务有标注数据测试数据模型精调模型预训练大规模无标注数据预训练语言模型概览2017之前使用预训练的词嵌入作为初始化模型本身没有经过预训练考虑如何将具体任务的上下文融入到具体的神经网络模型中两种预训练的范式现代自然语言处理所有的参数都从预训练初始化在下游任务或者通用指令上进行进一步精调具有强大的泛化能力未经过预训练经过预训练所有参数都经过预训练1.预训练语言模型概览2.预训练语言模型技术预训练语言模型技术首个预训练语言模型基础架构:双向LSTM模型,在10亿词数据上训练将各层的隐藏状态合并为上下文单词嵌入ELMo预训练语言模型技术前向建模:根据前k-1个词去计算第k个词的概率分布反向建模:根据k+1到N的词预测第k个词的概率分布将前向LSTM和反向LSTM结合进行联合训练ELMo预训练语言模型技术以LSTM为基座的ELMo取得了优秀的效果,但其特征提取能力仍远小于Transformer后续的模型几乎都是基于Transformer架构而构建Transformer预训练语言模型技术架构:编码器-解码器输入:文本的嵌入向量和位置编码模型:编码器和解码器由相同的块堆叠而成核心模块:自注意力机制Transformer预训练语言模型技术最早的以Transformer(Decoder)为基础架构的预训练模型预训练完成之后,在下游任务上进行微调模型:12层Transformer,隐藏层维度768,线性层维度3072训练语料:BookCorpus(7000本书)训练目标:自回归语言建模,即从左到右进行训练GPT预训练语言模型技术无监督预训练优化文本序列概率分布的最大似然估计标准的自回归语言建模有监督微调获取最后一层最后一个词的隐藏层输出将隐藏层输出送入全连接网络预测最终的标签GPT预训练语言模型技术GPT在自然语言推理任务上的实验结果GPTGPT在问答和推理任务上的实验结果预训练语言模型技术与GPT采用相同的架构,但拥有更大的参数在40GB的文本上进行训练在未见过的语言文本上取得了最好的困惑度表现越来越清晰的事实:更大的模型、更多的数据会带来更好的效果GPT-2预训练语言模型技术与GPT,GPT-2采用相同的架构,但拥有1750亿参数在许多零样本和少样本场景展现出了人类级别的自然语言理解和生成能力GPT-3预训练语言模型技术参数扩增的背后:ScalingLawGPT-3更大的计算量可以带来更低的预训练损失更大的计算量可以带来更好的下游表现效果预训练语言模型技术预训练语言模型最具代表性的工作,刷新13个自然语言处理任务的最高水平对于预训练语料,随机预测15%的词,双向建模其中80%的词会被替换成一个[MASK]特殊字符其中10%的词会被替换成另一个随机的词其中10%的词会保持不变,但依然需要预测BERT预训练语言模型技术BERT-base:12层,768维度隐层,12个注意力头,1.1亿参数BERT-large:24层,1024维度隐层,16个注意力头,3.4亿参数语料:BookCorpus(8亿词)、EnglishWikipedia(25亿词)训练:64块TPU,训练4天BERT预训练语言模型技术基础范式:预训练-微调以预训练的参数为初始化,在下游任务上进一步更新所有参数BERT预训练语言模型技术在多个经典自然语言处理任务上达到最好效果QQP:QuoraQuestionPairsQNLI:NaturalLanguageInferenceSST-2SentimentAnalysisCoLA:CorputofLinguisticAcceptability.....BERT预训练语言模型技术BERT的局限性无法很好地进行自然语言生成而生成任务具有更高的上限如今最流行的模型(ChatGPT、LLaMA)均是GPT架构BERT预训练语言模型技术XLNetPermutationLanguageModeling将自回归(Auto-regressive)和自编码(Auto-encoding)模型进行结合其他架构预训练语言模型技术Text-to-Text(T5)直接将所有任务统一建模成文本到文本的方式最大模型参数达到100亿采用Encoder-Decoder架构其他架构预训练语言模型技术预训练语言模型已经成为了现代自然语言处理的基础设施几乎所有的预训练语言模型都是用Transformer作为基础架构根据建模目标不同,预训练语言模型可以分为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论