2024预训练模型自然语言处理新模式_第1页
2024预训练模型自然语言处理新模式_第2页
2024预训练模型自然语言处理新模式_第3页
2024预训练模型自然语言处理新模式_第4页
2024预训练模型自然语言处理新模式_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预训练模型自然语言处理的新范式预训练模型预训练模型PAGEPAGE2数据标注 模型训练生文本 标注数据 模自监督学习 精调Self-supervisedLearning

Fine-tuning辅助任务标注数据

预训练Pre-training

预训练模型大纲大纲PAGEPAGE3传统词向量预训练上下文相关词向量NLP中的预训练模型预训练模型的应用预训练模型的分析预训练模型的挑战传统词向量预训练上下文相关词向量NLP中的预训练模型预训练模型的应用预训练模型的分析预训练模型的挑战什么是词向量?什么是词向量?PAGEPAGE5词的一种机内表示形式,便于计算传统使用one-hot词向量表示词高维、稀疏、离散导致严重的数据稀疏问题所有向量都是正交的starstarmoonsim(star,moon)=0词袋模型(BagofWordsModel)PAGEPAGE6传统解决方案增加额外的特征词性特征:名词、动词、形容词前后缀特征:re-、-tion、-er语义词典、HowNet等如词的上位信息表示语义类别需要解决一词多义问题收录的词不全且更新慢词聚类特征如BrownClusteringBrownetal.,CL1992)词的分布语义假设词的分布语义假设PAGEPAGE7分布语义假设(distributionalsemantichypothesis)词的含义可由其上下文词的分布进行表示shallknowawordbythecompanyitkeeps--Firth1957词的分布(Distributional)表示词的分布(Distributional)表示PAGEPAGE8分布词向量shinningbrighttreesdarklookmoon384522712语义相似度通过计算向量相似度获得cucumberstarmoon仍然存在高维、稀疏、离散的问题分布表示的优化及优缺点分布表示的优化及优缺点PAGEPAGE9高维、稀疏、离散低维、稠密、连续加权TF-IDFPMI(PointwiseMutualInformation)降维SingularDecomposition(SVD)LatentDirichletAllocation(LDA)优缺点优点容易实现,可解释性强缺点训练速度慢,增加新语料库困难不易扩展到短语、句子表示分布式(Distributed)词表示分布式(Distributed)词表示PAGEPAGE10使用低维、稠密、连续的向量表示词通过“有指导”的方法直接学习词向量也称词嵌入Embedding)发展历程LSA

NNLM

SENNA

Word2vec(Mikolovetal.,2013)LDA

HLBL

RNNLM

GloVe(Penningtonetal.,2014)神经网络语言模型(NNLM)神经网络语言模型(NNLM)PAGEPAGE11NeuralNetworkLanguageModels(Bengioetal.,JMLR2003)根据前n-1个词预测第n个词(语言模型)模型结构为前向神经网络通过查表,获得词的向量表示Embeddingse(we(wt-1)...

hpt=(t=icnx)softmax.........softmax.........tanh......Tablelook-upInEe(wt-2)......sharedparametersacrosswordsMatrixE词向量表示

Indexforwt-2

Indexforwt-1SENNASENNASemantic/syntacticExtractionusingaNeuralNetworkArchitectureNaturalLanguageProcessing(Almost)Scratch(Collobertetal.,JMLR2011)“换词”的思想随机替换掉该词构成负例优化目标

catsitsonamatcatsitsHarbinamatscore(catsitsonamat)>score(catsitsHarbinamat)score的计算方式cat sits on a mat训练速度慢,在当年的硬件条件下需要训练1个月 12Word2vecWord2vec/archive/p/word2vec/(Mikolovetal.,ICLR2013)CBOW(Continuous周围词向量加和预测中间的词Skip-Gram中间词预测周围词训练速度快可利用大规模数据弥补了模型能力的不足13词向量的应用词向量的应用 算 全 统 14大纲大纲PAGEPAGE15传统词向量预训练上下文相关词向量NLP中的预训练模型预训练模型的应用预训练模型的分析预训练模型的挑战一词多义现象一词多义现象PAGEPAGE16以上所有工作都假设一个词由唯一的词向量表示无法处理一词多义现象 土

我是谁?我喜欢吃土豆我刚刚在土豆我喜欢吃土豆我刚刚在土豆看视频”信息混乱 ”信息混乱

爱奇艺“上下文

如何获得词义信息?红薯马铃薯土豆#1爱奇艺红薯马铃薯土豆#1爱奇艺优酷酷我喜欢吃土豆#2我刚刚在土豆#1看视频 我喜欢吃土豆#2我刚刚在土豆#1看视频基于双语的词义向量表示基于双语的词义向量表示subdueuniformoverpowersubjugatevestment制服…制服,征服或控制对手…subduesubdueuniformoverpowersubjugatevestment制服…制服,征服或控制对手…subdue,conquerorcontroltheopponent身穿该厂制服的工人Sheoverpoweredtheburglars她制服了窃贼Sheoverpoweredtheburglars在教堂,他们身穿牧师的制服TheyworetheirpriestlyvestmentinChurch双语平行数据我喜欢吃土豆I love eatingpotatoes我刚刚在土豆看视频Iwatchedvideoson

…制服#1…制服#1,征服或控制对手身穿该厂制服#2的工人她制服#1了窃贼在教堂,他们身穿牧师的制服#2词义标注数据

翻译词抽取制服#1(clothes)uniform制服#1(clothes)uniformvestmentsubduesubjugate制服#2(defeat)overpower2.聚类制服#1[0.12,0.26,…,0.09]制服#1[0.12,0.26,…,0.09]制服#2[−0.92,−0.70,…,0.4]

词义向量表示 17CoVeCoVePAGEPAGE18LearnedinContextualized(McCannetal.,arXiv:1708.00107)Context预训练NMT模型将Encoder作为目标任务的额外特征Task-specificModelTask-specificModelTranslationEncoderDecoderStaticEmbeddingsPAGEPAGE19DeepContextualizedRepresentationsetal.,NAACL2018)ELMo:EmbeddingsfromLanguageModels使用字符的CNN表示词分别训练从左至右和从右至左的语言模型 使用语言模型的输出作为词向量特征语言模型训练数据接近“无限”

ForwardLSTM

BackwardLSTMELMoELMoChar-CNNCharacterEmbeddings基于ELMo的应用基于ELMo的应用PAGEPAGE20(Cheetal.,CoNLL2018)FormFormSumW2VCharELMohttp://ltp.ai/…分类CoNLL2018评测CoNLL2018评测/conll18/MultilingualParsingfromRawtoUniversalDependencies包括分句、分词、词性标注、依存句法分析任务数据:57种语言、82个树库技术方案ELMo、集成学习、多树库融合哈工大获得第1名,高出第2名2.5%多国语ELMo开源/HIT-21ELMo为什么有效?ELMo为什么有效?Liuetal.,2019)

ELMo带来的性能提升与未登录词比例正相关76登录词

未登录词+ELMo

未登录词的可视化22大纲大纲PAGEPAGE23传统词向量预训练上下文相关词向量NLP中的预训练模型预训练模型的应用预训练模型的分析预训练模型的挑战GPTGPTPAGEPAGE24ImprovingLanguageUnderstandingbyGenerative(Radfordetal.,2018)GPT:GenerativePretrained使用12层的作为Encoder预训练单向语言模型在目标任务上精调(Fine-tuning)模型++++++unidirectionalTransformerWordEmbeddingsPositionEmbeddingsPAGEPAGE25BERTBERTPre-trainingDeepBidirectionalforLanguageUnderstanding(Devlinetal.,NAACL2019)BidirectionalEncoderRepresentationsfrom+++++++++bidirectionalTransformerWordPieceEmbeddingsPositionEmbeddingsSegmentEmbeddingsBERT模型详解BERT模型详解编码器Piece

预训练任务完形填空+下句预测

应用方式在目标任务上Fine-tune四种任务类型 2626BERT的应用效果BERT的应用效果PAGEPAGE2711项NLP任务的当前最优性能记录后续工作表明其显著提高了众多其它任务性能BERT中各种策略的影响BERT中各种策略的影响PAGEPAGE28预训练任务 模型大小BERT改进模型BERT改进模型PAGEPAGE29使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态ERNIE(百度)ERNIE(百度)PAGEPAGE31EnhancedRepresentationthroughKnowledgeIntegration(Sunetal.,arXiv:1904.09223)ERNIE1.0Mask中文词或实体ERNIE2.0更多的预训练任务更丰富的预训练数据任务ERNIE1.0模型ERNIE2.0英文模型ERNIE2.0中文模型Word-awareKnowledgeMaskingKnowledgeMaskingCapitalizationPredictionToken-DocumentRelationPredictionKnowledgeMaskingStructure-awareSentenceReorderingSentenceReorderingSentenceDistanceSemantic-awareNextSentencePredictionDiscourseRelationDiscourseRelationIRRelevanceSpanBERTSpanBERTPAGEPAGE32ImprovingPre-trainingbyRepresentingandPredictingSpans(Joshietal.,arXiv:1907.10529)挖掉一段文字,通过学习段的边界表示预测段中每个词去除NSP预训练目标(由于主题不同,容易判断)在段抽取任务,如抽取式问答中表现良好MASSMASSPAGEPAGE33MASS:MaskedSequencetoSequencePre-trainingforLanguageGeneration(Songetal.,arXiv:1905.02450)挖掉句子中的一段文字通过其余部分,使用seq2seq模型重构该段文字更适应于语言生成任务,如神经机器翻译BERT改进模型BERT改进模型PAGEPAGE34使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态ERNIE(清华)ERNIE(清华)PAGEPAGE35ERNIE:EnhancedLanguageRepresentationwithInformativeEntities(Zhangetal.,2019)KnowBERTKnowBERTPAGEPAGE36KnowledgeEnhancedContextualRepresentationsetal.,EMNLP2019)K-BERTK-BERTPAGEPAGE37EnablingLanguageRepresentationwithKnowledgeGraph(Liuetal.,arXiv:1909.07606)在预训练模型的推理阶段引入知识图谱信息无需修改原预训练模型BERT改进模型BERT改进模型PAGEPAGE38使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态RoBERTaRoBERTaPAGEPAGE39ARobustlyOptimizedPretrainingApproach(Liuetal.,arXiv:1907.11692)基于进行细致调参更多的数据,更大的batch,更长的训练时间去除NSP任务训练数据序列更长训练过程中,动态改变Mask的内容在1,024块V100GPU上训练了一天!!BERT改进模型BERT改进模型PAGEPAGE40使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态XLNetXLNetXLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding(Yangetal.,ACL2019)使用Daietal.,arXi:1901.02860)已有模型的问题自回归语言模型(根据上文预测下一个词)看不到下文自编码语言模型(根据上下文预测中间的内容)预训练和精调时输入不一致解决方案随机排列各种词序输入自回归语言模型 h解决看不到下文的问题mem

wwwFactorizationorder:3→2→4→1

mem

wwwwFactorizationorder:2→4→3→1hhhhmem

wwwFactorizationorder:1→4→2→3

mem

wwww41Factorizationorder:4→3→1→2BERT改进模型BERT改进模型PAGEPAGE42使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态DistilBERTDistilBERTPAGEPAGE43Distilling(Sanhetal.,NeurIPSWorkshop2019)蒸馏:使用小模型,模仿大模型的预测结果ALBERTALBERTPAGEPAGE44ALiteforSelf-SupervisedLearningLanguageRepresentations(Lanetal.,arXiv:1909.11942)更小的词向量维度(128)跨层参数共享(类似循环神经网络)将下句预测(NSP)改为句子顺序预测(SOP)NSP难度较低SOP显著提升性能效果参数量大幅降低模型泛化能力有所提高在多个评测排行榜中位列第一TinyBERTTinyBERTPAGEPAGE45TinyBERT:DistillingforNaturalLanguageUnderstanding(Jiaoetal.,arXiv:1909.10351)基于知识蒸馏模型的隐层激活注意力矩阵7.5倍推理速度快9.4倍准确率有一定的降低词表优化与逐层映射词表优化与逐层映射PAGEPAGE46ExtremeLanguageModelCompressionwithOptimalSubwordsandSharedProjections(Zhaoetal.,arXiv:1909.11687)基于知识蒸馏减小词表(30K5K)逐层映射(共享映射函数)最高压缩60倍准确率有一定的降低BERT改进模型BERT改进模型PAGEPAGE47使用其它预训练目标融入知识图谱更精细的调参解决输入不一致问题模型压缩与加速跨语言与跨模态传统跨语言方法传统跨语言方法PAGEPAGE48以跨语言句法分析为例Cross-LingualDependencyParsingBasedonDistributedRepresentations(Guoetal.,ACL2015)基于“静态”词向量源语言 标注树

𝒙𝟐学习算法跨语言词向量学习c 学习算法跨语言词向量学习目标语言

未标注数据

语言词向量elegant𝒙𝟏

模型 标注结果多语言BERT多语言BERTPAGEPAGE49Multilingual(M-BERT)(Devlinetal.,NAACL2019)Google官方发布的104种语言直接使用104种语言的Wikipedia单语数据训练语言之间共享相同的Word-Piece很多语言混杂在一起(Code-switching)在多个跨语言任务上表现优异问题不适用距离较远的语言对准确率不如单语跨语言预训练语言模型跨语言预训练语言模型PAGEPAGE50XLM:Cross-lingualLanguageModel(LampleandConneau,arXiv:1901.07291)将互为翻译的句子作为结构的输入随机Mask句对中的双语词问题依赖大规模双语语料库需要大规模计算资源跨语言映射BERT跨语言映射BERTPAGEPAGE51Cross-LingualforZero-ShotDependencyParsingetal.,EMNLP2019)直接使用单语言预训练的假设双语句对中互为翻译的词具有相同的词向量通过线性变换,将目标语言的上下文词向量映射到源语言优势仅需少量双语语料库和计算资源CambiaralCanal4XchannelY(ChangetoChannelXchannelY

HelovesthemovieWX YElcanalestámarcadoporboyas(Thechannelismarkedbybuoys)

Theshipwentagroundinthechannel跨语言阅读理解跨语言阅读理解Cross-LingualMRC(Cuietal.,EMNLP2019)除英语外其它语言缺乏大规模阅读理解数据将英语阅读理解模型应用于其它语言方法改进回翻技术Dual改进回翻技术 DualBERT 52跨模态BERT跨模态BERTVideoBERT:AJointModelforVideoandLanguageRepresentationLearning(Sunetal.,2019)类似XLM,将文本和视频对作为的输入,同时Mask词以及图像块5353各种跨模态BERT对比各种跨模态BERT对比Pre-trainingGenericVisual-LinguisticRepresentations(Suetal.,arXiv:1908.08530)54BERT模型改进方法总结BERT模型改进方法总结策略模型核心技术使用其它预训练目标ERNIE1.0(百度)Mask中文词或实体ERNIE2.0(百度)使用词、语义、结构等更多的预训练目标SpanBERTMask一段文本,并利用段边界的表示预测段中的每个词MASSMask一段文本,并利用其余文本生成该段文本融入知识图谱ERNIE(清华)将知识图谱中实体的表示融入预训练模型的文本表示KnowBERT在融入知识图谱的实体表示时,使用注意力机制建模交互信息K-BERT在推理阶段融入知识图谱中相关实体和关系的文本表示更精细的调参RoBERTa去掉NSP目标,并调整各种预训练的参数解决输入不一致问题XLNet使用排列语言模型解决输入不一致问题;使用Transformer-XL建模更长的序列模型压缩与加速DistilBERT使用知识蒸馏技术,以小模型拟合大模型的概率输出结果ALBERT跨语言与跨模态M-BERT多语言文本同时与训练,共享的词表以及Code-switching起到跨语言效果XLM将双语句对作为BERT的输入,同时Mask双语词BERT-Trans通过线性变换将一种语言的BERT映射为另一种语言VideoBERT55大纲大纲传统词向量预训练上下文相关词向量NLP中的预训练模型预训练模型的应用预训练模型的分析预训练模型的挑战56是否需要精调(Fine-tune)?是否需要精调(Fine-tune)?ToTuneorNottoTune?AdaptingPretrainedRepresentationstoDiverseTasks(Petersetal.,arXiv:1903.05987)如果不进行Fine-tune❄,则需要任务相关的复杂模型如果进行Fine-tune🔥,则任务相关模型要尽量简单5757更多精调方法更多精调方法PAGEPAGE58目标:既要适应目标任务,又要避免重写预训练模型方法(Longetal.,ICML2015)LnL2L1更多精调方法更多精调方法L1L1PAGE60目标:既要适应目标任务,又要避免重写预训练模型方法(Longetal.,ICML2015)Felboetal.,EMNLP2017)LnL2目标:既要适应目标任务,又要避免重写预训练模型方法(Longetal.,ICML2015)Felboetal.,EMNLP2017)HowardandACL2018)LnL2更多精调方法更多精调方法PAGEPAGE61目标:既要适应目标任务,又要避免重写预训练模型方法(Longetal.,ICML2015)Felboetal.,EMNLP2017)HowardandACL2018)其它策略学习率预热二次预训练:在目标领域未标注数据上精调语言模型Wieseal.,CoNLL2017)在Transformer中增加适配器(Adapter)(Houlsbyetal.,ICML2019) (SticklandandICML2019)多任务学习多任务学习使用多任务学习框架,综合利用多种类型数据iuetal,ACL2019) https://das.stafd.ed/2019/03/2gle/多任务学习多任务学习PAGEPAGE64BAM!Born-AgainNetworksforNaturalLanguageUnderstanding(Clarketal.,ACL2019)多任务学习往往较难同时提高全部任务的性能采用知识蒸馏的技术,MTL模型学习单模型的输出概率同时提高多项任务的性能小样本学习小样本学习PAGEPAGE65Few-ShotSequenceLabelingwithLabelDependencyandEmbedding(Houetal.,arXiv:1906.08711)小样本学习目前多应用于分类任务如何将小样本学习应用于序列标注?标签之间互相影响,新的领域有新的标签集利用CRF模型建模转移概率:提出一种回退机制,建模未见标签的转移概率发射概率:利用Embedding更好计算词相似度x:Willitsnow[B-weather]the[B-time]day[I-time]after[I-time]tomorrow[I-time]?Trans:O O B-weather B-time I-time I-time I-time0.38

0.07

0.10 0.53 0.41 0.41零样本学习零样本学习PAGEPAGE66Zero-shotWordSenseDisambiguationusingSenseDefinitionEmbeddings(Kumaretal.,ACL2019)上下文词向量与知识图谱词义向量进行比对大纲大纲PAGEPAGE67传统词向量预训练上下文相关词向量NLP中的预训练模型预训练模型的应用预训练模型的分析预训练模型的挑战预训练模型分析预训练模型分析PAGEPAGE68加入探针(Probe),对模型的性质进行一定的分析增加模型的可解释性,指导设计更好的模型探针的种类下游任务探针词向量探针注意力探针下游任务探针下游任务探针PAGEPAGE69LinguisticKnowledgeandContextualRepresentations(Liuetal.,NAACL2019)在16个下游任务中进行实验固定预训练模型,作为特征提取器最上层只使用任务相关的线性分类器结论预训练模型在大部分任务中表现优异除了需要细粒度语言知识的任务如语法检查、NER、并列成分识别等RN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论