2023中文BERT选择手册_第1页
2023中文BERT选择手册_第2页
2023中文BERT选择手册_第3页
2023中文BERT选择手册_第4页
2023中文BERT选择手册_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文BERT众所周知,像T这样的大型预训练模型通常会有上亿个参数,受累于庞大的模型大小和高延迟时间,使得这些庞大的模型无法部署到移动设备之上。而T则是经过压缩和加速的T模型。像一样,与任务无关,也就是说,可以通过简单的微调将其通用地应用于各种下游任务。是的精简版本,同时具有精心设计的自注意力与前馈网络之间的平衡。为了训练,首先训练一个专门设计的教师模型,该模型是模型。然后,实现从该老师模型到的知识迁移。经验研究表明,比小倍,快倍,同时在基准测试中获得了有相当竞争力的结果。在的自然语言推理任务上,T的得分为(比s低),在xl手机上的延迟为毫秒。在Dv1v问题解答任务上,的v得分为0(比高5)。1自监督模型为自然语言处理技术带来了新的革命的同时,也带来了许多问题:像BERT模时间,BERT模型往往无法部署到资源有限的移动设备之上,实现机器翻译,对话建模等在实现过程中,首先将BERT进行与任务无关的压缩,然后再进行与任务相关的压缩,将BERT模型微调为特定任务的教师(Teacher)模型,然后再进行数据蒸馏,这一过程比获得与任务无关的紧凑型似乎并不难,只需要采用较窄或更浅的版本,并通训练难度会更大。图1三种模型架构比较(a)BERT(bIB-BERTc)低0.6),在Pixel4手机上的延迟为62毫秒。在SQuADv1.1/v2.0问题解答任务上,MobileBERT的devF1得分为90.0/79.2(比BERTBASE高1.5/2.1)。2MobileBERTMobileBERT的设计架构和参数设置如下表所示,表中的设置是在大量实验的基础上获得表11.的体系结构如图(c)所示。它的深度与一样深,但是每个构件都变得更小。如表变换,以将其输入和输出尺寸调整为,将这种架构称为瓶颈。行训练,然后再从该教师网络向进行知识转移。这比直接从头训练更好。教师网络的体系结构设计,如图()所示。实际上,教师网络只是。在此,将教师网络称为。注意,和具有相同的要素特征映射大小,即。因此,可以对和之间的分层输出差异直接进行比较。1.1.删除层归一化用元素线性变换替换n通道隐含状态hNoNorm(h)=γ◦h+β其中γ,β∈和〇表示Hadamard积。注意,即使在测试模式下,NoNorm采用relurelu激活代替了gelu激活。1.BERT模型中的嵌入表占模型大小的很大比例。如表5-251.其中A是注意力的头数(多头注意力机制)其中,α为0~13IB-BERT老师的中级知识(即注意力映射和特征映射)可能不是图2图2三种训练策略的方框图(a)辅助知识传递(AKT(b联合知识传递(JKT)(c)渐进知识按照表1的配置进行实验,将MobileBERT的实验结果和其它模型训练结果进行比对。通过大量的实验,找出了最优的模型设置,以SQuADvl.ldevFI得分作为模型设置的性能指标。在这里,仅以2048个批次的大小训练模型125,000BERT的训练设置基础4表2IB-BERTLARGEteacherF1MobileBERT5.5.4.5和一样,使用kss和英文维基百科(shk)作为预训练数据。为了使老师达到与原始相同的精度,在个Uv芯片上训练了,步长为k,批量大小为,并使用了优化器。为了与进行比较,没有在其他变体中使用训练技巧。对于,在预训练蒸馏阶段使用相同的设置。此外,当使用渐进式知识传递来训练时,在层上需要额外增加万步。为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论