大语言模型通识微课课件:大模型预训练的数据来源_第1页
大语言模型通识微课课件:大模型预训练的数据来源_第2页
大语言模型通识微课课件:大模型预训练的数据来源_第3页
大语言模型通识微课课件:大模型预训练的数据来源_第4页
大语言模型通识微课课件:大模型预训练的数据来源_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大语言模型通识微课

大模型预训练的数据来源一般情况下用于预训练的都是大模型,具备复杂网络结构,众多参数量,以及在足够大的数据集下进行训练而产生的模型。在自然语言处理领域,预训练模型往往是语言模型,其训练是无监督的,可以获得大规模语料。同时,语言模型又是许多典型自然语言处理任务的基础,如机器翻译、文本生成、阅读理解等。

图5-1从语言模型嵌入微课5.1大模型预训练的数据(1)在RNN(循环神经网络)模型中,每一个词嵌入的输出是要参考前面已经输入过的数据,所以叫做上下文化词嵌入。(2)不止要考虑每个词嵌入前文,同时还要考虑后文,所以再从句尾向句首训练。(3)使用多层隐藏层后,最终的词嵌入=该词所有层的词嵌入进行加权平均。微课5.1大模型预训练的数据训练大语言模型需要数万亿的各类型数据。如何构造海量“高质量”数据对于大模型的训练至关重要。研究表明,预训练数据是影响大模型效果及样本泛化能力的关键因素之一。大模型采用的预训练数据需要覆盖尽可能多的领域、语言、文化和视角,通常来自网络、图书、论文、百科和社交媒体等。微课5.1大模型预训练的数据OpenAI训练GPT-3使用的主要数据来源,包含经过过滤的CommonCravwl、WebText2、Books1、Books2及英文维基百科等数据集。通过词元方式对数据进行切分。为了保证模型使用更多高质量数据进行训练,在GPT-3训练时,根据数据来源的不同,设置不同的采样权重。Meta公司研究人员在训练OPT模型时,采用了混合RoBERTa、Pile和PushShift.ioReddit数据的方法。微课5.1大模型预训练的数据大模型预训练所需的数据来源大体上分为通用数据和专业数据两大类。通用数据在大模型训练数据中占比非常高,主要包括网页、图书、新闻、对话文本等不同类型的数据,具有规模大、多样性和易获取等特点,因此支持大模型的语言建模和泛化能力。专业数据包括多语言数据、科学文本数据、代码及领域特有资料等。虽然专业数据在大模型中所占比例通常较低,但是其对改进大模型在下游任务上的特定解决能力有着非常重要的作用。专业数据种类非常多,大模型使用的专业数据主要有三类,包括多语言数据、科学文本数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论