版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型通识微课
大模型预训练的数据来源一般情况下用于预训练的都是大模型,具备复杂网络结构,众多参数量,以及在足够大的数据集下进行训练而产生的模型。在自然语言处理领域,预训练模型往往是语言模型,其训练是无监督的,可以获得大规模语料。同时,语言模型又是许多典型自然语言处理任务的基础,如机器翻译、文本生成、阅读理解等。
图5-1从语言模型嵌入微课5.1大模型预训练的数据(1)在RNN(循环神经网络)模型中,每一个词嵌入的输出是要参考前面已经输入过的数据,所以叫做上下文化词嵌入。(2)不止要考虑每个词嵌入前文,同时还要考虑后文,所以再从句尾向句首训练。(3)使用多层隐藏层后,最终的词嵌入=该词所有层的词嵌入进行加权平均。微课5.1大模型预训练的数据训练大语言模型需要数万亿的各类型数据。如何构造海量“高质量”数据对于大模型的训练至关重要。研究表明,预训练数据是影响大模型效果及样本泛化能力的关键因素之一。大模型采用的预训练数据需要覆盖尽可能多的领域、语言、文化和视角,通常来自网络、图书、论文、百科和社交媒体等。微课5.1大模型预训练的数据OpenAI训练GPT-3使用的主要数据来源,包含经过过滤的CommonCravwl、WebText2、Books1、Books2及英文维基百科等数据集。通过词元方式对数据进行切分。为了保证模型使用更多高质量数据进行训练,在GPT-3训练时,根据数据来源的不同,设置不同的采样权重。Meta公司研究人员在训练OPT模型时,采用了混合RoBERTa、Pile和PushShift.ioReddit数据的方法。微课5.1大模型预训练的数据大模型预训练所需的数据来源大体上分为通用数据和专业数据两大类。通用数据在大模型训练数据中占比非常高,主要包括网页、图书、新闻、对话文本等不同类型的数据,具有规模大、多样性和易获取等特点,因此支持大模型的语言建模和泛化能力。专业数据包括多语言数据、科学文本数据、代码及领域特有资料等。虽然专业数据在大模型中所占比例通常较低,但是其对改进大模型在下游任务上的特定解决能力有着非常重要的作用。专业数据种类非常多,大模型使用的专业数据主要有三类,包括多语言数据、科学文本数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件选购合同模板汇编
- 跨国采购合同的履行流程
- 钢材招标合同签字
- 服装销售合同协议
- 业务员受聘合同范本案例
- 财税代理服务合同
- 仓储货物搬运与安装协议
- 旅游服务合同的合规渴望
- 毛石交易合同协议范本
- 节日粽子购销合同
- 河北省定州市多校2024-2025学年七年级上学期第一次月考地理试题
- 燃烧仿真.燃烧应用案例:微重力燃烧:燃烧仿真结果的后处理与分析
- (教学设计)第3章 第3节 测量金属丝的电阻率2023-2024学年新教材高中物理必修第三册(粤教版2019)
- 【新教材】人教版(2024)七年级上册英语Start Unit 1 ~Unit 7全册教案
- CPK-能力分析模板(标准版)
- 2024-2030年中国学生校服行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 第7课 书法的点画之美 (课件)-2024-2025学年初中美术七年级上册 湘美版
- 2024-2025学年教科版六年级科学上册第三单元《工具与技术》知识清单讲义
- 建筑施工安全生产治本攻坚三年行动方案(2024-2026年)
- 数学探究让兴趣引导认知-正方体截面的探究 说课课件
- 2024年变电一次安装工技能竞赛理论考试题库500题(含答案)
评论
0/150
提交评论