版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型通识微课
大模型的构建流程大语言模型技术就像一把神奇的钥匙,正在为产品开发打开新世界的大门。无论是个人开发者想要借助这项技术来提升自己的技能和打造酷炫的产品,还是企业团队希望通过它在商业战场上取得竞争优势,都得学会运用大模型辅助产品的全流程开发与应用。简单来说,使用预训练的大模型开发的主要优势在于简化开发过程,降低开发难度,而传统的机器学习开发则需要更多的专业知识和资源投入。微课11.1大模型的构建流程在构建大模型前期准备中,基础设施最重要,但即便是提升了单个GPU的算力,训练超级规模的大模型也不是一件容易的事情,这是因为:(1)GPU内存容量有限,使得即使在多GPU服务器上也无法适合大模型。(2)所需的计算操作的数量可能导致不切实际的长训练时间。各种模型并行性技术以及多机多卡的分布式训练部分解决了这两个挑战。11.1.1确定需求大小使用数据并行性,每个工作站都有一个完整模型的副本,输入数据集被分割,工作站定期聚合它们的梯度,以确保所有工作站都看到权重的一致版本。对于不适合单个GPU的大模型,数据并行性可以在较小的模型碎片上使用。在大模型开始训练之前,需要考虑吞吐量,估计出进行端到端训练所需的总时间。对于搭建自有的大模型来说,训练多大的规模参数就需要有多大规模的算力。11.1.1确定需求大小对于初代大模型来说,数据收集以及后续处理是一件非常繁琐且棘手的事情,这一过程中需要面临诸多问题,比如数据许可、数据集特征和覆盖率、数据预处理的充分性、如何解决数据集偏差、如何解决数据集公平性、不同数据集的差异、数据隐私、数据安全等。初代大模型的推出不仅是让人们能够充分利用大模型的便利性,也为更多大模型的推出铺平了道路,例如:ChatGPT训练了几乎所有能在公开渠道找到的数据,这对后续大模型开发提供了便利。11.1.2数据收集按类别划分的数据集分布在数据收集完成之后,需要按照一定的比例对数据集进行混合,数据混合旨在增强模型的泛化能力和抵抗对抗性攻击。这个过程通常与数据增强结合使用,有助于减轻过度拟合,提高模型的鲁棒性。混合时也要考虑数据的大小和多样性,如果数据集非常庞大,多样性强,那么可以考虑使用较低的混合比例,因为已经有足够的数据来训练模型。但是如果数据集相对较小,多样性低,增加混合比例可能有助于增加样本数量,减轻过拟合。11.1.2数据收集大模型具有采样效率高的特点,但这意味着如果输入模型的数据充满拼写错误的单词、性质粗俗、包含大量目标语言之外的其他语言,或者具有不受欢迎的恶作剧特征,那么大模型最终的效果会存在问题。基于此,在对大模型进行训练之前,需要对收集到的数据进行预处理操作。(1)数据清洗、过滤、语句边界检测、标准化。(2)针对训练性能的数据转换。在训练机器学习模型时,需要对原始数据进行各种处理和转换,以提高模型的性能和泛化能力。(3)分词器训练。用于将连续的文本序列分解成单个词汇或标记。11.1.3数据集预处理通过模型并行性,模型的图层将在多个设备之间共享。当使用相同转换器的模型时,每个设备可以分配相同数量的转换器层。一个批被分割成更小的微批;然后在微批次之间通过流水线执行。为了精确地保留严格的优化器语义,技术人员引入了周期性的管道刷新,以便优化器步骤能够跨设备同步。图11-4默认的和交错的管道计划11.1.4大模型预训练实际上,大模型预训练的过程中需要注意的问题远不止这么简单。随着模型的增大,训练数据集规模的增长,数据并行就会出现局限性。当训练资源扩大到一定规模时,就会出现通信瓶颈,计算资源的边际效应显现,增加资源也没办法进行加速,这就是常说的“通信墙”。除此之外,大模型训练可能还会遇到“性能墙”的困扰,这是指在某个特定任务或计算资源上,模型的性能无法继续有效提升的情况。当模型接近性能墙时,增加更多的计算资源或数据量可能不会显著改善模型的性能,因为模型已经达到了某种极限或瓶颈。11.1.4大模型预训练大模型训练成功的标准一般会通过定量分析和定性分析来回答。首先是定量分析。观察大模型的训练损失,损失减少表明模型正在学习并拟合训练数据;检查大模型性能指标,常用指标包括准确率、精确度、召回率等。对回归任务,常用指标包括均方误差、平均绝对误差等。其次是定性分析。通过合并检查点,将多个模型检查点合并为统一的检查点文件,从该检查点加载模型,然后,使用加载的模型来生成文本。另外,也通过对验证集和测试集的评估来观察大模型的表现,观察大模型各项指标,观察大模型是否有过拟合的现象。11.1.4大模型预训练进行预训练之后,往往需要对大模型进行实验和微调处理,实验的作用是检验大模型是否训练成功,接下来需要进行微调处理。微调处理对大模型有针对性的做出训练。通过微调,大模型在垂直领域的适应性会更强,准确率更高。这一过程通常称为价值观对齐,目的就是提高模型的性能、适应性和效率,充分利用大模型的通用知识,使其更好地适应不同的任务和领域。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论