大语言模型通识微课课件:开发流程与数据组织_第1页
大语言模型通识微课课件:开发流程与数据组织_第2页
大语言模型通识微课课件:开发流程与数据组织_第3页
大语言模型通识微课课件:开发流程与数据组织_第4页
大语言模型通识微课课件:开发流程与数据组织_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大语言模型通识微课

开发流程与数据组织大语言模型如此重要,是因为:(1)高准确性:随着模型参数的增加,模型通常能更好地学习和适应各种数据,从而提高其预测和生成的准确性。(2)多功能性:大模型通常更为通用,能够处理更多种类的任务,而不仅限于特定领域。(3)持续学习:大模型的巨大容量使其更适合从持续的数据流中学习和适应新知识。微课6.1开发流程与数据组织所谓大模型开发,是指建设以大模型为功能核心、通过其强大的理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用。开发大模型相关应用,其技术核心虽然在大模型上,但一般通过调用API或开源模型来实现理解与生成,通过提示工程来实现大模型控制,因此,大模型开发更多的是一个工程问题。图6-2大模型开发要素6.1.1什么是大模型开发大模型开发,是将大模型作为一个调用工具,通过提示工程、数据工程、业务逻辑分解等手段来充分发挥大模型能力,适配应用任务。因此,初学者并不需要深入研究大模型内部原理,而更需要掌握使用大模型的实践技巧。在大模型开发中,尝试用提示工程来替代子模型的训练调优,通过提示链路组合来实现业务逻辑,用一个通用大模型+若干业务提示来完成任务,从而将传统的模型训练调优转变成了更简单、轻松、低成本的提示设计调优。6.1.1什么是大模型开发同时,在评估思路上,大模型开发与传统人工智能开发有质的差异。

传统AI评估

LLM评估图6-3大模型开发与传统人工智能开发的不同6.1.1什么是大模型开发通常将大模型开发分解为以下几个流程。

图6-4大模型开发流程6.1.2大模型开发流程(1)确定目标。开发目标即应用场景、目标人群、核心价值。对于小型团队,应先设定最小化目标,从构建最小产品开始,逐步完善和优化。(2)设计功能。设计应用所要提供的功能以及每一个功能的大体实现逻辑。越清晰、深入的业务逻辑理解往往能带来更好的提示效果。对于小型团队来说,应先确定应用的核心功能,然后延展其上下游功能。(3)搭建整体架构。需要针对所设计的功能,搭建项目的整体架构,实现从用户输入到应用输出的全流程贯通。可以基于LangChain进行个性化定制,实现从用户输入到数据库再到大模型最后输出的整体架构连接。6.1.2大模型开发流程(4)搭建数据库。需要收集数据并进行预处理,再向量化存储到数据库中。数据预处理包括从多种格式向纯文本的转化,以及对错误数据、异常数据、脏数据进行清洗。(5)提示工程。优质的提示对大模型能力具有极大影响。首先明确提示设计的一般原则及技巧,构建出一个源于实际业务的小型验证集,以此来满足基本要求、具备基本能力的提示。(6)验证迭代。通过不断发现坏的情况并针对性改进提示工程来提升系统效果、应对边界情况,从而不断迭代优化,基本实现目标的提示版本。6.1.2大模型开发流程(7)前后端搭建。接下来,设计产品页面,让应用上线成为产品。前后端开发是非常经典且成熟的领域,有两种快速开发演示的框架。(8)体验优化。接下来需要进行长期的用户体验跟踪,记录坏情况,与用户负反馈,再针对性进行优化即可。6.1.2大模型开发流程在设计、研发、运行的过程中,大模型面临的主要挑战如下。(1)计算资源:训练和运行大模型需要大量的计算资源,这可能限制了许多机构和研究者使用它的能力。(2)环境影响:大规模模型的训练对能源的需求是巨大的,可能会对环境造成负面影响。(3)偏见和公正性:由于大模型通常从大量的互联网文本中学习,它们可能会吸收并再现存在于这些数据中的偏见。大模型的研发流程涵盖了从数据采集到模型训练的多个步骤。6.1.3大模型的数据组织(1)数据采集:是大模型项目的起点,根据训练需求收集大量数据。这些数据可以有多种来源,如公开的数据集、公司内部的数据库、用户生成的数据、传感器数据等。数据的类型可以多样,包括图像、文本、声音、视频等。主要内容包括:定义数据需求、找到数据源、数据收集、数据存储、检查数据质量、数据整理。这是一个持续的过程。在整个数据采集过程中,需要关注数据的质量和一致性,同时也要注意遵守数据隐私和安全的相关规定。6.1.3大模型的数据组织(2)数据清洗和预处理。原始数据可能含有噪声、缺失值、错误数据等,所以进行清洗。清洗后的数据要进行一系列预处理操作,如归一化、编码转换等,使其适合输入到模型中。主要内容包括:数据质量检查、处理缺失值、处理重复值、处理异常值、数据转换。进行数据清洗和预处理时,需要对数据有深入的理解,以便做出最好的决策。6.1.3大模型的数据组织(3)数据标注:主要用于监督学习任务,是一项为原始数据添加元信息的工作,以帮助大模型更好地理解和学习数据。主要内容包括:制定标注规范、选择或开发标注工具、进行数据标注、质量检查、反馈和修正。高质量标注数据对训练出高性能的机器学习模型至关重要。因此,尽管这是一个复杂和耗时的过程,但投入在这个过程中的努力会得到回报。6.1.3大模型的数据组织(4)数据集划分:数据通常被划分为训练集、验证集和测试集。这是大模型项目中的一个重要步骤,可以帮助更好地理解模型的性能。主要内容包括:确定划分策略、随机划分、分层抽样、时间序列数据的划分、分割数据、保存数据、。这个流程可能根据数据的类型和任务的需求有所不同。无论如何,正确的数据划分策略对于避免过拟合,以及准确评估模型的性能至关重要。6.1.3大模型的数据组织(5)模型设计:是大模型项目的关键环节,需要结合项目目标、数据特性以及算法理论选择或设计适合任务的模型架构。可能会使用复杂的深度学习架构,如Transformer等。主要内容包括:理解问题、选择算法、设计模型架构、设置超参数、正则化和优化策略、定义评估指标。这个流程需要根据具体的项目和需求进行迭代和调整,它需要技术知识、经验以及实验验证。在设计模型时,需要保持对模型复杂性和泛化能力之间平衡的认识,并始终以实现业务目标为导向。6.1.3大模型的数据组织(6)模型初始化:是大模型项目中的一个重要步骤。在训练开始前,需要初始化模型的参数,这一般通过随机方式进行。正确的初始化策略可以帮助模型更快地收敛,并减少训练过程中可能出现的问题。主要内容包括:选择初始化策略、初始化权重、初始化偏置、设置初始化参数、执行初始化。这是一个比较技术性的主题,正确的初始化策略可能对模型的训练速度和性能有很大的影响。应该了解不同的初始化策略,以便根据模型进行选择。6.1.3大模型的数据组织(7)模型训练:是大模型项目中的关键步骤,其中包含了多个环节。主要内容包括:设置训练参数、准备训练数据、前向传播、反向传播、验证和调整、重复上述步骤、模型测试。实际操作中可能需要根据特定任务或特定模型进行相应的调整。6.2.7模型训练(8)模型验证:是大模型项目中非常关键的一步,目的是在训练过程中,评估模型的性能,定期在验证集上测试模型的性能,监控过拟合,根据测试和监控结果调整模型的超参数。主要内容包括:准备验证集、进行模型预测、计算评估指标、比较性能、早停法、调整超参数。验证集应保持独立,不能用于训练模型,否则就可能导致模型的性能评估不准确,无法真实反映模型在未见过的数据上的性能。6.2.8模型验证(9)模型保存:是大模型项目的重要一步,让我们能够将训练好的模型存储起来,以便于后续的测试、部署或进一步训练或分享。主要内容包括:选择保存格式、保存模型参数、保存模型架构、保存训练配置、执行保存操作、验证保存的模型。这个流程可能会根据具体需求和所使用的工具或框架进行一些调整。6.2.9模型保存(10)模型测试:是大模型部署前的最后一步,目的是在测试集上评估模型的最终性能。主要内容包括:准备测试集、进行模型预测、计算评估指标、分析结果、记录和报告。测试集应当保持独立和未知,不能用于训练或验证模型,以确保测试结果能够真实反映模型在实际环境中的表现。6.2.10模型测试(11)模型部署:是将训练好的大模型应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论