第11章大模型应用框架

上传人：y*** IP属地：山东上传时间：2024-08-23 格式：PPTX 页数：78 大小：1.55MB 积分：15 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江省普通本科高校“十四五”重点教材大语言模型通识大语言模型通识周苏教授QQ：81505050第11章大模型应用框架大语言模型技术就像一把神奇的钥匙，正在为产品开发打开新世界的大门。无论是个人开发者想要借助这项技术来提升自己的技能和打造酷炫的产品，还是企业团队希望通过它在商业战场上取得竞争优势，都得学会运用大模型辅助产品的全流程开发与应用。简单来说，使用预训练的大模型开发的主要优势在于简化开发过程，降低开发难度，而传统的机器学习开发则需要更多的专业知识和资源投入。第11章大模型应用框架01大模型哲学问题02大模型的构建流程03大模型的应用场景04案例：Magic突破Q算法目录/CONTENTSPART01大模型哲学问题人工神经网络（ANN）和早期的自然语言处理（NLP）结构一直是哲学讨论的焦点，聚焦在它们作为建模人类认知的适用性上。具体而言，相比于经典的、符号的、基于规则的对应物模型，它们是否构成了更好的人类认知模型。其中有些争论因深度学习的发展和大语言模型的成功而复苏和转变。11.1大模型哲学问题长期以来，研究者们批评人工神经网络无法解释认知的核心结构，在模拟人类思维方面存在局限。批评者认为，人工神经网络要么无法捕捉经典符号架构中可以轻松解释的认知特征，或者实际上只是实现了这种符号处理的架构，但在真正理解思维过程方面并没有提供新的见解。11.1.1组成性近年来，大模型的迅速发展挑战了这种模型局限性的传统观点。大量实证研究调查了大模型在需要组合处理的任务上是否能表现出类人水平的性能，这些研究主要评估模型的组合泛化能力，即它们是否能够系统地重新组合先前学到的元素，并将这些元素组成的新输入映射到正确的输出上。这对于大模型来说，本来就是一项困难的任务，因为它们通常是用庞大的自然语言语料库训练而成的，而这些数据可能包含了很多特定的句子模式。但研究者通过精心设计的训练-测试划分合成数据集，克服了这一问题。11.1.1组成性在组合泛化的合成数据集上，许多基于Transformer的模型在测试上取得了不错的表现。元学习，即通过从许多相关的学习任务中进行泛化以更好地学习，也表现出无需进一步进行架构调整即可进行泛化的潜力。元学习让模型接触到多个相关任务的分布，从而帮助它们获取通用知识。通过元学习，在一系列不同于人工训练的Transformer模型上实现了系统性泛化，展现出与人类相似的准确性和错误模式，而且这些模型不需要明确的组合规则。这表明，要模仿人类大脑的认知结构，可能不需要严格的内置规则。11.1.1组成性福多认为，思维和认知过程中涉及的信息以一种类似语言的形式存在，这种“心灵的语言”包含可以组合并且具有明确意义的符号。在福多的框架下，心理过程涉及对这些离散符号的操作，这些符号不仅在语义上可以被评估，还在认知处理中发挥直接的因果作用。哲学家和认知科学家杰里·福多也主张，心理过程应该基于离散符号。11.1.1组成性相比之下，人工神经网络使用的是连续向量，这些向量被认为缺乏离散的、语义上可评估的成分，这些成分在算法层面参与处理。在这种观点下，人工神经网络处理的是较低层级的激活值，而不是直接操作语义上明确的符号。这引发了人工神经网络是否满足经典成分结构要求的质疑。主张联结主义（通过模拟神经元之间的相互连接和权值来实现人工智能。其他还有符号主义和行为主义）的人们认为人工神经网络可能建立在一种非经典的建模认知结构之上。11.1.1组成性连续性原则认为，信息编码和处理机制应使用可以连续变化的实数表示，而不是离散符号表示的实数进行形式化。首先，这使得对自然语言等领域进行更灵活的建模成为可能。其次，利用连续性的统计推理方法，如神经网络，能够提供可处理的近似解决方案。最后，连续性允许使用深度学习技术，这些技术可以同时优化信息编码和模型参数，以发现最大化性能的任务特定表示空间。11.1.1组成性总体而言，通过利用连续性的优势，可以解决离散符号方法在灵活性、可处理性和编码方面长期面临的挑战。因此，基于Transformer的人工神经为“神经组合计算”提供了有希望的见解：表明人工神经网络可以满足认知建模的核心约束，特别是连续和组合结构以及处理的要求。11.1.1组成性天赋观念是哲学、美学用语，指人类生来就有的观念。一个传统争议在于，人工神经网络语言模型是否挑战了语言发展中天赋论的论点？这场争论集中在两个主张上：一种是较强的原则性主张，另一种是较弱的发展性主张。原则性主张认为，即使接触再多的语言资料，也不足以使儿童迅速掌握句法知识。也就是说，如果没有内在的先验语法知识，人类就无法学习语言规则。发展性主张则基于“贫乏刺激”理论，认为儿童在发展过程中，实际接触的语言输入的性质和数量不足以诱导出底层句法结构的正确概念，除非他们拥有先天知识。11.1.2天赋论与语言习得乔姆斯基派的语言学家认为儿童天生具有“通用语法”，这使得儿童能够通过少量的经验，高效适应特定语言中的特定语法。大模型在学习语法结构上的成功，成了天赋论的反例。大模型仅通过训练数据集，就能够获得复杂的句法知识。从这个意义上说，大模型提供了一种经验主义的证据，即统计学习者可以在没有先天语法的帮助下归纳出语法知识。11.1.2天赋论与语言习得然而，这并不直接与发展性主张相矛盾，因为大模型通常接收的语言输入量比人类儿童要多上几个数量级。而且，人类儿童面对的语言输入和学习环境与大模型有很大不同。人类学习更具有互动性、迭代性、基础性和体验性。研究者逐渐通过在更接近真实学习环境中训练较小的语言模型，提供证据来支持这种发展性主张。11.1.2天赋论与语言习得班德和科勒认为，由于语言模型仅在语言形式的方面接受训练，它们无法直接学习到语义，因此，即便大模型能够通过分析语言序列掌握句法结构，也并不意味着它们真的理解了语义。11.1.3语言理解与基础相关批评与哈纳德在1990年所述的“基础问题”不谋而合。这个问题指出，自然语言处理中的语言词元与它们在现实世界中所指代的对象之间存在明显脱节。在传统的自然语言处理中，单词由任意符号表示，这些符号与现实世界中的指代物没有直接联系，它们的语义通常由外部编程者赋予。从系统的角度来看，它们只是嵌入语法规则中的毫无意义的词元。11.1.3语言理解与基础哈纳德认为，要使自然语言处理系统中的符号具有内在意义，需要这些内部符号表示与符号所指代的外部世界中的对象、事件和属性存在某种基础联系。如果没有这种联系，系统的表示将与现实脱节，只能从外部解释者的角度获得意义。尽管这一问题最初是针对经典符号系统提出的，但对仅在文本上进行训练的现代大模型来说，也存在类似的问题。大模型将语言词元处理为向量，而不是离散符号，这些向量表示同样可能与现实世界脱节。尽管它们能生成对熟练的语言使用者有意义的句子，但这些句子在没有外部解释的情况下可能就没有独立的意义。11.1.3语言理解与基础第三则批评涉及大模型是否具有交际意图的能力。这涉及到传统中两种意义的区别：一种是与语言表达相关的、固定的、与上下文无关的意义（通常称为语言意义），另一种是说话者通过话语传达的意图（通常称为说话者意义）。大模型的输出包含按照实际语言使用的统计模式组织和组合的单词，因此具有语言意义。然而，为了实现有效的交流，大模型需要具有相应的交际意图。批评的观点认为，大模型缺乏交际意图的基本构建块，如内在目标和心智理论。11.1.3语言理解与基础语义能力通常指的是人们使用和理解一种语言中所表达的含义的能力和知识。有人提出大模型可能展现出一定程度的语义能力。皮安塔多西和希尔认为，大模型中词汇项的含义与人类一样，不取决于外部引用，而取决于相应表示之间的内部关系，这些表示可以在高维语义空间中，以向量形式进行描述。这个向量空间的“内在几何”指的是不同向量之间的空间关系，例如向量间的距离、向量组之间形成的角度，以及向量在响应上下文内容时的变化方式。11.1.3语言理解与基础皮安塔多西和希尔认为，大模型展示的令人印象深刻的语言能力表明，它们的内部表示空间具有大致反映人类概念空间的基本特性的几何结构。因此，评估大模型的语义能力不能仅通过检查它们的架构、学习目标或训练数据来确定；相反，至少应该部分地基于系统向量空间的内在几何结构。虽然关于大模型是否获得指称语义能力存在争议，但一些观点认为，通过在语料库上进行训练，大模型可能在一定程度上实现真正的语言指称。11.1.3语言理解与基础虽然大模型通过它们的训练数据与世界之间存在间接的因果关系，但这并不能保证它们的输出是基于真实世界的实际指代。莫洛和米利埃认为，仅在文本上进行训练的大模型实际上可能通过依据人类反馈优化语言模型的微调，获得涉及世界的功能。虽然经过精细调整的大模型仍然无法直接访问世界，但反馈信号可以将它们的输出与实际情况联系起来。11.1.3语言理解与基础还有重要的一点是大模型不具有沟通意图。大模型输出的句子可能没有明确的含义，句子的含义是由外部解答产生的。当人类给定一个外部目标时，大模型可能表现出类似沟通意图的东西，但这个“意图”完全是由人类设定的目标确定的，大模型本质上无法形成沟通意图。11.1.3语言理解与基础在机器学习中，世界模型通常指的是模拟外部世界某些方面的内部表征，使系统能够以反映现实世界动态的方式理解、解释和预测现象，包括因果关系和直观的物理现象。于是，一个核心问题是，设计用于预测下一个词元的大模型是否能构建出一个“世界模型”。11.1.4世界模型与通过和环境互动并接收反馈来学习的强化学习代理不同，大模型并不是通过这种方式进行学习的。它们能否构建出世界模型，实际上是探讨它们是否能够内部构建出对世界的理解，并生成与现实世界知识和动态相一致的语言。评估大模型是否具有世界模型并没有统一的方法，部分原因在于这个概念通常定义模糊，部分原因在于难以设计实验来区分大模型是依赖浅层启发式回答问题，还是使用了环境核心动态的内部表征这一假设。11.1.4世界模型有理论支持大模型可能学会了模拟世界的一部分，而不仅仅是进行序列概率估计。更具体地说，互联网规模的训练数据集由大量单独的文档组成。对这些文本的最有效压缩可能涉及对生成它们的隐藏变量值进行编码：即文本的人类作者的句法知识、语义信念和交际意图。11.1.4世界模型一些理论家提出，人类智能的一个关键特征在于其独特的文化学习能力。尽管其他灵长类动物也有类似的能力，但人类在这方面显得更为突出。人类能够相互合作，将知识从上一代传到下一代，人类能够从上一代结束的地方继续，并在语言学、科学和社会学知识方面取得新的进展。这种方式使人类的知识积累和发现保持稳步发展，与黑猩猩等其他动物相对停滞的文化演变形成鲜明对比。这里，产生一个有趣的问题，大模型是否可能参与文化习得并在知识传递中发挥作用。11.1.5知识传递和语言支持鉴于深度学习系统已经在多个任务领域超过了人类表现。那么问题就变成了，大模型是否能够模拟文化学习的许多组成部分，将它们的发现传递给人类理论家。研究发现，现在主要是人类通过解释模型来得到可传播的知识。也有证据表明，大模型似乎能够在已知任务范围内处理新数据，实现局部任务泛化。11.1.5知识传递和语言支持此外，文化的持续进步不仅涉及创新，还包括稳定的文化传播。大模型是否能够像人类一样，不仅生成新颖的解决方案，还能够通过认识和表达它们如何超越先前的解决方案，从而“锁定”这些创新？这种能力不仅涉及生成新颖的响应，还需要对解决方案的新颖性及其影响有深刻理解，类似于人类科学家不仅发现新事物，还能理论化、情境化和传达他们的发现。因此，对大模型的挑战不仅仅在于生成问题的新颖解决方案，还在于培养一种能够反思和传达其创新性质的能力，从而促进文化学习的累积过程。这种能力可能需要更先进的交际意图理解和世界模型构建。11.1.5知识传递和语言支持PART02大模型的构建流程大模型正在重塑产业。但是，企业想要真正拥抱大模型，实现自建大模型，仍然面临着很多现实问题：怎样才能拥有企业专属的领域大模型？如何高效率、低成本地处理数据？模型数据如何动态更新？私有数据如何安全地接入大模型？等等。

图11-1构建大模型的分布指南11.2大模型的构建流程在构建大模型前期准备中，基础设施最重要，GPU的型号以及数据直接关系到模型的训练质量和训练时间。例如：使用单个V100GPU训练具有1750亿个参数的GPT-3将需要约288年，更不用说现在的大模型动辄万亿参数。随着更强算力资源的推出，大模型的训练速度被大大加快。但即便是提升了单个GPU的算力，训练超级规模的大模型也不是一件容易的事情，这是因为：（1）GPU内存容量是有限的，使得即使在多GPU服务器上也无法适合大模型。（2）所需的计算操作的数量可能导致不切实际的长训练时间。11.2.1确定需求大小各种模型并行性技术以及多机多卡的分布式训练部分解决了这两个挑战。图11-2单机多卡的训练模式11.2.1确定需求大小使用数据并行性，每个工作人员都有一个完整模型的副本，输入数据集被分割，工作人员定期聚合他们的梯度，以确保所有工作人员都看到权重的一致版本（见图11-3）。对于不适合单个GPU的大模型，数据并行性可以在较小的模型碎片上使用。

图11-3数据并行的训练模式通过模型并行性，在多个设备之间共享模型的图层11.2.1确定需求大小当使用相同转换块的模型时，每个设备可以分配相同数量的转换层。一个批次被分割成更小的微批次；然后在微批次之间通过流水线执行。为了精确地保留严格的优化器语义，技术人员引入了周期性的管道刷新，以便优化器步骤能够跨设备同步。在大模型开始训练之前，需要考虑吞吐量，估计出进行端到端训练所需的总时间。对于搭建自有的大模型来说，训练多大的规模参数就需要有多大规模的算力。11.2.1确定需求大小对于初代大模型来说，数据收集以及后续处理是一件非常繁琐且棘手的事情，这一过程中需要面临诸多问题，比如数据许可，数据集特征和覆盖率，数据预处理的充分性，如何解决数据集偏差，如何解决数据集公平性，不同数据集的差异，数据隐私，数据安全等。11.2.2数据收集初代大模型的推出具有跨时代的意义，这不仅仅是让人们能够充分利用大模型的便利性，也为更多大模型的推出铺平了道路，例如：ChatGPT训练了几乎所有能在公开渠道找到的数据，包括全部的推特数据（事实上，推特API已经限制了采集数量，所以后续大模型再想利用全部的推特数据来完成训练几乎不可能了）。这个对于后续大模型开发提供了便利，一方面后续的大模型可以借助ChatGPT更好的完成数据集收集任务，另一方面ChatGPT的成功也为后续其他大模型的数据收集提供了经验。11.2.2数据收集按类别划分的数据集分布在数据收集完成之后，需要按照一定的比例对数据集进行混合，数据混合旨在增强模型的泛化能力和抵抗对抗性攻击。这个过程通常与数据增强结合使用，有助于减轻过度拟合，提高模型的鲁棒性。在进行混合时，需要为每个样本或特征分配一个权重，这些权重可以是固定的，也可以是随机的，权重的选择方式取决于混合策略和具体任务。例如，对于某些图像分类任务，更高的混合比例可能有助于提高模型的泛化能力，而对于其他任务，适度的混合比例可能就足够了。11.2.2数据收集混合时也要考虑数据的大小和多样性，如果数据集非常庞大，多样性强，那么可以考虑使用较低的混合比例，因为已经有足够的数据来训练模型。但是如果数据集相对较小，多样性低，增加混合比例可能有助于增加样本数量，减轻过拟合。11.2.2数据收集大模型具有采样效率高的特点，但这意味着如果输入模型的数据充满拼写错误的单词、性质粗俗、包含大量目标语言之外的其他语言，或者具有不受欢迎的恶作剧特征，那么大模型最终的效果会存在问题。基于此，在对大模型进行训练之前，需要对收集到的数据进行预处理操作。（1）数据清洗、过滤、语句边界检测、标准化。11.2.3数据集预处理（2）针对训练性能的数据转换。在训练机器学习模型时，需要对原始数据进行各种处理和转换，以提高模型的性能和泛化能力。数据转换的目标是使训练数据更适合于模型的学习和泛化，以及减少模型的过拟合风险。例如特征缩放、特征工程、数据清洗、特征选择、数据增强、标签平滑、数据分割等。（3）分词器训练。这是自然语言处理中的重要工具，用于将连续的文本序列分解成单个词汇或标记。分词器训练是为了使其能够理解不同语言和领域中的文本，并准确地划分词汇。11.2.3数据集预处理通过模型并行性，模型的图层将在多个设备之间共享。当使用相同转换器的模型时，每个设备可以分配相同数量的转换器层。一个批被分割成更小的微批；然后在微批次之间通过流水线执行（见图11-4）。为了精确地保留严格的优化器语义，技术人员引入了周期性的管道刷新，以便优化器步骤能够跨设备同步。图11-4默认的和交错的管道计划11.2.4大模型预训练实际上，大模型预训练的过程中需要注意的问题远不止这么简单。分布式训练能够解决小模型的训练问题，但是随着模型的增大，训练数据集规模的增长，数据并行就会出现局限性。当训练资源扩大到一定规模时，就会出现通信瓶颈，计算资源的边际效应显现，增加资源也没办法进行加速，这就是常说的“通信墙”。11.2.4大模型预训练除此之外，大模型训练可能还会遇到性能墙的困扰，这是指在某个特定任务或计算资源上，模型的性能无法继续有效提升的情况。当模型接近性能墙时，增加更多的计算资源或数据量可能不会显著改善模型的性能，因为模型已经达到了某种极限或瓶颈。11.2.4大模型预训练性能墙通常表现为以下几种情况：（1）训练时间增长：随着模型规模的增大，训练时间也显示出显著增长的趋势。这是因为更大的模型需要更多的计算资源和时间来收敛，但性能提升可能会递减，最终趋于停滞。（2）资源利用不高：增加更多的计算资源（例如，GPU或TPU）可能会减少训练时间，但利用率不高，因为模型可能无法有效地利用所有资源来提升性能。11.2.4大模型预训练那么，什么是大模型训练成功的标准呢？一般会通过定量分析和定性分析来回答这个问题。首先是定量分析。观察大模型的训练损失，训练损失的减少表明模型正在学习并拟合训练数据；检查大模型的性能指标，对于分类任务，常用的指标包括准确率、精确度、召回率等。对于回归任务，常用的指标包括均方误差、平均绝对误差等。11.2.4大模型预训练其次是定性分析。通过合并检查点，将多个模型检查点合并为统一的检查点文件。一旦合并了检查点，就可以从该检查点加载模型，然后，使用加载的模型来生成文本。这时候就需要检查生成句子的连贯性、语法、相关性、多样性等，评估句子的生成质量。另外，也通过对验证集和测试集的评估来观察大模型的表现，一来观察大模型在处理验证集和测试集时的各项指标，二来观察大模型是否有过拟合的现象出现。11.2.4大模型预训练进行预训练之后，往往需要对大模型进行实验和微调处理，实验的作用是检验大模型是否训练成功。如果实验结果证明训练是成功的，那么接下来就需要进行微调处理。微调处理的好处是可以对大模型有针对性的做出训练，例如大模型的侧重点是在情感分析还是在机器翻译？又或者是文本分类？通过微调之后，大模型在垂直领域的适应性会更强，准确率更高。这一过程通常称为价值观对齐，目的就是提高模型的性能、适应性和效率，充分利用大模型的通用知识，使其更好地适应不同的任务和领域。11.2.5任务微调训练过程中需要大量的GPU资源，在模型部署过程中也同样需要。以175B的模型为例，不压缩模型的情况下部署需要650GB的内存，这个时候可以通过模型缩减和压缩或者采用分布式部署方式来减轻部署压力。11.2.6部署PART03大模型的应用场景以ChatGPT为代表的大语言模型在问题回答、文稿撰写、代码生成、数学解题等任务上展现出了强大的能力，引发研究人员广泛思考如何利用这些模型来开发各种类型的应用，并修正它们在推理能力、获取外部知识、使用工具及执行复杂任务等方面的不足。此外，研究人员还致力于将文本、图像、视频、音频等多种信息结合起来，实现多模态大模型，这也是一个热门研究领域。鉴于大模型的参数量庞大，以及针对每个输入的计算时间较长，优化模型在推理阶段的执行速度和用户响应时长也变得至关重要。11.3大模型的应用场景其实，“GPT们”背后的技术本质上是大模型应用。大模型利用深度学习技术，根据大量的文本数据，学习语言的规律和知识，从而生成自然和流畅的文本模型。大模型具有强大的表达能力和泛化能力，可以应用于各种自然语言处理任务，如机器翻译、文本摘要、对话系统、问答系统等。11.3大模型的应用场景大模型最简单的应用之一就是翻译书面文本，实现跨语言的高质量实时翻译服务。例如，用户可以向人工智能助手输入文本，并要求它翻译成另一种语言，然后应用就会自动开始翻译成自然流畅的文本。一些研究表明，与市面上的一些商业翻译产品相比，GPT-4等大模型的表现具有更强的竞争力。大模型可以根据不同的语境和文本内容进行自适应，从而更好地处理复杂的语言表达。同时，大模型还可以应用于语音翻译、实时翻译等更多的应用场景。大模型技术需要大量的训练数据来进行模型训练，因此需要投入更多的资源和时间来构建和优化模型。11.3.1机器翻译、文本理解与分析此外，这方面的应用还包括：·舆情分析：挖掘用户意见倾向和社会情绪变化。·文本分类：自动对文档进行主题归类或情感标注。11.3.1机器翻译、文本理解与分析大数据模型可以利用大量数据来建立模型，通过机器学习算法和数据挖掘技术，从中发现恶意软件的特征和行为模式，从而更好地对恶意软件进行检测、分类和分析。2023年4月，谷歌推出网络安全SecPaLM的大模型，展示了在恶意软件分析中的一些用途。例如，谷歌的人工智能恶意软件分析工具VirusTotalCodeInsight就使用了SecPaLM大模型扫描并解释脚本的执行逻辑，使用户清楚了解这些脚本是否具有恶意。11.3.2恶意软件分析文本内容的创造性生成是大模型越来越常见的用途。各种大模型都可以按照用户想法生成博客、长篇文章、短篇故事、新闻报道、摘要、脚本、问卷、调查和社交媒体帖子、商业报告等书面内容。用户提供的想法（提示）越详细，模型输出内容的质量就越高。

图11-5文生文示例11.3.3自然语言生成另外，可以借助大模型来帮助构思。研究显示，很多营销人员使用人工智能为营销内容生成创意或灵感，而其中的主要价值在于，人工智能可以加快内容生成过程。此外，大模型还可以生成对话内容，例如智能客服、虚拟助手对话响应的生成等。11.3.3自然语言生成除了生成文本内容外，还有一些工具如DALL-E、MidJourney和StableDiffusion，可以让用户输入文本提示来生成图像（文生图）甚至短视频（Sora）。

图11-6文生图示例11.3.3自然语言生成许多大模型用户尝试将生成式人工智能作为一种替代搜索的工具。用户只需要使用自然语言向大模型提问，程序会立即回复，并提供关于相关话题的见解和“事实”。已经有不少搜索引擎引入大模型，带给用户更好的体验。虽然使用Bard或ChatGPT等大模型作为搜索工具可以快捷获取到大量信息，但必须注意，所响应内容并非一直都准确无误。在特定情况下，大模型可被恶意调教，引导捏造事实和数字。因此，使用的时候最好仔细核对大模型提供的事实信息，以免被错误信息误导。11.3.4搜索与知识提取大模型还可以构建对话系统：开发具备上下文记忆、情感识别等功能的智能聊天机器人；进行知识抽取与推理：提取文本中的实体和关系，构建和更新知识图谱。11.3.4搜索与知识提取生成式人工智能工具不仅能生成自然语言，还能生成例如JavaScript、Python、PHP、Java和C#等编程语言的代码。大模型的代码生成能力使得非技术用户也能生成一些基本的程序代码。此外，它们还可用于帮助调试现有代码，甚至生成注释文档。不过，目前编程人员可以让生成式人工智能工具为一些基本的、重复性逻辑编写代码，但在范围和规模更大的复杂任务中，还是有些力不从心。因此，编程人员如果在开发过程中运用了生成式人工智能工具，需要反复检查代码的功能和安全问题，以避免部署后出现问题。11.3.5代码开发大语言模型在网络安全方面的另一个用途是检测网络攻击。这是因为大模型有能力处理在整个企业网络中收集的大量数据并深度分析，判断存在恶意网络攻击的模式，从而发出警报。一些网络安全厂商已经开始尝试使用该技术进行威胁检测。例如，SentinelOne公司发布了一个大模型驱动的解决方案，可以自动搜索威胁，并对恶意活动启动自动响应。微软的SecurityCopilot则演示了另一种允许用户扫描其环境中的已知漏洞和漏洞利用情况的解决方案，能在几分钟内生成潜在安全事件报告，以便用户做好提前预防手段。11.3.6检测和预防网络攻击作为虚拟助理，生成式人工智能在客户支持领域也大有可为。麦肯锡的研究发现，在一家拥有5000名客服人员的公司应用了生成式人工智能之后，问题解决率每小时提高了14%，处理问题的时间减少了9%。人工智能虚拟助理允许客户即时询问有关服务和产品的问题、申请退款和报告投诉。对公司的用户来说，它缩小了获取人工支持以及问题解决的时间，对企业来说，它使重复性的支持变成了自动化任务，减小成本。11.3.7虚拟助理和客户支持大模型能够将音频或视频文件高精度地转录为书面文本。Sonix等公司已经开始使用生成式人工智能从音频和视频文件中转录文本。与传统的转录软件相比，大模型的优势之一就是自然语言处理，从而能够精准推断出音视频中语句的上下文和及其隐藏含义。11.3.8转录生成式人工智能能够对大型数据进行总结和推理，因此也是企业进行市场调研分析，深入了解产品、服务、市场、竞争对手和客户的有用工具。语言模型通过处理用户的文本输入或数据集，对趋势进行书面总结，提供对买家角色、差异化竞争、市场差距的见解，以及其他可用于长期业务增长的信息。11.3.9市场调研所谓SEO（搜索引擎优化），是指按照搜索引擎的算法，提升你的文章在搜索引擎中的自然排名。人工智能助手在SEO关键词优化过程方面能发挥重要作用。通过工具分析，充分满足用户的需求特征、清晰的网站导航、完善的在线帮助等，在此基础上使得网站功能和信息发挥最好的效果。例如，用户可以让生成式人工智能分析自己的网站博客，然后提供一些有利于搜索引擎优化的标题列表。为了获得最佳效果，使用ChatGPT等大模型来确定潜在关键词，然后使用一些第三方SEO提供商的工具进行交叉检查，以确保流量最大化。11.3.10SEO关键词优化虽然生成式人工智能的发展仍在早期，但也让我们看到了未来的无限可能。依托于各类大模型的生成式人工智能将深深融入我们的工作、创作和娱乐方式。这些工具不仅可以帮助我们提高创造力和效率，也可以给我们带来乐趣和惊喜，值得期待。11.3.10SEO关键词优化PART04案例：Magic突破Q算法据2024年2月21日媒体报道，Magic公司宣称其能够实现类似于OpenAI在2023年开发的“Q算法”的主动推理能力。随着编程和软件开发的需求持续增长，创新和高效的编码工具可能会带来巨大的市场需求。11.4案例：Magic突破Q算法Q算法又称Q-Learning，是强化学习算法家族中最具代表性的基础算法之一。经典的Q算法相对简单、学习快速，具有以下特点：（1）不需要理解环境，简单方便；当然，代价是莽撞、缺乏想象力

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第11章大模型应用框架

文档简介

温馨提示

最新文档

评论

第11章 大模型应用框架

文档简介

温馨提示

最新文档

评论

相关文档

第11章大模型应用框架