




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
前⾔前⾔产业变⾰,智能引领。习近平总书记指出,世界百年未有之⼤变局加速发展⾯临新的战略机遇。⼈⼯智能是引领这⼀轮科技⾰命和产业变⾰的战‘头雁’为⼈⼯智能产业提供了强有⼒的⽀撑和引导,推动科研和应⽤跻⾝世界先康发展提供了有⼒政策导向和法规保障。商业银⾏作为数字化和智能化的⼤模型技术和⾏业应⽤深度融合的最佳⽰范。等多⽅⾯的挑战和机遇,需要充分利⽤⼈⼯智能等新技术提升服务质量和前⾔前⾔⽣成式⼤模型作为近年来⼈⼯智能领域的最新技术成果,以其强⼤的表达⽅⾯进⾏调研和全景式展⽰,为商业银⾏的数字化发展提供理论和实践参考。⽬录⽬录⽬ 录第一章概述 2(⼀)源起:通⽤智能⽬标⾼远,模型规模持续增⻓ 2(⼆)成⻓:新模型架构⼤彰其能,⽣成式技术崭露头⻆ 3(三)爆发:会话智能惊艳市场,产业跟进百舸争流 4第二章人工智能大模型发展现状 7(⼀)技术升级夯实基础,应⽤⽣态蓬勃发展 7(⼆)评测体系逐步完善,可信治理持续健全 35第三章人工智能大模型应用案例 49(⼀)⼤模型场景实践:全流程嵌⼊助⼒业务提质增效 49(⼆)⼤模型应⽤范式:模板化复⽤加速⽅案设计落地 56第四章总结与展望 60(⼀)技术跟踪:研判技术趋势,前瞻布局务实规划 61(⼆)创新驱动:打造产品标杆,敏捷创新赋能业务 63(三)安全合规:完善安全体系,保障应⽤健康发展 64(四)⾼效运营:强化成本意识,提⾼资源使⽤效率 66(五)结语 66第⼀章概述(⼀)源起:通⽤智能⽬标⾼远,模型规模持续增⻓⼈⼯智能技术在过去⼗⼏年⾥取得了巨⼤的发展,形成了完备的产业70-80%AI要⼤量的⼀事⼀议的建模和模型训练,应⽤开发成本和实施周期始终是规2018年以来,⼤模型技术逐渐发展成为通往通⽤⼈⼯智能的关键演进型尚需通过少量的场景专属任务的标注数据来进⾏微调,以便能够理解需要解决的任务类型,最终形成为场景专属模型真正落地。⼤模型的出现在⼀定程度上解决了⼈⼯标注成本⾼的问题。通过对海量数据进⾏⾃监督学习,可以有效地从⼤量标记和未标记的数据中捕获知识,让模型学习到更多的通⽤特征。借助“预训练+微调”可对特定任务进型参数规模越⼤使得⼩样本的学习也能达到⽐以前更好的能⼒,极⼤的降低了⾏业应⽤AI的成本。2017(transformer)GPT等(1)2020OpenAI参1750(如⼈脸)图像的随机⽣成,或者将⼀张图⽚在两种特定的⻛格之间转换(如卡通⻛格和实物⻛格2021Meta等头部科技公司纷纷推出以⽂⽣图(DALL-E,Mae-a-SceneATI等)(NUAMae--VideoCogVideo等),相关质量已能达到商业应⽤的要求。尤其特别的是跨模态⼤模型使图像和⾳视频的⽣成能够通过⾃然语⾔的输⼊进⾏控制和调节,为多媒体内容⽣成应⽤打下了必备的基础。图1:⼤模型演化历程(三)爆发:会话智能惊艳市场,产业跟进百舸争流2022年11⽉⼈⼯智能领域科创公司OpenAI以云端服务的形式发布⽣NLP任务。这种以⾼度拟⼈化的通⽤交互模式向普罗⼤众提供开放域AI服务的能⼒,被认为是通⽤⼈⼯智能发展的⾥程碑事件,获得了市场的⼴泛关注,仅⽤2个⽉就创造了⽤⼾数过亿的新记录,引爆了新⼀轮研发和应⽤热潮。2023年以来,国内外头部科技公司竞相发布⼤模型,形成了“百模⼤Sora凭借在视频质量和⼀致性⽅⾯的出⾊表现,掀开新篇章;能(⻅表⼀。(⻅表⼆⾯向垂类⾏业则发(⻅表三⼤模型能⼒呈现向任务和⾏业纵深的快速拓展的态势。类别简介典型代表语⾔⼤模型旨在理解和⽣成⼈类语⾔,通过学习到总结、翻译等任务。LLaMa、GPT、Claude、Vicuna、视觉⼤模型通过学习视觉特征和语义信息的关系,务。DALL·E2、DALL·E3、Stablediffusion、SDXL、i2vgen-xl等语⾳⼤模型通过学习语⾳信号中的声学特征和语义信息,从⽽能够进⾏语⾳识别和合成等任务。Voicebox、VALL-EX、USM、SpeechGPT、whisperSALMONN 、 拉雅⾳频⼤模型等多模态⼤模型语⾳等成、图⽂问答等任务。PaLI、VisCPM、NExT-GPT、MMICL、紫东太初、Qwen-VL、Sora、GPT-4o、Gemini等类别简介典型代表程序开发⼤模型通过⼤量代码样本的训练,学习代码的结构和特征,从⽽⾃动⽣成符合要求的CodeGeex、Code Llama、CodeFuse、CodeGemma通义灵码等商业智能⼤模型获取实时数据的图表展⽰,也可⾃动总结与图表相关的业务结论。ChatBI、SugarBI等调度规划⼤模型的效率。HuggingGPT、ToolLLM等表三:⾏业⼤模型类别简介典型代表⾦融⾏业⼤模型理、智能投顾、反欺诈等。BloombergGPT、轩辕、AntFinGLM、FinGPT、LightGPT等法律⾏业⼤模型果预测等。ChatLaw、LawGPT、韩⾮等通信⾏业⼤模型其旨在利⽤⾃然语⾔技术来处理通⾃动识别⽂本中的关键信息,并解答客⼾问询。九天、TeleChat、泓湖等交通⾏业⼤模型等。TransGPT、TrafficGPT等医疗⾏业⼤模型通过医疗书籍、病例等数据训练⽽研发等。、灵医等天⽓预报⼤模型利⽤深度学习的⽅法了解各种⽓象数据中的关系,以快速预测未来的天⽓状况。NowcastNetCMA-AIM、伏羲等施、数据准备、算法调优、安全可信等⽅⾯均提出了新的挑战,需要商业银⾏持续探索和优化建设路径,形成⾦融⼤模型的最佳实践。第⼆章⼈⼯智能⼤模型发展现状(⼀)技术升级夯实基础,应⽤⽣态蓬勃发展AI训练集群为研发百亿级参数规模以上的⼤模型提供了注意⼒机制的应⽤改进了模型对⻓程依赖关系的建模能⼒;指令微调技术强化了模型对⽤⼾提问意图理解和反馈偏好的适配程度等等。鉴于⼤模型技术栈的复杂性,⼤模型⼯程化平台成为⼤模型企业级应⽤的必数算协同能⼒涌现,模型学习才识并重算⼒设施当代以深度神经元⽹络为代表的⼈⼯智能模型涉及⾼数据吞吐量的矩(或者单机上可以训练的深度⽹络模型,⽣成式⼤模型的参数规模⾼⾄数千际的⼤模型研发中往往会进⼀步提⾼模型训练的并发度,推升算⼒集群达图2:随着模型参数量增加,模型对算⼒需求不断增⻓⽬前通⽤的⼈⼯智能芯⽚以英伟达的GPU产品为主流。其中英伟达的BlackwellGB200Blackwell架构的超级芯⽚,旨在AIB200BlackwellGPUGraceCPUB200GPU2080420petaflopsFP4GraceCPU72核⼼的ArmNeoverseV2TDP2700WGB200在推理⼤语⾔模型性能上⽐前代H100301/25GB200384GB900GB/sNVLinkGPUCPU1.41.8AI任务GB200NVLink国产AI算⼒产业近年来取得了⻓⾜的发展。华为昇腾910对标业界先AI(FP32)99(FP16)376(INT8)752Atlas900A2PoDc最⼤可扩展⾄包含8000昇腾芯⽚的AI算⼒集群,提供3EFLOPS超强算⼒,计算节点间通过200GRoCE⽹络互联,保障集群训练时的⾼线性度。模型并⾏框架在集群化AI算⼒设施的基础上,⼤模型的训练可以通过以下⼏种并⾏模式开展。(由于当前的⼤模型规模往往远超单个计算设备的它基于矩阵运算分解的数学原理在模型的层内进⾏分割,形成的单个⼦模采取基于深度的切分,将⼤模型的不同层级拆解到各个计算设备并通过流⽔操作的⽅式形成各个层级运算的并发执⾏。相对于流⽔线并⾏中分布式数据交换主要发⽣在承载相邻层级的计算设备之间,张量并⾏中各个计算⽤在⼀机多卡的服务器节点内部的并发实现。图3:⼤模型训练的并⾏模式:模型并⾏[1](备上的模型实例来参加训练过程,设备相互之间定期地就训练所得的模型参数或者参数优化的梯度值进⾏同步,保证所有设备上的模型状态保持⼀致。数据并⾏⼀般要求每个设备上的训练实例储存和维护完整的模型参数AI(ZeROZeroRedundancyOptimizer)训练实例动态地从其他设备通讯获取需要的模型参数和梯度值来完成本地的训练计算,从⽽极⼤提升数据并发模式下的内存使⽤效率。[1]引自https://openmlsys.github.io/chapter_distributed_training/methods.html图4:大模型训练的并行模式:数据并行[1](在实际应⽤中往往综合模型并⾏和数据并⾏等多数据并⾏+流⽔线并⾏+张量并⾏的模式可以充分利⽤算⼒资源和通信带宽达到兼顾模型的内存扩展性和训练加速的⽬的。图5:⼤模型训练的并⾏模式:混合并⾏[1]⽬前主流的AI计算框架⽣态均已⽀持以上全部或者⼤多数的并⾏训练模式。全球来看,典型的如PyTorch+DeepSpeed⽣态和TensorFlow+Mesh-⽣态。国内来看,近两年国内⼚商推出的AI框架市场占有率也正稳步提升。百度⻜桨在2023年针对于⼤模型开发新发布了PaddleFleetX的昇思MindSpore框架充分考虑⼤模型开发时可能会遇到的问题,通过软硬件协同优化,实现⼀⾏代码即可完成模型⾃动切分、分布式并⾏计算,将80%训练数据训练数据的多样性、规模和质量,对模型能⼒的提升起着关键作⽤,被⼴泛认为是AI⼤模型竞争的重要因素。在所有的⼤模型训练数据集中,语料数据的规模遥遥领先,有⼒地⽀撑了语⾔⼤模型的快速发展。体数据和公共数据集等多样性的渠道。这些渠道提供的数据涵盖众多不同语⾔样式和主题,⾮常有助于⼤模型通⽤能⼒的学习。提供了⼤量的语⾔表达和⽂化背景,有助于模型学习到更多的语⾔规律和⻛格。新闻和媒体数据:新闻报道和媒体⽂章数据可以涵盖各种主题和领域,有助于模型学习到与时俱进的语⾔表达和话题。CommonCrawl、GutenbergProject等。中⽂语料⽅⾯,智源研究20多100TB200G·模的数据亦有利于提升模型的泛化能⼒,加强模型对于不同主题和领域表训练数据集HTML的重复数据甚⾄在训练过程中可能导致模型陷⼊⽆意义的局部最优。为了训练数据集人工评人工评估增加/修改清洗规则扩充敏感词表数据分词增加/修改清洗规则扩充敏感词表数据处理平台基于模型的数据评估隐私过滤数据去重数据清洗图6:⼤模型训练数据处理流程将⽂本分割成有意义的词语。常⻅的分词⽅法包括基于规则的分词和基于统计的分词。模型架构结构为核⼼单元组件(⻅图7)。转换器能够并发地接收⻓序列数据输⼊(⽐如⻓⽂本),基于对当前数据序列的分析⾃⾏判断每个数据元素与其他任意元素的相关(也即注意⼒进⼀步加权计算和提炼出数据特相对距离间的元素进⾏⼀视同仁的相关性建模,能够有效的捕捉到⻓序列换器机制在2017发布后在各种⾃然语⾔处理(NLP)任务上都取得了令⼈瞩图(AttentionMechanism)OpenAI拥有1750亿参数的超⼤规模⽹络,包含有96层转换器结构,利⽤了多头注的模型结构据称和类似。混合模型采⽤多个相对独⽴的神经元⽹络,相当于将多个相对较⼩的都需要经过模型的全部计算所导致的训练成本的平⽅级增⻓问题,因此也称为混合专家模型(MoE-MixtureofExperts)。对于单个任务输⼊来说,⼀般务输⼊需要激活的⼩模型,混合模型机制引⼊了⼀个决策⻔的机制以⽣成要激活的⼩模型索引,因此在控制⽅⾯增加了复杂度。⾕歌的SwitchTransformer是混合模型的典型代表。⽬前⽣成式模型的佼佼者GPT-4据悉也采⽤了混合模型的MoE架构,对后续超⼤模型的进⼀步发展可能起到相当的导向效应。训练算法阶段数据算法模型强化学习生成最大奖阶段数据算法模型强化学习生成最大奖励的token二分类预测奖励一致性语言建模预测下一token语言建模预测下一token提示词~10K-100K提示词数量低,质量高对比100K-10M对比数量低,质量高论证理想辅助反应~10-100K(提示词、回复)数量低,质量高原始网页万亿字文本数量大,质量低强化学习奖励学习监督微调预训练基础模型微调模型奖励学习模型强化学习模型图8:⼤模型训练⽅法分类[2]多模态等⼴泛的领域均取得了显著的成效。预训练主要采取⾃监督学习的[2]引自微软AndrejKarpathy的演讲PDFStateofGPT:https://karpathy.ai/stateofgpt.pdf预训练随机地隐去输⼊⽂本中的部分字词,要求模型预测⽂本中缺失的部据对模型做进⼀步的预训练。这⼀步骤对于商业银⾏的⼤模型应⽤⾮常重⾦融领域的问题和任务更加精确和可靠。习中的补全任务外没有其他解决问题的能⼒,需要使⽤有标签的数据集进原始模型的主要参数只对部分参数进⾏训练。低秩适配(LoRA-LowRank级中的参数变化值建模为⼀对约简的矩阵,通过训练简化后的矩阵参数的奖励模型训练:奖励模型⽤于评判⼤模型的输出是否符合⼈类偏好和习的⽅式基于⼤量的⼈类偏好数据拟合⽽成。偏好数据集的构建可以利⽤注员按照预定义的指导原则对回答进⾏⼈⼯偏好排序。训练过程往往使⽤最终促使奖励模型成功地模仿⼈⼯评判来对⼤模型的输出内容进⾏标量化打分。境的奖惩反馈和更新⾃⼰的策略,来逐渐提⾼⾃⼰的⾏为性能以达成优化在训练过程中利⽤融合了⼈类专家知识的奖励模型对⼤模型的输出内容进⾏⾃动评分,针对评分不佳的回答采取⽤强化学习中的近端策略优化技术对⼤模型的内容⽣成策略进⾏迭代优化,最终实现⼤模型内容⽣成和⼈类价值观的对⻬。在经过以上所有训练步骤后,⼤模型成为兼具常识和相关领域专业知模型轻量化技术任何技术的繁荣都离不开社会化创新。⼤模型要⾛向千⾏百业的普及(⻅基于原训练集上做⼀定的微调,以避免由于⽹络结构变化⽽出现的性能下降。剪枝剪枝剪枝后剪枝前图9:模型轻量化技术:剪枝技术328布密集的值域区间采取较精细的刻度以提⾼表达的精确性。混合精度⽅案(⻅图模型的学习过程;或者逐层提取⼤模型的中间层输出作为⼩模型对应层的监督信号来分层次进⾏知识迁移。知识蒸馏可以在保证⼀定精度的前提下获得较⼤的模型压缩率,但需注意可能导致的模型过拟合等问题。图10:模型轻量化技术:知识蒸馏提⽰引导巧⽤模型,沉淀提炼应⽤范式提⽰⼯程⽣成式⼤模型依据输⼊的⾮结构化⾃然语⾔指令来执⾏任务,在极⼤输入输入... ... ...输入...输入输出输入...输出输入输出 输出输出输出输入输出输入输出出提示
思维链示
自洽式思维链 (d)思维树提示图11:⼤模型提⽰语设计模式[3][3]ShunyuYao,etal.TreeofThoughts:DeliberateSolvingwithLargeLanguageModels,/abs/2305.1060111(IOPrompting)Prompting,即没有⽰例)或多个⽰例(Few-ShotPrompting),来让⼤模型理解任务的⽬标,并⽣成合适的12(Chain-of-Thought在输⼊输出提⽰问题并展⽰每个步骤的过程性输出,特别有助于解决依赖深层次逻辑思维的任务。⾃洽式思维链(Chain-of-ThoughtPromptingSelf-Consistency)是思这种⽅法可以降低⼤模型单次采样时可能出现的随机性和错误性,提⾼在复杂推理任务上的准确性和可解释性。思维树提⽰(Prompting)通过提供思维的树形逻辑结构来引导模型的解答⽣成过程。它
图12:提⽰模板⽰例相对于传统深度⽹络模型需要通过微调训练来适配任务,⼤模型通过提⽰词⼯程可以在不改变模型本⾝的情况下完成⾯向场景的对⻬,极⼤地App。用户应用用户应用I大语言模型API直接API调⽤是⽬前最普遍的⼤模型应⽤模式,⻅图13。App接受⽤App基本是这种模式。⾯向特定领域和任务的应⽤,要和环境进⾏互动来构建综合解决⽅案,从⽽推动了检索增强⽣成(Retrieval-AugmentedGeneration)和AI智能体(Agent)两种⼤模型应⽤范式的演进。检索增强⽣成是⼀种知识密集型任务的应⽤模式,通过语义检索机制赋予⼤模型动态获取外部知识的能⼒。该模式下的系统通常由三个组成部分构成:⼤模型、知识源和语义检索模块(⻅图14)。对于输⼊的问题,()中找到相关的⽀持性内容,然后将这些内容与原输⼊联合在⼀起提交给⼤(最具代表性的产品为微软NewBing的聊天式问答。基于私域知识的检索增强⽣成应⽤也已开始在商业银⾏落地和推⼴。图14:检索增强⽣成(Retrieval-AugmentedGeneration)技术AI智能体是⼀类能够⾃主完成任务的系统,可以由⽣成式⼤模型和⼀套可以调⽤的外部⼯具集构成。⼯具赋予智能体实施⾏动并取得反馈的能API领对(例如:确定服务调⽤需要的⼊参在智能体应⽤中的错误率降⾄个位数才能够独⽴完成⼯作,当前整体受限于当前模型能⼒,智能体仍未出现规模化应⽤。应⽤开发⼯具LangChainLamaIndexDustLangChain(Prompt之前的问答等任务记录,⽅便开发者为⽣成式⼤模型提供⾄关重要的上下全栈开发集⼤成者,综合平台化繁为简排和应⽤部署等复杂的流程和技术栈,对开发者的知识和技能⽔平要求很持已经成为必不可少的基础设施。传统⼈⼯智能开发平台,如MLOPSSageMaker对前沿⼤模型的集成AzureML的⼤模型优化⼯具包等。此外,⼤模型技术浪潮也催⽣了⼀批HuggingFace,Fast.AI等。相对于传统平台,这些平台更加迅速地集成和提供丰富的预训练⼤模型和领先的⼤模型应⽤开发HuggingFaceHuggingFace是⼀个开源⼤规模机器学习平台,提供了从数据准备、模30持开发⼈员便捷地在模型库中搜索和调⽤需要的⼤模型。平台还提供⼤规模的标注数据集,⽀持⼀键加载使⽤。在此基础上,HuggingFace整合了模型训练、评价、部署⼯具。平台内置了Transformer模型的应⽤编程接⼝,NLPCV等EvaluateGPU的集群资源进⾏⼤模型的训练,并通过平台发布模型应⽤或API服务。百度千帆NLPERNIEBLOOMLlama在内的各种模型结构,都经过了中⽂corpus的预训练,可以直接应⽤于⽂本理解、对话、翻译等通⽤任务。⽤⼾也可以基于平台提供的数据集,使⽤PaddlePaddle框架对PaddleHub⼯具,⽤⼾可以便捷地使⽤模型,实现模型部署,并提供预测服务。ModelZoo华为推出的⼤模型开发平台ModelZoo2,为⼤模型开发者提供了全⽅位的⽀持与服务。它⽀持多种深度学习框架,如PyTorch、TensorFlow、MindSporeGPU模型的训练和部署更加灵活和⾼效。平台的模型库⽬前已经接⼊了主流的⼤模型,如盘古系列、Baichuan、Llama、GLM等,覆盖视觉、语⾔、多模API模型适配⾦融领域,能⼒建设多管⻬下以⼤模型为代表的新⼀代⼈⼯智能技术正在成为数字经济发展的新动⼤模型在各业务领域和场景的应⽤。图15:⼤模型在企业的适配模式及落地应⽤场景按照能⼒的专业度⽔平划分,⼤模型在商业银⾏的使⽤有基础⼤模型、⾏业⼤模型、企业⼤模型、任务⼤模型四种形态,⻅图15。基础⼤模型是业⼤模型基于基础⼤模型和银⾏业领域数据进⾏再训练,可以解决具备⾏型的基础上进⼀步结合企业私域数据训练具备个性化特点的企业⼤模型,或者⾯向特定的专属问题结合任务数据微调训练任务⼤模型,定向攻克⾼价值重点业务场景。⾦融⾏业和/或企业⼤模型。对于急缺的场景⽀持能⼒,也可采⽤模型微调满⾜赋能诉求,或者基于产品配套的模型微调⼯具结合场景数据敏捷开发任务级模型。应当在原有⼈⼯智能技术栈的基础上,结合企业针对以下四个⽅⾯研判设⽔平向通⽤⼈⼯智能演化,促进⼈⼯智能与⾦融业务深度融合。加强算⼒基础设施建设⼤模型参数量的增加导致训练过程的计算需求呈现指数级增⻓。为了快速训练和规模化应⽤模型,需要强⼤的计算能⼒来⽀持⾼效的分布式训⼒建设⽬标应当以业务需求为导向,明确应⽤⼤模型边际效⽤突出的业务AI构建⾼质量数据集数据是⼤模型的重要⽣产要素,数据的规模和质量对⼤模型性能提升在数据处理⽅⾯,⼀是设计合理的数据使⽤机制,如合理数据配⽐等,引⼊领先模型技术⼤模型技术仍然在快速发展和演化过程中,商业银⾏应当以动态发展的眼光持续关注国内外⼤模型的最新进展和趋势,根据新技术特点和企业造⾼素质的⼤模型研究和应⽤孵化团队,以强化新技术研判能⼒和加快业务赋能进程。打造研发运营流⽔线紧跟⼤模型研发运营⼀体化的发展趋势,商业银⾏应当引⼊和借鉴业16。⾯向业务、AI科技研发⼈员,基于底层⼤模型基图16:⼤模型研发运营流⽔线(⼆)评测体系逐步完善,可信治理持续健全(10两个确定的数值商业银⾏在深⼊研究并探索⼤模型潜⼒的同时,需认真对待其潜在的评测维度:保障评测全⽅位覆盖模型能⼒评估⼤规模语⾔模型(LargeLanguageModel,LLM)基于提⽰⼯程(PromptEngineering)、上下⽂学习(In-contextLearning)、思维链推理(ChainofLLM逐渐演化成为⾯向不同任务的基座模型。LLM在不断刷新传统评估任务榜单成绩的同时,也引起了如何有效、体系化的衡量作为基座模型的LLM在多领域多任务能⼒的思考与实践。模型能⼒的体系化量化评估能够直观反映不同模型之间的差距,也能何全⾯评估模型的综合能⼒,让模型在测试评估中的得分能更真实的反映实际⽤⼾体验。模型安全评估⼈⼯智能模型因为其性能⽽⼴泛应⽤,⼜因为其决策难以理解的⿊盒或不确定环境时的表现进⾏评估,例如通过添加轻微错误或改变语义等⽅(透明性)⽅⾯,⼤模型评估关注模型解释的合理性、⼀致性。模型的可解释性可以从模型在处理某个任务时是否有合理的依据,以及模型对于输出结果的不确制模型⽣成特定⻛格或者含有特定元素的内容。这个评测标准主要是为了确保模型在实际使⽤中的灵活性和适⽤性。模型伦理评估了真实世界的错误与⼲扰,⽽具备更多参数的⼤模型往往更善于模拟训练(性别/种族/宗教是否公平对待所有群体。通常评估⽅法是检查模型是否更倾向于对某种群体进⾏负⾯或错误的标记,或者在处理涉及不同种群体的任务时是否存在/⼤模型评测⽅法Chinchilla(69.3)在5-shot设置下的MMLU表现⼏乎是所有⼈类评分者平均值(34.5)的两GPT-4(86.4)在5-shot设置下已经⼗分接近⼈类专家(89.8)的⽔场景需要设计新的评估⽅法。例如,在代码⽣成任务中,常⽤的评测指标pass@k需要多次采样⽣成结果,然后使⽤编译器或解释器执⾏检查。的⾃动评估主要依赖于标准化的度量和基准测试集,我们也看到了近期更多针对⼤模型的基准测试集出现。基于打分系统的⼈⼯评估可以提⾼模型评价的丰富性和准确性,因为相较于针对特定NLP任务构建的学术基准测试集,⼈类主观构建的话题以及对于模型回答的判断可能更适⽤于评判通⽤聊天机器⼈的好坏。例如UC伯克利提出的聊天机器⼈竞技场(ChatbotArena),利⽤Elo等级分制度引⼊⼈类评价对⼤语⾔模型进⾏排名。使⽤Vicuna可以根据有⽤在编程或数学问题上还不能给出良好的评估。⼤模型评测指标模型在该任务上的平均正确率。对于可以直接⽐较模型回复和标准答案的(Eac-mch)(eall精确度(Precision)和F1等指标;对于有参考答案的其他条件⽂本⽣成任务,BLEUTER,ROUGE和METEORRRNDCGPassBPB(ECE)ECE低的模型预测1000700个是有毒的。模型的稳健性和公平性评估⽅式较为类似,通常通过⽐较模型在不同输⼊下的精度差别来衡量:对模型输⼊施加错别字或语义等扰动模拟真实⼤模型评测数据集⼤模型评估⽅⾯已经出现了⼀些有代表性且⼴泛使⽤的综合基准数据BIG-Bench是⼀个各领域专家合HELM16组核⼼场7MMCU数据集,覆盖教育、医学、⼼理学、法律4除了以上综合测试集外,还有专注于评估⼤语⾔模型特定能⼒的测试TyDiQAMGSM、⽤于复杂推理的HellaSwag、⽤于阅读理解的SQUAD、⽤于代码⽣成的HumanEvalCivilCommentsSAESuperGLUE18个⻛险管理:助⼒打造负责任应⽤对于⼤模型在安全可信⽅⾯的问题,我国⾼度重视⼤模型技术⻛险的管理。2023年7⽉,⽹信办会同六部委共同发布《⽣成式⼈⼯智能服务管(为⽣成式⼈⼯智能的发展和应⽤推⼴成式⼈⼯智能技术创新和⻛险防范等⽅⾯积极展开合作和研究。以下从性能缺陷、脆弱性、伦理三⽅⾯对⼤模型技术⻛险管理展开讨论。性能缺陷⻛险管理⽬前⼤模型对于其⽣成内容的可信性缺乏保障,容易⽣成⾃然流畅但⾏业带来的⻛险采取针对性回应举措:法律法规⽅⾯建⽴系列规章制度,对主管部⻔的⾦融政策指导实施监管和规范,同时加强⾦融⼤模型的技术创新和防御研究;企业层⾯,建议⾦融企业设⽴相关部⻔负责⼤模型技术⻛险管理,整体考虑和设计符合⾦融业务场景的⼤模型安全制度体系,扩⼤⼤模型安全专业⼈才队伍,提升相关⾦融技术⼈员的专业技能。脆弱性⻛险管理⽬前⼤模型在⾯对攻击⾏为时具有脆弱性,例如在⾯临特定形式的输⼤模型技术在⾦融服务中的使⽤带来了极⼤的安全⻛险,需要采取措施防范潜在的恶意攻击:⾏业层⾯,建⽴⾯向⾦融⾏业的⼤模型脆弱性⻛险管理标准规范,健全技术体系以⽀持落实国家监管政策,针对⼤模型的对抗和投毒攻击⻛企业层⾯,针对⾦融⼤模型脆弱性采取相应的技术⼿段进⾏防范,⽤⾏为应当及时停⽌服务并视情况采取惩罚。伦理⻛险管理⼤模型由于其⾼质量内容⽣成的能⼒,导致其在使⽤的同时可能引发容可能诱导使⽤者进⾏不合理甚⾄⾮法的⾦融⾏为;⽣成内容中可能存在于模型⽣成内容的有害程度和偏⻅与歧视问题形成度量标准,同时构建相关问题的测评技术体系,指导企业对⼤模型⽣成内容进⾏⾃动化检验;⽣成诱导性或偏⻅与歧视性内容。技术探索:提供安全可信技术⽀撑信息追溯技术ChatGPT为代表的⽣成式AI技术已经表现出了⾮常惊艳的AI技术实际部署出现问题时,对特定结果的产⽣原因、关键环节等要素进⾏因果溯源分析,保障⽣成结果与事实的⼀致性是实现⾦融⼤模型可信⽣成的基础之⼀。为了降低⼤模型的性能缺陷⻛险,实现⽣成式AI技术在⾦融业务场景源的⽅式特定⾦融结果的产⽣原因、关键环节等要素进⾏快速的因果溯源分析。该⽅法主要由检索器和⼤模型两个模块实现结果的整编和溯源:攻击防御技术现有的基于⼤模型的内容⽣成技术属于深度学习技术范畴,其运作⼏乎完全由数据驱动⽽⾮由⼈为规则确定,因⽽容易存在难以察觉到的脆弱性问题;再加上训练及应⽤环境直接⾯向数据提供商及⽤⼾产⽣的⾃然语⾔⽂本及图像等复杂⾮结构化数据,模型⾯临极⾼的不确定性和被攻击可究基于内容安全检测的攻击防御技术,针对⾦融⼤模型开发和应⽤阶段涉Prompt注⼊等对模型的对抗攻击;可解释技术们只能看到数据的输⼊和输出,其内部判断的运⾏规律和因果逻辑尚不清机理和输出的可解释性、建⽴合适的可视化机制来评估和解释模型的中间为了降低⾦融业务场景的⼤模型伦理⻛险监管难度,帮助⾦融机构识别潜在的模型⻛险并可以及时调整和改进推理结果,主要研究融⼊因果理论的⽣成式⾦融⼤模型:模⾦融数据的⽣成过程,对因果机制和⿊盒模型进⾏协同优化来消除模型并利⽤可视化等技术⼿段实现⽣成过程的可解释分析,帮助⽤⼾更好地理解⾦融概念和决策;基于因果⼲预的可控⽣成技术:借助因果⼲预和反事实推测⼿段,研究⾯向⾦融领域的⼤模型可控⽣成⽅法,结合梯度的低秩分解对模型的第三章⼈⼯智能⼤模型应⽤案例以⽣成式⼤模型为代表的新⼀代⼈⼯智能技术将极⼤地加速⾦融业数(对商业银⾏⽽⾔尤其是⼤语⾔模型的⽣成式能⼒已成为数据处理的(⼀)⼤模型场景实践:全流程嵌⼊助⼒业务提质增效17。以下结合中国⼯商银⾏的典型实践案例来介绍⼤模型的银⾏业应⽤场景和业务价值。
图17:⼤模型在⾦融领域的重点应⽤领域⾼解决率与客⼾满意度。不过鉴于⽬前⼤模型在⽣成内容可控性⽅⾯的问案例⼀:坐席助⼿提升客⼾服务体验⽬前,商业银⾏主要通过⼈⼯客服和智能客服两种⽅式为客⼾提供咨程银⾏业务中将知识搜索与⼤模型技术结合,实现基于实时通话向坐席⼈办公协作NLP⼤模型的⽂本⽣成、问答能⼒,全⾯案例⼀:智能办公助⼒办公模式⾼效化ee企邮等案例⼆:智能助⼿赋能⾯试流程智能化HR⼈⼯筛选招聘员HR⼈⼯分析应聘者的情况及能⼒提供了便利。案例三:⾦融市场咨询分析、⽣成⾃动化商银⾏利⽤⼤模型的⽂本⽣成能⼒,实现投研晨报等⾦融市场各类报告的运营管理案例⼀:⽹点助⼿赋能业务流程⾃动化85%服经理万余⼈。制度查询服务可智能化⽣成便于员⼯理解的操作流程和术案例⼆:⼯单分析、⽣成⾃动化⼯商银⾏每⽉需处理数⼗万件客⼾意⻅⼯单,传统⼈⼯智能技术已可答复环节对原有模式进⾏创新,利⽤⼤模型可根据员⼯与客⼾电话核实情研究开发相较于传统纯⼈⼯开发的⾼技术⻔槛和⾼⼈⼒需求,基于⼤模型技术案例⼀:智能研发助⼒研发数智化智能研发属于特定细分领域的专业化应⽤,存在⾦融属性弱且⾃研难⻛险防控案例⼀:信贷全流程审批智能化传统信贷业务模式主要依靠业务⼈员累积的经验,⼿⼯审核和评估信案例⼆:可疑报告⽣成⾃动化⼯商银⾏依托⼤数据及传统⼈⼯智能技术建成客⼾尽职调查、⼤额报案例三:智能员⼯助⼒内控合规智能化e控沟通交流平台,为基层员(⼆)⼤模型应⽤范式:模板化复⽤加速⽅案设计落地实际需求和应⽤实践,创新打造适配⾦融⾏业的“1+X”⼤模型应⽤范式,X插即⽤的零代码⼯程化解决⽅案,⼤幅提升⼤模型在全⾏规模化应⽤的效率和质量。⽂档编写在通过⼤模型将简单的事实陈述扩写成⻓篇资料。分析研判旨在对照专家编写研判报告过程,基于⼤模型的阅读理解能⼒对多种参考资料等进⾏阅读、素材抽取,并形成研判分析报告。智能搜索⽣成问题答案及来源,最终业务⼈员反馈问题答案。
图18:智能搜索应⽤范式的流程索⼤模型和⽣成式⼤模型分别完成知识搜索和答案⽣成,最终业务⼈员反图19:知识检索应⽤范式的流程智能中枢⼯、调度场景等。
图20:智能中枢应⽤范式的流程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国仔猪复合维生素预混料数据监测研究报告
- 2025-2030年中国汽车空调O型圈数据监测研究报告
- 河流堤坝加固施工规范
- 婚内抚养孩子协议
- 旧门更换成防盗门施工方案
- 面包车高速隧道施工方案
- 施工洞施工方案
- 商场园区租赁合同管理
- 建设施工合同讲座
- 电子商务法规与合规模拟试卷
- 抵押个人汽车借款合同范本
- 2025年中考第一次模拟考试地理(青海卷)(全解全析)
- 2025年内蒙古电子信息职业技术学院单招职业技能测试题库及参考答案
- 2025年内蒙古北方职业技术学院单招职业倾向性测试题库完美版
- 2025年湖南铁路科技职业技术学院单招职业技能测试题库含答案
- 2025年上海青浦新城发展集团有限公司招聘笔试参考题库含答案解析
- 四年级组数学教学质量提升计划
- 园林绿化企业的职能与工作流程
- Unit 2 Expressing yourself Part A Lets learn Listen and chant(说课稿)-2024-2025学年人教PEP版(2024)英语三年级下册
- 水利水电工程(水电站、泵站)运行危险源辨识与风险评价导则
- 2025年中煤集团新疆能源有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论