




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#领域大模型的挑战与机遇:从构建到应用01
背景预训练语言大模型与大模型时代的知识工程02
大模型的领域适配如何构建领域对齐的大模型?03
大模型的能力提升如何增强大模型在领域应用中的特别能力?04
大模型的协同工作如何让大模型在现有流程中发光发热?目录CONTENT#01背景“Given
the
breadth
and
depth
ofGPT-4’s
capabilities,
we
believe
thatit
could
reasonably
be
viewed
as
anearly
(yet
still
incomplete)
version
ofan
artificial
general
intelligence
(AGI)system
”强大的大模型底座知识能力大模型蕴含丰富的世界知识,内涵大量人类常识人工智能之父MeCarthy:尽管自上世纪50
年代以来,常识知识一直是科研工作者重点关注的研究领域,但在AI众多的分支中(如:模式识别和推理),该领域是最难解决与突破的分支之一。大模型是否终结了知识工程?大模型的常识推理能力大模型是目前唯一能利用人类常识进行开放推理的技术现实应用中存在大量变数,不能教条式地机械执行传统常识库较小且难以用于实际推理传统规则系统无法事先事无巨细地列举各种特例规则ConceptNet,过于抽象,难以匹配现实场景年龄错误等潜藏矛盾难以事先制定规则避免从封闭到开放开放世界的理解能力大模型Agent可以执行多步复杂任务大模型具备一定的完成复杂任务所需的动作规划与执行能力大模型Agent在Minecraft中自动采集材料、制造工具并最终构建了所有物品Ghost
in
the
Minecraft:
Generally
Capable
Agents
forOpen-World
Environments
viaLarge
Language
Models
with
Text-basedKnowledgeand
MemoryOpenAI
Code
Interpreter可以通过多步编码逐步完成各种复杂任务大模型在领域落地仍然遇到了诸多挑战推理成本能力缺陷难以协同大模型的推理成本限制其应用大模型推理需要大量时间、算力成本,使其难以用在大规模重复应用中在实际应用中,大小模型协同、按需使用大模型尤为重要Bert模型,每个句子0.05s以内(3090)百亿模型,每秒10-20个token(3090,使用投机采样)100000个句子需要138h千亿模型,调用API,平均每100个词0.03rmb100000个句子需要3000r和大量时间对于大批量任务,百亿、千亿模型推理成本无法接受文本规模较大,智能要求相对低大模型蒸馏小模型知识抽取需要常识推理,传统模型无法解决必须大模型知识冲突验证需要智能,调用频次较低大模型智能问答大模型在复杂决策场景仍有缺陷故障排查、疾病诊断、投资决策等严肃应用场景ChatGPT比较好地实现了机器与人类的开放式对话,也就是开放式闲聊然而实际应用场景多需机器的复杂决策能力,复杂决策是领域应用根本特点丰富的应用知识复杂的决策逻辑宏观态势的研判能力综合任务的拆解能力精细严密的规划能力复杂约束的取舍能力未知事物的预见能力不确定场景的推断能力从开放闲聊到复杂决策仍有漫长道路在ToB应用中需要协同能力和可控性定位:具备各种功能的多功能智能引擎各种企业流程已经定型,目前大模型能力仍不可能直接替代企业整个部门大模型和现有员工现有流程的协同是重中之重如何设计大模型在现有企业流程中的角色?如何往大模型中注入企业私有的内部知识,避免幻觉现象?系统流程设计企业内部知识协同协议和接口如何制定大模型和企业现有流程/工具的接口和协议?如何控制大模型的开放能力,使其稳定以指定协议输🎧?#02领域适配领域模型的持续预训练本质上是数据问题相比于训练模型的流程,数据的收集和配比更为重要模型微调方法已经高度同质化和傻瓜化1GB高质量论文vs
1TB垃圾网络语料要“高质量”论文模型还是通用网络语言模型?数据选择+数据配比混入通用领域数据以避免灾难性遗忘收集并选择有效的领域知识借助大模型能力进行数据增强借助大模型能力或环境反馈构建数据行业/领域大模型的持续训练行业大模型炼制数据缺乏选择依据,是否所有行业数据都要加入 训练?样本数量少收集成本高基础模型已经习得是否进行微调不影响模型后续表现太基础,不必要社会保障号码有什么用?
买某支股票的流程是什么?太细节,不必要数据多,但知识少(比如实时股价)存在隐私问题公司里面每个人的社会保障号码是多少?实时股价数据是怎样的?行业特有反常识高覆盖形式多样高价值行业数据社会保障号码长什么样子?某股票分析报告?难点针对异质来源的来源提示增强问题:大模型训练中语料配比难以确定,优化不同下游任务需要提高各自对应数据占比方案:预训练时向文本加入语料来源,用异质语料的来源信息辅助模型学习;微调和推理时来源可手动添加也可用预训练模型自我生成效果:在领域和通用的设置下均取得提升;即使不加来源信息也能提高效果<SP>Bank
Indonesia
expects
GDP
will
be
less
than4.9%SourceOriginal
TextModelBank
Indonesia
expects
GDP
will
be
less
than4.9%<News>PretrainFinetune
&
InferenceModelNews
Books
Wiki
Paper
Review
Null
ManualNoSP
ManualSPModelSourceOriginal
TextAutoSP经过来源增强的模型在8个下游任务中甚至超越了更大一档规模的未增强模型Yipei
Xu,
DakuanLu,
Jiaqing
Liang,
et
al,
Source
Prompt:
Coordinated
Pre-training
of
Language
Models
on
Diverse
Corpora
from
Multiple
Sources基于来源增强的模型效果C4:来源标签的表述方法不太重要,即使使用不含语义的抽象字符,来源的划分也能增强模型效果17C1:下游任务中不加入来源信息,完全沿用原来用法也可获得可观效果提升C2:指定或使用同一模型自动识别下游任务的所属来源,可获得更好效果C3:即使下游任务给定错误的来源标签,也可获得效果提升,说明模型在预训练中获得了增强建立训练数据的分类体系掌握大模型炼制工艺的关键参数,及其对大模型效果的评价体系什么样的数据决定怎样的能力?建立数据特性与模型能力之间的因果关系数学、生物学、历史学、哲学、经济学、计算机科学...学科知识领域
自然语言、编程语言、逻辑表达式英语、中文、德语、日语、法语、俄语...
严肃、正式、幽默、口语、科普、学术...
新闻、小说、散文、诗歌、自传、日记、网络用语...积极、消极、中性、愤怒、快乐、悲伤儿童、青少年、成年人、专业人士、普通大众科学、文学、艺术、历史、养生、体育、金融、政治图像描述、视频描述、音频转录、图表和数据表格语言类型
语种
文风
文体
情感和情绪
目标受众
题材
多模态数据
#03能力提升大模型理解复杂指令的能力现有大模型评估基准主要集中在知识、复杂推 理、代码。证明小模型已经具备一定指令泛化 的能力,可以完成简单指令。然而,专业领域场景下的指令往往非常复杂任务描述:多任务、形式约束、语义约束、数值约束输入文本:长度长、噪音多、异构、多轮对话小模型对复杂指令的理解仍存在较大缺陷忽略语义约束生成的答案不符合形式约束生成的答案长度、样本数量不对不遵循给定的输入文本作答缺乏一个系统性研究大模型复杂指令理解能力 的评估基准Can
Large
Language
Models
Understand
Real-World
Complex
Instructions?
AAAI2024复杂指令评估基准系统性总结了复杂指令的8个特征,构建了包含9个任务的复杂指令评估数据集,提出了4个评估准则以及对应的自动化评估指标,以期系统性地评估大模型理解真实场景下复杂指令的能力针对复杂指令开放任务的评估指标精确匹配不适用于开放任务模糊匹配语义很相似不一定是正确答案GPT-4打分Large
Language
Models
are
not
Fair
Evaluators得分点设计得分点自动组合和挖掘问题正确答案待评估答案后置nvme硬盘使用的是哪种接口?后置nvme硬盘使用的是pcie接口NVMe硬盘的接口类型为PCIe
NVMe。什么是license的公共邮箱?license公邮:
license@License的公共邮箱是:
license@。典型的Agent复杂指令:完成xxx任务从以下行为中进行选择以json格式输🎧不要有多余的推理过程提升大模型数量推理能力专业领域需要大模型理解大量数值、量纲表述,比如制造业、财务、金融、医疗事件A,临界温度,150K,当前温度-100摄氏度,事件A触发了吗?一个长方形长和宽分别是4米和5米,周长是多少厘米?大模型产生的错误答案:(4+5)
*
2=
18,正确答案:1800
(厘米)通用大模型对于数值处理、量纲理解能力有限Enhancing
Quantitative
Reasoning
Skills
of
Large
Language
Models
through
Dimension
Perception.
ICDE
2024大模型的量纲与数值认知增强优良的数据集、高质量的知识库仍是优化通用大模型某方面能力的捷径量纲单位知识库:通过面向量纲特性的单位知识库,以补充LLM缺失的量纲常识量纲认知的预训练增强:通过量纲认知预训练,将量纲常识和量纲认知能力隐式注入模型中数量推理下游应用:面向量纲认知的数据增强+基于知识提示增强推理,提升在数量推理任务上的能力经过维度感知增强的模型在带单位的物理量推理任务上显著超过了GPT-4(50.67%
vs
43.55%)大模型的自我纠正能力动机:大模型生成答案时,并不是一次性就能形成正确、可信、完备的结果。通过赋予模型自我纠正的能力,模型能够检查自己初始生成结果并且进一步改进生成答案,从而提升模型生成质量。方案:在大模型中引入“内在的自我纠正”机制。设计构造自我纠正数据集,通过指令微调,并提出部分答案掩码(PAM)训练方法,激发大模型的自我纠正能力。使得模型自身能够自发地对自己生成的初始答案进行自我验证、自我修改。经过自我纠错增强的模型,其自我纠错一轮后的问题回答正确率相比直接回答提升5.6%利用模型内在的自我纠正机制处理用户请求的流程自我纠正数据的处理流程基于环境反馈的代码模型修正增强核心思想:使用来自代码执行环境的结果反馈,借助大模型的代码修正能力以及对错误信息的理解能力构建面向命令修正的数据集,增强自研小型专业模型的命令生成能力,使自研模型对运维命令生成具备自我修正能力。以NL2Shell(命令生成)任务为例在训练阶段,使用来自代码执行环境的结果反馈,借助大模型的代码修正能力以及对错误信息的理解能力构建面向命令修正的数据集,构建相应的指令集,通过指令微调,训练小型专业模型对于运维命令的评估、生成与修正能力。在推理阶段,利用自研模型的命令生成与评估能力,实现自研模型的自我反思优化。ShellGPT在领域任务上的性能超过ChatGPT,基于反馈能够提升自然语言转命令、命令纠错准确率约3-5%Jie
Shi,
Bo
Xu,
Jiaqing
Liang,
Yanghua
Xiao.
ShellGPT:
A
Small
Self-Refining
Language
Model
for
Shell
Command
Generation#04协同工作大模型与知识工程的结合当前大模型能力仍不足以完全替代目前较为成熟的知识工程流程大模型需要与当前成熟的知识工程方案进行协同和结合如知识抽取,知识库问答、文档检索、规则推理系统等大模型使能知识工程传统知识工程流程中 的大模型协同知识工程增强大模型领域知识检索增强的 大模型应用从“小模型+专家”到“小模型+大模型+专家”极大增强开放推理能力从“端到端”到“检索-增强-溯源-验证”极大缓解大模型“乱说话”的问题大小模型协作的例子大小模型协作是降低应用成本的有效方法绝大多数简单例子(80-20法则),传统的BERT模型就可解决,其应用成本可忽略不计需要常识、推理、分析的样本才交由大模型解决xxx(1957年1月3日-2011年1月2日),男,汉族,安徽人,
1984年4月参加工作。xxx和yyy在车库里夜以继日地写🎧了DOS1.0,这就是微软公司的第一个产品。大模型小模型成功失败/拒答输🎧结果基于拒答回退的大小模型协作大小模型协作的抽取-纠错-问答流程知识库语料关系抽取文档多,使用小模型主语纠错基于别名库常识检测依赖常识,使用大模型,离线进行同名检测小模型筛选,大模型语义识别问答访问频率低,使用大模型现阶段大模型作为重型高成本工具,应当被用在非它不可的部分大模型使能知识工程为什么不使用大模型直接端到端问答?业务要求高可控性,中间知识库提供了人类维护的接口真实场景中语料的错误或矛盾不可忽视解耦的知识库可以支撑其他更多下游应用大模型在这一流程中起什么作用?不可替代的常识验证和推理能力高准确率的保底/教师方案迄今为止最强大的Few-shot
Learner仅需1-3个示例即可让模型完成各种特异的任务仅需不到100条数据的微调即可定制化更复杂的任务大小模型协作的抽取-纠错-问答流程关系抽取知识库沿用传统知识抽取-入库-问答流程,但使用大模型提升其能力语料文档多,使用小模型主语纠错基于别名库常识检测依赖常识,使用大模型,离线进行同名检测小模型筛选,大模型语义识别问答访问频率低,使用大模型基于大模型的抽取:SnoopIE复杂知识抽取任务需要多种不同的能力识别元素、关系识别、实体配对等通过多阶段指令微调来增强模型抽取能力将现有抽取数据集自动拆分为各种抽取子任务以课程学习从简单到困难训练模型各种子任务使用前通过少量训练适配具体抽取任务中文通用大模型SnoopIEeasySnoopIE新闻抽取简历抽取网页抽取通用NLP任务简单抽取任务实体识别关系抽取复杂抽取任务复杂Schema抽取任务复杂格式定义复杂任务描述具体抽取任务数据微调提升单一任务的抽取能力在新闻人物信息抽取任务中,仅使用300条数据微调达到了92%准确率(由于格式和需求不一致问题,ChatGPT仅有60%准确率)……三元组抽取的大小模型协同(LS-RTE)动机:小模型和大模型在不同子任务上各有优劣,大小模型结合可以互相配合,取长补短方法:将三元组抽取任务分解成四部分,每部分让表现最好的模型来做:关系分类:小模型做,只取得分最高的3个关系实体抽取:大模型做,构建提问模板,分两步提问头尾实体实体补全:小模型做,补充大模型的遗漏错误消除:大模型做,把错误的不合语义的三元组删除实验:超过单独小模型SOTA
17.93%,以及单独大模型基线方法26.7%KG-Verify:基于大模型的知识验证与更新大模型可以对抽取出的知识进行验证,并决策该知识应当插入/替换/丢弃大模型包含大量世界常识,可以进行精准的实体匹配和实体链接通过与已有知识库中的知识进行比对,能够有效纠正逻辑矛盾与常识错误知识验证结束后,对知识库进行更新、补充、删除等不同操作核心:基于知识图谱的证据检索将模糊匹配实体相关信息作为证据,由大模型能力进行推理输入文本……2022年度央视十佳主持人评选活动于今日开启,萨贝宁、尼格买提、李咏等知名主持人🎧席活动,并组织、监督投票工作……候选知识(萨贝宁,参加活动,2022年度央视十佳主持人评选)(尼格买提,参加活动,…)(李咏,参加活动,…)库内知识(撒贝宁,职业,央视主持人)已有知识比对纠错(萨贝宁撒贝宁,参加活动,2022年度央视十佳主持人评选)大模型常识推理验证Prompt:请根据已有信息判断上述知识是否存在逻辑矛盾或常识错误
Ans:(李咏,参加活动,2022年度央视十佳主持人评选)错误,李咏已于2018年去世,这与“2022年🎧席活动”相违背LLM事实验证比对纠错相关知识检索……2018年10月25日凌晨5点20分,前央视主持人李咏因癌症在美国去世……知识库编辑知识更新知识补充错误/过期知识删除在新闻人物信息抽取任务中,纠错准确率达到了90%,召回率达到70%基于自动生成数据的Schema对齐问题:领域数据库Schema过于复杂,无法放入Prompt上下文中例:200张表格,平均每表100列Schema检索方案:面向文档的检索方式对Schema检索效果较差Agent方案:成功率堪忧,同一流程需要重复探索,Memory放不下基于合成数据微调的Schema适配策略通用大模型已有较好的问题意图识别和SQL翻译能力但其不知道领域数据库的具体Schema在种子样本基础上,大模型自动构造样本让模型学习Schema从通用表述翻译到私有领域表述,需要首先理解领域Schema从私有领域表述翻译到通用表述,只需要通用常识大模型不知道:为何“表现”对应于“近1年区间回报(%)”?大模型不知道:为何“消费基金”需要从基金名字进行查询?未覆盖
Schema枚举问题生成SQL生成查询纠正微调训练仅通过约300条样本的微调,对覆盖的Schema部分达到97%问答准确率,且可继续增加数据训练针对大模型文档问答的融合检索方法问题:基于领域文档的检索+问答已经成为常见的流程,但现有方法召回率不高大模型问答中的知识检索对于排序不敏感,但对于召回率和总长度较为关注稀疏检索(如BM25)对领域中常见的精确问题检索效果较好,但缺乏语义泛化性,召回率低稠密检索(如BGE)模糊语义检索效果较好,但容易召回语义相近但不准确的内容,精确率低方案:结合稀疏检索和稠密检索的结果,通过问题中实体的IDF信息控制两种检索结果的融合比例若问题中包含大量专有名词,则应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外架安全合同协议
- 设备合同转让协议书范本
- ppp合同终止协议
- 合同保密协议简单
- 简易餐厅合同协议
- 如何写劳动合同协议
- 如何合同协议解除
- 电动三轮车租赁合同协议
- 合同劳动仲裁协议
- 无偿租地协议合同
- 2025年北京市西城区高三一模物理试卷(含答案)
- 江苏省苏州市2024-2025学年度第二学期七年级历史期中模拟试卷(1)含答案
- 2024年山东省国控设计集团有限公司招聘笔试真题
- 学校校园膳食监督家长委员会履职承诺协议书
- 劳务外包服务投标方案(技术标)
- 《肝衰竭诊治指南(2024版)》解读
- MOOC 现代控制理论基础-西北工业大学 中国大学慕课答案
- 医院保洁服务投标方案(技术方案)
- 2024年中国华电集团公司招聘笔试参考题库含答案解析
- DB11-T 527-2021配电室安全管理规范
- 大金空调VRV施工方案
评论
0/150
提交评论