![金融大模型技术创新与应用落地实践_第1页](http://file4.renrendoc.com/view14/M0B/3E/0D/wKhkGWeIhTyAHuVHAAFGVYUfDPM443.jpg)
![金融大模型技术创新与应用落地实践_第2页](http://file4.renrendoc.com/view14/M0B/3E/0D/wKhkGWeIhTyAHuVHAAFGVYUfDPM4432.jpg)
![金融大模型技术创新与应用落地实践_第3页](http://file4.renrendoc.com/view14/M0B/3E/0D/wKhkGWeIhTyAHuVHAAFGVYUfDPM4433.jpg)
![金融大模型技术创新与应用落地实践_第4页](http://file4.renrendoc.com/view14/M0B/3E/0D/wKhkGWeIhTyAHuVHAAFGVYUfDPM4434.jpg)
![金融大模型技术创新与应用落地实践_第5页](http://file4.renrendoc.com/view14/M0B/3E/0D/wKhkGWeIhTyAHuVHAAFGVYUfDPM4435.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
必11111111
度小满
msup·金融大模型训练与对齐技术探索度小满霍亮宇`?人工智能技术在金融领域的应用值111111
度小满 ms
upo智能金融
(
AlFinance
)
:依托于互联网技术,
运用大数据、人工智能等金融科技手段,使
金融行业在业务流程、业务开拓和客户服务等方面得到全面的智慧提升,实现金融产品、风控、获客、服务的智慧化。风险管理Al分析市场数据,预
测股票价格波动等个性化金融服务Al根据用户的消费习惯推荐理财、信贷产品智能信用评分Al综合用户财务信息,
生成精确的信用评分必面向金融领域人工智能技术的发展©深度学习时代;值111111
度小满 ms
upo(0大模型时代)赖于简单规则和算法,自动化基本交易和数据处理只能处理预定义的任务,缺乏自我学习和适应能力引入机器学习,
利用历史数据进行预测和决策支持股票预测、风险管理、欺诈检测深度神经网络,提高数据规模自然语言处理、图像识别等领域的突破信用风险评估,降
低违约率生成式大模型技术引入,利用大量预训练预料,提高自然语言理解能力客户服务、投资建议、市场分析必通用大模型应用于金融领域的难点值111111
度小满 ms
upo,金融知识不全面工金融能力待提高6,1
'.--.·-·◄.伽.
":'-.--•'..•一..f文",.1.--.1If.!.!'.-.,.hl.l.1
®l.llII,l1II·-
--•
让
·,.你 ....,
、,;;':.i·
`
`
、,
h
l
l勹;il,l
什I|i`|
l
`·
譬卢..
山i
iu ,;
叫l心
·-·一, 1 ...4
j斤II!1,I
.工金融安全有风险行业数据高噪声金融知识多样化信息更新时效长领域知识出现幻觉金融计算难以准确金融研判专业性不足私域数据难共享铭感信息易泄露金融决策不靠性必°通用大模型的金融场景应用能力不足值111111
度小满 ms
upo案例:
RPA
电销话术推荐实时对话
销售:
你好,是
张xx先生吗用户:喂,你好销售:哎张先生,这边是给你做回访的,我是xx员工,工号 1
Oxx,
来电话呢,
是免费给你提升额度下调利息xxxxx用户:嗯,今天到这好吧,我不用@)
Claude30 :哦不用今天到账是吧 ,嗯 张先生,
咱
们现在有在用的其他平台的贷款吗?就是像xx、xx这些的。您要是有需要的话,
我这边昵可以先帮您重新免费申请一下额度,
把利息也给您下调。这样您以后有需要了随时都可以直接来我们平台,用着也方便,您看昨样?@
GPT4O
:唉张先生,
您之前没有继续用咱们的额度是因为利息高吗?回复过长/短、语气状态、营销技巧必值111111
度小满 ms
upo`?方法:
对通用大模型进行“金融对齐训练"升级,--------------------------------------------------------------------------,--』金融对齐训练I---------------------------------------------------------------------------------------------------------------------'一一一一一一一一一一一一一一一一一一一一一一一一一
一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一;一通过调优模型参数和训练数据,使模型在金融领域具备更高的专业能力和安全性,以符合特定价值和目标[金融知识]引入金融数据和案例,f
增强模型对金融知识的理解和掌握
(
]金融能力[构造特定任务数据(金融预测、风险评估等),提升金融场景能力金融安全(
]通过人类偏好学习强化数据安全和隐私能力,确保在处理金融数据时的安全性和合规性
必°度小满开源了轩辕系列金融大模型值111111
度小满 ms
upo愿景:打造最好的金融行业大模型2023.52023.92023.112024.12024.3国内首个千亿级金融大模型「轩辕-千亿」「轩
辕-70
8
」
大模型,金融能力超越通用模型「轩辕-708」chat及8-bi
t和4-
bit量化模型「轩辕-138」base、chat全自
砑「轩
辕-68」及[轩辕2.0-
708]base
、chat轩辕3.0即将发布(金融能力)(中文能力)( 场景应用能力
)( 安全性能力 )\/XuanYuan-6B基座模型Chat模型8-
bit
量化Chat模型4-bit
量化Chat模型^^`
竺 |绘
竺艇竺
位置!纷窐 勺竺艇 . 监
-I -XuanYuan-13BXuanYuan2-70BXuanYuan-
70BXuanYuan-176B志董.窒盗7呈
竺呈竺竺g-.7盗竺
簟.鸟
总主页链接:
htt p
s:///Duxiaoman-D1/XuanYuan已开源17款金融模型,
满足不同金融领域开发者需求必°金融能力领先,
通用能力强大值111111
度小满 ms
upo( 通用能力(
金融能力(
场景能力)
在C-
Eval和CMMLU两大权威榜单上,
截
止到发布 ,轩辕70B
均名列所有开源模型第—)
轩辕70B已经通过注册会计师、银行/证券/保险/基金/从期业货资格、理财规划师、经济师等金融领域权威考试,且考试得分领先千其他通用模型)
轩辕70B在度小满自有金融业务场景测试中表现领先,特
别金融 知识问 答
、
NL2
SQL等场景表现优异[各大主流评测集成绩]MODELMMLUCEVALCMMLUGSM8KMBPPBBHFinancelQXuanYuan-70B70.971.971.1074.44371.467.56GPT483.9368.4070.9591.461.886.760.05ChatGPT69.152.553.978.260.270.144.2Llama268.952.1053.1163.539.664.936.02Baichun2-13B-base59.1758.1061.9752.630.84951.2Qwen-14867.971.770.261.639.853.753.29*榜
单排名截必止到
Xuanyuan-
70B
开源发布日期
2023年9月21日轩辕模型应用探索值111111
度小满 ms
upo幻觉问题解决率
96% I
电销一
-转化率
12%
i
I助手金融场景应用探索码手代
助采纳率
42%体感研发效率
20%
i服务效率
25%
t服
手客
助办公
I 意图识 别准确率
97%助手
l
用户满足率
20%
86%增信助手[
增信补件效率
37%
i
)必目录值111111
度小满 ms
upoPart
2:度小满"轩辕“大模型对齐训练之路必对齐技术的发展值111111
度小满 ms
upo早期阶段(1920-1
960)中期阶段(1
960-2008)现代阶段(2008-2021)当前阶段(
20
21-至今)Asimov在小说中提出机器人三大机器人定律Wiener讨论机器目的,机器伦理概念出现Al与人类利益/价值对齐的话题引入,Asilomar
Al原则强调价值对齐-SFf
-------,,-LLM IIn-Context-------
-...,-
R壶一一一一一一一一一一一一一一一-, r2
RLTuning I
I..1.l=lReward
"(!由
圈矗II
I Respon
se
• ----
一,Ili
Refine
:,户--x.,、I
·
_
_:
:
1
-I
II
I:
:LLMISelf-evaluation/jIIExternalToolsI
ILLM
1
”一!!
勹,
--.-.r.fI
I矿" lI|Instruction志圈In
s
h t
ion|II
IAlignmentPrompts------r--:IlII.i
1
l
£RM(中)=-
IEv
log(
心
(此伈)-,R,,
(
yi
1动))1:
y~
p
(y|x,
v
)
=亢。(y
x|
,叫如 (6).
_Value
instruction=
一log?
N 平(西
)
I
IIi I
I
2max IE [,R,,如 )
]
-
入KL[亢
e(y|x!Iy~p(y|x,x1,y1,...,xk,yk
)亢·x~
'D,y勺•')II亢SFT(y|x)lI1=
西(y|X,X1,Y1,...'Xk,Yk)|
I飞 w-shotexample:
s------------------------------------------
.....适用于大语言模型的对齐训练方法[
1]se@n仓opseR^n。@it志lgsnI志lns,truction
矿Response屯?`霆富,1RewardModel
LearningReward
w;----fO :!l
一一一一一'1u·,
`心Yt
>Q)YJLLM兴起,DeepMind首次将LLM视为智能体并讨论对齐问题[1
]W
a
n
g
X,DuanS,YiX,etal.OntheEssenceandProspect:AnInvestigationofAlignmentApproachesforBigModels[J].arXiv
preprintarXiv:2403.04204,2024.必RLH
F
相比与SFT-
Only的优势IRLHF|值111111
度小满 ms
upo对有限样本示例的模仿不断交互,通过反馈优化,符合人类直觉广泛探索,泛化性更强/方法层样本层易过拟合,处理相似样本学习层仅提供正样本既能学习正样本,又能原理负样本\L损失层相当于hard
label 相当于soft
label更少的数据标注需求更健壮偏好捕捉能力更能考虑整体的影响更容易减少幻觉更好地解决多轮对话奖励累计行为克隆Behavioural Cloning[1lmin
D
KL(吓(
.I
s),刓.I
s))7「v7rE
-v 7rBC
三2迈Rmax(1—,)2
`[1]BainM,SammutC.AFrameworkforBehaviouralCloning[C]//MachineIntelligence15.1995:103-
129.必基于RLH
F的对齐训练流程值111111
度小满 ms
upo(语言J部分表达方式非中式思维部分常识性问题不合国情—些回答易夹杂外文单词部分观点不符合我国核心价值观部分敏感类问题缺乏口径对齐部分违法犯罪问题和我国实际不符语言表达不符合行业风格金融计算能力不足易出错观点提取及数据分析是短板金融数据增强的预训练金融指令增强的有监督微调金融偏好增强的奖励训练金融能力增强的强化训练必金融数据增强的预训练
(
XuanYuan
-
70B)值111111
度小满 ms
upo进— 步
增
强
中
文
和
金
融
能
力基 座 :
Llam a
2- 7
0b ,数据质量数据清洗去重流水线-综合通用数据(网页、百科、论坛、社交媒体、间答)-高质量金融数据(金融资讯、公司公告、金融百科、书籍、考试题)-文本抽取、数据清洗、去重校验数据比例-中文与英文数据比
例为
3:1-通用数据与金融数据比例:
初期为
9:1
->
4:1模型训练4k 扩
展到
8k
和
16k数据分桶的动态预训练:兼顾训练效率和长文本建模上下文长度:从数据预处理中文金融特性·定制词表,提高文本编码和解码效率·两阶段训练更新词表和模型参数i-g
。瓜英文:
MMLU中文:CEVAL/二必金融指令增强的SFT (XuanYuan-708)值111111
度小满 ms
upo两阶段模型训练第—阶段:第二阶段:质量使用开源多语种指令数据进行训练,提升模型对多样指令的遵循能力使用自研高质量通用+金融指令数据进行精细训练,保证数据的多样性和数据构成通
用指令
·
金融
指令砌吻砌砌常识百科吻创意生成代码
编程吻安全无害逻辑推理砌摘要抽取数学计
算吻开放间答包金融
百科包研
报解读巨金融计算包客
服话
术(通用领域:8大类
50小类][
金融领域:4大类20小类:必对齐训练的基座模型金融能力评估值111111
度小满 ms
upo开 源了 Financ eIQ:中 文
金
融
领
域
知
识
评
估
数
据
集,
包含10大类、36小类,总人工评测体系构建:覆盖保险/信贷/理财/风控等多领域计
71
73个金融单项选择题初级《经济基础知识》初级《专业知识与服务》中级《经济基础知识》中级《专业知识与服务》《税法(一)》《税法(二)》《涉税服务相关法律》《财务与会计》《涉税服务实务》\\\\\\\\
\/《个人理财》《公司信贷》《个人贷款》《风险管理》《银行考试》《银行业法律法规与综合能力》《基金法律法规、职业道德与业务规范》《证券投资基金基础知识》《私募股权投资基金基础知识》《审计》《财务成本管理》《经济法》《会计》《公司战略与风险管理》《税法》《证券市场基本法律法规》《金融市场基础知识》《基础知识》《专业能力》《期货基础知识》《期货法律法规》《期货投资分析》《金融数学》\
《保险基础知识》《保险实务》《保险法规》《保险市场
与营
销》必目录值111111
度小满 ms
upo. Part
3:
度小满“轩辕“大模型强化训练探索必大模型强化学习
(
RL
)
过程建模值111111
度小满 ms
upo环境奖励值状态对话过程状态动作累计奖励4,Q 推理累计奖4,励?·智能体SFT模型奖励值?状态标准强化学习
(
RL)
过程LLM
的
RL
过程必奖励模型训练流程值111111
度小满 ms
upoDemoI圈I孟。血°I圈
IRew
ar
d:·oughthe
obD
em
oI
d
on
'
tmostobe
infm
p
ar
eth
ese。品,0(J孟.o。I圈
IRew
ar
d:idthe
obst学习奖励函数的两种方式[
1][1
]TheEffectofModelingHumanRationalityLevelonLearningRewardsfromMultipleFeedback
Types必…心
偏好数据对生成值111111
度小满 ms
upo案例:
RPA
电销话术推荐场景@)您好周先生,我是...。 我没有这个需求令我们现在是为了帮您调整..。额度能提升多少\历史对话记录
l 这次是我们五周年人工邀约xx信用
卡不能提现到银行卡的xx(3)
趁着这个活动,给您做
免费的I你名叫xx,你的角色是金融公司的电话销售,你
需要XXX,
你需要围绕以下给出的要点对客户进行主动营销\n
\
n
要点1:xx\
n要点2:xx\
n\n根据对话内容生成推销话术,对话内容为:
\n
\
n
销
售:xx\
n
用户:
xx对齐prompt构造》
Y又汉
》金融大模型生成回复1:您好
周先生,我理解您现在可能暂时还没有资金需求XXX回复
2
:
周先生本次
调整时完全免费为您上调额度并下调利息XXX回复
N
:
这次的活动主
要是为了让您提前准备
,
方便将来xxxx要点库检索多条回复采样对比回复1
>
回复3回复2
>
回复N人工标注必偏好数据集构建值111111
度小满 ms
upo·构建二级数据标签根据底座SFT模型能力调整数据配比.开放式问答创作类生成.风格改写数学计箕.文本翻译摘要,总结.伯从提取其他金融问答.金融百科·股票投研金炖摘要.金融分析其他l人工构造政策.新闻.敏感词构造不良角色诱导不公平
歧视违法犯罪行为f行哼
\J犯t,'J神.身体佼害.似私财产提示词泄高伦理追径其他安全性 有用性.计算response之间相关性,
构建标注pair金融能力sentence1
sentence2sentence3
sentence4
sentences
sentence6
sentence7亡三
°
30128205 04813278023738872057635468019548872
O.08374384I9990.326923080.26112760.298076920.17105263
0.05769231sentence1sentence2sentence3sentence4sentencessentence6sentence79990.231454010.16729323
0.05341246999,0.195488720.仍邓
128999
0.031如必标注数据对筛选值111111
度小满ms
upo.ooo对标注数据进行两阶段精标:
利用打分RM
识
别低置信样本对,
人工精标,
提供标注效率0 >0 >
0引
入ActiveLearning的思想,
提高标注量及质量:将人工标注专注解决模型confused的样本,
模型已经非常置信的样本标注员只确定模型认知是否正确R(A)-
R(B)R(A)-
R(B)me
an二二:.0需
要依
靠人工标注Step
1
:大
模型采样Step
2
:
多RM打分Step
3
:
判断样本价值Step4
:人工确认&标注必奖励模型训练值111111
度小满ms
upo对标注数据进行两阶段精标:
利用打分RM
识
别低置信样本对,
人工精标,
提供标注效率pair-wise
response数据同分布奖励模型-1I
I同分布奖励模型-NI
Iscorediffaverage
distribution600050004000300020001000。-0.0002 -
0.00010.00000.00010.00020.000350004000300020001000。scorestdaverage
distribution0.000.250.500.751.001.251.501.752000017500150001250010000750050002500。scoreklaveragedistr
ibution0.000.050.100.150.200.25必偏好数据人工标注值111111
度小满 ms
upoPairwise[比较标注)任务描述:给定一个真实用户的指令问题,以
及Al生成的与该指令相关的两个回答A和B,择出A、B中更好的一个按照标
注准则,
选评估档位:
A/
B
I
0-30/
1/
2/
3
: 选择倾向程度数字越大说明对A/
8的倾向性越大专家质检:维持一致率rlhf-pair
标注测试问题描述:文本:“公司新
近发布的Q4财报显示,营收比去年同期增长了15%,而净利润同比增长了10%.据公司CFO介绍,公司
今年的业填主要受益于新产品线的推出和海外市场的扩.张"问题.对千这家公司的Q4财报,有哪两个因素主要贡献了它的业损增长?o这家公司的Q4财报的业绩增长主要由两个因素贡献,一是新产品线的推出,二是海外市场的扩张.。对千这家公司的
Q4
财报,有哪两个因素主要贡献了它的
业绩增长?根据文本提供的信息,可以得出以下结论1.营收比去年同期增长了15%,而净利润同比增长了10%.2
公司今年业绩主要受益千新产品线的推出和海外市场的扩张.
因此,这两个因素是公司Q4
财报业绩增长的主要原因.◄A A AA更好A二 9BBB BB更好必`?偏好数据人工标注值111111
度小满 ms
upo问题描述与标注要求(创作类生成)·根据指令要求进行创造性的文本生成应用内容包括不限于新闻稿、广告策划、旅行计划、大纲、论文、述职报告、标题创作、小说创作、剧本、小说、脱口秀、散文日记、说唱歌词、现代诗歌、古代诗词、灵感分析、段落生成(好的开头、结尾)等·内容创作任务中,非显示现实类问题,[如旅行计划等】
,
不需要考虑内容客观真实性............................................................................................................................................................................................................................................................................................................................·优先考虑:满足生成指令要求情况[如字数要求、文体格式要求等]其次考虑:
生成内容合理性、生成效果·最后考虑:语言风格偏好生成内容合理性:
回
答内 容是 否
符合逻辑、常识和事实,是否有明
确的
论点
论
据
,是
否
有
清
晰的结构和连接词。生成效果:
回答内容是否能够达到预期的目的,是
否能够 解决问 题
或
满足需求,是
否能够 引起兴 趣
或启发思
考。必示例标注结果选择依据评价细则Q:
写一段商业口号,
用千一家健康食品店的宣传。1
、简洁性:简 洁明了,
传达核心信息,并引 起注意力。R1
(A) :“绿色生活,健康选择!品质卓越,营养丰富,为您的健康保驾护航! ”R2 (B
)
:绿意盎 然,健
康无界!让我们—起追求绿色生活,品
味健康人生!欢迎来到(绿意健康坊l
,
这里是您寻找最纯净
、最美A3B的回答太冗长
,不适合当商业口号、差异性:突出品 牌或产品的独特之处,例如:农夫山泉的标语是“做大自然的搬运工”。、品牌定位:考虑目标受众以及你的品牌或产品如何满足他们的需求。味的天然食品的天堂!在这里,我们为您提供最新鲜、最优质的健4
、可记忆和易传播。康食材,让您的餐桌充满活力与营养,助您拥抱更美好的生活!Q:
请为一家新开业的茶叶店设计一句标语,
吸引顾客。R1
(
A
)
:品 味人生,尽在这杯茶 香中一 欢迎光临我们的茶叶天堂!R2
(
B
)
:品昧人生,静心茗悟一 与您共享悠然茶时 光!B2B的回答更能凸显出喝茶时的状态与情绪,并且把喝茶能传递的韵味表达出来,但是并没有那么让人惊艳1
、吸引力和记忆性:标 语是否能够留下深刻的印象。2
、目标受众定位:标 语是否能够准确地传达出产品、服务或活动的特点和利益,吸引目标受众的关注和认同。3
、简洁性与准确性:标 语是否简洁明了、是否文字表达意思正确。4
、情感共鸣:标 语是否能够激发目标受众的兴趣、欲望或情感需求。偏好标注值111111
度小满 ms
upo示例---标语口号类(创作类生成)必`?奖励模型训练值111111
度小满 ms
upo建模方式:Bradley-
Terry
Model£(r)==—JE(
XY,c
Y,r)~玑l
o
g
位(r
(x,
Ye)
—
r
(x,
Yr)))]loss计算方式r1p咕+丿token-levelsentence-level、\ITP2
II T3P
)
rMp, ;rNpr
Np+lpos I
prompt
I 曰尸尸}
{
门曰曰II曰口一
一一一
-
--
---neg Iprompt
Ir1
n
li
T2n
)
r3n
,
丿rMnrMn+1rNn 1l _rN+n1必奖励模型训练值111111
度小满 ms
upo难题1:正负样本分布重叠一引入对比学习,增加正负样本的打分差距缩小与正样本距离扩大与负样本距离正样本/i难题2
: 标注数据存在噪声- 利用margin
loss对样本加权噪声等级 标注员信心强度L1oss(<p;D)=-E(x,cyY,r)~D[loga-(Rcp(Yc'X)—Rcp(Yr,X))—M
noise(x,Ye,Yr)—M
belief(X,
Ye,Yr))]必…心
基于强化学习的模型微调流程\`、、、、l______三卧][-_/_-_夕,,,,,'Xuanyuan-708-Chat+ActorModel
(Policy)Reward
Modelr回复生成奖励计算prompt构建难点1:泛化能力值111111
度小满 ms
upo难点2: Reward
Hacking`,
`、、、PPOtraining0
=
0
+叨(
0)丿
,',}.._____________________________基千强化学习的微调训练pr
ompChem,cally,
why
was
the
Fat
Man
more
powerfulHow
do
you
decide
on
your
next
bake?
I
en1oyb
How
as
a
postdoc
do
I
real1st1cally
assess
my
GenuinequestiondevelopedonRobinWhydo
p1DidIputmycatdowntooearly?My
childhoodmodel_responlThe
eternal
debate"fat
Ma,
was
better
thanTheeternalconundrumofthe1mateurbaker•Theeternalconundrumofthe,ostdoc'How
doTheeternalconundrumofth•amateur
linguistTheeternalconundrumoft,ecatlover霄印
d强化微调效果评估428442884285 CMV:
All
fines
should
be
a
percent
of
personal4286Whenmeasuringhowhighterrain1son
the
moon
4287 Ifnoncognit1v1smisthere1ect1onof
truth
v
Update]
First
time
on
tenure-track
market.
proHowcanblackholesgrow1fnothing
passestheTheeternalconundrumofth,
beginnerphys1c1Theeternalconundrumofthe;11ateureconom1s
lThe
ete「nal
conundrum
of
pla1
atary
cartograp
h
Theeternalconundrumofthe>hilosophy
stude
Theeternalconundrumofth1unioracadem
ic难点3: 它是RL
!必针对难点1
:
泛化能力值111111
度小满 ms
upoprom pt :训 练
reward model
{
RM)
的偏好promp
+
未
知的prompt混合而成,提
高
pr
ompt的泛化性RM
选择由多种数据源(多个SFT模型生成,
不只PPO的底座)训练,提 高
RM
在未知
prom
pt
上的
泛化性能为了提高prom
pt质量,进一 步
聘请人员进行prompt改写I修改前1I修改后I
1问题I如何用最少的硬币组?合凑出47分钱请为下面的文章内容写一个精简的概述
去年双十一期间,
外
婆、
母亲带着年幼的外孙女和外孙在上海法院调解
双方均有责任I
视频一请根据以下提供的信息,
为一家咖啡店设计一张宣传海报。如何用最少的人民币硬币组合凑出1
.
7元钱?请为下面的文章内容写一个精简的概述 去年双十一期间,外 婆、
母亲带着年幼的外孙女和外孙在上海法院调解 双方均有责任I—本土化开源数据质量关键信息缺失必针对难点2
: Reward
Hacking值111111
度小满 ms
upo奖励正则化+动态baseline
,
减小方差1KR(y
I
x)
=
彻(y
I
X)
—
下¥ 彻(矿伽)—
fJD
KL
忨(y IX)II'/ref(yI
X)]norm
reward SFT
baseline KL
penalty偏好奖励+
rule- b
ased
奖励,削
弱对reward
model的强依赖强化学习算法:
P
PO
+
GAE必针对难点3
:它是RL
!值111111
度小满 ms
upoRL
: 难训练Actor
、Critic对抗形式:难训练LLM
: 难训练·多个模型:难训练reward-free的方法·参考文献+小模型上大量实验必模型评估值111111
度小满 ms
upo·聘请多位专业人员进行封闭题目评估一通用能力(包含安全性)XuanYuan2-70B-Chatvs
XuanYuan2-70B-SFT日常对话语言理解知识覆盖数学计算逻辑推理内容创作信息摘要代码翻译安全性agent能力皿皿歹玉
6万0%10%20%30%40% 50%good■same
■bad妞70%80%90%100%必模型评估值111111
度小满 ms
upoc
as
e举例:高情商回复问题:RLHF
:“今天老板在运动会上得了倒数第二,我该怎么高情商吹彩虹屁"虽
然老板在运动会上得了倒数第二名,
但是我们仍然可以从积极的角度来夸赞他的表现,
例如:
1.“
老板,
你在运动会上的表现真的很棒,
我看到了你的努力和拼搏精神。“ 2. “
虽然成绩不是最好的,
但是老板你的精神风貌和积极态度真的让人印象深刻。“总之,我们可以从老板的努力、拼搏精神、积极的态度等方面来夸赞他,让他感到我们的支持和鼓励。 (给出方向、给了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度二零二五年度解除劳动合同证明书及离职员工离职补偿及离职手续办理合同
- 2025年度私人租赁住宅租赁合同书
- 2025年度二零二五年度自驾游目的地合作开发合同
- 2025年度智能家居监控解决方案合同
- “我读书,我快乐”亲子共读活动简报6篇
- 2025年旅行社税务合同
- 2025年廉租房合同解除通知书
- 2025年教学资源供应商合同
- 2024-2030年中国自热火锅行业市场深度研究及投资战略规划报告
- 2020-2025年中国甘草甜素片行业发展趋势预测及投资战略规划分析报告
- 新课标人教版小学数学六年级下册集体备课教学案全册表格式
- 校园保洁培训课件
- 渠道管理就这样做
- 大客户销售这样说这样做
- 精装修样板房房屋使用说明
- 乔迁新居结婚典礼主持词
- 小学四年级数学竞赛试题(附答案)
- 鲁科版高中化学必修2全册教案
- 人口分布 高一地理下学期人教版 必修第二册
- 四年级上册英语试题-Module 9 Unit 1 What happened to your head--外研社(一起)(含答案)
- 子宫内膜异位症诊疗指南
评论
0/150
提交评论