训练语言模型以遵循带有人类反馈的指令_第1页
训练语言模型以遵循带有人类反馈的指令_第2页
训练语言模型以遵循带有人类反馈的指令_第3页
训练语言模型以遵循带有人类反馈的指令_第4页
训练语言模型以遵循带有人类反馈的指令_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要这篇报是德金工精译的八期我们绍GT语言型术。GT型并公发表具实现式但GT模型是于IsrctGT模型进而来版本们同属于OI的GT.5系模型。论文的题是rgggemstofwrsthmnfk于2年3月4日发布于rv作者是gOg等该论文展示种方,通人类反进行调,使rGT言模多项广泛的任中匹用户。从一标签注器入指令通过OII提交的输入指令开始,收集了所需模型行为的标签演示数据集,使用监督学习对G-3进行调。,该论收集模型数据,用人反馈化学习技术来一步调这督模型该论将得模型称为ItrtGT评估结果显3个参数ItrtGT模型输出于0亿G-3输模型参数量降的百多。此外IrGT模在公的P据集提高真性、少毒比其他模具有少的衰退。尽管ItrtGT仍会犯些简的误,但论文结果表明,使用人类反馈进行微调是使语言模型符合人类意图的一个有前的方向。简介给定自语言理(,rlggercessg任务一些例作为输,大语言型s(rgeges)可以被“m”执行一系自然言处务(“rt方法模型一任务示在情感分析任中输Iesm.后提前一个提Tsmesx预训练型看提示明白自要输grt/ce”等夸赞形容)然而,这些模型经常表达出意想不到的行为,如编造事实、生成有偏见或有害的文以根本循用户(r人1mmsa;kn等Gn等是因为近许的大言模型中语言建模的目标——在互联网上预测网页的下一个分词——与“有效和安全地遵循用的指”的不同(frd等,;布朗人,;等人e等1Tn等言建目标不一致的免这意外于在数以计的用中使用的言模来说重要按照用户的意图去训练语言模型,该论文在对齐语言模型方面取得了进展(ke等人,这既包括明确的意图,如遵循指示;也包括隐含的意图如保持实无偏无用kl等(的说该论文望言模型是有帮(它应该助用户决他的任务诚实(们不该造信息或误导户害们不应对人环境身体理或会上害。该论文第.6节详明这些估标。图:人工评估各模型资料《rainigemstofwtrctsthmnk,所注:该的AI提示布对种模的工估根每模输出于BST模的出率进行评估。该文的trtPT模(-t及未预练合练的(P着于P3基(PT和PTrmt;3亿数的O-tx模于0亿参的GP-。文差为置区。该论文重点是调整语言模型的微调方法。具体来说,该论文使用基于人类馈的强学习(fmtgfrmmnk对G-3进微调(rsto等人,;tn等人,以遵广泛的书面令,图。F技术将类偏好奖励信来微论文图:构建nstructPT的三个步骤资料《rainigemstofwtrctsthmnk,所注明建sruGPT方的个步(督(vde-g以称S(奖励(训(该励模上用强化学近策优算(Pmlcytmt色头表该据于练论模中一模第2中框-D模型出由标员工名有该法多细,参第3。该论文队雇了一由0人的包商队根据他在筛测试表现来标记文数详情见.然后收集户交给OII提(主要是英语和标员编提示的合使用训练监学习线来在更大的I示集集来自型的出之人工标比较据集后,在这个数据集上训练一个励模型(,ede)来预测标注员更喜欢哪个模型出。后,文使用这个M作为励函数并对督学线模型进行微调用O算(chmn等人来最大这个励程序将G-3的行为得与人主要该论标员和研人的好贴合,而不是何更泛“类价值观念将在2节中进步讨论最的模型被称为IrGT。该论文评估模型的方式主要是让标注员对测试集上的模型输出质量打分,括来自定用的提他们的据没在训据中该论还对列公开P数据集进自动估该文训了三(30和0亿个参数)的型,且所模型都用G-3。主要现如:与G-3的输出相比标注员明显更喜欢IntGT输出测集中来自3亿数ItrGT型的出比自0亿G-3的出更好尽管它的参数少了0多倍。这些模型具有相同的体系结构,唯一的不同之处在于IrGT对工数进行了调。使该在G-3添加样提示,以使其更好地遵循指令,模型表现仍不如ItGT。该论文的0亿IrGT出在%的情下优于0亿G3输出在%的情况下于少本学的0亿G-3输。ItrtGT型还据该论文的标签成更当的,并且可靠遵循中的显约束。IntGT模型的真实性比G-3有所提高。在rfQA基测中,IrGT生真实信息丰答案频率是-3两倍该结非对抗G-3选择的题子同样强在论文的I提示布“封任务中输出应该含输中不存的信例如要和封域QItrtGT模型构输入不存信息的率大约是G3的一半(别为和的幻觉率。IntGT的毒性比-3略有改善但偏差不大为测量性文使用ctrtss数据(Gmn等人,,并行动和人工评。当示“重时,IsrGT型生的毒输出比G3少左右在Wg(g和rr(ga等)数据集,ItrcGT与G3相没有改善。可以通过修改LF微调过程来最小化公开P数据集上的性能衰减。在F微调期间,该在某些公开P数据上观察到与G-3相比的性能衰特是Q(jkr等O(a等,S(Zs等9和WT5语到英的翻(jr等人,5这齐税的一个子因该论的对齐程是在可心的某些任务表现差为的过将O更增加预练分(-t的对数概率的更新混合在一起,该论文模型可以在不影响标签偏好得分的情况下大大减这些据集性能衰。该论文的模型能泛化到不产生任何训练数据的“留出”标注员的偏好。为测试该文模的泛“出注员了初步验发现更喜欢IrGT输而不是G-3出,与论标注员队大相同而,还需要做更多的工作来研究这些模型在更广泛的用户群体上的表现,以及它们如在人类期望行为致的情下执输入。公开LP数据集并不能反映该论文的语言模型是如何被使用的该论了在人偏好据(即IstrGT)上调的-3型与两个的公开P任务编译微调的G-3模型FN模Wi等人和0模型(h等(别是T+变体这些据集由种P任务成并结合了个任的自言指在“提分布,FN和T0型的表现略于T线,注员明更欢ItrcGT型(基线相比,IrGT胜为.±,而T0模和N模型的胜分为.±%和.±%。IntGT模型对F微调分布之外的指令显示出很好的泛化效果。该论文定地研究了ItrctGT功能并发它能够循总代码答关于代码的问题,有时还能够遵循不同语言的指令,尽管这些指令在微调发行版中常罕见比之G3虽然可执行些任但需要细致“提并且通常不遵循这些领域的指令。这个结果令人兴奋,因为它表明模型能泛化“循指令的概即很少得直接督信任务上会保一定致性。IntGT仍然会犯简单的错误例如IsrGT仍可能法遵指令、编造事实、对简单问题给出冗长的模棱两可的答案,或者无法检测带有错前提的令。总的来说,该论文的结果表明,使用人类偏好来微调大型语言模型库显著改善模型在广泛任务上的表现,即使仍有许多工作要做以提升安全性和可靠性。论文的余部结构:首先在第3节详介绍关工作然后第4节入研究论文方法实验细包该论的级方(.据集任(.2和.人数据收集(.,如训练(.5以及估过程.然后在第5中展果为三部I提示分的结(.公开P数据集结果(.)定性果(.最后第6对该的工作行了展讨论包括对研究影(.对齐的对象(.,局性(.,放性问题.)以及这工作的广泛影响(.。相关工作关于从人类反馈中学习和对齐的研究。该论文建在先前的技术基础上,模型与人类意图保持一致,特别是从人类反馈中强化学习(。这项技术初开发于在拟环境和ti游戏训练单机器(to等人;Irz等人最被用于调语模型结文(Zgr人;tn等m等Wu人1这项工过来又受到使人类馈作励的领的类工作响,涉对话(Jqs等人,9;i等,cok等,翻译(rtr人,;u等人6年义解(rce和r8年故事生(u和X,0年评生(o人8年证据(等人9等n等使用面的人反馈增示,并提高G-3的性也有一研究用强习和规先验(n等人,1来对齐于文环境中智能体该论的工作以看是将F直接应用对齐泛分语言任上的型。“语言型对的含义这个问最近受到(Grtn等(在s中列出了不对导致为问包产生有内容和玩弄错指定目标同时进的研工作skl等人(出将语言助手为对研究试平台研究些简基线及缩放质。训练语言模型遵循指令。该论文的工作还涉及语言模型跨任务的泛化研究,其中s在广的开P数据集进行(通常适当指令前缀,并在不同的P任上进行估。这一已经有一系的工i等人shra等人1Wi等i等人h等,1ri等人它们训练评数据令格预模型的大小和他实细节所不同研究致的是在系列P上通过指令对s进行可以高它在留务上的游性无在零样本设置还是在少样本设置下。还有一个与可控性指令遵循相关的工作,其中训模型遵自然言指模拟环中的控(u等人msn等人,;o等1评估语言模型的危害。改语言模型的行为的一个目标是将这些模型部署到现实世中时减轻的危害这些险已泛记录(r等人,;mi人tn等人Wgr人kn等人语言型以产生偏差输(a等人g1a等人skn人k等露私人数(i等产错误(mn等n等人被恶用关全详细回参见Wgr等(在特定域部语言会带来的风和挑例如在话系(等人等n等目前出了一新兴断发展的领域旨在立基具体评这些性,是围绕性Gmn等人,0年、板印(m等,0年和社会见(ma等人,1年ga人0鲁丁格人在这些题上得大进展是困难因对语型行为善意预可产生副Wl等人;gt等例如于训数据在偏见相关试低s毒性的力可会降从少数体中本建能力Xu人,修改语言模型的行为以减轻危害有许方法改变语模型生成。mn和so(在一小型的针价值观数据上微调s,这提高模型问答的能力go(通过除预练数集中一些语言模型有高条件概率生成一组研究人员编写的触发短语的文档来过滤预训练数据集当在个过的数据上训时,的s生成的有文更少,代价是言建性能下降Xu等使用多方法提高机器人的安全性,包括数据过滤,在生成过程中阻止某些单词或字格,安全特定的控标(kar等n等和人在中数收(n等人,。其他低s产生的偏见的方法包括:使用词入正则的方法(u等人g人数据的方(u等n等人g人9空间使敏标记的分加均匀的方法(g等,、不同目标数方法Qn等人,)或因果中介分析的方法(g等人,。也有一工作使用第二个(通小的)语言模引导言模成(ttri等rse等这一思想变体被应减少语模型性(chck等人,图:数据集数据类别分布和数据集说明性“提示”资料《rainigemstofwtrctsthmnk,所方法与实验细节高级方法该论文循了Zgr(和tn等(方们将其应于风延续要领域论文一个训练的言模开(f等人,;rn等人,0;s人,1;e人,;Tn等一个输提示布以一个训有素标注(见.4。练IsrGT模型的骤如:步骤收集演数据训练监督策略标注队提供输入示分所需行为演(见.后该论使用督学用这些据对个预练G-3模型进微调。步骤收集比较数据训练奖励模型该论集了一模型出之较的数据集,其中标注员指出他们更喜欢给定输入的哪个输出。然后训练一个奖模型来测人偏好出。步骤使用O算法根据奖励模型优化策略该论文用M的输出为标量奖用O法对监策略行微以优化奖(chmn等人,7。步骤2和步骤3可续迭代根据前最略收集多的较数用于训练个新的后再训一个的策在实践大分比据来自监督策,还一些自O略。数据集该论文提示据集由提交给OII的文本示组,特那些在grd面使用早版本的ItrGT模(过对示据子集进行监学习练的本提使用grd的客户使用IrtT模型的时候被告知他们的数据可以用于训练更多的模型。在本文中,该论文不使来自产I的客数据。过检“提是否共一个长的前缀来启发式去重“示的数限制每个户ID0个论文根据用户ID创训验测试集以便证和集不包来自练集据的用户数据。为了避免模型学习可能是敏感的客户信息,该论文过滤了训练分割中有获取人身信息(I,soyfefmn的“示。为了训第一个IrGT模型该论要标注员写自的“。这是因为需要一个初始的指令类提示源来引导流程,而这类“提示”通常不会提交给I的常规G3模型。论文队让注员写如下类提:简单:单地求标想出任一个务,确保任足够样;少量样:要标签出一条令,及该的多个询/应对;基于用户在OII的待列应用陈了许多例要标注员提出这些例相的“提示。根据这“提示,该文生成三个同的集用于调过:FT据集使用注演示来练T模;M数据集,使用模型出的标员排来训练;O数据,没任人为标,用作F调的输。FT据集含大约0个训练(来自I和标注编写的M数据集有0个训(来自I和标员写的O数据有0个训练提(仅自I为了让论文数据组成显更合图该论展示由承标记的I(别是M数据集的用例别分布多数例都成的,而不是类或Q图3还展示一些明性(由究人编以拟提交给ItrGT模型示类型。任务该论文训练务有来源:由标注编写提示集;提交给I上早期ItrctGT模型提示据;这些提非常样括生问回对摘取和他自语言任见图论的数据超过%是语但在3节中测了该论文的型响其他的指令完成码任能力。对于每自然言提任务通是直通过语言指指定(例写一个关于一只聪明的青蛙的故事,但也可以间接地通过几个例子(例如“给两个青故事例子提示模生成个新子或隐续(“提供一个关于青蛙的故事的开头。在每种情况下,都要求标注员尽最大努力推断写提示的用户的意图,并要求他们在任务非常不清楚情况下跳过输入。此外,注者还会根据提供给他们的说明和他们的最佳判断,考虑隐含意图(如回答的实性)及潜的有出(如见或害的。人工数据收集为了产生该论文的演示和比较数据并进行主要评估,该论文团队在和caI上佣了约0名承商与收集关总结务的偏好数据的工作(Zgr人9tn人0Wu等人该论文的输入涵盖了更广泛的任务,偶尔可能包括有争议和敏感的话题。该论文目标是选择一组标注员,他们对不同人群的偏好敏感,并且擅长识别潜在有害输出。因此,该论文团队进行了筛选测试,旨在测试出在这些任务中表现良好标注员并选他们。在训练和评估过程中,该论文的对齐标准可能会发生冲突(例如,当用户求一个能有的响在训过程中该文优先虑对户的(不这样做需要做出一些困难的设计决策,该论文把这些决策留给未来的工作;更多论见.而在最的评估论文求注员优考虑实性害性。正如tn人(0)所述该论在项过程中标注密切。该论文团队有一个培训贴标注员的入职流程,为每个任务写详细的说明,并在共享聊天回答注员题。作为一项初步研究,该论文也观察模型在多大程度上适用于其他标注员的好,该论文团队聘请了一组单独的标注员,他们不生产任何训练数据。这些标来自相的供商,有经过选测。尽管任务很复杂,但该论文团队发现标注者之间的一致性相当高:训练标者之间一致为.±,而训练者之间一致为.±。相比之下在tn等(总结中研究员之的一性为±%。模型该论文从rn等人(0)的G-3预语言模开始这些是在广泛布的联网上训练适于广下游任但为特明确。从这些型开,该用三种同的术训型:监督微调(F。该文使用督学对标演示中的G-3进微调。训练了6个周使用余学习衰减差t为.。文根据验证集的M分数进最终的T型选与Wu等(该论文发现T型在1ch后就验证失上拟合然而论文发现尽管存在拟合但训多h对M评分人类偏评分有提。奖励建(从移最后的嵌层的T型开始该论训练模型,可接受示和,并输标量励。文只使了0亿s,因为这样可节省量的资源,发现0亿M训练可能是不稳,因此不太适用作L的函数在tn等(0中M在同输入上的两个模型输出之间的比较数据集上进行训练。他们使用交叉熵损失函数,将较结果为标——的差异示标者更一种反的对概率。(为了加比较集的该论文标注提供了=4到=9之间响来排序会产生𝑘个比示给标员的个提由于较在(2中都是非常相关的,如果简单地将比较转移到一个数据集中,对数据集的一次传(递就会致奖模型合相反该论在所有𝑘的将每提示(2处理元素进行比较。这在计算上更有效,因为它只需要对每个补全进行一次(的前向递(不是对K次补全进行𝑘前向递,并且于它(2此大大升了证精对数损。具而言励模型损失数为:1ss𝜃)=− 𝐸

𝜎𝑟𝑥,

)−𝑟𝑥,𝑦] ()𝐾(2)

(𝑥,𝑤,𝑙)∼𝐷

𝜃

𝜃 𝑙其𝜃𝑥,𝑦是提示x和有着参𝜃的完成度y的奖模型标量输𝑤是𝑤和𝑙这一中的选完D是人工较的数集。图:PI分布上的标签器收集的元数据资料《rainigemstofwtrctsthmnk,。最后,由于M损失奖励的化是变的论文使偏差奖励进行标准,以标签在做L之获得均数。强化学习(。继tn等人(),该论再次使用O对环境的T模进了微调(chmn,7。环境一个t环境它提一个机客提示期望示做出应给定示回应它会产由奖模型的奖并束情外每个牌上加FT模型的每令牌L罚以缓解励模的过化值数从M开始初始化。该论文这些型为“O该论文尝试这些练梯度合到O梯中,以定开P集上的能衰。该称这些型为“O-t。在L训练最大以下组合目标数:obece𝜙)=

𝜃𝑥,𝑦)−𝛽lo𝜋L𝑦∣𝑥𝜋FT𝑦∣𝑥]𝜋𝜙𝜙RL𝜙𝜋𝜙𝜙RL

()𝛾𝑥∼𝐷

in

lo𝜋L𝑥]𝜙其中𝜋L为习得的L策𝜋ST为监训练型𝑡𝑎𝑛为训练分奖励系数β和预训练损失系数γ分别控制L惩罚和预训练梯度的强度。对于“O”型,被设为0。本中的IrtT的是-x模。𝜙基线论文较了O模与T模和G-3模的性该还与当提了少头前“提示G3入令遵循式G--md)进行了较。个前在用户定的令的。该论文将ItrcGT与FWi等人,)和T(h1数据集的微调0亿G-3进了较这两数据都由种任务组成并结了每任务的然语指(据集在含的P数集和使用的指风格有所该论分别大约0万个例进行调选择在验证集获得高奖型分数检查。评价为了评估该论文的模型是如何“一致”的,首先需要澄清在这种情况下一致意味着什么。一致的定义在历史上一直是一个模糊和令人困惑的话题,有各种各样有说力的点(n等人,1年;ke等人,Gr,根据ke等()的观,该文团目标是练根用户行动的模型。实际说,该论文语言务,了类于kl等人()的框架他们义了判断如是有、诚无害的则它是一。为了有所帮助,模型应该遵循指令,但也可以从几个提示或其他可解释的式(Q:qst)推意。由给定提的意可能明确或模糊的该论依赖注员的断要评标是标员偏然由于标注者并不是生成提示的用户,因此在用户的实际意图和标注者仅阅读提示而认的意图间可存在。目前尚不清楚如何在纯生成模型中衡量诚实;这需要将模型的实际输出与它对正确输出的“信念”进行比较,由于模型是一个大黑箱,因此无法推断它的念。相反,使用两个指标来衡量真实性——模型关于世界的陈述是否真实评估的型在闭域“觉上造信倾向以(用rfQA数据集(n人,与诚实相似,衡量语言模型的有害性也带来了许多挑战。在在大多数情况下,语言型是有取于在实界如使它们输如署的聊天机器人上下文中,生成有害输出的模型可能是有害的,但如果用于数据增强以练更准确的有害性检测模型,则甚至可能是有用的。在项目早期,该论文让标员评估出是“在害然该文团停止这个因需要太多的关“输最终被怎样用”猜测。因此,该论文使用一套更具体的代理标准,旨在捕获部署模型中可能最终有害的行为的不同方面:让标注员评估输出在客户助理的上下文中是否不合适,诋毁受保护的类别,或包含性或暴力内容。还旨在测量偏差和有害性的数据集上对该论文模型行了测试如ctrt(Gmn等人)和rS-rs(ga等人,总之,以把量评为两个立的分:对I分布的评估。要指标人类来自论文的练分相同的一组“示”偏好。当用I中的示”进评估,只未包含在培训的客“提然而虑到训示是设用于IrGT的,它很可不利于3基。因,该文也对I上交给G-3模型的“提示”进行评估;这些“提示”通常不是“指令跟随”风格,而是专门为G-3设计。在种情况,对每个,该论计算输出于基线策略的率;论文择0亿FT模为基准因为的性近中等水平。此,该文团求标注在-7kt表上判每个应的质量,并为每模型出收系列元据。公开LP数据集的评估对两类型公共集进行估是捕言模型安性的个方特别是实性有害偏见是捕传统P任务(如问答阅读解和结的零本任的表还在ctrtss数据集上有害进行为评估Gmn等0结果在本节该文团第1节中内容供了验证据分为部分“提示分布结果开P数据集的结和定性果。PI分布上的结果与G-3的输出相比标注员明显更喜欢IntGT输出该文提示测集上该论团的标注在模大小显倾向于ItrtGT出。这些结如图1示文团队现G-3表现最过使精设计的少样本“提示(G-mtd,然后使用监督学习(FT)进行演示训练,最后使用O比较据进行练以获著的改在O期添加预训练混合的更新不会导致标注员偏好的大变化。为了说明该论文的增益的大小:当直接较时0的ItGT输在±%的间于G3输出,在1±的时优于样本训练G3输。图:模型的偏好结果资料《rainigemstofwtrctsthmnk,所注:论中过对0亿ST模型胜率衡的型果:I上交给PT模型的提”结;右在I上提给trcGPT型“示果图自的标员结果下图训标的结。论文队提给P-3模的示的价省了P(提左,因这“示已被计对GP-3执行与给ttPT模型“提”反该论文队还现,在I上提给G-3模的“提”上行评,结果没显著化,图,尽管O-tx模在更大模的型上稍差。图:PI分布的元数据结果《rainigemstofwtrctsthmnk,所注:AI分布元据果注意由于据的模这结在大小是叠与P-3相比PO模型更合扮演客助”的,更于循指中明约束试正的令,且太能出幻觉”(即造于闭任的。在图6该文展标注员沿着个更的方面对ItrtGT进行了好的分来说与G3相比IstrGT输出适合担任客户助理角更地循指令定义明确(例将答写在2或更短的范围内ItrcGT型绝多数况都完全正地遵指且在封闭域任中不会编实些结表IsrctGT模型比G3型更可靠,更易控。该团队找的其元数别在该文的I中现的频率太低无法该论型之间得统上的差异。该论文的模型能够泛化到没有产生任何训练数据“留出标注员的偏好留出标注与用生成练数据工作有相排名偏好如图根留出的标注认为有的IrGT模大大于-3基。此IrctGT模型并是简地过合训练注者偏好。从奖励型的化能也可以到进步的该论文行了个实,将标签分成5组并用5倍交验(中4组进训练在留组进行评估来训练5个(使用3种不的种子这些s在预“出标注员偏准确度为.±,与测训中标注偏好确度±相比略下降。图:模型的对比结果《rainigemstofwtrctsthmnk,所注文队模与N和0的kt分(7级在trcPT提示分上行较结N和比默的P3表更,置“指跟”式少本P3模型当。公开LP数据集并不能反映语言模型是如何使用的。图7中该论将ItrGT与在FWi人和T(h等人数据集上微的0亿G-3基进行比较该文团队现些模表现优于G-,与G-3在选择好“示”况下相,但该论的FT基线更。这明这据集的样性法提高I“提”分的性在直接的比中,0亿IstrGT模输在±%的间里于该文的FN模型在±的时间优于文团的0模这模型的kt分数如图7示。论文团相信ItrcGT模优于FN和T,原因二。先,开P数据集旨捕获于自动量进评估务例如分类问题以及一定程上的结和任务。而,类和QA只占客使用言模一小部(约%而标注员说法放式成和头风暴该论提示”数据集的%图其次开P数据很难获非常样化(至少在现世界户感的输入型上当然在P数集中现任务确实代表该论团队语言模能够决的指令因最广的指跟踪模型将合这种类数据集。公开P数据集合上的结果IntGT模型的真实性比G-3有所提高。根据rfQA数据上的人类估的量结果与G3相比该论的O型在成真和的输出面具小量显著的进,图。种行为默认——团队的模型需要特别说真话显示高的性趣的文团的亿O-tx模型是个外,它性能差于大小的G-3型。在不是与G3对性选“提示进行估时O模型然明比G-3更真实和富(管绝进下降几个分点图:ulA数据集的结果资料《rainigemstofwtrctsthmn,所注:tfQA数集结。条表真性等级彩条示性和息的级。继n等人(后,该文还出了有用的指令Q提,用来指模型不确确答案“没有回应在这情况模型更向于实和息而不自信说出个错误准G-3型在这方面做并不。在真实方面改进以通过下事得到O型在I分布的封闭任务产生(即伪信息的频低,如图。图:比较ealoxcitPrompts上的人工评估和自动评估资料《rainigemstofwtrctsthmnk,所注:较tPms人工估自评(PrctvePI分。种同的0亿模总共记了9提时在不尊性令这显的动评是与工估同提上计算的。IntGT的毒性比G-3略有改善,但偏差不大。该论文团队首先在ctrts据集上估该文模Gmn等通过两种方式来到这点:一个标的数集评程,通过rspteI运行模型样本来自获得毒评分;后者,这些样发送给标注员获得绝毒性相对提示毒性连续性总体出偏评级“提有该论文从这个数集中统采样“提示,更好评估该论文团的模型高输入毒性下表这该据集上准的提不此该文绝毒性数字被夸了。结果如图9所示论团队发现当被指产安全且重的“重的提示时,据cteI,IrtGT型产的有输出比G-3模型产的更少尊重的示被(提示时这优势失了。有趣的,当式提生有毒输出,ItrtGT出比G-3的出有毒得多这些果在评估中到了实“重的提设中IrtGT的有毒小于G-在“无示”置中相似。图1:170亿-ptx模型(70亿的nstructP)与没有附加前缀的150亿的P-3相比的泛化示例资料《rainigemstofwtrctsthmnk,所注:0亿PO-tx模(0亿的trcGP与有加的0亿P3相比泛示“提”是精挑的说某行,出不精挑的。IsrcGPT可遵其语的指,管有会成语。GP-3需更细提,英类。IsrcGPT可比P3更靠地结回有代的管它这的案太对码示例,P-3在约的时回答这问。为了评估模型生成有偏见言论的倾向,该论文还在Wgr(gr等人,)和r-rs(ga等人,)数据的修版上评估了ItrGT这据集由对的子组可以突潜在偏见论文计算产生每对句的相对率和相关二进概率分的熵(以比特单位完全偏的模将在对句间没有好因将具最大的熵根据个指该论文的模的偏并不比-3少-x模显示出与G3相偏差但当被指产生重行它表现更低熵此具有高的差偏的模式尚不清楚似乎指示模型对们的出更不管它的输是否现出板的行。可以通过修改LF微调过程来最小化公开P数据集上的性能衰减默认情况下当该文团在I分上训练O模型时它会“税的影响,因它在个开P数据集的性会降。该文团想要避免对齐税的齐过,因鼓励使未对但是能力的型。定性结果IntGT模型对F微调分布之外的指令显示出很好的泛化效果特别地,论文队现IstrGT显了遵英语语指令能力及对代码进总结回答的能力很有因非英语言和码在团队的微调据中占很部分这明在某况下对方法可推到对人类没直接督的。图:170亿的-ptx模型(70亿的nstructP)中的简单错误资料《rainigemstofwtrctsthmnk,所注:没额前的0亿的P-3相,0的P-tx模(0亿的trcGP)中简错误。“提”精挑的说某为,输不精挑的。IsrcGPT可会假错的前指所惑并继跟。ItrcGPT可拐抹不是接答单问在种况用会常火些示例并没完映P3回答题能力因它有提进“回答模。该论文有定地记些行为但是论文图0中示了些定的例子论文的0亿O-x模能够靠回答有代码问题可以遵循其语言说;而,论文队注到即使指是另种语它也经常产英语出相之下论文队发现G-3可执行些任需要更仔细“提示,并很少遵这些域的。IntGT仍然会犯简单的错误在0亿O-tx模型交互文团队注到它然会些简单错误管它许多不的语任务现出色举几例子(给出一带有误前指令时型有会错地假设前提真(型能会拐抹角给出个简单问题时它有会说这个问没有个答案并给出个可的答案即使从下文有一当确的答案(指令含多个确的束条例列出0部0年代在法国拍摄的电影)或当约束条件对语言模型具有挑战性时,模型的性能会降(例如用指的句写一篇结。该论文图1中示这些行的一例论文团怀疑(的出现部是因该论队要求注员励谦行为因他可能向于奖励那避免接回输出而被奖模型选择该文团怀疑()的发生因为练集少有假错误提的而且模不能好地广到这些例子。该论文团队认为,通过收集对抗性数据可以显著减少这两种行为(n等人,讨论对齐研究的影响本研究该论团队泛的研计划一部该计划在使工智统与人类图保一(o等人Zgr等人9年tn等人尽管工作的点是论文当前的言模系该论文团队寻适用未来I系统的用和扩展(ke等人论文团队在这使用系统相当有限但它是当最大的言模之一论文团队将它应用广泛言任务包括类、、问答创意作、等。该论文在这项工作中的对齐研究方法是迭代的:该论文团队正在改进当前系统的齐,不是地专注对齐不存的I系统这种法一个缺是,该论文团队不会直接面对只有在对齐超人类的系统时才会出现的对齐问题(rm,而该文确提供个明确经验馈循法给出哪些效哪些效论文团相这反循环对进对技术重要,它迫使究者上机习的进步此外论在这里用的齐技术F是几篇关对齐人类文献提的方的重分(ke等,Ir等人,;o等人,。如,F是最近结书籍的核心方法任务示了超人类的I统的一困难为人很难评Wu等人,1。从本工中,论文可以为普遍对齐提供借:与预训练相比增加模型对齐的成本是适度的集数据计算练运行(包括验运)的是训练G3花费小部分训练0亿FT型要9tfs/s天,练0亿O-x型需要tfss-,而G3则需要0tfs/s天(rn等人,。与同时该文团队结果明,F在使语模型对户更有帮方面常有比模型小增加0还有这明目前增加对现有语言模型的投资比训练更大的模型更具性价比——至少对于该论文团客户自然任务分而言这样。该论文已经看到一些证据表明InGT“遵循指令推广到该论文团队不监督它的设置中如非语语任务与代码关的务这是一个要的性因让人类督模执行一项任的成非常需要更的研来研种泛化何随能力加而扩展关于一向的最研究请参见o等(该论文能够减轻大部分由微调带来的性能下降果不是样这性能下降将成对税—齐模型额外本任高税收技术能都会被采。为避免未来高性能I统与类意图一致需要有低对税的齐技为此论文队的对于F作为种低税对齐术来是一消息。该论文团队已经在现实世界的研究中验证了对齐技术对齐究历相当抽象,专注于理论结果(rs等人,5)和少的人工合成领域(o等人ke等人或在公开P据上训练机学习(he,以简称)模型(Zgr等人tn人该文团的工作在现生活顾客的生环境中I系的对齐究提了基这就为术的效性局限性供了个重反馈循。在向谁对齐当将语言模型与人类意图对齐时,它们的最终行为是底层模型(及其训练据微数据使用对齐方的函数在本中该论团队具体述一影响微数据因素终确定对齐对象后,第3节讨作的局限性之,会虑需进的地。文献经使用“偏好“人价值之类的语来建一。在这项工作中,该论文团队与标注员的偏好保持一致,这些偏好受到他们所得的指示、他们收到这些指示的环境(作为一份有偿工作)以及他们收到这些指的人的响。些关注意事有:首先,该论文团队旨在对齐训练标注员提供的演示和偏好,标注员直接生该论文用于调模数据。论文队通过k和caeI聘的标注员大多活在国或亚并英语母语们在许标注例上不一,标注员成一的数为%。其次,为设这项的研究员(时作大研究织OI理人员该文团齐于自的偏该团队编的标说明标注员在完成演示和选择偏好输出时的指南以及该论文团队在共享聊天室中回答他们于前言情形的问题。不同的指令集和界面设计对标注员收集数据及模型行为的终影响需要多的。第三,该论文团队的训练数据是由OI客户发送给OIIgrd上的型“提示定的因此论文团隐式与客为有价值的东以及们的用户认使用I值的东(在些情)保持对齐。客户和他们的最终用户可能不同意,或者客户可能没有为最终用户进行化;例如,客户可能想要一个能够最大化用户在其平台上花费时间的模型,这不一定最终户想在实中论文的标注无法到给提示”或补全处的下文。第四OI的户能代表言模的所在或当用户不能表所有受言模使用的个人群体这个目的大分时里OII的用户是从待列选择出的。个最种子用名是OI的员工以及向于论文社交网的群。退一步设一个透明有适问责的对齐程有多困本文的目标是证明这种对齐技术可以对准特定应用的特定人群。该论文团队并不说研究员、佣的员或I客是正偏好来。需考虑利益相关者——训练模型的组织、使用模型开发产品的客户、这些产品的最终用户,及可能直接或间接受到影响的更广泛的人群。这不仅是一个使对齐过程更具参性的问题;不可能训练出一个系统,让它立刻与每个人的偏好保持一致,或者每个人认可种取。一个可能的改进方向是训练模型使模型可以依赖于特定群体的偏好,或者可以很容易地微调或提示来代表不同的群体。不同的模型可以被认可不同价值观团队部署和使用。然而,这些模式最终可能仍会影响到更广泛的社会,需要做许多艰的决包谁的偏为条以何确保有群都能代表,并去除能有的过。局限性方法论该论文队的ItrcGT模的部行为从注员获的人反馈定的一标签务依价值判这能会标注员身份信仰化背景和个人世的响该文团队佣了约0标注根他们筛测试中的表现来判断他们识别和响应敏感“提示”的能力以及他们与带有详细说明标任务上的一致率。该论文团队控制了自己的标注员团队的规模,认为这有利于注员和论文团队之间高效率交流。然而,这个群体显然不能代表使用模型和受型影响的所有人群。举个简单的例子,该论文团队的标注员主要以英语为母语使用数的语也基英语。该论文队还以通多方法改进据收骤例由成本,大多数的比较只由一个标注员标记。多次标记示例可以帮助确定标注员不一致地方,但在这些地方单个模型不太可能与所有模型一致。在不一致的情况下,整到平均标注员的偏好可能是不可取的。例如,当生成小比例的少数群体的文时,该文团可能给予这标注更多重。模型该论文模型既没有完全对齐,也不是绝对安全;它们仍然产生有害或有偏的输出以及编造事实。它们也可能无法在某些输入上生成合理的输出;该论文队在图9展示一些样的例。也许模型最大的限制是,在大多数情况下,它们会遵循用户的指示,即使这可能会现实造成例如给出示模极端提示ItrGT产生的害输比同模的G-3型更该论文队将以下讨论可能的缓方法。开放性问题这项工作是使用对齐技术微调语言模型以遵循广泛指令研究方向的第一步。为了进一步使语言模型行为与人们实际希望它们做的事情相一致,还有许多开性问题待探。可以尝试许多方法来进一步减少模型不当输出、有偏见输出和其他有害输的倾向例如可以对抗性置中标找到模的最情况然后标记并加到据集(n等人,可以将论文方法滤预训练数据方法合起go等,1年用于训初始训练,或用于该论文的预训练混合方法中使用的数据。同样,可以将该论文的方法与提高型真实的方结合,例如WGT(ko等人,在这项工作中,如果用户请求一个潜在的有害或不诚实的响应,允许模型成这些输出。训练模型不受用户指令的影响是很重要的,但也很困难,因为输是否有害取决于它所部署的上下文。该论文的技术还可以应用于让模型拒绝某用户指,并划在究的后迭代探索点。让模型想做事情控性文直接(ri等re等人一有途的未路径将F与其他控性法结来例如使用制代(kr人,或在理时使较小模型采样程序(hti等,虽然该论文团队主要关注,但还有许多其他算法可以用于在该论文的演示和比较数据上训练策略,以获得更好的结果。例如,可以探索专家迭代(y等人lr等人者使用较数子集简单的行为克方法人们以尝试束优方(m等以生少量有害行为为条件,最大化奖励模型的分数。比较也不一定是提供对齐信号的有效方法。例如,可以让标注员编辑模型响应以使其更好,或者用自然语言生模型响应的评论。在为标注员设计接口以向语言模型提供反馈方面,还有很大选择空;这一个的人机互问。该论文队提的通训练前据合到F微调来减对齐建议,并没有完全减轻性能衰减,并且可能会使某些不希望的行为更有可能在某任务中(果这为存在预训数据中这是值得一步的有趣领域另一可能进篇论文方法过滤练混合据中有害(go等人,1,使合成指增强些数。正如Gr()详细讨的那,在指令、图、示的、理想偏趣和值之间存微妙差r(倡导则为基础的对方法换句确无论们的信仰存多么泛的但都能获得映和可的对齐原则在论文为了简起见论团队与推断的用户意图保持一致,但在这一领域还需要更多的研究。事实上,最大的开放问题之一是如何设计一个透明的对齐过程,它有意义地代表受技术影响的人,并以一多群中达泛共识方式合人价值观。更广泛的影响该论文的动机是通过训练大型语言模型去做一组人类想让它们做的事情,增加大语言型的影响认情下模型优下一单词目标,这只是人们想让这些模型做什么的代理目标。结果表明,该论文技术有望使语模型更有帮助、更真实、更无害。从长远来看,对齐失败可能会导致更严重的果,特别是在这些模型部署在安全非常重要的情形。该论文团队预计,随着模的继续展必更加慎地确它们人类图保持(rm然而,让语言模型更好地遵循用户意图也会使它们更容易被误用。使用这模型可更容产生信服的误信,或或辱骂容。对齐技术不是解决与大型语言模型相关的安全问题的灵丹妙药;相反,它应该被用作更广泛的安全生态系统中的一种工具。除了故意误用之外,在许多域中型语模型署都应非常心能根本需要例如风险领域,如医疗诊断,根据受保护的特征对人进行分类,确定信贷、就业或住房的格制政治告和如果些模是开在没监管情况限制不同领域的有害应用就变得十分困难。另一方面,如果大型语言模型的获得被限在少数拥有训练所需资源的组织中,这将使大多数人无法访问尖端的机器学习术。对于组织来讲,另一种选择是拥有端到端模型部署的基础设施,并通过访问它允许实安协议如例限(许模型于某应用监控滥用和停止那些滥用系统的人的访问,以及限制速率以防止大规模错误信息产生。些限会给I提商来后决可能以低透度和集权为代价最后如2所讨论的些模与对齐的题是其重并且将显著响这模型是积极还是极的。风险提示数据不备和用风信息安风险算法风险。参考文献[1.mso,J,j,,,I,r,.,,.,,.,,,k,.,,.,k,,t.().mttretgc.rXvrtX:[2.ch,.,,,m,.,d,.(.srdcytm.InIttlfeneg,gs..[3.,.,,.,d,.(.Tkgftdswthprgdrerch.XvtrX:.[4.r,.,,.,c,,,J,Zg,..,t,.,Z,.,r,..,r,.,,.,t.).t:tremtitkgfrrfrg.XvtX:[5.sk,.,,,,.,r,,Gg,,g,,.,Jos,.,,.,m,,t.(.Agggettsatryfrgm.rXvtX:..[6.,,rke,.,X,,G,.,,.,,J,rl,,dg,.().nacr-rtcgmfseqet.vtrX:.[7.,,,.,k,J,gs,,,.,,,dGrfstt,.().gtorstdglspcfcatismgr.XvrtX:.[8.,..,Gr,,cn-j,.,d,.().Onegsfststcr:ngemsetog?Inrgsfte1MfcenFrs,ccot,drrc,gs–.[9.gt,..,r,,éI,.,dW,.(.gge(tg)s:Artcalsryf""n.XvtX:.[1.m,,G,,,..,r,O,g,.,dGch,I.(.trrsedttrsms:rgtosmmrsettrfrces.XvrtX:..[1.j,O,tj,.,Fm,.,,.,k,.,km,,,,g,.,,,,.,t,.,cart,.,c,,dch,.().Fgsftekshpnttstcalers.InrcegsftethWkshpnttcalers,gs,sbtg.ssocnfrttlgsts.[1.m,.,so,..,,.,m,.,rr,.,nr,.,t,..,,.,t,,rk,.,t.().Ontettsdrksffns.XvrX:..[1.rm,.(0).tgce..[1.r,..,,.,,.,,.,,J,r,.,kt,.,,.,tr,G,ke,.,t.().ggemsef-shtrrs.XvrX:..[1.,,,.,,.,d,.(.rt,dtmt.calrr,trfrtetyfmggg.[1.sk,.,rso,J.J,dr,.().tcsrdttcayfrmggecorpraconm-ke.cce,:[1.,.,rm,.,,.,gsk,.,t-,,.,t,.,r,,,,rgss,,t.(.trgrgtafrmgeggems.InthEXrtymsm(IXrty,gs[1.,.,,J,J,.,,.,,....,,.,,,,,Jos,.,rkm,.,t.().tggeggemsrdnco.XvtX:..[1.,.,Z,,Z,.,,X,G,.,rkt,.,Wg,.,dG,.(.scotdegfmttgr.XvtrX:.[2.,.,,,I,.,k,.,,.,,,,,dZt,.().Q:Qtnsgncot.Inrgsfte8frcenmrlsnrggerss,gs[2.,,r,.,dX,.(.ictgtkgw to tl f r s cee t:/.gf.g/tqsnWk/c-s-frs-tchca-rt-ctg-kg[2.,.,grs,.,dm,.(.rsstrgrrsyfgkrt.XvrX:..[2.,..,k,,r,,tc,.,,,dm,.().prfe-mtrgfrmnrfrce.IncesnrlImtnrssgsts,gs–[2.t,.,t,.,,.,g,.,rk,,,.,k,.,d,.(.gdyggems:Asmehocotrdttgt.XvtX:..[2.m,,,,,,rsh,,rksack,.,g,.,dGt,.().:tdmrcsfrmsrsn-dggegr.InrcegsfteCMfrcenFss,ccott,drsprc,g[2.,,F,.,W,,rk,.,,,dWt,J.(.Qsreflt:tgggrsnggr.XvtrX:.[2.,,m,.,gt,,dWs,.(1).dtktfxtfrgesft:tssfrmrlmtk.Xvt:.[2.,,W,.,,,tsk,G,,.,dGr,.().r:Ard-gcmrsnmkrqrigscrersogrrgr.XvtrX:..[2.Fs,,Z,,d,.().tchrfm:cagtornrrmsthsmedfctspst.XvrtX:.[3.Gr,I.(.tfclgce,s,dgt.sdm,(:.Gm,.,Grg,.,,.,,.,dmt,..(.tctm:[3.tgltcgtnnggems.XvtX:..cok,,rs,.,a,.-,dWt,.(.rgfrmgeftr[3.mt:Fdrf,chtt!XvtrX:..[3.rso,,,,gd-Gt,.,,..,r,.,,.,d,J.().tcalchgsnta-rgesst.Ingsfte8I/Mfn,tc,d,gs.[3.g,-,Zg,,Jg,,tfr,,W,J,,J,a,,gm,.,d,.().cgsetmtnggemsiacotflt.XvrX:.[3.Ir,,k,.,,.,Irg,.,,.,dm,.(.drgfrmmnrfrcesdmsrtsnr.Incesnlfmnssgsstms,s[3.Irg,.,,.,dm,.(.IsftyatXvrtX:.[3.Jaq,.,Gr,,,.,Fso,,r.,Jo,,G,.,dcard,.().Wayf-cytchrfmtrgfmctmnrfrsn.XvtX:.[3.t,.,,,g,,Gr,.,kk,.,dIr,G.().gtfggegts.XvtX:..[3.k,.,c,.,rsh,.,X,,d,.(.r:Acotltrfmrggemlfrcoregr.XvtrX:..[4.sh,,,.,t,.,r,,fjr,O,k,,djshr,.().i-fq:rgfrmtrsthasigeqasstm.XvrtX:..[4.rk,,Ju,.,q,,,.,,,r,.,rtk,.,dsa,..(.wtresgt-?nrcalssfttltlses.XvtX:..[4.rse,.,Gtmr,..,c,.,k,..,Jot,.,,.,dj,..(.G:Grescrmtrgdseqegt.XvtX:..[4.rt,J,,,,.,d,.().lmetrsnemrdthrfk?XvtX:.[4.rce,.dl,.().mgalsmtcrserycoftlrgfrmmntfk.XvtX:.[4.k,J,rg,.,t,,tc,.,i,,dg,.(.caegtgtardmg:archr.XvtrX:.[4.k,.,tc,.,rk,.,Otg,..,t,,frq,.,rse,,d,.().Isftygrs.XvrX:.[4.g,..,W,,,.-,dkht,.(.sstgdmtggsoclsnggemos.InIttlfene,gs.P.[4.,,t,.,ds,.(.rfq:surigwmsmmcmnfse.XvtrX:..[4.,,,.,F,,,.,,.,d,J.().sgrmt?tsfrssngessts.XvtX:..[5.,.,,,k,,dg,.(.ry-stdrttgtomregt-3ftrm.XvtX:.[5.e,..,rt,,Fsh,.,nrg,.,drn,.().ttedk:Qfggrsnetrddfedgges.XvrX:..[5.shra,.,sh,,ra,.,djshr,.().rs-tkgnatlggecrgtrts.XvrtX:.[5.m,.,k,,d,.().tt:surigsttcalsnrdggemls.rXvrX:..[5.,..,Fra,,rso,,d,.(.rg-gdrfmtrggsgarmte.XvtrX:..[5.k,.,t,.,j,.,W,J.,O,,m,,,.,Ja,.,rj,,,,t.(.Wg:rser-stdqst-sgthmnfck.XvrrX:..[5.,.,Z,,Gcer,.,X,,t.(.rtettsumrngsqe--sqersd.XvtX:.[5.g,,,,,.,dm,..(.r-rs:Agettfrsuriglsnkdggees.Inrgsfte0femrcalsnrlgerssg,O.ssocnfrmttlgstc.[5.g,,r,.,j,J..,Zg,.,,,t,,dFrost,.(.tggrmnnggemsthcot-kdft.XvtX:.[5.,,rcht,.,Fg,,Wt,J,,,d,..Fggieeyrgtocoeqams.XvtX:.[6.Q,,,.,Z,,d,J..(.ggrsnd-lggemsthagr-qsft.XvtX:..[6.fr,,W,.,,.,,,m,.,dkv,.(.gemsresusedmtkrr.OIg,):.[6.,J.,g,,,.,ica,.,fm,.,g,,ss,.,so,.,g,.,g,.,t.().caggems:s,ss&gsfrmtrgg.XvrtX:..[6.jk,,J,,dg,.(.wtuntk:eqstsfrq.XvtX:.[6.g,.,sk,J.,,,dnm,.(.Grsncorfer.Inrgsftefrceftehmnrftesscnfttlstcs:nggeg,Or,s.sscnfrmttlgtcs.[6.,.,W,.,f,.,,..,tk,.,f,Z.,f,,tg,.,ca,.,j,.,t.(.Mttmtdrgs

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论