版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第第页对比解码在LLM上的应用(深度学习)自然语言处理(原创)
:wkk
为了改进LLM的推理能力,UniversityofCalif(or)nia联合Meta(AI)实验室提出将ContrastiveDecoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧!
对比解码(ContrastiveDecoding)
在走进论文之前首先介绍一下什么是对比解码,其是由Li等人在2022年提出的一种文本生成方法,具有简单、计算量小、训练自由等特点。它通过查找到最大化强模型和弱模型之间可能性差异的字符串来生成文本,从而产生更多且更高质量的文本。在对比解码中,弱模型可以是常规的贪心解码方法,如一些简单的采样方法,强模型可以是经过训练的大型语言模型。对比解码可以在很多推理任务上表现出色,包括算术推理和多项选择排名任务,可以提高语言模型的准确率。
本文创新点:探索对比解码在LLM上的应用。具体地,通过最大化专家模型和较弱的业余模型之间存在的可能性误差(如下图所示)来搜索字符串,避免了专家模型中的不良影响和贪婪解码会出现的采样误差问题。
实验结论:通过在多种任务上的测试,本文证明了对比解码可以提高大型语言模型在推理和文本生成问题上的性能,这是第一种同时在推理和文本生成问题上实现最先进结果的生成(算法)。此外,还分析了对比解码的改进原因,并探讨了该方法在常识推理和事实检索方面的适用性。
实验
实验设置
模型:实验采用LLaMA家族的原始模型,其中专家模型为LLaMA-65B,业余模型为具有1.5B的LLaMA模型。此外,在消融实验中,本文还对FLAN-T5家族的模型进行实验分析。
解码(参数):α=0.1,为原始论文中相同的超参数:专家模型分配的最大概率的比例,任何标记都分配了较低的概率被屏蔽掉。β=0.5是对应于业余惩罚强度的超参数。将前导(1+β)系数包含在专家logits中,以将对比惩罚的强度与输出logits的预期尺度解耦,描述了用于采样的温度的对比权衡之间的对比权衡。
prompt:对于生成任务使用8-shot的CoT。
数据集:聚焦代数问题的AQuA、ASDiv、GSM8K、SVAMP和MATH数据集,针对常识推理的CommonsenseQA、Stra(te)gyQA数据集以及AI2ReasoningChallenge、BooIQ、HellaSwag、MMLU、(PI)QA、SIQA和WinoGrande等基准数据集。
实验结果
在GSM8K上的实验表明,β=0.5能获得更好的结果同时业余模型对于性能的提升可能大于专家模型。
对比解码往往有助于全面完成具有CoT提示的算术推理任务。其中一个例外是MATH数据集,它被证明对标准解码和对比解码都具有挑战性。推测因为对比解码放大了专家比业余模型学得更好的技能,所以它对远远超出专家模型的任务没有帮助。
在CommonsenseQA和StrategyQA数据集上实验发现对比解码会损害较小模型的性能。
对比解码的影响
本文还进行了一系列附加实验,研究表明,对比解码可以在大型语言模型中提高推理能力。在算术推理和多项选择排名任务上,包括LLaMA-65B这样的大型模型,都有普遍的改进,这表明对比解码可以使更大的模型受益。通过分析对比解码改进的原因。实证表明,与贪婪解码相比,对比解码从提示中复制的表面层次较少,错过的推理步骤也较少。这一结果表明,对比解码通过减少模型分布中的短、重复或其他不良模式来起作用。
结论
使用对比解码(ContrastiveDecoding)方法可以显著提高大型语言模型在一系列推理任务中的准确性,这种方法不仅在生成文本方面表现优异,还可以在推理问题方面超越当前现有的各种模型。同时,该方法能够减少模型分布中的短、重复或其他不良模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北省衡水市2024-2025学年高三上学期10月学科素养检测物理(无答案)
- 2024年代理推广合作合同范本
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试生物试卷(含解析)
- 别墅基础知识培训
- 变频器技术培训
- 临床围手术期
- 会计知识点培训
- 2024山东省物业服务合同范本
- 2024《手房买卖合同范本》
- 2024至2030年中国超涂层环带行业投资前景及策略咨询研究报告
- 狮子王-中英文-剧本台词(全)
- 【幼儿园语言文字教学的规范化分析3000字(论文)】
- 瓶口分液器校准规范
- 硅pu塑胶施工方案
- 学校学生会学生干部工作素质提升培训教学课件
- 2023年辽阳市宏伟区事业单位考试真题
- 环境工程专业英语 课件
- 四川美丰梅塞尔气体产品有限公司5000吨-年干冰技术改造项目环境影响报告
- 教学工作中存在问题及整改措施
- 2013部编版九年级物理全一册《测量小灯泡的电功率》评课稿
- 人教版九年级数学上册《二次函数与一元二次方程》评课稿
评论
0/150
提交评论