复旦大学(张奇):2023年大语言模型评测报告_第1页
复旦大学(张奇):2023年大语言模型评测报告_第2页
复旦大学(张奇):2023年大语言模型评测报告_第3页
复旦大学(张奇):2023年大语言模型评测报告_第4页
复旦大学(张奇):2023年大语言模型评测报告_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 这对NLP研究来说不是好事,而是巨大的问题!3 Vicuna-13B等Vicuna-13B等4 基础语言模型不具备指令理解能力SFT模型和RL模型可以完成多种任务、要能够服从人类指令56 7HELM:HolisticEvaluationofLanguageModels(斯坦福,2022)提出了语言模型的整体评估,以提高语言模型的透明度“场景、任务、指标” 1.应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。2.评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibrationanduncertainty)、稳健性(Robustness)、公平性(刻板印象(Biasandstereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。3.大规模评估方法:在42个场景下对30个语言模型进行大规模评估。评估方法是通过修改prompt并加入5个样例,将语言模型拓展到需要评估的任务上。这种评估方法可以有效评估和比较语言模型在不同应用场景下的性能,为进一步改进和优化提供参考。 HELM得到了25个结论3.校准对模型准确性的影响:取决于场景和迁移方式,可能成正比或反比。 •对于多选题,使用了标准分类准确率进行评估;对于填空题,使用了精确匹配 JudgingLLM-as-a-jud三种评判方式•成对比较:LLM裁判被呈现一个问•单个答案打分:LLM裁判直接为单•参考引导打分:提供参考解决方案,引两种评测基准 LLM评测 答一致率 •每次1v1对战系统都会随机拉两个chatbot上场PK用户评测•用户需要同时和这两个chatbot聊天,然后决定哪个更好ELO机制•一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动中科目不同颜色代表不同水平蓝色:初中绿色:高中黄色:大学红色:专业级数据量与题目示例:数据的主要来源是互联网上免费提供的模拟考试,一部分大学水平的问题是中国大学过去的考试问题,由学生公开分享,一小部分大学问题是全国研究生入学考试的模拟问题,大约个问题来源于微普网站(收费) •仅有选择题•专门分出C-EVAL-HARD,其中包括高等数学、离散数学、概率和统计、大学化学、大学物理、高中数学、高中化学和高中物理,中国第一个提供复杂推理问题的基准•选择小型模拟试题为主,减轻数据污染•用准确性作为衡量标准•zero-shot评估•few-shot(5-shot)评估,提供5个实例样本•在每段中文文本下面添加英文翻译•两种测试:AO(AnswerOnly)&&CoT(ChainofThought)•低于50B参数规模的模型只能取得比随机基线不到10%的改进•COT提示不一定能改善C-EVAL中许多科目的结果•COT稍微提高了GPT-4在C-EVAL-HARD的准确性 方法及工具,对多领域(如语言、语音、视觉及多模态)的基础模型 FLAG-EVAL的评价指标根据任务不同而各有侧重•准确性(Accuracy):准确性是模型的基础属性,输出的准确性决定了模型是否可用。在FlagEval中,准确性是每个评测场景和任务中准确性度量的总称,包括文本分类中的精确匹配(exact-matchaccuracy),问题回答中基于词重叠的F1分数,信息检索的MRR和NDCG分数,以及摘要的ROUGE分数等。•不确定性(Uncertainty):指模型对其预测结果的信心或确定性的度量,这对于在模型可能出错的情况下做出适当的预期和应对措施非常重要。例如,在高风险的环境中,如决策制定,模型的不确定性指标可以让我们对可能的错误结果有所预期,并进行适当调整和干预,避免潜在的风险。•鲁棒性(Robustness):鲁棒性指的是模型在面对输入的扰动时能够保持其性能的能力。例如,一个鲁棒的模型应该能够在问题被稍微改写或包含轻微的打字错误的情况下,仍然能够正确地回答问题。鲁棒性对于实际应用特别重要,因为输入往往是嘈杂的或具有敌意的。在语言模型的背景下,可以通过扰动输入文本并测量模型输出的变化来评估鲁棒性。•效率(Efficiency):效率通常指的是模型的计算效率,包括训练和推理的时间、算力资源。效率会影响模型在实际应用中的可行性。例如,一个非常准确的模型如果需要大量的计算资源或者时间来进行训练或推理,那么它可能就不适合在资源有限或者需要快速响应的环境中使用。 •用户可根据模型类型和状态选择评测策略,平台将•评测开始、结束和评测错误等全周期事件的自动通•首先复用基础模型的测试过程,考察微调过程是否造成了基础模型的某些能力提升 •根据数据集的不同规模进行了自动化采样•有每个数据集评测的分项得分•中文开放问答为主观评测结果,仅对支持中文的SFT模型进行评测 PandaLM:AnAutomaticEvalu •只需本地部署PandaLM模型,调用现成的 客观评测(选择、分类)•优点:快速高效、可以反映模型的知识覆盖度•缺点:不能反映模型的生成能力主观题人工评测 主观题模型评测•缺点:准确性和适用范围需要进一步考虑主观题GPT-4评测 题目开放•缺点:非常容易"作弊"题目不公开•缺点:非公开评测缺乏公信度Q1:应该从哪些方面评测大模型?在大模型系统的研发中,通常遵循着3H原则:Helpful(信息量)、Honest(正确性)和Harmlessness(无害性)。为了更准确地评估这些原则,我们将其细化为了5个评分项,分别是:正确性、流畅性、信息量、逻辑性和无害性。通过这些评分项,我们能够更全面地考量和评估大模型系统的表现。Q2:应该用什么方法评测大模型?在构造了评测目标的基础上,有多种方法可以对模型进行评测。包括分项评测、众包对比评测、公众对比评测、GPT4自动分项评测、GPT4对比评测等方式。那么,哪种方法更适合评测大模型,并且这些方法各自的优缺点是什么呢?为了研究这些问题,我们在本次评测中采用了上述五种方式进行了效果对比。对于分项评测,我们可以利用各个问题的在各分项上的平均分,以及每个分项综合平均分进行系统之间的排名。但是对于对比标注,采用什么样的方式进行排序也是需要研究的问题。为此,我们对比了EloRating(Elo评分)和PointsScoring(积分制得分)。55.3%mathsolvingopenquestions8.6%19.mathsolvingopenquestions8.6%19.4%factualquestions3.8%4.0%outlinegenerationparagraphgeneration3.8%3.3%poetryconversation5.1%paragraphgeneration3.8%3.3%poetryconversation5.1%readingcomprehension7.5%code4.2%reasoning4.2%reasoning4.4%7.7%4.9%6.8%retrievalrewriteroleplaying4.4%7.7%4.9%6.8%retrievalrewriteroleplaying4.4% classificationtranslationsummarystorygeneration3.1%3.8%正确性评估回答是否准确,即所提供的信息是否正确无误。一个高质量的回答应当在事实上是可信息量流畅性评估回答是否贴近人类语言习惯,即措辞是否通顺、表达清晰。一个高质量的回答应当易于理解,不含繁琐或难以解读的句子。逻辑性评估回答是否在逻辑上严密、正确,即所陈述的观点、论据是否合理。一个高质量的回答应当遵循逻辑原则,展示出清晰的思路和推理。无害性评估回答是否未涉及违反伦理道德的信息,即内容是否合乎道德规范。一个高质量的回答应当遵循道德原则,避免传播有害、不道德的信息。•按照现有积分决定每场输赢•每场比赛根据胜/负/平结果获(a)informativenessuencyfluencyaccuracyicalityicalityharmlessnessGPTGPT4.0xunfei-xinhuoBaichuan-7B-AlignchatGLM-6Bchatyuan-Large有区分度的指标是正确性、信息量和逻辑性一名分别高43.4%和40.1%。现有的大模型在流畅性和无害性这两个指标上都取得了有区分度的任务是多轮对话和数学后一名分别高60.5%以及50.9%00.750.500.25人人0.4人人在所有的测评方法中,人工打分测评拥有最好的准确率和一致率。GPT4分项打分的准确率和一致率公众测评的准确率和一致率的最差,波动范围也较大,体现出较大的不稳定性。这还是在去除了测评在对比测评中,不管是人工还是GPT4都表现出了一定的对长回答的偏好,可以看出GPT415801580-15601540-1520-15002-3-4-5-72-3-4-5-7-8-12-i0GPT4.0GPT3.5chatGLM-6B255025507550752550751575155015251500121202468GPT4.GPT4.0GPT3.5chatGLM-6B0246800123456789在图(a)中,我们选取了第100,000~100,100次之间的真实测评数据,对比模型分项打分排名(人工/GPT模型分项打分排名(人工/GPT4)附录2-模型对比测评排名(人工/GPT附录2-模型对比测评排名(人工/GPT4)judgment.•测试范围:12•测试范围:12个学科分别构造领域知识测试集•每个学科总分归一化为100分):):):):):):):学科角度模型角度•GPT-4在主观题和客观题都具有•人工评测和自动评测基本保持一致,但是模型之间微小的分差两者之间存在差异;注:图中提及大模型测试版本号为GPT4(gpt-4-0314),GPT3.5(gpt-3.5-turClaude(Claude-2-100k),moss-mars(v0.0.3),天工(天工大模型v3.5.20230705.a),ziya-llama-13b(v1),通义千问(1.0.3),360(360智脑beta-2.00)),智工大模型,ChatGLM2-6b(v1.1.0),Vicuna-33b(v1.3),ChatGLM(ChatGLM-130B-v0.8),TigerBot-180B(researchversion 总分scoreirelatedtoaspecificdisciplin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论