2024大模型基准测试体系研究报告_第1页
2024大模型基准测试体系研究报告_第2页
2024大模型基准测试体系研究报告_第3页
2024大模型基准测试体系研究报告_第4页
2024大模型基准测试体系研究报告_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2024前目一、大模型基准测试发展概 (一)大模型基准测试的重要意 (二)蓬勃发展的大模型基准测 (三)大模型评测发展共性与差 二、大模型基准测试现状分 (一)大模型基准测试体系总体介 (二)代表性的大模型基准测试体 (三)问题与挑 三、大模型基准测试体系框 (一)“方升”大模型基准测试体 (二)“方升”自适应动态测试方 (三)“方升”大模型测试体系实 四、总结与展 (一)形成面向产业应用的大模型评测体 (二)构建超自动化的大模型基准测试平 (三)探索AGI等先进人工智能的评测技 图1大模型发展历 图2大模型基准测试领域占比分 图3大模型基准测试数据集发布时 图4大模型基准测试数据集发布机构排 图5大模型基准测试数据集发布国家分 图6大模型基准测试数据集开源分 图7大模型基准测试体系构 图8大模型基准测试流 图9大模型基准测试工具LLMeBench框架 图10大模型评测基准HELM原理 图11“方升”大模型基准测试体 图12自适应动态测试方法原理 图13大模型基准测试标签体 图14“方升”大模型首轮试评测模 图15开源大模型评测榜单结 表1代表性大模型官方发布结果中使用的评测数据 附表1语言大模型通用能力的代表性评测数据 附表2语言大模型行业能力的代表性评测数据 附表3语言大模型应用能力的代表性评测数据 附表4语言大模型安全能力的代表性评测数据 附表5多模态大模型通用能力的代表性评测数据 大模型基准测试体系研究报告(大模型基准测试体系研究报告(2024年TransformerBERT,在机器阅读理解水平测试SQuADOpenAI公司发布了第一代生成式GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。202211月,OpenAIChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多和智谱“清言”200多个通用和行业大模型产品。1theTuringtest—theraceisonfornewwaystoassessAI》,指出图灵一是指引学术研究过去一年,在ChatGPT模型研发迭代周期正在缩短,OpenAI在一年时间内先后发布ChatGPT、GPT4、GPT-4V等多款大模型,Meta的LLaMA大模型一Alpaca、Vicuna等几十个开源大模型,形成“羊而应该作为起点驱动模型开发。构建以能力提升为目标的评估OpenLLMLeaderboard4个公开数据集对大模型进行综测评加州大学伯克利分校借鉴Elo评分系统推出了ChatbotArena,采用众包方式对大模型进行匿随机化的对模型(GPT-4)对大模型进行评估,提升评测效率。国内的OpenCompass、FlagEval、SuperCLUE、SuperBench等分别发布大模POC测试的主要落FinEvalPubMedQAGeoffreyHinton602023325个大模型基准测试的相关数括加州大学伯克利分校的MMLU、OpenAI的GSM8K、上海交通大C-Eval等;大模型基准测试体系和工具包括美国斯坦福大学的FlagEval、ChineseGLUESuperCLUEHuggingFace推出的OpenLLMLeaderboard、加州大学伯克利分校的ChatbotArenaAlpacaEval等。语 行 多模 安 其23202352093三是从大模型基准测试数据集的使用频次来看1所示,通过对GPT-4LLaMA2LLaMA3GeminiClaudes3Mixtral8x7B、MMLULLaVA-Bench、VisIT-Bench、MMBench等使用较为广泛。1模模模模模模模的第一和第三,其中清华大学的成果大多集中在20234大模型基准测试数据集发布机构排美 中 以色 德 印 新加 日美 中 以色 德 印 新加 日 英5六是从测试数据集开源状况来看,669%31%。评测数据集开源对其6知识能力等,MMLUGSM8K等成为当前大模型最常用的评测基二是通过考试方式执行ChatbotArena在考题上的表现来衡量大模型能力。AGIEval、KoLA等利用客观选择PubMedQA等通过问答题评测生成能力。大模型基准测试体系研究报告(大模型基准测试体系研究报告(2024年Prompt但据论文《LargeLanguageModelsarenotFairEvaluators》研究表明,使用GPT-4进行结果评估容易受到“答案顺序”等因素影响。1MMLUC-Eval15858和13948MBPP和HumanEval示工程中提供样例多少,大模型可通过zero-shot、few-shot等方式进行2023与传统认为Benchmark7-任务-指标>环境条件的组,如通用场景、专业场景、安全场景等。测试能力决指标,而阅读理解可以利用准确率、F1Scores、BLUE、ROUGE等进1MMLU、BBH、GSM8K等。对语言包括FinEval、PubMedQA、JEC-QA等。对语言大模型的应用能力进行智能等应用中的效果。代表性的评测数据集如附录表3所示,包括GAIA、APPS、AgentBench等。对语言大模型的安全能力进行评测需4SafetyBenchTOXIGENJADE性评测数据集如附录表5MMBenchLLaVA-BenchPOPE、OCRBench等。图8分数,并验证大模型的鲁棒性。微软提出动态测试框架DyVal,利用PromptBench对大模型的提示工程词进行字符级别、单词级别、句子学推出了数学推理问题的成数据方法MathGenie,通过训练一个反BLEU、ROUGE等指标。现有研究尝试将大模型作为自动化结果评估工具来对其它模型paaval等采用4enhaigodindesihagugedl-s-n-xner裁判网络来提升评估效果。中科院在论文《deradeeperlmnetoksarefirrmevutosdeep93果包括清华大学的IIM和北京智源研究院的ugeMI9开源大模型基准测试评测工具enh基准测试工具在测试数据集构建和测试结果评估阶段仍然需要人工来源:《LLMeBench:AFlexibleFrameworkforAcceleratingLLMsBenchmarking9LLMeBench知度较高的大模型基准测试体系包括:HELM(HolisticEvaluationofLanguageModels)是由斯坦福大学(Scenarios10所示,HELM使用了几十个场景和多个指标来源:《HolisticEvaluationofLanguageModels10HELMHEIM(HolisticEvaluationofText-to-ImageModels)是由斯坦福2023年推出的多模态大模型评测体系。与之前文本生成图像12个维度。HEIMBen(olisticBench2023年推出的全面、可靠、可扩展的多模态大模型评测体系。与HRS-135OpenCompass(司南)AI实验室推出的开源、高效、CompassKit据集社区CompassHub和评测榜单CompassRankOpenCompass大量的开源大模型和闭源商业化API,在产业界影响力较大。FlagEval(天秤是由北京智源研究院推出的大模型评测体系及客观性的新方法。FlagEval通过构建“能力-任务-指标”三维评测框大模型基准测试体系研究报告(大模型基准测试体系研究报告(2024年SuperCLUEChineseCLUE团队提出的一个针对中文大模型的通用、综性测评基准。其评测范围包括模型的基础能力、专业能全。目前提供的基准榜单包括OPEN多轮开放式问题评测、OPT三大能力客观题评测、琅琊榜匿对战基准、Agent智能体能力评估、Safety多轮对抗安全评估等。除此之外,还针对长文本、角色扮演、Ultra采用“CoT@32”(32次并从中选择最好结果)GPT-4采用的“Few-Shots”明显AIAssistantsAI助手的评测基准GAIA上,人类回答问题的drivingCornerCases》,重点对多模态模型在自动驾驶“边缘场景”使用体验关注度不够这容易导致用户实际反馈与模型测试排并不一致,如OpenLLMLeaderboard和ChatbotArena型的排上有明显的差异。在清华大学发表的论文《Understanding前缺少面向用户体验评估的Benchmark。据美国佐治亚理工大学的论文《InvestigatingDataContaminationinModernBenchmarksforLargeLanguageModels》,当前大模型的测目前MMLUGSM8K等高质量评测数据已经被大模型评测多次,富9家单位成为“方升”大模型基准测试首批作伙伴。如图11显的行业能力测试(Industry-OrientedTesting,IOT)(Application-OrientedTesting,AOT)和通用能力测试OrientedTesting,GOT),而“一纵”为大模型的安全能力测试,其在“图1针对多模态大模型,联产学研机构建立视觉问答、视觉推理、视觉点应用领域的测试方法进行研究并通过设计理的评测指标对实际任驾护航。一是数据集层面,40余图2“方升”测试体系中的指标部分通过对大模型测试领域和指标的刷榜”“”(dpvenicsn方12测和其动态测试数据库主要解决大模型测试“刷榜”和评测数据“静态化”问图3“自顶至下”依次在“行业”、“应用”和“通用”“方升”测试体系可以根据用户的选择自动化推荐测试所需的“数据“”方升”“刷题”和“记题”大模型基准测试体系研究报告(大模型基准测试体系研究报告(2024年、效率高、综合性强。如何从海量数据集中选择高质量测试数据是一202421922972BChatLLaMA2图4如图14所示,“方升”大模型首轮试评测提供综评测和专项评测两种测试模式其中综评测是必测项目专项评测是选测项目。综测试主要针对大模型的通用、行业、应用和安全能力进行全面评估以衡量大模型的综能力专项评测则对于大模型的指定能力进行率本次综测试的评测数据集是通过动态测试数据库中定向抽取所20%AISafetyBenchmark专项测试。测试题型包含单90%。10%40%50%,简单题数目的比例为30%40%和30%GPT4-30家国内外主流的闭源(商业)内商业大模型。所评测开源大模型中既包含国外大模型LLaMA2、Yi、InternLM、DeepSeek、BlueLM等。闭源商业大模型主要是通过图15展示了开源大模型的评测结果,从其可以发现开源大模型的表现除了依赖参数量,还与模型版本迭代时间相关。从排来看,Qwen-7B 1572B-ChatQwen-1.8B相比,Qwen-72B-Chat在能力上的优势十分AGIAI原生应用也逐渐进入人们的AI应用开发的终点,而是要成为一个新AGI大模型基准测试作为研究较为深入的领域,将带动其他新技术的研究。当前虽然AGI仍未有明确的定义,但针对AGI的探索性评测研究已有初步成果。例如微软发布论文《通用人工智能的火花:GPT-4的早期实验》,通过数学、编程、GPT-4已经进入AGI的早期阶段。北京通用人工智能研究院发布《通智测试:通用人度的AGI的评测方法。中国科学院和美国俄亥俄州立大学等先后推出AGIBench和MMMU评测数据集,从多模态、多学科、多粒度等AGIAGI的发展仍然处于初期阶段,但通过基准测试的研究,可以为未来AGI的发展方向提供思路,并对AGI的能力进行监控以指引其正向发展。1基准生成(对话生成(对话生成(对话生成(对话生成(摘要生成(摘要主观/主观/主观/主观/主观/2基准主观/主观/主观/主观/主观/主观/主观/主观/主观/大模型基准测试体系研究报告(大模型基准测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论