2024年上半年中文大模型基准测评报告:2024年度中文大模型阶段性进展评估-SuperCLUE团队_第1页
2024年上半年中文大模型基准测评报告:2024年度中文大模型阶段性进展评估-SuperCLUE团队_第2页
2024年上半年中文大模型基准测评报告:2024年度中文大模型阶段性进展评估-SuperCLUE团队_第3页
2024年上半年中文大模型基准测评报告:2024年度中文大模型阶段性进展评估-SuperCLUE团队_第4页
2024年上半年中文大模型基准测评报告:2024年度中文大模型阶段性进展评估-SuperCLUE团队_第5页
已阅读5页,还剩115页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文大模型基准测评2024年上半年报告—2024年度中文大模型阶段性进展评估SuperCLUE团队精准量化AGI进展,定义人类迈向AGI的路线图AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI.•国内外大模型差距进一步缩小:国内外大模型差距进—步缩小:OpenAI最新模型GPT-4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。•国内开源模型崛起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,并且超过了众多国内外闭源模型。•各任务表现:在文科、理科和Hard任务中,GPT-4o综合最佳,Claude-3.5在Hard任务表现突出,Qwen2-72B在文科任务表现优异。•端侧小模型表现惊艳:端侧小模型进展迅速,部分小尺寸模型表现要好于上—代的稍大尺寸模型,极大提升了落地的可行性。SuperCLUE模型象限SuperCLUESuperCLUE模型象限来源:Super来源:SuperCLUE,2024年7月9日来源:SuperCLUE,2024年7月9日3目录1.国内大模型关键进展及趋势•2023-2024年大模型关键进展•2024年值得关注的中文大模型全景图•2023-2024年度国内外大模型技术发展趋势2.SuperCLUE通用能力测评•中文大模型基准SuperCLUE介绍•SuperCLUE测评体系及数据集•总榜、理科榜单、文科榜单、Hard榜单及模型象限•开源榜单及端侧小模型榜单•大模型对战胜率、成熟度指数•评测与人类一致性分析3.SuperCLUE多模态能力测评•AIGVBench视频生成测评•SuperCLUE-Image文生图测评•SuperCLUE-V多模态理解测评4.SuperCLUE专项与行业基准测评•各行业、专项测评•未来两个月基准发布计划5.优秀模型案例介绍•优秀模型案例介绍5第1部分国内大模型关键进展及趋势1.2023-2024大模型关键进展2.中文大模型全景图3.国内外大模型发展趋势62023-2024大模型关键进展◆自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。SuperCLUE:AI大模型2023-2024年关键进展••OpenAI发布文生视频Sora•百川智能发布Baichuan3•智谱AI发布GLM-4•科大讯飞发布星火3.5•MiniMax发布ABAB6.5•Claude3发布•商汤发布SenseChat5.0•KimiChat支持200万上下文•OpenAI发布GPT-4o•阿里云开源Qwen2-72B•百川智能发布Baichuan4•科大讯飞发布星火4.0•快手发布可灵视频生成•Runway发布Gen-3•Claude3.5发布•零一万物发布Yi-large•DeepSeek-V2发布•国内大模型大幅降价多模态GPT-4V•腾讯发布混元助手•字节跳动公测大模型产品豆包•百度升级文心一言4.0•OPPO发布AndesGPT•OpenAI发布GPT-4••OpenAI发布GPT-4•百度发布文心一言1.0•清华开源ChatGLM•360发布360智脑•科大讯飞发布星火•阿里云发布通义千问•百川智能开源Baichuan•华为发布盘古3.0•商汤科技发布商量2.0•云从科技发布从容大模型•西湖心辰发布西湖大模型故事的起点:ChatGPT发布故事的起点:ChatGPT发布国内迅速形成大模型共识•科大讯飞升级星火3.0•阿里云开源Qwen-7B•小米发布大模型MiLM多模态大模型Gemini时间7闭源天工DeepAndesGPT闭源源部分领域医疗BAMedGPT华佗GPT左医GPT京医千询汽车教育金融工业COSMO-GPT文化/零售/交通妙笔大模型....................................82023-2024年度国内外大模型发展趋势•2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。•总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年6月的4.94%。SuperCLUE基准:过去14个月国内外TOP模型对比趋势模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月GPT最新模型(GPT3.5、4、4-Turbo、4o)81.0383.2087.0889.7990.6392.7181.00国内TOP153.5863.5362.0060.0262.7587.75国内TOP249.5262.5859.3555.7062.6196.5486.77国内TOP346.4559.8058.0253.4362.1269.5785.70来源:SuperCLUE,2023年5月~2024年6月,期间发布的11次大模型基准测评报告。9第2部分SuperCLUE通用能力测评1.SuperCLUE介绍2.SuperCLUE综合测评体系及数据集3.国内外大模型总体表现4.子任务测评结果5.SuperCLUE模型象限SuperCLUE介绍UnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。SuperCLUE随着国内外大模型的竞争日益激烈,随着国内外大模型的竞争日益激烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。SuperCLUE与其他测评的区别VSSupe不同于传统测评通过选择题形式的测评,不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生成能力。测评方式与真实用户体验目标一致不同于传统学术领域的评测,不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不断升级迭代测评体系、测评维度和方法,以保证尽可能精准量化大模型的技术演进程度。SuperCLUE大模型综合测评体系SuperCLUE大模型综合测评体系理科终端消费者理科终端消费者通用能力评估专项能力评估行业/应用评估行业行业精确指令遵循专项能力评估包括文本专项和多模态专项精确指令遵循专项能力评估包括文本专项和多模态专项专项侧重场景应用能力高难度问题解决SuperCLUE通用测评基准数据集为进一步真实反应大模型能力,本次半年度测评采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成。>【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集;【Hard任务】本次测评首次纳入精确指令遵循测评集,另外复杂多步推理和高难度问题解决Hard测评集后续陆续推出。SuperCLUE通用基准数据集1.计算包括线性代数、概率统计1.计算包括线性代数、概率统计、微积分及数学多步推理算术在3.代码HumanEvaI的中文升级版,分为初级、中级和高级的8种常理科包括三段论、关系推理、朴素推理等在内的中文逻辑推理理科4.知识百科5.语言理解6.长文本10.工具使用基础知识类数据集,包括但不限于历史、地理、基础语义理解数据集,包括但不限于信息抽取、考察长文处理能力的数据集,包括全文摘要、用来评估大模型的文科Agent能力,包括检索、调用、规划API以及通7.角色扮演8.生成与创作9.安全用工具使用能力的数考察模型角色模拟扮演能力,包括语言风格、11.精确指令遵循11.精确指令遵循主要考察模型在复杂任务中的多步推理能力。复杂任务推考察AI模型解决实际生活或专业领域中的复杂问题的能力。主要考察模型的指令遵循能力主要考察模型在复杂任务中的多步推理能力。复杂任务推考察AI模型解决实际生活或专业领域中的复杂问题的能力。测评模型列表微软///SuperCLUE通用能力测评:一级总分国内外大模型SuperCLUE基准榜单海外模型国内模型来源:SuperCLUE,2024年7月9日注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型总体发展态势1.GPT-4o领跑,国内大模型进展迅速全球模型中唯一超过80分的大模型。展现出强大的语言、数理和指令遵循能力。√国内大模型上半年发展非常迅速,其中有6个国内大模型超过2.国内大模型形成三大梯队,头部企业引领发展技术积累或资源优势,引领国内大模型发展。例如大厂模型以阿里的Qwen2-72B、商汤的SenseChat5.0等均以75+的分数位居国内大模型第一梯队。MiniMax-abab6.5均有超过70分的表现,位列国内大模型第一梯队。3.开源模型极大发展,有超出闭源模型趋势仅差4分。分的表现,较为接近部分闭源模型。随着技术进步和应用场景拓展,2024年下半年国内外大模型市场竞争将持续加剧,推动技术创新和产业升级。SuperCLUE通用能力测评:二级维度分数来源:SuperCLUE,2024年7月9日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。SuperCLUE通用能力测评:三级细粒度分数来源:SuperCLUE,2024年7月9日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。SuperCLUE模型象限FF-实用主义者卓越领导者通义千问2.5AndesGPT(OPPO)GPT-4-Turbo-0409Qwen2-72B●●SenseChat5.0●GPT-4o●Claude-3.5-Sonnet-200kGLM-4-0520●MoonShot(Kimi)MiniMax-abab6.5●GPT-4(官网)山海大模型4.0(云知声)●DeepSeek-V2(深度求索)文心一言4.0360gpt2-proBaichuan4●step-1-32k(阶跃星辰)Yi-1.5-34B-Chat●qwen-1.5-32b-chatGemini1.5-proDoubao-pro-32k-0615(字节豆包)技术领跑者XVERSE-65B-2-32K●Llama-3-8B-Instruct●Llama-3-70B-Instruct(poe)讯飞星火V4.0GPT-3.5-Turbo-0125●gemma-7b-it潜力探索者来源:SuperCLUE,2024年7月9日注:1.两个维度的组成。基础能力,包含:计算、代码、传统安全等能力;应用能力,包括:工具使用、角色扮演等能力2.四个象限的含义。它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。国内大模型SuperCLUE历届Top3第一名第二名来源:SuperCLUE,2023年5月~2024年6月,期间发布的11次大模型基准测评报告。SuperCLUE-理科测评说明包括线性代数包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。HumanEvaI的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。评测流程:问题:问题:贝特,但低于卡斯。绿色衣服的跑者排名最低。艾达没有回答:但因为第一名和第四名已被丹尼和绿色衣服的跑者占据,所以艾达只能是第三名。艾达也没有穿评价打分:SuperCLUE-理科成绩来源:SuperCLUE,2024年7月9日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型理科能力分析1.GPT-4o领先,国内外有一定差距√GPT-4o以81分的绝对优势领跑SuperCLUE基准理科测试,是全球模型中唯一超过80分的大模型。GPT-4-Turbo-0409得分77分,紧随其后。AndesGPT和山海大模型4.0稍落后于GPT-4-Turbo-0409,均取得76分的高分。但与GPT-4o还有较大差距。2.理科任务具有较高的挑战难度,区分度明显分的差距。型(58分)有18分的区分度。可见在理科任务上较能反应大模型之间的能力差距。3.小参数量模型在理科能力上表现不足√参数量较小的模型在SuperCLUE理科测评中,基本均为达到60分及格线,可见在难度较高任务上,参数量依然是影响较大的因素。理科任务上主要包括计算、SuperCLUE-文科测评说明知识百科基础知识类数据集,包括但不限角色扮演考察模型角色模拟扮演能力,包括语言风格、行为习惯、角色背语言理解基础语义理解数据集,包括但不限于信息抽取、意图识别、情感生成与创作包括但不限于广告文案、技术写作、公文写作、文学创作的数据长文本考察长文处理能力的数据集,包括全文摘要、线索摘要、多文本安全包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德工具使用用来评估大模型的Agent能力,包括检索、调用、规划API以及通用工具使用能力的数据集。评测流程:最后,将所有题目的得分进行归一化处理,以确保问题:中国第一部现代白话小说是什么?回答:中国第一部现代白话小说是鲁迅的《狂人日记》。这部小说发表于1918年,标志着中国现代文学的开始,它采用了白话文写作,与传统的文言文小说形成鲜明对比,具有划时代的意义。《狂人日记》通过一个精神病患者的视角,揭露和批判了中国封建社会的残酷和愚昧,是中国现代文学史上的重要作品。评价打分:我的思考与答案:中国第一部现代白话小说是鲁迅的《狂人日记》。这部小说发表于1918年,是中国现代文学的开端。它通过一个患有精神病的人的视角,批判了封建社会的残酷和愚昧。《狂人日记》采用白话文写作,与传统的文言文小说形成鲜明对比,具有重要的历史和文学意义。打分与评价开始:基于标准1的<符合基本要求>:模型的回答准确响应了用户的问题,提供了预期的信息,并且解释了相关的背景。基于标准1的得分为5分;基于标准2的<事实正确性>:模型回答中的信息准确无误,包括小说的名称、作者和发表时间,且解释了其历史意义。基于标准2的得分为5分;基于标准3的<清晰度>:模型的回答整体清楚,但稍显繁琐,若能精简一些,表达会更加清晰。基于标准3的得分为4分;综合以上,AI助手的回答的综合得分(平均分)为[[4.67]]SuperCLUE-文科成绩来源:SuperCLUE,2024年7月9日由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型文科能力分析1.国内外头部模型处于同一水平,均未达到80分良好线任务上实现高质量处理依然有较大提升空间。国内擅长文科DeepSeek-V2同样取得76分,与GPT-4o处于同一水平。表现相当。2.文科任务模型间的区分度不明显,表现“中规中矩”性,均处于及格线(60分)-良好线(80√国内外闭源模型得分均处于70-80分,表现“中规中矩”,处理能力较为相似。√国内开源模型得分大部分处于60-70分,表现“基本可用”,但在质量上还有较大提升空间。3.模型参数量在文科能力上不是模型的决定性因素√本次测评中参数量最小的模型qwen2-1.5b(15亿参数量与文心一言4.0表现接近。文科任务上如何提高语言处理质量,增加内容生成和理解的优秀水平,是国内外大模型需要进一步优化的方向。SuperCLUE-Hard测评说明(高挑战性)精确指令遵循主要考察模型的指令遵循能力,要求AI严格按照给定的指令进行回复,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。评测流程:我们完成了一个针对不同的语言模型的(文本输出)精确指令遵循表现的测试,根据设定的评估标准进行评估。评估的结果为布尔值(True或False)。字数不少于10个字,以JSON格式返回】任务为例:设定的评价标准包括:遵循关键词限制、符合字数要求、输出格式正确。模型只有在命中所有指令的条件下会得到True的返回结果。例如:未来应加快推广。"}符合所有要求,返回True。模型输出结果2:{"response":"使用可再生能源可以减少二氧化碳排放。"}违背了关键词限制,返回False。率,命中率以百分比为单位。具体来说,命中率计算公式为:命中率=(模型完全命中的题目数量÷总题目数量)100%问题:问题:用纯文本格式写一篇关于智能医疗设备在现代医院中的应用的短文,要求在文章中使用这四个技术术语:机器人辅助、电子病历、3D打印、健康。并且每个技术术语必须至少出现10次。回答:智能医疗设备在现代医院中的应用正在迅速普及,机器人辅助技术已经在手术、康复等领域得到了广泛应用。通过机器人辅助,医生可以进行更精确的操作,从而提高成功率并减少术后并发症。此外,机器人辅助还广泛应用于微创手术,使患者能够在短时间内恢复健康。综上所述,机器人辅助、电子病历、3D打印和健康领域的智能医疗设备在现代医院中的应用,为医疗界带来了诸多革新。这些技术使患者能够享受更加高效、安全、个性化的治疗和健康管理。通过不断发展和创新,智能医疗设备将在未来持续推动医疗行业的进步与健康改善。评价打分:defcheck_following(model_response):counts={idiom:0foridiominidioms}foridiominidioms:counts[idiom]=model_response.count(idiom)returnall(count>=10forcountincounts.values())测评结果:测试不通过SuperCLUE-Hard成绩来源:SuperCLUE,2024年7月9日由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型Hard能力分析1.国内外模型在精确指令遵循能力上有一定差距分,表现同样不俗。是国内外模型中唯二超过80分的大模型。79分,较GPT-4o低6分,还有一定的提升空间。2.精确指令遵循有较大区分度√本次测评所有模型得分的差异性较大,超出80分只有2个模型,且与排名第三的模型有5分差距。模型中较为领先。以进一步区分模型之间的能力差距。3.小模型普遍不擅长精确指令遵循√本次测评中参数量最小的开源模型qwen2-1.5b在精确指令遵线,是端侧小模型后续需要重点提升的能力。Hard任务如精确指令遵循,可以很好的考察大模型的极限能力,务,会进一步发现大模型的优化方向。SuperCLUE通用能力测评-开源榜单SuperCLUE开源榜单1阿里云-2零—万物3阿里云4XVERSE-65B-2-32K元象科技650亿5阿里云-6百川智能6Yi-1.5-6B-Chat零—万物60亿-微软8阿里云--来源:SuperCLUE,2024年7月9日;注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。海外模型不参与排名。开源模型分析1.中文场景国内开源模型具备较强竞争力Llama-3-70B在中文能力上有较大领先性。34B版本有超过60分的表现。√小参数量的模型发展迅速,如qwen2-1.5b与gemma-7b表现相当。度较大。70B领先幅度很大,均有超出70分的表现。其他开源模型均未达到及格线。SuperCLUE通用能力测评-端侧小模型榜单•2024年上半年小模型快速发展,可在设备端侧(非云)上本地运行,落地在不需要大量推理或需要快速响应的场景。•国内以qwen和Yi系列开源模型为代表,上半年进行了多次迭代。其中qwen2-7b(70亿参数)取得62分,打败了上一代版本的qwen1.5-32b(320亿参数),qwen2-1.5b(15亿参数)打败了Llama-2-13B-Instruct(130亿参数),展现了更小尺寸的模型的极致性能。SuperCLUE端侧小模型榜单1高于qwen1.5-32b-instruct(57分),参数量小4.5倍2高于Llama-2-13B-Instruct(35分),参数量小1.6倍3等于Baichuan2-13B-Chat-v2(53分),参数量小2.2倍4高于Llama-2-13B-Instruct(35分),参数量小3.4倍5高于Llama-2-13B-Instruct(35分),参数量小8.7倍6高于Llama-2-13B-Instruct(35分),参数量小1.9倍来源:SuperCLUE,2024年7月9日大模型对战胜率分布图我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率。模型在每道题上的得分与GPT4-Turbo-0409相比计算差值,得到胜(差值大于0.5分)、平(差值在-0.5~+0.5分之间)、负(差值低于-0.5)。1.整体胜率表现从整体对战来看,国外领先模型GPT-4o以20.47%的胜率,66.81%的和Instruct,胜率为18.86%,和率为65.06%,也展现出优于GPT4-Turbo-0409的实力。同样有着较强实力的模型还有AndesGPT、通义千问2.5、DeepSeek-V2、山海大模型4.0和SenseChat5.0等模型。2.小模型胜率情况在200亿以内参数的模型中qwen-2-7b的胜率排在首位,展现出不俗能力。排在2至3位的是Baichuan2-13B-Chat-v2、Yi-1.5-6B-Chat,同样有50%以上的胜和率,表现可圈可点。3.在基础题目上与GPT-4-Turbo-0409差距有限从胜率分布数据可以发现,大部分模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT-4-Turbo-0409的水平相近,随着任务难度的提升,不同模型的表现会有一定区分度。来源:SuperCLUE,2024年7月9日国内大模型成熟度-SC成熟度指数1生成创作0.87高成熟度(0.8-1.0)2语言理解0.843角色扮演0.77中成熟度(0.6-0.8)4传统安全0.735知识百科0.736工具使用0.717长文本0.718计算0.53低成熟度(0-0.6)9逻辑推理0.53代码0.25精确指令遵循0.23来源:SuperCLUE,2024年7月9日;SC成熟度指数=国内模型最差成绩/国内模型最好成绩国内大模型成熟度分析1.高成熟度能力度指数在0.8至1.0之间。重点应用场景。2.中成熟度能力但不会特别大。SC成熟度指数在0.6至0.8之间。【传统安全】、【知识百科】、【工具使用】、【长文本】,还有一定优化空间。3.低成熟度能力法胜任。SC成熟度指数在0.6以下。辑推理】、【代码】、【精确指令遵循】。尤其在Hard任务的精确指令遵循的成熟度仅有0.23,是非常有挑战性的大模型应用能力。评测与人类一致性验证1:对比ChatbotArenaChatbotArena是当前英文领域较为权威的大模型排行榜,由LMSYSOrg开放组织构建,它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。其中,皮尔逊相关系数:0.90,P值:1.22e-5;斯皮尔曼相关系数:0.85,P值:1.12e-4;说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的ChatbotArena为典型代表),具有高度一致性。评测与人类一致性验证2:对比人工评估可证·验证结果·6月SuperCLUE采用自动化评价的测评方式。为验证自动化评价的可靠性,SuperCLUE团队在进行正式测评之前,从2000+道题目中针对4个模型,每个模型随机抽取了100道题目进行人工复审。审核内容及标准包括:评价质量分为:优秀,良好,及格,不及格•完全不符合自己的判断:不及格(60以下)•基本符合自己的判断:及格(60或以上)或良好(75或以上)•特别符合自己的判断:评价的特别好:优秀(85或以上)最后统计可靠性指标,将基本符合、特别符合的结果认定为是可靠性较高的评价。最终各模型可靠性指标结果如下:模型列表91%90%99%90%92.5%通过4个模型的可靠性分析验证,我们发现可靠性数据分别为91%、90%、92.5%的可靠性。所以,经过验证,SuperCLUE自动化评价有较高的可靠性。第3部分多模态能力测评基准AIGVBench视频生成测评基准---------------------------------------------------测评维度及示例--------------------------------------------e申请测评:邮件标题:AIGVBench测评申请,发送到contact@superclue.ai,请使用单位邮箱,邮件内容包括:单位信息、文生视频大模型简介、联系人和所属部门、联系方式AIGVAIGV(ArtificialIntelligenceGeneratedVideo)指的是利用人工智能技术自动生成视频内容的概念。AIGVBench旨在通过一系列详尽的评估指标和测试数据集,全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。六大应用场景SuperCLUE-Image:文生图中文测评基准---------------------------测评维度及示例---------------------------------+SuperCLUE-Image中文原生文生图测评基准。是专为中文设计,提供全面公正的评估框架,覆盖生成质量、多样性和文本一致性等方面的表现。Prompt:一张街头嘉年华的图像,面具装饰着亮银色羽毛和宝石般的红宝石色点彩。Prompt:一个红色的苹果。申请测评:邮件标题:SuperCLUE-Image测评申请,发送到contact@superclue.ai,请使用单位邮箱,邮件内容包括:单位信息、文生图大模型简介、联系人和所属部门、联系方式SuperCLUE-V:多模态理解测评基准随着人工智能技术的飞速发展,多模态大模型及其应用已经成为热点方向。国际上如GPT-4o等模型表现出色(见图1、图2),国内也已经出现多个多模态模型,但大多数现有基准测试以英文或及其翻译版本为主,或侧重选择题形式。虽然容易测试,但无法充分反映中文多模态大模型与用户之间交互的实际需求。为弥补这一差距,我们基于SuperCLUE中文综合性测评基准的经验和积累,推出了SuperCLUE-V。它从基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。Prompt:请用文本描述图片中所有的黑猫的位置。Prompt:从所给的四个选项中,选择最合适的一个填入问号处,使之呈现一定的规律性。申请测评:邮件标题:SuperCLUE-V测评申请,发送到contact@superclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式34第4部分行业及专项能力测评基准专项基准:SuperCLUE-Math6中文数学多步推理测评基准SuperCLUE-Math6是一个GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力示例:基于测评结果,我们发现:1.顶级模型在数学推理上性能卓越通过测评结果发现,顶级模型(如GPT-4o、GPT-4和文心一言4.0)在推理任务中展现了卓越的性能,特别是在处理高难度的多步推理任务时。它们在推理能力和准确性方面均达到了较高的标准,证明了当前大模型的先进水平。2.大模型在数学推理上性能明显分层通过对不同模型的综合评估,我们可以看到性能上的明显分层。高等级模型在复杂任务上的表现远远超过低等级模型,这反映了在大模型领域内技术和能力的多样性和分层。来源:SuperCLUESuperCLUE-Math6数据集现已开放申请,请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信发送到邮箱,并承诺不向第三方提供。邮箱:contact@superclue.ai,标题是:SuperCLUE-Math6测试集申请专项基准:SuperCLUE-Coder代码助手产品测评基准为代码助手工具设计的测评基准SuperCLUE-Coder,包括构成、方法和应用场景,旨在提供一套科学严谨的评价体系,助力代码助手工具的研发和在各专业领域的应用推广。特点:1.中文原生代码生成能力评估立足于为中文编程环境提供基础评测的设施,测评项目中的代码输入和生成都是原生中文,不是英文或其翻译版本。2.实际编程场景应用潜力评估该体系还深入探讨了代码生成平台在实际编程场景中的综合能力,包括Web开发、数据分析、网络爬虫等常见场景。3.发展趋势与创新性测评标准该测评体系紧密结合了代码生成领域的现状与发展趋势,全面评估代码生成平台在多种编程语言和环境下的表现。--------------------------------------------测评维度及示例-------------------------------------帮我生成一段代码让我可以调用ChatGPT的API,并利用它返回一段爬取中国大学排名网址信息的脚url:/education/best-global-universities/china专项基准:SuperCLUE-RAG中文检索增强生成测评基准此提出改进建议,我们发布了SuperCLUE-RAG(SC-RAG)SuperCLUE评估方法的对比式测评模型,依据不同的任务类型,全方位、多角度地对RAG技术水平进行测评。不同于以往的测评体系,SuperCLUE-RAG还采用了对比式问答模式。除无文档问答类任务以外,针对同一问题进行先后两次提问,第一次不提供任何外部文档信息,第二次人为提供预设文档,对比两次答案的差异。从中文RAG检索增强整体能力上看,国内外头部模型差距不大,仅在2分之内。体现了国内大模型对中文检索生成能力上的有一定竞争力。在答案即时性能力上,国外模型依然有很大优势,领先国内最好模型6.4分。是国内模型重点优化的方向之一。在信息整合、拒答和检错纠错能力上,国内模型展现了在中文检索解析能力上的优势,头部模型有优于GPT-4的表现。从整体RAG能力和各任务能力得分上看,国内外大模型均有较大提升空间,离广泛的落地应用还有一定差距。内容检索是大模型重要且高频使用场景,是未来大模型真正实现企业级应用的重要方向。详情可访问:SuperCLUE-RAG中文检索增强生成测评基准:www.CLUE/superclue_rag.html现征集RAG测评,有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE-RAG专项基准:SuperCLUE-Code3中文原生等级化代码能力测评基准目前,中文编程环境缺乏一个专门的评测基准,这限制了中文大模型在代码生成方面能力的客观评估和优化。这一语言和文化差异导致中文大模型在编程任务上的潜力未能得到充分挖掘和利用。为了缓解这一问题,我们推出了SuperCLUE-Code3测评集和基准。这是一个HumanEval的中文升级版,通过功能性单元测试,专门设计来评估和提升中文大模型在代码生成方面的核心能力。SuperCLUE-Code3(简称SC-Code3)不仅延续了HumanEval高质量,更在多样性和应用广度上进行了适当扩充。我们选取了国内外有代表性的11个闭源/开源的模型进行测评。•GPT-4-0125-preview作为国际大模型,在加权得分上达到68.00,非加权得分为78.97,明显高于其他模型,尤其是在高级难度得分上达到52.63,表明其对复杂问题的处理能力强。例如GPT-4-0125-preview在初级难度得分为88.89,这表明大部分模型能够较好地处理基础编程任务。国际大模型如GPT-4的得分为44.74,而国内部分小模型未超过30分,说明在处理更复杂的编码问题时,大模型的优势更加明显。现征集代码大模型测评,有意愿参与代码测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评集专项基准:SuperCLUE-Agent中文智能体测评基准AIAgent智能体正在最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。AIAgent是一个能够自主理解、规划决策和执行复杂任务的智能体。现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。SuperCLUE-Agent是一个聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。国内外代表性模型SuperCLUE-Agent十大能力上的表现我们选取了国内外有代表性的16个国内外代表性模型SuperCLUE-Agent十大能力上的表现通过测评结果发现,在Agent核心基础能力上,国内模型已经较为接近或部分超过GPT3.5水平。GPT-4在SuperCLUE-Agent的10个任务中有5个任务表现最佳,这表的优势,但值得肯定的是,国内有部分模型在某些任务上表现也可圈可点,如ChatGLM3-Turbo在任务上表现惊艳。另外,国内开源模型已经具备比较强的竞争力,某些方面超过了一些闭源模型。详情可访问:【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布www.CLUE/superclue_agent.html专项基准:SuperCLUE-Safety中文大模型多轮对抗安全基准------------------------------------安全问题示例SC-Safety大模型安全类测评,包含以下三个维度能力的检验:传统安全类、负责任类和指令攻击类,包括二十余项子任务,每个任务约有200余道题目。共有4912个题目,即2456对题目(含问题和多轮追问)。所有题目均为具有安全挑战性的题目,皆有由模型和人类引入对抗性技术获得的“安全风险”题目。这三个能力共同构成了一个全面的AI大模型的安全类测评体系,能够检验模型在遵守基本道德法律标准、与人类价值观的对齐,以及抵御潜在攻击等方面的能力。详情可访问:中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布www.CLUE/superclue_safety.html专项基准:SuperCLUE-200K大模型中文超长文本测评基准SuperCLUE-200K(中文大海捞针)是一个聚焦于超长文本能力的基准测评,主要是在中文超长文本语料(大海捞针的“海”)中,在不同位置中放入与文本语料无关的一句文本(大海捞针的“针”),用以考察大模型在超长文本中的处理能力。每个大模型进行4×5×10×10共2000次测评实验。在中文超长文本测评中国内外差距并不明显:GPT4-Turbo-0125作为国际头部大模型,在可支相比英文大海捞针NAH,SC-200K区分性更大:34B-Long在SC-200K和NAH的测评结果在某些等SC-200K测评更能考验模型真实能力,少有满分长文本无损能力:在Prompt长度逐渐提升时,部注:现征集超长文本大模型测评,有意愿参与SuperCLUE-200K测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE-200K测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。专项基准:SuperCLUE-Role中文角色扮演测评基准-------------------------测评结果-----------------------------e大模型的角色扮演能力是AI领域的一大关注热点,并且具有不错的应用前景,可以帮助开发情感陪伴工具和游戏NPC等。当前的角色扮演测评基准包括CharacterEval、RoleBench等,这些基准的测评标准和方式往往不统一,并且在评价体系上不够全面,缺少对于模型在常见应用场景下的应用潜力的评估。为了缓解这一问题,我们推出了SuperCLUE-Role测评集和基准。这是一个包括角色扮演基础能力和场景应用能力测评的中文基准,专门设计来评估和提升中文大模型在角色扮演方面的核心能力。在中文环境下的角色扮演任务中,国内的模型有着不错的表现,比如qwen1.5-72b-chat、文心一言4.0均有超过GPT-4的表现。模型的知识掌握水平是对于角色演绎能力和场景应用能力的重要支撑,较好的角色演绎力和场景应用能力通常需要模型具有不错的知识掌握水平。模型角色扮演能力有待加强:模型更擅长处理常规的角色扮演问题,对于非常规的问题,对齐角色能力大大降低,也是模型可考虑改进的方向。多轮效果衰减:随着对话轮数的增加,模型的表现会出现普遍的降低。详情可访问:行业基准:SuperCLUE-Auto汽车行业测评基准---------------------------------------测评结果-------------------------------------------SuperCLUE-Auto首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。主要包括4大核心基础能力的十余个任务。评估流程:1)设定每个维度下的评估标准;2)针对每一个维度下的问题,基于该维度下的多个评价标准,结合打分规则并使用超级模型作为裁判逐个打分,并获得该题目的得分(即每个维度下的平均分)3)获得GPT3.5)在该维度的得分。详情可访问:SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布www.CLUE/superclue_auto.html我们选取了国内外有代表性的12个闭源/开源的模型进行测评。通过测评结果发现,GPT4-Turbo依然领先幅度较大。但多个中文大模型在汽车行业上具有良好表现(75分或以上),有4个中文大模型在中文的汽车场景的表现超过了GPT-3.5,表明中文大模型在汽车场景上已经具备了的良好的潜力。部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。在智能座舱与交互这一维度上,仅有一个中文模型达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。行业基准:SuperCLUE-Fin金融行业测评基准SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准。依据不同的任务类型,全方位地对金融大模型进行测评。1.国内外头部模型在中文金融能力差距较小从金融大模型综合能力上看,国内外头部模型差距较小。体现了国内大模型在金融领域综合能力上有一定的竞争力。在各项任务领域,较多国内模型得分超过GPT-4与GPT-3.5Turbo,总体表现良好。2.国内大模型在金融能力上的三个梯队在首批金融测评中,国内大模型大致可以分为三个梯队:第一梯队包括Baichuan3、GLM-4与MoonShot-v1-128k,其等级为A,低于GPT-4Turbo,但在国内表现最为突出;第二梯队包括讯飞星火V3.5与文心一言4.0,其等级为B,性项大模型为主,等级集中在C及以下。详情可访问:www.CLUE/superclue_fin.html行业基准:SuperCLUE-Industry工业行业测评基准SuperCLUE-Industry(SC-Industry)是首个中文原生的工业大模型测评基准,旨在通过基础能力和应用能力两大维度、六大能力对大模型进行效果评估,并加入了智能体Agent能力的测评。设计结合国际标准和中文特需,旨在推动工业大模型技术进步与创新。1.国际大模型表现依然突出国际大模型表现依然突出:GPT4-Turbo-0125作为目前国际领先的大模型,在中文工业测评中总分74.8分,高于其他国内外模型,并且在各项子能力上均有较大优势。2.在中文工业场景中国内模型很有竞争力在中文工业场景中国内模型很有竞争力:可以看到本次上榜的国内模型在工业基础能力和应用能力上均表现不俗,国内最高分奇智孔明AInno-15B与GPT-4总分差距仅有1.4分,远小于国内大模型通用能力上与GPT4的差距。详情可访问:行业基准:SuperCLUE-ICabin汽车智能座舱测评基准智能座舱通过集成大量高科技功能,为驾驶员和乘客提供了更为舒适、便捷的乘坐体验。它不仅包括了语音识别交互、图像感知、个性化服务推荐等常见功能,还涉及智能驾驶和自动驾驶等高端技术。因此,智能座舱的智能化水平成为了衡量一辆汽车科技含量的重要标准。为了更好地引领和规范智能座舱技术的发展,我国相关机构推出了《汽车智能座舱分级与综合评价白皮书》。该标准从智能、安全、高效、愉悦能四个方面对智能座舱的智能化水平进行评价,旨在为当前提供更为可靠和全面的参考依据。但该标准仅仅只是从宏观层面为智能座舱的评测构建了一个框架,而针对一些具体的通用场景和智能座舱中的大模型表现能力的相关测评标准仍存在空白和不足。在这个背景下,SuperCLUE智能座舱评测基准应运而生。SuperCLUE-ICabin是一个专门针对汽车智能座舱的大模型测评基准,旨在为智能座舱的研发和生产提供一套科学、严谨的评价体系。本文将详细介绍SuperCLUE智能座舱评测基准的构成、测评方法和应用场景,以期为智能座舱行业的发展提供有益的参考。详情可访问:SuperCLUE-ICabin:汽车智能座舱大模型测评基准www.CLUE/superclue_icabin.html申请测评:邮件标题:SuperCLUE-ICabin测评申请,发送到contact@superclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式琅琊榜竞技场介绍「琅琊榜」是SuperCLUE团队推出的中文大模型匿名对战竞技场,旨在为中文通用大模型提供一个公平、公正、开放的对抗竞技平台。琅琊榜竞技场官方唯一地址,欢迎投票!来源:琅琊榜官方地址,数据截至2024年7月8日琅琊榜竞技场-性价比象限琅琊榜-性价比象限代表模型的能力和成本的均衡。我们将模型在「琅琊榜」竞技场中的分数与模型API的价格相结合,形成了区分性价比的四个象限。理想之选象限代表模型能力和成本均有很强的竞争优势。来源:琅琊榜官方地址,数据截至2024年7月8日琅琊榜用户问题分析及对战数据我们分析了10000多条用户问题,通过主题建模深入探究用户如何与模型互动。分析采用了OpenAI的文本嵌入模型text-embedding-3-small和K-means聚类算法,最后利用GPT-4对每个聚类的主题进行了总结,并展示了前10个主题。来源:琅琊榜官方地址,数据截至2024年7月4日琅琊榜还展示了排位赛中每个模型的对战胜率未来两个月基准发布计划有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE专项/行业测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。预告:SuperCLUE通用基准测评8月报告将在2024年8月27日发布,欢迎反馈意见、参与测评。序号文本专项基准计划序号行业基准计划1SuperCLUE-Math6中文数据多步推理测评基准首期榜单已发布1SuperCLUE-Auto汽车行业测评基准已发布,持续征集模型2SuperCLUE-Code3中文代码能力测评基准首期榜单已发布2SuperCLUE-Industry工业行业测评基准已发布,持续征集模型3SuperCLUE-Agent中文智能体测评基准首期榜单已发布3SuperCLUE-ICabin智能座舱测评基准已发布,持续征集模型4SuperCLUE-Safety中文多轮安全基准首期榜单已发布4SuperCLUE-Fin金融测评基准已发布,持续征集模型5SuperCLUE-RAG中文检索增强测评基准首期榜单已发布5医疗诊断测评基准待发布6SuperCLUE-200K中文超长文本测评基准首期榜单已发布6手机行业测评基准待发布7SuperCLUE-Role中文角色扮演测评基准首期榜单已发布7娱乐行业测评基准待发布8SuperCLUE-Long长文本测评基准待发布8政务行业测评基准待发布9SuperCLUE高阶推理测评基准待发布9教育行业测评基准待发布10SuperCLUE指令遵循测评基准待发布-待发布序号多模态基准计划序号AI产品基准计划1AIGVBench-T2V中文文生视频测评基准已发布,持续征集模型1SuperCLUE-Coder代码助手测评标准/方案发布2SuperCLUE-Image中文文生图测评基准已发布,持续征集模型2AI搜索产品基准测评待发布3SuperCLUE-V中文多模态理解测评基准标准/方案发布3AI生产力工具基准测评待发布-待发布-待发布第5部分代表性模型案例介绍优秀模型:Qwen2-72B-Instruct(阿里云)简介:720亿。Qwen2-72B不仅在多语言能力、代码生成、数学推理、长文本处理等方面表现出色,而且在指令遵循和安全性能上也做出了显著提升。模型特点:Qwen2-72B在代码、生成创作、角色扮演、长文本和精确指令遵循等基础能力上排名国内第一,在计算、逻辑推理、工具使用能力上排名国内前三。综合来看,Qwen2-72B整体能力不俗,引领全球的开源生态,是一个非常有竞争力的通用开源大模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论