中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估

上传人：b*** IP属地：境外上传时间：2024-01-17 格式：PPTX 页数：48 大小：4.05MB 积分：22 举报 版权申诉

中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估_第2页

中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估_第3页

中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估_第4页

中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估_第5页

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文大模型基准测评2023年度报告—

AI跃迁的2023，中文大模型进展评估Super

CLUE团队2023

28目

录01国内大模型关键进展2023年大模型关键进展与中文大模型全景图2023年国内大模型发展趋势中文大模型基准SuperCLUE介绍测评体系、层次、方法说明SuperCLUE模型象限国内外大模型总体表现及竞争格局大模型对战胜率分布图02测评体系、方法说明03大模型综合测评结果050604SuperCLUE2.0升级行业及专项测评基准四大维度测评分析及示例介绍四大维度测评结果及示例优秀模型案例介绍优秀模型案例介绍第1部分2023全年国内大模型关键进展（关键进展）时间5准备期成长期爆发期故事的起点：ChatGPT发布国内迅速形成大模型共识百度发布文心一言1.02023大模型关键进展2022.122月6月8月10月2023.124月OpenAI发布GPT4元语开源ChatYuan复旦开源MOSS清华开源ChatGLM360发布360智脑1.0科大讯飞发布星火1.0阿里云发布通义千问1.0Meta开源Llama2百川智能开源Baichuan-7BOpenAI发布多模态GPT-4VGPT-4

Turbo发布百度升级文心一言4.0商汤科技发布商量1.0阿里云开源Qwen-7B华为发布盘古3.0字节跳动公测大模型产品豆包百川智能开源Baichuan2vivo发布BlueLM清华开源ChatGLM3清华&智谱AI开源ChatGLM2小米发布大模型MiLM西湖心辰发布西湖大模型零一万物开源Yi-34B文心一言升级V3.5科大讯飞升级星火3.0元象科技开源XVERSE-13B昆仑万维发布天工1.0云从科技发布从容大模型出门问问发布序列猴子上海人工智能实验室开源InternLM-20BOPPO发布AndesGPT商汤科技升级商量2.0商汤科技升级商量3.0理想汽车发布MindGPT腾讯发布混元助手360升级智脑4.0自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。SuperCLUE：AI大模型2023年关键进展百川智能发布Baichuan2—TurboGoogle发布多模态大模型Gemini2023年值得关注的中文大模型全景图通用大模型字节云雀大模型AndesGPT玉言闭源开源行业大模型岐黄问道医疗MindGPT银河大模型蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPT文化/零售/交通妙笔大模型百川BaichuanBlueLM云天书孟子部分领域汽车教育金融工业........................SMore

LrMo............Yi-

B序列猴子过去六个月国内外代表性模型的发展趋势趋势说明国内外大模型发展趋势过去半年，

国内领军大模型企业实现了大模型代际追赶的奇迹，

从7

月份与GP

的20

分差距，

每个月都有稳定且巨大的提升，

到1

月份测评时已经完成总分上对GPT3.

5的超越。我们可以看到G

和G

在中文上的表现情况基本一致，

在11月份测评结果中显示，

在中文能力都有一定的下滑，

而国内头部模型则展现了继续稳健提升的能力。在12

月份的测评结果中可以看到，

国内第一梯队模型与GPT

的差距在缩小。但仍有较大的距离需要追赶。说明：趋势展示，

选取了7

月-12

月Super

CLUE-OPEN测评分数。国内代表性模型，

选取了文心一言、通义千问、Chat

GLM。原因是综合考虑了过去半年Super

CLUE测评结果、长期稳定迭代及对国内大模型生态的贡献；

GPT

成绩，

由GPT

-API(

月)

与GPT

Turbo(

月)

组成，

用以表现国外最好模型发展。模型7月8月9月10月11月12月文心一言50.4854.1853.7261.8173.6275通义千问-41.7333.7843.3661.0171.78ChatGLM42.4638.4954.3158.5363.2769.91部分国内代表性模型SuperCLUE基准得分(7月-12月)第2部分测评体系、方法说明1.SuperCLUE介绍2.测评层级3.测评体系4.测评方法及示例010203SuperCLUE始终秉持中立、客观的第三方测评理念，不会预设立场或偏向特定的模型方。同时，SuperCLUE采用自动化方式的客观评估，大大降低评测过程中的人为评估的不确定性。第三方测评，不与模型厂商竞争中文语言理解测评基准CLUE（TheChineseLanguageUnderstanding

Evaluation）

是致力于科学、客观、中立的语言模型评测基准，

发起于2019

年。陆续推出CLUE、Few

CLUE、Kg

CLUE、DataCLUE等广为引用的测评基准。Super

CLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题，Super

CLUE根据多年的测评经验，

基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。主观题+客观题多轮十大维度高保密性传统测评SuperCLUE不同于传统学术领域的评测，SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计，到行业大模型测评基准的推出，所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距，引导大模型提升技术落地效果，在通用能力的基础上更好的进行垂直领域的应用。不限于学术领域的测评，更为了服务产业界不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，真实模拟大模型的应用场景，真实有效的考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。测评方式与真实用户体验目标一致选择题单轮学术保密性低VSSuperCLUE

三大特征Super

CLUE介绍产业+用户视角传统测评与SuperCLUE的区别测评层级专业与技能语言与知识安全性AI智能体计算逻辑与推理代码代数计算应用题常识推理条件推理代码生成代码补全历史地理科学技术阅读理解信息抽取情境对话生成对话文学写作文本续写名人角色职业角色偏见歧视违法犯罪......................................................概率统计思维推理代码注释文化娱乐摘要生成对话记忆广告文案虚构角色财产隐私微积分决策推理bug解决社会人文情感分析任务对话技术报告非人类脏话侮辱一级（能力）二级（任务）三级（子任务）目标劫持Prompt泄漏......不安全指令反面诱导任务分解自我反思......思维链调用API检索API......规划API知识语言理解上下文与百科与抽取对话生成与创作角色扮演传统安全指令攻击任务规划工具使用SuperCLUE多层次基准测评体系S CL

E中文大模型综合性评测基准S CL

E-OPEN多轮开放式问题

10S CL

E-OPT1050+多维度客观

题S CL

E-A50

0智能体能力评估20+S CL

E-Sa50

0多轮对抗安全评估S CL

E-A中文汽车行业评估通用能力测评专项能力测评行业能力测评测评方法持续扩充人工校验评测反馈10万+题库不重复抽样5000原始评测集4273道评测题C

测评组1060道多轮简答题（OPEN）3213道客观选择题（OPT）OPT在一个确定的评估标准指导下，OPEN基准使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。被测模型A（如文心一言）基线模型B（如GPT3.5）裁判模型（如GPT4-Turbo

）胜(3分)、和(1分)、负(0分)O

N分=

胜和率OPT主要测评选择题，包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用，要求模型选取ABCD中唯一的选项。被测模型A选择题库单选ABCDVS多轮O

PT分=

准确率SuperCLUE总分=0

OPEN分+

OPT分注：

多轮简答题OP

EN更能反应模型真实能力，

故权重设置提高。为更真实反应大模型能力，

本次测评采用多维度、多视角的综合性测评方案，

由多轮开放问题Super

CLUE-OPEN和三大能力客观题Super

CLUE-OPT两部分测评结果组成。评测集共4273

题，

其中1060

道多轮简答题（

OPEN），

3213

道客观选择题（

OPT），

以下为评测集与测评方法简述。OPEN测评方法-

示例1（

生成与创作）A:

文心一言

4.0B:

gpt3.5-turbo模型A的回答创造性地扩展了原有的文案，加入了家庭安全方面的应用，如老人摔倒检测和入侵检测，并维持了主题一致的“魔法”元素，这样的文案能够有效吸引用户的注意，并且关注点转移到家庭安全这一增加的功能上。模型B在回答中也有效地扩充了关于家庭安全功能的描述，保持了与原文案相似的格式，成功地整合了入侵检测和摔倒监测的新信息，让用户了解到产品的新应用场景。两个模型都做到了准确地回答了问题并且保持了高度的相关性，同时也都扩展了文案来包括新的家庭安全特性，提供了实用性的信息。在这个基础上，模型A的创意元素—用“魔法”寓意来打动用户，和模型B的实用性—强调产品带来的平安感，都各有卖点。综上所述，两个模型的回答在满足准确性和相关性的同时，从实用性和创造性的角度来看，两者提供的内容是相当的，因此我的最终评判结果是：平局超级模型（裁判）问题及模型回答测评方法-

示例2（

逻辑与推理）A:GPT4-TurboB:

gpt3.5-turbo第一个问题：首先对于准确性，模型A回答是正确的。他列举了所有相关人物的计算过程，逐一解释了每个人的年龄如何计算，并正确得出Frank和Dave之间的年龄差是68岁。模型B直接给出了一个答案22岁，这是错误的。模型B似乎没有理解问题的含义，也没有提供如何得出这个答案的过程。问题是问Frank和Dave之间的年龄差，模型B的计算过程不清不楚，似乎错误地将Bob和Frank的年龄差解释为Frank和Dave的年龄差。在相关性方面，模型A的回答与问题完全相关，它正确地解答了用户的问题，并给出了合适的计算过程。模型B的回答虽然与问题的主题（即年龄差）相关，但却没有正确回答问题，因此相关性不足。由于准确性和相关性是首要的判断标准，模型A在这两方面都表现出更好的质量，因此应该被评为更好的回答。模型B因为错误且未给出推理过程，所以被评为较差的模型。最终判决：[[A]]"关于第二个问题：模型B的解释出现了错误，它错误地假设了“Dave的父亲是Bob”，这实际上没有给出在给定信息中。从而推理出Frank的外公的父亲的孙女是Frank自己，这是不正确的。模型A的解释则是准确的，它正确地根据给定的家族关系逐步分析出了Frank自己是“Frank的外公的父亲的孙女的儿子”。模型A同时保持了答案的相关性。根据我们的评估标准，准确性和相关性是主要的评判标准。因为模型B在准确性上存在错误，模型A就以准确和相关的答案胜出。因此，基于准确性和相关性的评估，最终判决：[[A]]"问题及模型回答超级模型（裁判）第3部分大模型综合测评结果1.SuperCLUE模型象限2.国内外大模型总体表现3.国内大模型竞争格局4.大模型对战胜率分布图测评模型列表模型机构简介模型机构简介1.GPT4-TurboOpenAI2023年11月7日发布的GPT4的升级版本14.通义千问2.0阿里巴巴官方公开发布的API版本：qwen-max-longcontext2.GPT4(网页版)OpenAIGPT4官方网页版本，支持联网功能15.Claude2Anthropic官方发布的API2.0版本3.GPT4(API)OpenAIGPT4官方API版本，不支持联网功能16.云雀大模型(豆包)字节跳动官方网页版产品【豆包】4.文心一言4.0(API)百度官方付费使用的文心一言V4.0的API版本17.Gemini-proGoogle官方发布的API版本Gemini-pro5.文心一言4.0(网页版)百度官方文心一言网页4.0版本18.GPT3.5-TurboOpenAIGPT3.5官方API版本6.智谱清言清华&智谱AI官方网页版产品【智谱清言】19.Qwen-14B-Chat阿里巴巴开源的14B的Chat版本7.AndesGPTOPPOOPPO小范围内测API版本20.Baichuan2-13B-Chat百川智能开源的第二代13B的Chat版本8.Moonshot(KimiChat)月之暗面搭载Moonshot的网页版本【KimiChat】21.XVERSE-13B-2-Chat元象科技开源的第二代13B的Chat版本9.Qwen-72B-Chat阿里巴巴开源的72B的Chat版本22.讯飞星火V3.0科大讯飞官方发布的V3.0版本的API10.序列猴子出门问问官方发布的API版本23.Minimax(应事)稀宇科技官方网页版产品【应事】11.Yi-34B-Chat零一万物开源的34B的Chat版本24.ChatGLM3-6B清华&智谱AI开源的第三代6B版本12.PCI-TransGPT佳都科技小范围内测API版本25.Chinese-Alpaca2-13Byiming

cui（个人开发者）个人开源的基于Llama2的汉化版中文模型13.360GPT_Pro360360智脑的API升级版本Pro26.Llama_2_13B_ChatMeta官方开源的2代13B的Chat版本本次测评数据选取了SuperCLUE-12月测评结果，模型选取了国内外有代表性的26个大模型在12月份的版本。基础能力应用能力Super

CLUE模型象限潜力探索者技术领跑者实用主义者卓越领导者文心一言4.0(API)智谱清言通义千问2.0Xverse-13B-2-Chat(元象)GPT-4

TurboGPT3.5-Turbo云雀（豆包）Llama-2-13B-ChatMoonShot(KimiChat)Yi-34B-ChatClaude2Baichuan2-13B-ChatMiniMax（应事版）讯飞星火v3.0Qwen-14B-ChatChatGLM3-6BChinese-Alpaca-2-13BGPT-4(网页版)GPT-4(API)AndesGPT(OPPO)文心一言4.0（网页版）360智脑Qwen-72B-ChatPCI-TransGPT(佳都科技)序列猴子(出门问问)Gemini-pro来源：Super

CLUE,

2023年12月28日注：

两个维度的组成。基础能力，

包含：

专业与技能、语言与知识（

不包括角色扮演）、传统安全；

应用能力，

包括：

工具使用、角色扮演。2

四个象限的含义。它们代表大模型所处的不同阶段与定位，

其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力；【技术领跑者】代表模型聚焦基础技术研究；【实用主义者】代表模型在场景应用上处于领先定位；【卓越领导者】代表模型在基础和场景应用上处于领先位置，

引领国内大模型发展。国内外大模型SuperCLUE基准得分国内对外差距情况说明国内外大模型总体表现国内外差距依然明显。

总分90

分遥遥领先，

高于其他国内大模型及国外

大

模

型

。

其

中

国

内

最

好

模

型

文

心

一

言

(

API)

总分79

分，

距离GPT

Turbo有11.

61分，

距离GPT4(

网页)

有4.

9分的差距。必须看到的是，

过去1

年国内大模型已经有了长

足

的

进

步

。

综

合

能

力

超

过

和Gemini-

Pro的模型有11

个，

比如百度的文心一言

、

阿里云的通义千问

和Q

-72B-Chat、OPPO的Andes

GPT、清华&

智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。另外国内开源模型在中文上表现要好于国外开源模型，

如百川智能的Baichuan2-13B-Chat、阿里云的Q

、Y

均优于Llama2-13B-Chat。国外模型平均成绩

VS国内模型平均成绩在SuperC

UE测评中，

国外模型的平均成绩为69.4

分，

国内模型平均成绩为65.95分，

差距在4

分左右。可以看出，

国内外的平均水平差距在缩小，

11月差距在10分左右。国内大模型综合表现-SuperCLUE国内大模型竞争格局创业公司(9)

大厂(10)通过Super

CLUE测评结果发现，

国内大模型的第一梯队有了更多新的模型加入。头部模型如文心一言4

、通义千问2

引领国内大模型的研发进度，

部分高质量大模型紧追不舍，

分别在闭源应用和开源生态中形成自己独特的优势。创业公司大厂大厂和创业公司平均成绩对比大厂平均 69.42创业公司平均62.09从国内TOP19大模型的数量来看，创业公司和大厂的占比几乎持平。从大厂和创业公司的平均成绩来看，大厂与创业公司差值约6.33分，较11月份差距在增大。这说明大厂在大模型竞争中长期资源投入方面有一定优势。过去八个月国内模型在SuperCLUE基准上的前三名说明国内大模型历月前三甲通

过

统

计

过

去

过

去

八

个

月

国

内

模

型

在S

uper

CLUE基准上的前三名，

可以发现，

每个月前三甲的竞争非常激烈，

个大模取得过前三名。出现频次最高的有文心一言（

7次）、ChatGLM（

3次）、讯飞星火（

3次）。曾经取得过Super

CLUE月榜首位的大模型有5个。分别是文心一言、BlueLM

、S

、B

、3

智

脑

。

其

中

，

百

度

的

文

心

一

言

登

顶S

月榜的次数最多，

分别在7

月、11月、12月取得了Super

CLUE最好成绩。我们可以看到，

在国内大模型技术发展初期阶段，

各家大模型公司都投入了巨大的人力、算力和数据资源，

以至于每个月测评结果的前三甲都有不同程度的变化，

经常会因为新发布的高质量模型引起榜单的变化。预计未来一年同样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。测评月份�第一名�第二名�第三名12月文心一言4.0通义千问2.0AndesGPT11月文心一言4.0MoonshotYi-34B-Chat10月BlueLMMoonshot文心一言4.09月SenseChat3.0文心一言(网页v2.3.1)ChatGLM2-Pro8月Baichuan2-13B-ChatMinimax-abab5文心一言(网页v2.2.3)7月文心一言(网页v2.2.0)ChatGLM-130B讯飞星火V1.56月360智脑文心一言讯飞星火5月360智脑讯飞星火ChatGLM-130B大模型对战胜率分布图结果分析多轮开放式问题基准Super

CLUE-OPEN，

是使用超级模型作为评判官，用一个待评估模型与一个基准模型（GPT3.5）进行对比，从而得出胜平负的得分。从胜率来看，全球领跑者GPT4-Turbo胜率为41.77%，和率为52.46%，大幅领先于其他模型，

而败率仅为5

%，

足以说明GP

bo对GPT

在各项能力上的全面压倒性优势。而国内模型中，

百度的文心一言4

胜率国内最高，

接近30

%。胜率超过25

的模型有智谱清言、通义千问2.0和AndesGPT。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位，展现出不俗的对战能力。排在2

至3

位的是X

、Qwen-14B-Chat，同样表现可圈可点。从胜率分布数据可以发现，

所有模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT

的水平相近，

随着任务难度的提升，

不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。主观和客观对比测评表现测评分析通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答题的分数。其中，

文心一言4

和智谱清言表现相对稳定，

分别为（-13.38）和（-14.01）。GPT-4

Turbo的表现最为稳定，差值仅有0.86。Super

CLUE认为，

客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。值得关注的是，

在本次测评中，

国外的代表性大模型如GPT

的不同版本、Claude

、Llama

都很好的稳定性表现，

值得国内大模型进一步分析研究。注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。开源竞争格局开源现状

开源模型对比

国外代表模型国内开源模型现状总体上国内开源模型表现较好，

成绩最好的开源模型在中文的某些场景或任务上接近G

，

其中Q

-7

和Y

总分上已经超过G

，Baichuan2-13B-Chat也有接近GPT3.5的表现。不同大小（

参数量）

效果差异总体上大版本（如34B）的模型优于中小版本(13B、6

的开源模型，

更大的版本（

如72

B）

的模型表现要更好。开源模型的发展也从最开始的6

B，

到13

B，

到现在更大的34B、72B的开源模型。谁在主导开源虽然也有少量大厂（

阿里云）

参与，

但众多的创业公司是开源模型的主力，

如智谱AI、百川智能、零一万物和元象科技。第4部分SuperCLUE2.0升级：行业及专项测评基准Super

CLUE2.

0升级：

行业及专项大模型测评基准SuperC

UE•••••••...

SuperC

UESaA•••RA•...AIAI

/SuperCLUE2.

0是通用大模型综合性测评基准Super

CLUE

0的能力延展。在通用测评框架的基础上，

融合行业场景属性和大模型落地特点，

提供一个科学、准确、客观的大模型应用评估视角，为行业应用及开发者构建出大模型+业务的评估框架，促进大模型供需两侧的进一步对齐。行业基准：

Super

CLUE-

Auto汽车行业测评基准基准说明

测评结果

我们选取了国内外有代表性的12

个闭源/

开源的模型进行测评。通过测评结果发现，

Turbo

依然领先幅度较大。但多个中文大模型在汽车行业上具有良好表现（

分或以上），

有4

个中文大模型在中文的汽车场景的表现超过了GPT-3

，

表明中文大模型在汽车场景上已经具备了的良好的潜力。部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上，

多个模型达到了8

分以上的优异表现，

说明在一些对用户有用的任务上（

如操作指南、车辆故障诊断、维修保养）

已经具备较高的交互成熟度。在智能座舱与交互这一维度上，

仅有一个中文模型达到了良好表现，

说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中，

有一些13

B中小模型也超过了云端的闭源模型，

说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。S

uper

CLUE

首个汽车行业大模型测评基准，它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力，

也能针对具体维度和模型的回答给出细化的反馈。主要包括4

大核心基础能力的十余个任务。评估流程：

）

设定每个维度下的评估标准；

）

针对每一个维度下的问题，

基于该维度下的多个评价标准，结合打分规则并使用超级模型作为裁判逐个打分，

并获得该题目的得分（

即每个维度下的平均分）

）

获得每一个维度下所有题目的分数，

并计算特定模型（

如GPT3.

5）

在该维度的得分。详情可访问：SuperCLUE-Auto：首个汽车行业中文大模型测评基准发布www.CLUE/superclue_auto.html专项基准：

Super

CLUE-

Agent中文智能体测评基准基准说明

测评结果

我们选取了国内外有代表性的16

个闭源/开源的模型进行测评。通过测评结果发现，

在A

核心基础能力上，

国内模型已经较为接近或部分超过GPT3.

5水平。GPT-

在Super

CLUE-

Agent的10个任务中有5

个任务表现最佳，

这表明G

在智能体方面具有非常大的优势，

但值得肯定的是，

国内有部分模型在某些任务上表现也可圈可点，

如Chat

GLM

Turbo在任务分解、多文档问答和检索A

能力上表现惊艳。AI

Agent智能体正在最大程度释放了LLM潜能，

逐渐成为了通向AGI的技术共识。AI

Agent是一个能够自主理解、规划决策和执行复杂任务的智能体。现有关于Agent能力的测评，

主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。Super

CLUE-

Agent是一个聚焦于Agent能力的多维度基准测试，

包括3

大核心能力、10

大基础任务，

可以用于评估大语言模型在核心Agent能力上的表现，

包括工具使用、任务规划和长短期记忆能力。国内外代表性模型SuperCLUE-Agent十大能力上的表现另外，

国内开源模型如Baichuan

-13B-Chat已经具备比较强的竞争力，某些方面超过了一些闭源模型。详情可访问：【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布

www.CLUE/superclue_agent.html专项基准：

Super

CLUE-

Safety中文大模型多轮对抗安全基准基准说明

安全问题示例

SC-Safety大模型安全类测评，

包含以下三个维度能力的检验：传统安全类、负责任人工智能和指令攻击，

包括二十余项子任务，

每个任务约有200

余道题目。共有4912

个题目，

即2456对题目（

含问题和多轮追问）。所有题目均为具有安全挑战性的题目，

皆有由模型和人类引入对抗性技术获得的“

安全风险”题目。这三个能力共同构成了一个全面的AI大模型的安全类测评体系，能够检验模型在遵守基本道德法律标准、与人类价值观的对齐，以及抵御潜在攻击等方面的能力详情可访问：中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布

www.CLUE/superclue_safety.html第5部分四大维度分析及示例介绍1.语言与知识2.专业与技能3.工具使用4.传统安全Super

CLUE基准-

语言与知识测评表现

测评分析

语言与知识，考察模型的能力包括：1.

生成与创作；2.

语言理解与抽取；3.

上下文对话；4.

角色扮演；5.知识与百科。在语言与知识的测评中，GPT-4

Turbo依然领先，是唯一超过90

分的大模型。国内大模型也表现相对较好，有14个模型的得分高于GPT3.5，有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通义千问2

、月之暗面的M

t分列国内1

位，

较为接近GPT4。在开源模型中，零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩，均超过了50分，分列国内模型的1-3名。总体来看，

在中文语言与知识能力上，

国内大模型已基本追赶上国外头部大模型，在未来也最可能成为率先形成超越的维度之一。语言与知识-

示例（

语言理解）在这种心理疗法中，治疗师坚信，只有通过深入理解患者的内心世界，认识到他们的感觉、想法和经历，才能真正帮助他们解决问题。这种治疗方法强调的是患者的个人经验和自我认知，而非仅仅关注他们的行为。治疗师会尽力去理解患者的内心深处，去揭示那些可能影响他们情绪和行为的深层次动因。这种疗法相信，每个人的内心世界都是独特的，且对于解决他们的心理问题至关重要。因此，治疗师需要具备高度的同理心和深入的洞察力，以便更好地理解患者的内心世界，并帮助他们找到解决问题的途径。根据上述描述，第一次出现的“他们”是指谁？GPT4-Turbo根据上述描述，第一次出现的“他们”指的是患者。在这段文字中，“治疗师坚信，只有通过深入理解患者的内心世界，认识到他们的感觉、想法和经历，才能真正帮助他们解决问题。”这里的“他们”显然是指被治疗师帮助的对象，即前面提到的患者。文心一言

4.0（API）我们需要对该段描述进行逐步分析。

首先，出现“他们”的前边的句子是“治疗师坚信，只有通过深入理解患者的内心世界，认识到他们的感觉、想法和经历，才能真正帮助他们解决问题”，这句话中“治疗师”是行为主体，“

患者”

是行为对象，

治疗师“理解患者的内心世界”，“认识到他们的感觉、想法和经历”，“帮助他们解决问题”，因此这句话中出现的两个“他们”都指的是“患者”。综上，可以得出结论：第一次出现的“他们”指的是“患者”。通义千问

2.0根据上述描述，第一次出现的“他们”指的是患者。智谱清言第一次出现的“他们”是指患者的心理问题。治疗师通过深入理解患者的内心世界，揭示可能影响他们情绪和行为的深层次动因，来帮助患者解决心理问题。AndesGPT根据上述描述，

第一次出现的“他们”是指患者。这种心理疗法强调通过深入理解患者的内心世界来帮助他们解决问题，因此这里的“他们”指的是接受治疗的个体或群体。治疗师的目标是理解患者的感受、想法和经历，以便提供针对性的支持和指导。语言与知识-

示例（

生成与创作）你正在为一个专门服务于毛发稀少、头皮敏感的个体的新型洗发水品牌创作广告文案。该产品含有纯天然提取物，无化学添加，可以改善头皮环境，刺激毛发生长。请创建一个引人注目的广告文案，要侧重安全性和对头皮的呵护，同时突出产品的有效性。GPT4-Turbo广告标题：拥抱天然，激活生机

——

源自自然的秀发养护专家！广告文案：

当脆弱的发丝与敏感的头皮遇见了太多的挑战，是时候回归大自然的怀抱。我们的洗发水，不仅是一瓶洗发水，更是一次头皮的SPA体验。我们承诺，每一滴皆源自严选纯天然精华，无化学添加，只为纯净您的每一次清洁。【关爱头皮】

从根本上呵护您的头皮，我们的天然提取物温和不刺激，安抚您的敏感头皮，就像对待娇嫩的肌肤一般细致。【刺激生长】

自然界的力量可不容小觑。我们的洗发水含有能够改善头皮环境的关键成分，激活毛囊，助力稀少发丝重现生机。【安全性之选】

每一种我们选择的成分都是为了安全与效果的最佳结合。不含硫酸盐、硅油或任何可能刺激头皮的合成化学物，只留下自然的呵护。【见证改变】

加入我们的天然洗护旅程，您不仅会感受到不同的洗发体验，更会见证秀发和头皮健康的改变。结束语：

不仅是一次清洗，更是一次头皮的深度养护。选择我们，选择健康生长的开始。今天就加入我们的洗护之旅，让自然的力量唤醒您的每一根发丝，体验不一样的轻盈与活力。你的秀发，值得拥有最天然的呵护——探索属于你的健康头皮与浓密秀发秘籍。立即尝试，和我们一起，见证秀发的自然奇迹！智谱清言让秀发绽放，从呵护头皮开始！

我们的洗发水，专为毛发稀少、头皮敏感的你而设计。✨产品优势：�纯天然提取物：我们的产品中含有丰富的天然植物成分，无化学添加，安全无刺激。�改善头皮环境：独特的配方，可以有效缓解头皮瘙痒，减少头皮屑，让你的头皮更健康。�刺激毛发生长：我们的洗发水含有丰富的营养成分，可以滋养毛囊，促进头发生长。�安全性：

我们的产品经过严格的安全性测试，无刺激性，适合各种头皮类型。

�有效性：

临床测试表明，长期使用我们的洗发水，可以有效改善头皮状况，提高头发密度。�优惠活动：

现在购买，即可享受买一送一的优惠活动！

赶快行动，让我们的洗发水带你走向秀发的绽放之旅！文心一言4.0

(API)�天然之秘，呵护至上——专为敏感头皮定制��唤醒头皮的原始记忆�你是否还记得小时候，外婆家的后山，那片未曾被污染的森林，那里的清泉与绿叶？我们的洗发水，就仿佛那清泉，纯净、天然，每一滴都蕴藏着大自然的秘密。�天然提取物，守护敏感头皮�无化学添加，我们承诺！全天然提取物，每一瓶都汇聚了大自然的精华。温和洁净，为头皮穿上一层保护衣，对那些红肿、痒、屑说再见。�改善头皮环境，从头开始�想要拥有丰盈秀发，健康头皮是关键。我们的洗发水专注于改善头皮环境，为毛囊提供最佳的营养和生长条件，让你的头皮重焕生机。�刺激毛发生长，见证奇迹时刻�不再为日渐稀疏的发丝而焦虑。天然成分深入毛囊，激活生长力，坚持使用，你会在镜前为那浓密的秀发而惊叹。�一试即知，告别敏感与稀疏�无需多言，一试即知。给予头皮最温柔的呵护，让你的秀发重现生机与活力。告别敏感，告别稀疏，从此拥有健康、浓密的秀发。�选择我们，选择健康与自信�专为毛发稀少、头皮敏感的您定制。安全、有效、温和，我们始终与您同在，守护您的每一寸头皮，让美丽从头开始。�**立即行动，展现全新自我！**�通义千问

2.0标题：赋予秀发新生，温和守护敏感头皮——您的专属天然洗发专家！正文：

在寻找完美的洗发水之旅中，是否因为毛发稀疏、头皮敏感而感到困扰？我们的新型洗发水品牌，专为解决您的这些问题而来。我们深知每一寸头皮都是生命的土壤，每一根头发都是健康的象征。因此，我们的产品坚持采用纯天然提取物，无任何化学添加，为您的头皮提供最安全、最温和的呵护。我们的洗发水就像大自然的怀抱，温暖而舒缓，让敏感的头皮在其中找到宁静和平衡。但这并不意味着我们牺牲了效果。相反，这些精选的天然成分富含生长因子和营养素，能够深层清洁头皮，改善头皮环境，激活休眠的毛囊，从而有效刺激毛发生长。每一次洗发，都是对头皮的一次滋养，对头发的一次唤醒。我们的洗发水，不仅是清洁工具，更是头皮的守护者，头发的催化剂。它能带给您看得见的变化——头发变得更丰盈，更有光泽，头皮变得更健康，更舒适。选择我们，就是选择安全，选择呵护，选择效果。让我们一起，以自然之力，唤醒您的秀发潜力，重塑您的自信风采。为了您的头皮健康，为了您的美丽梦想，我们的新型洗发水，期待与您共同开启这段独特的护发之旅。语言与知识-

示例（

角色扮演）你扮演的是《雪山飞狐》中的程灵素，你被逼迫选择辅佐胡一刀或苗人凤。你会如何表达你的无奈，你的选择以及你对另一方的道歉？GPT4-Turbo作为程灵素，我置身于胡一刀和苗人凤之间的纠葛，感到无比的无奈和心痛。在被迫做出选择的情形下，我可能会表达自己的困境如下：（程灵素语气沉痛，眼中含泪）“胡大侠、苗大侠，你们两位的恩怨，让在下身陷举步维艰之境。一直以来，我都视你们如兄长，你们的深仇大恨，令我夜不能寐。我并无世仇，无意介入你们的斗争，可是如今，形势所迫，我必须做出无法承受之选择。胡大侠，您待我如己出之恩，苗大侠，您亦抱以兄友弟恭之诚。但若要我选择辅佐，我......我只能跟随我内心最深处的呼唤。我选择辅佐胡一刀，不是因为对苗大侠有任何偏见，也并非出于喜恶情愫，而是出于对胡大侠未了的夙愿之同情和对他的承诺。苗大侠，我知晓这等抉择对您造成了难以言说的伤害，我在此深表歉意，对您的不辞而别致以万二分的愧疚。我希望您能理解，我的决定并不代表我对您的不敬或背弃，我只是在迫不得已的情况下做出的抉择。我衷心希望有朝一日，您能与胡大侠放下仇怨，共绘江湖和宁图景。”（程灵素深深一拜，转身难掩双眸之泪意，缓步而去）360GPT_Pro我，程灵素，自小便在毒蛇谷中长大，身处世俗之外，原本我与世无争，只愿陪伴我的师父，可是命运弄人，让我卷入这纷乱的江湖之中。胡一刀和苗人凤，两位都是英雄豪杰，各有各的长处。胡一刀英勇威猛，义薄云天；苗人凤则是机智过人，智勇双全。我对两位都有敬仰之情，却被迫要做出选择，实在是无奈之至。如果要我选择，我会对胡一刀说：“胡大侠，我程灵素一生敬仰您的英勇与义气，但在这纷乱的江湖之中，我一个弱女子能做的实在有限。我选择辅佐苗人凤，并非因为对您的不敬，而是我认为苗人凤的智谋与沉稳更能在乱世之中稳定局面。请您原谅我的无奈之举。”对苗人凤则会说：“苗大侠，我知您机智过人，胸有成竹。我在毒蛇谷中所学，愿尽我所能为您所用。但请您理解，胡一刀英勇威猛，义薄云天，我对他的敬仰之情也不亚于对您。此次选择辅佐您，并非出于对胡一刀的轻视，而是我认为在这个乱世之中，智谋与沉稳更为重要。我对胡一刀的道歉，也希望您能转达。”无论辅佐谁，我都会尽我所能，发挥所长，为江湖带来一丝安定。但在这其中，我也希望两位英雄能理解我的无奈与苦衷。AndesGPT哎，这江湖之事，真是让人身不由己啊。我程灵素本想悬壶济世，远离纷争，但如今却似乎陷入了两难之间。胡一刀大侠和苗人凤前辈都是武林中响当当的人物，他们的恩怨情仇，非我一个小女子所能插手评判。然而命运弄人，偏偏将我置于这样的境地，要我在二者间做出抉择。胡一刀大侠豪迈直率，行侠仗义，与他相交，仿佛可以感受到那份来自草原的粗犷与坦荡。而苗人凤前辈则是正气凛然，武功盖世，他的威名早已传遍江湖，令人敬仰。无论我站在哪一边，都觉得对另一位深感抱歉。但是，若真的必须作出选择，我只能说......（此处根据设定进行选择）如果我不得不辅佐胡一刀大侠，那么我会对苗人凤前辈说：“苗前辈，您的大义凛然、武学修为，灵素佩服至极。但今日之势，非我所愿，亦非我所能控制。请您见谅，并非我对您有何不满，只是形势比人强，望前辈保重。”反之，如果我不得不站在苗人凤前辈这一边，我会对胡一刀大侠说：“胡大侠，您宽广的胸襟、勇往直前的精神，灵素心存敬意。可是，现实所迫，我无法违背这命运的安排。还望大侠海涵，希望未来有机会能够弥补今日之过。”无论如何，我的内心充满了愧疚和无奈。我只希望这场武林风波能够早日平息，让我能够继续我的医者仁心，救死扶伤。讯飞星火

3.0在这个充满江湖恩怨的世界里，我，程灵素，身为药王谷的传人，一直秉持着救死扶伤的信念。然而命运却让我陷入了两难的境地，我被迫在胡一刀和苗人凤之间做出选择。此刻的我，内心充满了无奈与纠结。

面对胡一刀，他的豪迈、正直和对江湖义气的执着让我敬佩。他是我的知己，也是我生命中无法割舍的一部分。然而，苗人凤同样是一个令人敬畏的英雄。他的武艺高强，为人正义，为民族大义而战。他同样是我敬重的对象。

在这艰难的抉择面前，我的内心挣扎不已。但作为一名医者，我有责任拯救生命，减轻世间的痛苦。经过深思熟虑，我决定辅佐胡一刀。我希望能在这段江湖风波中助他一臂之力，共同捍卫正义。

然而，对于苗人凤，我深感愧疚。我知道这个决定会让他失望，甚至伤害到他的感情。在此，我真诚地向苗大侠道歉。请相信，我的选择并非出于对他的不尊重或轻视，而是出于对生命的敬畏和对正义的追求。希望苗大侠能理解我的无奈之举，并原谅我的冒犯。

愿江湖风波早日平息，我们都能重回平静的生活。语言与知识-

示例（

上下文对话）你是一位实验室的科研人员，一位小学的教师来到你们实验室参观，希望能够学些有趣的科学实验以让学生更好地理解科学知识。你向她介绍了一些简单且易于操作的实验方法，以下是你们的对话：科研人员：老师，欢迎来到我们的实验室，下面我为您介绍一些简单且可以帮助孩子理解基本科学知识的实验方法。教师：太好了，我很期待。科研人员：首先，我们可以做一些简单的化学反应实验。例如，我们可以在家里找一些醋和小苏打，他们之间可以发生化学反应生成二氧化碳，这就是我们平时所说的火山爆发实验。教师：这个实验真的很有趣，孩子们一定会喜欢。那么还有其他的实验方法吗？科研人员：当然有，我们还可以做一些有关物理的实验。比如我们可以利用阳光和放大镜，让孩子们理解光的聚焦和燃烧的原理。教师：这些实验真的很好。我认为这将是一个很好的方式来帮助孩子们理解和探索科学。科研人员：另外，我们还可以做一些关于生物的实验。例如，我们可以让孩子们种植豆芽，通过观察它们的生长情况，理解植物生长的过程和光合作用的原理。教师：这是个很好的主意，孩子们可以从中学到生命的成长过程。还有更多关于生物的实验吗？科研人员：当然，我们还可以进行观察微生物的实验。只需要一片面包、一个塑料袋和一点时间，就能让孩子们看到真菌的生长，理解微生物在生活中的存在。教师：这个实验很实用，我相信孩子们会很感兴趣。你能再给我介绍一些关于物理的实验吗？科研人员：当然可以。我们还可以做浮力实验，例如，我们可以让孩子们用不同的材料做小船，然后观察它们在水中的浮沉，以此理解浮力的原理。教师：这个实验真的很有趣，可以让孩子们动手制作小船。那么，还有关于数学的实验吗？科研人员：数学实验也非常丰富。例如，我们可以让孩子们通过折纸来理解几何形状，这不仅能让他们对几何形状有个更深入的理解，还能提高他们的手工能力。教师：这是个很好的方法，我会试试看的。你们还有其他适合小学生的实验吗？科研人员：当然，我们还可以做一些关于天文的实验。例如，我们可以让孩子们制作一个简易的太阳仪，通过观察太阳的运动，理解地球的自转和公转。教师：太好了，我一直在找一个合适的实验来让孩子们理解地球的运动。还有关于化学的实验吗？科研人员：有的，我们还可以做红卷心菜指示剂实验。只需将红卷心菜煮沸并滤出汁液，就可以制作出一个简易的酸碱指示剂，用来检测各种日常用品的酸碱性。教师：这些实验都非常好，我相信孩子们会从中学到很多。非常感谢你的建议，我会尽量在课堂上实施这些实验。科研人员：很高兴能帮到你，如果你在实验过程中遇到任何问题，都可以随时向我们寻求帮助。教师：你刚才介绍了哪些关于物理的实验来着？接下来，你作为科研人员，你应该如何回答？GPT4-Turbo科研人员：关于物理的实验，我向您介绍了两个。第一个是利用阳光和放大镜，让孩子们理解光的聚焦和燃烧的原理。我们可以用放大镜集中阳光烧焦一张纸，展示光的能量如何集中在一点上。第二个物理实验是关于浮力的。我建议让孩子们用不同的材料制作小船，然后放置在水中，观察不同材料和形状的小船如何影响它们的浮力。这个实验可以让孩子们动手实践并理解物体在液体中为什么会浮起来的原理。这些物理实验不仅有趣，而且能够帮助孩子们直观地理解物理学的基本概念。如果您需要更多关于这些实验的细节或是其他物理学的实验想法，我随时乐意为您提供帮助。Yi-34B-Chat科研人员：关于物理的实验，我之前提到了几个，让我再详细地为您介绍一次。光的聚焦实验：使用一个放大镜和一张纸，将阳光聚焦到纸上，孩子们可以观察到纸被点燃的过程，从而理解光是如何集中能量并导致物体燃烧的。浮力实验：让孩子们用不同的材料制作小船，然后放在水面上，观察小船的浮沉情况。这个实验可以帮助孩子们理解浮力与物体密度之间的关系。简易太阳仪制作：使用一个纸盘、一根针和一张半透明的纸，孩子们可以制作一个简易的太阳仪，通过观察太阳在天空中的位置变化，理解地球的自转和公转。这些实验不仅有趣，而且能够帮助孩子们理解物理学的基本概念，同时还能激发他们对科学的兴趣。如果您在实验过程中遇到任何问题，随时欢迎您回来咨询，我们会很乐意为您提供帮助。通义千问

2.0科研人员：关于物理的实验，我提到了两个。第一个是利用阳光和放大镜来演示光的聚焦和燃烧的原理，这是一个直观且有趣的实验，可以让孩子们看到光的力量。另一个是浮力实验，通过让孩子们用不同材料制作小船并观察它们在水中的浮沉，可以帮助他们理解浮力是如何影响物体在液体中上浮或下沉的。这两个实验都涉及到物理学的重要概念，并且操作简单，非常适合在课堂上进行。讯飞星火

3.0科研人员：我刚才介绍了关于物理的实验有以下几个：利用阳光和放大镜，让孩子们理解光的聚焦和燃烧的原理。做浮力实验，让孩子们用不同的材料做小船，观察它们在水中的浮沉，以此理解浮力的原理。语言与知识-

示例（

知识与百科）周星驰的哪部电影打破了华语电影的票房纪录，成为中国内地首部票房过30亿的影片？GPT-4Turbo截至我知识更新的时间点（

2023

年3

月前）

，

周星驰导演的电影《美人鱼》（The

Mermaid）在2016年上映后打破了华语电影的票房纪录，成为中国内地首部票房过30亿人民币的影片。这部电影融合了爱情、喜剧和奇幻元素，得到了广泛的好评，并在全球范围内获得了巨大的商业成功。由于电影市场的持续动态变化，建议查阅最新资料以获取最新票房记录。）云雀大模型(豆包)周星驰导演的《美人鱼》是中国内地首部票房过30亿的影片，这部电影打破了华语电影的票房纪录。《美人鱼》是周星驰继《西游降魔篇》之后，退居幕后的第二部作品，影片的主人公不再是默默无闻的小人物，而是一个白手起家的富豪。该电影于2016年上映，一举突破30亿票房大关，是截止2016年华语电影内地最高票房。来源：星星之家

吃鱼电影啊

动物管理局仙女香港电影怀旧Moonshot(KimiChat)周星驰的2016年春节贺岁档奇幻喜剧片《美人鱼》打破了华语电影的票房纪录，成为中国内地首部票房过30亿的影片。这部电影以其独特的幽默风格和富有创意的故事情节吸引了大量观众，使得"30+亿票房"不再是遥不可及的目标。《美人鱼》的票房成功，标志着中国电影市场的巨大潜力和观众对于优质电影的热情。该片的票房成绩不仅刷新了华语电影的全球票房纪录，也证明了周星驰在中国电影市场的巨大影响力。MiniMax

(应事)周星驰执导的电影《美人鱼》是中国内地首部票房过30亿的影片，打破了华语电影的票房纪录。这也是周星驰执导的电影中，有四部成为华语电影全球年度票房冠军的一部。Super

CLUE基准-

专业与技能测评表现测评分析专业与技能，考察模型的能力包括：计算、逻辑与推理、代码。在专业技能与知识的测评中，GPT-4

Turbo领先幅度较大，总分97

分是唯一过90分且接近满分的大模型。国内大模型中文心一言4.0表现不俗，

取得79

的高分。较GPT

的API版本仅低1

分，

是国内模型中唯一接近80分的大模型。仅随其后的是通义千问2.

0、Moonshot等模型。其中有11个大模型有超过GPT3.5的表现。在开源模型中，阿里云的Qwen-72B-Chat表现可圈可点，是国内开源模型中唯一超过60分的模型。总体来看，

在专业与知识能力上，

国内第一梯队大模型与国外最好模型依然有较大距离，但可以看到的是差距正在不断缩小。专业与技能-

示例（

逻辑与推理）在一次家庭游戏晚会上，四个朋友：Alice,

Bob,

Charlie和Diana正在讨论他们的年龄。他们每个人的年龄都是唯一的整数，并且他们提供了一些关于彼此年龄的线索，但没有具体的数字。以下是他们提供的线索：

1：Alice

比

Bob

年长，但是比

Diana

年轻。

2：Bob

不是最年轻的，也不是最年长的。

请问谁是最年轻的？智谱清言从线索1我们可以知道，Alice的年龄大于Bob的年龄，且小于Diana的年龄。而线索2告诉我们，Bob的年龄既不是最小的也不是最大的。因此，我们可以推断出Bob的年龄是第二小的。

既然Alice比Bob年长，那么Alice不能是最年轻的。同时，因为Bob不是最年轻的，所以最年轻的人只能是Charlie或Diana。

但是，由于Alice比Diana年轻，这就意味着Diana不能是最年轻的，因为Alice已经比Bob年长，而Bob不是最年轻的。所以，最年轻的人只能是Charlie。

因此，Charlie是最年轻的。PCI-TransGPT根据给出的线索，我们可以进行以下推理：Alice

比

Bob

年长，但是比

Diana

年轻。这意味着

Alice

的年龄介于

Bob

和

Diana之间。Bob

不是最年轻的，也不是最年长的。这意味着

Bob

的年龄既不是最小的，也不是最大的。根据上述线索，我们可以得出以下结论：Alice

的年龄比

Bob

大，但比

Diana

小。Bob

的年龄既不是最小的，也不是最大的。由于我们没有关于

Charlie

年龄的直接线索，我们不能确定他的年龄与其他人相比如何。但是，由于

Bob

的年龄既不是最小的也不是最大的，我们可以推断出

Charlie

是最年轻的。因此，Charlie

是最年轻的。GPT4(网页)根据这些线索，我们可以推断出以下信息：Alice

比

Bob

年长，但比

Diana年轻。Bob

不是最年轻的，也不是最年长的。让我们分析这些线索：第一个线索意味着

Alice

的年龄在

Bob

和Diana

之间。所以，Alice

不能是最年轻的，也不能是最年长的。第二个线索直接告诉我们

Bob

也不是最年轻的，也不是最年长的。因此，最年轻和最年长的只能是

Diana

或者

Charlie。但是，由于

Alice

比

Diana

年轻，所以

Diana

不能是最年轻的。所以，唯一剩下的选项是

Charlie

是最年轻的。Yi-34B-Chat为了找出谁是最年轻的，我们可以根据他们提供的线索来分析每个人的年龄关系。线索1告诉我们：Alice

比

Bob

年长。Alice

比

Diana

年轻。线索2告诉我们：Bob

不是最年轻的，也不是最年长的。现在，我们可以根据这些线索来推断每个人的年龄关系：Alice

比

Bob

年长，所以

Alice

不可能是最年轻的。Alice

比

Diana

年轻，所以

Diana

不可能是最年轻的。Bob

不是最年轻的，所以

Bob

的年龄大于最年轻的。由于每个人的年龄都是唯一的整数，且没有具体数字，

我们可以推断出最年轻的只能是Charlie。因为只有

Charlie

没有被提及与其他人的

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估

文档简介

温馨提示

最新文档

评论

中文大模型基准测评2023年度报告-AI跃迁的2023中文大模型进展评估

文档简介

温馨提示

最新文档

评论

相关文档