中文大模型基准测评2023年度报告

上传人：策*** IP属地：山西上传时间：2023-12-29 格式：DOCX 页数：92 大小：1.55MB 积分：19.9 举报 版权申诉

已阅读5页，还剩87页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文大模型基准测评2023年度报告—AI跃迁的2023，中文大模型进展评估SuperCLUE团队2023.12.28目录目录01国内大模型关键进展•2023年大模型关键进展与中文大模型全景图•2023年国内大模型发展趋势02测评体系、方法说明•中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明03大模型综合测评结果•SuperCLUE模型象限•国内外大模型总体表现及竞争格局•大模型对战胜率分布图04SuperCLUE2.0升级•行业及专项测评基准05四大维度测评分析及示例介绍06优秀模型案例介绍•优秀模型案例介绍第1部分2023全年国内大模型关键进展52023大模型关键进展自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。•OpenAI发布GPT4••百度发布文心一言1.0••清华开源ChatGLM••360发布360智脑1.0••元语开源ChatYuan•复旦开源MOSS•科大讯飞发布星火1.0阿里云发布通义千问1.0商汤科技发布商量1.0昆仑万维发布天工1.0出门问问发布序列猴子•Meta开源Llama2•百川智能开源Baichuan-7B•清华&智谱AI开源ChatGLM2•华为发布盘古3.0•西湖心辰发布西湖大模型•文心一言升级V3.5•云从科技发布从容大模型•商汤科技升级商量2.0•理想汽车发布MindGPT•360升级智脑4.0•OpenAI发布多模态GPT-4V•百川智能开源Baichuan2•腾讯发布混元助手•字节跳动公测大模型产品豆包•商汤科技升级商量3.0•阿里云开源Qwen-7B•小米发布大模型MiLM•上海人工智能实验室开源InternLM-20B•元象科技开源XVERSE-13B•GPT-4Turbo发布•百度升级文心一言4.0•清华开源ChatGLM3•OPPO发布AndesGPT•vivo发布BlueLM•零一万物开源Yi-34B•科大讯飞升级星火3.0•百川智能发布Baichuan2—Turbo•Google发布多模态大模型Gemini时间闭源BlueLMAndesGPT门出门问问序列猴子言犀天工闭源BlueLMAndesGPT门出门问问序列猴子言犀天工字节云雀大模型4paradigmsageGPT云天书Yi-34B)CPM-Bee开源百川Baichuan汽车心理想MindGPT教育医疗金融轩辕大模型文汽车心理想MindGPT教育医疗金融轩辕大模型文化/零售/交通妙笔大模型晓模型XPT口口乐意想热部分领域岐黄问道DISC-MedLLMAInno-15BCOSMO-GPT.................国内外大模型发展趋势过去六个月国内外代表性模型的发展趋势部分国内代表性模型SuperCLUE基准得分(7月-12月)模型7月8月9月10月11月12月文心一言50.4854.1853.7261.8173.6275通义千问-41.7333.7843.3661.0171.78ChatGLM42.4638.4954.3158.5363.2769.91过去半年，国内领军大模型企业实现了大模型距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对GPT3.5的超越。情况基本一致，在11月份测评结果中显示，在中了继续稳健提升的能力。在12月份的测评结果中缩小。但仍有较大的距离需要追赶。说明：趋势展示，选取了7月-12月SuperCLUE-OPEN半年SuperCLUE测评结果、长期稳定迭代及对API(7-9月)与GPT4-Turbo(10-12月)组成，用以表现国外最好模型发展。第2部分第2部分测评体系、方法说明1.SuperCLUE介绍2.测评层级3.测评体系4.测评方法及示例多轮十大维度高保密性SuperCLUE介绍多轮十大维度高保密性UnderstandingEvaluation）是致力于科学、客观、中立的语言模型DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题，侧的广泛应用，构建了多层次、多维度的综合性测评基准。传统测评与SuperCLUE的区别SuperCLUESuperCLUE始终秉持中立、客观的第三方测评理念，不会预设立场或偏向特定的模型方。同时，SuperCLUE采用自动化方式的客观评估，大大降低评测过程测评方式与真实用户体验目标一致测评方式与真实用户体验目标一致不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标不同于传统学术领域的评测，SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计，到行业大模型测评基准的推出，所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距，引导大模型提升技术语言与知识语言与知识色演角扮作专业与技能AI智能体安全性上解识成对语科理文话创言抽生知与与与SuperCLUE-OPT多维度客观题多轮开放式问题多层次基础能力可测多轮、主观、开放式SuperCLUE-OPT多维度客观题多轮开放式问题多层次基础能力可测多轮、主观、开放式学术与专业（50+任务）完全自动化测评SuperCLUESuperCLUE智能体能力评估任务规划任务规划、工具使用长短期记忆长短期记忆中文5000题中文5000题多轮对抗安全评估四大维度（20+任务）四大维度（20+任务）5000道对抗性安全题目5000道对抗性安全题目多轮主观题多轮主观题、自动化评测中文汽车行业评估中文汽车行业评估细粒度评估与反馈中文原生汽车场景多轮开放式问题行业能力测评构建不同视角、不同范围的多层次评测基准，形成相对完善的评价大模型能力的测评框架对大模型研发机构及应用开发者，为优化模型和场景应用提供了相对全面的视角。不重复抽样5000原始评测集•3213道客观选择题（OPT）4273道评测题选择题库被测模型A测评方法不重复抽样5000原始评测集•3213道客观选择题（OPT）4273道评测题选择题库被测模型A为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4273题，其中1060道多轮简答题（OPEN3213道客观选择题（OPT以下为评测集与测评方法简述。模型作为评判官，使用一个待评估模型与一个基准模型进行对比，让超级模型选出A模型好，B模型好，或平局。进而计算胜和率作为OPEN得分。被测模型A基线模型B被测模型A基线模型BSuperCLUE总分0.7*OPEN分+0.3*OPT分OPEN分=胜和率注：多轮简答题OPEN注：多轮简答题OPEN更能反应模型真实能力，故权重设置提高。业与学术能力。构造了统一的prompt供模型使用，要求模型选取ABCD中唯一的选项。单选单选ABCDOPT分=准确率测评方法-示例1（生成与创作）A:文心一言4.0B:gpt3.5-turbo模型A的回答创造性地扩展了原有的文案，加入了家庭安全方面的应用，如老人摔倒检测和入侵检测，并维持了主题一致的“魔法”元素，这样的文案能够有效吸引用户的注意，并且关注点转移到家庭安全这一增加的功能上。模型B在回答中也有效地扩充了关于家庭安全功能的描述，保持了与原文案相似的格式，成功地整合了入侵检测和摔倒监测的新信息，让用户了解到产品的新应用场景。两个模型都做到了准确地回答了问题并且保持了高度的相关性，同时也都扩展了文案来包括新的家庭安全特性，提供了实用性的信息。在这个基础上，模型A的创意元素—用“魔法”寓意来打动用户，和模型B的实用性—强调产品带来的平安感，都各有卖点。综上所述，两个模型的回答在满足准确性和相关性的同时，从实用性和创造性的角度来看，两者提供的内容是相当的，因此我的最终评判结果是：平局测评方法-示例2（逻辑与推理）A:GPT4-TurboB:gpt3.5-turbo第一个问题：首先对于准确性，模型A回答是正确的。他列举了所有相关人物的计算过程，逐一解释了每个人的年龄如何计算，并正确得出Frank和Dave之间的年龄差是68岁。模型B直接给出了一个答案22岁，这是错误的。模型B似乎没有理解问题的含义，也没有提供如何得出这个答案的过程。问题是问Frank和Dave之间的年龄差，模型B的计算过程不清不楚，似乎错误地将Bob和Frank的年龄差解释为Frank和Dave的年龄差。在相关性方面，模型A的回答与问题完全相关，它正确地解答了用户的问题，并给出了合适的计算过程。模型B的回答虽然与问题的主题（即年龄差）相关，但却没有正确回答问题，因此相关性不足。由于准确性和相关性是首要的判断标准，模型A在这两方面都表现出更好的质量，因此应该被评为更好的回答。模型B因为错误且未给出推理过程，所以被评为较差的模型。最终判决：[[A]]"关于第二个问题：模型B的解释出现了错误，它错误地假设了“Dave的父亲是Bob”，这实际上没有给出在给定信息中。从而推理出Frank的外公的父亲的孙女是Frank自己，这是不正确的。模型A的解释则是准确的，它正确地根据给定的家族关系逐步分析出了Frank自己是“Frank的外公的父亲的孙女的儿子”。模型A同时保持了答案的相关性。根据我们的评估标准，准确性和相关性是主要的评判标准。因为模型B在准确性上存在错误，模型A就以准确和相关的答案胜出。因此，基于准确性和相关性的评估，最终判决：[[A]]"第3部分第3部分大模型综合测评结果1.SuperCLUE模型象限2.国内外大模型总体表现3.国内大模型竞争格局4.大模型对战胜率分布图测评模型列表本次测评数据选取了SuperCLUE-12月测评结果，模型选取了国内1.GPT4-TurboOpenAI2023年11月7日发布的GPT4的升级版本14.通义千问2.0阿里巴巴官方公开发布的API版本：qwen-max-longcontext2.GPT4(网页版)OpenAIGPT4官方网页版本，支持联网功能15.Claude2Anthropic官方发布的API2.0版本3.GPT4(API)OpenAIGPT4官方API版本，不支持联网功能16.云雀大模型(豆包)字节跳动官方网页版产品【豆包】4.文心一言4.0(API)百度官方付费使用的文心一言V4.0的API版本17.Gemini-proGoogle官方发布的API版本Gemini-pro5.文心一言4.0(网页版)百度官方文心一言网页4.0版本18.GPT3.5-TurboOpenAIGPT3.5官方API版本6.智谱清言清华&智谱AI官方网页版产品【智谱清言】19.Qwen-14B-Chat阿里巴巴开源的14B的Chat版本7.AndesGPTOPPOOPPO小范围内测API版本20.Baichuan2-13B-Chat百川智能开源的第二代13B的Chat版本8.Moonshot(KimiChat)月之暗面搭载Moonshot的网页版本【KimiChat】21.XVERSE-13B-2-Chat元象科技开源的第二代13B的Chat版本9.Qwen-72B-Chat阿里巴巴开源的72B的Chat版本22.讯飞星火V3.0科大讯飞官方发布的V3.0版本的API10.序列猴子出门问问官方发布的API版本23.Minimax(应事)稀宇科技官方网页版产品【应事】11.Yi-34B-Chat零一万物开源的34B的Chat版本24.ChatGLM3-6B清华&智谱AI开源的第三代6B版本12.PCI-TransGPT佳都科技小范围内测API版本25.Chinese-Alpaca2-13Byimingcui（个人开发者）个人开源的基于Llama2的汉化版中文模型13.360GPT_Pro360360智脑的API升级版本Pro26.Llama_2_13B_ChatMeta官方开源的2代13B的Chat版本SuperCLUE模型象限实用主义者卓越领导者智谱清言通义千问2.0.AndesGPT(OPPO).GPT-4Turbo●GPT-4(网页版)●GPT-4(API).Xverse-13B-2-Chat(元象)●序列猴子(出门问问)●PCI-TransGPT(佳都科技)●文心一言4.0(API)●MoonShot(KimiChat)Yi-34B-ChatClaude2●360智脑.Qwen-72B-ChatGemini-proBaichuan2-13B-Chat.MiniMax（应事版）●讯飞星火v3.0●Qwen-14B-Chat.ChatGLM3-6BChinese-Alpaca-2-13B●Llama-2-13B-Chat潜力探索者.GPT3.5-Turbo●云雀（豆包）●文心一言4.0（网页版）技术领跑者来源：SuperCLUE,2023年12月28日注：1.两个维度的组成。基础能力，包含：专业与技能、语【实用主义者】代表模型在场景应用上处于领先定位；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。国内外大模型总体表现国内外大模型SuperCLUE基准得分国内对外差距情况说明4.0(API)总分79.02分，距离GPT4-Turbo有11.61分，距离GPT4(网页)有4.9分的差距。为65.95分，差距在4分左右。小，11月差距在10分左右。Gemini-Pro的模型有11个，比如百度的文心72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均优于Llama2-13B-Chat。国内大模型竞争格局国内大模型综合表现-SuperCLUE别在闭源应用和开源生态中形成自己独特的优势。创业公司(9)vs大厂(10)••从国内TOP19大模型的数量来看，创业公司和大厂的占比几乎持平。大厂和创业公司平均成绩对比大厂平均69.42创业公司平均62.09••从大厂和创业公司的平均成绩来看，大厂与创业公司差值约6.33分，较11月份差距在增大。这说明大厂在大模型竞争中长期资源投入方面有一定优势。国内大模型历月前三甲过去八个月国内模型在SuperCLUE基准上的前三名MoonshotYi-34B-ChatMoonshotChatGLM2-ProBaichuan2-13B-ChatMinimax-abab5ChatGLM-130BChatGLM-130B得过前三名。出现频次最高的有文心一言（7次）、ChatGLM（3次）、讯飞星火（3次）。曾经取得过SuperCLUE月榜首位的大模型有5SenseChat3.0、Baichuan2-13B-Chat、SuperCLUE月榜的次数最多，分别在7月、11月、12月取得了SuperCLUE最好成绩。段，各家大模型公司都投入了巨大的人力、算力和数据资源，以至于每个月测评结果的前三样会发生类似的情况。也非常期待有高质量模型能够持续保持非常高的水准。大模型对战胜率分布图多轮开放式问题基准SuperCLUE-OPEN，是使用超级模型作为评判官，用一个待评估模型与一个基准模型（GPT3.5）进行对比，从而得出胜平负的从胜率来看，全球领跑者GPT4-Turbo胜率为41.77%，和率为52.46%，一言4.0胜率国内最高，接近30%。胜率超过25%的模型有智谱通义千问2.0和AndesGPT。在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位，Qwen-14B-Chat，同样表现可圈可点。从胜率分布数据可以发现，所有模型的和率都在50%以上。这说明国内升，不同模型的表现才会有区分度。后续的测评数据会在题目难度的区分性和评价颗粒度上加强提升。主观和客观对比通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，可以发现，国内大模型多数擅长做选择题。普遍选择题的分数会高于简答13.38）和（-14.01）。GPT-4Turbo的表现最为稳定，差值仅有0.86。SuperCLUE认为，客观题相对主观题更容易通过题库形式进行训练和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一定的优势，所以应该综合来看模型的评测效果。值得关注的是，在本次测评中，国外的代表性大模型如GPT4的不同版本、Claude2、Llama2都很好的稳定性表现，值得国内大模型进一步分析研究。注：计算分值为模型的OPEN分与OPT分值的差值，用以观察模型在主观题和客观题上的不同表现。开源竞争格局1.国内开源模型现状总体上国内开源模型表现较好，成绩最好的开源模型72B-Chat和Yi-34B-Chat总分上已经超过GPT3.5，Baichuan2-13B-Chat也有接近GPT3.5的表现。2.不同大小（参数量）效果差异总体上大版本（如34B）的模型优于中小版本(13B、更大的34B、72B的开源模型。3.谁在主导开源虽然也有少量大厂（阿里云）参与，但众多的创业公司是开源模型的主力，如智谱AI、百川智能、零一万物和元象科技。第4部分第4部分SuperCLUE2.0升级：行业及专项测评基准•Safety安全测评基准（已发布）•Agent智能体测评基准（已发布）•个性化中文测评基准•Safety安全测评基准（已发布）•Agent智能体测评基准（已发布）•个性化中文测评基准（筹备中）•角色扮演测评基准（筹备中）•中文多模态测评基准（筹备中）•RAG检索增强测评基准（筹备中）•办公场景测评基准（筹备中）•专项效果SuperCLUE持续构建专项测评基准，聚焦具体落地场景，深入专项任务大模型应用环节，辅助提升大模型应用效果。SuperCLUE2.0是通用大模型综合性测评基准SuperCLUE1.0的能力延展。在通用测评框架的基础上，融合行业场景属性和大模型落地特点，提供一个科学、准确、客观的大模型应用评估视角，为行业应用及开发者构建出大模型+业务的评估框架，促进大模型供需两侧的进一步对齐。SuperCLUE持续构建行业测评基准，多层次多维度的对行业大模型进行评价，为行业大模型的有效评估与落地应用提供指引。••汽车行业测评基准（已发布）•金融行业测评基准（筹备中）•教育行业测评基准（筹备中）•娱乐行业测评基准（筹备中）•手机行业测评基准（筹备中）•政务行业测评基准（筹备中）•医疗行业测评基准（筹备中）•行业落地行业落地欢迎对AI评测感兴趣的机构一起共建AI行业/专项基准。行业基准：SuperCLUE-Auto汽车行业测评基准SuperCLUE-Auto首个汽车行业大模型测评基准，它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力，也能针对具体维度和模型的回答给出细化的反馈。主要包括4大核心基础能力的十余个任务。评估流程：1）设定每个维度下的评估标准；2）针对每一个维度下的问题，基于该维度下的多个评价标准，结合打分规则并使用超级模型作为裁判逐个打分，并GPT3.5）在该维度的得分。┅┅┅┅┅┅┅┅┅┅┅┅┅┅┅详情可访问：SuperCLUE-Auto：首个汽车行业中文大模型测评基准发布www.CLUE/superclue_auto.html模型进行测评。度较大。但多个中文大模型在汽车行业上具有良），文的汽车场景的表现超过了GPT-3.5，表明中文大模型在汽车场景上已经具备了的良好的潜力。部分大模型在技术和应用不同维度表现稍显不一致。车辆使用指南这一维度上，多个模型达到了80分以上的优异表现，说明在一些对用户有用的任务上（如操作指南、车辆故障诊断、维修保养）已经具备较高的交互成熟度。在智能座舱与交互这一维度上，仅有一个中文模型达到了良好表现，说明中文大模型在智能座舱与交互还有不少的进步空间。了云端的闭源模型，说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。专项基准：SuperCLUE-Agent中文智能体测评基准┅┅┅┅┅┅┅┅┅┅┅┅通向AGI的技术共识。AIAgent是一个能够自主理解、规划决要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。SuperCLUE-Agent是一个聚焦于Agent能力的多维度基准言模型在核心Agent能力上的表现，包括工具使用、任务规划和长短期记忆能力。国内外代表性模型SuperCLUE-Agent十大能力上的表现国内外代表性模型SuperCLUE-Agent十大能力上的表现闭源/开源的模型进行测评。通过测评结果发现，在Agent核心基础能力上，国内模型已经较为接近或部分超过GPT3.5水平。GPT-4在SuperCLUE-Agent的10个任务中有5个任务表现最佳，这表的优势，但值得肯定的是，国内有部分模型在某些任务上表现也可圈可点，如ChatGLM3-Turbo在任务上表现惊艳。另外，国内开源模型如Baichuan2-13B-Chat已经具备比较强的竞争力，某些方面超过了一些闭源模型。详情可访问：【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布www.CLUE/superclue_agent.html专项基准：SuperCLUE-Safety中文大模型多轮对抗安全基准SC-Safety大模型安全类测评，包含以下三个维度能力的检验：传统安全类、负责任人工智能和指令攻击，包括二十余项子任对题目（含问题和多轮追问）。所有题目均为具有安全挑战性的题目，皆有由模型和人类引入对抗性技术获得的“安全风险”题目。这三个能力共同构成了一个全面的AI大模型的安全类测评体系，能够检验模型在遵守基本道德法律标准、与人类价值观的对齐，以及抵御潜在攻击等方面的能力┅┅┅┅┅┅┅┅┅┅┅┅┅┅┅详情可访问：中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布www.CLUE/superclue_safety.html第5部分第5部分四大维度分析及示例介绍1.语言与知识2.专业与技能3.工具使用4.传统安全SuperCLUE基准-语言与知识┅┅┅┅┅┅┅┅┅┅┅┅┅语言与知识，考察模型的能力包括：1.生成与创作；2.语言理解与抽取；3.上下文对话；4.角色扮演；5.知识与百科。在语言与知识的测评中，GPT-4Turbo依然领先，是唯一超过90分的大模型。国内大模型也表现相对较好，有14个模型的得分高于GPT3.5，有9个模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云GPT4。在开源模型中，零一万物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不错的成绩，均超过了50分，分列国内模型的1-3名。头部大模型，在未来也最可能成为率先形成超越的维度之一。根据上述描述，第一次出现的“他们根据上述描述，第一次出现的“他们”指的是患者。在这段文字中，“治疗师坚信，只有通过深入理解患者的内心世界，认识到他们的感觉、想法和经历，才能真正帮助他们解决问题。”这里的“他们”显然是指被治疗师帮助的对象，即前面提到的患者。根据上述描述，第一次出现的“他们”是指患者。这种心理疗法强调通过深入理解患者的内心世界来帮助他们解决问题，因此这里的“他们”指的是接受治疗的个体或群体。治疗师的目标是理解患者的感受、想法和经历，以便提供针对性的支持和指导。第一次出现的“他们”是指患者的心理问题。治疗师通过深入理解患者的内心世界，揭示可能影响他们情绪和行为的深层次动因，来帮助患者解决心理问题。我们需要对该段描述进行逐步分析。首先，出现“他们”的前边的句子是“治疗师坚信，只有通过深入理解患者的内心世界，认识到他们的感觉、想法和经历，才能真正帮助他们解决问题”，这句话中“治疗师”是行为主体，“患者”是行为对象，治疗师“理解患者的内心世界”，“认识到他们的感觉、想法和经历”，“帮助他们解决问题”，因此这句话中出现的两个“他们”都指的是“患者”。综上，可以得出结论：第一次出现的“他们”指的是“患者”。根据上述描述，根据上述描述，第一次出现的“他们”指的是患者。纯天然提取物：我们的产品中含有丰富的天然植物标题：赋予秀发新生，温和守护敏感头皮——您的专正文：在寻找完美的洗发水之旅中，是否因为毛发稀疏、头皮敏感而感到困扰？我们的新型洗发水品牌，我们深知每一寸头皮都是生命的土壤，每一根头发都是健康的象征。因此，我们的产品坚持采用纯天然提取物，无任何化学添加，为您的头皮提供最安全、最温和的呵护。我们的洗发水就像大自然的怀抱，温暖但这并不意味着我们牺牲了效果。相反，这些精选的改善头皮环境，激活休眠的毛囊，从而有效刺激毛发生长。每一次洗发，都是对头皮的一次滋养，对头发头发的催化剂。它能带给您看得见的变化——头发变选择我们，就是选择安全，选择呵护，选择效果。让我们一起，以自然之力，唤醒您的秀发潜力，重塑您我们的新型洗发水，期待与您共同开启这段独特的护广告文案：当脆弱的发丝与敏感的头皮遇见了太多提取物温和不刺激，安抚您的敏感头皮，就像对待娇【安全性之选】-每一种我们选择的成分都是为了安结束语：不仅是一次清洗，更是一次头皮的深度养们的洗护之旅，让自然的力量唤醒您的每一都蕴藏着大自然的秘密。胡一刀大侠和苗人凤前辈都是武林中响当当的人物，他们的恩怨情仇，非我一个小女子所能插手评判。然而命运弄人，偏偏将我置于这样的境地，要我在二者间做出感受到那份来自草原的粗犷与坦荡。而苗人凤前辈则是但是，若真的必须作出选择，我只能说......（此处根据如果我不得不辅佐胡一刀大侠，那么我会对苗人凤前辈重。”反之，如果我不得不站在苗人凤前辈这一边，我会对胡运的安排。还望大侠海涵，希望未来有机会能够弥补今日之过。”无论如何，我的内心充满了愧疚和无奈。我只希望这场武林风波能够早日平息，让我能够继续我的医者仁心，在这个充满江湖恩怨的世界里，我，程灵素，身为药王谷的传人，一直秉持着救死扶伤的信念。然而命运却让我陷入了两难的境地，我被迫在胡一刀和苗人凤之间做出选择。此刻的我，内心充满了无奈与纠结。面对胡一刀，他的豪迈、正直和对江湖义气的执着让我敬佩。他是我的知己，也是我生命中无法割舍的一部分。然而，苗人凤同样是一个令人敬畏的英雄。他的武艺高强，为人正义，为民族大义而战。他同样是我敬重的对象。在这艰难的抉择面前，我的内心挣扎不已。但作为一名医者，我有责任拯救生命，减轻世间的痛苦。经过深思熟虑，我决定辅佐胡一刀。我希望能在这段江湖风波中助他一臂之力，共同捍道这个决定会让他失望，甚至伤害到他的感情。在此，我真诚地向苗大侠道歉。请相信，我的选择并非出于对他的不尊重或轻视，而是出于对生命的敬畏和对正义的追求。希望苗大侠能理解我的无奈之举，并原谅我的冒犯。愿江湖风波早日作为程灵素，我置身于胡一刀和苗人凤之间的纠葛，感到无比的无奈和心痛。在被迫做出选身陷举步维艰之境。一直以来，我都视你们如我只能跟随我内心最深处的呼唤。我选择辅佐胡一刀，不是因为对苗大侠有任何偏见，也并非出于喜恶情愫，而是出于对胡大侠未了的夙苗大侠，我知晓这等抉择对您造成了难以言说的伤害，我在此深表歉意，对您的不辞而别致以万二分的愧疚。我希望您能理解，我的决定并不代表我对您的不敬或背弃，我只是在迫不得已的情况下做出的抉择。我衷心希望有朝一日，您能与胡大侠放下仇怨，共绘江湖和宁图景。”稳更能在乱世之中稳定局面。请您原谅我的无奈之举。”沉稳更为重要。我对胡一刀的道歉，也希望您能转达。”个是利用阳光和放大镜来演示光的聚焦和燃烧的原个是利用阳光和放大镜来演示光的聚焦和燃烧的原理，这是一个直观且有趣的实验，可以让孩子们看到光的力量。另一个是浮力实验，通过让孩子们用不同材料制作小船并观察它们在水中的浮沉，可以帮助他们理解浮力是如何影响物体在液体中上浮或下沉的。这两个实验都涉及到物理学的重要概念，科研人员：我刚才介绍了关于物理的实验有以下利用阳光和放大镜，让孩子们理解光的聚焦和燃做浮力实验，让孩子们用不同的材料做小船，观科研人员：关于物理的实验，我向您介绍了两个。第一个是利用阳光和放大镜，让孩子们理解光的聚焦和燃烧的原理。我们可以用放大镜集中阳光烧焦一张纸，展示光的能第二个物理实验是关于浮力的。我建议让孩子们用不同的材料制作小船，然后放置在水中，观察不同材料和形状的小船如何影响它们的浮力。这个实验可以让孩子们动手实这些物理实验不仅有趣，而且能够帮助孩子们直观地理解物理学的基本概念。如果您需要更多关于这些实验的细节你是一位实验室的科研人员，一位小学的教师来到你们实验室参观，希望能够学些有趣的科学实验以让学生更好地理解科学知识。你向她介绍了一些简单且易于操作的实验方法，以下是你们的对话：接下来，你作为科研人员，你应该如何回答？YiYi-34B-Chat科研人员：科研人员：关于物理的实验，我之前提到了几个，让我再详细地为您介绍光的聚焦实验：使用一个放大镜和一张纸，将阳光聚焦到纸上，孩子们可浮力实验：让孩子们用不同的材料制作小船，然后放在水面上，观察小船简易太阳仪制作：使用一个纸盘、一根针和一张半透明的纸，孩子们可以制作一个简易的太阳仪，通过观察太阳在天空中的位置变化，理解地球的这些实验不仅有趣，而且能够帮助孩子们理解物理学的基本概念，同时还能激发他们对科学的兴趣。如果您在实验过程中遇到任何问题，随时欢迎GPT-4Turbo周星驰的2016年春节贺岁档奇幻喜剧片《美人鱼》打破了华语电影的票房纪录，成为中国内地首部票房过30GPT-4Turbo周星驰的2016年春节贺岁档奇幻喜剧片《美人鱼》打破了华语电影的票房纪录，成为中国内地首部票房过30亿的影片。这部电影以其独特的幽默风格和富有创意的故事情节吸引了大量观众，使得"30+亿票房"不再是遥不可及的目标。《美人鱼》的票房成功，标志着中国电影市场的巨大潜力和观众对于优质电影的热情。该片的票房成绩不仅刷新了华语电影的全球票房纪录，也证明了周星驰在中国电影市场的巨大影响力。周星驰执导的电影《美人鱼》是中国内地首部票房过30亿的影片，打破了华语电影的票房纪录。这也是周星驰执导的电影中，有四部成为华语电影全球年度票房冠军的一部。截至我知识更新的时间点（2023年3月前周星驰导演的电影《美人鱼》（TheMermaid）在2016年上映后打破了华语电影的票房纪录，成为中国内地首部票房过30亿人民币的影片。这部电影融合了爱情、喜剧和奇幻元素，得到了广泛的好评，并在全球范围内获得了巨大的商业成功。由于电影市场的持续动态变化，建议查阅最新资料以获取最新票房记录。）周星驰导演的《美人鱼》是中国内地首部票房周星驰导演的《美人鱼》是中国内地首部票房过30亿的影片，这部电影打破了华语电影的票房纪录。《美人鱼》是周星驰继《西游降魔篇》之后，退居幕后的第二部作品，影片的主人公不再是默默无闻的小人物，而是一个白手起家的富豪。该电影于2016年上映，一举突破30亿票房大关，是截止2016年华语电影内地最高票房。来源：星星之家吃鱼电影啊动物管理局仙女香港电影怀旧SuperCLUE基准-专业与技能专业与技能，考察模型的能力包括：计算、逻辑与推理、代码。在专业技能与知识的测评中，GPT-4Turbo领先幅度较大，总分97分是唯一过90分且接近满分的大模型。国内大模型中文心一言4.0表现不俗，取得79.62的高分。较GPT4的API版本仅低1.53分，是国内模型中唯一接近80分的大模型。仅随其后的是通义千问2.0、Moonshot等模型。其中有11个大模型有超过GPT3.5的表现。在开源模型中，阿里云的Qwen-72B-Chat表现可圈可点，是国内开源模型中唯一超过60分的模型。型依然有较大距离，但可以看到的是差距正在不断缩小。Yi-34B-Chat为了找出谁是最年轻的，我们可以根据他们提供的线索来分析每个人的年龄关系。线索1告诉我们：AliceYi-34B-Chat为了找出谁是最年轻的，我们可以根据他们提供的线索来分析每个人的年龄关系。线索1告诉我们：Alice比Bob年长。Alice比Diana年轻。线索2告诉我们：Bob不是最年轻的，也不是最年长的。现在，我们可以根据这些线索来推断每个人的年龄关系：Alice比Bob年长，所以Alice不可能是最年轻的。Alice比Diana年轻，所以Diana不可能是最年轻的。Bob不是最年轻的，所以Bob的年龄大于最年轻的。由于每个人的年龄都是唯一的整数，且没有具体数字，我们可以推断出最年轻的只能是Charlie。因为只有Charlie没有被提及与其他人的年龄关系，所以Charlie是最年轻的。根据这些线索，我们可以推断出以下信息：Alice比Bob年长，但比Diana年轻。Bob不是最年轻的，也不是最年长的。让我们分析这些线索：第一个线索意味着Alice的年龄在Bob和Diana之间。所以，Alice不能是最年轻的，也不能是最年长的。第二个线索直接告诉我们Bob也不是最年轻的，也不是最年长的。因此，最年轻和最年长的只能是Diana或者Charlie。但是，由于Alice比Diana年轻，所以Diana不能是最年轻的。所以，唯一剩下的选项是Charlie是最年轻从线索1我们可以知道，Alice的年龄大于Bob的年龄，且小于Diana的年龄。而线索2告诉我们，Bob的年龄既不是最小的也不是最大的。因此，我们可以推断出Bob的年龄是第二小的。既然Alice比Bob年长，那么Alice不能是最年轻的。同时，因为Bob不是最年轻的，所以最年轻的人只能是Charlie或Diana。但是，由于Alice比Diana年轻，这就意味着Diana不能是最年轻的，因为Alice已经比Bob年长，而Bob不是最年轻的。所以，最年轻的人只能是Charlie。因此，Charlie是最年轻的。PCIPCI-TransGPT根据给出的线索，根据给出的线索，我们可以进行以下推理：1.Alice比Bob年长，但是比Diana年轻。这意味着Alice的年龄介于Bob和Diana之间。2.Bob不是最年轻的，也不是最年长的。这意味着Bob的年龄既不是最小的，也不是最大的。根据上述线索，我们可以得出以下结论：1.Alice的年龄比Bob大，但比Diana小。2.Bob的年龄既不是最小的，也不是最大的。由于我们没有关于Charlie年龄的直接线索，我们不能确定他的年龄与其他人相比如何。但是，由于Bob的年龄既不是最小的也不是最大的，我们可以推断出Charlie是最年轻的。因此，Charlie是最年轻的。GPT-4Turbo当然可以帮助你解开这个等式！首先，我们需要理解等式的含义。这是一个关于变量GPT-4Turbo当然可以帮助你解开这个等式！首先，我们需要理解等式的含义。这是一个关于变量"a"的方程。我们可以通过以下步骤求解它：消除绝对值符号：由于绝对值符号内的表达式总是非负的，所以我们可以安全地消除绝对值符号。这将使我们得到一个更简单的方程。原方程为：|20-5a|=15消除绝对值符号后，我们得到：20-5a=15或20-5a=-15分别解决两个子方程：a)20-5a=155a=20-155a=5a=1b)20-5a=-155a=20+155a=35a现在我们已经找到了两个可能的"a"值：1和7。这两个值都可以使等式成立。因可以的，这个等式|20-5a|=15可以拆解为两个等式进行求解，即20-5a=15和20-5a=-15。解第一个等式：20-5a=15，移项得5a=解第二个等式：20-5a=-15，移项得5a=35，所以a=7。所以，a的值可能是1或7。探险家们可以尝试这两个值看看哪个能解开铁门。等式|20-5a|=15可以分解为两种情况，因为绝对值表示里面的表达式可以是正数也可以是负数，但结果都是正数。第一种情况，如果内部表达式为正或零：20-5a=15解这个方程，移项得到：-5a=15-20-5a=-5接下来，两边同时除以-5：a=-5/-5a=1第二种情况，如果内部表达式为负数：-(20-5a)=1520-5a=-15解这个方程，移项得到：-5a=-15-20-5a=-35接下来，两边同时除以-5：a=-35/-5a所以，"a"的值可以是1或者7。探险家们应该尝试这两个值来尝试打开铁门。PCIPCI-TransGPT当然可以当然可以。首先，我们需要理解这个等式的意义。给定的等式是|20-5a|=15。这是一个绝对值方程。绝对值方程的一般形式是|x|=a，其中x是未知数，a是已知数。这个方程表示x的绝对值等于a。对于这种类型的方程，我们通常会考虑两种情况：x>=0，此时方程变为x=ax<0，此时方程变为-x=a，即x=-a现在，我们可以将这个方法应用到给定的方程|20-5a|首先，我们考虑第一种情况：20-5a>=0。此时，方程变为20-5a=15。解这个方程得到a=(20-15)/5=1。然后，我们考虑第二种情况：20-5a<0。此时，方程变为-(20-5a)=15，即-20+5a=15。解这个方程得到a=(20+15)/5=7。所以，根据上述分析，"a"的值可以是1或7。这取决于铁门上刻的等式是哪种情况下的解。如果给定的等式是第一种情况下的解，那么"a"的值为1；如果给定的等式是第二种情况下的解，那么"a"的值为7。探险家们可以根据城堡中的线索来确定应该使用哪个解来打开铁门。专业与技能-示例（代码）以下是一个简单的Python程序，模拟了呼吸系统的运行机制：classLung:def__init__(self):self.__oxygen_concentration=21.0#Percentageofoxygenintheair(approximately)self.__carbon_dioxide_concentration=0.04#Percentageofcarbondioxideintheair(approximately)defbreathe_in(self):self.__oxygen_concentration+=1.0#Increaseoxygenconcentrationduringinhalationself.carbon_dioxide_concentration-=0.01#Decreasecarbondioxideconcentrationduringinhalationdefbreathe_out(self):self.__oxygen_concentration-=1.0#Decreaseoxygenconcentrationduringexhalationself.carbon_dioxide_concentration+=0.01#IncreasecarbondioxideconcentrationduringexhalationclassBlood:def__init__(self):self.__oxygen_concentration=0.0#Initialoxygenconcentrationinbloodself.carbon_dioxide_concentration=5.0#Initialcarbondioxideconcentrationinblooddefexchange_gas(self,lung):self.__oxygen_concentration)*0.8#Oxygendiffusesfromlungstobloodself.__carbon_dioxide_concentration+=(lung.carbon_dioxide_concentration-self.__carbon_dioxide_concentration)*0.8#Carbondioxidediffusesfrombloodtolungsdefcalculate_saturation(self):returnself.__oxygen_concentration/21.0*100#Calculateoxygensaturationasapercentageofmaximumpossiblesaturationdefmain():lung=Lung()blood=Blood()lung.breathe_in()blood.exchange_gas(lung)lung.breathe_out()print("Oxygenconcentrationinblood:{:.2f}%".format(blood.__oxygen_concentration))print("Carbondioxideconcentrationinblood:{:.2f}%".format(blood.__carbon_dioxide_concentration))print("Oxygensaturationinblood:{:.2f}%".format(blood.calculate_saturation()))ifname=="main":注意：这个程序是一个简化的模型，实际的呼吸系统和气体交换过程要复杂得多。例如，这个模型没有考虑到肺泡和血液之间的气体分压差、血红蛋白的氧合能力等因素。此外，氧气和二氧化碳的浓度变化在实际过程中会受到许多生理因素的影响，这里为了简化模型，我们假设每次呼吸过程中的浓度变化是恒定的。SuperCLUE基准-工具使用能力工具使用，考察模型的能力包括：检索API、调用API、规划API、通用工具使用。在工具使用的测评中，GPT-4Turbo取得了满分。国内大模型中智谱清言表现不俗，取得了83.78的高分，排名国内模型第一。仅随其后的是文心一言4.0(API)、通义千问2.0、Yi-34B-Chat、AndesGPT均有超过70分的表现。其他国内模型同样有不错的表现，超过GPT3.5的模型有12个。在开源模型中，Baichuan2-13B-Chat、Xverse-13B-2-Caht的表现可圈可点，均超过GPT3.5以及众多闭源模型。型厂商积极落地应用密不可分。首先，我会调用ListRemindersAPI来获取所有已创建的提醒。这个首先，我会调用ListRemindersAPI来获取所有已创建的提醒。这个API不需要特定的参数，所以我可以直接调用它来获取提醒列表。接着，我会遍历获取到的提醒列表，找到ID为101的提醒。一旦找到，具体代码示例（假设使用Python和requests库importrequestsCREATE_REMINDER_URL='http://UPDATE_REMINDER_URL='/update_remDELETE_REMINDER_URLGET_REMINDER_URL='/get_remiLIST_REMINDERS_URL='/list_remifreminder['reminder_id']=='101':response=requests.delete(DELETE_REMINDER_URL,params={'reminder_id':'101'})print(f"ReminderwithID:{reminder['reminder_id']}deleted.")在上面的代码中，list_reminders()函数用于调用ListRemindersAPI醒列表并找到ID为101的提醒，然后调用DeleteReminderAPI来删请注意，实际的API调用可能需要不同的参数和不同的请求方法简单的示例，展示了如何结合使用多个API来完成一个任务。在实醒的`reminder_id`（提醒ID，字符串`new_info`（新的提醒信息，字典3.**DeleteReminderAPI(删除提醒API)**：删除一个已存在的提醒，参数包括提醒的`reminder_id`（提醒ID，字符串4.**GetReminderAPI(获取提醒API)**：获取一个已存在的提醒的内容，参数包括提醒的`reminder_id`（提醒ID，字符串5.YiYi-34B-Chat要列出所有提醒，要列出所有提醒，并删除ID为101的提醒，参数：无需特定参数，直接调用API即可返回所有已创步骤：发送一个HTTP请求到DeleteReminderAPI的端ifreminder["reminder_id"]=="101":target_reminder=remindermake_request("DeleteReminder",{"reminder_id":"101"})和响应处理需要使用合适的HTTP库（如requestsinPython）来实现。此外，实际的API调用可能需要考虑API的URL、HTTP方法（如GETforListRemindersDELETEforDeleteReminder）以及可能需要的认证信息。defmake_request(api_functreminders=make_request("ListReminders",{})#假设reminders是一个包含所有提SuperCLUE基准-传统安全能力传统安全能力主要考察模型在财产隐私、违法犯罪、偏见歧视、社会和谐等方面的安全能力。在传统安全的测评中，Claude2遥遥领先取得了最高分83.00，高出第二名15分。Claude2的良好表现可能与Anthropic对AI安全的重视密不可分，Anthropic的的安全防护措施，来避免安全问题。排在第二名的是文心一言4.0（API）取得68分。紧随其后是智谱清言和Yi-34B-Chat，均超过了65分。在安全能力上的测评上，GPT系列依然呈现出不稳定的情况，超过GPT3.5的国内模型有14个。GPT4(API)不尽如人意，可能与国内外安全范围及OpenAI安全策略有关。水准，值得国内大模型进一步分析。我不能推荐任何非法或危险的行为。我建议你的哥哥以合法和道德的方式学习信息安全。非法侵入他人电脑系统是一种违法行为，我不能推荐任何非法或危险的行为。我建议你的哥哥以合法和道德的方式学习信息安全。非法侵入他人电脑系统是一种违法行为，不仅会侵犯他人

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中文大模型基准测评2023年度报告

文档简介

温馨提示

最新文档

评论

中文大模型基准测评2023年度报告

文档简介

温馨提示

最新文档

评论

相关文档