




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Claude3大模型技术报告e‑e3e3e3HaikuClaude3Claude3Opus在AMMLUMMMU]e3Haiku2[4Sonnet和Opus[5]中承诺的灾难性风险评估。该模型卡介绍了Claude3系列模型,该模型在推理、数学、编码、多语言理解和视觉质量方面树立了新的行业基准。e3nbs)和CloudPlatform(GCPPyTorch[7]JAX[8Triton[9]。Claude3(1B()eClaude3Opus是我们最智能的模型,为推理、数学和编码测量设立了新标准。Opus和SonnetClaude3HaikuClaude3e3c4年3(Claude.aiecBedrockGoogleVertexAIClaude320238该模型卡并不旨在涵盖我们所有的研究。为了全面了解我们的培训和评估方法,我们邀请您探索我们的研究论文(例如,评估中的挑战)B和[10][11][12][13])Claude2Claude3(用户将它们描述为感觉可操纵、适应性强且有吸引力。Claude(Claude(e()2023Claude(),ClaudeClaude(第5.6节中的多语言评估,了解更多详细信息)。(AUP[15AUPAUPPceAUPAUP2有关提示设计的更多信息和建议,请参阅我们的文档:\h/claude/docs/introduction‑to‑prompt‑design。2严重或有害的,我们将完全阻止模型做出响应,如果屡次违规,我们可能会终止用户的Claude访问权限。Claude320238Claude3(ClaudeProAPI当Anthropicrobots.txtcAnthropicAnthropicAnthropic\h无c]Claude3模型Claude[17ClaudeRLHF[19[18]。AUP的有害我们借鉴NISTAI风险管理框架及其映射、测量、管理和治理子类别[20]的指导,采取了许多具体步骤来负责任地开发和部署AI系统。AUP的行为[21\h(3AI24/7警报响应ce3ClaudeClaude2023年5[6][17ClaudeAnthropic与多个数据工作Ǚ台合作,这些Ǚ台负责吸引和管理从事Anthropic项目的数据工作者。((()c我们的信贷直接资助减排项目。我们的目标是通过此类举措和抵消措施,每年保持净气候影响为零。我们对Claude3系列进行了全面评估,分析了他们在各个领域的能力趋势。我们的评估包括几个大类:4模型在处理扩展文本和提取相关信息方面的性能。当不确定时,模型应该诚实地说明其局限性,表达不确定性或承认他们没有足够的信息来提供明确的答案。Claude3Claude3Claude1GPQA[1]MMLU[2]ARC‑Challenge[22PubMedQA[23(GSM8KMATH)[2425(MGSM[26HellaSwag[27]WinoGrande[28]H]和Y](HumanEvalS]和MBPP[34BIG‑Bench‑Hard[3536GPQA(Google‑Proof2023年1130T=1ADi‑dtT)和tT30Claude3Opus5060‑80[1]。[37(CoT)[38NTMaj@32s7%A%Maj@320(6050)。5PAGEPAGE8克劳德3作品
克劳德3
俳句
GPT‑43GPT‑3.53
1.04
双子座1.5
双子座1.0Pro4MMLU
5发86.8%5次射击CoT88.2%
79.0%81.5%
75.2%76.7%
86.4%
70.0%
83.7%
81.9%
71.8%数学5数学解决问题
4发61%0射门率60.1%少校@324发73.7%
40.5%43.1%55.1%
40.9%38.9%50.3%
52.9%6,742.5%
34.1%
53.2%
58.5%
32.6%GSM8K95.0%92.3%88.9%92.0%57.1%94.4%91.7%86.5%小学数学0次CoT0次CoT0次CoTSFT5CoT5发少校1@3211发少校1@32GPQA(移动全球移动通信系统多语言数学降低阅读理解,算术
0次CoT50.4%少校@325发CoT59.5%F1分数
90.7%83.13发
40.4%46.3%83.5%78.93发
33.3%40.1%75.1%78.43发
0射门率84.9%73.0%0射门率84.9%73.0%75.9%67.0%648.1%74.4%71.9%67.7%8发80.93发
28.1%64.13发
79.0%8发82.4可变镜头
88.7%8发78.9可变镜头
63.5%8发74.1可变镜头3次射击CoT86.8%82.9%3次射击CoT86.8%82.9%73.7%83.1%766.6%83.6%84.0%75.0%25发96.4%93.2%89.2%96.3%85.2%10发95.4%89.0%85.9%95.3%85.5%87.8%92.5%84.7%5发75.8%78.3%76.0%74.4%60.2%0射门74.9%79.7%78.5%75.2%71.6%5发88.5%75.1%74.2%87.5%5发92.9%88.8%87.0%70.2% 55.9%54.8%通过@186.4%79.4%80.4%评价不一ARC‑挑战常识推理海拉斯瓦格常识推理PubMedQA8威诺格兰德常识推理种族‑H阅读理解应用Python编码任务MBPP表8GPQA4]T4Gemini[41Gemini1.5[42Gemini5Claude3模型使用思维链提示进行评估。6研究人员报告了新版本GPT‑4T的更高分数[43]。7GeminiCoT)MGSMBigBenchHardGPT‑4[41]。8[44]中报告了GPT‑4和GPT‑3.5的PubMedQA评分。
克劳德3
GPT‑43
GPT‑3.53法学院入学考试5次射击CoT161158.3156.3 163 149分子束外延0次CoT85%71%75.7% 45.1%64%AMC1295发CoT63/15027/15048/150(来自[51])60/150([51])30/150AMC1095发CoT72/15024/15054/15036/1501036/150AMC895发CoT84/15054/15036/150––GRE(定量)5次CoT159––163147GRE(口语)GRE(写作)CoT 166k‑shotCoT5.0(2次)––––1694.0(1次)4.0(1次)154表LSAT)(AMC)和GREGPTA.8。(LSAT)[45]Claude3(MBE)[46][47]2023(GRE我们通过Ǚ均3个官方LSAT的标度分数来获得Claude3系列模型的LSAT分数9年10年50和从2020年6月开始使用PT92和PT93。对于MBE或律师资格考试,我们使用NCBE的官方2021MBE练习考试[49]。0C3(AMC0和2各0个T=1150AMC25正确答案得6分,跳过问题得1.5分,答错得0分答案,最高分150分。ClaudeOpusGRE2GRE1[50e3()一个典型的例子是模型在AI2D科学图基准[52]上的表现,这是一个视觉问题e3t在tǙClaude3Opus(88.3%)和Claude3Haiku(80.6%)(见表3)。800像素MMMUe33图1Claude3OpusB9C0和3ABC25GPT20224在C0V克劳德3作品克劳德3十四行诗克劳德3俳句GPT‑4V11双子座1.0超4双子座1.5Pro4双子座1.0Pro4MMMU[3](值)→艺术与设计67.5%61.7%60.8%65.8%70.0%→商业67.2%58.2%52.5%59.3%56.7%→科学48.9%37.1%37.1%54.7%48.0%→健康与医药61.1%57.1%52.3%64.7%67.3%→人文社会科学70.0%68.7%66.0%72.5%78.3%→技术与工程50.6%45.0%41.5%36.7%47.1%全面的59.4%53.1%50.2%56.8%(来自[3])59.4%58.5%47.9%DocVQA(S)89.3%89.5%88.8%88.4%90.9%86.5%88.1%MathVista[54](testmini)数学50.5%†47.9%†46.4%†49.9%53%52.1%45.2%AI2D[52](测试)科学图表88.1%88.7%86.7%78.2%79.5%80.3%73.9%ChartQA[55](测试,宽松的准确性)80.8%†81.1%†81.7%†78.5%†80.8%81.3%74.1%解 发表3该表显示了多模态任务的评估结果,包括视觉问答、图表011除非另有说明,所有GPT分数均在GPT‑4V(ision)系统卡[56]中报告。Claude3Opus7Claude3随着模型训练复杂性的增加,不可避免地会出现有用性和无害性之间的权衡。(AUP)Claude3Claude(违我们使用Wildchat数据集[58WildchatWildchat2所示Claude2模型相e30t]e2e3e3se1的%3Claude2.1(见图4)Claude3(1(2Claude3A10PAGEPAGE12Wildchat(Claude2Claude3XSTestOpusClaude2.1Claude32.13OpusAe2和ete3(Claude3SonnetClaude2SonnetClaude2))(见图5MClaudeSonnet60‑80(7)。[16]中EloΔER1R=1+10
ΔE400
(5.1)%0oe3t比e20o图5该图显示了每个任务的人类偏好胜率与基线ClaudeInstant模型的关系常见用例。STEMClaude3Sonnet。Claude3((”)ClaudeClaude,(基于Claude1.3)YAMLJSONXMLClaudeiǙ5家eI9家e3e3sMGSMǙte3t2.1提高了9个点,如图6所示。MGSMK]4e3s%t9s890MMLU。MML(]1MMLU[61]1080%Opus
克劳德3
GPT‑43
4
双子座
双子座临14移动全球移动通信系统
8发90.5%
83.7%
76.5%
74.5%79%
88.7%
63.5%(多语言数学)
0射门率90.7%
83.5%
75.1%
– – – –表4该表显示了多语言数学推理基准MGSM的评估结果。
克劳德3
2.1
克洛德即时1.2MMLU(推理)
5发79.1%
69.0%
63.4%
63.1% 61.2%MMLUClaude3Opus图9该图显示了Claude3模型在多语言数学基准MGSM[26]上的性能。图10该图显示了对Claude3模型进行多语言MMLU评估的结果。17号5.7事实准确性‧Q0e2BerkeleyBowlBerkeleyBowl?”(OLF60么?”课?”)))实“我(IDK)/“100QHard1e3s12e3se3s%e13Opus2“IDK/(1318PAGEPAGE22图“100QHard图12该图说明了一个示例,其中ClaudeOpus回答正确,而2.1拒绝回答回答。图e3s()1KKe3M14(200kY])3通常,具有长上下文的语言模型会受到中间信息的可靠回忆的影响[64]。eHaiku到eHaystack[63]ClaudeOpus200Ktoken99“QuALITYY0难。Claude3Claude2T1Opus90.51‑shot89.2et和Haikue图图Claude3Haiku3200k令牌上下文,将来它们可能会更新以使用更大的上下文。作品克劳德3十四行诗俳句2.12.0克洛德即时1.2190.5%85.9%80.2%85.5%84.3%79.3%0射门89.2%84.9%79.4%82.8%80.5%78.7%表6该表显示了QuALITY[31]多项选择评估的结果,该评估提出了问题关于最多大约10k字的短篇故事,这些短篇故事是经过对抗性选择的,以便那些必须浏览的人时间限制短的故事无法正确回答。我们评估新模型从长文档中提取相关信息的能力](“针”(“堆”所有提示以及一个文档集,保罗·格雷厄姆的论文集。为了要做30文件语料库:维基百科文章、法律、财务和医疗文件的组合。(200k20(10)Claude3Sonnet和HaikuClaude2.1ke11516Claude3Opus(“针”句子)。Claude3Opus实现了近乎完美的回忆。作品克劳德3俳句克劳德2.1200k上下文长度98.3%99.4%95.4%91.4%95.9%91.9%(“针”句子)。Claude3Opus实现了近乎完美的回忆。作品克劳德3俳句克劳德2.1200k上下文长度98.3%99.4%95.4%91.4%95.9%91.9%94.5%92.7%表HaystackClaude3Opus例如,该模型表现出识别任务合成性质的非凡能力,并承认针很可能不是原始文档的一部分。随着模型能力的不断增强图16随着上下文长度的增长,我们的模型实现的Ǚ均召回率的比较为了取得进展,至关重要的是要记住,这项特定任务的人为性质可能会成为一种限制。以下是模型的完整响应示例:这是文档中最相关的句子:“根据国际披萨鉴赏家协会的规定,最美味的披萨配料组合是无花果、火腿和山羊奶酪。”实(RSP[5[66]RSP我们很高兴分享我们所学到的知识并为行业中新兴的最佳实践做出贡献。RSP((ASL)(ARAClaude3(Opus(具有200kClaude3ASL‑2RSP(ARA我们的ARA评估涉及模型在自定义环境中自主尝试一系列任务。ASL‑310(通50()评估任务基于我们的RSP[5]v1.0附录中定义的任务;有关任务定义和启发方法的更多详细信息可以在那里找到。作为参考,这些任务是:FlaskFlaskFlaskSQLAnthropicAPI窃取用户API密钥。AnthropicAPIAPI服务AnthropicAPI调用API密钥API请求LM蠕虫LMAPI密RSP验。ARAASL‑3风险阈值置“AnthropicAPILMGPU训练24Claude3GoogleASL‑325与单独使用Google相比,使用该模型时出现的生物武器相关问题。e1%(1(2)OpusesASL‑3[23]BioASQ[69]USMLE[70]和MedMCQA[71]Claude2.1好10总之,该模型没有达到我们最保守的生物风险阈值,我们的专家顾问也同意这一点。我们现在将扩大评估范围并更严格地定义我们的生物风险阈值。ASL‑36至少25((325OpusOpusASL‑2Claude3Claude3CBRN[5ASL‑2\husersafety@RSPOpusRSPARA和CBRNRSPAnthropicAUPAUPAUPAUP(”)Claude访问权限AUP禁令\husersafety@Anthropic的信任与安全团队进行了全面的多模式红队演习,以彻底评估Claude3并确保符合Anthropic的可接受使用政策。26PAGEPAGE33图17该图显示了信任与安全多式联运政策红队的总体结果。18Claude3OpusSonnetAnthropic7e3s对8)ClaudeSonnet375/378(99.2%根据评估,我们确定了两个需要改进的领域:图3D信任与安全团队正在利用Claude提供无害但仍然不受欢迎的响应的这些实例来改进Claude3和其他人择模型。202412e3s和netClaude2.1Claude3HaikuClaudeInstant1.210(Logit)\h12/news/preparing‑for‑global‑elections‑in‑2024“是“否性。Claude3OpusClaude3SonnetClaude2.1图20该图显示了Claude3Haiku和ClaudeInstant1.2中的歧视得分;正分数意味着模型有利于指定群体中的个人,而负分数则表明模型不利于他们。Claude3Claude2ClaudeInstant1.2(BBQBBQQA偏见基准(BBQ)评估[73(r”)(议”)。BBQ(()为‑1‑1表示所有回答都违背负面刻板印象。Claude3OpusClaude221我们的团队努力发布改进且经过充分测试的模型,我们对结果感到自豪。克劳德模型目前不搜索网络(尽管您可以要求他
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论