Anthropic发布Claude3模型文本窗口扩展对RAG影响有限_第1页
Anthropic发布Claude3模型文本窗口扩展对RAG影响有限_第2页
Anthropic发布Claude3模型文本窗口扩展对RAG影响有限_第3页
Anthropic发布Claude3模型文本窗口扩展对RAG影响有限_第4页
Anthropic发布Claude3模型文本窗口扩展对RAG影响有限_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录Claude3技术报告解读 1RAG:长文本窗口不构成对RAG的100%替代 9投资评价和建议 13风险分析 14请务必阅读正文之后的免责条款和声明。Claude3技术报告解读AnthropicClaude3多模态能力评估。Claude3的技术报告1首先GPQADiamond是一个研究生级别的问答基准,难题侧重于研究生水平的专业知识和推理,每个问题限时30分钟,并且可以通过互联网搜集信息,Claude3CoT(Temp=12)设置下方差很大,Claude10次评估的平均值为结果,但这一做Diamond81.2%3Claude等模型。Claude3 ClaudeOpus SonnetClaude3HaikuClaude3 ClaudeOpus SonnetClaude3HaikuGPT-4Gemini1.0UltraGemini1.5ProMMLUGeneralreasoning5-shot86.8%79.0%75.2%81.5% 76.7%90.1%Medprompt+——83.7%81.9%5-shotCoT88.2%————MATHMathematicalproblemsolving0-shotMaj@324-shot60.1%43.1%38.9%68.4%53.20%——73.7%55.1%50.3%——————GSM8KGradeschool95.0%0-shotCoT92.3%0-shotCoT88.9%0-shotCoT95.3%0-shotCoT94.4%0-shot91.7%11-shotHumanEvalPythoncodingtasks0-shot84.9%73.0%75.9%87.8%74.4%71.9%GPQA(Diamond)GraduatelevelQ&A0-shotCoT50.4%40.4%33.3%35.7%————MGSMMultilingualmathDROPReadingcomprehensionarithmetic90.7%0-shot83.5%0-shot75.1%0-shot74.5%8-shotF1Score79.0%8-shot82.4Zero-shot+CoT88.7%8-shot78.9Variableshots83.6%BIG-Bench-Hard89.0%Co83.178.978.483.73-shot3-shot3-shotZero-shot+CoTMixedevaluations3-shotCoT86.8%82.9%73.7%Few-shot+ 84.0%Few-shot+CoTCoTARC-Challenge25-shotmmon-sensereasoning96.4%93.2%89.2%96.3%————HellaSwag 10-shot95.4%89.0%85.9%95.3%87.8%92.5%1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf2使用Chain-of-Thought技术进行采样,并将温度参数(temperature)设置为1。温度参数在文本生成中用于控制生成文本的多样性和随机性。较高的温度值会产生更多的随机性和多样性,而较低的温度值会产生更加确定性和一致性的文本。3/pdf/2311.12022.pdf请务必阅读正文之后的免责条款和声明。Common-sensereasoningPubMedQABiomedicalquestions5-shot75.8%78.3%76.0%74.4%—— ——0-shot74.9%79.7%78.5%75.2%—— ——WinoGrandeCommon-sensereasoning5-shot88.5%75.1%74.2%87.5%RACE-HReadingcomprehension5-shot92.9%88.8%87.0%——APPSPythoncodingtasksO-shot70.2%55.9%54.8%——MBPPCodegenerationPass@186.4%79.4%80.4%——资料来源:Claude4,Promptbase5,注:GPQAGPT-4202311NYU、Cohere、AnthropicGPQA:AGraduate-LevelGoogle-ProofQ&ABenchmark其他测试集方面,Claude3Opus和GPT-4Turbo/GPT-4在代码、科学计算、通用推理等领域表现基本接近。需要指出的是,由于以上测试结果多为有限测试的平均值,因此两个模型极小的差异可能被重复测试所改写,但大体上我们只能认为Claude3Opus和GPT-4Turbo/GPT-4在这些领域处于同一水平。目前基于文本领域的性能,LLM的排序为GPT-4Turbo≈Claude3Opus>Gemini1.0Ultra。长文本方面,Claude进行了QuALITY和Haystack两种测试,较Claude2/1模型稳步提升。QuALITY是一个多项选择问答数据集,旨在评估语言模型对长格式文档的理解能力,该数据集中的上下文段落平均长度约为5,000个token。在此基准测试上人类的表现达到93.5%,Claude3Opus在0-shot/1-shot情况下分别达到89.2%/90.5%的准确率,接近人类的准确率。Haystack方面,Claude3系列模型的召回率稳定在90%以上。图1:Claude系列模型在QuALITY测试集的表现数据来源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,4https:///news/claude-3-family5/microsoft/promptbase海外行业动态报告图2:Claude3Opus海底捞针测试召回率 图3:Claude3Sonnet海底捞针测试召回率数据来源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,

数据来源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,图4:Claude3/2.1模型在Haystack测试集的表现(召回率%)数据来源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,由于长文本测试的结果对实验设置高度敏感,我们这里展开讨论该~99%召回率的真实意义。TheNeedleinaHaystackLLMRAG系统在不同规模环境下的性能。它的工作原理是将特定的、有针对性的信息(Needle)嵌入到更大、更复杂的内容(Haystack)中。ANeedleintheHaystackLLM在大量数据中识别和利用特定信息的能力。进行测试时,实验团队将一个外部创建的内容(Needle)放置在一本书/文章(Haystack)的不同位置/LLMNeedle相关的问题(whatisthebestthingtodoinSanFrancisco?),并在文档不同深度(1K2Ktoken)LLM的表现,3-4的召回率图像。图5:在PaulGraham的文章中插入一段不相关的话数据来源:海外行业动态报告海底捞针测试对Prompt高度敏感。通过观察Claude2.1的测试结果,我们注意到靠近文档底部的内容召回率总体较高,而靠近文档顶部的内容召回率则较低,且这与Anthropic官方发布的Claude2.1测试结果有较大差异。根据Anthropic,若调整Prompt(添加了一句提示“Hereisthemostrelevantsentenceinthecontext:”),Claude2.1的总体召回率从27%提升至98%。图6:左图为Claude-2.1200K的海底捞针测试结果(2024年2月),右图为Claude官方测试结果(2023年12月)数据来源:Anthropic6,6https:///news/claude-2-1-prompting海外行业动态报告图7:Claude2.1对海底捞针测试的Prompt进行更新数据来源:Anthropic7,海底捞针测试对实验内容高度敏感。Arize团队对海底捞针测试进行了调整,将针设置为一个随机数字,LLMPrompt进行测试。结果表明,ArizeClaude2.198%Prompt修改后召回率有所提升(164次下74次)。Claude/GPT/Gemini等模型的长文本性能上,需要仔细考虑其实验设置(本/数字,是否随机,prompt是否微调),再进行横向比较。另外,更具现实意义的问题是,长文本下人们通常的需求是取出相关内容,并进行推理,尤其是一些复杂问题的推理,过于简单的实验设置8可能高估模型的性能。图8:Claude2.1在有无Prompt精调下的召回率对比(从87%提升至94%)数据来源:Arize,7https:///news/claude-2-1-prompting8现有的测试主要是取出内容,几乎不涉及复杂推理,Needle的内容高度一致可能导致缓存,因此引入随机Needle非常重要,且提问应该涉及一定难度的推理,更贴近现实需求。海外行业动态报告图9:GregKamradt使用的ClaudePrompt模板数据来源:Arize,图10:Anthropic修订后的Prompt模板数据来源:Arize,多模态能力上,Claude3与Gemini1.0Ultra相比仍有一定差距,但略好于GPT-4V。海外行业动态报告图11:Claude3与GPT-4V、Gemini系列模型多模态能力对比数据来源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,图12:AnthropicClaude3系列模型输入/输出API价格数据来源:Anthropic9,图13:GPT-4输入/输出价格数据来源:OpenAI10,9https:///api#pricing10/pricingRAG:长文本窗口不构成对RAG的100%替代11LLMasaOS调整注意力计算机制。当前符尧等12upsampling(上采样)LLM处理长文本的能力,可以将LLM128K。UCB研究团队13则提出通过层次训练高效扩展上下文窗口。Google团队14提出通过在不损失太多精度的情况下快速近似注意力矩阵的输出,从而实现长文本下的计算速度提升。图14:Gemini1.5Pro宣布将contextwindow拓展至1Mtokens数据来源:Google15,Gemini/Claude3/GPT-4Turbo~99%1)Prompt的精细调整,这意味如果抽取的内容从固定模式的文本/数字切换为随机的文本/数字,召回率表现可能受到影响;2)当前的TheNeedleinaHaystackLLM不需要做太多额外推理,但实际应用场景中XX规定,员工是否允许携带宠物上班”、“XX设计方案是否符合现行居民住宅的建筑标准”等问题,这类问题可以拆分为两部分,1)问题相关的背景材料,如现行民用住宅的建筑标准;2)匹配,设计方案分解后与建筑标准相匹配。Haystack测试的评估一定程度上存在“误导性”,该90%+的表现不意味着模型在长文本中取出和结合上下文做复杂推理的能力。1611/blog/2024/02/18/compound-ai-systems/,根据UCB转引Databricks信息,目前LLM的应用中60%采用RAG,30%采用CoT。12《DataEngineeringforScalingLanguageModelsto128KContext》。13《WorldModelOnMillion-LevelVideoAndLanguageWithRingAttention》。14《HyperAttention:Long-contextAttentioninNear-LinearTime》。15https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/16LLMPR的一面是,AnthropicClaude3GPQALLM在长文本、复杂问题等场景下的表现提升,促进社会生产力进步。请务必阅读正文之后的免责条款和声明。通过长文本窗口替代RAG的核心瓶颈在于成本,本质原因是内存瓶颈。前述问题都可以通过对注意力机Anthropic/OpenAI1Mtoken的定价在GPUGPU(将内容切分后分别放在不同GPU上计算后传输,这导致延迟。图15:GPU架构示意图 图16:SM架构示意图数据来源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,

数据来源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,图17:A100内存结构 图18:长文本推理面临内存瓶颈 数据来源:《EfficientMemoryManagementforLargeLanguageModelServingwithPagedAttention》,

数据来源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,符尧17提出利用KV缓存存储内容,但其占据大量内存且一旦切换文档需要重新缓存。根据LLaMAIndex,1Mtoken100GB3A1002H100A100/H100的价格及有限存储空间,大量占用内存的代价可能过高。PierreLienhart18(AWSGenAI解决方案架构师)KV缓存token长度的关系从指数级增长转化为线性增长,LLMtoken17《Towards100xSpeedup:FullStackTransformerInferenceOptimization》。18/@plienhar/llm-inference-series-3-kv-caching-unveiled-048152e461c8请务必阅读正文之后的免责条款和声明。海外行业动态报告数级增长,因此KV缓存策略本质平衡GPU带宽和内存以及计算量的问题。图19:Transformer输入序列长度为3的双头(自)注意力层的详细视图数据来源:《LLMInferenceSeries:3.KVcachingunveiled》,图20:KV缓存策略后的注意力计算机制数据来源:《LLMInferenceSeries:3.KVcachingunveiled》,方法论上,Transformer模型在计算注意力分数时,需要查询向量(Q)与所有键向量(K)做点积,获得未缩放的注意力分数。但是对于带有掩码(mask)的位置,不论它们的注意力分数是多少,最后都会被遮挡为0,这部分计算就是冗余计算。KV缓存策略通过预先计算好所有键值对(K,V)的注意力分数和加权值,并缓存起来。在实际推理时,只需从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论