2025AI时代的存储基石_第1页
2025AI时代的存储基石_第2页
2025AI时代的存储基石_第3页
2025AI时代的存储基石_第4页
2025AI时代的存储基石_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI目录CONTENTS前言:存储是人工智能的关键基座 04第一章:AI与存储技术开启未来数据新纪元 09典型AI应用带来的存储增长趋势 12大模型场景下的以存强算 12自动驾驶3.0时代的数据循环 14边缘AI存储成为热点 17存储技术的挑战与机遇 17存储系统的智能化 18算力与存力高效协同 19计算存储协同促进AI落地 19第二章:AI应用场景与存储需求 21准备数据 22训练过程 检查点及其作用 数据量与读写压力 25检查点的保存 27检查点的恢复 29推理过程 33KVCache及容量需求 33RAG与向量数据库 35内容生成 37生成式AI促进数据生产 边缘侧计算和存储能力增长 40数据留存与复用 412小结 422第三章:AI应用中的存储层级 存储层级架构 44HBM与SRAM 45存储容量 46HDD 47SSD 存取性能 52顺序读写 52随机读取 53随机写入 54耐久性 55分层存储 56第四章:技术演进与生态 59容量趋势 60硬盘 60SSD 62性能趋势 64多磁臂 65FDP 统一生态 68绿色节能 71功耗水平 72增长趋势 72液冷选项 长效节能 硬盘再生 3结语:AI重新定义数据存储的量与质 773因“数”而变,以存强算存储是人工智能的关键基座自2022年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。年2月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。2018融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。△JasonFeist希捷科技市场营销高级副总裁2024年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。首先,随着数据的爆炸式增长,生成式AI应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。IDC2834ZB80~90AI业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。△IDC:全球生成的数据中,只有不到5%会被保存下来。预计到228年,存储在云端10ZB(具体构成如上图,HDD80%,SSD6),企业端约6ZB,4ZB更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着AI模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使AI模型更加全面准确地反映现实世界情况,确保推理的可确定性。其次,AI工作负载在不同阶段需要不同特点和类型的算力、存力支撑。在大型数据中心部署中,AI相关数据在使用和创建的无限循环中流动。工作流程的每个阶段都需要不同组合的内存和存储设备。AIAI相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展,其中硬盘(HDD)能够长期保存原始数据并提供数据保护,固态盘(SSD)则充当可即时访问的数据层。在模型的训练过程中,先要快速地从存储中加载数据到HBM(高带宽内存)、DRAM以及本地固态盘以供后续的计算密集型操作使用。网络硬盘和固态盘存储检查点,以保护和优化模型训练。推理过程中的内容创建主要依靠HBMDRAM便不断进行优化。硬盘用于存储并保护内容的副本。在这一系列步骤之后,数据被妥AIAIAI对模型训练来说,为了能够快速恢复训练,需要频繁创建检查点。大容量、高性能AIAI数据的持续生成带来更多存储需求,而后者反过来又推动了数据生成和人工智能的进化,形成了一种良性循环。△在大型数据中心部署中,大多数AI相关的数据最终都存储在大容量对象存储中随着人工智能基础设施的更新,AI工作负载在性能、容量和能耗方面对数据中心和边缘计算的存储提出了严峻挑战。数据的处理和存储在整个AI业务流程和生态系统中扮演着重要角色,而存储与计算共同构成了AI落地的关键基础设施。最后,在AI相关的数据中心,对存储容量要求大幅增长,不同的存储介质在性能和可扩展性方面各具优势。希捷的热辅助磁记录技术突破了硬盘面密度的增长瓶颈,有效提升了硬盘容量、性能和能效。基于魔彩盒3+(Mozaic3+)技术的希捷银河新一代企业级硬盘,已经在超大规模数据中心部署。以希捷为代表的机械硬盘厂商与服务器厂商、最终用户紧密协作,不断扩展存储能力,构建高可靠、高价值存储方案与服务,以保证整体解决方案的性能和稳定性,有效地激活数据价值。结论AI时代,存储比以往任何时候都更为重要,因为它支撑着最核心的资产——数据。在AI迅速发展的当下,数据成为了推动人工智能进步的关键要素。存储作为数据的载体,其重要性不言而喻。为了充分抓住AI带来的机遇,企业需要进行长期的、战略性的存储容量和性能规划。只有这样,才能满足AI对海量数据的存储需求,为人工智能的发展提供坚实的基础。AI生态系统的重构对计算、存储、网络等多种组件提出了更高的要求。存储作为人工智能大模型的关键基座,不仅提供了数据存储和管理的基础支撑,还推动了生态互AIAI9AI9AI与存储技术AI与存储技术开启未来数据新纪元人工智能(ArtificialIntelligence,AI)技术自诞生之初,便开启了从理论探索到实践应用的发展历程。初期,以专家系统为代表的AI技术,尝试模拟人类专家的决策过程,为特定领域提供智能支持。随着技术的不断进步,机器学习(Machine(Deep等更为先进的AI动了自然语言处理、计算机视觉等领域的飞速发展。伴随着大模型的爆发和人工智能技术的快速迭代,计算架构、算法框架、数据供给正面临深刻变革,生成式AI重新定义存储的内涵。△人工智能将推动总潜在市场(TAM)增长率达到更高的水平(来源:希捷@OCP)ChatGPT(LargeLanguageModel,LLM)是AI变到质变长期积累的结果,也是GenAI(GenerativeAI,生成式人工智能)发展的重要里程碑。从GPT-4开始,超大规模预训练模型展示了一条通向通用人工智能的可以用自然语言方式生成任务描述,以非常灵活的方式应对大量长尾问题和开放性任ITAIGenAI算法突破、算力紧俏的背后,是数据需求的激增。数据、算法、算力,并称人工智能“三驾马车”。在深度学习时代,高质量的数据能够为人工智能模型提供准确的学习样本和标签,使得模型能够从中提取有效的规律和特征。例如,在图像识别领域,大量清晰、标注准确的图像数据是训练高性能模型的关键。只有通过对这些数据的学习,模型才能逐渐掌握不同物体的特征,从而准确地识别出各种图像中的内容。在自然语言处理中,丰富多样的文本数据能够帮助模型理解语言的结构、语义和上下文关系,从而实现准确的语言翻译、文本生成等任务。随着大语言模型的爆发,公众的注意力常常集中在算力规模(GPU卡数量)上,但业内先驱们早已认识到数据才是最难补齐的短板。根据OpenAI0文中展示的大语言模型扩展法则(aplanscalinglaws),每个参数需要1.7Token,175B大语言模型需要300BTokensDeepMind2022年提出的霍夫曼扩展法则(Hoffmannscalinglaws)认为,要获得理想的模型质量,每个参数需要大约2010B200BTokens,若每个FP32数据格式,那就意味着800GB的数据。DeepMind的论文预测,10Trillion(10)216TTokens。这个数字大约是人类迄今所生1010010TB级模型的千倍甚至万倍的算力或训练时间。△出自DeepMind发表的论文《TrainingCompute-OptimalLargeLanguageModels》,2022年3月简而言之,有效数据匮乏已经成为当前预训练阶段的主要矛盾。虽然模型参数仍在继续增加,但由于数据的限制,更大规模的模型在实现通用人工智能(AGI,ArtificialGeneralIntelligence)的道路上存在训练不足的隐患。如何摄取、整理、处理、存储超乎想象的巨量数据成为AI时代最关键的问题。典型AI应用带来的存储增长趋势按照霍夫曼扩展法则,模型的规模和训练数据的规模是决定模型能力的关键因素,超千亿参数的大模型研发不仅仅是算法问题,而是囊括了底层庞大算力、网络、存储等诸多领域的复杂系统性工程,需要有超大规模数据中心的AI算力来支撑。而在当前算力成本高昂的背景下,提升算力利用率成为了有效提高系统性能和降低整体成本的关键。因此,面对算力成本急剧上升和优化算力利用率的迫切需求,存储系统的构建也越来越重要。大模型场景下的以存强算大模型的全生命周期主要可以分为三个阶段,包括数据的采集、训练/微调、推理。AI微调是对存储层要求较高的环节型从单模态到多模态,出现数百亿的小文件,多模态大模型所需的训练数据量是传统单模态小模型的1000AI数据挖掘全流程的30%,对算力消耗巨大。存储系统需要高效地存储和调度大规模的数据,包括结构化和非结构化数据,可能包含文字、图片、视频、音频等多种多样的数据类型,用户迫切希望拥有一个大容量、低成本、高可靠的数据存储底座。例如,在自然语言处理领域,为了训HTML、PDF储系统需要与计算资源紧密结合,实现高效的数据处理。在模型训练环节,训练数据集加载慢、易中断、数据恢复时间长等问题是大模型训练中的常见难题,存储系统必须足够快速地为AI算力芯片提供训练所需数据。为了解决这些问题,需要实现海量小文件数据集快速加载,降低GPU等待时间,以及快速读写检查点(checkpoint)文件,降低恢复时长,提高训练效率。分布式文件系统可以将数据分散存储在多个节点上,提高数据的并行访问能力。同时,数据缓存技术可以将频繁访问的数据缓存在内存中,减少存储I/O操作,提高数据加载速度。其次,对于快速读写检查点文件,可以采用高性能的存储设备和优化AIAI群的算力可用度处于较高水平,提升算力应用效率。AI4年是多模态市场成为现实的关键一年,25AI和多模态模型,AI将被用于分析和整合非结构化数据,例如文本、叙事和洞察,与定量数据融合,提供更全面的分析结果。这将颠覆传统的基于数字和结构化数据的分析模式,为企业决策提供更丰富的背景和更动态的洞察。更多的数据、更大的模型以及更长的上下文窗口能够带来更高效的人工智能应用范式。模型的推理过程是一个复杂的存储系统工程,关键是需要能够存的多、传的快、性价比高。数据的不断生成促成一个良性循环。此外,存储成本也是企业需要考虑的重要因素。随着数据量的不断增长,存储成本也会相应增加。因此,企业需要寻找一种低成本的存储解决方案,既能满足数据存储的需求,又能控制成本。大模型的存储还需考虑数据的安全性和隐私性。由于大模型通常涉及敏感的训练数据和商业机密,因此存储系统必须提供严格的数据加密和访问控制机制,以防止数据泄露和非法访问。自动驾驶3.0时代的数据循环自动驾驶作为AI从行业趋势来看,由硬件与软件驱动的自动驾驶1.02.0动的3.0时代正式开启。1.0驶方案。但在100万公里后,硬件不再是决定自动驾驶技术发挥的下限。2.0AIAI多自动驾驶企业加大了对算法模型的应用,这使得其产品最终能够落地,让自动驾驶“走”了起来。2023~2033(来源:PrecedenceResearch)伴随智能网联汽车传感器数量的快速增加,ADAS和自动驾驶车辆数据的生成量也呈现指数级增长,从GB到TB、PB,传统数据存管模式无法应对大规模复杂数据的快速处理、各种传感器数据及外部数据的适配接入。PrecedenceResearch2023年全球自动驾驶汽车市场规模估计为1583.1亿美元,预计到2033年将达到27528亿美元左右,从2033年将以33%的复合年增长率(CAGR)增长。2023年美国自动驾驶汽车市场价值59.2亿美元。从4年到033年,亚太地区的复合年增长率预计将达到35%。在过去两年的调研中,数字中国万里行团队发现大模型的发展思路给自动驾驶带来了更多启发,从道路信息感知到路径规划决策,从智能驾驶的开发效率到用户驾驶体验,智能驾驶企业正采用多模态传感器联合输出结果,用大模型大数据的模式提供自动驾驶方案。在自动驾驶3.0时代,数据闭环是核心要素,即从车端数据采集,到处理后形成有效数据集,再通过云服务器进行存储、运输,经过算法模型训练、验证后,将有效数据成果部署上车,各环节相互连接,形成自动驾驶数据循环。△自动驾驶的数据循环路径以具有国内合规采集资质的吉利汽车为例,基于用户车队及集团内运营车辆资源,目前吉利一辆车每个月的合规数据采集量是几个GB的量级,星睿智算中心每天的采集TBFSDV12,向系统内输入了1000200万辆的车队,每天也会提供约1600亿帧视频用于训练。端到端自动驾驶存在与其他大模型应用相同的问题:难以修正错误。基于规则的系统/务,设置多个头部、部署不同的模型可以隔离不同任务训练时对其他能力的影响。但在重新训练过程当中,依旧可能无法彻底解决问题,或出现新的问题。譬如FSDV124FSDV13.2.2的规则与交规不符。迫或者故意。这些数据对学习效果的影响难以评估,训练结果难以测量。按下葫芦浮起瓢的反复训练模式会极大消耗算力和数据资源。实现高等级自动驾驶的难点在于覆盖尽可能多的极端场景、长尾场景。这类场景的采集难度极大,需要收集大量的数据。特斯拉有意识地收集自动驾驶模式中人为介入的场景。解决数据不足的思路还包括合成数据、强化学习等。自动驾驶还需要处理来自多种类型传感器的多模态数据,包括但不限于图像、视频流、点云等。此外,还需要应对复杂的天气条件、交通状况以及各种长尾场景下的数据采集与分析。这些数据在结构、大小和访问频率上都存在差异。因此,存储系统需要具备灵活的数据管理能力,能够适应不同类型数据的存储需求,并提供高效的数据检索和分析功能。另外,自动驾驶技术对边缘侧的数据存储可靠性也有着极高的要求。自动驾驶事关生命安全,因此任何数据丢失或损坏都可能带来严重的后果。存储系统必须采用多种数据冗余和保护机制,确保数据的完整性和可用性,即使在面临硬件故障或自然灾害等极端情况下,也能保证数据的可靠存储。边缘AI存储成为热点数字平台在不同领域的扩展产生了大量数据,特别是由于物联网(IoT)设备等互联设备,产生了大量的数据集。如今,AI的进步催生了新的数据采集形式,这些形式不再与模型构建者试图训练的精确策略直接相关。生成性AI的兴起,引发了对基准测试、偏好数据、安全性及红队测试的新关注——不再局限于标注和收集精确的策略数据,而是向价值链上游延伸,涉及更复杂、更昂贵和更具挑战性的任务。比如在智能制造领域模拟到现实的合成技术、模块化机械臂附件等方式,开展大规模机器人数据采集。这些方法有助于收集基础规模的数据,以支持现实世界中的通用机器人。然而,收集数十亿或数万亿个机器人数据Token需要大容量存储设备进行后续的处理,边缘AI的存储也成为另外一个热门场景。存储技术的挑战与机遇AIAI为了应对这一挑战,新型存储技术应运而生。分布式存储技术通过将数据分散到多个节点上存储,提高了系统的可扩展性和容错性。这种技术不仅能够满足AIAI过程提供有力支持。云存储技术则是另一种重要的解决方案。通过将数据存储在云端,云存储技术实现了数据的集中管理和按需访问。云存储具有弹性扩展、高可靠性、低成本等优势,能够满足AIAI总的来说,存储容量和性能的提升是AI技术发展的重要支撑。随着新型存储技术的不断涌现和应用,我们有理由相信,未来的存储系统将更加智能、高效、可靠,为AI应用的发展提供更为强大的动力。高速、低延迟的存储性能对于确保AI应用的顺畅运行和实时响应至关重要。传统存储技术,尽管在过去的数十年中发挥了重要作用,但在面对AI应用带来的数据洪流时,却显得力不从心。优化存储性能是确保AIAI用对高速、低延迟存储的迫切需求。这不仅有助于提升AIAIAI(HDD)与固SSDAI存储系统的智能化随着人工智能技术的深入发展,其对存储系统的影响日益显著。智能化存储系统作为这一趋势的重要产物,正逐渐改变着传统存储方式的面貌。通过集成先进的机器学习算法和深度学习模型,智能化存储系统能够实现对海量数据的智能分析与挖掘,进而优化存储性能,提升数据处理的效率。智能化存储系统的核心在于其具备的自我学习和自我优化能力。系统能够通过对历史数据的分析,识别出数据的访问模式和特征,从而预测未来的数据需求。基于这些预测结果,智能化存储系统可以自动调整存储策略和布局,以确保数据能够以最优的方式被存储和访问。这种动态调整的能力不仅提升了存储系统的性能,还有效降低了运营成本。除了优化存储性能外,智能化存储系统还在数据备份和恢复方面展现出强大的实力。传统的数据备份方式往往需要人工干预,且恢复过程繁琐易错。而智能化存储系统则能够根据数据的重要性和优先级,自动制定备份计划,并在必要时迅速恢复数据。这种智能化的备份和恢复机制不仅提高了数据的安全性,还大大减少了因数据丢失而造成的损失。智能化存储系统还在容灾方面发挥着重要作用。在面临自然灾害、人为错误或恶意攻击等潜在威胁时,智能化存储系统能够迅速响应,自动将数据迁移到安全的存储位置,确保业务的连续性和数据的完整性。这种高度的自动化和智能化水平,使得智能化存储系统成为现代企业不可或缺的重要基础设施之一。算力与存力高效协同数据规模的增长对存储技术的性能、容量和可靠性提出了更高要求。尤其在大模型训练和推理过程中的数据调度、边缘侧与云端数据的存储,需要大容量、高速、低延迟的存储系统以支撑实时数据处理和分析,大容量的存储技术解决方案成为支撑整个AI生态系统的关键。在整个生成式AI落地过程中,企业如果希望充分利用AI能力,需要首先建立一套高效、可靠的数据存储与管理系统,确保数据价值被充分发掘且高效利用算力。譬如,针对非结构化数据的处理,向量数据库成为AI大潮当中的热点。计算存储协同促进AI落地AI应用需处理和分析的数据规模日益庞大,使得算力不断增加。但算力规模增加的同时,集群的可用性明显下降,数据的存储与访问速度对系统性能和效率产生直接影响。此外,随着AI应用数据规模和复杂性的持续增长,对存储技术的容量、速度和可靠性提出了更为严苛的要求。越来越多的应用场景开始将AI算法与存储介质紧密结合,以实现更为智能化的数据处理和存储管理,提升集群的可用度。PrecedenceResearch20247AI202428720342552亿美元,年复合增长率(CAGR)相当喜人。越来越多企业正在积极寻求更智能、更灵活的数据管理解决方案。AI2024~2034(来源:PrecedenceResearch)大模型场景下,数据存储面临的挑战,将不仅仅是传统意义上容量增加、性能提升的GPUGPUAIAI21AI21AI应用场景与存储需求AI应用场景与存储需求GPU(AI)AI缩短训练时间及获得更好的投资回报(ROI),是网络和存储架构设计时必须重点考虑的因素。AI工作负载可以分为准备数据、开发模型(训练)和部署模型(推理)能取得较好的效果。GPUNVIDIA8GPUDGXA100/H10083.84TBU.2NVMeSSD(DataCache)30TB。新一代的GB200NVL724GPU8E1.SSSD,每个GPU对应的本地存储容量并没有很明显的增长。8U.2SSD(中下部区域)8UGPU81UGPU器(节点),8E1.SSSD(中部区域),后者明显更节省空间,但容量上限也相应下降网络存储如文件存储和对象存储,在共享、扩展和故障恢复等方面都优于(服务器)(如(HDD)SSDHDD20TB以上,但在性能和成本等方面各具优势。准备数据采集(生成/获取)、积累源数据是个相对长期的过程,除了结构化数据,更多的是非结构化数据,从文本到图像、视频等,文件尺寸越来越大,累积下来总数据量通常可达PB级,并且规模还在不断增长。相对而言,性能上的要求不算很高,顺序写入可以进一步降低存储介质端的压力,HDD在单位容量成本上的优势较为明显。AICPUGPU、不同存储层之间的流动(来源:微软)CPU式转换及数据增强等操作,将原始数据转换为GPU可处理的张量格式,再批量送往GPU。数据加载是个顺序读取的过程,数据量在数百GBTB级,单台服务器的读GB/sGB/sSSDHDD都是最为舒适的场景,有足够的网络带宽与合理的存储系统架构支持,根据数据类型和模型的特点不同,从存储读取数据不一定成为瓶颈。例如,处理文本数据(供语言模型使用)时,只需进行分△数据加载涉及存储IO和转换流水线(来源:SNIA)MIT3ImageNet(读取ImageNet16远超实际训练过程的时长。通过将数据集预处理为更适合高吞吐量加载的格式,并用优化的数据加载器在训练时加载数据,可以大幅减少数据加载所需的时间。理想的情况是将读取和预处理数据的过程与训练过程并行,把准备数据的时长“隐藏”GPU/(数据一点也很难成立。△MIT在2023年发表的论文《FFCV:AcceleratingTrainingbyRemovingDataBottlenecks》中指出,ImageNet训练所花费的时间里,图片处理阶段占比最高训练过程在正常的训练过程中,只有少量的读访问,顺序和随机都有,训练结束后得到的模型被写入存储,这个数据量也不算大。然而,训练过程恰恰是给存储系统访问压力最大的环节,因为AI集群在高强度的训练过程中出现异常是常态,存储系统肩负“起死回生”的重任。检查点及其作用大规模AI训练集群结构复杂,组件众多,如上千台服务器、上万个GPU/加速器、网卡和数量更多的光模块,而训练的同步性质使其对故障的容忍度较低——单个GPU、网卡或光模块的故障就可能需要重启整个作业。MetaLlama3405B(4050)16000NVIDIAH100GPU2000MetaGrandAI544664741978GPULlama3405B5478已确认或怀疑的硬件问题训练过程中定期保存检查点可以在需要时恢复训练,或用于模型评估和推理。检查点(Checkpoint)保存模型训练过程中的当前状态,通常包括模型的参数(权重和偏置用检查点可以从最后一个保存的检查点继续训练,而不必从头开始。检查点对于保障训练进度至关重要,如果每次故障后都需要从头开始重新运行训练任务,有些大型任务可能永远无法完成。数据量与读写压力检查点的保存和恢复是两个相反的过程:保存:GPU上运行的模型训练作业,将模型状态从GPU内存拷贝到CPU存(系统内存),进行序列化,形成检查点数据,写入到持久存储;恢复:发生故障或需要恢复时,从存储中读取(相应的)检查点数据到系统内存,反GPU内存。检查点的内容包括模型权重(已学习的参数)、优化器和训练状态,可以理解为当时“快照(训练用GPU数量或其内存大小无关。(上和存储下(NVIDIA)2(BF16FP16)计算,在混合精度训练中,为了减少累积误差、提高训练稳定性,也可以保留一份FP32(4)的模型参数。每个模21214就可以得出不同模型的检查点大小,如GPT31750(175B)参数,对应的检查2.4TB。对存储系统而言,保存检查点(Checkpointingprocess)是个(顺序)检查点恢复(esoefomacheckpoint)是个(顺序)不仅于此,数据量和执行频度等要求也不同,都会影响存储系统的架构与实现。检查点对应的数据量与GPU(一定或加速器I(Dataaalleim,DP)和模型并行。在数据并行的多个模型实例中,每个实例都持有完整GPU参与保存检查GPU转移其模型参数数据,而检查点文件始终由单个线程顺序写入。GPU从存储系统读取检查点数据。每个模型实例都需要GPU意味着出错的可能性更高,这些都会转化为对存储系统的压力。检查点的保存GPU的工作成果,但是,又不能让这个过程的加入,严重影GPU的正常工作。检查点操作所耗费时间应尽可能的短,这样可以增加检查点的频率,以最大限度减少浪费的训练时间并确保进度。△检查点文件的写入数据量是固定的(来源:SNIA/益企研究院)因为保存检查点之前要将GPU(训练GPU状态持续到保存检查点完成,就意味着有效训练时间的相应减少。而且保存检查点花费的时间过长,也会限制保存检查点的频次,反过来影响检查点的实际效果——检查点之间的间隔拉远,恢复时丢失的工作进度就会增加。回到前面的MetaLlama33290中断后恢复的时间开销不到17分钟,这里面包含了作业启动和(不止一次的)检查点时间,其中留给每次保存检查点的时间只能是一小部分。DellSNIAAI21%(72),五千亿参数级别的大模型,写入带100GB/s表1:不同时长限制下检查点需要的写入带宽(GB/s)模型参数检查点大小(GB)72秒2小时1%180秒2小时2.5%360秒25%540秒2小时7.5%720秒2小时10%30亿420.5830.2330.1170.0780.05870亿981.3610.5440.2720.1810.136130亿1822.5281.0110.5060.3370.253330亿4626.4172.5671.2830.8560.642700亿98013.6115.4442.7221.8151.3611400亿196027.22210.8895.4443.6302.7221750亿245034.02813.6116.8064.5373.4034050亿567078.75031.50015.75010.5007.8755300亿7420103.05641.22220.61113.74110.306Meta22(DRM)的检查点系统Check-N-Run,默认每30分钟保存一次检查点。这就要求保存检查点所花费的时间,必须达到分钟级,甚至秒级。一种方法是全链路上强度,并行化检查点写入,可以成倍缩短耗费的时间。这种方法将检查点创建分配给多个数据并行的GPU,因为每个模型实例持有相同的检查点数PUAIGU/OI/OMetaLlama37500SSD2TB/s7TB/s另一种方法的思路与准备数据阶段的分析类似,不是简单的把数据读写的压力全部丢GPU从检查点生成任务中解放出来——CPU处理检查点操作时,GPUCheck-N-Run采用了解耦的思路,变同步为异步:训练仅在内存中创建模型参数副本时暂停,GPU将其内存(显存)中的数据复制到系统内存后(模型快照就绪),便可继续进行训练工作;CPU接手模型快照的处理,由专用的进程在后台负责创建、优化和存储检查点。按照Meta16(128GPU)GPUCPU7300.4%,可忽略不计。目前微软、字节跳动等企业都已采用了类似的解决方案。以微软Nebula异步保存为例,需要一些内存来存储检查点,须确保系统内存至少大于检查点的三个副本。此种做法的核心思路是最小化检查点期间GPU的暂停时间,尽快让宝贵的GPU回到检查点的恢复GPUAI训练集群中的所有和服务器GPUN△恢复检查点的读取数据量与数据并行度正相关(来源:SNIA/益企研究院)N就是模型实例的数量,取决于数据并行度。换言之,从检查点恢复时读取的数GPU取数据量可能就越大。尽管恢复操作不会有检查点那么频繁,时间窗口的要求不必那么苛刻,但在乘以模型实例的数量之后,总读取带宽的要求仍然相当可观。以5分钟恢复检查点为例,大模型叠加高数据并行度的乘数效应,需要的总读取带宽依然高达TB/s。表2:不同模型实例数量对应的5分钟恢复检查点的总读取带宽需求(GB/s)模型参数检查点大小(GB)1816326412830亿420.1401.1202.2404.4808.96019070亿980.3272.6135.22710.45320.90741.813130亿1820.6074.853.19.41338.82777.653330亿4621.54012.32024.64049.28098.5601910700亿9803.26726.13352.267104.533209.067418.1331400亿19606.53352.267104.533209.067418.133836.2671750亿24508.16765.333130.667261.333522.6671045.3334050亿567018.900151.200302.400604.8001209.6002419.2005300亿742024.733197.867395.733791.4671582.9333165.867NVIDA与斯坦福大学、微软研究院在21年发表的论文《基于Megato-LMGPU3072GPU1万亿参数模型为例:13.8TB61.64TB/s28050除了采用全闪存存储之外,分层存储也可以化解这种高带宽需求。因为检查点对应的存储容量并没有改变,只是有更多的GPU(及其服务器)需要这些数据,从而提高了读取带宽的门槛。分层存储可以把大部分的检查点都保存在单位容量成本较低的HDD存储层上,SSD存储层只保存比较新的检查点,或者用于临时加载需要访问的特定检查点(相当于缓存热点数据),获得更好的投入产出比。AzureBlobSSDHDD分层的方式存储检查点在计算侧优化的思路同样适用于缓解恢复过程中的存储带宽压力。字节跳动和北京大42egaScale1000个GPU》中,提出了一种优化的数据检索策略。多个GPU工作节点通常共享相同的状态分区,例如同一数据并行组中的工作节点。因此,MegaScale作节点从HDFS读取共享状态分区,随后将状态分区广播给所有共享相同数据的其他GPUHDFS保存期限与价值需要注意的是,检查点不仅可以用于恢复中断的训练,还有其他几种用途:任务迁移:AI理硬件问题等。增量学习:为后续的增量学习和迁移学习提供基础,利用先前训练模型的状态从中间阶段继续训练,提升不同模型的训练效果。进度管理:调用检查点对模型进行离线评估,是否朝着正确的方向发展。模型调优:需要重新调整超参数或者跳过部分数据(如出现尖峰)时,可以回到之前的检查点进行调整。推理应用:利用检查点发布快照,即训练结果,供后续推理服务使用。SNIAbinar《IAI作负载中的关键作用》中提到:检查点在整个训练过程中保留,有时保留的时间更长;模型可以恢复到任何一个之前的版本,而不仅仅是最近的检查点。405015PBMetaLlama340PB6%出头的一小部分,还有充足的空间满足其他存储需求。动覆盖可以节省大量存储空间,达到中断恢复的基本条件。即便是MetaDLRMCheck-N-Run/178倍;预期会发生超过20次故障,平均带宽仍能减少6倍,最大存储容量减少超过2倍。但是,检查点量化有可能降低训练准确性,差分或增量检查点则在检查点之间建立了依赖关系,必须评估对恢复过程的不良影响。检查点的较长期保存,也需要考虑HDD等单位容量成本较低的存储方案。推理过程大模型(LLM)的推理分为两个阶段:Prefill阶段主要处理来自用户的输入(如提示词),是计算密集型;Decode阶段要生成大量的Token,相对算力而言对内存带宽要求更高,是内存密集型。PD12DeepSeek-V3SLO(服务级别目标)分离策略,有助于提高分布式推理的效率和服务质量。可以看出,对内存的使用和优化在推理过程中的重要性。前面在数据准备和训练过程中多次提到计算侧优化对存储侧的帮助,下面我们会看到内存和存储如何助力计算。KVCache及容量需求ansormerGPUCPU(/内存)中加载模型权重,以及持续缓存注意力计算的中间状态。模型权重所占用的内存空间为参数数量及精度的积,注意力计算的中间状态aue)KVCacheenoenGPT3-175B参数、FP16350GBKVCache,需要的显存空间还要再多一半。GPUScaleUp(纵向扩展)GPUGPUCPU路(NVLink-C2C)也可以让GPUCPU缩减参数规模和精度,可以降低显存/7B(70)参数量的模型FP16BF1614GB/内存空间;通过量化为较低的FP8/7GB。端侧推理由于内存1.3B(13)等更小参数量的模型。KVCache为主要矛盾。更长的上下文、更长的思维链(ChainofThought,CoT)KVCacheKVCache制,简单说就是只缓存最近若干KV状态,以大幅度KVCacheKVCache可分为动态量化和静态量化。动态量化通过在模型运行时确定量化参数,能够更好地适应数据分布的动态变化,但这种实时运算需要更大的计算开销。静态量化采用预先确定量化参数的方式,能够提供更优的性能表现,但需要额外的校准数据集支持。另一种方法是寻找“外援,将模型权重、KVCacheCPU(系统内存)至NVMeSSD载更大的批次。由于(系统)内存速度较慢,卸载会增加延迟,但考虑到计算本身也KVCacheAI/除了主机内存,CXLSSD也可以参与卸载。有一些SSD厂商推出了NVMeSSD承载显存卸载的需求。CXLGPU直接通讯也是新的研究课题。RAG与向量数据库大语言模型应用中最让用户反感的是“无知”,例如幻觉、正确的废话等,缺乏最新的资讯和某些专业领域的知识。再训练可以改善大语言模型在某些专业领域的表现,但依旧不能及时更新知识,需要重复进行训练。RAG(RetrievalAugmented除了专业性和时效性更高,RAG还有部署门槛低、风险可控的优点。大语言模型依靠的知识是通过内嵌参数存储的,而RAG将知识存储与推理能力分离。相比预训练和微调,RAG消耗的计算资源更低。RAG的知识存储不依赖于模型参数,可以使用更为轻量化的模型,除了可以降低云端部署的成本,还可适用于边缘侧、端侧,对企业和个人更为友好。对于有保密性需求的专有知识,RAG的知识库也更可控。可控性还体现在RAG的知识库可以逐步更新,而无需重新训练生成模型。这对于企业分阶段处理长期沉淀的海量数据非常重要,可逐步扩展被RAG覆盖的范围,也更有实践意义。RAG的核心流程分为知识库建立、检索、生成等关键阶段。知识库是将精炼后的信息构建为向量数据库。检索模块接受基于自然语言的提示词输入,相关提示会被转换为向量嵌入,并接着使用向量搜索在预先构建的知识库中检索相似信息。生成模块对检索所得进行总结、组合或扩展,以生成内容丰富且上下文相关的输出。向量数据库作为知识库的适宜载体,向量数据库在RAG中扮演着至关重要的角色。向量数据库是一类专为执行相似性搜索而定制的数据管理系统。与传统数据库按行或列组织信息不同,向量数据集使用数据的嵌入(embedding)作为表示,并基于嵌入的相似性进行检索。RAG应用的向量数据库需要经历几个阶段:识,专有名词、潜规则等难以理解,会导致知识遗漏。文档应以文本形式为主,大多数RAG更擅长处理基于文本的来源,但难以有效地集成和理解多模态内容。图像和表格可以通过特定的工具转换为文本信息。数据处理:利用特定RAG管线从之前收集的文档中提取文本、格式化内容,并将数据分块成可管理的大小。块(chunk)的划分对输出质量影响较大,太小的块可能导致正确答案被切分,导致检索时遗漏关键信息;太大的块可能引入过多的噪声,还可能超过大语言模型的上下文窗口尺寸。针对不同类型的文档应当使用不同的划分方式。向量化:通过嵌入模型处理数据块,将文本转换为向量,可包括用于丰富上下文的元数据。选择合适的嵌入模型对于检索速度、质量有很大的影响。不同的嵌入模型的维度有数百至数千不等,也意味着索引大小、检索计算量会有十倍以上的差异。存储:将向量化数据存储在可扩展的向量数据库中,以便进行高效检索。由于嵌入PB级。数据量的急剧增长带来了存储方面DPU以进一步降低主机占用率和网络时延。检索检索阶段接受的通常是自然语言输入,需要理解用户意图,并对查询进行优化。查询优化包括改写、纠错、说明等,是重要的大语言模型推理工作。改写是指对用户输入的查询语句进行修改或重写,包括调整结构、添加或删除关键词、通过近义词替换来扩展检索范围等;纠错通常是指尝试修正用户输入当中可能的拼写或语法错误;说明是修正或分解用户输入中不明确或模糊的内容,使系统更好地理解并执行相应的检索,有助于避免歧义。检索既可以通过一次检索获得最终结果,也可以是多步推理,包括迭代检索、递归检索和自适应检索等。内容提供更全面的信息;递归检索可以将之前的检索输出作为后续的检索输入,通常用于需要渐进式收敛到最终答案的场景,如学术研究、案例分析等;向量数据库的检索是整个RAG流程中消耗计算、存储资源最多的阶段,通常使用近似最近邻搜索(ANNS,ApproximateNearestNeighborSearch)算法。典型的ANNS算法是内存型,随着数据库规模的扩大,尤其是向量嵌入的高维度,需要大量的系统内存来容纳从对象存储中提取的向量和索引,这导致了高昂的成本,并限制知ANNSSSD保存在内存中,在保持接近内存型的性能前提下,显著提升成本效益。甚至有更激进SSD生成RAG流程的最终阶段。这一阶段将检索到的相关信息与原始输入合并,形成更丰富的上下文信息。利用大语言模型上下文信息即可生成符合用户需求的回答。对于企业而言,RAG可以更充分发挥专业领域知识和私有数据的价值,以满足商业分析、智能客服、研发等方面的需求,是训练、微调私有大语言模型的有力补充。对于拥有多种数据集、众多用户的大型企业而言,对加速计算、网络和存储基础设施进行全面投资是有效部署RAG应用的关键,以应对大规模的并发、多轮次的查询需求。内容生成训练开始前要加载数据,推理开始前要加载模型。当模型首次部署到GPU服务器上时,会把模型权重从持久化存储(如硬盘或网络文件系统)GPU内存中。这一步骤主要是顺序读取操作。在推理过程中,模型会根据输入数据动态访问其参数和中间计算结果。这些访问模式通常是随机的,取决于具体的输入序列和模型架构的设计。例如,自注意力机制会导致对不同位置的激活值进行非连续访问。RAG对(外部)存储更为依赖,会产生额外的I/O活动。因为RAG不仅依赖于内部参数进行预测,还需要与外部知识库进行交互以检索相关信息。这些I/O活动包括:而增加了I/O负载;缓存管理:KVCacheI/O获取最新信息;数据预处理:为了使检索到的数据适合用于后续生成步骤,通常需要对其进行一些预处理,比如文本清洗、分词等。这部分工作也可能涉及到额外的文件读写操作;日志记录与监控:在生产环境中,为了跟踪性能指标和服务健康状况,通常会对每次检索和生成操作进行详细的日志记录。这也意味着会有一定的存储写入活动。RAGI/OI(enAI)RGGPU当有多个文档存储和成百上千个AIRGLLMGPU//LLM查询,需要存储在多种模式下都有较好的性能表现,以支持来自许多服务器的不断读取和写入。△一套存储方案支持多种不同类型AI应用的全生命周期(来源:WEKA)AI数据保护、更好的数据共享、更轻松的管理和更灵活的配置。在嵌入大型文档存储并为其编制索引时,网络存储还可以提供更好的性能。生成式AI促进数据生产AI极大提高了内容的生成效率,只言片语便可生成音乐、图片甚至视频,这使得即使是普通人也可以快速创作富媒体内容,在专业人员手中更是如虎添翼。以dbeFiefy80模态内容工具构建更丰富的对话并适配口型、语音,更快速地建模、生成分镜等。运维人员可以用生成更详实的日志、故障报告、风险分析等。另外,转录、翻译音视频也是让富媒体数据量裂变的一种应用。福布斯在3AIAI自然、功能更为强大,这类应用的使用频次、时长均会获得明显增长。AI同存储介质的优势,达成更好的效果(来源:WEKA)AI泛部署的大模型除了消耗更多的算力,存储需求也水涨船高。边缘侧计算和存储能力增长边缘侧的推理应用有显著的实时性要求,这种需求在大语言模型落地之前便已经非常清晰。早期的推理应用主要基于卷积神经网络为代表的深度学习模型,典型应用是机FPGA、经CPU、PUAIC。这类需求需要不间断地采集视频、图像、音频、温湿度等信息流,并存储起来。许多挑战,譬如不同模态信息的映射、对齐等。大语言模型降低了多模态数据的处理门槛,任何人都有机会利用基础模型和自有数据微调、训练自有模型。在近一年中涌现了大量“垂直行业大模型”正是这一特点的表现。这种转变显著提升了过去难以利用的数据的价值,也促进了更多样化的数据采集。自动驾驶是传感器激增、数据量激增的一个典型例子。在L4等级自动驾驶的愿景面前,数据采集的瓶颈并不仅在于传感器的成本,更在于算力的限制。这也反映出人类在追求AI输都会带来巨大的压力。//和存储,由此带动了边缘侧算力和存储空间的增长。业界预测边缘存储的增长速度是2数据留存与复用AI为后继交互的上下文信息而短暂保留,大多数不符合用户预期的生成内容被抛弃,包括文本、图像、音视频等。也有大量的内容被保留下来,不论是出于合规的需要(如智能客服的对话文本、录音等),抑或是用户认为有用。后一种内容还有可能被多次复制、分发,被上传至多个设备、平台。快速生产配合移动互联网的裂变式传播,生AI科学、法律、伦理方面带来了巨大的审查压力。技术是一把双刃剑,生成式I。AIIAI47OpenAIIaSuserAI缺陷。AI退化。这也难怪即使是年最新、最热门的大语言模型(如DeepSeek-V3),其AI类如何使用“hatGT”后的人类知识继续训练未来的大语言模型成为一个严峻的问题。Ia4“预训练已死”的观点,其核心论据便是高质量训练数据已经几乎穷尽。AI“近亲繁殖”导致模型崩溃的问题,主要影响的是预训练阶/AI(包括合成数据)其实是可以用于推理模型的训练迭代的。以自动驾驶为例,如果要进行极端场景的训练如暴雨、浓雾、狂风等,或者针对性场景的训练如鬼探头、加塞等,使用合成数据的效率肯定要比“偶遇”要高的多。早期的这类训练是以监督学习为重要手段,通过确定的规则生成符合要求的训练样本。随着DeepSeek-R1推理大模型的爆红,也宣告强化学习可以用于推理模型的训练。强化学习意味着只需要为训练设定奖励,而不再需要对训练数据进行标注。/进行,以匹配不同的用户需求、验证不同的基础模型等。这导致数据的重复利用,也而微调模型的需求会唤醒沉睡的数据,甚至在多次微调当中反复利用,或分阶段地利用不同部分的数据。譬如,客服电话录音,在传统上只是为了合规要求而保存,如无意外发生将被归档、等待销毁。但在大语言模型支持下,这些录音可以用于训练企业专属的智能客服,“理解”、“总结”出话术、知识库,甚至能够进一步掌握情绪、语气等原本“只可意会不可言传”的信息与技能。再譬如,智能驾驶领域,有一定规模的车企会热衷于宣传其智驾模型训练迭代的频次是以月,甚至以周计算。而对于数据量较小小结AI逐步冷却后归档,最终“难逃一死”。而为了获得更实用、更适用的大语言模型,人们需要比以往任何时候都要努力地搜集数据。不仅归档数据被发掘出价值,就连“错误”的数据都可以被监督学习所利用。在每一次训练迭代当中,都包括了“源数据→训练模型→生成内容→复制数据→保存数据→复用数据→源数据→训练模型……”这样一个循环。这种循环不论对于模型大小均AIAIAIAI应用中的存储层级AI应用中的存储层级存储层级架构随着技术的演进和应用需求的细化,经典的存储金字塔层级也日渐丰富。当然,这么丰富的层级,是易失性的内存(Memory)类和非易失性的存储(Storage)类,两相叠加的结果,交界处有兼具内存的性能和存储的持久性的存储级内存(StorageClassMemory,SCM)承上启下。△经典的存储金字塔层级(来源:希捷)存储介质的分层,自上而下,性能逐级下降、容量逐级递增、成本逐级递减。访问频繁或者随时变更的数据会保留在较高的存储层,而鲜少访问或需要长期保存的数据将移动到较低的存储层。SCM是介乎于内存和外部存储之间的角色,可以向上或向下融合:SCM可以与DRAM组合应用,从逻辑上看上去是内存设备;SCMSSD、硬盘配合,从SSDSSD匹配的顺序读写吞吐量,TLCSSD可以承载较高的随机访问需求。在数据进入较高性能存储介质,再转入较低性能存储介质的过程当中,SCMSSD可以做适当的优化而非只是简单的做二传手。浅层的优化是较大容量的缓冲可以承受数据的变化,一些临时性的数据没有必要向下一层传递,预测为热门的数据还会尽量长时间保持在缓冲内。深层的优化主要是写整形和条带化,充分发挥容量层介质不善于随机访问但适合连续写入的技术特点。缓存和分层存储是现代计算机系统中典型的策略,用以协调与综合不同类型存储介质的性能、成本和容量特性,以优化整体系统的性能、成本效益,但也带来了更复杂的数据管理。HBM与SRAM内存又可以细分为SRAM和因这一波人工智能浪潮而供不应求的BandwidthMemory,高带宽内存,GPU和AI速器的内存(简称显存)KVCache。生成速度的上限是显存/xPU的算力与存储带宽应当匹配。3:英伟达HopperBlackwellGPU的算力与带宽GPU算力(FP8)HBM容量HBM带宽B20010PFLOPS192GBHBM3e8TB/sH2003,958TFLOPS141GBHBM3e4.8TB/sH1003,958TFLOPS80GBHBM33.35TB/sNVIDIA从H100到间还有个H100HBM和带宽),Llama2GPT-3~△H200相比H100的大模型推理性能提升(来源:NVIDIA)但是总体而言,由于DRAM提速的步伐远低于摩尔定律,即使是以高带宽为名的HBMPUHBM.5DGPU(扩展)HBMHBM容量和总带宽的增长速度。为了获得更高的带宽,也有一些推理芯片使用大容量SRAMHBM相差可达三个数量级。例如:GroqLPU(LanguageProcessingUnit)230MBDRAM,80TB/s;CerebrasWSE-346225SRAM21PB/s。存储容量DRAM及以上的内存类介质(HBM、SRAM)等都属于易失性介质,断电后就会丢失信息。它们的优势是速度快,缺点是成本较高、容量有限。能够长期保存信息的非易失性介质包括闪存、硬盘、磁带等,也包括一些新兴的存储介质。非易失性介质DRAM低得多。HDD硬盘驱动器(HardDiskDrive,HDD),简称“硬盘”,在经过多年的发展之后,已经3.5700RPM的技术路线上继续迭代。大容量硬盘普遍采用氦气密封技术,氦气的低密度低阻力特性使盘片可以更顺滑平稳的转动,便于在同样的高度内堆叠更多盘片。以希捷的Exos1103.5英寸盘片。所以硬盘容量持续提高的关键还是提高单张盘片的容量。在盘片尺寸保持不变的前提下,其实就是怎么提升面密度(ArealDensity)。硬盘的数据记录在磁道上,这是一个个以主轴为圆心的同心圆。面密度可以分解为两个互相垂直的分量,即圆周方向上的记录密度(RecordingDensity),和径向上的磁道密度(TrackDensity):记录密度指沿着单个磁道上单位长度内可以存储的数据位数,通常以每英寸位数(BiserInch,BPI磁道密度指每英寸磁盘表面可以容纳的磁道数量,通常以每英寸磁道数erInch,PI)来表示,主要受磁头的定位精度、磁盘表面的平滑度和平整度等因素影响。BPI与TPI的乘积为bpsi(bitspersquareinch,每平方英寸的比特数),用于衡量Exos单碟容量2.4TB记录密度2552KBPI(最大)磁道密度512KTPI(平均)面密度1260Gb/in²(平均)传统磁记录(ConventionalMagneticRecording,CMR)技术,磁道间是独立而有间隙的,没有依赖关系。叠瓦式磁记录(ShingledMagneticRecording,SMR)正如其名,形似屋顶上层叠排列的瓦片,允许相邻磁道部分重叠,提高了磁道密度,能够在相同的磁盘表面上存储更多的数据。,22/24TBCMRSMR4TB,6/2TB16%~1%。但是,SMR的提升路线不可持续且有性能代价,需要软硬件协同优化,应用场景受限。HAMR技术发展通过磁头和介质的共同努力,从根本上获得面密度的持续提升,才是HDD技术发展的主要方向。希捷研发多年的HAMR(Heat-AssistedMagneticRecording,热辅助磁记录)3TB30TB4TB5TB1HAMR3+(Mozaic3+)36TB3.6TB,并有望实现单碟10TBSSD固态盘(SolidStateDrive,SSD)可以提供更高的性能(带宽,IOPS),主要承担追求高吞吐量、低时延的业务。SSDNAND闪存介质,成本较高。SSD可以从多个维度上促进存储容量的提升:3D2014~NAND200300堆叠层数能带来存储密度的成倍提高,这也是过去十年间SSD容量持续增长的最主要驱动力。裸片堆叠(DieStacking):Die,通常在数个、十数个的水NAND每个Cell1100%0%25%。这种增长还会给性能和寿命带来不利的影响,综合投入产出比,越往后越困难,譬如五层单元的NAND还没有产品化。目前基于SSDSSDSSDSSDSSD些缺点导致SSDSSDSSD差异化的发展道路,以突出存储密度优势,降低性能权重,并逐步采用异于传统的管理方式(FDP等)。SSDSSD写负载均衡的需求SSD在前述多种技术的组合下,25SSD60TBHDD2SSD3不过,60TB及以上容量的SSD要得到很广泛的应用,还要面对一些现实的挑战:爆炸半径:单盘容量太大,上面承载的数据和应用过多,一旦出现故障,受影响的范围太广,对软硬件架构是很严峻的考验。Se:Ient(单位容量性能:3.84TBSSDPCIe5.0x4SSD15TBIOPS/GBHDD成本:HDDPCA“基础设施”,最大容量版本的单位价格有优势,而大容量SSDNAND是成本的绝对大头,总体成本会20~30TB的容量区间,SSDHDD的单位容量成本,还rendorceIDCNANDHDD“退出”的容量空白,需要付出巨大的代价不具备可比性;至于60TB及以上的超大容量SSD,价格更是令普通用户望而却步。IDC的分析,说明生产足够的来替代硬盘驱动器的需求是成本过高的。另一个阻碍是单位容量的成本($/TBHDD6在追求容量密度和性能的场景,SSD的优势明显。但是,放眼整个存储市场,HDD仍HDD340EB(NL)19%达到创纪录的286EB,出货量环比增长15%50万个,三家供应商的近线盘平均容量分别为17.5TB、19.8TB和15.0TB;SSD917EB10%8%644.3PCIeSSD25%55.654EB29%1095.4PIeSSD5.08TBHDDPCIeSSDHDD的五分之一。显然,在相当长的一个时期内,SSDHDD面来判断:NAND的产能状况,很难填补硬盘退出留下的容量空白;HDD也还远不能满足市场需求。IDC(Datasphere)400ZB(394ZB)5%(近20ZB)。硬盘是应用最广泛、历史最悠久、兼容性最好的非易失性存储介质。数据中心中90%以上的数据存储在硬盘当中。硬盘具有仅次于磁带的容量价格比,短期内也不会出现其他商业上成熟的技术方案替代硬盘的容量优势。SSDHDD的容量需求都将继续增长。存取性能不论容量大小,SSDHDD的第一优势点,还是性能。性能主要分为顺序/随机、读取/写入两个基本维度,共四种组合。顺序读写SSDHDDSSD采用PCIe5.0x4HDDSA25SSDCIe.0x4HDDSA接口带宽的一半左右,差距进一步拉开到四五十倍。HDD的结构决定了其最高顺序读写性能主要取决于(主轴)转速、盘片直径和记录密度,如果前两者不变,而后者又只是面密度的一个分量,那么HDD的顺序读写性能多年来没有大的突破,就是必然结果。4TBCMR300B/s(iB/s略低)。最大持续传输率只是HDD顺序读写性能的一个切面,实际的顺序读写性能还受磁道所处位置的影响,越靠内圈的磁道,顺序读写性能越低。最内圈的持续顺序传输率通Oacle22TBSSHDD151MiB/s257MiB/s,即内圈略超外圈的六成。以全盘顺序读/来算平均值,20TB+HDD200MB/s除了没有机械运动“拖后腿”,SSDNNDplaneSSDHDDQD14KBHDD(Exos20)90MB/sSSD(别是顺序写入。SSD因为写入操作更为复杂,顺序写入的速度会下降三分之一或更多SSDGB/s的水平。随机读取+HDD(laeny),700RPM11~14ms(毫秒)的范围内,对应的读IOPS90上下,把队列深度加16(QD16)IOPS2(QD2)00IOPS。不过,再怎么努力,在小数据块(4KB)随机读取的场景下,HDD的输出骤降至1MB/sSSD的差距也迅速拉开。4:7200RPMCMRHDD随机访问性能的典型指标4KB数据块读写IOPSMB/s随机读@QD=1870.348随机读@QD161680.672随机读@QD322120.848随机写@QD16,WCD5502.200随机写@QD32,WCD5652.260读写各半@QD42200.880SSD,(小数据块)随机读取的IOPS300B/s超过顺序写入的水平。SSD(μs)级,也遥遥领先于硬盘。硬盘的机械特性决定了其不擅长随机访问,时延比基于半导体技术的其他介质△Conventional(传统)和Shingled(叠瓦)分别对应了CMR和SMR,两种磁道可以在同一个碟片上出现,划在不同的分区(Zone)(来源:微软@OCP)IOPS标,附带一些保留容量、存储密度方面的损失。随着多磁臂技术的出现,可以使用新IPSIPS臂硬盘可以获得更好的容量价格比。对于不需要经常改写数据的应用,如归档、视频SMR技术的硬盘以进一步提升存储密度、降低存储成本。随机写入SSDSSDNAND一些,IOSIOPS级SSDIOPS4KB数据块,输出水平约为大数据块顺序写入的百分之一。传统的DRAM作为写缓存,有掉电时丢失数据的风险,硬盘制造商们想出了用非易失性存储如NVM或盘片上的特定区域来缓存写入数据的办法,在禁用写缓存(WriteCacheDisabled,WCD)的模式下,可以获得与启用写缓存(WriteCacheEnabled,WCE)相当的性能。SMRSMR硬盘的原理决定了其不能像CMRSMR种磁道结构只适合顺序写入,或者说是按顺序在后面追加(append)数据。SMR分区(zone)的随机写必须转变为顺序写,最好能在前面提到的缓存层中进行必要的重新排序、达到一定数据量后成批顺序写入。如果连续的磁道中间需要改写SMR耐久性5.0接口的SSD已经超过10GB/s,在绝大多数场合不会成为瓶颈;主流(单磁头)硬盘200~300MB/s对流媒体应用、监控等用途也已经足够。HDD的顺序写入性能与顺序读取相当,SSD的顺序写入和随机读取也比顺序读取下降不多。HDD的命门,性能会急剧的下降,SMRSSDSSD5WPD(DrierieserDy,每日全盘写入次数)来衡量,TCSSD1~3DWPD,QLCSSD0.5SSDDWPD指标共同决定了每天持续不停(随机)写入时能达到的输出水平,以下表为例:表5:SSD的峰值与持续写入性能容量7.68TB6.4TB61.44TBNAND类型TLCTLCQLCDWPD130.58随机写IOPS30万@4KB50万@4KB4@16KB理论带宽1200MB/s2000MB/s640MB/s每天可写入量TBTB35.64TB可用持续带宽MB/s222.2MB/s412.4MB/sSSD具有极高吞吐量,但其耐久度还不足以支撑持续地写操作。即使在顺序写情3~5SSDSSD其更适合潮汐式、峰谷分明的业务模式。以高性能GPUSSD数据再异步至网络存储集群是典型负荷。但随着检查点间隔从小时计逐步缩减为以分SSDGPU(通常为再异步至存储集群的技术方案,可以承受更为频繁的检查点操作。SSD盘上百TBSSD的耐久度还会更高。因此,在一些对总容量规模要求并(PB)SSD一些大容量企业级HDD也会提供如每年550TB(550TB/year)的最大额定工作负载(MaximumRatedWorkload)指标。年化工作负载率以TB/小时为TB低硬盘(驱动器)MTBF(MeanTimeBetween平均故障间隔时间)影响产品可靠性。分层存储“破坏性SSDHDD,可以显著优化存储系统的性能和存储介质的寿命。特别是SSD和SMRSSD不仅随机写入性能相对SSD用度也更低,需要控制写入放大以保护SSD令人不安的耐久度。尤其对使用与LBAIUSSD而言,写入放大问题会更为突出。规避容量层存储弱点的最根本方式就是将随机写入尽量转化为顺序写入。在顺序写入SSDSSDSMR机写性能损失、SSDGPU与不同存储的“距离”实际业务中,写入时存在不同大小的数据块,譬如近似于顺序写入的大数据块,或是SSDHDDSSD,缓存层可以将这些数据块进行聚合与整理,最终以整条带的方式写入容量层SSD、磁盘阵列)。条带的大小可以根据容量层的特MBMB不等。这个缓存层使用的存储介质需要具备优异的写入性能和耐久性,容量和成本最好优于DRAM,SCM(StorageClassMemory,存储级内存)易失性。SCM介于内存和外部存储之间,属于非易失性存储器,但提供接近DRAM的速度,尤其是极低的延迟。SCM具有IOPS、极高耐用度的特点。部分英特尔至强可扩展处理器可以把傲腾当做内存使用。理论上具有非易失性、高性能、高耐用度的技术路线还有磁变随机存储器(MRAM)、阻变随机存储器(ReRAM)、碳纳米管随机存储器(NRAM),但仍处于商业化早期阶段,容量较小、成本较高。随着傲腾停产,相应的需求由、SSDSSD延也较低。SCM通常用于需要极高速度和低延迟的应用场景,如大型数据库,弥补主机内存容量SCM高IOPSSSD搭配使用,可以弥补后者随机写入性能的弱点,并减少后者的写入放大损耗,提高耐久度。对于高性能存储阵列,SCM还可以作为对象存储阵列的元数据缓存,降低访问时延。虽然元数据缓存可以完全放置在内存当中,但会受到内存容量的限制。使用SCM有利于在保持性能的前提下扩展容量。CXLSCMDRAM+TLCNANDCXL成本低于传统SCM。AI59AI59技术演进与生态技术演进与生态容量趋势存储容量的增长终归要依靠存储密度的提升,而存储密度的提升手段可以分为持续性的和一次性的。可持续的手段能够以倍数级迭代多轮,譬如硬盘(HDD)HAMR和固态盘(SSD)3DNAND;一次性的手段提升幅度通常不会超过一倍,而且往往SMRSSD。硬盘SMR对存储密度的提升幅度低于QLC,而造成的性能损失和应用场景限制则远过之。因此,从本源上提高磁记录密度才是硬盘容量继续增长的正途。HAMR提升单碟容量为满足数据迅速增长的需求,以及保持单位容量成本能够逐步降低,提升硬盘的单盘容量是根本性的解决方案。经过数十年的发展,目前3.5英寸硬盘的外形尺寸已经固定,盘片数量以及盘片面积在这个有限的立方体空间内已经难以取得进展,不断提升磁盘的面密度几乎是唯一的解决方案。△HAMR(Heat-AssistedMagneticRecording,热辅助磁记录)工作原理说明面密度(记录密度和磁道密度)的增加导致放置每比特信息所能占用的磁性颗粒面积变小,颗粒之间的相互磁影响也会越来越大。为了保持信息稳定,避免相邻信息颗粒的干扰,高密度磁盘需要使用高矫顽力的颗粒。但这在改写信息时,需要磁头施加更强大的磁场变化,这可能意味着更长的操作时间和更多的干扰,导致性能或可靠性的下降。业界的解决方案是写入前对目标区域施加额外能量,让磁性颗粒的极性变得更容易被改变。目前已经正式商用的技术是希捷的HAMR(Heat-AssistedMagnetic通过等离子写入器精确地加热目标区域的超晶格铂合金400℃2nsHAMR技术的关键组件HAMR技术中,纳秒级的激光加热时间对硬盘的性能没有负面影响,因为在目前的磁HAMR(倍增以上着单盘容量提升,存储的单位容量成本将会很快被摊薄至传统技术之下。HAMR的另一个顾虑是增加了硬盘内的热源(激光器本身热量及盘片局部受热),热量的增加会带来可靠性方面的隐患。随着大型互联网企业完成验证和导入HAMR硬盘,证明可靠性方面的疑虑已经被消除。从产品参数看,ExosM30TBExosX22目前已经批量上市的魔彩盒33TB,还有很大的增长空间。HAMR4TB量的目标,235TB,246TB4TB盘已经可以量产。根据建模分析,HAMR10TB6:ExosM30TBExosX22ExosM30TBExosX22格式化容量30TB22TB单碟容量3TB2.2TB最大传输率275MB/s285MB/s随机读/写IOPS(4KBQD16)170/350IOPS168/550IOPS平均时延msms最大运行功耗(随机读4KBQD16)W4W运行温度10~60℃10~60℃运行震动30Gs40GsSSDHDD相比,SSDNANDDie存储密度提升提升NAND(3D堆叠向扩展、逻辑扩展。3D3DNAND160~1922003DNAND也已经陆续导入市场;30050022030代到来之前有机会达到1000片面积减小可以相应降低光刻成本。考虑到光刻仍是半导体制造成本的大头,继续垂直堆叠仍具有经济效益。横向扩展是减小单元间的间距,也就是提高每一层的密度。由于相邻存储单元之间具2DNAND的3DNAND层数已经达到数百层,适度SSD主控提升了纠错能力也是压缩单元间距的底气所在。逻辑扩展是提升单个闪存单元所存储的位数。通过区分更多的电荷状态(电压),每1位(SLC)2(MLC)TLC、QLC成为主流。FMSPLC(5)的样品,而在实验室低温环境下,7QLCSSD仍处于市场培育阶段,用户的接受程度、部署的技术条件都有待继续提升,PLCNAND在短期内不会受到太多的关注。另外,考虑到基于电荷状态细分表征信息的代价(可靠性、耐用度)越来越大,而容量收益越来越小,逻辑扩展需要寻找新的技术路线。NAND闪存封装容量提升SSDNANDSSDPCB2.5PCB16以使用叠放两块柔性折叠或连接器2.515mm者开发新的外形规格以容纳更大面积的CBEDSFFE1L增加每颗NAND(die晶粒封装)、QDP(4)、ODP(8)HDP(16)。ODPHDP512Gb512GB1TB1010晶粒容量的成长却慢得多。例如,64NAND256Gb512Gb100512Gb1Tb200512Gb1TbNANDSSD格与容量的关系近乎于线性增加,而且容量点之间的落差通常是倍数关系,用户扩容SSD512GB1TB/SSD3.84512Gb,ODPSSD1668TBSSDSSD常为16PCB16SSD会面临单位容量性能下降的问题。但大语言模型的爆火打破了这个平衡。对于GPUSSDGPU.68TBTCSSD作为缓存盘;对于配套的全闪存储节点,为了提升机架利用率和减少单位能耗,需要更高容量的SSD30T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论