版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
版权声明本白皮书版权属于分布式存储产业方阵,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:分布式存储产业方阵”。违反上述声明者,本方阵将追究其相关法律责任。编制说明牵头编制单位:主要参与编制单位:中国信息通信研究院、华为技术有限公司、新华三技术有限公司、曙光信息产业(北京)有限公司、戴尔(中国)有限公司、联想凌拓科技有限公司、国际商业机器(中国)有限公司、中移(苏州)软件技术有限公司、中电信数智科技有限公司、北京星辰天合科技股份有限公司、浪潮电子信息产业股份有限公司、联通数字科技有限公司、安超云软件有限公司、深圳市杉岩数据技术有限公司、深信服科技股份有限公司、中电云数智科技有限公司、华瑞指数云科技(深圳)有限公司、北京焱融科技有限公司、天翼数字生活科技有限公司、深圳市泛联信息科技有限公司、云宏信息科技股份有限公司、南京道熵信息技术有限公司、京东科技信息技术有限公司、极道科技(北京)有限公司、上海霄云主要编制组成员:德华、孙建国、沈玉良、张天洁、张玉君、张委、杨利锋、吕磊、何营、刘飞龙、过晓春、陈学伟、孙翠锋、刘翰超、陈侃、舒坦、隋成龙、张文涛、汤杰在数字化时代的浪潮中,数据已经变成了推动社会进步的核心驱动力。每一次网络互动、每一笔交易、每一帧画面,背后都隐藏着海量的数据。对这些数据的存储、管理和分析在现代社会中已变得不可或缺。存储是数据的载体,分布式存储作为其中的一种重要形态,已经成为大数据、AI等数据智能技术深化发展的重要基石,正持续地为各行各业提供着稳固、高效、可靠的数据支撑。中国分布式存储市场保持着稳健的增长态势,尤其在中东部区域和关键行业中,数字化转型正在推动存储市场的蓬勃发展。与此同时,AI大模型、大数据湖仓一体、数字化病理、量化交易、数据网络等新兴应用场景也在不断地扩展,为分布式存储带来更多的机遇和挑战。分布式存储产业方阵积极响应产业需求,联合产学研用多方力量,共同推动分布式存储的技术标准研制、生态体系建设、应用推广等工作,在2022年白皮书基础上,围绕新的应用场景、发展趋势,为读者提供一个清晰、系统的分布式存储产业全景,支撑政府、金融、教育、制造等各行业数字化转型,推动我国分布式存储产业健康发展。希望通过这本白皮书,读者可以更好地理解分布式存储的价值和未来,同时也为相关行业和研究者提供有价值的参考和启示。 2 4 4 7 21 23 25 28 31 31 34 36 38 42 4 9 401(一)大模型快速崛起,开启海量数据应用新时代大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示AI的iPhone时刻已经到来,标志着大模型快速崛起,进入应用阶段。大模型在训练过程中所需数据量庞大。模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,AI模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。大模型的另一个显著特点是对非结构化数据的高度依赖。目前会广泛提到AI大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于AI最终效果非常重要,但也2带来一个衍生问题:如何妥善处理存储和调用海量的非结构化数据。比如,2023年9月OpenAI宣布ChatGPT开启多模态输出模式,ChatGPT在升级后加入了识图、语音识别等多模态能力,因此其训练数据也需要在文本基础上加入大量图片、语音,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了AI相关数据的海量增长,也带来了存储和处理这些数据的难题。据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。大模型对存储的性能和安全性也提出了更高的要求。大模型往往需要频繁读取和调用数据,ChatGPT的数据访问使用量达到单月括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们AI大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐(二)算力发展需要互联互通,加速数据流动需求2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,行动计划提出到2025年,我国存储总量将超过1800EB,为我国数据存储产业提供了巨大的增长空间。行动计划重点任务部署强调探索构建我国算力互联网,促进海量数据要素高效在此背景下,实现算力统一调度和高速互联已经成为刚需,算力发展进入互联互通时代,数据流动作为算力互联互通的关键组成部分,是释放算力资源价值的基础,也是解决数算协同问题的关键环节。面对数据搬运成本高、数据安全合规、跨云跨域数据流动难等挑战,信通院联合用户和产业单位共同启动数据流动标准研究工作,期望通过标准建设助力构建开放、互联互通的算力生态系统,推动算力的协同和整合,为我国数字经济发展和创新提供更大的助力。算力互联网快速发展,数据流动是支撑算力互联互通的关键能力。云和存储对接、多云数据流动需求迸发,促进分布式存储向支撑上层多云数据管理方向演进。;4(一)步入稳定增长阶段,筑稳非结构化数据底座分布式存储市场呈现稳健增长,软硬一体比重持续上升。2022年,经过中国信息通信研究院与分布式存储产业方阵的深入分析,中国的分布式存储市场规模预计为205亿元,年复合增长率达到15%,随着经济回暖,市场增速未来将持续保持增长。其中,软硬一体的存储解决方案占据了市场的91.3%,厂商如华为、新华三及曙光等纷纷推出相应的新产品,旨在满足AI大型模型和大数据湖等场景下的非结构化数据需求。中东部数字经济发达,分布式存储发展强劲。从2022年各省新增分布式存储容量规模可以看出,我国分布式存储的发展与各区域数字经济发展呈正相关。区域集中度较高,北京、广东、上海、山东、江苏、浙江六省市作为数据生产大省,容量规模新增5.6EB,占5全国新增一半以上。其中,北上广新增达3.9E规模的38%。东部、中部地区城市分布式存储发展势头强劲。随着各行业数字化转型的持续推进,应用规模持续增长。根据2021年和2022年的数据对分布式存储在各行业的市场空间进行的观察,中国分布式存储市场的前五大应用行业为政府、电信、金融、教育和制造。2022年,这五大行业在市场中的份额已占据了69%,特别是在电信、金融、教育、传媒和交通等数字化进展较快的行业,其增长态势尤为显著。6新兴场景应用已渐成规模,分布式存储典型应用场景规模逐步均衡。根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,分布式存储应用场景发展迅速,已经由过去典型的五个传统场景向更多的新兴应用场景发展。虚拟化/云计算、电子票据影像、医疗影像、非线性编辑、视频监控五个传统应用场景正随着分布式存储技术创新应用稳步增长。同时随着非结构化高价值数据快速增长,非结构化数据分析、数据挖掘成为生产决策流程,AI大模型、高性能计算、大数据分析、海量数据备份归档、工业互联网等新兴场景应用已经逐渐成规模,并快速扩大应用。7(二)供需应用更加多元,上下游生态合作更加紧密2022年2月,分布式存储产业方阵联合产、学、研、用各界共同发起编制国内首个分布式存储产业生态图景,2022年6月,产业(V2.0)刷新,生态图景共有五个维度,自下而上分别是:关键部储产业链企业及最终用户提供清晰的分布式存储生态图景,梳理产业发展脉络,呈现不同领域的典型企业,展现分布式存储生态格8从分布式存储全产业链发展的角度来看,无论是位于上游的IT基础设施提供商、存储关键部件提供商,还是面向客户和行业的解决方案提供商、系统集成商,在以分布式存储为核心的生态圈中均呈现规模增长。与此同时,不同企业在提供产品或服务时,基于各家战略定位、商业决策以及运营模式的差异化,最终面向市场和用户的产品形态及服务类型呈现多元化态势。此外,分布式存储的细分赛道发展及不同行业的实际落地情况是分布式存储产业生态成熟的标志,不同领域生态伙伴的密切合作将成为连接产业供需双方的重要纽带。9(三)介质协议加速升级,全闪与融合形态快速发展1、分布式全闪存储分布式全闪存储,作为分布式存储的一种新形态,完全采用闪存技术,固态硬盘(SSD)作为主要存储介质。得益于闪存性能、高速无损RDMA网络、压缩软件栈等全闪存化设计,能够提供稳定的亚毫秒级访问性能。在过去一年间,业界多个厂商发布了自己的分布式全闪存储新产品,并且已经在不同行业用户中落地应用。可以看到,随着闪存价格的下降,分布式存储正在向匹配的应用场景快速发展,作为一种新形态,分布式全闪存储已经开始进入加速发展的快车道。2、分布式融合存储分布式存储具备块、文件、对象、大数据多种服务能力。为满足海量数据数据共享、存算分离的需求,面向海量的非结构化数据,分布式存储已经发展出分布式融合存储新形态,通过一套分布式存储系统支持多种协议同时提供服务,并实现协议互通。新时代的业务场景是复杂的、多流程的、多种类型的存储操作,一种业务不再是简单的文件操作,变成了文件、大数据、对象存储的多个程序混合操作。而这些业务要求的数据往往会依赖于上个业务程序的处理结果,数据生产阶段使用文件协议把数据放入存储,数据生产业务把数据放入大带宽、高性能的文件存储后,需要进行大数据分析工作,大数据分析工作需要使用到Hadoop集群,数据需要从文件存储拷贝到Hadoop集群后使用,这需要耗费大量时间。拷贝数据时间和数据量强相关,数据量越大对于用户业务影响越大。数据处理完后需要通过对象存储进行发布,需要从Hadoop集群把结果数据拷贝到对象存储,对于结果的实时发布造成影响。这个过程需要经历多个集群,多次拷贝,每一次拷贝都意味着业务速度的变慢,用户很难实时得到最终结果。特别是在能源勘探协议、批处理的执行业务。一套分布式系统同时提供文件、对象、大数据访问能力,系统规模可以从PB级走向EB级,允许多云多业务共享存储系统的硬件资源,提升资源利用率。通过多协议融合互通能力,一份数据无须协议转换就能够被多种协议同时访问,解决业务流程中多环节多应用访问相同数据的需求,减少数据搬迁和重复存储,提升35%的数据处理效率,降低约20%能耗。分布式存储的应用场景日益丰富,本白皮书将重点探讨其中的新兴应用场景及典型应用场景的发展趋势。涵盖的场景包括AI大模型、大数据湖仓一体、数字病理化、生物信息分析、量化交(一)AI大模型分布式存储在AI大模型训练和推理中均发挥了重要的作用,在国内外AI大模型企业已获得了应用验证。随着AI大模型应用的快速发展,其将成为分布式存储下一个规模应用场景。在AI大模型场景中,庞大的神经网络及其他AI框架需要处理海量数据,从中挖掘有价值的模式与知识。为应对这一挑战,存储系统需突破传统界限,确保更高的带宽、更低的延迟、更强的并发能力及卓越的可扩展性。应用场景特征:.大数据量:为了更好的泛化能力,大模型的发展向着大网络、多模态数据的方向快速发展。参数量从开始的百亿已增长至千亿、万亿规模。数据集由开始的文本语料,加入了图片、视频数据作为训练样本,容量规模从TB级增长到PB级。.数据处理并行:为了加速训练,在计算层通常采用分布式架构,数据在多个GPU或其他计算设备上并行处理。底层存储能够要求既满足高带宽又满足高IO,才能充分发挥计算资源的算力,保障计算资源不浪费。.数据格式多样:AI大模型全流程应用需要处理各种类型的数大模型场景涉及的典型类型有源数据、数据集、模型文件、.海量小文件:AI数据预处理流程中针对大的数据文件(图片、视频、音频、文本)通常需要特征提取生成若干小的文直接影响AI训练效率。所以AI训练不光要求存储解决容量和高带宽的问题,还要能解决海量文件元数据的纳管以及文件并行高性能读取的挑战。.高可靠、高可用:模型训练通常需要数天、数周甚至数月的时间,任何存储故障都可能导致大量的计算资源浪费。为了提高可靠性和可用性,AI大模型训练采用多种机制保证数据可能会在多个位置或设备上存储多个副本。分布式存储优势及发展建议:.大型数据集,海量存储空间:随着数据和模型规模的增长,数据量会呈现指数级增长,需采用分布式存储支持海量存储空间以及横向扩展。.模型训练中的高吞吐和低时延:为了缩短模型的训练时间,提高大模型生产效率,高效的吞吐和极低的时延能为GPU计算提供足够的数据,可以减少GPU计算的等待时间。.高效的数据流动:大模型应用的源数据从各个时间维度采多,所以一般在训练之前会经过有大量的工作来给数据瘦身和处理,面对处理后的有效数据快速的切入到训练环境,这对高效的数据流动提出了更高的要求,统一数据湖成为必.海量小文件性能支持:参考当前大模型发展特征,千亿级别的规模将成为常态,未来还会发展更大规模,所以在海量小文件下的性能持续增长是业务对存储设计的刚需。(二)大数据湖仓一体凭借分布式存储EC的高磁盘利用率、存算分离灵活扩容的优势,大数据分析是分布式存储的典型应用场景。当前,大数据技术的发展,进入了湖仓一体的新阶段,分布式存储作为其数据底座,也在向着新的要求不断发展。湖仓一体是一种新型开放式架构,充分结合数据湖和数据仓库的优势,在数据湖低成本的存储架构之上,继承数据仓库的数据处理和管理功能。湖仓一体架构结合科学的数据分层、存算分离等理念,将多样的数据处理负载有机组合在一起,最终形成了不同角色用户的诉求,数据科学家有自己的场所来测试他们的假设,分析师能够使用他们合适工具分析数据,业务用户能够准确和及时地获得数据分析报表。.事务支持:对事务的支持,可确保数据并发访问的一致性、正确性。湖仓一体架构在数据存储,在并发读写、作业异常失败、批流混合输入、历史数据归档等方面都需要事务支持,才能保证数据可靠性,避免数据存储变成无法有效使用的数据沼泽。.开放数据格式:应对前端不同的数据需求,支持湖仓融合开放数据格式,如Hudi、Iceberg、DeltaLake等开放格式,具备数据仓的事务一致性,同时面对各种应用场景,具备对接大数据计算引擎,如:Apache的Spark、Flink、Presto、Hive等,实现对各种数据的访问,实现开放的数据.存储与计算分离:存储和计算使用单独的集群,按需分别扩展,保证湖仓一体的整体系统能够支持更多的用户并发和更大的数据量,同时最大程度地利用资源,从而实现对大规模数据进行查询和高效分析。.支持多种工作负载:面向前端丰富的数据场景,需支持包括数据科学、机器学习、流批处理以及SQL和分析的前端需求,通过同一数据存储,适配多种工具来支持这些工作负.BI支持:支持直接在源数据上使用BI工具,以提高数据新鲜度,减少等待时间,减少必须同时在数据湖和数据仓库中操作多个数据副本的存储成本。分布式存储优势及发展建议:湖仓一体技术推动数据湖、数仓场景基础设施走向融合,数据基础设施架构从应用为中心走向以数据为中心。在数据湖、数仓数据共享架构下,统一数据存储层、统一元数据层、缓存加速、统一计算调度等成为湖仓一体大数据架构的趋势。.统一数据存储层:在统一存储层,利用HDFS、S3协议实现对接,既能解决海量数据存储的扩展性问题,又能更好的支撑算侧无需开发新的业务流程,减少对接适配。.统一元数据层:实现统一元数据信息管理,统一权限管控,支持计算热插拔,减少数据搬迁,保证数据时效性及一致性。对统一元数据的选择,目前国内较多的选择Hudi、Iceberg、DeltaLake技术,围绕统一元数据技术,各厂商做了适配,未来一段时期,统一元数据技术将保持各自独立的.缓存加速:湖仓一体的数据缓存层,为计算提供按需的数据缓存能力,减少数据访问的IO,从而提升数据访问性能,在实践中,需要构建更细粒度的缓存策略,通过优化数据架构提升缓存命中率,以减少缓存资源的占用。.统一计算调度:基于统一存储,构建离线数仓、融合数仓、实时查询数仓、应用分析数仓计算生态,支撑多业务场景。通俗来讲,数字化病理是指通过扫描技术对病理数据进行数字化采集(将传统病理的物理切片转换成高分辨数字图像),医生通过数字化切片生成的信息进行病理诊断以及病理数据管理。海量的数字化病理图片数据快速存储和访问为分布式存储带来了应用机会,随着国内各大医院数字化升级,这个应用场景的规模正快速增长。病理学诊断是疾病诊断的金标准。数字化技术的出现给病理理医生能够通过显示器阅片,同时也会打破会诊切片传输过程中的时空限制。另一方面,数字化将流程和记录工作无纸化,提高了病理科的运营效率。集成的数字化系统将记录和归档工作电子化,实现全流程的信息追溯并优化后续的归档管理效率。AI技术的出现为病理科的质控及诊断再添一翼。首先,AI通过自动检测数字切片图像中的异常和错误,来帮助病理医生进行智能质控,确保诊断结果的准确性和可靠性。其次,AI能够辅助医生进行诊应用场景特征:.切片文件大:每个切片文件1-3GB,传统存储方案阅片速度慢,存在卡顿现象。.数据量大:三甲医院年病理数据增量1-2PB/年,是传统PACS影像年数据增量的10倍。.数据保存久:病理数据要求留存15年或30年以上。.数据管理难:多样化的数据来源导致数据分散,难以实现数据共享。分布式存储优势及发展建议:.病理图片二次压缩:传统病理图片压缩后平均大小仍接近1GB,且未能充分利用病理图像的特征以及瓦片之间的相关性。目前业内最新的二次压缩算法可以在数字化病理原压缩算法基础上,做到无损的二次压缩,进一步缩减冷数据存储空间30%以上。.数据分级存储:数字化病理切片数据使用频率和存放周期存在一定的规律,按照数据访问频率和热度进行热温冷分级,可以既兼顾了阅片的性能诉求,又有效的降低科室的存储成.实现海量切片并发调阅:一张数字切片由几万个瓦片组成,每次调阅只会加载视野范围内的几十到几百个瓦片,加上要考虑背景压力等混合负载复杂场景,大并发在线调阅对存储的综合性能要求较高。可以采用分布式并行客户端、混合IO负载优化、多级缓存加速等技术,实现千张病理切片秒级阅片体验。.冷数据存储介质创新:病理切片数字化后,病理数据同样需要保存30年,对于使用频率变低的业务数据,其访问性能要求虽然变低,但这部分冷数据占比最高,所以需要考虑进行存储介质的创新,推荐采用高带宽、可快速读取、支持病理无损压缩算法的蓝光存储来长期保存病理冷数据。.多协议互通:科室及医院内不同业务系统的数据类型不同,与存储系统交互使用的协议不同,不同格式数据在科室实际运行交流中存在较大难度,多协议互通技术可以对文件/对象/大数据三个非结构化进行融合互通,帮助科室快速便捷实现数据共享。分布式存储凭借大容量、高性能、高扩展、高可靠的优势是生物信息分析(简称“生信分析”)的最佳数据底座。近几年生信分析的应用越来越多,如代表业务基因测序,这个新兴场景规模也得以快速增加。生信分析是一个典型的巨量数据驱动的行生物数据计算、快速调用有效数据进行应用分析等是生物信息分析行业面临的难题。应用场景特征:.大数据量:一次基因测序产生的原始数据量都是TB级别,满负荷下,一台测序仪一年产生PB级数据,加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果。另外还需考虑如何低成本的实现基因数据长时间存储。.高带宽低时延:生信分析计算过程中涉及数据的高速共享与读写检索,对存储的IO带宽和实时性要求高,否则可能导致数据不完整。.高可靠:生物学分析往往会通过对比源生物信息产生大量的结果数据,长时间大并发的IO读写性能和稳定性尤为重要。.需适配GPU等高并发算力集群:生物学分析涉及大量GPU的业务,数据拆分阶段涉及大量的GPU算力,需要存储适配,并提供极高的带宽和IOPS能力。分布式存储优势及发展建议:.海量数据支持:提供标准的文件接口和访问协议。面向分析阶段百亿级别海量小文件,文件操作性能以及文件的读写性.性能适配业务需求:兼容高性能低延时网络,提供超高的带宽能力,主流技术路线是使用RDMA;支持GPUDirectStorage,实现以直接内存的存取方式将数据传输至GPU,降低IO延迟,提升数据带宽,充分释放GPU算力,将性能发挥到极致。.数据全生命周期管理:可以满足不同业务阶段的IO特征需求,包括大文件的下机带宽性能,数据拆分性能,分析业务阶段的小IO低时延要求,以及整个业务流程中的混合大文件小文件并存优化。随着金融大数据、金融科技、智能金融的快速发展,为应对海量非结构化金融量化数据的实时应用分析,分布式存储在量化交易中得以应用。量化交易通过数量化方式及计算机程序发出交易指令,以获取稳定收益为目的的金融投资方式,在海外的发展已有几十年的历史,其投资业绩稳定,市场规模和份额不断扩大,经过多年的发展,量化交易已经成为成熟的金融工具。量化投资技术几乎覆盖了投资的全过程,包括量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。到2020年,量化行业已经到了大数据+AI算法的阶段,在“AI+机器学习”加持下正迅猛发展。应用场景特征:.基础量化数据规模大:量化数据主要分为三类,一是市场的量价数据:交易所量价数据、交易量、成交量、价格、日内订单等;二是基本面数据:上市公司公告几千万条记录、公司财报数据数千万份、各大券商分析报告等;三是另类数据:个股新闻、商品数据、宏观数据、产业数据、个股指入分析数据池中,成为决策依据。.量化交易依托“AI+机器学习”成为行业主流:深度学习的自动提取特征比传统机器学习的人为提取特征过程更加高效,深度学习随着数据量的增加模型效果会不断地改善。AI以其高效的能力将量化分析向着真正的“正确等”高频操作迈进。量化投研采用神经网络和深度学习的技术,数据规模投入越大,模型精度越高。数据来源多,导致数据类型和格式多种多样。金融市场有效信息非常少,干扰数据多。分布式存储优势及发展建议:.海量数据支持、弹性扩展:对于海量的金融数据,存储的容量和性能弹性扩展是长期刚需。.GPU存储直通:由于量化投研采用神经网络和深度学习的技术,数据规模投入越大,模型精度就越高。当前在GPU大算力的环境下,支持GPU直通存储成为关键。.统一命名空间:在量化分析领域,为便于业务快速普及,存储管理要求统一命名空间,数据规模达到百亿级别。速发展,越来越多的设备实现互联,海量设备产生的数据呈指数级增长,能够与5G高速度、低时延特性相辅相成的边缘计算技术成为智能物联网大趋势下的重要风口,分布式存储灵活高扩展、多协议数据服务、数据共享便捷的特点成为边缘计算构建统一数据存储资源池最佳方案。据Gartner预测,2025年将有75%的数据产生在数据中心和云之外并在边缘侧进行处理。边缘计算与云计边缘计算是在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的开放平台,就近提供边缘智能服务,不仅能够实现流量的本地化处理,以降低对远端数据中心的流量冲击,而且能够提供高带宽、低时延和高稳定的应用运行环境,有利于计算框架在终端和数据中心间的延展,有助于实现场景需求、存算力分布和部署成本的最佳匹配。应用场景特征:缘智能等特性是MEC边缘计算场景对分布式存储提出的新挑战,比如工业互联网、智慧交通、云游戏及VR/AR等行业,对超低时延与海量数据传输均有较高要求。时交互、实时反馈,分布式存储需要能够快速响应终端设备的请求,必须具备超低延迟的特点,以便能够及时提供业务感数据不能离开地市甚至现场,因此分布式存储需要具备高安全性,能够提供数据的保密性、完整性和可用性,以防止数据泄露和篡改的风险。节点的数量和分布可能会随着需求而变化,因此分布式存储需要具备灵活性和可扩展性,能够根据需要快速调整和扩展络环境中,易受网络故障、设备失效等因素影响。因此,分布式存储需要具备高可靠性,能够在节点及磁盘故障等情况下继续提供数据服务。源和中心云统一管理,形成“逻辑集中,物理分散”的分布.边缘智能:在更靠近数据产生和使用侧处理业务,满足实时分布式存储优势及发展建议:.数据长期低成本存储:具备高性能EC、高效数据压缩、冷热.快速检索:具备自动标签、秒级查询等能力,满足多维度回调、秒级查询要求,提高数据检索效率。.多协议互通:数据零拷贝,需无缝对接AI分析平台,生产数据直接共享NFS进行AI训练;.支持大数据分析:将边缘节点所生产数据进行统一存储,整.保障数据安全:具备快照、WORM、容灾备份等特性防止数据篡改,保障数据安全;2023年3月10日,美国国家能源局推出了高性能数据基础设施(HPDF)计划,要求实现全美东西海岸40多个教育科研机构数据互联互通,以满足其大量协同计算及数据迁移共享需求。布式存储未来应用的一个重要场景。核心需求是在不同的算力平台之间实现高性能算力任务和数据的高效流动,构建一个便捷的算力和数据网络。这一网络以高性能算力任务和数据流动为中心,能够跨越不同的架构、地域和服务商,为AI大模型、边缘计算、科学计算等高性能任务和大数据应用提供多层次、标准化和.跨地域:“东数西算”政策驱动下,东西优势互补加速跨区是企业当前海量数据存储的载体。.跨架构、跨服务商:超过92%的企业已经是多云架构,分布式存储在跨服务商、跨架构层面还不够完善,需要在生态上补.大数据量:数据网络面向的业务场景是高性能算力任务。像人工智能大模型、科学计算等场景都是大数据量的算力任务。面临大数据量跨域、跨服务商、跨架构流动的挑战。分布式存储优势及发展建议:.存储层构建数据跨域、跨云流动能力:数据从产生、储存、传输、处理、共享甚至销毁都离不开数据存储,相较于多云架构的其他各层,数据存储层在数据相关的操作上有着天然的优势。通过PaaS层进行的数据流动,需要将数据从本地数据存储中读取出来,再通过消耗应用和算力资源才能将数据流动到另一端,到另一端后,同样需要消耗应用和算力资源过构建良好的多云数据存储系统,数据只需要从本地的数据存储远程复制到另一端的数据存储中,少量甚至无需占用算力资源,且流动效率最高,通过设置针对性的流动策略,还能够实现数据流动,应用无感。.面向多云构建统一数据底座,扩大数据共享应用:针对企业数据存储资源池,统一划分性能区间、服务类型、灾备配置、增值服务等指标,构建跨云全局一致的存储服务SLA,并基于标准化API把存储资源提供给多个云支撑各类应用和数据服务,实现数据一池共享,应用多云部署。.构建全局文件系统,形成数据互联网络:面向多云环境,向用户提供统一数据视图,用户看到单一存储空间,并通过文件、对象、HDFS等多种标准协议,文件全局可视,逻辑上多个云环境下数据底座成为一个文件系统,可进行数据全局调度。用户按照权限在同一个命名空间下访问跨云、跨数据中心的数据。企业数据管理员制定统一元数据策略、检索统一为助力产业健康发展,产业方阵持续跟踪分析最新技术发展趋势,从架构、软件功能、硬件技术、生态发展四个维度,分析解读当前分布式存储领域最新关键发展趋势,解析各创新技术价值,洞悉分布式存储发展趋势。(一)架构方面,向融合负载、更高密度、更快网络发展1、多协议融合架构承载多业务混合负载展推动下,数据量呈现爆发式增长,并进一步促进了IT与各类应用的融合。另一方面各类应用的非结构化数据占比越来越大,数据类型更加复杂多样,对存储系统提出了更高的数据管理和混合负载的生、虚拟化等应用中向多协议融合的多负载混合架构上演进。不同于传统的支持单一业务的方式,数据中心要求一个分布式存储系统同时提供文件、对象和大数据的访问能力,减少协议网关带来的性能损耗,并且多种协议共享同一套硬件资源。Gartner预计到2028年将有70%的文件存储和对象存储部署在一个统一的数据存储平同时HPC、HPDA及AI技术的兴起带来了混合负载的业务诉求,要求一套分布式存储系统支持不同类型、不同负载的应用系能支持大文件的高带宽,也能支持海量小文件的高IOPS,以便作为稳定可靠的数据存储底座为上层业务提供高效支撑。2、单框多节点架构提高容量性能密度随着广义高性能计算(HPC)业务如人工智能、机器学习和大数据处理的迅速发展,对存储系统的需求也日益增加。这些业务需要高IO带宽、高IOPS和低延迟,这些需求对存储分布式系统的处带宽的快速增长,都推动了存储系统朝单框多节点架构发展。单框多节点架构在一个机架内配置多个独立的存储节点,每个节点都有独立的资源,并通过高速网络互联。这种架构的优势包括:提高性能和存储容量,简化管理,以及节能降耗。例如,它可以解决CPU面对高密度SSD的IO处理性能问题,简化设备部署和家主流存储厂商如华为、新华三等都已提供此类存储系统。3、高性能RDMA网络规模应用分布式存储采用多种网络协议和技术,如以太网(TCP/IP)、受到关注。传统的TCP/IP网络存在延迟大、多次数据拷贝和复杂的协议处理等问题。RDMA技术可以直接将数据传入服务器存储区,上相对IB的开放性,其应用已经越来越多。;;为了解决全闪存储性能与网络协议之间的瓶颈,2016年推出了NVMe-oF协议。它允许服务器通过Fabric连接到远程NVMe设备,实现高性能的存储设备网络共享访问。其中,基于RDMA的NVMe应用性能表现出色,受到业界的关注。NVMe-oF结合了NVMe和高速低延迟传输网络技术,释放了数据中心的端到端NVMe性能,满足了大规模和高性能数据中心的需求。由于RDMA网络的技术优势,尤其是RoCE在国内的快速发展,国内主流分布式存储厂商大部分已经支持RDMA技术实现存储前后端网络通信,具体包括NVMeoverRDMA、iSCSIoverRDMA(iSER)、NFSoverRDMA等,我们相信,随着RDMA技术的不断完善,会有越来越多的分布式存储采用基于RDMA网络技术。1、数据缩减降低分布式存储应用成本在分布式存储向闪存介质演进的过程中,场景化数据缩减技术将为降低闪存应用成本起到至关重要的作用。随着存算分离架构在大数据分析和高性能计算等应用场景中的广泛部署,数据缩减的能力已经下沉到存储侧。这种下沉与前后台缩减任务相结合,有效地减少了对性能的影响并显著提升了数据缩减率。不同的数据场景具有各自独特的数据特征,这为数据缩减提供了多样化的技术选择。例如,对于基因、医疗和遥感等场景,可以采用多帧图片聚合压缩和多波段聚合等方法来实现更高的缩减率。而在数据保护场景中,变长或相似性重删技术能够获得优越的缩减效果。对于视频和媒资的场景,则可以通过前景提取和码率控制等技术来进一步增强数据缩减的效率。2、分布式存储多场景双活多活容灾随着分布式存储份额在市场上的持续上升,越来越多核心业务部署在分布式存储之上,核心业务的可靠性需要全力保障,需要达到RTO=0和RPO=0的要求,在存储层需要实现双活。分布式存储可以提供多种存储服务(块、文件、对象、大数据等),需要实现全业务场景双活。存储双活可以通过存储双活特性,通过存储同步复制及锁机制能力,解决数据一致性问题:(1)同步复制确保两端存储的数据实时保持一致,一个写IO需要同时完成两端存储的写动作(存储返回IO写完成)才返回写(2)双活存储需要保证任何时刻两端存储的数据读写的都保持一致,比如:A端存储在写数据,而在相同的时刻B端存储在写同一份数据,此时存储应该保留哪份数据呢?这个IO场景就需要锁机制保障数据的一致性,通过锁机制确保所有IO的数据一致性,保障业务数据安全。分布式存储双活能力需要包含:块存储双活、文件存储双活、对象存储双活及大数据存储双活等,在存储层100%保障核心业务数据的可靠性及可用性等。(三)硬件方面,向全闪存化、高效节能发展1、分布式存储启动全闪存化作为新一代的存储介质SSD,凭借性能、能耗方面的明显优级以及成本下降,先后淘汰了15K高性能HDD、10K高性能HDD、PCHDD,在企业核心交易系统、核心生产系统、决策支撑系统、运营支撑系统以及备份等场景已经实现对HDD的替换。目前剩下最后一个品类硬盘-容量型HDD,而容量型HDD主要应用在分布式存储系统中。新技术的替代并不完全基于成本。例如,机械硬盘替代磁带并非因为其成本更低,而是性能优越。当新技术的成本下降到旧技术年,SSD性能显著优于HDD,但价格高昂。到2011年,其成本是而SSD的成本也逐渐靠近了10K企业盘和PCHDD的3倍,促使这两者相继减产或停产。2023年,得益于NANDFlash技术进步,大容量SSD的成本已低于HDD的3倍,标志着HDD的更大规模替换开始。分布式存储凭借全闪化带来的高性能、高可靠、大容量优势,一套全闪存存储性能相当于数十套传统HDD存储之和,结合大容量SSD和重删压缩技术,全闪存存储容量上可以达到5-10套传统HDD存储之和。可以进行数据中心存储整合,个设备中的数据集中到少量几台设备中存储,降低设备购置、维护、管理及能耗成本,并加速数据价值挖掘,使能业务增长。大幅降低CAPEX及OPEX。2、液冷散热提供极致能效随着数据中心规模的增长和能耗问题的突出,分布式液冷存储作为一种绿色、高效的解决方案,受到了越来越多的关注。分布式液冷存储系统内部采用无风扇设计,有效解决传统风冷方案气流强、噪音大问题。并且为硬盘提供超静音且无振动的工作环境,可以显著提高硬盘读取性能。液冷存储方案多采用冷板式液冷技术和高密模块化设计,可以显著降低关键部件工作温度,存储节点PUE值降至1.2以下。液冷存储技术能够高效制冷,提高数据中心的使用效率和稳定性。其液体传导热能效果和大比热容的特性可以有效避免过热故障的发生。同时使用了多重节能技术,在保证容量和性能的基础上,提高存储资源利用率,降低系统功耗。(四)生态方面,向云存开放对接、存储直通发展1、云存开放对接云化转型深入,企业使用多云成为新常态。在使用多云带来的弹性、敏捷的基础服务的同时,也要面对多云部署带来的数据孤岛和不同异构平台之间的冲突。为解决此问题,构建跨多云和企业IT的统一基础服务,将底层各种大规模云的计算、存储、网络、安全以及其他资源,抽象成统一多云的云服务底座成为产业界各方的共识。可靠、应用生态等有着不同的需求,多云架构需要构建足够宽的存储服务序列,并提供统一的存储资源池和存储云服务能力,才能更
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省南京市秦淮区2023-2024学年八年级上学期期中语文试卷(含答案解析)
- 中班安全教育教案18篇
- 交通运输企业安全生产标准化
- 2024至2030年中国干燥箱/培养箱行业投资前景及策略咨询研究报告
- 2024至2030年中国小型前后进平板夯行业投资前景及策略咨询研究报告
- 样本及抽样分布2
- 2024年河南省中考语文试题含答案
- 2024年中国拷贝机市场调查研究报告
- 2024年中国功耗测试仪市场调查研究报告
- 仓库用电协议书范本大全
- 幼儿园中班数学:《小蚂蚁过生日-7的点数》 PPT课件
- 微课的设计与制作
- 材料成本差异对企业利润的影响
- 加油站安全风险隐患排查表
- 让课程的力量在实践中彰显——《课程的力量》读书报告-完整版PPT课件
- 营销渠道试题与答案解析
- 【课件】第二单元第三节汉族民歌课件-2021-2022学年高中音乐人音版(2019)必修音乐鉴赏
- 电磁学发展史
- 材料、设备封样及进场验收管理规定
- 急性肾损伤PPT通用课件
- 高标准基本农田建设监理工作总结
评论
0/150
提交评论