




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AIGC告目录前言 01第一章AIGC加速数据存储产业智能变革AIGC产业呈现创新发展态势 02AIGC产业迈入发展新阶段 02AIGC产业支持政策全面布局 02AIGC加速企业数据存储创新发展 04第二章AIGC场景对数据存储的挑战AIGC业务阶段概述 05AIGC整体架构 05AIGC作业流程下的存储数据流动 06AIGC各阶段对数据存储的需求 07阶段一:数据采集 07阶段二:数据准备 08阶段三:数据训练 08阶段四:数据推理 09阶段五:数据归档 09AIGC场景下数据存储的关键需求 10第三章AIGC场景下数据存储的应对技术从场景需求到技术应对:数据存储技术概述 11数据存储的应对技术 11数据处理技术 13数据容纳技术 13数据管理技术 15数据安全技术 15数据共享技术 16数据流动技术 16第四章AIGC数据存储解决方案及案例AIGC数据存储解决方案 18AIGC数据存储经典案例 19案例一 19案例二 20案例三 22案例四 23第五章AIGC场景下数据存储发展的未来趋势与展望未来趋势 24数据绿色存储愈发成为关注的焦点 24数据安全存储的重要性日益凸显 24展望:最近技术发展趋势 25AIGC催生新一代数据存储架构 25AIGC加速数据存储产业快速增长 26AIGC加速数据存储标准完善 26前言软件定义存储成为数据基础设施领域的关键技术。数字经济时代,数据是数字经济的新型生产要素,在作为劳动工具赋能其他生产要素的同时,数据还可以作为劳动对象展现本身的经济价值。存储设备是数据的最终物理载体,是行业、企业和用户数据的保险柜。业务需求和计算技术的更新推动存储设备向高扩展、高性能、快迭代的方向演进,软件定义存储凭借横向节点扩展、性能近线性增长和软硬件技术快速迭代的特点成为数据基础设施领域的关键技术。分布式融合存储是软件定义存储的发展趋势。早期的软件定义存储,一套集群只能支撑一种数据的读取和写入,对外提供一种服务,数据存储在单一介质中。随着数字经济的发展,一套作业流程往往包含不同的数据类型,跨集群进行数据处理无疑会增加用户的操作复杂性。同时,一套作业采用多套存储设备无疑会增加成本,只能将数据存储在单一介质中的特性使用户在数据存储成本和效率之间不可兼得。立足于新时代数据存储需求,基于多协议互通、多介质融合、多服务共享的分布式融合存储将成为新的发展趋势。AIGC具有广阔的研究和应用前景。AI技术的快速革新极大地推进了AIGC的高速发展,其研究和应用亦被推广到多个行业。据统计,AIGC在内容创作领域,可以将内容生成效率提升数倍至数十倍,降低人力成本高达50%以上。在广告、游戏、影视等行业,AIGC的应用不仅丰富了内容形式,还推动了行业的数字化转型。未来,随着技术的不断进步,AIGC有望在更多领域实现突破,如教育、医疗、科研等,进一步拓宽其应用边界。据预测,到2030年,AIGC的市场规模将达到数千亿美元,成为推动全球经济增长的重要力量。探讨AIGC下的存储应用具有十分重要的意义。当前,AIGC以其强大的创新能力和应用潜力,成为推动产业升级和经济发展的重要力量。作为AIGC的核心支撑,数据存储扮演着不可或缺的角色。数据存储不仅为AIGC提供了海量的数据资源,还通过其高效、安全、智能的特性,为AIGC技术的创新和应用提供有力保障。因此,深入探讨AIGC与数据存储之间的关系,对于推动AIGC技术的进一步发展,以及实现数据价值的最大化,具有极其重要的意义。为全面分析AIGC与数据存储的紧密关系,从数据存储的角度揭示AIGC技术的内在逻辑和发展趋势,我们推出《AIGC数据存储技术研究报告》。在报告中,我们将深入探讨AIGC场景下对数据存储提出的新要求和新挑战,以及数据存储对新要求和新挑战的技术应对。同时,我们还将关注数据存储技术的创新和发展,以期为AIGC技术的进一步应用和推广提供有益的参考和启示。在这个充满变革与机遇的时代,AIGC与数据存储的融合发展必将开启新的篇章,为我们带来更加丰富的应用场景和更加广阔的发展空间。让我们共同期待并见证这一领域的繁荣与进步。第一章AIGC加速数据存储产业智能变革第一章AIGC加速数据存储产业智能变革AIGC产业呈现创新发展态势 1.1.1AIGC产业迈入发展新阶段 纵观AIGC(生成式人工智能)产业的发展历程,大致可以分为三个阶段,即早期阶段、沉淀阶段和发展阶段。AIGC的早期阶段可以追溯到20世纪50年代,人们开始探索如何利用人工智能(AI)技术来生成各种类型的内容。然而,受制于当时的科技水平,AIGC的应用主要停留在实验室中。20世纪90年代中期至21世纪10年代中期,AIGC发展进入沉淀阶段。这一阶段,AIGC多数是通过预先设定的规则和算法来生成内容。例如,在自然语言处理领域中,研究人员尝试利用规则和语法知识来生成语句,实现新闻稿件的自动化生成。同样地,由于规则和模板的缺陷,生成的内容往往缺乏个性化和创意性。随着人工智能技术的进步和深度学习算法的发展,从21世纪10年代中期至今,AIGC进入了快速发展阶段,其大规模应用逐渐成为现实,开始出现在新闻、广告、音乐、电影、游戏等多个领域中。生产的内容更加逼真、富有创意和个性化。同时,一些新兴的技术框架,如生成对抗网络(GAN),也为AIGC产业的发展提供了新的动力。2021年底,随着ChatGPT的崭露头角,AIGC进入了大规模爆发时代。ChatGPT的强大表现进一步证明了AIGC技术在内容生成领域的巨大潜力,促使越来越多的企业和研究机构投入到AIGC产业中,助推AIGC全产业链的成形,涵盖了数据层、算力层、算法/模型层和商业化应用层等多个环节。其中,产业链上游主要包括数据提供、算法模型训练等环节,为AIGC提供基础支撑;中游则是AIGC技术提供商,他们专注于开发和优化AIGC技术,为下游应用提供技术支持;下游则是各种AIGC应用场景,如媒体、娱乐、教育、广告等,这些领域正在广泛采用AIGC技术,实现内容创作的智能化和高效化。 1.1.2AIGC产业支持政策全面布局 AIGC产业的发展不仅得益于人工智能技术的进步,与政府政策支持也是密不可分的。近五年来,政府出台了一系列政策,鼓励人工智能技术的研发和应用,为AIGC产业的发展提供了良好的环境。现将国家各部委支持、指导AIGC产业发展的主要相关政策梳理如下:表1-1AIGC产业支持政策时间发布单位政策主要内容政策类型2024.01工业和信息化部等七部门《关于推动未来产业创新发展的实施意见》和培育高潜能未来产业。支持类2024.01工业和信息化部指导类2023.08工信部等四部门工程实施方案(2023-2035年)》术等8大新兴产业,以及生成式人工智能等9大未来产业,统筹推进标准的研究、制定、实施和国际化。支持类2023.07国家网信办等七部门《生成式人工智能服务管理暂行办法》励采用安全可信的芯片、软件、工具、算力和数据资源。规范类2023.01工业和信息化部等十六部门《关于促进数据安全产业发展的指导意见》力水平。指导类2022.08科技部《关于支持建设新一代人工智能示范应用场景的通知》础较好的人工智能应用场景,加强研发上下游配合与新技术集支持类2022.07科技部等六部门《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》术应用场景,促进智能经济高端高效发展。指导类2021.07工业和信息化部三年行动计划(2021-2023年)》支持类2020.09科技部《国家新一代人工智能创新发展试验区建设工作指引(修订版)》(以下简称试验区)批可复制可推广的经验,引领带动全国人工智能健康发展。指导类2020.07国家标准化管理委员会等五部门《国家新一代人工智能标准体系建设指南》指导类AIGC加速企业数据存储创新发展目前,AIGC场景下存储主要以分布式存储和云存储为主。很多企业或者组织在面对高昂的基础设施成本,选择使用云存储以存储AIGC的各类数据,特别是垂直行业的大模型构建,由于不需要大规模集群,更多的是选择单一的云存储方式。但是AIGC作为一种能够自主生成新内容的智能系统,在其作业流程中涉及数据采集、准备、训练、推理、归档不同阶段,在其应用中涵盖了从文本创作、图像生成到音乐和视频制作等多个领域,单一的存储架构很难满足整个AIGC的存储需求。为了应对AIGC场景下带来的存储领域需求的挑战,国内外存储厂商纷纷加大研发力度,竞相探索AIGC场景下的数据存储技术的最前沿。聚焦于国际领先的DataDirectNetworks(DDN)与国内某存储厂商,作为行业内的代表性企业,其在存储技术创新方面分别展现出独特的优势。DDN作为全球领先的大数据存储供应商,其A3I(Accelerated,Any-ScaleAI)解决方案是专为AI和深度学习设计的,它针对数据密集型工作负载提供了前所未有的灵活性和高性能。满足从大型企业、服务提供商、研究机构到政府机构的广泛需求,其优势主要体现在以下几个方面:第一,并行架构的性能和效率。DDN的A3I解决方案采用真并行架构,确保在任何规模下都能提供高性能、高效率、GPU利用率和存储容量;第二,全面的深度学习加速。A3I解决方案能够同时为所有工作负载提供实时加速,确保数据密集型任务能够连续且高效地执行。第三,无缝部署和集成。A3I解决方案易于部署,是预配置、即插即用的,为AI工作负载和GPU支持解决方案提供了最强大的扩展平台。第四,灵活的容量扩展。DDN的存储平台提供了灵活的容量扩展选项,支持从少量TB到几十PB的扩展,满足不同企业的需求。第二章AIGC场景对数据存储的挑战第二章AIGC场景对数据存储的挑战AIGC业务阶段概述 2.1.1AIGC整体架构 在AIGC的发展浪潮中,数据的按需流动和存储是支撑这一划时代技术变革的关键基石之一。从数据的视角来看,AIGC数据的流动环节通常分为:数据采集、数据准备、数据训练、数据推理、数据归档,这五个环节构成了AIGC数据处理的完整生命周期。横向的数据流动各环节是分析存储需求的着力点,而纵向的系统架构和各模块作用及关系是厘清存储需支撑对象的出发点。AIGC整体架构可归纳成应用、模型、数据、平台、基础五层以及每层的若干子模块。通过这种分解期望能够更清晰地理解存储在AIGC整体架构中的地位,使得设计和优化的存储解决方案更具针对性。AIGC整体框架如下图所示。数据采集数据准备数据训练数据推理数据归档数据服务数据分析数据清洗结构化数据整合数据服务数据分析数据清洗结构化数据整合向量数据库数据源C 数据源流式处理非结构化数据数据源F数据治理NFSCIFSHDDHDFS FTPHttpSSDNFSS3 SwiftTape/BD数据总线数据源A客户端数据源E数据源B网络资源池存储资源池计算资源池数据底座安全服务网关服务务务数据调度数据集成定制应用部署推理调优训练下载检索模型智慧医疗自动驾驶智能客服生物识别法律咨询金融量化智慧网点应用SaaSMaaSDaaSPaaSIaaS数据集数据集数据集数据集数据集数据集数据集数据集数据集数据集数据集元数据数据数据集数据集数据集数据集数据集数据集数据集数据集数据集数据集数据集元数据对象服务视频服务块服务文件服务平台对象服务视频服务块服务文件服务基础图2-1AIGC整体架构图如图2-1所示,AIGC整体架构分为五层,自上而下分别是:应用层SaaS、模型层MaaS、数据层DaaS、平台层PaaS以及基础设施层IaaS。应用层SaaS是AIGC技术产生价值的窗口,模型根据输入数据生成新的内容;模型层MaaS是AIGC的核心环节,主要通过大量的数据来训练、验证模型并支撑模型的运转;数据层DaaS主要分为数据服务、数据集成、数据治理三个部分,其中数据服务主要负责数据的处理和高质量数据集的生成,数据集成主要对数据进行汇集,数据治理主要对各个来源的数据集进行统一管理、安全检查等;平台层PaaS对数据、计算、网络和存储资源进行调度,例如网关服务、数据库服务、多租户管理、鉴权认证,其中对于存储的服务主要有文件服务、对象服务、块服务和视频服务等;基础设施层IaaS构建了AIGC的基础设施底座,包括计算资源(CPU、GPU、NPU)、介质资源(磁带、HDD、SSD、内存等)、网络资源(TCP/IP、InfiniBandswitchA等)。在AIGC的整体架构中,存储随着数据流动而存在。如图2-1所示,存储主要在数据层、平台层和基础层,同时对应用层和模型层起支撑作用。由此可见,在AIGC整体架构中,存储起着至关重要的作用。当前得益于数据量的快速增长和摩尔定律的快速发展,在更多的场景下,用户更倾向于借助强大的算力以及数据驱动模型进步。而人工智能场景也逐渐从以模型为中心向以数据为中心转变,算力、算法和数据已经成为推动AIGC发展的三驾马车。就人工智能发展趋势和实际应用而言,在AIGC场景中,存储不再是简单的数据容器,而是推动AIGC发展的核心组件。 2.1.2AIGC作业流程下的存储数据流动 从数据的视角来看,数据采集、数据准备、数据训练、数据推理和数据归档这五个阶段紧密相连,共同支撑AIGC的整体业务流程。存储系统在每个阶段中都扮演着至关重要的角色,提供不同侧重的支撑,以确保AIGC各层各业务模块能够高效、安全的运行。数据采集是AIGC流程的起点,它涉及从各种来源收集原始数据,这一过程要求存储系统具备高吞吐量、可扩展性、低延迟高实时性、接口多样性,以应对海量数据的及时收集。数据准备阶段要求存储系统能够高效读写和灵活组织,支持数据清洗、转换和规范化以适应复杂的数据处理任务。在训练阶段,存储系统需提供强大的I/O性能和充足的可扩展的存储空间,以支持大规模数据集的高效处理。数据推理阶段对存储系统的稳定性和延迟响应速度要求极高,以保证内容生成的连续性和流畅性。数据归档是数据首轮生命周期的终点和次轮的起点,它涉及实现对数据进行长期有效存储和经济性的平衡。在传统设计策略中,数据流动通常遵循一个线性且分离的过程,每个阶段在物理或逻辑上相对独立:数据采集阶段通常照顾数据来源侧的传输方式和协议,将采集的数据迁移到独立的预处理系统上,进行清洗、格式化和转换;然后将预处理后的数据迁移到训练集群上,这不仅增加了数据传输的时间,还可能因为数据传输的延迟影响模型训练的效率;最后模型训练完成后,会按业务需求发布到数据推理生成阶段,并定期将数据从生产环境迁移到备份或归档存储中。这种策略涉及到多次数据移动,耗时增加,并提高业务系统管理存储的复杂性和出错的风险,可能导致数据一致性和安全性问题。在基于统一数据底座的设计策略中,存储数据流动是一个连续的、无缝的过程,每个阶段仅是逻辑上进行区分,在底层都是同一份数据以减少数据的移动和复制。数据采集一方面提供数据来源侧的传输方式和协议,另一方面直接与后续的预处理阶段统一考虑数据布局与存储管理方式,在采集时就已经准备好进行下一步的处理;数据准备、数据训练、数据推理生成等后续阶段均能够根据规划和授权无需拷贝直接访问数据;数据归档是一个自动化的过程,以减少业务管理的复杂度并平衡好数据长期有效存储和经济性存储。高速并行存储系统全闪存储高速并行存储系统全闪存储多协议存储MetadataserversStorageservers点 AI计算节点点 胖节点 可视化节点用户&管理员10Gb以太管理网络100Gb高速HDR100IB计算网络图2-2AIGC场景下存储架构图AIGC各阶段对数据存储的需求 2.2.1阶段一:数据采集 数据采集阶段是整个AIGC流程的基础,也是决定后续数据质量、模型训练效果及最终生成内容质量的重要环节。以下是对AIGC大模型数据采集阶段存储需求的详细阐述。(1)大容量:数据采集阶段面临的是海量数据的收集与处理。随着互联网的快速发展,数据呈现爆炸式增长,AIGC系统需要处理的数据量动辄达到PB级别甚至EB级别。这些数据涵盖文本、图片、视频、音频等多种类型,每一种类型的数据都需要大量的存储空间。因此,存储系统必须具备基础的大容量、可扩展的特点,以应对AIGC的数据存储空间需求。(2)多协议:数据采集阶段涉及的数据来源多种多样,包括互联网、企业内部数据库、物联网传感器等。这些数据往往通过不同的协议进行传输和存储,如HTTP、FTP、RTSP议,以便与各种数据源顺畅对接,实现数据的无缝采集和传输。 2.2.2阶段二:数据准备 AIGC大模型的数据预处理阶段,涉及对海量原始数据的清洗、整理、转换和增广等操作,以生成适用于模型训练的高质量数据集。因此,存储系统需要满足以下关键需求:(1)高I/O:数据预处理过程中,存储系统需支持高速的数据读写操作,以减少数据加载和处理的时间,提高整体预处理效率。特别是对于大规模数据集,快速的数据访问能力尤为关键。(2)高安全:数据预处理是数据从原始状态到训练输入的关键步骤,任何数据丢失或损坏都可能对模型训练产生负面影响。因此,存储系统需提供可靠的数据保护机制,如数据备份、冗余存储和故障恢复等,以确保数据的安全性和完整性。(3)易管理:数据预处理涉及多种操作,如数据清洗、格式转换、特征提取等,这些操作往往需要根据具体的数据特性和业务需求进行调整。存储系统应提供灵活的数据管理能力,支持数据的灵活组织、检索和更新,以满足数据预处理过程中的多样化需求。 2.2.3阶段三:数据训练 在AIGC大模型的数据训练阶段,存储系统的带宽、容量及IOPS直接影响到模型训练的效率、稳定性和最终效果。以下是针对AIGC大模型数据训练阶段对存储需求的详细说明:(1)高I/O、低延迟:数据训练阶段需要频繁地从存储系统中读取大量数据,用以更新模型的参数和权重。因此,存储系统必须具备高性能的读写能力,如在万卡集群、万亿参数大模型的快速训练时,需要存储提供TB级的带宽,小模型的训练推理则要求存储系统提供超过百万级的IOPS计算资源中,减少I/O等待时间,提高训练效率。(2)快速数据检索与索引:为了提高数据训练的效率,存储系统需要具备快速的数据检索和索引能力。这有助于快速定位到需要的数据块,减少不必要的数据读取和处理时间。为了实现这一目标,存储系统可以采用高效的索引结构和算法,如哈希表、B树等,以支持快速的数据检索和定位。(3)高并发:AIGC大模型的训练过程往往采用并行处理和分布式训练的策略,以提高训练速度和效率。存储系统需要支持这种并行和分布式的工作模式,确保多个计算节点能够同时访问和修改存储系统中的数据,而不会产生数据冲突或不一致。这通常要求存储系统具备分布式锁、数据同步和一致性控制等机制。(4)易管理:在数据训练阶段,存储系统还需要提供灵活的数据管理和优化功能。这包括数据压缩、去重、缓存管理、冷热数据分离等策略,以优化存储资源的利用率和性能。同时,还需要支持数据的动态迁移和平衡,以应对训练过程中计算资源和存储资源的变化。 2.2.4阶段四:数据推理 在AIGC大模型的数据推理阶段,存储系统直接影响着模型推理的响应速度、效率以及用户体验。以下是针对AIGC大模型数据推理阶段对存储需求的详细阐述:(1)低时延:数据推理阶段要求存储系统能够快速响应数据请求,以支持模型在短时间内完成复杂计算并生成结果。因此,毫秒级或亚毫秒级的低时延的数据访问是首要需求。这要求存储系统具备高效的数据检索和传输机制,能够快速定位并传输所需数据至计算资源,减少等待时间,提高推理效率。(2)高并发:在实际应用场景中,AIGC大模型往往需要同时处理多个推理请求,特别是在高并发场景下,(3)高安全:在数据推理阶段,保持数据的一致性和准确性至关重要。任何数据的微小差异都可能导致推理结果的显著变化,从而影响用户体验和应用效果。因此,存储系统需要提供可靠的数据保护机制,确保数据在传输、处理和存储过程中不被篡改或损坏。同时,还需要支持数据校验和验证功能,以确保推理过程中使用的数据是准确无误的。(4)多协议:AIGC大模型的数据推理可能涉及多种类型的数据和复杂的数据结构,如文本、图像、视频、音频等。因此,存储系统需要提供灵活的数据访问模式,支持多种数据格式和访问协议,以满足不同推理场景的需求。此外,还需要支持数据的快速转换和预处理,以便在推理过程中快速提取和使用有效信息。 2.2.5阶段五:数据归档 在AIGC大模型数据的生命周期中,数据归档阶段是一个不可忽视的重要环节。此阶段旨在将模型训练、推理等过程中产生的大量数据,以及模型本身和相关的元数据,安全、有序地存储起来,以便未来可能的查询、审计、复用或进一步优化。针对AIGC大模型数据归档阶段,存储系统需满足以下关键需求:(1)高可靠:数据归档的首要目标是确保数据的长期保存与耐久性。这意味着存储系统必须具备高可靠性和长寿命,能够抵御物理损坏、电源故障、自然灾害等风险,确保数据不会因时间流逝或外部环境变化而丢失。此外,还需定期执行数据完整性检查和修复,以保证数据的持续可用性。(2)高扩展:AIGC大模型在训练、推理等阶段产生的数据量巨大,且随着模型的不断迭代和升级,数据量还将持续增长。因此,存储系统必须具备大容量和可扩展性,能够容纳不断增长的归档数据,并支持灵活的扩容操作,以应对未来可能的数据增长需求。(3)易管理:为了提高数据归档的效率和查询的便捷性,存储系统应支持数据的分类存储和索引功能。通过对归档数据进行合理的分类和索引,可以方便用户快速定位到所需数据,提高数据利用价值。同时,分类存储也有助于优化存储资源的使用,提高存储效率。(4)高效能:在保障数据安全和长期保存的前提下,存储系统还需考虑成本效益和能效问题。通过采用高效的存储技术和优化存储资源的使用,可以降低存储成本,提高存储系统的能效比。同时,合理的存储规划和管理策略也有助于降低数据归档的长期运营成本。AIGC场景下数据存储的关键需求如下图所示,AIGC的各阶段对存储提出了多方面的需求,对以上需求进行归纳总结,可以分为存储对数据数据流动能力跨介质、跨设备流动长期保存和耐久性
数据处理能力流动处理AIGC流动处理AIGC存储安全管理数据共享能力 共享多协议互访互通,灵活数据访问数据安全能力可靠数据保护保证数据的一致性和准确性
容纳 数据容纳能力横向扩展大容量存储数据管理能力灵活数据管理并行处理,分布式训练图2-3AIGC场景下数据存储关键需求图在AIGC场景下,数据的主要类型为非结构化数据,数据呈现大容量的特点,不仅需要存储具备高性能,还需要有极佳的扩展性,能对数据进行长周期存储。基于以上分析,以上六种能力均需要具备,才能满足AIGC场景下数据存储的多样化需求。第三章AIGC场景下数据存储的应对技术第三章AIGC场景下数据存储的应对技术从场景需求到技术应对:数据存储技术概述在第二章中,我们详细分析AIGC场景下从数据采集到数据归档的各个阶段对存储系统的特定需求。为了方便分析,对第二章中所提需求做进一步整理,对整个AIGC作业流程的需求分为软件和硬件两个层面。在硬件层面上,为满足海量数据存储需求,存储需要具有大容量、可扩展,同时在归档阶段还需要存储可长期保存数据,具有耐久性。在软件功能上,为满足多模态数据存储需求,存储需要支持多种协议,同时,为满足高性能场景的存储需求、提升大模型训练效率,存储需要具有高性能、高并发、低延迟和快速数据检索的功能,支持并行数据处理和分布式训练。此外,在整个流程中,数据管理和数据治理也是非常重要的需求。在面对海量数据存储及其复杂需求时,分布式存储与备份归档的组合方案展现出了独特的优势,能够全面满足这些要求。分布式存储以其卓越的扩展性和大容量的特性,为海量数据的持续增长提供了坚实的基础。它能够根据实际需求无缝扩展存储资源,确保数据的灵活性和可用性,满足不断增长的数据存储需求。同时,分布式存储能通过优化算法和架构设计来提升性能,满足高性能存储需求。在数据归档阶段,备份归档方案的重要性尤为凸显。它确保了重要数据能够长期保存,并且具备高度的耐久性,有效应对数据丢失或损坏的风险。不仅保护了数据的完整性,还通过合理的存储策略和生命周期管理,优化了存储资源的使用效率。在数据管理和数据治理方面,通过集成的数据管理工具,可以实现数据的集中管理和有效治理,确保数据的质量、安全性和合规性。无论是分布式存储,还是备份归档,都是以数据存储的技术发展为基础的,厘清AIGC场景下复杂数据存储需求的应对技术是必然要求,也是本研究报告重点讨论的内容。数据存储的应对技术AIGC场景下对数据存储的多样化需求促使数据存储技术进一步发展以适应其要求,具体来看,AIGC场景下数据存储的应对技术可以从六个维度进行论述,分别是:数据处理技术、数据容纳技术、数据管理技术、数据安全技术、数据共享技术和数据流动技术。 3.2.1数据处理技术 (1)数控分离AIGC应用在数据处理阶段对存储系统的访问性能有极高的要求,包括数据采集、训练、推理阶段的海量小RDMARDMA客户ECI/O密集读写和大文件读写等场景。存储系统采用数控分离架构,通过将I/O的控制面和数据面解耦合,控制面主要负责管理数据的属性信息,如位置、大小等,通过优化逻辑控制和数据管理算法来提高存储系统的访问效率和数据一致性。而数据面则直接负责数据的读写操作。将数据管理流和数据传输流进行分离,分别在不同的I/O路径进行处理,各存储节点在收到数据访问请求后,即可与客户端之间直接建立连接发起数据传输,大幅降低了数据传输流在节点间东西向的转发操作,可极大地降低由于数据在存储集群节点间转发所带来的网络和系统处理开销,提高系统访问性能。客户EC控制流控制流数据传递数控分离节点1节点2节点3节点N图3-1数控分离架构示意图(2)内核亲和力调度在当前的AI基础设施平台中,计算服务器配置非常高,更高性能的CPU和更多的插槽数带来了NUMA(Non-UniformMemoryAccess)节点数据的增加。在多核处理器环境下,会产生大量的跨NUMA问。如图3-3所示,在未经过NUMA均衡的存储系统中,存储的缓存空间集中在单个NUMA节点内存内。当请求量增大时,所有其他NUMA节点的CPU核的数据访问均集中在单个Socket内,造成了大量跨Socket、跨NUMA访问。这不仅导致了CPU核的超负荷运载和大量闲置,还使得单次远端NUMA节点访问造成的微小时延累积,进一步增大整体时延。为了降低跨NUMA访问带来的时延,通过内核亲和力调度技术,在数控分离架构下使内核客户端可自主控制数据页缓存分配策略并主动接管用户下发的I/O任务。这种方式能够更加灵活地实现各类客户端内核态到远端存储池的数据移动策略。其中,针对不同的I/O线程进行NUMA感知优化,将业务读线程与数据自动分配到相同的NUMA节点上,使所有数据均在本地NUMA内存命中,有效减少了高并发下NUMA节点间数据传输,降低了I/O链路时延并提升内存访问效率,保证各NUMA节点的负载均衡。pppppppaapppppppaaaaaaaagggggggeeeeeeeeSocket0NUMANode1pppppppppaaaaaaaaaagggggggggeeeeeeeeeeNUMANode2pppppppppaaaaaaaaaagggggggggeeeeeeeeeeSocket1NUMANode3pppppppppaaaaaaaaaagggggggggeeeeeeeeee文件系统内核客户端15141312GPU111098GPUpagepageNUMANode03210GPU7654GPU远程存储系统图3-2NUMA均衡效果示意图远程存储系统(3)小文件聚合小文件聚合也是AIGC场景下实现文件性能加速的重要手段。具体来看,第一,写入过程。首先,小文件写入时先进入到快速层,介质是快于HDD的NVME或持久内存,配置的EC或副本模式也更快速,对数据进行落盘,并记录元数据;然后,文件拼接后形成4MB-10MB的大文件落向HDD层,如果聚合模块中的数据需要释放时,更改元数据文件,使其数据索引到HDD位置,整体过程根据文件的尺寸不同提升小文件5-10倍的性能。第二,读出过程。根据数据所在位置分别从聚合层和HDD层读取,EC算法支持从单分片中读取,读取通常不受影响,同时并发性能也会随之提高。第三,GC过程。如果数据删除过多或产生空洞,后台需要进行GC的数据整理。GC过程的常用方法有两种:一是搬移数据,搬移数据可以重新排列得到更多的可用空间利用率,但是大量的搬移则会占用带宽和资源,适用于删除一次就删掉了大量数据且需要重新排布的数据较少的场景;二是对空洞管理的方案,根据空洞的管理进行聚合,性能比较稳定,但是磁盘空间利用率低,适用于少量删除或整体文件尺寸比较平均一致的场景。HDDHDD写4NVMEECCache(聚合模块)3File大文件直接写21小文件File大文件File图3-3小文件聚合流程图3.2.2数据容纳技术(1)高密硬件设计数据存储中的高密硬件设计包括高密硬盘设计、免工具设计、高性能接口、高效散热设计、简易维护设计等。分开来看,高密硬盘布局可以在有限的机箱空间(如4U或5U高度)内,通过优化硬盘布局和排列方式最大化硬盘数量;免工具设计,旨在方便拆卸,大大缩短运维时间成本,如HDD硬盘框抽屉设计,支持单独抽出维护(内滑轨+坦克链);高性能接口技术,如PCIe4.0转SAS4.0、PCIe5.0SI设计等,能够支持更高的带宽和更低的延迟,满足AIGC等高性能计算场景的需求;高效散热设计,如优化气流通道、使用高性能风扇和散热器,以及通过智能温控技术配合先进的风冷系统,可以实现最佳工作环境,保障系统稳定运行;简易维护设计,如BMC技术,技术人员可以通过Web管理界面、故障诊断LED等指引设备,并可通过UID指示灯标记有故障的机器,提高系统可用性。(2)大容量存储介质在大容量存储介质方面NAND的崛起为大容量存储介质的发展提供了契机。NAND闪存每个存储单元可记录4个位的数据,相比传统的SLC、MLC、TLC,具有更高的数据密度,能够在相同空间内存储更多的数据。由于技术的快速发展,当前NVMeSSD最大容量已经超过百TB,大大提升了高速存储介质的存储密度。同时,X-NAND等关键技术的诞生,也缓解了采用ALC介质所带来的性能下降问题,提升TLC/QLC的性能,进而加速QLC的普及。而在数据的备份归档阶段,HDD仍然是主要的选择之一,在HDD内部,通过改进磁记录技术,如采用垂直磁记录(PMR)和叠瓦式磁记录(SMR)技术,可以增加磁盘表面的存储密度。对于以读取为主的冷数据存储场景,这种介质能够在同样的盘片数量下实现更大的存储容量,满足AIGC系统中大量历史数据和模型参数的存储需求。(3)数据压缩和重删数据压缩本质是通过使用算法和技术减少数据存储或传输过程中所占空间或带宽的过程。传统的数据压缩算法包含了无损压缩(如Huffman编码、LZ系列编码等)和有损压缩(分形压缩、小波压缩等),技术很难满足AIGC场景下量大、类多、速度快的数据的压缩需求,新的数据压缩技术顺势而生。混合列压缩(HCC)技术以块的形式组织数据,同时利用行存储和列存储的方法存储数据。数据一旦被定位,一个行集合中的列值会被分组到一起,然后将其进行压缩,待压缩完成后数据会被存储到压缩单元中。利用HCC技术的仓库压缩和存档压缩都取得了高效的压缩比,其中,仓库压缩在典型情况下可以提供10:1的压缩率,存档压缩比可以达到15:1,极大的节省了存储空间。此外,存储系统支持基于固定长度数据块或可变长度数据块的重复数据判断和删除机制,通过SHA256等算法计算数据指纹表记录数据特征,当有相同指纹特征的数据写入时只保留一份数据,将重复数据删除,其中基于可变长度数据块计算的指纹信息更加灵活和精确,可支持更高的数据重删率。通过数据重删技术可在重复数据占比较高的数据类型存储时显著节省存储空间。 3.2.3数据管理技术 (1)全局文件系统在AIGC数据采集阶段得到的数据来源广泛、格式多样,存储需要提供不同的接入协议,在数据训练和数据推理阶段产生的高价值数据需要在温冷存储介质中长期保存,以及在异构存储或跨地域存储系统之间迁移和保存。大规模AIGC训练集群可能需要分布在不同地域的多个智算中心的集群间进行数据协作,分享某个阶段训练完成的数据,通过存储系统的全局文件系统管理能力,可支持数据在跨地域的存储系统之间以及不同存储介质之间自动流动,并支持按照设置的策略对过期数据自动删除,实现数据高效管理。同时全局文件系统支持基于全闪存介质构建缓存加速层,提高系统整体的访问性能。存储系统管理本地存储和后端冷存储介质中的全量数据及元数据,采用全局统一的元数据管理机制,全局文件系统与后端存储之间的元数据同步可采用快照或日志方案。快照方案通过snapdiffinode列表,再遍历读取每个inode的详细元数据后对比元数据的差异,将差异部分进行同步更新。日志方案则需记录每次元数据变更的日志,通过重放日志的方式在另一套存储系统中将元数据构建出来,实现元数据的同步。从而保证全局文件系统与后端存储之间元数据的一致性。通过全局元数据共享技术构建全局统一命名空间,对外提供统一的数据视图,可视化呈现热冷数据的分布,检索系统任意位置的数据并进行访问,在高速池上实现海量百亿级文件秒级检索。 3.2.4数据安全技术 (1)故障恢复故障恢复技术通过多副本和纠删码算法实现数据的冗余保护,这与中国传统医学中的逻辑理念不谋而合,即“治已病”。存储系统的K+M纠删码级别有:K+1、K+2、K+3和K+4,其中,K代表数据块的数量机柜级或节点级的故障。只要系统中同时故障的节点数不超过M,系统就可以持续提供服务。通过数据重构过(2)故障预测与故障恢复不同,故障预测是要对可能发生的故障进行精准预测来实现对数据保护,即“治欲病”。存储SSD和HDD硬盘的健康状态参数进行周期性收集分析,结合硬盘的失效模型对SSD寿命和HDD盘故障给出精确的预测结果,保障存储系统长期稳定运行。(3)数据安全防护故障预测、故障恢复和数据安全防护构成了对数据安全的全方位保护体系,数据安全防护更强调在“治未病”中的保护作用,通过数据加密和防病毒技术实现数据保护。具体来看,数据加密是指存储系统支持数据传输加密和数据存储加密技术,使数据在传输过程到写入落盘的全过程都保持密文状态,防止数据被窃取篡改。对敏感数据的访问拥有认证、授权或加密机制,对于认证凭据的安全存储,在不需要还原明文的场景下,使用不可逆算法加密。通过加密机制确保了即使非法窃取物理磁盘也无法获取实际数据,保证非法途径无法获取明文数据。在读取数据时通过加密密钥解密后返回给客户端,保证数据在解密后内容不发生变化。加密算法支持标准AES加密算法及国密SM4算法等,满足客户不同的加密要求。防病毒技术的实现主要通过对系统读写IO的实时捕获并进行IO行为特征分析,与病毒库样本对比校验,系统可发现正常的IO读写行为与勒索软件/恶意软件的行为差异,及时侦测出异常访问行为,将存疑文件及时隔离并上报告警。另外也可通过机器学习模型,对未和病毒库匹配的可疑IO行为并结合已知病毒样本的特征进行分析,提高病毒拦截的准确率,确保数据安全。 3.2.5数据共享技术 (1)多协议融合互通推理过程不同阶段的重复存储,并支持数据的跨协议、跨区域、跨系统调度能力,提高系统的数据处理效率。议不同造成的数据拷贝,极大提高数据访问和处理效率。 3.2.6数据流动技术 (1)数据分层单一形态的存储已无法同时满足用户对于存储性能、存储容量和存储成本的需求,可通过数据分级功能实现在兼顾性能和成本的双重需求下对数据进行分类管理和存储。文件分级包括分级迁移和分级删除。根据系统中文件大小、类型、路径、存放时间等元数据属性,将满足用户所设置分级策略的文件分别迁移到不同性能存储介质的存储池中,或实现数据的自动删除,从而实现系统文件的生命周期管理。数据分层管理基于数据的访问频率、重要性以及其他相关属性,通过机器学习、数据挖掘等技术,建立数据访问频率预测模型,准确识别出热数据和冷数据,并分别存储在不同的存储介质或存储层级上。当数据在变为温冷状态并满足设定的分层迁移策略时,自动迁移到异地的存储系统中或是不同存储介质的异构存储系统中,当后续的作业阶段触发了对已迁移数据的访问请求时,自动将数据回迁至原存储系统中。通过数据分层管理策略实现数据在全生命周期内的自动迁移和透明流动,包括在后端存储使用磁带库和蓝光存储等冷存储介质的场景,实现数据在高性能的SSD介质、HDD磁盘、以及低成本的冷存储介质之间的高效流转。同时,存储系统根据设定的存储策略判断匹配的存储池资源,通过自动迁移功能按前端I/O负载的变化调整数据迁移速率,可最大限度地降低数据迁移动作本身对系统的性能影响。(2)数据跨域流动存储系统支持远程复制功能,实现数据在跨地域的两套存储集群间流动,提供系统级的故障冗余保护。数据复制可采用目录级的快照技术,将主端存储系统新增快照中的数据复制到从端存储系统,使得从集群的数据和主集群快照保存一致。数据同步包括初始同步和增量同步。初始同步采用目录遍历对比的方式,增量同步是基于snapdiffjournal能实现周期性的定时同步,也可以通过手动创建快照,将从集群数据同步到某一个时刻。第四章AIGC数据存储解决方案及案例第四章AIGC数据存储解决方案及案例AIGC数据存储解决方案AIGC数据存储解决方案采用分布式存储和备份归档作为存储底座。采用不同盘位的分布式全闪和混闪存储与备份归档存储共同构建统一资源池,分布式并行存储的burstbuffer功能,能够智能识别热点数据,精准分级。统一资源池和全局文件系统能保证数据跨介质、跨设备流动,防止形成数据孤岛,备份归档的存储特性则保证数据的长期保存和耐久性,具备数据流动能力。基于数控分离架构、内核亲和力调度、多任务并行无锁I/O和GPU直通存储等技术,当前方案可以读写速度不同的存储介质作为AIGC不同阶段的存储池,满足全流程的数据读写要求。在高速存储池上,当前方案可提供百GB/s的大带宽、百万级IOPS和毫秒级低时延,具备强大的数据处理能力。 文本生成 音频生成 图像生成 视频生成 代码生成 多模态 大容量、多协议共享百万-千万IOPS100GB-TB级带宽节能、能耗、归档AI智能运维数据采集数据采集数据准备数据训练数据推理数据归档HDDHDDHDDHDDHDDHDDHDDNVMeNVMeNVMeNVMeNVMeNVMeNVMeHDDHDDHDDHDDHDDHDDHDDNVMeNVMeNVMeNVMeNVMeNVMeNVMeAS13000带库/光盘一套存储提供全闪、混闪、带库、光盘四种介质,提供文件、对象、大数据、视频、块协议图4-1AIGC场景下分布式存储多协议融合互通一套存储提供全闪、混闪、带库、光盘四种介质,提供文件、对象、大数据、视频、块协议1.4PB-2.3PB。同时,此方案使用HDD叠瓦式磁记录(SMR)、二维磁记录(TDMR)、点阵式磁记录(BPMR)以及能量辅助磁记录,以降低冷数据归档存储成本,具备强大的数据容纳能力。基于分布式存储架构和数据、元数据管理功能,则可对外提供数据并行处理、模型分布式训练的数据管理能力。存储系统发生故障时会导致数据读写操作失败、降低CHK读写性能,影响训练效率。字节级分布式锁、系统故障快速恢复、系统故障预测和系统防护相结合,可以加快故障恢复、提前预测故障和进行系统防护,达到为存储底座提供全方位保护的效果,保证数据安全。基于分布式存储多协议融合互通的功能,该方案可实现同时支持文件、对象和大数据存储服务,对外同时提供POSIX、NFS、CIFS、FTP、FTPS、HTTP、HDFS、S3和CSI等多种数据协议,实现不同协议下用户权限共享、语义无损、性能一致,同时数据在存储池内仅保存一份,但是可以通过多种协议访问,避免不同协议下数据的拷贝,节省50%的数据存储空间。而通过全局元数据共享技术则可以构建统一命名空间,支持跨平台、跨形态、跨地域的全局数据管理,并对外提供统一的数据视图,用户可方便地检索任意位置系统的数据并进行访问,在高速池上可实现10亿文件秒级检索,体现了此方案的数据共享能力。综上所述,基于分布式存储和备份归档的AIGC数据存储解决方案具备数据流动、处理、容纳、管理、安全和共享六种能力,满足数据采集、数据准备、数据训练、数据推理和数据归档五个阶段的存储要求,可以提供端到端的数据支持,满足面向文本、音频、图像、视频、代码以及多模态和全模态的大模型数据处理的需求。AIGC数据存储经典案例 4.2.1案例一 项目背景:上海某大学服务国家创新驱动发展战略,瞄准基础学科研究的前沿领域,推动学科交叉和科教融合,在光子科学、人工智能、生物医药、能源科学等重大创新领域积极布局,是一所小规模、高水平、国际化研究型、创新型的大学。该大学和某存储厂商合作以计算和存储为平台融合新技术应用,推进重大科研创新平台建设,提升创新体系效能,加速科技创新,共同搭建跨学科多模态人工智能计算平台。面向多模态大模型训练,搭建了跨学科技术研究的平台,满足了数字材料、生命制药、芯片制造、数字孪生、人机协作等多个研究方向的大模型科研需求。解决方案:存储集群采用先进的全闪存分布式存储系统,提供高带宽和高IOPS,同时存储集群支持高冗余模式,即当某节点出现故障时,可以自动切换至备用节点,提供存储系统的高可用性,保障科研平台数据不丢失,保证了数据安全性和项目课题运行的持续性。根据后期业务的增长,长期存储系统在线横向扩展新的存储节点,系统的性能和容量会随着节点数量的增加线性增长,为科研项目的持续研究保驾护航。客户价值:以上存储解决方案为计算平台提供超高的性能支持,可达400万IOPS和500GB带宽,满足大模型训练过程中大规模数据读写的带宽需求,有效避免大模型训练过程中大量小文件token读取时延的问题,满足整个存储资源的整体性能。同时,该方案可提供全数据生命周期管理的能力,实现数据按热度进行流动、提供热、温、冷、冰四级存储介质,实现高效、节能的数据分级存储。在上层,智能化运维管理平台,采用AIOPS主动运维监控、预测分析、提升管理效率、降低运维成本。以上功能特性满足AIGC模型训练场景下极低时延与极高IOPS需求。满足跨学科领域研究的需求,为智慧医疗、智能感知、人机协同、数字孪生、材料发现、芯片制造、视觉影像多个研究方向的大模型研究提供了安全可靠的数据存储底座。价值收益IOPS≥400万,模型毫秒级读写,缩短训练等待时间40%价值收益IOPS≥400万,模型毫秒级读写,缩短训练等待时间40%文件、对象融合存储,TCO降低30%解决方案HDRIB交换机全NVMe资源池20*AS1300024盘位全闪节点计算节点计算节点计算节点数据汇集数据处理数据训练数据推理数据汇集数据处理数据训练数据推理AI相关五学科、数百人、多站点导入,数据多源多态多模型、百GB数据在线操作小文件快速访问要求高图4-2案例一解决方案图 4.2.2案例二 项目背景:随着AIGC大模型的快速发展,对于稀缺计算资源的需求越来越大,在拓展AIGC模型训练和推理时,如何构解决方案:价值收益异构数据管理和多租户共享协议高效互通,快速流转数据的分级策略有效管理热温数据解决方案HOME目录 工具镜像仓库 容器持久存储高速网络高速网络图4-3二级容量存储池高速全闪存储池某存储方案可以将各种异构计算汇聚,共享硬件资源(包括CPU价值收益异构数据管理和多租户共享协议高效互通,快速流转数据的分级策略有效管理热温数据解决方案HOME目录 工具镜像仓库 容器持久存储高速网络高速网络图4-3二级容量存储池高速全闪存储池需求痛点复杂数据特征的有效管理需求痛点复杂数据特征的有效管理集群节点间的高效数据交换最大化释放大模型算力文件存储文件存储块存储登录服务器计算节点客户价值:该方案的平台配置的存储系统采取分级策略,配置一级高性能存储+二级大容量存储,实现数据在不同层级间自由流转。存储模块全部支持多种存储类型,多种功能模块协同工作,打破单一软硬件技术壁垒,使业务运行更加顺畅。并且该方案提供闪存存储空间300TB,存储吞吐可达100GB/s+。该解决方案配备高性能存储系统,为用户提供强大、高效的数据存储空间和数据访问的能力,同时提供了多种数据特征提取、整合,多维度动态组织数据集的能力,为用户“再创新,再发现”提供了强力的工具。计算模块提供了异构计算框架的兼容能力,复杂流程的解析能力/并发能力和异构资源的高效利用能力。实现一套集群中多种业务并行,多种计算并行,多租户共享。 4.2.3案例三 项目背景:某医学研究中心,主要业务为医学影像,如X光片、CT(计算机断层扫描)、MRI(磁共振成像)等的分析AIGC数据存储技术研究报告求。其中,配置了全闪存储集群来支持数百亿参数的医学影像生成模型的训练和推理,通过提供高性能存储解决方案,保证训练、推理各个阶段数据传输效率和数据的安全性。客户需要一套高性能的全闪存储系统,支持数百亿参数的医学影像生成模型训练,规划3PB全闪存储集群,要求聚合带宽200GB/s,集群OPS达到350万。为了支持数据采集、预处理和归档,客户还需要一套大容量的混闪存储系统,规划30PB混闪存储集群,要求性能达到50GB/s,集群OPS为135万。医疗数据的安全和隐私保护至关重要,客户要求存储系统在保证高性能的同时,必须具备强大的数据安全和隐私保护机制。解决方案:为满足大规模医学影像生成模型训练的需求,提供一套3PB的全闪存储集群,与500节点的算力集群进行交互。全闪存储集群主要负责支撑AI模型训练和推理流程,满足客户对存储集群带宽和OPS集、预处理和归档阶段的需求,配备30PB的采集、预处理和归档存储。针对数据安全和隐私保护需求,通过数据传输和存储的加密以及严格的访问控制和审计策略来确保。需求痛点海量数据,按需扩展多模态和跨模态数据管理需求痛点海量数据,按需扩展多模态和跨模态数据管理数百亿训练高性能要求解决方案数据采集 数据处理 数据训练 数据推理图4-4混闪集群全闪集群流转客户价值分布式架构在线灵活扩展数据生命周期管理全闪存储高200GB带宽,350万OPS客户价值:数据预处理阶段有大量医学影像数据需要快速上传和预处理。通过优化数据路径,减少数据传输路径中的瓶颈,提高上传和预处理速度。通过并发优化算法,提升多客户端同时上传和处理数据的效率(上传速率和性能),利用智能缓存技术,加快常用数据的访问速度,高并发上传和智能缓存技术使数据处理时间节省30%。模型训练阶段深度学习模型训练需要高性能存储系统,训练过程中需要频繁读取和写入大量数据,因此需要较高的吞吐性能,3PB全闪存储集群支持高带宽和高OPS,满足深度学习模型训练需求。数据分片和并行处理技术通过将大文件分成多个小块存储和处理,提高数据存储和访问效率。通过内置的智能调度算法自动调整存储资源分配,确保高性能需求的训练任务顺利进行。通过全局去重技术,减少重复数据存储量,提升存储利用率。全闪存储集群优化后,聚合带宽达到250GB/s,OPS超过400万,训练和推理效率提升110%护机制确保医疗数据的安全性和隐私保护,提升系统的合规性和可靠性,确保了研究中心医疗影像数据安全的相关保密规定得到严格落实。 4.2.4案例四 项目背景:某金融公司的实际业务中数据量巨大,且以非结构化数据类型为主,除了需要存储系统具备提供多种存储服务的能力之外,对数据存取的性能也有较高的要求。在以往的业务流程中,数据存取性能是整个分析建模和训练过程中的最主要的瓶颈。同时,该类用户对数据处理和分析的性能也有严苛要求,要求具有充分利用资源进行并发计算的能力。解决方案:首先,底层采用分布式全闪系统来支撑金融数据的高效存取,配合端到端的Roce或者IB的网络,提供卓越的数据存储吞吐和IOPS,支撑金融数据的高效存取。其次,采用可以提供文件/块/对象等多种存储服务的统一存储系统,为量化分析需要的结构化数据和非结构化数据提供统一的存储引擎。最后,在应用层配合分布式计算系统来整合计算资源,并且利用高级调度策略确保最大化的计算资源利用率。需求痛点GPU访问存储的效率小文件高IOPS和低延时需求痛点GPU访问存储的效率小文件高IOPS和低延时金融海量数据分析处理解决方案容器服务 模型训练 分析任务 高频交易全闪存分布式存储系统图4-5分布式计算系统客户价值支持GDSGPU直通访问高性能全闪并行文件系统文件/对象/大数据协议融合客户价值:该方案不仅提供了极高的IOPS,还具备了极低的延迟和极强的小文件读写能力以及元数据处理能力。在面对海量小文件场景下,性能无衰减。配合分布式计算系统,可以承载多种分析应用,并且通过进程和容器的方式运行批量计算、并行计算,动态高效分配资源。提供对GPU等稀缺资源的管理和调度能力,高效利用人工智能技术助力量化分析流程。面对智能分析数据处理过程中的性能瓶颈,通过计算和存储的协同,解决了I/O瓶颈带来的分析效率低下和计算资源利用率低的问题。第五章AIGC场景下数据存储发展的未来趋势与展望第五章AIGC场景下数据存储发展的未来趋势与展望未来趋势 5.1.1数据绿色存储愈发成为关注的焦点 随着AIGC产业的大力发展,各地方政府也在积极推进大型智算中心的构建,例如北京、深圳、上海等地已经出台了多种布局算力基础设施的实施方案。目前,国内单个智算中心的存储规模均在EB级,智算中心的规模和数量不断扩大,带来了存储的能耗的快速上升。相关数据显示,2023年,全国数据中心耗电量达到2700亿千瓦时,占社会总用电量的3%。而智算中心引入了更多的算力相关设备,其耗电量将远高于同等规模的数据中心。根据斯坦福人工智能研究院发布的《2023年人工智能指数报告》显示,GPT-3单次训练耗电量就已高达128720%,50%,存储能耗中80%于存储介质。目前主流的存储介质主要包括HDD磁盘和SSD磁盘。其中HDD磁盘功耗大约在6W以上,而SSD磁盘在静态无负荷条件下,功耗仅大约在0.05W到1.2W之间。然而,由于SSD单盘价格相对较高,且在相同容量下,需要更多数量的HDD,直接导致存储的总能耗大幅上升,严重阻碍国内“碳达峰&碳中和”的进展。对于满足AIGC高性能需求的同时提升存储系统的能效比并降低能耗成本这一问题,各存储厂商纷纷出台了相应的解决方案。比较典型的有以下几种,一是采用能耗更低的全闪存存储(All-FlashStorage,AFS)存存储方案。全闪存存储利用固态硬盘(SSD)的高速读写能力,提供极低的延迟和高吞吐量,非常适合AIGC应用中的实时数据处理需求。混闪存存储则结合了SSD和传统硬盘驱动器(HDD),通过智能数据分层技术,将最活跃的数据存储在SSD上,而将较少访问的数据存储在HDD上,从而在性能和成本之间取得平衡。二是智能数据管理策略。这些策略包括自动数据分层,它根据数据访问的频率和模式,动态地将数据在不同存储层之间迁移。通过冷数据归档技术将不常访问的数据移动到更节能的存储介质上,减少对高性能存储资源的需求,减少不必要的数据存储和访问。此外,还有在数据中心的存储中实施数据去重和压缩技术,减少存储需求以及利用软件定义存储和存储虚拟化技术提高资源利用率等技术。这些绿色存储技术的实施有助于提高存储系统的能效,降低企业存储成本,为未来存储技术的发展提供了新的思路。 5.1.2数据安全存储的重要性日益凸显 随着AIGC在各领域的广泛应用,数据已成为越来越重要的资产。目前来看,AIGC场景下性能成为厂商和用户关注的焦点,严重缺乏对数据的严格监管和风险识别,尤其是在医疗、金融、法律等非公开的数据方面,由于缺乏数据安全防护,在各类恶意攻击下,数据信息被严重泄露,制约AIGC应用的发展。在模型攻击中,攻击者可通过逆向工程或者对抗攻击,窃取模型训练采用的隐私数据。在数据迁移或数据处理中,攻击者篡改训练数据内个人原始信息,操控模型生成意向。例如,攻击者可在金融大模型中篡改贷款用户的贷款历史和信誉度信息,从而降低各类人群的贷款信誉度。存储作为数据的载体,除了考虑性能和管理,也需要制定安全等级,全方位识别数据风险和数据安全问题,从数据移动过程中涉及的存储区域、存储介质、软件栈进行全面数据加密和权限认证,防止AIGC各个阶段的数据篡改和恶意提取。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床药物治疗练习
- 2025产品代理的合同模板
- 共享餐厅资源合同标准文本
- 下游交易合同标准文本
- 个人买卖混凝土合同标准文本
- 2025船舶抵押合同
- 巧妙安排时间的工作计划
- 个人管道安装合同标准文本
- 代加工药品合同标准文本
- 个人美容转让合同标准文本
- 2024版房产经纪人无底薪劳动协议
- 2025年上半年度交通运输部南海航海保障中心公开招聘126人工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 社戒社康培训
- 招聘团队管理
- 船舶建造流程
- 低氧血症护理查房
- 小学一年级数学20以内的口算题(可直接打印A4)
- 但丁神曲课件教学课件
- 《跨境电子商务实务》教学大纲
- 药品与耗材进销存管理制度
- 2024年大学生信息素养大赛培训考试题库500题(含答案)
评论
0/150
提交评论