DB31T-基于国产AI芯片的大规模智算集群管理与应用规范_第1页
DB31T-基于国产AI芯片的大规模智算集群管理与应用规范_第2页
DB31T-基于国产AI芯片的大规模智算集群管理与应用规范_第3页
DB31T-基于国产AI芯片的大规模智算集群管理与应用规范_第4页
DB31T-基于国产AI芯片的大规模智算集群管理与应用规范_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1上海市地方标准公示材料一.基本信息项目名称(中文)基于国产AI芯片的大规模智算集群管理与应用规范项目提出单位113100000024220045-上海市经济和信息化委员会技术归口单位上海市人工智能标准化技术委员会第一起草单位上海智能算力科技有限公司二.标准制定的依据1.2023年10月,工信部、网信办、教育部、卫健委、央行、国资委印发《算力基础设施高质量发展行动计划》,到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。2.2024年2月,国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会,会上强调要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心,进一步深化开放合作,更好发挥跨央企协同创新平台作用。3.2024年3月,《政府工作报告》中指出,深入推进数字经济创新发展。制定支持数字经济高质量发展政策,积极推进数字产业化、产业数字化,促进数字技术和实体经济深度融合。深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。4.2024年3月,国家标准化管理委员会印发的《贯彻实施〈国家标准化发展纲要〉行动计划(2024—2025年)》的通知中强调:加强新型基础设施标准建设。实施新型基础设施标准化专项行动,在移动通信网、固定宽带网、空间信息、新型数据中心等信息基础设施重点领域,持续推进基础标准和应用标准研制,加快健全标准体系,为新型基础设施建设、运营和安全提供技术保障。5.2024年8月,工业和信息化部等十一部门《关于推动新型信息基础设施协调发展有关事项的通知》中指出:优化布局算力基础设施。各地要实施差异化能耗、用地等政策,引导面向全国、区域提供服务的大型及超大型数据中心、智能计算中心、超算中心在枢纽节点部署。支持数据中心集群与新能源基地协同建设,推动算力基础设施与能源、水资源协调发展。加强本地数据中心规划,合理布局区域性枢纽节点,逐步提升智能算力占比。鼓励企业发展算力云服务,探索建设全国或区域服务平台。6.2023年9月,上海市人民政府发布的《上海市进一步推进新型基础设施建设行动方案(2023-2026年)》中提到“支持有关创新平台牵头建设自主可控智能算力重大科技基础设施,打造基于自主可控通用人工智能芯片、的超大规模智能算力集群”。。7.2024年3月,上海市通信管理局等11个部门联合印发《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)》提出,到2025年,本市智能算力规模超过30EFlops,占比达到总算力的50%以上。算力网络节点间单向网络时延控制在1毫秒以内。智算中心内先进存储容量占比达到50%以上。2024年6月,上海市副市长陈杰介绍2024世界人工智能大会暨人工智能全球治理高级别会议筹备进展情况时指出,在智能算力方面,上海将全力以赴建设高性能智能算力基础设施,通过支持重点区域建设规模化商用智算能力,加快助推大模型及垂类模型创新发展。三.目的意义(标准制定的必要性)1.与国家和本市政策、战略、规划符合性在全球化的科技竞争中,智能算力已成为衡量一个国家科技实力和综合竞争力的关键指标。该标准的制定,对于增强我国智能算力的自主创新能力和安全性具有至关重要的作用。通过这一规范,我们可以确保关键技术自主研发,减少对外依赖,保障国家信息安全和网络安全,从而在国际舞台上占据有利地位。此外,该标准的制定有助于加速国内智能算力技术的研发和应用,推动算力资源的高效利用,为国家的数字化转型和智能化升级提供坚实的技术支撑。长远来看,这将为我国在全球科技竞争中赢得更多的话语权和影响力,维护国家安全和战略利益。2.拟解决的主要问题国内科技公司加速AI芯片自研,在单芯片峰值算力、多精度计算能力、视频编解码能力、大规模并行训练等某个或几个维度取得了较大的突破,然而在硬件产品综合性能和产业链生态架构方面存在与国外先进AI芯片厂商差距较大、技术架构路线多样化、生态兼容性程度较低等问题,致使AI芯片的总体国产化率不足10%。为解决上述问题,需要针对国产AI芯片的技术路线特色和当前的发展阶段,制定适合国产AI芯片的大规模智算集群的评估方法和标准,进而更加科学合理的评估国产AI芯片智算集群的实际水平,并能有效反馈给国产AI芯片厂商,促进厂商在设计生产、生态兼容等方面进行动态修正,最终有效解决国内高端算力的“卡脖子”问题。3.满足哪些实际需求支撑自主可控的超大规模智能算力集群建设前期验证及选型测试工作。本标准的制定,为建设自主可控智能算力重大科技基础设施提供适配、测试、验证提供方法和规范,包括构建面向国产AI算力环境验证集群、针对多款国产算力芯片开展国产算力评估测试、场景迁移验证等多项工作。支撑基于光互连的国产AI算力集群大模型并行加速技术测试与研究。本标准的制定,为基于光互连的国产AI算力集群大模型并行加速技术奠定基础,支持张量模型并行度达到16或更高,在进行大规模机器学习模型训练时,可以大幅提高并行计算的效率,缩短训练时间,提高资源利用率。促进国产芯片技术的快速迭代和升级。本标准的制定,有效引导国产AI芯片厂商开展高性能通用芯片和低时延、高能效专用芯片研发,积极引导智算中心应用国产人工智能芯片,加快提升人工智能算力供给的国产化率,推动自主可控硬件算力生态建设,促进国产芯片技术的快速迭代和升级。4.对政府监管、行业规范、产业发展所起的支撑作用基于国产AI芯片的大规模智算集群评估规范,对于提升国产AI芯片技术水平、完善产业生态、推动AI技术应用和人才培养等方面都具有重要的战略意义。有助于加速国产AI芯片的技术创新和产业化进程,为我国在全球AI技术竞争中占据有利地位提供有力支撑。有助于缓解算力短缺,通过提供标准化的测试服务,帮助企业快速定位问题并改进产品,从而提升算力供应能力。有助于打造“国产化”算力生态底座,构建自主可控智能算力生态,服务重点企业的大模型训练需求。5.属于对本市创新技术、先进模式的总结与推广等本标准的制定,可支撑重点保障的通用大模型及部分垂直领域大模型的创新发展,有效促进国产化大模型在国产化算力上的应用落地,通过提供高性能计算支撑、确保软硬件的深度兼容和自主可控性,构建起安全可靠、高效协同的技术生态,实现从研发到应用的全链条自主化,增强数据安全性和产业竞争力,进而推动人工智能技术在各行业的深度融合和应用,加速上海向具有全球影响力的科创中心迈进。四.范围和主要技术内容本标准规定了基于国产AI芯片的大规模智算集群测试的主要测试指标、测试方法以及具体的测试流程。本标准为构建和应用高效、安全的基于国产AI芯片的智能算力集群提供了全面的标准化测试框架,,旨在确保国产AI芯片智算集群的精度、性能、稳定性,同时促进国产AI芯片生态技术创新和行业健康发展。通过为各类市场主体提供明确的技术要求和评估准则,本标准不仅增强了用户对智算服务的信心,也为监管机构提供了监督和审查的依据,推动了智能算力技术的标准化、国际化进程。本规范拟定义的主要技术内容提纲:范围规范性引用文件术语和定义缩略语测试指标:定义基于国产AI芯片的大规模智算集群的测试指标,包括精度、稳定性、性能等,并给出对应的测试指标计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论