信息技术 云计算 云超算通用要求 征求意见稿_第1页
信息技术 云计算 云超算通用要求 征求意见稿_第2页
信息技术 云计算 云超算通用要求 征求意见稿_第3页
信息技术 云计算 云超算通用要求 征求意见稿_第4页
信息技术 云计算 云超算通用要求 征求意见稿_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1GB/TXXXX-XXXX信息技术云计算云超算通用要求本文件给出了云超算服务的参考架构,规定了云超算的通用要求。本文件适用于为云超算服务提供商在云超算服务产品设计、规划、建设、部署和运营等方面提供参考,为第三方机构实施云超算服务能力评估提供依据。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T32399-2015信息技术云计算参考架构GB/T32400-2015信息技术云计算概览与词汇3术语和定义GB/T32399-2015和GB/T32400-2015界定的以及下列术语和定义适用于本文件。3.1超算highperformancecomputing为满足高性能、深度学习或人工智能应用要求而设计、运行、销售和优化的计算系统。[来源:ISO/IEC21836:2020,3.1.24]3.2云超算HPCincloud云服务提供者利用云基础设施向云服务客户提供的弹性、可扩展、多租户的高性能计算服务。3.3集群cluster一组相互独立的、通过高速网络互联、以单一系统的模式加以管理的计算机。3.4作业job使用并行计算方法对预先设定的输入数据进行数值求解、获得计算结果的过程。3.5云服务器cloudserver根据用户需求进行配置、实现快速供应和灵活部署的服务器。3.62GB/TXXXX-XXXX裸金属服务器baremetalserver用于云计算的具备弹性、灵活性、高性能等特点物理服务器。4缩略语下列缩略语适用于本文件。ACL:访问控制列表(AccessControlLists)API:应用编程接口(ApplicationProgrammingInterface)APP:应用程序(Application)ARM:高级精简指令集计算机(AdvancedRISCMachine)CPU:中央处理器(CentralProcessingUnit)FPGA:现场可编程门阵列(Field-ProgrammableGateArray)GPFS:通用并行文件系统(GeneralParallelFileSystem)GPU:图形处理器(GraphicsProcessingUnit)GRE:通用路由封装(GeneralRoutingEncapsulation)HPC:超算(HighPerformanceComputing)IP:网际协议(InternetProtocol)I/O:输入/输出(Input/Output)MPI:信息传递接口(MessagePassingInterface)NFS:网络文件系统(NetworkFileSystem)RDMA:远程直接内存访问(RemoteDirectMemoryAccess)VNC:虚拟网络控制台(VirtualNetworkConsole)VRF:虚拟路由转发(VirtualRoutingForwarding)VXLAN:虚拟扩展局域网(VirtualeXtensibleLocalAreaNetwork)Web:全球广域网(WorldWideWeb)5云超算参考架构云超算参考架构见图1,包括基础资源、资源管理、数据管理、运行时软件栈、作业管理与调度、可视化、运维与监控、安全以及API等。客户可以利用云超算服务快速、便捷地构建和管理HPC集群,运行计算密集型的工作负载(HPC应用),并根据工作负载增加和缩减所需资源。3运维与监控安全可视化运维与监控安全可视化管理可视化性能可视化业务应用API作业管理与调度作业编辑与提交作业弹性伸缩作业并行调度作业工作流编排运行时软件栈传输管理数据管理传输管理数据备份与存储计算资源管理网络资源管理资源管理计算资源管理网络资源管理存储资源管理计算网络基础资源计算网络存储图1云超算参考架构6基础资源要求6.1计算计算资源要求包括:a)应提供虚拟机;b)应提供裸金属服务器;c)应支持云服务器性能提升的功能设置,如超线程、非统一内存访问等;d)应支持使用异构计算资源,如GPU、CPU、FPGA等;e)宜支持使用容器;f)应支持使用异构处理器架构,如X86、ARM。6.2存储存储资源要求包括:a)应提供并行文件系统;b)应支持计算集群直接挂载并行文件系统;c)应支持分钟级创建并行文件系统;d)应支持弹性可扩展功能,支持在线扩容,并提供I/O自动负载均衡能力;e)应具备故障检测能力,并能自动恢复故障;f)宜支持使用对象存储和块存储;g)宜具备故障隔离能力,当计算资源故障迁移后,能够使用原有的系统盘和数据盘;h)应支持数据冗余保护;i)应支持为异构计算平台资源提供存储服务;4GB/TXXXX-XXXXj)应支持文件管理,包括但不限于配额、用户隔离和ACL等;k)宜支持存储加速技术。6.3网络网络资源要求包括:a)应提供低时延网络,如RDMA;b)应支持多用户网络隔离,如VXLAN组网、GRE隧道、VRF隔离等;c)应提供网络流量检测、调度等能力;d)宜支持使用专线网络;e)宜支持网络加速技术;f)宜支持高速网络互联技术。7资源管理要求7.1计算资源管理计算资源管理要求包括:a)应支持并行计算,多机多核并行完成计算作业;b)应支持将并行计算的过程数据和结果数据保存到高性能并行文件系统;c)应支持多集群管理;d)应提供远程登录服务、HPC调度器服务和域账号服务;e)应支持对集群计算节点的增加、查询、删除、停机、启动、重启等操作;f)应支持磁盘挂载和卸载;g)应支持不同的CPU和内存配比;h)宜支持同一集群对两种及以上架构的计算处理器的统一管理,如X86、ARM;i)应支持在集群运行过程中新增节点,将新增节点自动加入到HPC调度器和域账号服务;j)应支持在集群运行过程中删除空闲节点,将被删除节点从HPC调度器和域账号服务中自动删除;k)宜支持对现有计算资源划分队列,并对队列资源进行配额管理和用户权限管理。7.2存储资源管理存储资源管理要求包括:a)应支持并行文件系统的挂载、查询、卸载;b)应支持多种文件系统,如NFS、Lustre或GPFS等;c)应支持自动挂载,并指定并行文件系统的挂载路径;d)宜支持对象存储和块存储的挂载、查询、卸载能力。7.3网络资源管理网络资源管理应:a)提供对公网IP的添加、查询、删除等操作;b)支持节点动态绑定和解绑公网IP;c)支持集群节点之间高速网络互通。5GB/TXXXX-XXXX8数据管理要求8.1传输管理传输管理要求包括:a)应提供HPC作业输入输出文件的远程上传下载和断点续传功能;b)应提供远程数据和目录的查询功能;c)宜支持协议优化、链路优化或路径探测等海量数据传输加速技术;d)宜支持GB级文件传输加速;e)宜支持加速下载非静态和非热点数据。8.2数据备份与存储数据备份与存储要求包括:a)应支持数据备份时不占用计算集群资源;b)应支持数据的全量备份;c)应支持将原始数据和处理后的数据增量备份;d)应支持备份数据恢复;e)宜支持重删压缩。f)应支持不同存储类型的组合,包括但不限于块存储、并行文件存储、对象存储;g)应支持不同存储媒体之间的数据迁移;h)应支持不同存储类型之间自动数据迁移;i)宜支持基于策略的不同存储类型数据迁移。如访问频次、文件容量等;j)应支持对不同类型存储的直接读写;k)应支持配置不同数据清理策略,按配置规则清理不需要的数据。9运行时软件栈要求软件栈集成部署应:a)提供集成并行计算的基础软件环境,如运行时依赖的数学库、通信库或开发调试工具等;b)在创建集群时提供软件环境自动部署;c)提供按需选择和安装软件包;d)支持根据用户选择的硬件资源提供所需的高性能计算软件支撑环境,如MPI库、编译库、数学库、硬件驱动等。10作业管理与调度要求10.1作业编辑与提交作业编辑与提交要求包括:a)应支持作业前处理,包括但不限于计算模型创建、网格划分和环境条件设置等;b)应支持根据作业输入文件并创建多机运行脚本;c)应支持批量提交作业d)应支持删除已提交但未运行完成的作业,已删除的作业不再占用计算资源;6GB/TXXXX-XXXXe)宜支持图形化作业提交交互界面。10.2作业并行调度作业并行调度要求包括:a)应支持Web方式访问HPC集群;b)应支持批量作业调度;c)应支持作业运行状态查询,包括但不限于运行、排队、挂起和结束等状态;d)应支持按作业状态分类展示查询结果;e)应支持多队列调度,每个调度器队列管理不同的计算服务器;f)应支持调度器队列创建、删除和查询;g)应支持按队列设置不同的作业运行优先级;h)应支持按队列设置不同的计算服务器;i)应支持按照调度器队列管理集群计算服务器;j)应支持动态调整服务器所属的调度器队列;k)应支持根据用户可使用的资源为不同用户配置相应的调度器队列;l)应支持针对场景和作业类型的调度算法;m)应支持多种作业类型的混合调度;n)宜支持多种作业调度系统。10.3作业弹性伸缩作业弹性伸缩应:a)支持根据调度器排队情况进行集群规模自动伸缩;b)支持根据调度器中排队作业所需硬件资源情况动态地将计算服务器加入到调度器中并执行作业;c)支持作业运行结束后释放调度器中空闲资源;d)支持根据不同的队列配置参数进行作业自动伸缩,队列配置参数包括但不限于队列最大资源数量、最小资源数量、网络地址段、服务器硬件配置、服务器计费方式等。10.4作业工作流编排作业工作流编排要求包括:a)应支持根据作业执行结果判定是否执行后续作业操作;b)宜支持设置作业重试策略,并根据策略进行作业重试。11可视化要求11.1管理可视化管理可视化要求包括:a)应提供图形界面进行资源管理、数据管理、作业管理、安全管理和运维监控;b)应提供图形界面进行作业前处理;c)应支持使用图形界面查看作业运行结果;d)宜支持图形界面查看作业工作流。7GB/TXXXX-XXXX11.2性能可视化运行数据可视化应:a)支持图表化展示HPC作业运行期间的数据,如硬件性能、进程等;b)支持查看HPC作业运行期间的性能数据,根据作业启动和结束状态的起止时间生成查询结c)支持查看HPC作业运行期间的硬件性能数据,包括但不限于CPU利用率、内存利用率、内存带宽、网络带宽、磁盘带宽和文件系统带宽等;d)支持显示某个作业所有关联计算服务器的性能数据;e)支持按CPU占用率等指标排序;f)支持对进程进行性能分析并生成函数级的性能图表。12运维与监控要求运维和监控应:a)提供对HPC集群节点进行远程运维和管理能力,包括但不限于对节点的交换机和物理机等设备的管控和运维、虚拟化能力监控、实例(或算力)生存周期管理、监控报警、日志收集和日志上报等;b)提供对HPC节点进行监控,包括但不限于实例运行状态、CPU和内存等资源使用情况、存储I/O、网络I/O、物理设备的运行状态和使用情况等;c)提供根据监控信息对HPC节点进行远程运维及日志管理能力;d)支持故障上报;e)支持对集群作业的监控;f)支持对用户计算作业统计及机时统计;g)支持对集群用户资源使用及计算作业的监控;h)支持按时间段生成集群运行状态报表,包括但不限于集群计算节点数量、集群作业数量等。13安全要求安全要求包括:a)应支持用户安全审计;b)应提供数据存储时的机密性保护;c)应提供数据防篡改保护;d)应提供用户身份认证与管理;e)应支持不同实例之间的安全隔离;f)应支持基于用户或用户组划分权限;g)宜支持个人数据文件权限管理;h)宜支持集成对象存储的权限策略。14API要求API要求包括:8GB/TXXXX-XXXXa)应提供集群管理相关接口,例如新建集群、释放集群、启动集群、停止集群或查询集群详细信息等;b)应提供节点管理相关接口,例如新增计算节点、查询节点列表、移除计算节点或启动节点列表等;c)应提供用户管理相关接口,例如查询用户列表、新增用户账号、删除用户账号或修改用户权限组等;d)宜提供作业管理相关接口,例如查询作业信息、重新运行作业脚本、创建作业文件、查询作业列表、提交作业、停止作业或删除作业等;e)宜提供可视化服务相关接口,例如创建可视化服务、删除

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论