高性能计算系统 管理监控平台技术要求_第1页
高性能计算系统 管理监控平台技术要求_第2页
高性能计算系统 管理监控平台技术要求_第3页
高性能计算系统 管理监控平台技术要求_第4页
高性能计算系统 管理监控平台技术要求_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1信息技术高性能计算系统管理监控平台技术要求本文件规定了高性能计算系统的管理监控平台的技术要求,包括管理监控平台对高性能计算系统管理的功能、性能要求。本文件适用于高性能计算系统管理监控平台的设计和开发。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。SJ/T11647信息技术盘阵列接口要求3术语和定义3.1术语和定义SJ/T11647界定的以及下列术语和定义适用于本文件。3.1.1高性能计算机highperformancecomputer由成百上千、上万个处理器单元、加速处理器单元、存储单元,通过高速网络互联并行工作,组成的具有超强计算能力的超级计算机。注:广义上泛指解决大型复杂任务的计算工具。3.1.2高性能计算系统highperformancecomputingsystem3.1.3高性能计算系统管理监控平台managementandmonitoringplatformforthehighperformancecomputingsystem对组成高性能计算系统的硬件、系统环境、应用及作业的运行状态进行监控、报警、管理和调度的软件。注:是高性能计算系统的运行维护软件。3.2缩略语2下列缩略语适用于本文件。CPU:中央处理单元(器)(CentralprocessingUnit)HPC:高性能计算(HighPerformanceComputing)IO:输入输出系统(inputoutput)OS:操作系统(OperationSystem))PCE:并行编译环境(ParallelCompilerEnvironment)PFS:并行文件系统(ParallelFileSystem)RAID:廉价(或独立)磁盘冗余阵列(RedundantArrayofInexpensive(orIndependent)Drive)SSH:安全外壳协议(Secureshelly)SNMP:简单网络管理协议(SimpleNetworkmanagementProtocol)4概述4.1高性能计算系统由高性能计算机上加载操作系统、并行编译环境、并行文件系统、科学计算应用构成。图1为高性能计算系统示意图。图1.高性能计算系统示意图4.2高性能计算系统管理监控平台功能模块(与图2对应)高性能计算系统管理监控平台功能模块包括资源管理、监控管理、报警管理、系统管理、作业管理、记账系统、应用管理几个功能模块。图2为高性能计算系统管理监控平台功能模块组成示意图。3图2.高性能计算系统管理监控平台功能模块组成示意图5功能要求5.1一般要求应满足以下要求:a)应具有对异构软硬件资源进行统一监控报警能力;b)应具有对HPC系统上进行串行、并行、批处理作业的作业管理调度能力;c)应具有对HPC系统进行系统部署、应用部署和系统管理的能力;d)应具有支持动态添加监控项、支持在线功能升级;e)应具有动态扩展计算、存储、网络单元的能力;f)应提供标准的SNMP访问和传输接口,以利于被其他运维系统的集成。5.2监控5.2.1统一监控对计算单元、存储单元、网络单元等所有部件统一呈现,以机柜为单位呈现各部件的物理位置、名称、识别ID、状态以及呈现HPC系统的整体的计算、内存、IO能力和使用状态、拓扑结构。对机柜和机柜内的各个设备按照当前运行状态实时地用相应颜色来表示。5.2.2硬件监控应具备以下功能:a)对计算单元、存储单元、网络单元监控如下静态信息:设备名称、IP地址、操作系统类型和版本号、CPU型号、主频、缓存大小、内存大小、内存频率、磁盘ID、类型、接口、转速、RAID级别、空间大小、IO设备型号、设备名称、厂商、端口数量、协议类型、带宽等信息。(包括但不限于以上静态信息,监控项可以动态添加);b)对计算单元、存储单元、网络单元监控如下动态信息:设备状态、CPU利用率、物理内存占用率、网络流出字节/流入字节、数据包丢包率、磁盘IOPS、读写带宽、CPU温度、散热风扇的转速、电源供电等信息。(包括但不限于以上静态信息,监控项可以动态添加)。5.2.3应用监控4HPC系统上运行应用的版本等静态信息以及进程的状态、启动时间、运行时间、用户数、连接数等状态信息。5.2.4队列和作业监控应具备以下队列和作业的监控功能:a)监控各队列调度策略;b)监控各队列资源使用状态;c)监控各队列作业数量和运行状态(等待、运行、完成、挂起);d)监控作业的优先级高低;e)监控作业运行时状态和运行结果。5.3报警应具备以下报警功能:a)实时告警:1)硬件:对机柜电源、计算单元、网络单元、存储单元的运行状态的检测告警;2)应用程序:对各种应用软件的运行状态进行检测告警,同时包括操作系统的运行状态告b)历史告警:支持对历史告警的查询(按类别、时间、自定义方式)、统计功能,并可给出统计分布图。c)告警设置:1)提供对告警的阈值的单词、批量设定功能;2)可对告警级别进行设定和调整;3)支持单词、批量地对告警信息进行取消和确认的操作;4)提供告警过滤功能,即根据条件呈现告警;5)提供告警处理建议的编辑功能,当再次发生同类告警,系统直接给出处理建议;6)支持用户自定义告警设置。d)告警归并:对系统关联告警进行归并处理,合成一类告警程序;e)提供短信、邮件以及屏幕闪烁、弹出提示窗口等告警形式。5.4调度具备以下调度功能:a)提供基于优先级、先进先出、作业回填的作业调度策略,以及独占资源的调度策略;b)提供作业投放、停止、删除的操作,可删除队列中已投放的作业,无论其是排队中还是已运c)智能负载功能:根据节点运行状态和作业排队情况,动态调整系统计算资源可用处理器颗数,降低电力消耗;d)一键式作业调度:提供复杂应用工作流,将作业的前中后处理各环节形成调度作业一键提交,直接生成可读的图片或数据。即将作业的算例生成、作业提交、作业调度、作业运行过程监控、作业结果处理的前中后处理形成可一键提交的作业。5.5管理55.5.1系统部署应具备如下功能:a)操作系统自动镜像恢复的功能,包括系统批量镜像恢复功能;b)对计算单元操作系统的远程单机、批量部署功能,包括对原有设备的恢复和新增设备的部署;c)对计算单元系统的单机、批量更新功能。5.5.2应用部署应具备如下功能:a)对计算节点应用软件单机、批量上载、安装的功能;b)对计算节点应用程序配置文件的单机、批量更新功能;c)对应用程序的自动重启功能。5.5.3系统管理应具备如下功能:a)对计算单元单机、批量脚本的执行功能;b)对计算节点的操作系统批量更改用户名和口令的功能;c)能按照物理的机架拜访位置布局,提供添加、修改和删除机柜、计算单元、网络单元、存储单元的操作。5.5.4远程管理应具备如下功能:a)对于计算单元设备,应提供远程单机、批量开机、关机、重启功能;b)提供远程文件上传下载和SSH登录的功能;c)对存储单元和网络单元,提供远程管理功能,以对其进行配置更改和故障维护。5.5.5应用模板应具备如下功能:a)提供HPC应用领域常用应用的应用模板,模板中有关于应用运行的建议参数及配置;b)支持用户通过自定义方式定义模板。5.5.6报表管理具备以下数据统计功能:a)计算节点的CPU使用率月度趋势报表;b)计算节点内存利用率月度趋势报表;c)磁盘空间使用量报表;d)应支持自定义报表,对监控数据进行分类统计与报表生成。6性能要求管理监控平台应满足如下性能要求:a)支持系统CPU处理器数量应达到千颗级以上,CPU核数应达万级核心以上,实现用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论