Platform GPFS 技术指标_第1页
Platform GPFS 技术指标_第2页
Platform GPFS 技术指标_第3页
Platform GPFS 技术指标_第4页
Platform GPFS 技术指标_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选文档1. 项目工作内容2.1 Platform技术指标高性能计算中心高性能计算平台运行管理系统包含作业管理、数据管理、运行状态分析、图形显示及系统管理等功能,需要全面支持高性能计算平台管理中的各个方面,包括针对一般用户的作业提交、作业调度、数据管理、图形显示,以及针对管理员用户的集群运行状态分析、系统管理、报表生成等功能,全部功能需要能够通过网页扫瞄器访问方式实现。高性能计算云平台运行的常用计算软件,包括Fluent、dyna、fastran、nastran、Feko、CST、Matlab等以及基于MPI的自研软件等。满足不少400个CUP务器、2个IO节点,* 加速工作站的集群资源调度安

2、排,能够满足10时使用该平台。高性能计算中心高性能计算平台运行管理系统及并行文件系统为成熟商业(非OEM)版软件,产品具有独立学问产权。厂家应具备多年以上行业阅历,能够供应持续的产品开发和技术支持服务;在多行业拥有成功应用案例,至少两个一百万亿次计算力量高算项目阅历,并提交实际应用案例及证明材料。要求厂商具有优秀的本地解决方案团队,包括软件架构师、软件开发人员和软件测试人员等,并可以依据用户的需要供应整体解决方案以及相应的用户化开发。要求厂商具有强大的本地技术支持团队,包括一线技术支持、二线技术支持(源程序级问题调查)和软件维护团队(供应源程序级的问题解决方案)。2.2 技术指标1)资源调度与

3、作业管理系统a)支持将全部的高性能计算平台硬件和软件资源组成一个统一的集群,实现使用、管理和维护的一体化;b)支持对集群进行扩展,包括硬件资源的扩充与软件资源的扩展;c)可以管理用户自定制的静态和动态资源,可以用于调度系统的资源匹配,比如磁盘空间,操作系统类型,应用程序许可证等;d) 支持多种调度算法,供应先来先服务、优先级抢占、公正共享、节点资源独占等多种调度策略,要求供应具体的调度策略配置说明文档。e)供应节点和队列的管理功能,供应开启和关闭功能。供应作业的把握,杀死,刮起,停止,连续,转变作业排队挨次等。并供应邮件通知机制,向用户和管理员供应作业状态报告。f)供应多级管理授权:能够供应不

4、同级别的管理员机制,集群管理员,队列管理员,用户组管理员;队列管理员可以修改队列的调度策略配置,并可以把握所管理队列中的作业状态;用户组管理员可以管理用户组内全部成员的作业;g)容错性:主节点发生错误时,候选节点可以快速自动切换为主节点连续供应服务;在网络或节点故障时,调度系统不能检测到运行在该节点上作业的状态时,系统可以在其他节点上自动重新运行作业;调度系统可以捕获作业的退出码,并可以依据作业的退出码触发不同的错误恢复机制;h)支持在线命令行修改系统配置,无需重新提交作业。2)WEB门户a)支持中英文界面自适应切换;b)供应如下功能:用户授权管理;集群监控(监控集群负载、可用资源、机器状态、

5、作业分布等);集群可视化仪表盘;报表统计功能,能查看许可证的历史使用效率分析报告和实时使用信息;作业监控(全部运行作业的监控和管理);基于Web的远程系统管理(如登陆系统运行系统管理命令等);c)基于Web的作业管理:基于应用程序的作业提交页面,每种应用程序应供应有针对性的选项、参数和挂念页面,便利用户使用;可以持续追踪作业状态并对自己的作业进行各种操作;作业数据管理,提交作业时可指定输入数据,数据可以放在服务器上,也可以放在扫瞄器端。用户可以通过Web查询和管理作业相关的数据,如输入数据、中间结果和最终结果;上传本地数据窗口支持多个文件批量选择并上传;d)Web上支持X Window图形交互

6、:在扫瞄器上实现基于X Window的应用程序图形交互,如:Fluent、Fastran等程序作业启动后其相关的图形用户界面可以通过Web显示,供用户查看计算曲线,或交互把握等,禁止用户进行非工程软件的操作;e)Web上应用集成:支持在Web上与各种应用便利地集成,为用户供应便利的接口;管理员可以通过WEB界面进行应用程序的集成;支持所见即所得的应用模板定制方式;可以直接在在WEB编辑后台的批处理脚本文件,并保存,文本显示支持多颜色富文本方式;f)WEB可定制:允许用户设置多种角色,把握WEB页面可见性和可操作性;允许用户基于WEB供应接口和脚本进行定制开发和应用集成;允许用户定制开发在线生效

7、,无需中断用户访问;g)可按需求集成远程三维或者二维可视化工具HP RGS, NICE DCV,EOD,VNC等集成,进行远程图形工作站的多用户共享;h)供应基本的资源使用报表,在线作业状态报表,节点状态报表,吞吐量统计,多集群作业转发统计,性能分析数据等;i)用户角色把握:管理员可以通过角色定义来管理用户对应用程序和资源的访问;j)数据管理:支持同时选择多个(非压缩方式)数据文件上传到集群,便利用户进行作业数据的使用和管理。3)检测与报表a)资源监测,支持细粒度的呈现资源使用状况和效率,支持分项目组、分许可证组、分应用程序组合作业组各个级别来统计资源的使用率和作业资源占用状况、作业吞吐率、等

8、待作业、CPU等资源利用率,用户能拖拽式的显示某一细小时间段的实时状态;b)作业监测,支持以节点、节点组、项目组、作业组等等方式查看作业的执行状态和资源使用统计信息;c)用户监测,能监测用户在集群中的各种使用资源的行为;d)报表信息,能按时段的生成所需统计报表,统计用户、节点、作业组的某时间段内的在集群内的状况;e)供应许可证资源实时监测,查看许可证服务器状态,许可证明时占用状况和许可证使用效率,生成许可证使用报表;f)供应系统日志跟踪,报警功能,能使管理员准时发觉系统问题;g)供应应管理员远程ssh接口,管理员可以通过监控界面直接登录远程机器的ssh界面进行节点的维护和管理。4)许可证调度管

9、理a)许可证可预约:应用程序启动前,可预约程序所需的许可证,避开相互冲突;许可证抢占式调度:高优先级的作业可抢占低优先级作业正在使用的许可证,而低优先级作业将被挂起直到有许可证可用为止;b)许可证全部权把握:用户可保留自己的许可证,确保需要时能马上获得所需要的许可证;c)使用份额把握:每个用户可使用所安排的许可证份额。使得许可证在不同项目组之间进行按份额的共享或公正竞争;d)支持智能识别集群应用程序许可证调度内外的资源使用量识别和把握。5)应用程序支持a)支持对Fluent、dyna、fastran、nastran、Feko、CST、Matlab等常用软件的集成;b)支持大型的OpenGL的3

10、D应用,支持一般图形的2D应用;c)后续新增的商用软件集成,厂商应赐予准时的响应(24小时以内);d)支持对自研软件的集成;e)接口开放,便利用户自定义软件集成。6)其他a)管理系统构架独立,支持多个厂商的硬件,扩展性好;b)支持用户、部门、项目使用指定的资源,支持应用程序使用指定的资源;c)并行作业任何一个节点失效,不能导致整体作业紊乱;d)系统具有断点续算功能;e) 能跟踪每一个作业的运行及其状态变化,保证作业永不丢失,在系统出错状况下,能重新恢复作业状态;f)支持作业计算过程中的图形界面交互操作,禁止用户在交互式窗口进行非工程应用软件的系统操作;g)保证在用户按指定的份额使用公正合理地使

11、用计算机资源;h)非交互式作业中用户可以通过web门户了解计算过程信息、报错信息;i)实现门户与用户现有的身份认证系统集成,实现统一身份认证和单点登录;j)依据用户的要求进行门户主界面风格的定制;k)支持系统状态监控,能够提示如文件系统故障、操作系统空间满、设备挂载问题等,全面监控系统软硬件运行状态,自动记录故障;l)仅向系统管理员开放SSH连接端口;m)对于一般用户进行有针对性操作培训;n)对于管理员进行针对性系统维护和故障排查培训。5)并行文件系统序号技术指标要求1. 品牌接受商用软件产品,非开源软件,并可供应原厂技术支持服务。2. 总体要求1) 支持多级存储设计:第一级为高速存储;其次级

12、为大容量硬盘存储;一级存储和二级存储被单一文件系统管理,统一命名空间。2) 支持Linux、Windows和AIX操作系统。3) 每个存储节点可同时供应一、二级存储;支持多通道,并实现负载平衡和容错功能;具有在线扩展力量。4) 保证用户的数据和应用软件不用修改就可以运行在分布式文件系统上,分布式文件系统必需支持原生的锁机制并接受POSIX 锁;供应统一的命名空间,满足POSIX规范。6) 支持在线扩展,可扩展存储节点或者存储设备,对应用透亮。3. 可用性、平安冗余要求1) 可用性要求:系统整体可用性99.99%。2) 冗余性要求:全套系统关键部件接受全冗余设计,系统各部安排置均不存在任何单一故

13、障失效点。单个存储节点失效不会导致数据丢失;单节点故障对应用透亮,不影响应用的正常数据读取;全部节点之间,中断任意一个链路都不影响系统运行。 3) 支持文件系统在线升级。4. 性能要求存储性能要求:供应持续读写性能1GB/s;单节点最大吞吐量500MB/s(非cache),系统各部安排置均衡合理,没有性能瓶颈。5.功能要求1) 本文件存储系统中的元数据分布式存放,防止消灭元数据访问瓶颈。假如本文件系统需要独立的元数据服务器,需另配,其性能不能成为瓶颈,并且不行存在单点故障。2) 本文件系统同时支持多种链路协议,如Infiniband,10Gb以太网,40Gb以太网等。3) 若接受Infinib

14、an或者Converged Ethernet设备,则数据传输支持RDMA协议。3) 本文件存储系统能做到故障恢复时间小于10分钟/T Byte。故障恢复要对应用透亮,不影响应用正常运行。4) 本文件系统必需供应快照功能,支持对整个文件系统或单个名目设置快照。5) 本文件系统必需供应用户权限管理、配额管理功能;并支持在线对协作进行设置。6) 文件系统供应集群NFS或者SAMBA协议导出。3 .设备配置清单设备配置如表1所示。表1 设备配置清单序号名称数量单位备注1高性能计算作业调度,管理软件平台1套4. 系统安装与调试要求乙方供应设备清单所列的产品及其相关的技术手册、产品合格证和产品说明书,并向

15、甲方确认保修条款。甲方将依据清单所列明细项目,对乙方供应的产品进行验收,并签署验收报告。货物的安装,调试由乙方负责。在接到甲方通知后,乙方将派专业人员在三个工作日之内,到达用户现场进行安装、调试。现场安装时,乙方特地讲授系统的安装和维护,并在两周内安装调试完成。5. 验收当乙方负责的设备安装工作结束后,甲方依据有关规定签署安装调试报告,确认系统安装工作的完成。乙方须向甲方供应(或者会签)下列文件:1)使用说明书、图样、图册、软盘等随机文件(乙方供应);2)安装调试记录(乙方供应)。6. 技术支持与服务6.1 技术支持乙方为本次项目供应技术支持服务方式满足用户需求,服务的范围及内容包括:表2 技

16、术服务清单项目服务具体说明指派专人负责的客户代表工程师乙方指派专人作为客户代表工程师负则系统运作与技术服务,协调软件所需资源,支配走访工作、保证本系统能够在规定的服务及响应时间内得到相应的技术支持服务。系统集成及保修服务对于本项目的软件,乙方将供应三年集成及保修服务。在保修期期间,当系统需要集成新软件或消灭故障时,乙方将供应7×24小时内快速的响应。热线电话支持服务经乙方授权的用户技术人员可将软件故障或技术询问服务恳求通过乙方的技术支持响应热线电话,或以传真和电子邮件的形式报告给支持工程师,并可要求在2小时内打回电话(假如是在工作日内)或于下个工作日内以电子邮件文字方式回复。非工作时间内,用户技术人员可电话联系到指定的客户代表工程师回复服务恳求。支配系统运行及服务状况回顾与访问指派的客户代表工程师负责了解用户系统及环境配置,并可供应远程支持,确保本系统支持服务的满足度。乙方委派特地技术工程师对本系统供应以下服务:对指定的软件系统做定期的维护,包括系统诊断、检测系统软件的性能,对有潜在问题的分析,提出系统优化解决方案,并进行具体的工作记录,以做到系统信息文件化。每年进行一次本系统运行状况的总结与回顾,内容可依据双方的协商而打算,主要是为挂念本系统解决在使用过程中遇到的软件故障及性能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论