超算服务器集群系统需求说明_第1页
超算服务器集群系统需求说明_第2页
超算服务器集群系统需求说明_第3页
超算服务器集群系统需求说明_第4页
超算服务器集群系统需求说明_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超算服务器集群系统需求说明序号具体技术(参数)要求1一、背景及配置要求(一)背景随着国内外计算生物学和生成式人工智能在畜牧和兽医领域的应用发展,需要更强大的处理器芯片和GPU芯片。研究所当前超算算法依靠对ChatGLM和Liama2等大模型的微调,上述微调母程序是基于Nvidia芯片和Intel芯片开发,且上述算法需要在IntelXeonPlatinum8358P处理器及以上和NVIDIAA40显卡及以上高性能计算显卡支持下运行,综合考虑性价比、系统兼容性和后续研究开展所需,因此,本采购的超算服务器集群要求选用X86架构服务器(采购人现有架构)产品。采购人在本采购进行之前,已经在研究所搭建了“1+3”架构的超算服务器集群,该集群为Lenovo的IBM超算服务集群系统,该集群系统通过Lico管理系统进行集群之间用户管理、计算资源和任务的分配、以及计算安全的监控和保障。本次采购的超算服务器集群纳入Lico管理系统内或兼容Lico平台并购买相应软件许可,将在每台计算节点增加Lico管理密钥服务,并完成实施交付。(二)配置要求1.计算服务器:4台X86架构服务器,实现HPC计算性能。2.GPU服务器:4台X86架构服务器,实现HPC图形计算性能。3.存储管理服务器:1台,实现并行文件存储及缓存功能。4.并行文件存储:1台,HPC中用于存放、读取数据使用。5.IB交换机:1台,用于HPC项目低延时交换功能。6.调度软件:1项。7.售后服务、实施服务要求:1项。二、技术参数(一)计算服务器参数要求:序号项目要求1规格2U机架式服务器。2处理器2颗CPU,主频≥2.6GHz且≥32核,L3缓存≥48MB,最大可支持至40核270W处理器。3内存配置≥512GBTruDDR43200MHz,支持ECC。最大支持≥6TB内存扩展或最大支持32根内存插槽。4硬盘配置≥2块480GBM.2SSD固态硬盘;最大支持40个硬盘扩展;支持前置直连12个U.2NVMeSSD硬盘;支持2个后置7mm硬盘(SATA/SAS/NVMe);支持内置两个M.2且支持RAID0/1;提供ANYBAY技术可切换SAS/SATA/U.2硬盘不用更换背板,最大支持32个NVMe硬盘及VROC阵列。5阵列卡支持0/1/10/5/50RAID级别。6IB卡配置1张ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI适配器。7网卡配置1张4口1000M网卡,支持一个专用的OCP3.0SFF接口。8电源配置电源输出功率≥1600W电源,1+1热插拔冗余电源,支持240V高压直流。9冷却系统支持6个冗余热插拔系统风扇。10I/O扩展最大支持9个PCIe插槽,包括一个专用的OCP插槽和8个PCIe4.0标准插槽,另可支持一个Raid卡专用插槽,可选内置的故障诊断面板。11服务不低于3年7x24X4小时保修服务,全国部分城市宕机4小时上门服务,提供服务包括但不限于:原厂上架安装或系统安装服务,原厂≥3年故障硬盘免回收服务,原厂硬盘数据丢失拯救服务;为保证设备的可靠性的其他服务。(二)GPU服务器参数要求:序号项目要求1规格2U机架式服务器。2处理器2颗CPU,主频≥2.6GHz且≥32核,L3缓存≥48MB,最大可支持至40核270W处理器。3内存配置≥512GBTruDDR43200MHz,支持ECC。最大支持≥6TB内存扩展或最大支持32根内存插槽。4硬盘配置≥2块480GBM.2SSD固态硬盘,最大支持40个硬盘扩展,支持前置直连12个U.2NVMeSSD硬盘,支持2个后置7mm硬盘(SATA/SAS/NVMe),支持内置两个M.2且支持RAID0/1,提供ANYBAY技术可切换SAS/SATA/U.2硬盘不用更换背板,最大支持32个NVMe硬盘及VROC阵列。5阵列卡支持0/1/10/5/50RAID级别。6网卡本次配置4口1000M网卡,支持一个专用的OCP3.0SFF接口。7GPU卡本次配置2张GPU显卡:FP32(TFLOPs):37.4Tflops,TF32(TFLOPs):74.8|149.6Tflops,内存:48GbGDDR6,内存带宽:696GB/s,电源:300W。8IB卡≥1张ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI适配器。9电源配置电源输出功率≥1600W电源,1+1热插拔冗余电源,支持240V高压直流。10冷却系统支持6个冗余热插拔系统风扇。11I/O扩展最大支持9个PCIe插槽,包括一个专用的OCP插槽和8个PCIe4.0标准插槽,另可支持一个Raid卡专用插槽,可选内置的故障诊断面板。12服务不低于3年7x24X4小时保修服务,全国部分城市宕机4小时上门服务,提供服务包括但不限于:原厂上架安装或系统安装服务,原厂3年故障硬盘免回收服务,原厂硬盘数据丢失拯救服务;为保证设备的可靠性的其他服务。(三)存储管理服务器参数要求:序号项目要求1规格2U机架式服务器。2处理器两个12核2.1Ghz18M三级缓存,最大可支持至40核270W处理器。3内存配置≥128GBTruDDR43200MHz,最大支持≥6TB内存扩展或最大支持32根内存插槽。4硬盘配置2块≥480GB热插拔2.5寸SSD固态硬盘,4块3.84TNVMESSD固态盘,最大支持40个硬盘扩展,支持前置直连12个U.2NVMeSSD硬盘,支持2个后置7mm硬盘(SATA/SAS/NVMe),支持内置两个M.2且支持RAID0/1,提供ANYBAY技术可切换SAS/SATA/U.2硬盘不用更换背板,最大支持32个NVMe硬盘及VROC阵列。5阵列卡支持0/1/10/5/50RAID级别。6网卡配置4口1000M网卡,支持一个专用的OCP3.0SFF接口。7SAS卡配置1张≥12GPCISAS卡+SAS线缆。8IB卡≥1张ConnectX-6HDR/200GbEQSFP561端口PCIe4VPI适配器。9电源实配电源输出功率≥1600W电源,1+1热插拔冗余电源,支持240V高压直流。10冷却系统支持6个冗余热插拔系统风扇。11I/O扩展最大支持9个PCIe插槽,包括一个专用的OCP插槽和8个PCIe4.0标准插槽,另可支持一个Raid卡专用插槽,可选内置的故障诊断面板。12服务不低于3年7x24X4小时保修服务,全国部分城市宕机4小时上门服务,提供服务包括但不限于:原厂上架安装或系统安装服务,原厂3年故障硬盘免回收服务,原厂硬盘数据丢失拯救服务;为保证设备的可靠性的其他服务。(四)并行文件存储参数要求:序号项目要求1控制器冗余双控制器架构,控制器为双活工作模式,可支持FC、iSCSI、SAS协议。2数据缓存≥64GB(不含任何性能加速模块或NAS缓存、FlashCache、PAM卡,SSDCache等),本次配置要求≥64GB。3磁盘双控最大可扩充磁盘数≥192,支持SAS、NL-SAS、SSD盘,支持不同容量、不同类型的磁盘混合安装,本次配置12T7.2KSAS硬盘≥12块。4RAID种类支持多种工业标准RAID存储方式混用,包括单盘失效、双盘失效保护技术,包括RAID0/1/10/5/6/及动态磁盘池(RAID⒉0)技术。支持RAID组动态扩展,在线升级等。要求存储设备支持全局动态热备技术。在配置RAID2.0时,磁盘热备功能通过磁盘剩余空间实现。满足多块盘(大于3块盘)非同时故障时,数据依然安全可用。无需占用单独热备盘。5二级缓存技术支持SSD盘的智能二级缓存加速技术,可以将SAS、NL-SAS上的热点数据自动缓存至SDD盘,实现热点数据的加速。6前端服务器接口配置4个12GSAS端口;最大支持12个10Gbps以太网口或8个25Gbps以太网口或12个16GbpsFC接口或8个32GbpsFC接口或8个12GbSAS端口。7后端磁盘接口双控≥4个12GbpsMiniSAS端口。8存储快照与克隆复制提供存储快照与克隆复制功能,支持针对主流应用(如:Oracle、SQL、Exchange、SAP等)和虚拟化环境(如VMware、Citrix、Hyper-V等)。9精简配置具有精简配置功能,提高存储利用率。10设备兼容性支持业界平台(包括但不限于Windowsserver、VMware)。11数据快照最大snapshot配置数量≥256个。12数据分层支持SSD缓存、支持数据自动分层,可设置灵活策略,在不同存储层间进行数据移动。13数据压缩支持在线自动压缩。14数据迁移支持信息生命周期管理,可根据策略自动迁移或备份数据。15远程同步支持和远程存储系统主动数据同步。16QoS支持IO的QoS。17I/O协议支持多种I/O协议:POSIX、NFSv4、SMBv3.0、支持OpenStackCinder(block方式)、OpenStackSwift(object方式)、S3(object方式)。18并行文件系统配置商业并行文件系统,并提供所有服务器端和客户端使用授权。19客户端支持支持原生的Linux、windows客户端。20文件系统功能提供客户端数据缓存与预读功能:支持在客户端内存中记录最近的I/O,减少访问磁盘的次数。21支持客户端SSD缓存。22支持海量小文件读写,每个文件系统最多2的63次方个文件。23提供访问模式识别以深度预取功能:支持检测并可识别数据访问模式如顺序访问,随机访问,模糊顺序访问(fuzzysequential)或者步进式访问(strided),进行并行预取,减少重复性磁盘I/O以提高性能。24提供分布式的元数据和令牌管理功能:独立的元数据通道和文件数据通道;支持数据和元数据多份拷贝,且拷贝个数可设置;支持任意节点都可以承担任意角色功能,确保无单点故障,所有节点都可以处理数据和元数据操作。25提供文件系统日志功能:记录所有文件系统的操作,保护文件系统数据不被失效节点或者错误状态节点所更改。26提供数据复制(镜像)功能:支持文件或者文件系统级别镜像,简化用户对数据安全的操作,远程缓存及容灾支持。(五)IB交换机参数要求:序号项目要求1规格HDR200Gb/s全线速交换机。2数量根据节点数量和网络需求自行评估。3端口单个交换机≥40个HDR端口。4IB线缆配置所需的Infiniband线缆,要求提供与IB交换机同厂商的原厂线缆配套使用。(六)调度软件参数要求:序号项目要求1知识产权商业版集群管理与调度软件,授权覆盖本项目所有服务器,需提供计算机软件著作权登记证书。投标人需承诺在本项目采购合同签订后的6年内,额外提供≥200个计算节点的集群管理软件客户端的永久授权,并提供安装手册。2WEB界面支持用户通过WEB浏览器GUI方式使用集群系统,提供用户门户系统和运维管理门户系统。支持并发用户数≥10个。3调度系统特性支持GPU调用。命令行支持SLURM基本命令,并提供JSON命令行接口。支持先进先出、公平分享、优先级、基于优先级的抢占等调度策略。支持最新分布式人工智能框架和工具。4管理计费支持管理员通过WEB浏览器GUI方式进行管理计费。支持不同组织设置不同的CPU、GPU计费费率,支持设置余额阈值和计费周期。5账单查询支持用户通过WEB浏览器GUI方式进行账单查询。支持查看消费总额、月/周账单总额、趋势图,以及按作业、用户、组织维度查看账单。(七)售后服务、实施服务要求:序号项目要求1硬件质保提供硬件3年及以上质保。2硬件设备维修与更换的时间不超过48小时。3现场服务4小时内上门,48小时内到达现场。4技术支持提供热线电话,并设置专人为用户提供7×24小时响应服务。5在4小时内与采购人电话联系,对于电话咨询解决不了的问题,经采购人授权可通过Internet远程登录到采购人网络系统进行故障诊断和故障排除。如果通过上述方式不能解决问题,需委派技术人员将进行现场响应并在48小时之内提供解决方案。(其费用已包含在投标报价中)6在现场服务年限内,每季度技术工程师将回访采购人不少于一次,听取采购人的意见,如有需要,并进行现场技术检测和支持服务。7安装及交机服务组建一支专门的技术服务队伍以服务于本项目,该队伍将由系统硬件资深工程师、系统软件资深工程师、系统调优资深工程师等一流技术专家组成。8在设备运抵采购人现场后,技术服务队伍将负责本系统的全部安装、调试,以保证达到应用系统安装所需要的要求。9技术工程师将全力配合第三方应用软件商快速完成系统集成工作。在此期间将协助第三方应用软件商完成各种编译器、并行编程环境、作业调度和应用系统等安装测试和调试。10采购人验收完毕后,将对采购人进行相关的技术培训。11准备和计划会议进行准备和计划会议,确定实施方案和时间表,本次实施服务需要设备生产商原厂安排实施等相关服务,不接受集成商实施,实施项目时需核对工卡及身份证等文件。12管理节点安装和配置安装和配置管理节点,包括RAID配置、操作系统安装、BIOS/UEFI设置、微码更新和群集管理软件安装(xCAT)。13以太网配置和验证配置和验证以太网,确保网络正常运行。14节点RAID配置配置节点的RAID,确保存储系统正常工作。15节点操作系统配置分发操作系统到节点,并配置BIOS/UEFI、微码更新、驱动和软件包更新。16高速网络配置和验证配置和验证高速网络(如InfiniBand或10Gb),并安装相应的软件包(如OFED)。17存储系统配置和验证在管理节点上安装存储管理软件。18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论