阿里云弹性高性能计算_第1页
阿里云弹性高性能计算_第2页
阿里云弹性高性能计算_第3页
阿里云弹性高性能计算_第4页
阿里云弹性高性能计算_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

何万青阿里云高性能计算总监基因研究预测017005011023029100MFlops100PFlopspsTFlopsps100基因研究预测017005011023029100MFlops100PFlopspsTFlopsps100TFlopsps100EFlopsps100GFlops10GFlopsps高性能计算(HighPerformanceComputing)是计算机科学的一个分支。主要聚焦于解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。构建高性能计算系统的主要目的就是提高运算速度,要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度。EFlopsPFlops里云超算阿里云3招拆解超算上云障碍低延迟RDMA50Gb网络阿里云并行文件系统NAS/CPFS(Lustre*)低延迟RDMA50Gb网络阿里云并行文件系统NAS/CPFS(Lustre*)ECS弹性裸金属服务器•无硬件性能/特性损失•硬件隔离/独占超级计算集群SCC•弹性资源•快速服务部署,横向扩展和热迁移•运维自动化•统一服务接口最高配置的单一实例2.0ps50Gb8xv10096核384GB基于Virtualization2.0的ECS弹性裸金属服务器E-HPC控制台一键创建集群WAN客户PC头节点用户与资源管理、作业调度计算节点并行运行HPC作业LAN图形节点图形化的作业前后处理 (可选)文件存储保存作业数据阿里云E-HPC服务超算中心或线下机房远程桌面访问,或直接本地进行前后处理一张图描述E-HPCE-HPC控制台一键创建集群WAN客户PC头节点用户与资源管理、作业调度计算节点并行运行HPC作业LAN图形节点图形化的作业前后处理 (可选)文件存储保存作业数据阿里云E-HPC服务超算中心或线下机房远程桌面访问,或直接本地进行前后处理从传统超算到云超算,将云服务整合为HPC集群客户客户PCEIPAgentAgentAgentAgent客户云上HPC集群EIPAgentAgentAgentAgent客户云上HPC集群登录节点与管理节点图登录节点与管理节点用用户资源管理、作业调度 (可选)AgentVPC计算节点文件存储计算节点并行运行HPC并行运行HPC作业AgentEE-HPC管控服务Region署OpenAPI作业管理弹性伸缩软件部署性能监控资源管理E-HPC环境搭建、部署与使用群开通并创建NAS任务提交和数据导入控制台提交作业命令行提交作业OSS数据导入集谛性能分析工具弹性伸缩和可视化配置自动伸缩服务缩实例低至1折,至少保持1小用时长E-HPC让云超算强大易用AlibabaCloudE-HPC精确到小时的付费粒度时释放VPC服务(虚拟专用网络)PBS/Slurm/GridEngine登录节点GROMACS/LAMMPS/NAMD/GAUSSIAN……管控节点×M交作业低至1折,至少保持1小用时长E-HPC让云超算强大易用AlibabaCloudE-HPC精确到小时的付费粒度时释放VPC服务(虚拟专用网络)PBS/Slurm/GridEngine登录节点GROMACS/LAMMPS/NAMD/GAUSSIAN……管控节点×M交作业看结果虚拟交换机储服务 (共享文件系统)服务 (公网IP)安全组/云盾资源管理作业管理日志报表结果务GNU(gcc/g++/gfortran…)/Autotools(autoconf…)SCC/CPU计算型/GPU计算计算节点×N按周/月/年预付费,长期使用成本大减集群停机不收费单集群支持扩容多种规格计算节点镜像市场与容器:镜像市场与容器:支持镜像市场镜像部署集群,支持HPC容器模式一键启动集群,一键修复异常集群务(对象存储务(对象存储)MPICH/OpenMPI/BLAS/Boost/CUDA…署模式:OneBox模式查看配置清单查看配置清单查查看配置拓扑图SSHSSH登陆提交作业和查看导入/导出作业文件业调度器id对象存储OSS对象存储OSS控制台命令行上传数据通过OSS导入数据wgethttp://e-hpc-quickstart.vpc100-oss-cn-/test.datacurl-Ohttp://e-hpc-quickstart.vpc100-oss-cn-/test.data私用Bucket•临时含签名的URL•通过HTTP访问VPC网络Endpoint导入数据作业运行性能分析:CloudMetrics|集谛集群维度,定位实例热集群维度,定位实例热点函数热点视图进程维度,定位函数热点实例维度,定位进程热点节点性能视图软件进程视图作业进程与函数级•对指定进程进行性能剖析•显示各进程函数堆栈视图,分析函数热点OS级•显示当前Top进程•显示Top进程CPU占用率和内存占用率CPU级•显示CPU总体占用率、用户态和内核态占用率•显示CPU本地内存带宽和总内存带宽磁盘、网络与外设•显示磁盘吞吐率、磁盘利用率•显示网络总吞吐率、入方向和出方向吞吐率•显示GPU带宽、GPU利用率、显存利用率、功耗…•按作业运行检索,按作业周期进行查看•多指标同时间轴显示,可对比分析低性能受益难结构网格,非结构、无结构…CPU型号,核数,网络,文件系统,内SOA低性能受益难结构网格,非结构、无结构…CPU型号,核数,网络,文件系统,内SOA/AOS,负载均衡,并行化,向量化,循环优化(block,unrollandjam,reorder…)…修改源码或可借助编译器进行优化throughput/CPI),指令流水(乱序执行),分支预测…运行环境 运行平台)程序实现CPU微架构客户应用云上优化:优化方法运运行环境 +运行平台)程序实现程序实现CPUCPU微架构2.性能优化的关键是定位性能问题,确定优化点。程序实现CPU微架构程序实现CPU微架构应集群级•层级递进的性能监控工具集群级运行环境 运行平台)运行环境 运行平台)节点级(系统资源饱和度),与作业调度按节点维度,查看指标间的变化关联;按指标维度,查看不同节点间的指标差异。进程级(进程信息),查看节点占用OS时函数级(热点函数),确定占用CPU资源最多的函数信息——bottom-up(热点函数)和top-down(逻辑调用关系)。登录节点与管理节点计算节点用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算节点用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算节点用户资源管理、作业调度并行运行HPC作业基于作业负载的弹性伸缩登录节点与管理节点计算节点用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算节点用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算节点用户资源管理、作业调度并行运行HPC作业作业负作业负载t2,需4个节点,作业1继续运行无新作业提交时间点t1:提交作业1需4个节点运行时间点t0,无作业提交登录节点与管理节登录节点与管理节点用户资源管理、作业调度计算节点并行运行HPC计算节点••E-HPC管控服务监控调度器作业资源需求,动态创建/删除计算节点(数据保留在共享存储),按实际负载弹性计费。•可针对调度器队列制定差异化的伸缩策略,支持抢占式实例,支持跨可用区伸缩,降低客户使用成本。基于作业负载的弹性伸缩弹性伸缩缩容扩容缩容节点连续空闲次数额外节点百分比扩容时间间隔缩节点连续空闲次数额外节点百分比扩容时间间隔缩容时间间隔例外节点列表扩容比例节点数量E-HPC闲时计算方案与混合云将成本作为重要因素的云上计算方案,利用以下技术将云上普惠的高性能计算服务提供给绝大部分HPC用户•抢占式实例:控制计算资源在期望的成本之下•自动伸缩:自动扩容抢占式实例,无需用户干预•断点续算:在计算资源被释放和重新获取之后,作业可以续算•在算例输入文件中设定步长•在作业提交脚本中设定checkpoint文件生成的时间间隔作业后处理作业运行作业后处理作业运行数据全流程可视化作业运行——可视化性能分析•节点性能:按节点查看物理资源性能•进程性能:按进程查看软件运行性能•性能剖析:剖析进程,查看函数级性能数据作作业前处理作业前处理——可视化编辑•调度器配置项可视化•控制台直接作业文件编辑器作业后处理——计算结果可视化•控制台直接提供Web化的图形桌面•支持云图站等多种可视化服务连接实例使用连接实例使用控制台远程可视化创创建实例创建可视化集群创建可视化实例连接实例创建可视化集群创建可视化实例连接实例可视化设置流程创创建计算集群••为连接会话提供token鉴权•每个用户每次会话都有独立的token•关闭连接后失效•管理一个或多个可视化实例•负责实例状态的维护•管理实例连接token生命周期•支持不同硬件配置(CPU/内存/GPU)•桌面型实例:每个实例提供一个远程桌面•App型实例:每个实例提供一个远程App•不同子账号可分配不同实例•实例与计算集群数据互通阿里云阿里云VPCE-HPC计算集群EE-HPC计算集群E-HPC可视化实例数数据共享E-HPCNAS共享存储⑥创建后处理作业能计算集群户访问阿里云控制台③提交作业到调度器、执行HPC工作流与数据迁移⑥创建后处理作业能计算集群户访问阿里云控制台③提交作业到调度器、执行控制流据传输方案控制流数据流⑦下载作业结果数据流⑦下载作业结果硬盘快递上门,适合TB级数据高速通道服务数据中心①上传作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论