超级计算机的现状与发展_第1页
超级计算机的现状与发展_第2页
超级计算机的现状与发展_第3页
超级计算机的现状与发展_第4页
超级计算机的现状与发展_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

超级计算机的现状与发展XXXXXXX摘要:超级计算机的研制受永无止境的探求复杂的物理世界与人类社会本身的应用计算需求的驱动及研制者所处环境(人员、经验、经费等)及当时的可选择的实现使能技术的影响。回顾历史,任何时刻研制的最高性能的计算机总是服务于当时的科学计算的需求(材料模型、药物设计、气候模拟、核武器模拟、电磁学等)或者称是以科学计算为最初应用的靶子进行设计的(当前最快的日本EarthSimulation与IBMBLUE/Gene两个项目是很好的例子),而超级计算机使用与发明的技术逐步向商用领域转移与转化(SMP、MPP、Cluster等),计算性能(当前的设计目标是Petaflops)及与其相匹配的存储、带宽等指标成为高性能计算机设计者追求的持续性关键指标。高性能计算机的实现使能技术包括计算数学(计算模型与算法)、计算机体系结构与部件构成技术三部分,为保持每十年性能增加700-1000倍左右的速度(远高于摩尔定律单芯片的发展速度)及高性能计算能力70%的年增长需求,高性能计算机设计师仅仅考虑体系结构与部件构成两部分已不能满足现实的需求,对计算数学有相当的了解已成为必然。本文以性能为叙述主线,介绍超级计算机研制的历史、现状与未来展望。关键字:超级计算机现状发展目前各种超级计算机的高速处理能力基本上都是利用并行体系结构实现的,并行计算(ParallelComputing)已成为提高处理性能的关键技术之一。简单地讲,并行计算技术就是用同时运行的多个处理机或计算机来处理同一任务,从而大幅度提高任务的处理速度、缩短了任务的处理时间。超级计算机的五大形态在超级计算机技术的发展历程中,先后出现过多种超级计算机并行体系结构,主要有如下5种。并行向量处理(ParallelVectorProcessing,PVP)系统采用一定数量的、并行运行的向量处理器和共享式内存(SharedMemory,SM)结构的计算机系统。PVP系统的SM结构,也就是采用高带宽的交叉开关将各个向量处理器与其共享的内存模块连接。向量处理器(VectorProcessor)的一条指令能够同时对多个数据项(向量矩阵)执行运算,而一般的通用CPU属于标量处理器(ScalarProcessor),每次只能对一个数据项进行处理。其代表机型有CrayXMP、CrayYNP、NECSX2、我国的银河一号和二号等。对称式多处理(SymmetricMultiProcessing,SMP)系统采用一定数量、并行运行的微处理器和共享式内存(SM)结构的计算机系统,各处理器通过系统总线或交叉开关连接共享的内存模块,可'均等”或“对称”地共享内存和其它系统资源并由同一操作系统管理,提高整个系统的数据处理能力,因此SMP属于“一致性内存访问”(UniformMemoryAccess,UMA)方式,SMP的代表机型有旧MR50、SGIPowerChallenge、SunSPARCCenter2000、曙光一号等。分布式共享内存(DistributedSharedMemory,DSM)系统由一定数量的并行处理节点(Node)组成,每个节点都是一个相对完整的计算单元(配置有处理器和内存模块),各节点通过高速网络互连,系统由单一操作系统管理,分布于各个节点的全部内存被统一编址,可由所有用户共享。与SMP不同,DSM对内存资源的共享是非对称的,因为每个节点访问本地内存与远程节点内存时的延迟和带宽是不同的,故DSM系统属于“非一致性内存访问"(Non-UniformMemoryAccess,NUMA)方式,其代表机型有SGIOrigin2000/3000、SequentNUMA-Q、HP/ConvexSPP1600、银河三号和神威一n坐'号等O大规模并行处理(MassiveParallelProcessing,MPP)系统由成百上千计算节点组成的并行处理计算机系统,每个计算节点配置一个或多个处理器,各个节点相对独立,有各自独立的内存模块和操作系统。MPP系统的特点是可以获得很高的峰值运算速度,且由于系统的内存分布于各个节点,所以MPP属于“分布式内存”(DistributedMemory,DM)结构,具有易扩展性。MPP的易扩展性使其能够与SMP、DSM等结合,于是出现了SMP-MPP(各个MPP节点采用SMP并行多处理机)和DSMMPP(各个节点采用DSM并行多处理机)等复合型超级计算机系统°MPP系统的代表机型主要有旧MSP2、IntelParagon、CRAYT3E、曙光1000等。5机群式超级计算机系统上世纪90年代中后期,随着Intel芯片等造价低廉的微型计算机组件的出现和网络技术的迅速发展,使采用普通微型机或工作站作为计算节点并采用高速网络互连的并行计算系统成为了可能,超级计算机体系结构由此开始迈入工作站机群(ClusterofWorkstations,CO可)或工作站网络(NetworkofWorkstations,NOW)时代。2000年以后,又出现了节点采用商用级处理器的机群系统(Cluster),以及采用SMP并行机作为计算节点的SMP机群或星群(Constellation)。从内存访问方式上看,机群系统采用了与MPP相同的分布式内存(DM)结构,因而具有很高的可扩展性。机群系统的代表机型有洛斯阿拉莫斯国家实验室的AvalonCluster、ASCIBlueMountain、深腾1800/6800和曙光2000/3000等。机群式超级计算机概况机群式超级计算机系统具有结构灵活、通用性强、安全性高、易于扩展、高可用性和高性价比等诸多优点,所以目前新建的超级计算机大都使用这种结构,只不过在具体采用的节点机型、拓扑结构及互连技术会有所不同。高性能计算专业网站TOP500的全球超级计算机500强排名中,机群式系统所占比率连年上升,现已达到83%以上。机群是采用高速网络将大量的节点相互连接起来的系统,每个机群节点都是一个配置有处理器、内存、I/O设备、网卡和操作系统的计算机,各个节点以协同方式并行完成计算任务。机群系统与MPP一样,也是属于分布式内存结构,因而具有很强的可扩展性。具体而言,机群系统主要由节点计算机、高速互连网络、操作系统、单一系统映像等中间件、并行编程环境和应用程序等部分组成。•机群节点的计算机机群节点可以灵活采用高性能的微型机、工作站或SMP并行机等,节点机处理器的处理性能是影响机群系统整体性能的一个最关键的因素。理论上节点机处理器的主频和浮点运算速度是决定机群计算速度的主要因素(见后面介绍的峰值速度计算公式)。由于图形加速处理器(GPU)具有很强的浮点和向量(矩阵数组)计算能力,所以在机群中采用一定数量以GPU作为处理器的计算加速节点,将能提升机群的性能,例如'天河一号”就采用GPU加速节点并提升了GPU的计算效率,实现了CPU与GPU融合的异构协同计•机群的互联技术机群系统一般可以采用高带宽的以太网、异步传输模式(ATM)、可扩展一致性接口(SCI)、QsNet、Myrinet和InfiniBand等网络技术实现节点机的互连,其中千兆/万兆级以太网、Myrinet和InfiniBand使用比较广泛,尤其是后者InfiniBand互连技术也被称为“无限带宽”Infin旧and最初由Mellanox公司提出,是一种基于输入输出总线的通用宽带互连技术,原本是为了解决因PCI等并行总线结构速度较慢而导致的服务器CPU输入输出瓶颈问题,这种瓶颈制约了服务器与存储设备、网络节点、其它服务器之间的通信能力,但由于InfiniBand非常适合于高性能计算系统,所以后来便成为一种广泛应用于超级计算机系统的开放性高速互连网络技术标准。InfiniBand规范中定义了交换机、通道适配卡、线缆和子网管理器等标准设备,InfiniBand交换机在各个节点、各种设备之间建立点对点的串行连接并进行流量控制,可有效避免数据流量的阻塞。基于交换方式的点对点的串行连接使InfiniBand网络具有极强的可扩展性,一个网络可有数千个子网(Subnet)组成,每个子网有一个子网管理器、可支持上万个节点,这种子网架构实现了更有效的分散管理。InfiniBand采用串行双向数据传输方式,利用多路复用信号传输技术可实现并发的多通道数据传送,单个InfiniBand连接通道的线缆由4根信号线组成、可达2.5GB/S的基本传输速率,通过增加信号线数目并将多个通道组合成一个端口,就能使传输带宽成倍增加,最新的4倍数据率(QDR)InfiniBand已达到了10Gb/s的通道基本传输率,在1、4、12倍通道连接模式可使传输带宽分别达到10Gb/s、40Gb/s、120Gb/s的传输带宽。目前,InfiniBand在超级计算机的应用日益广泛,例如2009ChinaHPCTOP10排名中有5套超级计算机都采用了InfiniBand互连技术,包括排名前2位的“天河一号”和“曙光5000A”。超级计算机的现状目前,世界上最快的超级计算机EarthSimulator的实际计算速度是35Tflops,即35万亿次。对高性能计算机研究的下一个挑战是IPetaflops,即千万亿次计算。预计Petaflops计算机将由10000〜1000000个处理器、10TB-1PB主存、1PB〜100PB在线存储、100PB以上离线存储构成。第一个系统实现将在2010年前完成。在长沙举办的中国高性能计算学术年会上,国防科技大学研制的千万亿次超级计算机“天河一号”成为焦点,这是我国国内计算能力最高的超级计算机,而且标志着我国超级计算机的研发能力成功实现了千万亿次计算的跨越。超级计算机不仅体现了一个国家战略性高技术的发展水平,也是与科技创新、国计民生密切相关的重要基础设施。超级计算机的各种应用,实际上会以不同的方式影响到我们每个人,这些似乎遥不可及的超级计算机实际上离我们“非常近”。衡量机群的计算性能的指标机群系统的主要性能指标有峰值速度、实测速度和运行效率等,计算速度一般以计算机系统“每秒执行的浮点运算次^"(FloatingpointOperationsPerSecond,Flops)为单位,并定义了扩展单位MFlops(百万次浮点运算每秒)、GFlops(十亿次浮点运算每秒)、TFlopsD亿次浮点运算每秒)和PFlops(千万亿次浮点运算每秒)等。•峰值速度峰值速度通过计算得出,故也称理论峰值速度,其计算公式为【理论峰值速度(亿次)=节点机每个CPU主频(MHz)xCPU每个时钟周期执行浮点运算的次数xCPU总数目/108】。例如,“天河一号”的峰值速度为1206万亿次每秒(TFlops)或1.206千万亿次每秒(PFlops)。•实测速度用评测软件对机群系统计算速度的实际测试值,目前国际上通用的超级计算机或高性能计算机评测软件是《Linpack》——这是一套采用求解线性方程组和特征值问题的方法来综合评价超级计算机浮点运算性能的基准测试软件。实测速度能更客观地反映系统的实际计算性能,对用户而言,实测速度比峰值速度更有意义。•运行效率一般是指超级计算机实测速度与峰值速度的比率。运行效率越高,表明系统具有的处理资源等经过合理的系统设计得到了更有效的发挥。相对于由处理器数量和性能决定的理论峰值速度而言,运行效率显然是一个能够更全面、科学地反映超级计算机性能和技术先进性的指标。超级计算机的用途从世界的范围来看,超级计算机的应用目前几乎已涉及科学技术、工业设计、金融和经济管理以及军事国防等相关的各种领域,例如与人们生活密切相关的天气预报和气候模拟、地震预报和监测等方面的应用,还有环境监测和分析、石油等自然资源的勘探,生物及医学领域的基因与遗传工程、药物研制、医学影像的分析处理,航空航天领域的飞行器设计,军事武器的研制和模拟试验,还有基础科学研究等领域的大规模数值计算。除了具有超强大的科学计算能力之外,超级计算机具有高效的信息服务和事务处理能力,因此也可以用作信息服务、事务处理与决策支持等系统的高性能服务器。•天气预报目前的中短期天气预报主要是根据气象卫星等观测的大气实况资料,通过求解描述天气演变过程的动力学方程组实现的,这种大规模的数值计算必须由超级计算机完成。例如,在2008年北京奥运会举办时,北京市气象局所购置的旧MSystemp575超级计算机的计算能力是原有系统的10倍,基于旧MSystemp575更高的计算性能,新的天气预报系统可覆盖4.4万平方公里的区域,且能为每平方公里按小时提供天气和空气质量预报等。•地球模拟器日本海洋研究开发机构的“地球模拟器”是一套用于地球大气循环监测和分析、温室效应预测、地壳及地震监测和预报等大规模计算的向量处理超级计算机系统。于2002年开始运行,共有640个节点,占地面积3200平方米。为了降低耗电和维护费用,“地球模拟器”不久前进行了升级,计算节点减少到160个计算节点,耗电量降低了20%-30%、占地面积降低为650m2,但计算速度由原来的40TFlops提升到131TFlops。•药品研制开发一种新的药品,通常需要从研制和试验的很多步骤,一般需要大约15年的时间,而利用超级计算机则可以对药物研制、治疗效果和不良反应等进行模拟试验,从而将新药的研发周期缩短3〜5年且可显著降低研发成本。例如,美国基因工程技术公司的研究团队曾将超级计算机应用于一种致活酶类药物的研发,在14个月之内从50多万个化学分子中筛选出两个候选药物进行最终合成和临床试验,整个过程中真正在实验室里合成的分子只有2000个,其余均用超级计算机模拟完成,仅此就节省了上百倍的时间和成本。•石油勘探石油勘探大多采用地震勘测的办法,即在地面进行爆破后,用探测仪器检测和采集震动反射波的大量数据,利用对这些数据计算、处理和分析结果确定地下储油位置。石油勘探中大量数值的快速计算、处理和分析,必需由高性能的超级计算机完成。例如,2007年曙光4000L超级计算机就曾在发现储量高达10亿吨的渤海湾冀东南堡油田的过程中发挥了关键作用,而其后的曙光5000A超级计算机的应用,则进一步达到了地下数千米的勘探深度。•核爆炸模拟《全面禁止核试验条约》的签订之后,相关的一些国家开始转向利用大规模数值计算的方法进行核武器的模拟试验,以评测核武器的各项性能,这种应用对计算性能有着很高的要求。例如,美国劳伦斯利夫摩尔国家实验室就曾使用计算速度为360Tflops的旧M“蓝色基因”(BlueGene/L)超级计算机进行过极为逼真的核弹爆炸三维模拟。此外,法国原子能委员会最近也订购了一台由布尔公司生产的、计算速度为1000Tflops的Tera-100超级计算机,将接替目前的Tera-10超级计算机用于模拟核武器爆炸过程。超级计算机的展望一般认为,自1946年第一台电子计算机ENIAC问世至今,超级计算机的发展已先后经历了5个阶段或5代,即早期的单处理器巨型机、向量处理系统、大规模并行处理系统、共享内存处理系统和机群系统。如前所述,从TOP500排名中可以看出,目前越来越多的超级计算机都在向机群体系结构靠拢,机群系统大有'一统天下”的势头。机群系统由于采用了分布式内存(DM)结构因而具有很高的可扩展性,理论上只要以高带宽的网络互连技术为基础,增加节点数量就能提高并行处理能力或计算速度。另外,由于机群系统可以采用低成本的微型机组件、免费的Linux操作系统和并行编程平台来构建,因而具有非常高的性价比。的确,易于扩展、高性价比等特点赋予了机群系统很强的生命力,但是机群系统的计算性能是否简单地利用其可扩展性就能无限地提升呢?事实上,当机群节点数量过于庞大时,就不可避免地会遭遇到网络延迟加剧和并行处理环境等方面的瓶颈,系统的可靠性会大打折扣且维护的难度明显增加,同时占地面积和耗电量也将十分惊人。因此,目前“正在兴旺时期”的机群技术并不是超级计算机技术发展的终结者,未来超级计算机性能的进一步提升,依然要靠超级计算机体系结构和关键技术的创新来实现,例如有关'第6代超级计算机”(HPC-G6)的概念和基本构想目前已经被提出。按照有关专家和研究人员的构想,与现有第5代的机群系统相比,未来的HPC-G6将具备更高的可扩展性、可用性、可持续性、计算密度、可管理性、运行效率和性能功耗比等特征。更高的可扩展性意味着未来的HPC-G6可以更大规模地扩展节点数量及其互连带宽,实现数千甚至上万个节点的高速互连。更高的可用性和计算可持续性即系统具有高可靠的持续运算能力,更高的计算密度指单个机架空间中将能容纳更多的处理单元、具有更高的计算能力,更高的可管理性即能够采用简便的操作控制方式实现对整个系统的有效管理。HPC-G6将具有更高的运行效率,并且单位功耗所换取的计算能力,也就是性能功耗比将进一步提升。虽然,HPG-G6目前还只是作为一种概念和构想被提出,但它标志着人们已经开始准备向着实现更高性能计算的征程出发。1机群系统的应用面扩大、形成产业规模市场基于Linux的机群系统在下五年的使用面将进一步扩大,高性能计算机产业前景更加光明,个人用高性能计算机时代将出现。以BeowulfPCLinux机群为标志,高性能计算机的门槛现在已经不再是高不可攀了。高性能计算机的普及也将使其应用面进一步扩大。除了从前的国家级战略单位以外,产业界和地方部门也可能逐步利用高性能计算机,而随着网格技术的发展和应用软件的进一步丰富,可以预见不远的将来会出现个人高性能计算的时代。由此高性能计算的战略意义和产业前景更加重要。2网格不仅影响各种应用,对计算技术也将产生巨大影响网格作为下一代Internet的应用不仅影响最终用户,同时对其它技术的发展产生巨大的影响,高性能计算机领域将首当其冲。网格作为下一代Internet应用,其特征是以资源共享为目标,同类资源集中,异种资源分离,资源的调用服务化,资源的使用按需分配。对于高性能计算机系统来说,资源的网格化是一种使能技术,为更大尺度的高性能计算机系统的设计提供了支持。但是不能简单的将网格和未来的高性能计算机系统等同起来。作为一种共享技术,网格只是使现有的高性能计算资源更好的被共享使用,而并不能增加高性能计算资源。我国的高科技发展计划一度用网格发展专项取代了新一代高性能计算机的研制,是走入了一个误区。网格化技术真正对高性能计算机的推动是提供了一种动态的、网格化的资源作为高性能计算机的新的组成部件,如网络CPU、网络RAM、网络磁盘等等。网格将不仅仅是,计算机通过网络连接起来”,而是成为真正意义上的“网络连接起来的计算机”。如何利用这些部件构造更高性能的计算机系统仍然需要更多的体系结构的研究。中科院计算所智能中心提出的“Dagger(De-coupledArchitecturewithGrid-keyandGridEnablingResource)网格计算机体系结构”并应用于曙光4000系列计算机系统设计中,代表了对这一趋势的积极探讨。3光电结合是未来计算机制造技术的发展趋势光电技术的结合是下二十年计算机制造技术的发展趋势,PCB(印刷电路板)板间光互连将成为未来高性能计算机的标准互连方式。如果按照摩尔定律继续发展,下二十年后,半导体技术将进入THz时代。而THz是电信号和光信号交叉之处。可以预见光电技术的结合将是未来物理学和技术发展的前沿。据估计,未来3年内,光底板内互联将发展成熟,而5-10年内,芯片之间的自由空间互联将成为可能,15-20年内芯片内部也有可能采用光互联技术。计算所智能中心从事的“网格化动态自组织体系结构DSAG及光互连高性能计算机的实现”项目(HPC-OG)结合光互连技术、网格技术及可重构计算,通过功能部件的分离和重组构造具有动态性、时效性、按需资源分配和共享、高性能与高可靠性的超级计算机系统。是一种集成创新的尝试。4并行体系结构向多层次、多粒度方向发展并行计算机体系结构向多层次、多粒度方向发展,使能技术多样化和SOC/FPGA可能带来较大发展机遇。为解决大规模系统并行(连接上万个CPU)及处理器与内存之间的存取速度慢(包括CPU与CACHE之间)的技术挑战,采用多层并行体系结构成为高性能计算机设计师的选择。应用程序的程序设计模式同时要支持多粒度的并行模式(细、中、大粒度)。构造高性能计算机的部件已有较多的选择,除直接用传统的PC及服务器节点外,由各类SOC、FPGA、DSP芯片制造的主板在处理某一类科学问题时,其性能价格比较传统PC节点提高几倍或十几倍。基于新型节点构成的万亿次计算机以低于10万美圆价格销售的日子可能很快到来。5高性能计算机硬件发展逐步面向应用减少用户使用高性能计算机复杂性的努力将有回报,体系结构创新与自动并行程序设计工具的发展可能是关键因素。针对高性能计算机体系结构来设计高性能算法依然是应用科学家今天必须面临的问题。对体系结构及系统软件详细的了解与理解是写出高效程序的关键,也有用户为提高应用程序效率自己重新开发操作系统的事例。如何摆脱应用系统随一代一代机器的研制而重复设计一遍的局面成为计算机设计师追求的目标和研究的方向之一。目前体系结构的可重构计算(如计算所从事的网格化动态自组织体系结构及基于光互联的实现(HPC-OG))以及并行编译的识辨与串行程序并行化辅助工具的发展有力推动这一趋势的形成。6机遇与挑战高性能计算机的研制已走入发展的十字路口。美国Illinois大学计算机系DanielA.Reed教授曾指出:“在美国目前还没有积极的大规模体系结构和原型研究项目。简单的说,我们目前正面临着体系结构的危机,包括软件和硬件。”这一十字路口很像1990年国内有关使用微处理器构成并行系统还是用大规模集成电路自己设计向量计算机的选择。较1990年更困难的是当时并行机在国外已有商品化的机器供我们发展参考。今天我们与美国人处于同一十字路口,我们的技术选择及产业化方面的努力有可能对国际高性能计算机的技术走向产生较大的影响,从长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论