版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、挑战1:Eflops,Zflops的芯片 每10年1000倍性能提升21998(Tflops) 2008(Pflops) 2018(Eflops) 2028(Zflops)今后构建大规模高性能计算机的挑战有哪些?2022-5-27并行计算介绍应用需求在人类历史上很少有任何技术产品能够向高性能计算机的峰值速度一样在如此长的时间内维持指数速度的增长,从过去20年高性能计算机峰值速度的发展规律来看,大约每10年性能可以提高3个数量级。以此推算: 在2008年已出现了Pflops(1015 flops)计算机, 预计到2018年可能出现峰值速度为Eflops(1018flop/s)的系统,2028年可
2、能出现峰值速度为Zflops(1021flop/s)的系统。2022-5-273并行计算介绍是否需要这么快的计算机 一个直观的问题是人类是否需要这么快的计算机,到底有哪些应用需要Eflops,Zflops的性能?实际上,应用对性能的需求几乎是没有止境的,1KM网格的气象模式可以更加准确地对天气情况进行预报,但需要20Pflops的持续性能,以目前的实际应用程序的计算效率为5%左右来看,这意味着接近0.5 Eflops的峰值速度。其它应用,如全球气候模式的模拟需要更多的计算能力。计算化学中很多近似算法的复杂度都是N4,可以很容易地“消费”掉所能提供的计算能力。 密码破译、武器研制、高精度气象预报
3、、地球系统模式研究以及新材料研究等,都对使用更高性能的计算机提出了强烈需求。 因此,研制速度为Eflops,Zflops的计算系统是保障我国经济建设、科技发展和国防安全的重要任务。2022-5-274并行计算介绍 Computing are Pervasive and PowerfulComputing resources become cheap and prolific.Increasingly low cost for fast CPUs and large memory.Cluster and Internet connect computing nodes easily. Three
4、 types of major computing resources:High end systems, e.g. Blue Gene/L, Earth Simulator.Ultra high performance but expensive. (customer designed nodes/networks)Cluster systems, e.g. ICTs Downing (and many other Top-500s)Low cost, but low sustained performance. (commodity nodes/networks)Google has be
5、en a successfully scalable example. Grid systems, e.g., TeraGrid. Microsoft/IBM “cloud computing”Utilizing global computing resources, but high Internet cost and overhead. Clients are pervasive in everywhere in the globeDesktops, laptops, PDAs, et. al directly connect to the Internet or via wireless
6、Major Resources in Computing and Network Systems Good News in supplyCPU cycles: oversupplied for many applications. Memory bandwidth: improved dramatically.Memory capacity: increasingly large and low cost.I/O bandwidth: improved dramatically. Disk capacity: huge and cheap. Cluster and Internet bandw
7、idths: very rich.Bad News in demandCPU cycles per Watt decreases. (less energy efficient).Cache capacity: always limited. Improvement of data access latencies significantly lags behind. Adam Smith: the balance is guided by an “invisible hand” in the market. We need to balanceOversupplied cyclesHigh
8、demand of fast data accesses and low energy cost7q 1970s-80s:1970s-80s: Killer applications demand a lot of CPU cycles a single processor was very slow (below 1MH) challenges: parallel algorithms, architecture, implement q 1980s:1980s: communication bottlenecks and burden of PP challenge I: fast int
9、erconnection networks challenge II: automatic PP, and shared virtual memoryq 1990s:1990s: “Memory Wall” and utilization of commodity processors challenge I: cache design and optimization challenge II: Networks of Workstations for HPCq 2000s and now:2000s and now: “Disk Wall” and Multi-core processor
10、s 8Moores Law in 37 Years (IEEE Spectrum, May 2008)9Implications and New ChallengesSingle-core CPU reached its peak performance 1971 (2300 transistors on Intel 4004 chip): 0.4 MHz 2005 (1 billion + transistors on Intel Pentium D): 3.75 GHz After 10,000 times improvement, GHz stopped and dropped CPU
11、improvement is reflected by number of cores in a chip Increased DRAM capacity enables large working sets 1971 ($400/MB) to 2006 (0.09 cent/MB): 444,444 times lowerBuffer cache is increasingly important to break “disk wall” Systems/application software faces real challengesTo utilize parallelism in m
12、ulticore is much more complex Resource competition in multicore cause new problems Software needs reconstructions to adapt its new home 10 Multi-Core is the only Choice to Continue Moores LawPerformancePowerDual-CoreOver-Clocked (1.2x)1.13 x1.73 x0.51 x0.87 xUnder-Clocked (0.8x)1.73 xDual-Core (0.8x
13、)1.02 xR.M. Ramanathan, Intel Multi-Core Processors: Making the Move to Quad-Core and Beyond, white paper Much better performance1.00 xBaseline Frequency1.00 xSimilar r power consumption通用部件方式的“成本墙”与“功耗墙” 根据LLBL的一项研究表明,使用现有的集群技术构建200Pflops的系统,如果使用AMD Opteron CPU(处理器频率为2.8GHz),将需要18亿美元的建造成本,功耗为175MW!
14、如果使用IBM的 BlueGene/L(处理器频率为700MHz),建造成本为26亿美元,功耗为27MW。 2022-5-2711并行计算介绍高达数十亿美元的建造成本将使得Eflops计算机的构建面临巨大的挑战,与此同时,数十至数百兆瓦的功耗也为高性能计算机部署与使用设置了重大障碍。由于耗电量巨大,甚至需要为高性能计算机单独设置发电站与供电线路。巨大的系统功耗还对散热系统提出了极高的要求。所有这些因素,都将进一步增加高性能计算机的部署成本和使用成本。因此,要研制下一代高性能计算机,达到Eflops甚至是Zflops的计算性能,就必须对现有的计算机系统结构进行重大变革。2022-5-2712并行
15、计算介绍研究趋势 国际上对国际上对Eflops-Zflops系统的研制可以分为系统的研制可以分为两类工作两类工作: 1. 仍基于现有的微电子技术,主要在系统结构、编程仍基于现有的微电子技术,主要在系统结构、编程语言和系统软件方面展开改进性的工作,例如大规模并语言和系统软件方面展开改进性的工作,例如大规模并行加速器技术、可重构技术等。行加速器技术、可重构技术等。 2. 在器件方面希望取得突破,以取代现有的在器件方面希望取得突破,以取代现有的CMOS技技术。术。 132022-5-27并行计算介绍器件方面142022-5-27并行计算介绍Tensilica的半定制CPU 核心来研制大规模的并行系统
16、Tensilica是一家基于美国加州的公司,采用基于Open64的高性能编译器,可让用户方便地定制所需的全套软件工具和芯片,为执行特定类型的应用提供远远高出通用CPU的性能。目前,其已实现了一个188核心的网络处理器,并用于Cisco的路由器中。技术参数为: 每核心占芯片面积:0.11平方毫米,功耗:0.05W600MHz以INTEL通用处理器Intel Core2 sc (笔记本电脑用CPU)为例,其技术参数为: 芯片面积:130平方毫米,功耗:15W1000MHz可以看出,定制核心的芯片面积和功耗都比通用处理器低了2-3个数量级,使得在同一个芯片上集成数百个乃至上千个处理器核心成为可能。半
17、定制技术使得应用性能与通用核心相比甚至超越通用核心。美国LBNL已决定采用Tensilica来构建其Eflops级高性能计算机。152022-5-27并行计算介绍IBM BlueGene/C BlueGene/L已被IBM用于构建多台Pflops级的系统。与此同时,IBM还启动了BlueGene/C计划(又称Cyclops64)。Cyclops64处理器在一个芯片内封装了80个处理器核心,工作频率500MHz,每个核心包括一个64位的浮点运算单元和2个线程单元,使得每个核心可以同时执行两个线程,整个芯片的峰值速度可以达到80Gflops。一个完整的Cyclops64系统由24x24x24个芯片连接而成,峰值速度为1.1Pflops。可以看到,与BlueGene/L相比,Cyclops64在单个芯片内可集成更多的芯片,大大减少了构建高性能计算系统所需的芯片数,从而可以有效地降低成本和功耗。 162022-5-27并行计算介绍体系结构图 172022-5-27并行计算介绍其它并行加速器比如IBM的CELL芯片,采用一个通用PPE和8个向量SPE,其用于高性能计算的PowerXCell 8i 可以达到102 GFLOPS的双精度浮点性能,世界上第一台超过Pflops的系统就是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 体育娱乐保安工作总结
- 航空行业安全飞行操作
- 肿瘤科护士关怀疗养
- 酒店管理工作问题解决途径
- 艺术活动对学生综合素质的影响计划
- 期刊名称(中英文及所写对照)
- 神经电生理室护理工作总结
- 2024年物业服务合同(集合篇)
- 2024年设备档案管理制度
- 2024年经典招商代理合同(35篇)
- 2024秋新商务星球版地理7年级上册教学课件 第5章 地球表层的人文环境要素 第3节 世界文化的多样性
- 人教版三年级数学上册 期末测试
- 《跨境电子商务基础》课件-阿里巴巴国际站概述
- 政治-湖南省名校教育联盟2025届高三12月大联考试题和答案
- 2025年上半年四川省成都市大数据中心招聘3人易考易错模拟试题(共500题)试卷后附参考答案-1
- 重庆市渝北区六校联盟2024-2025学年八年级上学期12月月考数学试题
- 2024年山东省聊城市中考英语真题含解析
- 2024年安徽省高中学业水平合格性考试语文试卷真题(含答案详解)
- 中南大学《创新创业导论》2023-2024学年第一学期期末试卷
- 2024潞安化工集团有限公司第二批煤矿井下一线生产操作岗位招聘2820人笔试核心备考题库及答案解析
- 外研版一年级上册新交际英语(2024)全册教案(单元整体教学设计)
评论
0/150
提交评论