版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、power系列处理技术对比1、 power处理器历史回顾1990年ibm第一款使用power(performance optimization with enhanced risc)处理器的rs/6000推向市场,ibm的power处理器真正等上历史舞台。20多年来,ibm power系列处理器7代架构卓越相承,在商业应用与技术运算应用上占得一席重要地位。以下简要回顾power系列处理器发展历程:1990年,power1,集成了800,000个晶体管,并被火星探险任务用作中央处理器;1993年,power2,集成了1,500万个晶体管,新加了第二个浮点处理单元和更多缓存;1998年,power
2、3,第一个64位对称多处理器,以铜作为连接介质,在相同价格下获得两倍的性能;2001年,power4,集成了1亿7,400万个晶体管,是第一个单板上具有多核心设计的服务器处理器;2004年,power5,引入smt(simultaneous multithreading)同步多线程技术,大幅提升处理器的并行计算能力;2007年,power6,第一个内置十进制浮点加速器的处理器;2010年,power7,12亿晶体管,8个处理器内核。由上可以看出,power系列处理器的发展,前期基本遵循摩尔定律发展,随着晶体管工艺的不断提升,芯片集中晶体管数也越来越多,cpu主频也不断得到提升。但随着主频的不断
3、提高,cpu的计算性能慢慢地也发展到了一个瓶颈,随后开始以多核、并行技术为主要发展方向,cpu的性能又得到进一步飞跃。作为商业处理器,power系列处理器根据市场的需求,不断在性能、能耗、价格、体积等方面探索与发展,在商业领域是一款十分成功的处理器。2、 power5.6.7差异power5power6power7制造工艺130nm65nm45nm尺寸389mm2341mm2567mm2晶体管数276m790m1.2b新技术特性dual coreenhanced scalingsmtmemory bandwidth +distributed switch +core parallelism +
4、fp performance +virtualizationdual corehigh frequencies smt +memory subsystem +altivec instruction retrydyn energy mgmtprotection keysvirtualization +multi coreon-chip edram smt+mem subsystem +reliability +vsm & vsx (altivec)protection keys+power optimized cores1、 power5技术特性power5处理器晶体管数比power4多了将近1
5、亿个,其对性能的提升主要体现在cache与smt技术上。 由上图可以看出,power5的l1 cache采用4-way associative lru,大大提升了l1的访问速度;提高了l2、l3缓存的容量,提高了cache的命中率,提升了cpu到内存的带宽;smt技术增加了对多线程和微分区的支持。power5系统结构上的一个重大改进是提供了从l2缓存到l3缓存控制器再到l3缓存的直接通道,而不像power4芯片那样通过芯片上的分布式告诉开关访问l3缓存控制器,且增大了的l3缓存也不再和内存使用同一个通道。这将提高芯片的带宽,降低分布式告诉开关冲突。另一个重大改进是将内存控制器集成到power5
6、芯片中,降低了内存访问延迟,提高了内核访问内存的性能。 smt技术使得power6处理器支持2个并发线程,更充分利用内核中的8个执行单元,提高了效率,在操作系统和应用程序看来,一个“双核心、双线程”的power5芯片可以提供4个逻辑处理器,并且对应用程序没有特别要求。2、 power6技术特性随着生产工艺提升到60nm,power6处理器最大的特点是超高的主频处理速度,与power5相比,几乎提到了一倍的主频。与power5相比,power6在计算单元上多了vmx和dp2个部件,支持单精度浮点运算,同时也支持十进制浮点运算。power6处理器,cache性能也得到很大提升。l1 cache提升
7、到64kb,8-way;l2 cache提高到24 mb容量;l3 cache也提升到16-way,同时l3 cache集成了目录与控制器芯片。总的来说,cache访问速度更快、命中率更高,因此访问效率也得到很大提高。由上图可以看出,power6的smt技术在power5的基础上有更大提升,2个线程同一个周期可以支持7条指令,并行技术能力得到进一步提升。power6的另一个重要改进,就是它引入了从 power3 到 power4 的转移以来最大的改变,第二代的 viva, viva-2。其通过多个power6处理器节点组合,可以支持向量计算,由上图所示。最后power6的节能技术有很大的改进,
8、尽管主频提升了一倍,但其能耗与power差不多,这在控制能耗和发热量上有很大改进。3、 power7技术特性power7处理器比power6性能有很大提升,首先从内核来看,从双核提升到8核,而且单核性能也提升至power6单核性能的1.2倍至1.5倍。这点突破了多内核设计在架构上以降低单线程性能来妥协多核的协同处理的传统设计,成为第一款在多核情况下还能保持单核性能的处理器。 1)8个处理内核 和以往的ibm power处理器不太一样,ibm power7是一个单晶片的八核处理器,而不是如power5那样由多个晶圆合体。ibm power7是一个典型的多核心处理器,每个核心的架构如下图: 单个i
9、bm power7核心 power7处理核心的最大特点是它具有12个执行单元,以及4个同步多线程。这12个执行单元是: 两个fxu整数单元一个dfu十进制整数单元四个vsx fpu向量/标量扩展浮点单元:和传统的fpu不同,它可以进行向量计算。power7基于power architecture版本2.06,扩展了指令集以支持向量运算,对比于通常的simd,向量运算会具有更高的效率,它可以更好地利用寄存器 共四个lsu存取单元:内存存取load两个,store两个因此它紧挨着l1,以及l2 一个cru条件寄存器单元和bru分支单元:一种特别的浮点运算是由额外的单元执行而不是由通用整数单元执行,
10、这就是和power架构的condition register条件寄存器相关的运算,它由cru来执行 bru分支单元执行分支指令,实际上,它和cru结合紧密,因此合在一起;cru和bru都有点偏向于控制单元(如ifu和isu这样的就是彻头彻尾的控制单元),控制着指令的走向,因此它们靠近ifu指令拾取单元,也靠近l1/l2的位置 power7是oooe(out-of-order execution,乱序执行)架构的处理器,和上一代power6的ioe(in-order execution,顺序执行)不同有趣的是,power5是oooe的,也就是说,power7又变回去了。 顺序执行的结构简单,可以
11、获得较高的运行频率,乱序执行则可以获得更好的运行效率,但是设计会变得复杂设计不是问题,问题是发热量也随之增大。从结果来看,power7的频率应该比power6低一点。至于执行效率本身,乱序本身显然更好,power7的流水线级数进行了缩减和优化以提升运行频率。 power7的内核相对来说是非常复杂的,12个相对独立执行单元的设计可不常见,如nehalem约有9个执行单元(不过执行端口只有6个:三个运算端口,三个存取端口。三个运算端口可以同时执行三个整数运算和三个浮点运算)。强大的执行能力让power7可以具有更多的多线程能力:根据不同模式,智能支持smt1,smt2,smt4,最大限度利用处理器
12、资源。每个power7具有4个同步多线程,power5和power6都是两个。同步多线程是充分利用乱序架构的好方法,相对来说,顺序架构利用起来就比较难。近年来处理器的发展是追求低功耗、大规模并行,越来越走向多路处理了,既然走向了多核心,那么走向更多路的smt同步多线程也就顺理成章了,相对来说power7的功耗并不高,见后。 2)cacheibm power7具有3层缓存架构。首先每个核心具有单独的32kb的l1(l1-i和l1-d分别32kb)和256kb的l2,以及32mb的l3缓存,在这32mb l3当中,有4mb的缓存,其延迟只是l3的1/5,特别快,有观点认为它形成了一个新的缓存层。这
13、个缓存层属于l3的一部分,可以被其他核心访问。 与power6处理器不同,power7处理器把三级缓存从芯片外移动到了芯片内部,power7的l3l4缓存容量达到了32mb。实际上,这些缓存属于dram(dynamic ram,动态内存),和通常cpu使用的sram(static ram,静态内存)不同,ibm称之为edram,embedded dram,集成动态内存。dram也就是我们通常的内存条使用的技术。 dram和sram的区别是:dram使用一个晶体管和一个电容存储一个bit,由于电容会漏电,因此必须周期性地充电以维持数据,优点是简单、便宜;sram则用6个晶体管(nehalem则使
14、用了8个晶体管以降低功耗)组成的双稳态触发器电路来存储一个bit,不需要周期性地充电,速度很快,然而占地面积大,耗电高,造价也高。 为什么要用dram呢?不是说dram的速度慢么?我认为可以从多个方面来考虑:首先是容量,power7本身的8个核心以及4路多线程要求具有大容量的缓存以维持一定的性能水准,至少要达到30mb;其次是功耗,假如采用sram的话,其功耗将会非常高的:32mb的缓存会消耗大量的电力,并且设计更加复杂,多个核心的内部互联也变得麻烦(4核心的itanium 3 tukwila具有30mb的sram l3,不过目前处于难产阶段),使用dram的话,只需要传统sram 1/3的空
15、间,1/5的电力,但降低250倍的错误几率,减少1.5b晶体管,实现power7 on-chip 32mb l3缓存,较片外缓存延迟只有1/6,带宽提升2倍。唯一的缺点是性能,这一点无法避免,这应该就是l2.5或者说l3存在的原因,这个特别快速的4mb区域可能仍然是sram构成的。 3)内置双ddr3内存控制器大容量的l3通过内部互联结构连接,据说处理器核心互联的带宽达到了500gb/s!经过了大容量l3(l4)的筛选之后,仍然需要大量的内存带宽,power7提供了两个ddr3内存控制器,每个控制器支持4个ddr3通道,大约支持到主流水准:ddr3-1600,这样内存控制器可以提供100gb/
16、s的带宽!内置内存控制器的设计并不容易,需要提供各种ras特性,并需要面对多种不同厂商不同型号不同参数的内存模组。为了更好地支持多个内存通道,并提高性能,power7每个内存控制器都具有16kb的重调度缓存来重新排序内存存取请求。 4) smp4连接总线power7通过三个方面的设计来达到32路smp能力:巨大的带宽、特别的拓扑结构和特别的一致性协议。power7的处理器间总线可以提供360gb/s的带宽。 本地组与远程组power7拓扑结构:32路smp系统power7使用了一个两层的拓扑模型:4个处理器组成一个本地smp组(需要7个本地i/o总线),然后8个smp组之间两两直接互联(每个smp组需要7个外部i/o总线),为了实现这个目标,power7提供了两个总线:一个用于本地smp,一个用于远程smp。总线的位宽是120byte。 此外为了支持这个拓扑结构,power7的一致性协议混合了两种一致性消息的广播方法:一种是全局广播,一种是本地smp组的猜测性广播。这个一致性协议定义了13种状态,并通过缓存线上额外的设置位,power7最终实现了复杂的结构,在32路处理器、8核心、总共256个处理内核的smp系统里,可以同时维持20000个缓存一致性操作。 最后power7在节能设计上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态农业园租赁合同模板
- 水产养殖销售代表聘用合同范本
- 美容院防水施工合同
- 儿童摄影相机租赁协议
- 股份质押合同三篇
- 高速公路路面养护承包合同三篇
- 车辆租赁公司和员工安全协议书(2篇)
- 挖机在工地干活合同范本
- 公共机构合同能源管理的意义和作用
- 工商银行解除贷款合同流程
- 企业破产律师服务协议
- 【MOOC】遗传学-中国农业大学 中国大学慕课MOOC答案
- 预防火灾消防安全培训
- 2024年中国建设银行个人人民币贷款合同版B版
- 《古希腊罗马建筑》课件
- 2023年凉山州德昌县卫生系统事业单位考核招聘考试真题
- 第十五讲-新时代与中华民族共同体建设-中华民族共同体概论教案
- 《风险评估培训》课件
- 肿瘤科介入治疗及护理
- 心理统计与SPSS应用学习通超星期末考试答案章节答案2024年
- SVG图形渲染性能提升
评论
0/150
提交评论