INTEL与AMD处理器架构的分析_第1页
INTEL与AMD处理器架构的分析_第2页
INTEL与AMD处理器架构的分析_第3页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、仅供个人参考英特尔与 AMD 处理器系统架构的分析、探讨:长期以来, 我们讨论计算机性能总是将注意力放在各个子系统的技术参数上。例如微处理器的速度、内存规范、用何种等级的GPU 等,而没有意识到这些部件的协同效率会对系统产生怎样的影响,对于系统连接的探讨也仅限于总线技术层面。这种惯有的模式导致了人们对计算平台的技术水准难以产生明确的认知,同时也产生了一个概念上的模糊空间,让用户在厂商的宣传中无所适从。本文所要探讨的对象便在于此:计算机的连接架构。一辆法拉利跑车可以轻松达到300 公里以上的时速, 但在普通公路上它却可能无法超过80 公里 道路不够宽阔、路上的行车和弯道太多等都是影响速度的因素。

2、如果想让它发挥应有的潜能,那么就应该提供一个专用的赛道。其实对于计算机系统,情况同样如此。 计算机系统的性能取决于微处理器、内存、图形、硬盘等子系统,但即便配备顶尖的硬件,也未必能保证它们以最高的效率运行。事实上,微处理器、内存、图形、硬盘只能决定自身的性能,它们的协作效率则由总线技术以及连接架构所掌管 总线技术决定带宽, 类似于道路的宽敞以及平整程度, 允许数据在上面跑得多快; 连接架构则定义了两点间的连接方式,是直道或者弯道,路径最短则最优,数据传达的效率自然最高。谁在说谎? “微架构 ”与 “连接架构 ”的迷思英特尔宣称 Core 架构远远领先于对手,理由是指令性能更优越;AMD 也声称

3、K8 架构更科学, 理由是更高效的内存调用和更富弹性的连接。双方的宣传都给出足够多的理由,并且有充分的技术解释。 对于这种各执一词的说法,如果你对处理器技术稍有了解,便会知道双方的论点都没错,但这就导致一个矛盾的问题:究竟哪一个平台在架构上更具优势?事实上, 英特尔与AMD 都没有对公众做出详尽的解释,他们给用户留下一个模糊的认知空间,回避了对方之长,宣扬自身的优点。公正的说法应该是:英特尔“Core”理器的微处架构胜于对手,而AMDK8 处理器家族则拥有更胜一筹的连接架构。在这里,你会发现处理器架构的概念一分为二:其一是 “微架构 ”,其二就是 “连接架构 ”,两者是完全不同的概念,它们从不

4、同的角度影响着系统的性能与扩展性。“微架构 ”通常是我们在衡量微处理器设计细节时最先接触到的概念,它描述的是处理器最基础的指令执行部分,包括执行的方式和运算单元的构成等 它就好比是法拉利跑车的引擎和车体框架, 引擎决定了跑车所具有的速度, 车体框架则让跑车能够在高速状态下保持稳定。正常来说, 处理器的微架构通常都是非常稳定的,寿命可在5 年以上, 而每一种微架构往往都对应着一个处理器家族例如 Pentium Pentium 都基于P6 微架构, Pentium 4家族基于 Netburst 微架构,现行的 Core 2 Duo/Quad 则基于 “Core”架构;微AMD Athlon 64/

5、X2、Opteron 系列、 Turion 64/X2 系列则隶属于K8 微架构。不得用于商业用途仅供个人参考在 x86 领域,英特尔的 Core 微架构无疑是佼佼者,它的特点在于具有四发射能力,即每个周期可以同时对 4 条 x86 指令进行解码, Core 微架构还结合了微指令融合和宏指令融合两项优化技术,同时可以对多达5 6 条指令进行处理。显然,在频率相同的情况下,处理器的指令并行度越高, 实际性能就越强。 正因为这方面的优势, Core 2 Duo 处理器才能够在较低的频率下保有超越高频 Pentium 4 的卓越性能。相比之下, AMD K8微架构实际上只是承袭于K7 体系,它同时只

6、能对3 条指令进行解码,也没有任何指令优化技术,K8 与 K7 的主要区别仅在于集成内存控制器和64 位支持 若单单从指令执行的角度来衡量,我们可以认为K8 与 K7 隶属于相同的技术体系,两者都只能同时解码 3 条指令,并行能力远逊于英特尔的 “Core”及以 Pentium M 家族所采用的 “P6 增强 ”微架构。但是, AMDK8 家族拥有更出色的连接架构 微架构决定了芯片的指令执行效能,而连接架构则决定系统输送指令的能力。如开篇所述, 连接架构就好比是道路,车再好道路不行也跑不快;同理,倘若指令输送能力无法跟上,处理器的执行性能再高都无济于事,因为它不得不浪费很多的时间在等待上面,导

7、致有效工作时间的减少(类似于堵车等待,拖慢了平均速度 )。 AMD 的 K7 和 K8 在微架构方面变化极小,指令解码能力没有获得增强,运算单元的数量也未增加,但 K8 的指令执行性能却远高于K7 ,关键原因就在于K8 系列拥有更出色的连接架构。现在情况就变得明朗了:英特尔 Core 平台拥有出色微架构,但连接架构落后于对手; AMD K8 平台微架构落后,但它拥有一套非常先进的连接架构。这种情况导致竞争双方各有长处和短处。 对于微架构,之前就有过很多探讨,这里就不作过多的论述,本文的重点在于 PC 的连接架构,我们要解决一些问题: 连接架构对系统性能和扩展力有何种程度的影响?PC 的连接架构

8、将向什么样的趋势发展?来自 80286 时代的架构 前端总线 +北桥芯片 +南桥 I/O 芯片对于英特尔平台,前端总线、 北桥芯片、 南桥芯片的概念从80286 时代至今就没有多少变化。处理器通过前端总线与北桥芯片连接,北桥芯片包括图形接口控制器和内存控制器两个逻辑单元,北桥芯片通过特定的总线与南桥芯片连接,南桥芯片则负责I/O 扩展,包括存储、网络、音频、内部扩展总线 (PCI 、 PCI Express x1) 、外部连接总线 (并口、串口、 USB) 等等。在过去二十年中,技术提升仅限于各个子系统的规格,例如总线的速度、内存标准、图形接口标准、 磁盘接口标准等等,但都没有对这套架构作什么

9、本质性改变。尽管各个子系统的规格升级能够让系统性能获得显著的提升,但僵化的连接架构同时也产生明显的瓶颈,通讯延迟较长的缺点体现得非常明显。不得用于商业用途仅供个人参考英特尔965 系列芯片组基于传统的南北桥连接架构,这套连接在PC 诞生之后就没有获得本质性的改变首先,我们来看处理器与内存的连接。如图2,处理器必须通过“前端总线 ”与北桥芯片相连,然后再经由单/双通道 “内存总线 ”才能与内存系统实现数据交换,那么这一数据交换工序就涉及到两条不同类型的总线 只有当前端总线的带宽高于内存总线时,处理器才能够充分利用内存资源。在与AMD 平台的对比测试中,Core 2 Duo 平台内存性能居于明显的

10、下风( 搭载相同的内存系统时 ),原因就在于此。而由于技术上的限制,前端总线难有大幅度提升的空间, 这就注定内存瓶颈难以消除。 第二个缺陷在于内存的访问延迟 由于需要前端总线和北桥芯片的中转, 处理器的内存延迟较长, 导致处理器必须浪费很多时间在数据等待上,处理器即便拥有一流的微架构,也难以充分发挥潜能。计算机传统的连接架构,存在内存访问延迟长、总线带宽瓶颈等弊端对服务器来说,这套连接架构就显得更加糟糕:倘若服务器中包含两枚以上的处理器,那么它们都必须经过前端总线访问内存控制器,并共同分享内存资源,借此才能够实现多处理器的任务协同。而在实际环境下,多处理器共享内存经常会遭遇资源冲突现象,即两个

11、处理器同时要求对某个内存区域进行读写操作,一旦遇上这种情况,其中的一枚处理器就必须停下等待, 然后依顺序完成。系统中处理器的数量越多,冲突几率就越高,性能提升幅度也越来越小, 一旦达到极限值后继续增加处理器数量,反而会导致系统性能的大幅度下滑。英特尔自身的Xeon 平台一直未能突破八路朝向高性能计算机迈进(IBMEAX系列芯片组除外) ,主要原因就在于连接架构的限制。Xeon 平台的连接架构,处理器间无法直接通讯,共享内存又会遭遇资源冲突的难题英特尔现时的 Core 2 Duo 计算平台,乃至未来的 45 纳米 “Penyrn平”台都没有脱离这套守旧的体系, 连接架构依然沿用 “CPU-北桥

12、( 内存控制器 +图形接口控制器 )+南桥 (I/O) ”的传统模式,数据交换的效率不高,这就限制了Core 平台性能的进一步发挥 当然换个角度来看,我们可以认为Core 平台显然具有很高的性能增长潜力。Core 2 Duo 当前的性能水平,大概只发挥了 Core 架构 70 80的潜力而已。修建 PC 中的 “高速公路 ”集成内存控制器+芯片直连总线AMD 在开发 K8 处理器时,即参照 RISC 计算平台的经验, 对平台的连接架构进行改良。K8 连接架构有两个基本的关键点:一是将内存控制器集成于处理器内部,处理器核心与内存控制器通过超高速、低延时的内部总线连接;其二就是引入通用的Hyper

13、Transport 总线技术,实现处理器与处理器、处理器与I/O 芯片组之间的高速直连。这两项技术有效改变了传统连接方案的弊病,让处理器得以充分发挥自身潜能而不会被内存系统拖后腿,同时也有利于构建更强大的多路并行计算系统。不得用于商业用途仅供个人参考首先我们来看集成内存控制器会带来哪些增益。情况非常明显, 现在内存控制器与CPU核心紧密地结合在一起, 两者通过芯片内总线实现数据交换 芯片内总线可以轻而易举地达到百 GB/s 级别的速度,并且访问延迟极低,一举克服了传统平台前端总线的制约。以此为依托, 内存系统的性能可以得到最高限度的利用,处理器获得数据的能力大幅度增强,从而可以将更多的时间放在

14、指令执行而非数据等待上面。根据从K7 到 K8 的过渡经验来看,集成内存控制器设计让内存访问延迟降低了50,而 K8 的指令效能比K7 高出 25以上, 其中的关键点便是该技术的引入。将内存控制器集成于处理器内,可有效提升内存性能,对整机性能的提升也相当可观在多路服务器领域,集成内存控制器的设计更是获得广泛的认同。这一设计让每颗处理器都拥有属于自己的内存系统,不会再有任何因资源分享造成的性能降低或存取冲突之类的问题, 系统的多路扩展也变得更加容易。不过,将内存控制器集成之后,前端总线的概念就不复存在, 为了解决处理器与I/O 芯片的信息交换问题,AMD 引入了 HyperTranport 总线

15、技术,不过 HyperTranport 更大的意义体现在多处理器的扩展 AMD K8微架构中包含三个独立的 HyperTranport 控制器, 可支持三路HyperTranport 总线输出, 这三路总线可以根据需要同其他的处理器和I/O 控制芯片连接, 进而建立起一套完整的高性能计算单元。结合上述两项技术, K8 微架构非常适合用于构建超级计算机系统,其中最著名的案例当属IBM 为美国“洛斯 ·阿拉莫斯 ”国家实验室设计制造的 “RoadRunner”、克雷 (Cray) 的 “Red Storm”等等,在超级计算机 500 强排行榜上, AMD Opteron 平台占有相当重要

16、的地位。借助 HyperTransport 直连总线, Opteron 平台可实现高度弹性的扩展, 并可用于构建超级计算机系统当然, PC 不必考虑多路扩展的问题,先进连接架构的优势更多体现在内存性能以及可升级性。 我们知道, 芯片组中规格最经常变动的就是内存支持,现在内存控制器由处理器所整合,芯片组的功能仅剩下图形接口控制器/整合图形和I/O 扩展,这两个部分的功能都非常稳定,没有迫切升级的必要,而且处理器与芯片组连接的HyperTranport 总线也是非常稳定。换句话说,计算机的主板就变成一个规格稳定的承载平台,用户如果要进行硬件升级,只要更换处理器或升级内存即可。AMDK8 平台一开始

17、并没有很好地利用这一优势,它额外设计了如Socket 754、 Socket 939 等不同的插槽,直到Socket AM2 到来之后, K8 平台才充分利用到该连接架构可升级性强的优势,如我们既可以用单核Athlon64、也可以换为双核 Athlon64 X2 甚至四核 Athlon 64 X4 ,即将出台的 Socket AM2+ 接口也保持向下兼容。从用户的角度来看,选择 AMD 平台可以让计算机拥有更长的生命周期,相比之下,英特尔当前的 Core 2 Duo 平台就缺乏这个优势。尽管 AMD 拥有先进的连接架构,但 K8 平台在单机性能上已被Core 2 Duo 所大幅度抛不得用于商业

18、用途仅供个人参考下,这便是受到 K8 微架构落后之累。 而 Core 2 Duo 平台固然连接架构因循守旧, 但在 Core 微架构的帮助下,能获得全方位的性能领先。不过,来自市场的反馈并不如英特尔所愿:Core 2 Duo 平台增长速度不如预期,处于叫好不叫座的局面,AMD 性能落后的Athlon 64/X2系列则势头未减,很大程度上就在于 K8 平台先进的连接架构,更长的生命周期保障以及丰富的芯片组 /主板支援很容易就会让人产生好感;而英特尔平台高中低端泾渭分明,若你现在购买了低端平台, 那么就只能局限于低端的处理器和内存系统, 日后要通过升级来大幅提升性能几乎不可能 英特尔似乎持有保守僵

19、化的观念, 这不仅体现在市场定位上, 产品技术策略同样如此。AMD在多路系统的辉煌成功让英特尔意识到K8 直连架构的优越性,为此英特尔决定于 2008 年中期后开始引入类似的设计。即将内存控制器集成于CPU 内部,同时以一条“ CSI(全称为 Common Serial Interconnect) 高速”直连总线建立多处理器之间,以及处理器与I/O 芯片之间的互联,事实上,这其实只是K8 连接架构的翻版,但在效率一流的Core 微架构的辅助下,英特尔仍有能力实现平台性能的大幅度提升,AMD 固然可以拿出更有噱头的Fusion 混合处理器、 Torrenza 协处理器平台等更先进的连接架构,但如

20、果不及时拿出可以同Core 抗衡的新一代微架构,AMD 就很难在平台性能方面获得领先,更何况它的生产工艺整整比英特尔落后了一代。强者的到来 协处理器与混合处理器集成内存控制器、芯片间高速互联总线等特性代表了PC 连接架构优化的开始,但它远不是终结。上述两项技术都是以处理器作为系统中枢,图形和其他PCI Express 扩展只是作为常规的I/O 组件,在过去几年这套架构大概是没什么问题。但随着 DirectX 10 和统一渲染架构的引入, GPU 具备越来越强的可塑性,除了3D 图形渲染之后,GPU 所拥有的强大浮点性能可以用来完成诸如物理计算、流处理、 科学计算、 影像解码加速、图像处理加速等

21、等许多要求高计算性能的场合,但如此一来,GPU 便要与处理器交换大量的数据,尽管PCIExpress x16 总线 (芯片组 -GPU) 和 HyperTransport 总线 (CPU- 芯片组 )都足够快,但数据中转过程必然导致存在总线访问延迟较长的弊端。1.全方位出击 AMD Torrenza协处理器与Fusion 混合处理器架构AMD 再度发起了连接架构的革新,它首先提出Torrenza 协处理器平台,该平台仍然以HyperTransport 为连接中枢, 所不同的是应用范围被扩大了,它可以用于连接浮点协处理器、多媒体协处理器以及图形模块。这样,这类协处理器就能够通过HyperTran

22、sport 直接与处理器进行高速通讯, 协处理器所处的地位与主处理器完全对等。其中意义最大的当属图形系统,AMD 通过收购 ATI 成功地获得了高端图形业务,这样,它可以直接推出采用HyperTransport接口的高端显卡 AMD 现在已经推出 HyperTransport 3.0标准,数据传输频率可达到2.6GHz ,若仍采用 16 位接口,那么 GPU 与处理器之间可以10.4GB/s 的超高速进行低延时的数据交换,有效提升图形系统与主处理器的协作紧密程度,倘若我们此时借助GPU 来完成一些通用计算任务,它也能够更加轻松地完成。在这里,我们也不难发现PCI Express 总线不再必要,

23、它的作用被削弱为一些无关紧要的系统I/O 。不得用于商业用途仅供个人参考AMD Torrenza 协处理器平台,主处理器与协处理器同样借助HyperTransport 总线实现对等的高速直连Torrenza 是一套开放且极具弹性的平台,中高端GPU 可以做成外置的图形模块,而入门级别的 GPU 则可以直接集成于处理器内部,这便是 AMD 提出的 “Fusion混”合处理器计划。Fusion 的构想也许有些石破天惊,如图 7 所示,我们可以看到, GPU 与 CPU 功能直接耦合,两者共享二级缓存和内存控制器,等同于将双核处理器中的一个CPU 核心,直接更换为GPU单元。 在 Fusion 架构

24、中, GPU 与 CPU 拥有等同的权力, 它可以根据需要获得既定的二级缓存资源,也可以同内存系统进行高速通讯。事实上,此时显存与主内存也合而为一。这套连接架构最大的优点就在于具有极高的资源利用效率,假设系统搭载的是双通道DDR2 800 ,那么 CPU 与 GPU 都能获得12.8GB/s 的内存带宽,加上有高速二级缓存的帮助,GPU 性能可以获得最大限度的保障。相较而言,现行K8 整合平台都是将GPU 集成于北桥芯片内,北桥再通过HyperTransport 总线与 CPU 核心相连,然后通过 CPU 获得内存控制器的分享权,这套架构很难保证集成图形能够具有多么出色的内存性能。事实上,AM

25、D在设计K8 微架构时根本没有考虑到这一点,导致初期整合芯片组难以获得内存资源,图形性能极差, 虽然AMD 现在解决了这一问题,但集成图形的内存效率仍谈不上出色,与 Fusion 混合处理器根本不是一个层面的产品。AMD Fusion 混合处理器, CPU 与 GPU 地位相等,两者都可直接与内存控制器通讯,实现内存性能的最佳化Fusion 方案在成本方面也有明显的优势。由于功耗的原因,Fusion 只能整合入门级的GPU,但也足够 90以上的人群使用;而Fusion 的图形性能将直逼中端显卡,购买一块独立显卡不再那么必要;同时,由于芯片组的职能遭到削弱,单芯片设计将进一步流行,整机成本也都可

26、以进一步降低;另外,系统中现在只要Fusion 混合处理器,一枚I/O 芯片就可拥有完整的计算功能,整机可以轻松做到小型化,这些因素都能够显著降低整机的成本。Fusion 同时也具有更长的生命周期,若用户觉得有升级的必要,那么只要更换一枚处理器,就可以同时升级 CPU、图形和内存支持。从这些情况来看,Fusion 在移动领域、中低端消费市场、商用领域显然都拥有突出的优势,其中移动领域更是Fusion 的重中之重 在理想条件下, AMD 可以做到在25W 功耗内实现 CPU 、 GPU 和内存控制器功能,从而在平台功耗方面战胜对手, 为进入超轻薄和商用机型领域彻底扫除障碍!无论从何种角度考虑,

27、Fusion所代表的连接架构都拥有足够多的技术噱头,即便AMD 未来得及对 CPU 微架构做出质的改变,整体性能落后于对手,Fusion 依然能够扮演AMD 在移动市场的杀手角色。Fusion 的出台意味着计算机图形系统也拥有先进的连接架构。而在 CPU 方面, AMD 同样没有停步,很早就有关于AMDK9/K10 架构的研发消息,但至今AMD 一直守口如瓶。我们过去曾经获得这样的消息:K9/K10 将直接集成PCI Express 控制器,将I/O 设备与处理不得用于商业用途仅供个人参考器更紧密地联结为一体,这样做的技术难度并不大,至少原ATI 就掌握了单芯片40 个 PCIExpress

28、通道的技术能力,将其整合于处理器内完全可行。不过,我们不应指望集成PCI Express 控制器能带来多明显的性能改善,它的价值更多体现在降低平台成本,因为芯片组的职能进一步缩减,只要一枚拥有完整I/O 功能的南桥即可。由于南桥的磁盘接口、音频、网络、USB 2.0 等功能都不会频繁升级,一块主板即可应对整个架构生命的始终,当然这得在处理器接口保持稳定的前提下。如果你看到这一趋势,便会发现 AMD 平台的开放性大打折扣,除了像 NVIDIA这样拥有高端图形技术的芯片组厂商可以依靠SLI 来维持高端市场外,主流和低端市场将逐渐归AMD自家的芯片组掌控,VIA 、SiS 这样的三方厂商将不断失去机

29、会。也正是看到这一趋势,NVIDIA现在积极开发通用处理器技术,借此打造包含处理器、图形和芯片组的一体化平台,AMD 与英特尔也都在创建这样的平台,看来未来计算机市场的竞争也更多会是平台的对决,而计算机工业也很有可能重返封闭时代。2. “给跑车装上多个发动机 ”英特尔的协处理器平台英特尔所倡导的协处理器架构便是披露已久的Many Core 计划。 Many Core 的关键点是在处理器内集成数量庞大的加速单元,例如浮点加速器、多媒体加速器、 Java 解释器、 Flash加速器等等, 这些加速单元围绕着若干枚CPU 核心,接受来自CPU 的任务分派并将结果传回 与 AMD Torrenza/F

30、usion 的对等模式形成鲜明对比。英特尔Many Core 计划实际上采用“主 -从 ”模式,而且所集成的协处理器都是相对简单的加速单元,英特尔一开始并没有考虑将 GPU 和高性能浮点协处理器包含在内。但是面对AMD 收购 ATI 后带来的威胁,英特尔也积极寻求高端图形技术,并将推出类似“AMD Fusion ”的混合型处理器。到目前为止,英特尔没有详细披露它的混合处理器采用何种架构连接,英特尔初期更可能将GPU 芯片与CPU 芯片封装在一起,构成一个 MCM(Multi Chip Module) 多芯片模块。 但 GPU 与 CPU 通过何种方式尚不知晓,是否能够共享内存控制器也还有待观察,毕竟英特尔

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论