服务器硬件架构_第1页
服务器硬件架构_第2页
服务器硬件架构_第3页
服务器硬件架构_第4页
服务器硬件架构_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、从性能角度来看,处理器、内存和I/O这三个子系统在服务器中是最重要的,它 们也是最容易出现性能瓶颈的地方。目前市场上主流的服务器大多使用英特尔Nehalem、Westmere微内核架构的三个家族处理器:Nehalem-EP, Nehalem-EX和Westmere-EP下表总结了这些处理器的主要特性:Nehalem-EPWestmere-EPNehalem-EXNehalem-EX商业名称至强5500至强5600至强6500至强7500支持的最插座数2228每插座最大核心数4688每插座最大线程数8121616MB缓存(3级)8121824最大内存DIMM数181832128在本文中,我们将分

2、别从处理器、内存、I/O三大子系统出发,带你一起来 梳理和了解最新英特尔架构服务器的变化和关键技术。一、处理器的演变现代处理器都采用了最新的硅技术,但一个单 die(构成处理器的半导体材 料块)上有数百万个晶体管和数兆存储器。多个 die组织到一起就形成了一个硅 晶片,每个die都是独立切块,测试和用陶瓷封装的,下图显示了封装好的英特 尔至强5500处理器外观。图1英特尔至强5500处理器插座处理器是通过插座安装到 主板上的,下图显示了一个英特尔处理器插座,用 户可根据自己的需要,选择不同时钟频率和功耗的处理器安装到 主板上。图2英特尔处理器插座主板上插座的数量决定了最多可支持的处理器数量,

3、最初,服务器都只有一 个处理器插座,但为了提高服务器的性能,市场上已经出现了包含 2, 4和8个 插座的主板。在处理器体系结构的演变过程中,很长一段时间,性能的改善都与提高时钟 频率紧密相关,时钟频率越高,完成一次计算需要的时间越短,因此性能就越好。 随着时钟频率接近4GHz处理器材料物理性质方面的原因限制了时钟频率的进 一步提高,因此必须找出提高性能的替代方法。核心晶体管尺寸不断缩小(Nehalem使用45nm技术,Westmere使用32nm技术), 允许在单块die上集成更多晶体管,利用这个优势,可在一块die上多次复制最 基本的CPU核心),因此就诞生了多核处理器。现在市场上多核处理器

4、已经随处可见,每颗处理器包含多个CPU核心(通常是2,4,6,8个),每个核心都有一级缓存(L1),通常所有的核心会共享二级 (L2)、三级缓存(L3)、总线接口和外部连接,下图显示了一个双核心的CPU架构。Dual 匚PU 匚ore Chip图3双核心CPU架构示意图现代服务器通常提供了多个处理器插座,例如,基于英特尔至强5500系列(Nehalem-EP)的服务器通常包含两个插座,每个插座四个核心,总共可容纳八个 核心,而基于英特尔至强7500系列(Nehalem-EX)的服务器通常包含八个插座, 每个插座八个核心,总共可容纳 64个核心。下图显示了更详细的双核处理器架构示意图,CPU勺主

5、要组件(提取指令,解码和执行)都被复制,但系统总线是公用的。System Bus图4双核处理器的详细架构示意图L2 Cache and COHMO-线程为了更好地理解多核架构的含义,我们先看一下程序是如何执行的,服务器 会运行一个内核(如Linux,Win dows的内核)和多个进程,每个进程可进一步细 分为线程,线程是分配给核心的最小工作单元,一个线程需要在一个核心上执行, 不能进一步分割到多个核心上执行。下图显示了进程和线程的关系。P#5P#1Tfl17Iff 18er5?SB .comT#x Thread xP 即:Process y图5进程和线程的关系进程可以是单线程也可以是多线程的,

6、单线程进程同一时间只能在一个核心 上执行,其性能取决于核心本身,而多线程进程同一时间可在多个核心上执行, 因此它的性能就超越了单一核心上的性能表现。因为许多应用程序都是单线程的,在多进程环境中,多插座、多核心的架构 通常会带来方便,在虚拟化环境中,这个道理一样正确, Hypervisor允许在一 台物理服务器上整合多个逻辑服务器,创建一个多进程和多线程的环境。英特尔超线程技术虽然单线程不能再拆分到两个核心上运行,但有些现代处理器允许同一时间 在同一核心上运行两个线程,每个核心有多个并行工作能力的执行单元, 很难看 到单个线程会让所有资源繁忙起来。下图展示了英特尔超线程技术是如何工作的,同一时间

7、在同一核心上有两个 线程执行,它们使用不同的资源,因此提高了吞吐量。PhysicalprocessorsLo-gical processorvisible to OSTime 图6英特尔超线程技术工作原理HEel.o亡上:jj-|Physical processor resource allocation Throughput前端总线在多插座和多核心的情况下,理解如何访问内存和两个核心之间是如何通信 的非常重要,下图显示了过去许多英特尔处理器使用的架构,被称作前端总线 (FSB)架构。在FSB架构中,所有通信都是通过一个单一的,共享的双向总线发 送的。在现代处理器中,64位宽的总线以4倍速总线

8、时钟速度运行,在某些产 品中,FSB信息传输速率已经达到1.6GT/S。Memory lnt.?rf aceChipset 丿server, itl 66 .com图7基于前端总线的服务器平台架构FSB#所有处理器连接到芯片组的叫做北桥(也叫做内存控制器中枢),北桥 连接所有处理器共享访问的内存。这种架构的优点是,每个处理器都可以访问其它所有处理可以访问的所有内 存,每个处理器都实现了缓存一致性算法, 保证它的内部缓存与外部存储器,以 及其它所有处理器的缓存同步。但这种方法设计的平台要争夺共享的总线资源,随着总线上信号传输速度的 上升,要连接新设备就变得越来越困难了, 此外,随着处理器和芯片组

9、性能的提 升, FSB上的通信流量也会上升,会导致 FSB变得拥挤不堪,成为瓶颈。双独立总线为了进一步提高带宽,单一共享总线演变成了双独立总线架构(DIB),其架构如下图所示,带宽基本上提高了一倍。图8基于双独立总线的服务器平台架构但在双独立总线架构中,缓存一致性通信必须广播到两条总线上,因此减少 了总有效带宽,为了减轻这个问题,在芯片组中引入了“探听过滤器”来减少带 宽负载。如果缓存未被击中,最初的处理器会向FSB发出一个探听命令,探听过滤器 拦截探听,确定是否需要传递探听给其它 FSB如果相同FSB上的其它处理器能 满足读请求,探听过滤器访问就被取消,如果相同FSB上其它处理器不满意读请

10、求,探听过滤器就会确定下一步的行动。 如果读请求忽略了探听过滤器,数据就 直接从内存返回,如果探听过滤器表示请求的目标缓存在其它 FSB上不存在,它将向其它部分反映探听情况。如果其它部分仍然有缓存,就会将请求路由到该 FSB如果其它部分不再有目标缓存,数据还是直接从内存返回,因为协议不支 持写请求,写请求必须全部传播到有缓存副本的所有FSB上。专用高速互联在双独立总线之后又出现了专用高速互联架构(Dedicated High-SpeedInterconnect , DHSI),其架构如下图所示。Up taPI 旅fiME BandwidthMemory InterfjceSnoop filte

11、rC hipset服冬器频這5&rver.it158 .com图9基于DHSI的服务器平台架构基于DHSI的平台使用四个独立的FSB每个处理器使用一个FSB引入探听 过滤器实现了更好的带宽扩容,FSB本身没多大变化,只是现在变成点对点的配 置了。使用这种架构设计的平台仍然要处理快速 FSB上的电信号挑战,DHSI也增 加了芯片组上的针脚数量,需要扩展 PCE路线,才能为所有FSB建立好连接。英特尔QuickPath互联随英特尔酷睿i7处理器引入了一种新的系统架构,即著名的英特尔QuickPath互联(QuickPath Interconnect, QPI),这个架构使用了多个高速单向连

12、接将处理器和芯片组互联,使用这种架构使我们认识到了: .多插座和多核心通用的内存控制器是一个瓶颈 引入多个分布式内存控制器将最符合多核处理器的内存需要; 在大多数情况下,在处理器中集成内存控制器有助于提升性能 ; 提供有效的方法处理多插座系统一致性问题对大规模系统是至关重要 的。下图显示了一个多核处理器,集成了内存控制器和多个连接到其它系统资源 的英特尔QuickPath的功能示意图。DOR3aProcessor CoresCrossbar RouterNon-routing global link h interface3ioluot-J心龙E26U苦一server .itl 68 .com

13、iniferconnecb图10集成英特尔QPI和DDR 3内存通道的处理器架构在这个架构中,每个插座中的所有核心共享一个可能有多个内存接口的 IMC(lntegrated Memory Controllers,集成内存控制器)。IMC可能有不同的外部连接:.DDR 3内存通道 -在这种情况下,DDR 3 DIMM1接连接到插座,如下 图所示,Nehalem-EP(至强5500)和 Westmere-EP(至强5600)就使用了这种架构。2BF3BDOR 阳"MH* C hfln nef>oCore乏狂一 QS歸-_ECO3AJQW 晏 育一普 5££祢的“

14、眼異疊頻這server.itlGe.corTt merc<3nnifEt图11具有高速内存通道的处理器 高速串行内存通道 -如下图所示,在这种情况下,外部芯片(SMBScalable Memory Buffer ,可扩展内存缓存)创建DDR 3内存通道,DDR 3 DIMM 通过这个通道连接,Nehalem-EX使用了这种架构。Nehalem LXNehalem. EXNrhInm-FXBuxbi?ro- LXB<»xLx>rv-EXNrhlom-FXPGe 2.0這 server.itl SB .com图12 四插座Nehalem-EXIMC和插座中的不同核心使用

15、英特尔 QPI相互通信,实现了英特尔QPI的处 理器也可以完全访问其它处理器的内存, 同时保持缓存的一致性,这个架构也叫 做“缓存一致性 NUMA(Non-Uniform Memory Architecture 非统一内存架构)”, 内存互联系统保证内存和所有潜在的缓存副本总是一致的。英特尔QPI是一个端到端互联和消息传递方案,在目前的实现中,每个连接 由最高速度可达25.6 GB/S或6.4 GT/s的20条线路组成。英特尔QPI使用端到端连接,因此在插座中需要一个内部交叉 路由器,提供 全局内存访问,通过它,不需要完整的连接拓扑就可以构建起系统了。图12显示了四插座Nehalem-EX配置

16、,每个处理器有四个QPI与其它三个处 理器和Boxboro-EX芯片组互联。二、内存子系统电子业在内存子系统上付出了艰辛的努力,只为紧跟现代处理器需要的低访 问时间和满足当今应用程序要求的高容量需求。解释当前内存子系统之前,我们先了解一下与内存有关的一些常用术语。 .RAM(随机访问存储器) .SRAM(静态 RAM) .DRAM(动态 RAM) .SDRAM(同步 DRAM) .SIMM(单列直插式内存模块) .DIMM(双列直插内存模块) .UDIMM(无缓冲DIMM) .RDIMM(带寄存器的DIMM) .DDR(双数据速率SDRAM) .DDR2(第二代 DDR).DDR3(第三代DD

17、R)电子器件工程联合委员会(Joint Electron Device Engineering Council:JEDEC是半导体工程标准化机构,JEDEC21, 22定义了从256位SRAM最新的 DDR3莫组的半导体存储器标准。现代服务器的内存子系统是由RAM组成的,允许数据在一个固定的时间按任 意顺序访问,不用考虑它所在的物理位置,RAM可以是静态的或动态的。SRAMSRAM静态RAM通常非常快,但比DRAM的容量要小,它们有一块芯片结构 维持信息,但它们不够大,因此不能作为服务器的主要内存。DRAMDRAM动态RAM是服务器的唯一选择,术语“动态”表示信息是存储在集成 电路的电容器内的

18、,由于电容器会自动放电,为避免数据丢失,需要定期充电, 内存控制器通常负责充电操作。SDRAMSDRAM同步DRAM是最常用的DRAM SDRAI具有同步接口,它们的操作与时 钟信号保持同步,时钟用于驱动流水线内存访问的内部有限状态机, 流水线意味 着上一个访问未结束前,芯片可以接收一个新的内存访问,与传统DRAM目比,这种方法大大提高了 SDRAM的性能。DDR和DDR3是两个最常用的SDRAMF图显示了一块DRA芯片的内部结构。图13 DRAM芯片的内部结构内存阵列是由存储单元按矩阵方式组织组成的,每个单元都一个行和列地址, 每一位都是存储在电容器中的。为了提高性能,降低功耗,内存阵列被分

19、割成多个“内存库(bank) ”,下图显示了一个4-bank和一个8-bank的内存阵列组织方式。DRAMAir曲Column4阳町阳Datd in/Out tfu电巧 PJEZ Sen Ampsserver.it l BE .com图14内存bankDDR2芯片有四个内部内存 bank, DDR亦片有八个内部内存 bankDIMM需要将多个内存芯片组装到一起才能构成一个内存子系统,它们就是按著名的DIMM双列直插内存模块)组织的。下图显示了内存子系统的传统组织方式,例如,内存控制器连接四个DIMM 每一个由多块DRAMS片组成,内存控制器有一个地址总线,一个数据总线和一 个命令(也叫做控制)

20、总线,它负责读,写和刷新存储在 DIMM中的信息。IData Bus(64 blTS) z*MemoryLur str jll-jfAddress Bus and Commands-Clock你的腮务器频适server.itH ES.com图15传统内存子系统示例下图展示了一个内存控制器与一个 DDR3 DIMM连接的示例,该DIMM由八块 DRAM芯片组成,每一块有8位数据存储能力,每存储字(内存数据总线的宽度) 则共有64位数据存储能力。地址总线有15位,它可在不同时间运送“行地址” 或“列地址”,总共有30个地址位。此外,在 DDR3芯片中,3位的bank地址 允许访问8个bank,可被

21、视作提高了控制器的地址空间总容量,但即使内存控 制器有这样的地址容量,市面上DDR3芯片容量还是很小。最后,RAS(RowAddress Selection,行地址选择),CAS(Column Address Selection,列地址选择), WE(Write Enabled,写启用)等都是命令总线上的。Address (141, Bmk 2X)1 RAS&.CM+, WEi. 0 CKE CK dciDalj PG f Bvut 啊 尸 Maunie j DmlJi g# 沖问 56rD*uv:4<?mz;曲“:Data hlask你戲服算鶉韻這 server .it168

22、.com图16 DDR3内存控制器示例F面是一个DIMM勺示意图图17 DIMM示意图上图显示了 8个DDR3芯片,每个提供了 8位信息(通常表示为x8)ECC和 Chipkill数据完整性是服务器架构最关注的一个点,很多时候需要安装额外的DIMM检测和恢复内存错误,最常见的办法是增加8位ECC纠错码),将存储字从64位扩大到72位,就象海明码一样,允许纠正一位错误,检测两位错误,它们也 被称作 SEC(Single Error Correction,单纠错)/DED(Double Error Detection, 双检错)。先组织存储字再写入到内存芯片中,EEC可以用于保护任一内存芯片的失效

23、, 以及单内存芯片的任意多位错误,这些功能有几个不同的名字。 .Chipkill是IBM的商标 .Oracle称之为扩展EEC .惠普称之为Chipspare .英特尔有一个类似的功能叫做x4单设备数据校正(Intel x4 SDDC)Chipkill通过跨多个内存芯片位散射 EEC字的位实现这个功能,任一内存 芯片失效只会影响到一个ECC位,它允许重建内存中的内容。下图了显示了一个读和写128位数据的内存控制器,增加EEC后就变成144 位了,144位分成4个36位的存储字,每个存储字将是SEC/DED如果使用两个 DIMM每个包含18个4位芯片,可以按照下图所示的方法重组位,如果芯片失 效

24、,每4个字中只会有一个错误,但因为字是SEC/DED勺,每4个字可以纠正一 个错误,因此所有错误都可以被纠正过来。Divide 14A bits into 4 words144b36b wend3fib word36 b iMordInterleave thf Modules suchthateach word cental1 htfrem x4 moduleJGb word 3fibwonJ 36bword 36b word图 18 Chipkill 示例内存Rank我们重新回到DIMM是如何组织的,一组产生64位有用数据(不计ECC的芯 片叫做一个Rank,为了在DIMM±存储更

25、多的数据,可以安装多个Rank,目前有 单,双和四个Rank的DIMM,下图显示了这三种组织方法。上图最前面显示的是一个单 Rank的RAM由9个8位芯片组成,一般表示 为1Rx8,中间显示的是一个1Rx4,由18个4位芯片组成,最后显示的是一个 2Rx8,由18个8位芯片组成。内存Rank不能使用地址位选择,只能使用芯片选择,现代内存控制器最多 可达8个独立的芯片选择,因此最大可支持 8个Rank。UDIMM和 RDIMMSDRAMIMM进一步细分为UDIMM无缓冲DIMM和 RDIMM带寄存器的DIMM) 在UDIMM中,内存芯片直接连接到地址总线和控制总线,无任何中间部分。RDIMM在传

26、入地址和控制总线,以及 SDRAI之间有额外的组件(寄存器),这 些寄存器增加了一个延迟时钟周期, 但它们减少了内存控制器上的电负荷, 允许 内存控制器安装更多的DIMMRDIMM!常更贵,因为它需要附加组件,但它们在服务器中得到了普遍使用, 因为对于服务器来说,扩展能力和稳定性比价格更重要。虽然理论上带寄存器/无缓冲的和ECC非ECC DIMM!可以任何组合的,但 大多数服务器级内存模块都同时具有 ECC和带寄存器功能。下图显示了一个 个内存芯片组成。ECCDIMM由 9ECCRDIM M寄存器是箭头指向的芯片,这个图 20 ECC RDIMMDDR2和 DDR3第一代SDRA技术叫做SDR

27、(Single Data Rate),表示每个时钟周期传输一个数据单元,之后又出现了 DDR(Double Data Rate)标准,其带宽几乎是SDR的两倍,无需提高时钟频率,可在时钟上升沿和下降沿信号上同时传输数据,DDR技术发展到今天形成了两套标准:DDR2W DDR3DDR 2 SDRAI的工作电压是1.8V,采用240针DIMM模块封装,通过改善总 线信号,它们可以以两倍于 DDR的速度工作在外部数据总线上,规则是: .每DRAM时钟数据传输两次 每次数据传输8个字节(64位)F表显示了 DDR2标准。表 2. DDR2 DIMM标准名称DRAM时钟频率每秒传输的数据(百 万)模块名

28、称峰值传输速率 GB/sDDR2-400200 MHz J400PC2-32003.200DDR2-533 266 MHz533PC2-42004.266DDR2-667333 MHz667PC2-5300 PC2-54005.333DDR2-800400 MHz800PC2-64006.400DDR2-106&33 MHz1,066PC2-8500 ?PC286008.533DDR 3 SDRAI在 DDR2勺基础上对以下这些方面做了改进: .将工作电压降低到1.5v,减少功耗; 通过引入0.5-8Gb的芯片增加了内存密度,单 Rank的容量最大可达 16GB; 增加了内存带宽,内存

29、突发长度从4字增加到8字,增加突发长度是为 了更好地满足不断增长的外部数据传输速率,随着传输速率的增长,突发长度(传 输的大小)必须增长,但不能超出DRAM核心的访问速度。DDR3 DIMM! 240针,数量和尺寸都和 DDR2-样,但它们在电气特性上是 不兼容的,缺口位置不一样,未来,DDR3各工作在更快的时钟频率,目前,市 面上存在DDR3-800 1066和1333三种类型。下表对不同的DDR3 DIMM模块进行了总结。表 3. DDR3 DIMM标准名称RAM时钟频率每秒传输的数据(百 万)模块名称峰值传输速率GB/sDDR3-800400 MHz800PC3-64006.400DDR

30、3-1066533 MHz1,066PC3-85008.533DDR3-1333 667 MHz 二1,333PC3-1060010.667DDR3-1600 800 MHz -1,600PC3-1280012.800DDR3-1866L933 MHz1,866PC3-1490014.900三、I/O子系统I/O子系统负责在服务器内存和外部世界之间搬运数据,传统上,它是通过 服务器主板上兼容PCI标准的I/O总线实现的,开发PCI的目的就是让计算机系 统的外围设备实现互联,PCI的历史非常悠久,现在最新的进化版叫做 PCI-Express。外围组件互联特殊兴趣小组(Peripheral Com

31、ponent Interconnect Special Interest Group,PCI-SIG)负责开发和增强 PCI标准。PCI ExpressPCI Express(PCIe)是一个计算机扩展接口卡格式,旨在替代PCI,PCI-X和AGP它消除了整个所有I/O引起的限制,如服务器总线缺少I/O带宽,目前所有 的操作系统都支持PCI Express 0上一代基于总线拓扑的PCI和PCI-X已经被点到点连接取代,由此产生的拓 扑结构是一个单根联合体的树形结构,根联合体负责系统配置,枚举PCIe资源,管理中断和PCIe树的错误。根联合体和它的端点共享一个地址空间,通过内存 读写和中断进行通

32、信。PCIe使用点到点链接连接两个组件,链接由N个通道组成,每个通道包含两对电路,一对用于传输,另一对用于接收。南桥(也叫做ICH: I/O Controller Hub)通常会提供多个PCIe通道实现根联合体的功能。每个通道连接到一个 PCI Express端点,一个PCI Express Switch,一个 PCIe或一个PCIe桥,如下图所示。图21 PCI Express 根联合体根据通道编号使用不同的连接器,下图显示了四个不同的连接器,及单/双向时的速度。PCI ExresExample ConnectorsBandwidthX1 5inqle Direction: 7 1 Gbp

33、JCXl r;>i 片Dual blr«tioinK: 5 <jljp&/4D0Bandwidthx16 SingFe Oir&ttjDn: 40Gbps. < ? GBpsDual Directions: sOGbp$/& 4 G&p$ 你的服第豁额道serYTEr.itl eSjcorn图22 PCI Express 连接器在PCIe 1.1中,通道运行在2.5Gbps,可同时部署16条通道,如下图所示, 可支持的速度从2Gbps(1x)到32Gbps(16x),由于协议开销,支持10GE接口需要 8x。xlTrani fer R

34、jte1 L«ne; -i T bn 砂邙drTransfer RjtfX2 Hh.imi 2 b-iPCleCnlTrenffer RjfleXi 2 >2 Lumiii 用bnl p-rLyUc图 23 PCI Express 通道PCIe 2.0(也叫第二代PCIe)带宽提升了一倍,从 2Gbit/s提高到4Gbit/s , 通道数量也扩大到了 32x, PCIe 4x就足以支持10GE了。PCIe 3.0将会再增加一倍带宽,最终的 PCIe 3.0规范预计会在2010年年 中发布,到2011年就可看到支持PCIe 3.0的产品,PCIe 3.0能有效地支持 40GE下一

35、代以太网标准)。目前所有的PCI Express产品都是单根的(Single Root ,SR),如控制多个 端点的单I/O控制器中枢(ICH)。多根(Multi Root,MR也发展了一段时间,但目前还未见到曙光,由于缺少 元件和关注,目前还有诸多问题。SR-IOV(Single Root I/O Virtualization,单根 I/O 虚拟化)是 PCI-SIG开发的另一个相关标准,主要用于连接虚拟机和Hypervisor 。四、英特尔微架构英特尔Nehalem和 Westmere微架构,也被称为 32和45nm酷睿微架构。Nehalem微架构于2009年初引入了服务器,也是第一个使用

36、45nm硅技术的 架构,Nehalem处理器可应用于高端桌面应用程序,超大规模服务器平台等,代 号名来源于美国俄勒冈州的Nehalem河。根据英特尔的说法,处理器的发展速度就象嘀嗒 (Tick and Tock)钟声的节 奏一样,如下图所示,Tick是对现有处理器架构进行缩小,而 Tock则是在前一 代技术上发展起来的全新架构, Nehalem就是45nm的Tock,Westmere就是紧跟 Nehalem的 32nm Tick 。SandyIWerom Penryn Nehalem Westmere BridgeNEWNEWNEWMEWNEWPt*哼酪Mjo&airchilecl u

37、-reProcess1 cr-Qach*tertLi ae65nm45nm45nm32nm32 nmTockTkkTock 竹附频道图24英特尔“嘀嗒”处理器开发模式Nehalem和Westmere在不同需求之间取得了平衡:.与新兴应用程序(如多媒体)相比,现有应用程序的性能对轻量级或重量级应用程序的支持同样良好 可用范围从笔记本到服务器全包括。平台架构这可能是近10年来英特尔最大的平台架构转变,包括多个高速点到点连接, 如英特尔的QuickPath互联,集成内存控制器(IMC)等。下图显示了一个双插座英特尔至强 5500(Nehalem-EP)系统示例,请注意CPU 插座之间,以及CPU插座

38、与I/O控制器之间的QPI链接,内存DIMM直接附加到 CPU插座。I/O C iyi聊bufg fPNehalemFPPCIGen 1,2PCIGen 1,2uDMI1CH li/OC-sncroller Hub.-你的it168 .cam图25双插座英特尔至强5500(Nehalem-EP)集成内存控制器(IMC)在Nehalem-EP和 Westmere-EP中,每个包含集成内存控制器(IMC)的插座支 持三个DDR站存通道,与DDR2相比,DDR站存运行在更高的频率,因此它具 有更高的内存带宽。此外,对于双插座架构,有两套内存控制器,所有这些改进 与前一代英特尔平台相比,带宽提高了3.

39、4倍,如下图所示。Stream Bandwidtfi MbytesSec (Triad)33376? 4 if7j97761"咼1_ITM耶區)胡艮鬻聘郑第A孚螢2霑£.亡呦图26 RAM带宽随着时间的推移,带宽以后还会继续增加,有了集成的内存控制器后,延迟 也减小了。其功耗也减少了,因为DDR3勺工作电压是1.5V,DDR2是 1.8V,功耗与电 压的平方成正比,因此电压降低 20%功耗就减少40%最后,IMC支持单,双和四 Rank RDIMM和UDIMMNehalem-EX有一个类似的,但不完全相同的架构,在Nehalem-EX中,每个插座有两个IMC,每个IMC支持

40、两个英特尔可扩展内存互联(Scalable Memory Interconnects , SMI)连接到两个可扩展内存缓冲区(Scalable MemoryBuffers , SMB)每个插座就可以连接到四个 SMB如下图所示,每个 SMB有两个DDR通 线,每条总线连接到两个 DIMM因此每个插座可连接的 RDIMM、量就是16。4xSMI£££gwI1_1§CT图 27 SMI/SMBNehalem-EX系统的总内存容量与插座数量,以及 RDIMM勺容量总结如下表 所示。表4. Nehalem-EX内存容量4GB RDIMM8GB RDIMM16GB

41、 RDIMM2 sockets128 GB256 GB512 GB4 sockets256 GB512 GB1 TB8 sockets512 GB1 TB2 TB英特尔QuickPath互联(QPI)所有的通信架构都从总线架构向点到点连接演变, 因为点到点连接架构具有 更快的速度,更好的扩展性,在Nehalem中,英特尔QuickPath互联已经取代了 前端总线,如下图所示。19Link19图28英特尔QPI英特尔QuickPath互联是一个一致的点到点协议,不局限于任何特定的处理 器,可在处理器,I/O设备和其它设备,如加速器之间提供通信。可用的QPI数量取决于处理器的类型,在 Nehale

42、m-EP和Westmere-EP中, 每个插座有两个QPI,如图25所示,Nehalem-EX支持四个QPI,允许更多无缝 的拓扑结构,如下图所示。RXLanesRX LanesTXLanesRcvdCIk20 Data Lanes Clock in Each Direction84 Total Signal = Link-E&dn Di orpAtkilLane1TXLanesf Ith k flurii .:; Thi' 11 :sb -萌禺-.务器頻這 爭亡rv&r.itlGC.ucirnFwdCIk>FwdCIk4 Processors8 Processo

43、rs3 peer* i rwp4 pe«r« al I hpcIO HUBs&rve=r 卅 曲 ariNewSSE4.2 inyitdcnomImproved Lof*Additional CachrngSupportHierarctiyBetter Branch丄-二;1 1 *ExutionlUnitfLi DattiCcchffL2 Cache & JftfrruptServjcjnj川 7$ .Memory Ordering .£t fjreruf/onPagingOut'of-Ordtr/nirrucTfonBranch Pre

44、dictionSthedulirtg & RerirvmentDecode 8( Microcodetnstructicr Ferdr &U Citche.百.1 M._j RBuffers图29 Nehalem-EX拓扑结构英特尔至强7500处理器也与第三方节点控制器兼容,可以扩大到8个插座以外,实现更大规模的扩展。CPU架 构在Nehalem中,英特尔通过一些技术革新,增加了每个CPU每秒执行的指令 数,如下图所示。Simulttineow Mitlti-ThreadingVirt图30 Nehalem微架构创新其中有些创新是不言自明的,我们将集中介绍最重要的性能和功耗方面

45、的创 新。在比较性能和功耗时,通常是1%的性能增强就会增多3%勺功耗,因为减少 1%的电压,功耗几乎总是降低3%英特尔最重要的创新就是增强1%勺性能,而 功耗仅增多了 1%英特尔超线程技术英特尔超线程技术(HT)可在相同内核上同时运行多个线程,在 Nehalem/Westmere中实现了两个线程,提高了性能和能源效率。超线程的基本思想是增加每个执行单元的复杂度, 对于单线程,要保持执行 单元繁忙是很困难的,通过在相同核心上运行两个线程,让所有资源保持忙碌的 可能性更大,这样整体效率就提高了,如下图所示,超线程使用的领域非常有限 (不到5%),但在多线程环境中极大地提高了效率,超线程也不能取代多

46、核心, 它是对核心的合理补充。Th心日Thread 2Th堆ad上Thread 4吓鬧d 5Thread 6CoreThread SNehalem你费服嶄撇詹威屈*1图31英特尔超线程技术缓存分级一个理想的内存系统的需求是它应该有无限的容量,无限的带宽和零延迟, 当然没有人知道如何构建这样的系统,最接近的方法是使用分级的内存子系统, 从大到小,从慢到快设计缓存级别,在 Nehalem中,英特尔将缓存层增加到了 3 层,如下图所示。CoreCare盃住 U kcadm j32H F 0 ccrcfrf D ccichcD cochc1256k L2 cache.J256k L2 cache da

47、ta +苗比256k 12 cache dma + Jnjf.data 4 Jnsr.Fo r cJI appika twnsind 切偲 ca 曲电 po位y toto shareminimi在 traffic from inoopsf'.' 丫 服雰需频這 &erver itl GSjcmh图32缓存分级结构与英特尔以前的设计相比,一级缓存(L1,指令和数据)没有发生变化,在英 特尔过去的设计中,所有内核共享二级缓存(L2),如果核心数量限制为2,那这 种设计倒是可行的,但Nehalem将核心数增加到了 4或8,二级缓存不能再继续 共享下去,因为带宽和仲裁请求都会变

48、多(可能会达到8倍),为此,英特尔在 Nehalem中为每个核心独立增加了二级缓存(指令和数据),现在核心之间共享的 只有三级缓存(L3) 了。模块Nehalem采用了模块化设计,核心,缓存和英特尔 QPI都是组成Nehalem处 理器的模块实例,如图30所示。这些模块都是独立设计的,它们可以工作在不同频率,不同电压下,将模块 粘接在一起的是一种新的同步通信协议, 它提供了非常低的延迟,以前曾尝试过 异步协议,事实证明那样做的效率非常低。集成功率门限这是一种电源管理技术,它是“时钟门控”技术的进化版本,所有现代英特 尔处理器都使用了时钟门控技术, 遇到空闲逻辑时,时钟门控会自动关闭时钟信 号,

49、从而消除了开关 电源,但仍然存在漏电流,漏电流引起了无用的功耗。功率门控代替了时钟门控,让一个空闲的核心消耗的电力几乎为零, 如下图 所示,对于软件和应用程序来说这完全是透明的。Voltage (Cores)t1CaredCoralCareiCoreJMem&ry-Cithe, I/OVoltageJ 隔seryieri1 關*血图33 Nehalem功率门控尿纽low r岀忌诒址亡 packagemetal deposited on Silicon io low on-rp 5 is tan refer power ga$p典诂li眸茂ultr(y lOw |电抽均炉 iransis

50、tor developed for high off're si stance for从技术角度来看实现功率门控是很难的,传统的45nm工艺就有明显的泄露, 它需要新的晶体管技术和大量的铜层(7mm),以前可从来没有这么做过,如下图 所示。你的服雰盟册暮' seieritl 68 .corn图34功率门控晶体管Nehalem-EP和Westmere-EP都拥有“动态的”功率门控能力,当核心不需 要执行工作负载时,它可以完全关掉电源,当工作负载需要核心的计算能力时, 核心的电源又重新激活。Nehalem-EX拥有“静态的”功率门控功能,当个别核心失去工作能力时, 核心电源被完全关

51、闭,例如,当8核心变成6核心时,这些被停用的核心不能重新打开。对于前一代处理器,在工厂中停用的核心仍然会消耗一些电力,但在 Nehalem-EX中,电源是完全关闭的。电源管理功率传感器是建设电源管理系统的关键,上一代英特尔处理器内置有热传感 器,但没有功率传感器,Nehalem既有热传感器又有功率传感器,通过集成的微 控制器(PCU)负责电源管理和监控,如下图所示。nsorsrwi5RnI time sensors for(urrenu poweruSe rt$on -Flexibility enables »phiiiticated rigorithm tuned for cune

52、nt 口pewiing condition-服务器顒這 server d i 68 .comprupriurymicfocontroikrShifts cGncrol from hardware embedded血內删孑疋囲Vet5Fr旳嘆1Sensors*LPLLJ*II- 1F IJVccBFr«qSe ruon Uncore LLC图 35 电源控制单元(Power Control Un it,PCU)英特尔Turbo Boost技术功率门控和电源管理是英特尔 Turbo Boost技术的基础组件,当操作系统需 要更好的性能时可以使用英特尔的 Turbo Boost模式,如果条

53、件允许(足够的制 冷和供电能力),例如,因为一或多个核心被关闭,英特尔 Turbo Boost会提高 活动核心的频率(以及功耗),从而提高核心的性能,如下图所示,但它算不上一 个巨大的改进(3%-11%),但在无线程,不是所有核心都被并行使用的环境中, 它 还是很有价值的。每上升一步,频率提高 133Mhz4C Turbo亡4匚TurboAH gfz 申Haw tir “rtf frequencyJ目OSAl! ror«4>p小汁忡Jt心iwr皿回 may 伸 pftrp are ren higher我IY社 F Secern图36英特尔Turbo Boost技术上图显示了三个

54、不同的可能性,正常情况下,所有核心都运行在标称频率(2.66GHz),在“ 4CTurbo”模式下,所有核心的频率上升一步(达到了 2.79GHz), 在“<4C Turbo”模式下,两个核心的频率上升了两步(达到了 2.93GHz)。四、硬件辅助虚拟化英特尔虚拟化技术(Virtualizati onTech no logy,VT)扩展了核心平台架构,可以更好地支持虚拟化软件,如VM虚拟机)和Hypervisor(也叫做虚拟机监视 器),如下图所示。rAp-fJ/c曲 $hdriAppUcatiofl sAppiicaifons一JosLCPU Memory(VJrtuaVirtu at Mirhinp Mn 门汁门(VMMjDisk .itlE3Pcorn- " - - , Platform H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论