服务器硬件架构

上传人：w*** IP属地：境外上传时间：2021-05-10 格式：DOCX 页数：43 大小：1.27MB 积分：20 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、精品文档从性能角度来看，处理器、内存和I/O这三个子系统在服务器中是最重要的，它们也是最容易出现性能瓶颈的地方。目前市场上主流的服务器大多使用英特尔 Nehalem、Westmere微内核架构的三个家族处理器：Nehalem-EP, Nehalem-EX 和Westmere-EP下表总结了这些处理器的主要特性： Nehalem-EP Westmere-EP Nehalem-EX Nehalem-EX 商业名称至强5500 至强5600 至强6500 至强7500 支持的最插座数 2 2 2 8 每插座最大核心数 4 6 8 8 每插座最大线程数 8 12 16 16 MB缓存（3级） 8

2、 12 18 24 最大内存DIMM数 18 18 32 128 在本文中，我们将分别从处理器、内存、I/O三大子系统出发，带你一起来梳理和了解最新英特尔架构服务器的变化和关键技术。、处理器的演变现代处理器都采用了最新的硅技术，但一个单 die（构成处理器的半导体材料块）上有数百万个晶体管和数兆存储器。多个 die组织到一起就形成了一个硅晶片，每个die都是独立切块，测试和用陶瓷封装的，下图显示了封装好的英特尔至强5500处理器外观。图1英特尔至强5500处理器插座处理器是通过插座安装到主板上的，下图显示了一个英特尔处理器插座，用户可根据自己的需要，选择不同时钟频率和功耗

3、的处理器安装到主板上。 f ” ! v J f A* 精品文档图2英特尔处理器插座主板上插座的数量决定了最多可支持的处理器数量，最初，服务器都只有一个处理器插座，但为了提高服务器的性能，市场上已经出现了包含 2, 4和8个插座的主板。在处理器体系结构的演变过程中，很长一段时间，性能的改善都与提高时钟频率紧密相关，时钟频率越高，完成一次计算需要的时间越短，因此性能就越好。随着时钟频率接近4GHz处理器材料物理性质方面的原因限制了时钟频率的进一步提高，因此必须找出提高性能的替代方法。核心晶体管尺寸不断缩小（Nehalem使用45nm技术，Westmere使用32nm技术），

4、允许在单块die上集成更多晶体管，利用这个优势，可在一块die上多次复制最基本的CPU核心），因此就诞生了多核处理器。精品文档现在市场上多核处理器已经随处可见，每颗处理器包含多个CPU核心（通常是2，4，6，8个），每个核心都有一级缓存（L1），通常所有的核心会共享二级（L2）、三级缓存（L3）、总线接口和外部连接，下图显示了一个双核心的CPU架构。图3双核心CPU架构示意图现代服务器通常提供了多个处理器插座，例如，基于英特尔至强5500系列（Nehalem-EP）的服务器通常包含两个插座，每个插座四个核心，总共可容纳八个核心，而基于英特尔至强7500系列（Nehalem-

5、EX）的服务器通常包含八个插座，每个插座八个核心，总共可容纳 64个核心。 CPU勺主要组件（提取指令, 下图显示了更详细的双核处理器架构示意图, 解码和执行）都被复制，但系统总线是公用的。图4双核处理器的详细架构示意图线程为了更好地理解多核架构的含义，我们先看一下程序是如何执行的，服务器会运行一个内核（如Linux，Windows的内核）和多个进程，每个进程可进一步细分为线程，线程是分配给核心的最小工作单元，一个线程需要在一个核心上执行，不能进一步分割到多个核心上执行。下图显示了进程和线程的关系。酬1 T#14, P#3 TfrlG T41N T#x：Thread x P芾y

6、: Process y P#5 :o-n T2 ipia U30 你的H 9 ZU 图5进程和线程的关系进程可以是单线程也可以是多线程的，单线程进程同一时间只能在一个核心上执行，其性能取决于核心本身，而多线程进程同一时间可在多个核心上执行，因此它的性能就超越了单一核心上的性能表现。因为许多应用程序都是单线程的，在多进程环境中，多插座、多核心的架构通常会带来方便，在虚拟化环境中，这个道理一样正确， Hypervisor允许在一台物理服务器上整合多个逻辑服务器，创建一个多进程和多线程的环境。英特尔超线程技术虽然单线程不能再拆分到两个核心上运行，但有些现代处理器允许同一时间在同一核

7、心上运行两个线程，每个核心有多个并行工作能力的执行单元，很难看到单个线程会让所有资源繁忙起来。下图展示了英特尔超线程技术是如何工作的，同一时间在同一核心上有两个线程执行，它们使用不同的资源，因此提高了吞吐量。 Ptiyskdi processor resource allocation tL | 1 ) Thread 2 丁畑 If | 1 * 1 K Hesoirce 1 j| m Phwica ILog ica 1 r acesso r processors visibletoOS Throughput HeMKirce 1 Ihwuric i J-lBo.ou 上U4; 口 HB

8、q 1 .订的咄苓墨舞恒 server.iF 图6英特尔超线程技术工作原理前端总线在多插座和多核心的情况下，理解如何访问内存和两个核心之间是如何通信的非常重要，下图显示了过去许多英特尔处理器使用的架构，被称作前端总线 (FSB)架构。在FSB架构中，所有通信都是通过一个单一的，共享的双向总线发送的。在现代处理器中，64位宽的总线以4倍速总线时钟速度运行，在某些产品中，FSB信息传输速率已经达到1.6GT/S。 Processor Processor Processor Processor Memo r/ Interfatc? Chipset server.itl 68 .corn 图

9、7基于前端总线的服务器平台架构 FSB#所有处理器连接到芯片组的叫做北桥（也叫做内存控制器中枢），北桥连接所有处理器共享访问的内存。这种架构的优点是，每个处理器都可以访问其它所有处理可以访问的所有内存，每个处理器都实现了缓存一致性算法，保证它的内部缓存与外部存储器，以及其它所有处理器的缓存同步。但这种方法设计的平台要争夺共享的总线资源，随着总线上信号传输速度的上升，要连接新设备就变得越来越困难了，此外，随着处理器和芯片组性能的提升, FSB上的通信流量也会上升，会导致 FSB变得拥挤不堪，成为瓶颈。双独立总线为了进一步提高带宽，单一共享总线演变成了双独立总线架构（DIB）

10、，其架构如下图所示，带宽基本上提高了一倍。 server. iit168 .com 图8基于双独立总线的服务器平台架构但在双独立总线架构中，缓存一致性通信必须广播到两条总线上，因此减少了总有效带宽，为了减轻这个问题，在芯片组中引入了“探听过滤器”来减少带宽负载。如果缓存未被击中，最初的处理器会向FSB发出一个探听命令，探听过滤器拦截探听，确定是否需要传递探听给其它 FSB如果相同FSB上的其它处理器能满足读请求，探听过滤器访问就被取消，如果相同FSB上其它处理器不满意读请求，探听过滤器就会确定下一步的行动。如果读请求忽略了探听过滤器，数据就直接从内存返回，如果探听过滤器表示

11、请求的目标缓存在其它 FSB上不存在，它将向其它部分反映探听情况。如果其它部分仍然有缓存，就会将请求路由到该 FSB如果其它部分不再有目标缓存，数据还是直接从内存返回，因为协议不支持写请求，写请求必须全部传播到有缓存副本的所有FSB上。专用高速互联在双独立总线之后又出现了专用高速互联架构(Dedicated High-Speed Prosser Interconnect ， DHSI)，其架构如下图所示。 Proce$0r Memory Up ! 34GB/5 Plsrforrn tian fl Width hnoap I Iter Chipset 11 *你申服雰黑频這servier

12、.irtl Bjcom 图9基于DHSI的服务器平台架构基于DHSI的平台使用四个独立的FSB每个处理器使用一个FSB引入探听过滤器实现了更好的带宽扩容，FSB本身没多大变化，只是现在变成点对点的配置了。使用这种架构设计的平台仍然要处理快速 FSB上的电信号挑战，DHSI也增加了芯片组上的针脚数量，需要扩展 PCE路线，才能为所有FSB建立好连接。英特尔QuickPath互联随英特尔酷睿i7处理器引入了一种新的系统架构，即著名的英特尔 QuickPath互联(QuickPath Interconnect， QPI)，这个架构使用了多个高速单向连接将处理器和芯片组互联，使用这种架

13、构使我们认识到了： .多插座和多核心通用的内存控制器是一个瓶颈引入多个分布式内存控制器将最符合多核处理器的内存需要；在大多数情况下，在处理器中集成内存控制器有助于提升性能；提供有效的方法处理多插座系统一致性问题对大规模系统是至关重要的。下图显示了一个多核处理器，集成了内存控制器和多个连接到其它系统资源的英特尔QuickPath的功能示意图。 DDR3 Memory Chdrnl5 Pr-oni.Dry Arm/ DR砂 Conin Decoder a t 二 15 server.it1E 图14内存bank DDR2芯片有四个内部内存 bank, DDR亦片有八个内部内存 ban

14、k DIMM 需要将多个内存芯片组装到一起才能构成一个内存子系统，它们就是按著名的DIMM双列直插内存模块）组织的。下图显示了内存子系统的传统组织方式，例如，内存控制器连接四个DIMM 每一个由多块DRAMS片组成，内存控制器有一个地址总线，一个数据总线和一个命令（也叫做控制）总线，它负责读，写和刷新存储在 DIMM中的信息。 Data Bus (64 brtd Clock fix匕 Ad山0鈔Bus and Commands 匚 lock Driver i Memory Controller 你働服霭黑频道server.itlG8 .com 图15传统内存子系统示例下图展示了一个内存

15、控制器与一个 DDR3 DIMM连接的示例，该DIMM由八块 DRAM芯片组成，每一块有8位数据存储能力，每存储字（内存数据总线的宽度）则共有64位数据存储能力。地址总线有15位，它可在不同时间运送“行地址” 或“列地址”，总共有30个地址位。此外，在 DDR3芯片中，3位的bank地址允许访问8个bank，可被视作提高了控制器的地址空间总容量，但即使内存控制器有这样的地址容量，市面上DDR3芯片容量还是很小。最后，RAS（RowAddress Selection，行地址选择），CAS（Column Address Selection，列地址选择）， WE（Write Enabled，写

16、启用）等都是命令总线上的。 Addr1141，增加了内存带宽，内存突发长度从4字增加到8字，增加突发长度是为了更好地满足不断增长的外部数据传输速率，随着传输速率的增长，突发长度(传输的大小)必须增长，但不能超出DRAM核心的访问速度。 DDR3 DIMM! 240针，数量和尺寸都和 DDR2-样，但它们在电气特性上是不兼容的，缺口位置不一样，未来，DDR3各工作在更快的时钟频率，目前，市面上存在DDR3-800 1066和1333三种类型。下表对不同的DDR3 DIMM模块进行了总结。表 3. DDR3 DIMM 标准名称 RAM时钟频率每秒传输的数据(百万) 模块名称峰值

17、传输速率 GB/s DDR3-800 400 MHz 800 PC3-6400 6.400 DDR3-1066 533 MHz 1,066 PC3-8500 8.533J DDR3-1333 667 MHz 1,333 PC3-10600 10.667 DDR3-1600 800 MHz 1,600 PC3-12800 12.800 DDR3-1866 933 MHz 1,866 PC3-14900 14.900 、I/O子系统 I/O子系统负责在服务器内存和外部世界之间搬运数据，传统上，它是通过服务器主板上兼容PCI标准的I/O总线实现的，开发PCI的目的就是让计算机系统的外围设备实现互

18、联，PCI的历史非常悠久，现在最新的进化版叫做 PCI-Express。外围组件互联特殊兴趣小组(Peripheral Component Interconnect Special Interest Group，PCI-SIG)负责开发和增强 PCI标准。 PCI Express PCI Express(PCIe)是一个计算机扩展接口卡格式，旨在替代PCI，PCI-X 和AGP 它消除了整个所有I/O引起的限制，如服务器总线缺少I/O带宽，目前所有的操作系统都支持PCI Express 0 上一代基于总线拓扑的PCI和PCI-X已经被点到点连接取代，由此产生的拓扑结构是一个单根联合体的树

19、形结构，根联合体负责系统配置，枚举PCIe资源,管理中断和PCIe树的错误。根联合体和它的端点共享一个地址空间，通过内存读写和中断进行通信。 PCIe使用点到点链接连接两个组件，链接由N个通道组成，每个通道包含两对电路，一对用于传输，另一对用于接收。南桥（也叫做ICH： I/O Controller Hub）通常会提供多个PCIe通道实现根联合体的功能。每个通道连接到一个 PCI Express端点，一个PCI Express Switch，一个 PCIe或一个PCIe桥，如下图所示。 CPU PC1 Root Complex PCI / PCI Exp胆弱 Endpojnt Sw

20、itch PCI Express Endpaint 图21 PCI Express 根联合体根据通道编号使用不同的连接器，下图显示了四个不同的连接器，及单/双向时的速度。 PCI Express Bandwidth 图22 PCI Express 连接器在PCIe 1.1中，通道运行在2.5Gbps,可同时部署16条通道，如下图所示, 可支持的速度从2Gbps(1x)到32Gbps(16x)，由于协议开销，支持10GE接口需要 8x。 Tnnifer Rjrte Xl 114nt；. 1 btcpri(nlr PCI* 3d TraiHffr Rale xl 2 *2 lWK - IJt

21、al parCJfh h Srikh/P Tf*nsfpr Rj K2J ini i ijrik Clnl f Switch/ 你前服雰霁频道server.iH 6B.com 图 23 PCI Express 通道 PCIe 2.0（也叫第二代PCIe）带宽提升了一倍，从 2Gbit/s提高到4Gbit/s , 通道数量也扩大到了 32x, PCIe 4x就足以支持10GE了。 PCIe 3.0将会再增加一倍带宽，最终的 PCIe 3.0规范预计会在2010年年中发布，到2011年就可看到支持PCIe 3.0的产品，PCIe 3.0能有效地支持 40GE下一代以太网标准）。目前所有的PCI

22、 Express产品都是单根的（Single Root ，SR），如控制多个端点的单I/O控制器中枢（ICH）。多根（Multi Root，MR也发展了一段时间，但目前还未见到曙光，由于缺少元件和关注，目前还有诸多问题。 SR-IOV（Single Root I/O Virtualization，单根 I/O 虚拟化）是 PCI-SIG 开发的另一个相关标准，主要用于连接虚拟机和Hypervisor 。四、英特尔微架构英特尔Nehalem和 Westmere微架构，也被称为 32和45nm酷睿微架构。 Nehalem微架构于2009年初引入了服务器，也是第一个使用45nm硅技术的架

23、构，Nehalem处理器可应用于高端桌面应用程序，超大规模服务器平台等，代号名来源于美国俄勒冈州的Nehalem河。根据英特尔的说法，处理器的发展速度就象嘀嗒（Tick and Tock）钟声的节奏一样，如下图所示，Tick是对现有处理器架构进行缩小，而 Tock则是在前一代技术上发展起来的全新架构， Nehalem就是45nm的Tock，Westmere就是紧跟 Nehalem的 32nm Tick 。 Merom Penryn Nehalem Westmere Sandy Bridge NEW iMiiCfO ar thrive Eure 65nm NEW Pick Mi 45n

24、m NEW 45nm NEW hoctib 32nm NEW Mki-OjrchitecTLiie 32nm Tock Tick lock 你闿朋骨昭频迫图24英特尔“嘀嗒”处理器开发模式 Nehalem和Westmere在不同需求之间取得了平衡： .与新兴应用程序（如多媒体）相比，现有应用程序的性能对轻量级或重量级应用程序的支持同样良好可用范围从笔记本到服务器全包括。平台架构这可能是近10年来英特尔最大的平台架构转变，包括多个高速点到点连接，如英特尔的QuickPath互联，集成内存控制器(IMC)等。下图显示了一个双插座英特尔至强 5500(Nehalem-EP)系统示例，请

25、注意CPU 插座之间，以及CPU插座与I/O控制器之间的QPI链接，内存DIMM直接附加到 CPU插座。 / A y L NEhdlem Hetidlem / EP EP J QPI KI Express 1J l/Q C nnrrn|lp( T irr； rc ICH -I/O font roll er Hub J 你的曬嗚斓頻懂68 .com 图25双插座英特尔至强5500(Nehalem-EP) 集成内存控制器(IMC) 在Nehalem-EP和 Westmere-EP中，每个包含集成内存控制器(IMC)的插座支持三个DDR站存通道，与DDR2相比，DDR站存运行在更高的频率，因此它具

26、有更高的内存带宽。此外，对于双插座架构，有两套内存控制器，所有这些改进与前一代英特尔平台相比，带宽提高了3.4倍，如下图所示。 Stream Bandwidth Mbyte&/Sec( Triad) 97 7& 6102 ti .L ul-T 图26 RAM带宽随着时间的推移，带宽以后还会继续增加，有了集成的内存控制器后，延迟也减小了。其功耗也减少了，因为DDR3勺工作电压是1.5V，DDR2是 1.8V，功耗与电压的平方成正比，因此电压降低 20%功耗就减少40% 最后，IMC支持单，双和四 Rank RDIMM和 UDIMM Nehalem-EX有一个类似的，但不完全相同的架构

27、，在 Nehalem-EX中，每个插座有两个IMC,每个IMC支持两个英特尔可扩展内存互联(Scalable Memory Interconnects ，SMI)连接到两个可扩展内存缓冲区(Scalable MemoryBuffers ， SMB)每个插座就可以连接到四个 SME，如下图所示，每个 SMB有两个DDR通线，每条总线连接到两个 DIMM因此每个插座可连接的 RDIMM、量就是16。 4xSMI Nehalem-EX 7500/6500 SMB RD至匸 H2壬壬图 27 SMI/SMB Nehalem-EX系统的总内存容量与插座数量，以及 RDIMM勺容量总结如下表所示。

28、表4. Nehalem-EX内存容量 4GB RDIMM 8GB RDIMM 16GB RDIMM 2 sockets 128 GB 256 GB 512 GB 4 sockets 256 GB 512 GB 1 TB 8 sockets 512 GB 1 TB 2 TB 英特尔QuickPath互联(QPI) 所有的通信架构都从总线架构向点到点连接演变，因为点到点连接架构具有更快的速度，更好的扩展性，在Nehalem中，英特尔QuickPath互联已经取代了前端总线，如下图所示。 20 Data Lanes + Clock in Each Direction 84 Toral Sig

29、nak = Link-_ 亦小 Di 色MMiN Pair is Ciltd1加老 0 ig 0 RcvdCIk TX L-anes W Lanes Cloc It Runt 科诂讣 i h.T-iiter 瞞的 If 劣器频适 werver.itlS.： cm Fwd 匸 Ik Link：图28英特尔QPI 英特尔QuickPath互联是一个一致的点到点协议，不局限于任何特定的处理器，可在处理器，I/O设备和其它设备，如加速器之间提供通信。可用的QPI数量取决于处理器的类型，在 Nehalem-EP和Westmere-EP中, 每个插座有两个QPI，如图25所示，Nehalem-EX支

30、持四个QPI，允许更多无缝的拓扑结构，如下图所示。 4 Processors 8 Processors 10- HUB Giueless 3 peer* at i hqp I 4 peerc at 2 hopi 图29 Nehalem-EX拓扑结构英特尔至强7500处理器也与第三方节点控制器兼容，可以扩大到8个插座以外，实现更大规模的扩展。 CPU架构在Nehalem中，英特尔通过一些技术革新，增加了每个CPU每秒执行的指令数，如下图所示。 Do即电F Suffm n Date CorAe Paging Branch Predktion Execution Unrts L2 Cat

31、he &iritetrupt- Servicing /nstrtfrtfpn Fetdr & Cache NewSSE4.2 impre ve d LockAdditio nat Ca chin g iuppartHierarchy etref Jranrh Simutt(rneQi5 Mtiiti*Threading Viri Oti-of-Order fnstrvcrionw re$i$tartCer package like nnetal 側刖 deposited on Silicon to create low on Uncore 图 35 电源控制单元(Power Control U

32、nit ，PCU) 英特尔Turbo Boost技术功率门控和电源管理是英特尔 Turbo Boost技术的基础组件，当操作系统需要更好的性能时可以使用英特尔的 Turbo Boost模式，如果条件允许（足够的制冷和供电能力），例如，因为一或多个核心被关闭，英特尔 Turbo Boost会提高活动核心的频率（以及功耗），从而提高核心的性能，如下图所示，但它算不上一个巨大的改进（3%-11%）,但在无线程，不是所有核心都被并行使用的环境中，它还是很有价值的。每上升一步，频率提高 133Mhz 4C rurbo 4C Turbo Morma Ail ceres 弭冲177护lit f

33、requency 1 g L- a 5 I 二 Alt coresFewer c&res operatp atmay operate ar 图36 英特尔Turbo Boost技术上图显示了三个不同的可能性，正常情况下，所有核心都运行在标称频率（2.66GHz），在“ 4CTurbo”模式下，所有核心的频率上升一步（达到了 2.79GHz）, 在“ L_ 一， /j衍 3? P a b 阳由绞喺的鹏务詛频這 Physical Address v&r.itl 60 .com 图38扩展页表虚拟化之前，每个操作系统负责虚拟应用程序地址和“物理地址”之间的程序页表转换，使用虚拟化后，这些地址

34、就不再是物理的了，而是在 VM中的虚拟地址，Hypervisor需要在客户端操作系统地址和真实物理地址之间转换，在EPT 出现之前，Hypervisor通过软件的方式在重要的边界（如VM的入口和出口）更新它们以维护页表。有了 EPT后,有一个EPT基指针和一个EPT页表，允许直接从虚拟地址转换到物理地址，不再需要Hypervisor的介入。虚拟处理器ID（VPID）在VPID出现之前的虚拟化环境中，每当 VM转换时，CPU会无条件清洗 TLB（Translation Lookaside Buffers，转换后备缓冲区），这样做的效率很低，并会影响到CPU的性能，有了 VPID后，

35、Hypervisor用一个ID标记TLB,允许更有效地清洗缓冲区中的信息。客户机优先计时器有了这个功能后，在指定的时间到了后，Hypervisor可以让客户机优先执行，在进入客户机之前，Hypervisor会设置一个计时器值，当计时器清零时， VM就退出，计时器会让 VM直接退出，没有中断。描述符表退出通过预防关键系统数据结构被修改，实现VMMS护客户机操作系统预防内部攻击，操作系统操作是由一组 CPU使用的关键数据结构控制的：IDT，GDT LDT 和TSS如果没有这个功能，Hypervisor就无法预防通过修改客户机的这些数据结构副本，实现恶意软件在客户机操作系统上运行的攻

36、击，Hypervisor可以使用这个功能拦截修改这些数据结构的尝试，禁止恶意软件入侵客户机操作系统。 FlexPriority 这是一个提升32位客户机操作系统性能的技术，旨在加快虚拟化中断处理速度，从而提高虚拟化性能，FlexPriority 通过避免访问高级可编程中断控制器时不必要的VMExit提高中断处理速度。 RAS高级可靠性与Nehalem-EP相比，Nehalem-EX最大的创新之处在于高级可靠性方面，更恰当地说应该是 RAS（Reliability ，Availability 和 Serviceability ，即可靠性，可用性和可维护性），如下图所示。 Ohmirf

37、tcOS hMnwy Qo Mi tng C&ipicii/ Cfwoej IntaK&auickPath I fi terconnect l 宅电i QP1 PacM i啼 QP|P减2 GRC ( 谢 16-W Raingf OPl Clock Fal Over DPI Sf-Hfislng QiPl WaJWMH Memory Tw*rr* Ttre林M DIE闹 PfWC SAJCWig 睡肖ir护 CMaU 羽1flEDT CMVlf j机 Rxik IrdrvkSMkAi Menwy IhnMftf Mirrwdl Wnwy &wti 呵 Zd 杞阿中祷 I/O Hub *pr沪*

38、4悴时如 I OH (Capaafy Chang* -FCJnEMoiPiug 你前服雰黑频満server.it1G 图 39 Nehalem-EX RAS 特别是，所有主要的处理器功能都具有 RAS存储器RAS和插座RAS RAS特性，包括 QPI RAS I/O Hub(IOH) 纠错现在使用的是纠正机器检查中断（Corrected Machi ne Check Interrupts ，CMCI信号。另一个RAS技术是机器检查架构恢复（Machine Check Architecture-recovery,MCAr）,它是CPU合操作系统报告硬件错误的一种机制, 有了 MCA后，就可以从

39、致命系统错误中恢复过来。部分功能需要操作系统额外支持，或需要硬件厂商实现和验证这项技术目前仅在Nehalem-EX中含有高级加密标准 Westmere-EP增加了 6个新指令专门给流行的 AES(Advaneed Encryption Standard，高级加密标准)算法提速，有了这些指令后，所有 AES运算都是通过硬件完成的，不只是速度更快，比软件实现也更加安全。因此应用程序可以使用更强的密钥，可以加密更多数据以满足监管要求，除了更安全外，对性能的影响也更小了。这项技术目前仅包含在 Westmere-EP中。可信执行技术英特尔可信执行技术(Trusted Exeeution

40、 Technology ，TXT)有助于检测和预防基于软件的攻击，特别是： .尝试插入非信任的 VMM(Rootkit Hypervisor) 威胁到平台内存中机密的攻击 .BIOS和固件更新攻击英特尔TXT使用一个混合了处理器，芯片组和 TPM(Trusted Platform Module，可信赖平台模块)的技术测量引导环境以检测软件攻击，如下图所示 VMM Roo PiatformlHardwa re with IntT 丁耳血溝囲瀝靜弼昭耐1閱说bt 图40英特尔可信执行技术这项技术目标仅包含在 Westmere-EP中。芯片设计如果你想获得高性能，又想降低功耗，那么有多个

41、不同的因素需要平衡。随着晶体管通道的长度逐渐减小，可用的电压范围也变得越来越小，如下图所示。 VMAX ；亠二 | Cache fail rate II Total powtr II Peffornwncet tI I Rbbillty SiFt enor cdte 图41电压范围最大电压是由总功耗和高功率相关的可靠性下降限制的，最低电压主要是由软错误，特别是存储器电路中的错误限制的。一般说来，在CMO设计中，性能与电压是成正比的，因为电压越高频率也越高。性能频率电压功耗是与频率和电压的平方成正比的。 .功率频率x电压2 由于频率和电压是成正比的，因此：功率电压3 能源效率等

42、于性能和功耗之间比率，因此：能源效率1/电压2 从能源效率的角度来看，减少电压才会凸现优势，如下图所示。 Ml V 图42功耗与性能的关系由于电路更容易遭受软错误的是存储器，在Nehalem中，英特尔加入了一个复杂的纠错码（三重检测，双倍纠正）纠正错误。此外，缓存的电压和核心的电压是解耦的，因此缓存可以保留高电压，而核心工作在低电压上。对于L1和L2缓存，英特尔已经用新的8晶体管设计（8-T SRAM取代了传统的6晶体管SRAM（6-T SRAM设计，解耦了读和写操作，并允许更低的电压，如下图所示。 6-T Traditional SRAM8-T Traditions I SR

43、AM High Voltage你的订罰脚辑囲卿H飾禅y 图43 6晶体管SRAMf 8晶体管SRAM寸比此外，为了降低功耗，英特尔又回到了能耗更低的静态 CMO技术，如下图所示。斗 3 Bi-Pohtr 图44不同技术的功耗对比通过重新设计了一些关键算法，如指令解码，再次提升了性能。芯片组虚拟化支持除了 Nehalem提供的虚拟化支持外，在芯片组和主板级也增强了对虚拟化的支持，这些改进对于提高 Hypervisor（按照英特尔的说法，Hypervisor指的是 VMM虚拟机监视器）的I/O性能很重要。英特尔直接I/O虚拟化技术（VT-d for Direct I/O）服务器使

44、用一个输入/输出内存管理单元（Input/OutputMemoryManagement Unit，IOMMU将 DMA I/O总线（如PCIe）连接到主存储器，和传统的内存管理单元一样，它将CPU可见的虚拟地址转换成物理地址，IOMMI会将设备可见的虚拟地址映射到物理地址，这些单元也提供了内存保护功能。 I/O虚拟化一个常见的需求是可以隔离和限制设备访问由分区管理设备拥有的资源。 2008年，英特尔公布了 IOMM技术规范：直接I/O虚拟化，缩写为VT-d。英特尔VT-d给VMMg供了以下功能： .I/O 设备分配-可灵活给VM分配I/O设备，加强保护，为I/O操作隔离VM的属性。

45、.DMA重映射 - 为直接内存访问（Direct Memory Accesses , DMA提供独立的地址转换功能。 .中断重映射-隔离和路由设备/中断控制器到VM的中断。 .可靠性- 的中断错误。 -记录并报告系统软件DMA和可能会损坏内存或影响VM隔离英特尔针对连接的虚拟化技术（VT-c for Co nn ectivity）英特尔连接虚拟化技术（Virtualization Tech no logy for Co nn ectivity， VT-c）是一套I/O虚拟化技术集，它降低了 CPU利用率，减少了系统延迟，提高了网络和I/O吞吐量。英特尔VT-c由平台级技术和创新的下一代I/O虚拟化技术集合而成： .虚拟机设备队列（Virtual Machine Device Queues ，VMDq极大地提高了服务器的通信管理，为大数据流提供了更好的I/O性能，同时减少了基于软件的虚拟机监视器（VMM的处理负担。 .虚拟机直接连接（Virtual Machine Direct Connect，VMDc通过

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

服务器硬件架构

文档简介

温馨提示

最新文档

评论

服务器硬件架构

文档简介

温馨提示

最新文档

评论

相关文档