第三代网络系统课件_第1页
第三代网络系统课件_第2页
第三代网络系统课件_第3页
第三代网络系统课件_第4页
第三代网络系统课件_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三部分网络处理器技术第三部分网络处理器技术1主要内容第三代网络系统与网络处理器网络处理器体系结构网络处理器的扩放网络处理器举例网络处理器的设计权衡主要内容第三代网络系统与网络处理器21.1第二代网络系统回顾第二代网络系统对第一代网络系统的扩展:将包的分类和转发功能下放到NIC上引入了快速数据通路的概念优点:可以支持更多的网络连接缺点:仍依赖通用CPU处理例外的包,当集合包速很高时,CPU仍然是瓶项。1.1第二代网络系统回顾第二代网络系统对第一代网络系统的扩31.2第三代网络系统出现于上世纪90年代后期在每个网络接口上使用定制的硬件处理例外的包及高层协议(至第四层),即执行数据面(dataplane)上的所有任务:第一、二层功能:市售的物理层芯片组第三层基本功能、包分类及转发:ASIC硬件第四层协议及例外包:嵌入式处理器流量管制、监视和统计:ASIC硬件

标准CPU负责执行控制面(controlplane)上的任务。1.2第三代网络系统出现于上世纪90年代后期4第三代网络系统的概念组织第三代网络系统的概念组织5嵌入式处理器为什么采用嵌入式处理器而不是ASIC?处理任务不涉及快路径,不需要太快的速度第四层协议庞大而复杂,采用软件实现比较合适为什么选用RISC而不是CISC处理器?CISC处理器的大指令集对于协议处理没有增强作用RISC的指令集比较简单,CPU可运行在较高的频率RISC芯片的硬件接口比较简单,硬件设计较容易RISC处理器通常比较便宜,且功耗较小

嵌入式处理器为什么采用嵌入式处理器而不是ASIC?6第三代网络系统的问题由于执行一个复杂的任务需要许多条指令,当集合速率很高时,RISC处理器仍然是瓶颈。上世纪90年代中期,工业界普遍认为能够处理因特网骨干连接的唯一可行技术是专用芯片。使用ASIC代替RISC处理器的缺点:开发周期长:设计复杂,芯片设计者不了解协议处理,修改费时成本高:开发周期长,生产成本高,修改代价高,产品寿命短仿真困难:对协议栈进行大量仿真不可行可重用性低:在不同的产品、不同版本的产品中几乎不能重用或重用很有限需要专业人员RISCVS.ASIC是一个两难的抉择。第三代网络系统的问题由于执行一个复杂的任务需要许多条指令,当71.3第四代网络系统目标:结合第一代网络系统的灵活性与第三代网络系统的高速度。在因特网早期,第一代网络系统能够很好地适应新的协议标准和网络功能。IP协议的相对稳定及以太网成为企业网主流技术减小了对网络产品灵活性的要求。为什么仍然需要灵活性:新的IP特性(如QoS,MPLS,多播,移动IP)要求网络产品支持新的应用网络接口的类型在增加1.3第四代网络系统目标:81.4网络处理器的概念网络处理器的设计目标:结合ASIC的高速度和嵌入式处理器的灵活性,网络处理器的定义:网络处理器是一种专门针对网络处理而优化的可编程芯片,它结合了RISC处理器的低成本和高灵活性以及ASIC硬件的高速度。网络处理器应具有的特点:较低的成本简单的硬件接口内存访问能力可编程能力可扩展到高速度1.4网络处理器的概念网络处理器的设计目标:9网络处理器的基本设计思想通过可编程性获得灵活性,通过灵活性降低成本:类似于常规处理器,硬件保持不变,通过软件来控制包的处理。硬件复用性好,可应用于任何一种协议处理。方便系统设计、实现、修改和升级,缩短开发周期。高性能设计的关键:针对协议处理优化的指令集(通用性VS速度)利用多处理器体系结构获得可扩展性(并行VS流水线)

网络处理器的基本设计思想通过可编程性获得灵活性,通过灵活性降10网络处理器的位置目前比传统CPU贵,比ASIC慢比传统CPU快,比ASIC便宜网络处理器的位置目前11网络处理器VS.ASIC用ASIC开发的系统开发成本高(一百万美元)生产成本低用网络处理器开发的系统开发成本低生产成本高使用网络处理器的动机主要是经济方面的:开发成本比ASIC低处理速度比传统CPU高网络处理器VS.ASIC用ASIC开发的系统121.5网络处理器的一般设计问题网络处理器的设计取决于:要执行的操作在网络系统中的作用研究目标:一个通用、优化的硬件设计,能够应用于系统体系结构中的任何地方和处理任何协议设计的困难:不仅要求功能全面,而且要求功能最小化1.5网络处理器的一般设计问题网络处理器的设计取决于:13包处理功能地址查找和包转发差错检测和纠正分片、分段和重组解多路复用包分类排队和包丢弃调度安全:认证和保密流量测量、整形和管制定时器管理

包处理功能地址查找和包转发14问题以上列出的任务包括所有的协议处理了吗?哪些功能的优化是最重要的?以上功能如何映射到一个典型的网络系统的硬件单元上?在一个典型的网络系统中,哪些硬件单元可以用网络处理器来替代?实现以上功能的最小通用指令集是什么?

问题以上列出的任务包括所有的协议处理了吗?151.6任务分组为设计最小指令集,将协议处理任务划分成几个组,分别找出适合于每一组任务的指令集,然后将它们集成到一个最终的指令集中。最常见的一种划分方法是将包处理任务分成两个组:当包到达时执行的处理,称为ingress当包离开时执行的处理,称为egress1.6任务分组为设计最小指令集,将协议处理任务划分成几个组16Ingress处理差错检测和安全检验分类或解多路复用流量测量和管制地址查找和包转发包头修改和传输层接续排队和调度

包重组或流终止Ingress处理差错检测和安全检验17Egress处理校验码生成地址查找和包转发分段或分片流量整形定时和调度排队和缓存输出安全处理(如加密)

Egress处理校验码生成18Ingress和Egress的分界线Ingress和Egress的分界线191.7并行和分布式处理结构提高网络处理器扩展能力的三种技术:包括专门的硬件单元用以处理特定的任务关键的硬件单元被复制多份,各自独立运行(并行或流水线执行)网络处理器工作在分布式环境,可以一起工作以获得更高的集合吞吐量对扩展性的关注给网络处理器的设计带来很大的困难:必须选择适合每个特殊任务的硬件单元选择要被复制的硬件单元选择支持分布式执行的硬件单元缺乏网络协议的经验,硬件设计者没有现成的经验规则可以使用。1.7并行和分布式处理结构提高网络处理器扩展能力的三种技术201.8网络处理器在网络系统架构中的作用代替一个常规的CPU增强一个常规的CPU用在NIC的输入路径上用在NIC和交换结构之间用在交换结构和输出接口之间用在NIC的输出路径上像其它端口一样连接到交换结构上1.8网络处理器在网络系统架构中的作用代替一个常规的CPU21代替一个常规的CPU网络处理器必须具有常见的CPU功能和优化包处理的特殊功能指令集中应包括:常规指令:算术指令,数据操作指令特殊指令:处理数据包的指令代替一个常规的CPU网络处理器必须具有常见的CPU功能和优化22增强一个常规的CPU将网络处理器附加到一个常规CPU上CPU执行大部分的包处理网络处理器执行特殊的任务两种结构上的方法:作为预处理器:在包进入CPU前进行处理,比如从硬件端口获取数据包,执行Ingress处理等作为协处理器:可以执行任何操作使用网络处理器来增强CPU而不是替代CPU的优点:不用考虑常规指令,网络处理器的设计复杂度低缺点:需要有调用网络处理器的硬件,增加硬件开销增强一个常规的CPU将网络处理器附加到一个常规CPU上23置于NIC的输入路径上网络处理器从输入端口获取数据包,执行Ingress操作优点:灵活性好,可以方便地修改Ingress处理置于NIC的输入路径上网络处理器从输入端口获取数据包,执行I24置于NIC和交换结构之间网络处理器作为NIC和交换结构之间的仲裁者。通过与交换结构的控制器交互建立路径、传输数据和释放路径。置于NIC和交换结构之间网络处理器作为NIC和交换结构之间的25置于交换结构和输出接口之间在使用分布式控制机制的交换结构中,每个输出端口控制对自己的访问。当输入端口准备好使用交换结构时,输入端口使用另一个独立的机制通知输出端口;输出端口调度请求,在交换结构准备好时通知发送者。网络处理器可用于协调输出端口的访问。置于交换结构和输出接口之间在使用分布式控制机制的交换结构中,26置于NIC的输出路径上网络处理器执行Egress处理,从交换结构接收分组、管理队列、流量整形、向输出端口发送包等。置于NIC的输出路径上网络处理器执行Egress处理,从交换27直接连接到交换结构上网络处理器可以像任何其它端口那样连接到交换结构上,从而可以作为一个中间节点,执行包处理任务。如果将多个网络处理器连接到交换结构上,系统可以将输入的数据包分布到整个网络处理器集合。优点:易于扩展允许最大的并行性直接连接到交换结构上网络处理器可以像任何其它端口那样连接到交281.9宏观数据流水线每个stage由一个网络处理器实现,网络处理器直接连接到交换结构上,利用交换结构提供相邻stage之间的连接。优点:支持异构处理器,降低对网络处理器通用性的要求允许跳过流水线中的某个(些)stage,克服了流水线的一个主要缺点。1.9宏观数据流水线每个stage由一个网络处理器实现,网291.10网络处理器设计和软件仿真硬件设计者依靠软件仿真评估设计的性能和正确性和常规处理器不同,传统的软件基准测试对于网络处理器不适用:不同体系结构的低层硬件细节不同,应用和基准程序不能在不同的网络处理器间共享。软件必须被重写以适应要测试的体系结构,甚至可能需要完全重新组织,这使得性能比较很困难。网络处理器设计的关键是软硬件协同设计。1.10网络处理器设计和软件仿真硬件设计者依靠软件仿真评估301.11网络处理的其它方案NetASIC一类特殊的网络处理集成电路的统称,包含能实现大部分网络处理功能的辅助硬件,但不可编程。优点:全硬件实现,具有确定的处理性能软件开发环境是开发人员熟悉的采用NetASIC的公司大多缺乏设计和工程经验,缺乏资金或者市场,无法忍受专用ASIC漫长的开发周期,另外也不愿意去学习陌生的开发平台,导致开发周期延长。由于商业的原因,NetASIC的开发进程已终止。1.11网络处理的其它方案NetASIC31网络处理的其它方案(续)基于IPCore(IntelligentProperty)设计:20世纪90年代得到广泛应用,现在一个完整的SOC包括了多个结构化的核心电路模块。系统设计者向可靠的第三方获取电路核心设计的使用许可,避免重新设计核心电路采用标准化设计,易于集成模块可重用,缩短开发周期授权费用高昂主要客户是大的网络设备提供商,市场较小。网络处理的其它方案(续)基于IPCore(Intellig32主要内容第三代网络系统与网络处理器网络处理器体系结构网络处理器的扩放网络处理器举例网络处理器的设计权衡主要内容第三代网络系统与网络处理器332.1网络处理器体系结构的多样性多种网络处理器体系结构存在:网络处理器内在的复杂性允许采用多种不同的体系结构来设计固定用户群的缺乏给了开发商在选择设计方案时有更大的自由度工业界对于网络处理器设计的许多问题没有一个统一的认识哪些协议处理功能要映射到专用硬件上,如何映射网络处理器在整个系统体系结构中的最佳作用网络处理器中应包括哪些硬件构件块,哪些硬件功能要被复制,如何组织各个部件如何在多个网络处理器之间建立有效的分布式连接2.1网络处理器体系结构的多样性多种网络处理器体系结构存在342.2网络处理器体系结构的主要特征处理器体系(processorhierarchy)存储器体系(memoryhierarchy)内部传输机制:在芯片内部各功能单元之间提供数据通路外部接口和通信机制:与网络系统其余部分的连接专用硬件轮询和通知机制:异步事件处理机制并发执行支持:最大化系统吞吐量编程模型和范例(programmingmodelandparadigm)硬件和软件分配机制(hardwareandsoftwaredispatchmechanisms)隐式或显式并行2.2网络处理器体系结构的主要特征处理器体系(proces35处理器体系指执行各种包处理任务的硬件单元,包括可编程的和不可编程的一个典型的网络系统中的处理器体系:处理器体系指执行各种包处理任务的硬件单元,包括可编程的和不可36网络处理器中包含的处理器网络处理器通常包含了许多协同工作的物理处理器:一个或多个嵌入式处理器,处理高层协议和提供整体控制一个或多个专用协处理器,为特定的包处理任务而优化一个或多个I/O处理器,以线速执行ingress和egress处理一个或多个与交换结构的接口一个或多个数据传输单元,在I/O设备与内存之间传递数据包。网络处理器中包含的处理器网络处理器通常包含了许多协同工作的物37存储器体系分级存储系统可以较低的代价获得较高的性能:分级存储系统呈金字塔形,等级越高的存储器容量越小、速度越快,成本越高各种数据依照访问频度的高低放在相应层次的存储器中网络处理器芯片通常不包含大容量的存储器,但包含接口硬件。存储器体系是对网络处理器的基本补充。存储器体系分级存储系统可以较低的代价获得较高的性能:38内部传输机制在网络处理器芯片的功能单元间提供数据通路的任何机制,用于传送元数据、数据包及辅助数据等。由于网络处理器芯片包含多个独立的处理器,内部通信对于性能来说非常重要。大多数网络处理器包括多种传输机制:内部总线:提供连接多个功能单元的数据通路,多数使用集中式访问控制,确保每次只有一个单元访问总线。硬件FIFO:用于连接不同速度的功能单元传输寄存器:提供缓存的传输,不要求顺序访问片上共享存储内部传输机制在网络处理器芯片的功能单元间提供数据通路的任何机39外部接口和通信机制外部连接包括:标准和专用的总线接口:处理电气连接的细节和提供对片上处理器的总线访问;存储器接口:优化与存储器的交互;直接I/O接口:允许片上处理器访问外部I/O设备;交换结构接口:处理与交换结构的接口细节外部接口和通信机制外部连接包括:40专用硬件除协处理器外,网络处理器可以包含至少两类专用硬件:控制硬件:协调硬件单元对共享资源的访问可配置硬件单元:其参数可被配置,然后被调用执行某个任务,是对专用协处理器和完全可编程处理器的一个折衷。专用硬件除协处理器外,网络处理器可以包含至少两类专用硬件:41轮询和通知机制处理异步事件的两种机制:轮询:要求一个活动单元不断地测试与事件相关的硬件通知:用硬件或软件中断实现高速系统倾向于使用轮询以避免中断的开销。轮询和通知机制处理异步事件的两种机制:42并发执行支持一个典型的网络处理器在多个层次上提供对并发线程的支持:嵌入式RISC处理器中:由操作系统提供并发支持,上下文切换开销大低级I/O处理器中:由硬件提供并发支持,切换代价很低或没有两个问题:线程的执行可否跨越多个处理器:全局线程提供更多的灵活性,但带来处理器间切换的开销。线程是否可抢占:允许抢占则编程比较容易,不使用抢占则程序员有更多的控制处理的能力。并发执行支持一个典型的网络处理器在多个层次上提供对并发线程的43程序设计的硬件支持对程序设计的两种最流行的硬件支持形式:异步事件处理程序:程序员创建一组处理程序,每个处理程序同一个特定的事件关联,当事件发生时系统调用相应的事件处理程序。事件可能来自硬件或软件。通信线程:多个线程独立执行,线程使用进程间通信机制将数据从一个线程传递给另一个线程。一个线程典型地执行一个无限循环。

doforever{ waitfornextinputpacket,P; processP; sendPontonextthread; }程序设计的硬件支持对程序设计的两种最流行的硬件支持形式:44硬件和软件分配机制分配(dispatch)是指对并行或并发任务的整体控制分配器将一个准备就绪的任务指派给一个特定的处理器或线程可以使用硬件或软件来控制分配,一般而言,软件分配用在有操作系统的处理器上硬件分配由没有操作系统的低级I/O处理器使用硬件和软件分配机制分配(dispatch)是指对并行或并发任45显式或隐式并行显式并行:硬件体系结构的并行细节暴露给程序员程序员具有更多的控制执行的能力要求程序员了解底层硬件细节程序可重用性差隐式并行:向程序员隐藏硬件体系结构的并行细节,程序员采用单线程执行模式编写程序,由硬件自动完成并行化处理。减小了编程的复杂度,易于程序重用。显式或隐式并行显式并行:462.3网络处理器的主要设计风格嵌入式处理器加不可编程的协处理器嵌入式处理器加可编程I/O处理器多个并行的处理器处理器流水(pipelinedprocessors)数据流(dataflow)2.3网络处理器的主要设计风格嵌入式处理器加不可编程的协处47嵌入式处理器结构单个处理器,处理所有的功能称为run-to-completion嵌入式处理器结构单个处理器,处理所有的功能48并行体系结构每个处理器处理总负载的1/N并行体系结构每个处理器处理总负载的1/N49流水线结构每个处理器执行一个功能数据包穿过流水线流水线结构每个处理器执行一个功能50处理器的时钟速率单处理器结构中,处理器的处理包速为线速。并行结构中,每个处理器的处理包速为1/N线速,时钟速率为单处理器结构时钟速率的1/N。流水线结构中,每个处理器的处理包速为线速,时钟速率小于单处理器结构时钟速率,理想情况下为1/N。处理器的时钟速率单处理器结构中,处理器的处理包速为线速。51数据流体系结构一个数据流处理器由一个大内存和一个选择器硬件组成;内存中的每一个数据项包含一个标签,说明需要进行的处理;当一个功能单元空闲时,选择器从内存中选择一个数据项交给功能单元处理;数据流结构可以有多个并行执行的功能单元以提高性能每个功能单元的时钟速率可以降低选择器和内存仍必须运行在线速以上

数据流体系结构一个数据流处理器由一个大内存和一个选择器硬件组522.4软件体系结构集中式程序,像调用子例程一样调用协处理器

集中式程序,与智能可编程I/O处理器上的代码交互通信线程事件驱动程序RPC风格(程序在处理器之间划分)流水线(即使硬件不使用流水线)以上模式的组合

2.4软件体系结构集中式程序,像调用子例程一样调用协处理器53可编程处理器的使用例子最佳利用底层硬件特点的软件体系结构必须被设计为与处理器体系相匹配,特别是每个处理器被用来处理与其能力相适应的任务。通用CPU最高级功能,管理接口,系统控制,整体管理功能,路由协议嵌入式处理器中间级功能,高层协议,I/O处理器控制,异常和错误处理,高级的输入处理(如包重组),高级的输出处理(如流量整形)I/O处理器基本包处理,分类,转发,低级的输入/输出操作可编程处理器的使用例子最佳利用底层硬件特点的软件体系结构必须54数据包流经处理器体系包处理任务应当被分配到能够执行该任务的最低级处理器上去执行。I/O处理器的处理能力对系统性能的影响很大。数据包流经处理器体系包处理任务应当被分配到能够执行该任务的最55主要内容第三代网络系统与网络处理器网络处理器体系结构网络处理器的扩放

网络处理器举例网络处理器的设计权衡主要内容第三代网络系统与网络处理器563.网络处理器的扩放(scaling)扩放:支持更高的数据速率或更多的网络接口限制网络处理器扩放规模的主要因素:处理器(处理速度)内存(访存速度)其它因素:芯片面积,电气及光学特性,软件,……3.网络处理器的扩放(scaling)扩放:支持更高的数据573.1处理能力的扩放提高单个处理器的处理能力增加处理器的数目增加处理器的类型3.1处理能力的扩放提高单个处理器的处理能力58(1)提高单个处理器的处理能力这里主要指提高低级处理器的处理能力。提高时钟频率:受底层硬件技术限制当外部延迟控制处理时间时,对于扩放无帮助提高并行度(允许多个执行线程):在不提高处理器速度的前提下支持更高的网络流量可用线程数受(I/O处理时间/计算时间)的限制(1)提高单个处理器的处理能力这里主要指提高低级处理器的处理59(2)增加处理器的数目使用多个处理器拷贝,并使它们并行工作。问题:需要多少个处理器拷贝?在处理器体系中,较低的处理器需要处理较多的数据流,越高级的处理器需要的处理能力越少,因此越低的处理器等级从并行获得的收益越多。两个因素限制处理器的数目:处理器之间的协调机制可能成为瓶颈可以复制多个协调机制,令每个机制只协调少量处理器内部数据通路和内存可能成为瓶颈(2)增加处理器的数目使用多个处理器拷贝,并使它们并行工作。60处理器等级的扇出扇出(fanout):表示并行性随处理器等级的下降而增大的概念。处理器等级的扇出扇出(fanout):表示并行性随处理器等61(3)增加处理器的类型增加处理器类型的三种方法:在处理器等级中插入新的层次将新的协处理器插入到一个异构流水线中增加新的协处理器,用以缷载嵌入式处理器或I/O处理器中的计算原则上,常规处理器控制下的专用协处理器可以提供扩放。实际上,常规处理器以及在常规处理器和协处理器之间传递数据和结果的机制可能成为一个瓶颈。组织成流水线结构的一组协处理器常常比集中控制下的协处理器运行得快。(3)增加处理器的类型增加处理器类型的三种方法:623.2存储器扩放任何一种处理器扩放都要求有相应的存储器扩放。存储器等级和处理器等级之间没有直接联系。存储技术的选择通常涉及对以下四种主要存储特性的权衡:存储大小:一般可以预先确定或者和系统规模有关访存延迟和访存周期:访存延迟是存储器芯片对一个访问请求的响应时间,访问外部存储器比访问片上存储器要慢大约一个数量级。访存周期定义为两个连续请求之间所需要的最小时间间隔特定应用:针对特定应用选择合适的存储技术成本:设计者通常选择一个满足给定需要的成本最低的存储器3.2存储器扩放任何一种处理器扩放都要求有相应的存储器扩放63存储器扩放的措施增加内存大小增加内存带宽增加存储器种类增加高速缓存增加内容可寻址存储器(CAM)存储器扩放的措施增加内存大小64(1)增加内存大小某个等级上的存储器大小与处理器数目没有关系,而是倾向于和成本成反比。(1)增加内存大小某个等级上的存储器大小与处理器数目没有关系65(2)增加内存带宽内存带宽:存储器一次可以传输的数据比特数。优点:增加内存带宽可以加快块数据的传输缺点:增加内存带宽不能减少小数据量传输所需的时间要求较多的芯片物理空间和较多的外部连接(2)增加内存带宽内存带宽:存储器一次可以传输的数据比特数。66(3)增加存储器种类针对特定应用使用合适的存储器技术(3)增加存储器种类针对特定应用使用合适的存储器技术67(4)增加高速缓存高速缓存是一种用来减小访存延迟的技术。原则上说,Cache能够极大地提高性能。但Cache不能解决扩放的一般性问题:Cache的有效性取决于数据访问的重复性,但包处理任务一般不具有高引用时间局部性。弥补以上问题需要较大的cache空间,占据较多的芯片面积,并要求较长的搜索时间。一般而言,cache对于网络处理器的扩放作用不大,因为它对于处理一系列低引用时间局部性的包来说是非常低效的。(4)增加高速缓存高速缓存是一种用来减小访存延迟的技术。68(5)增加CAMCAM是一种支持快速搜索和数据存储的存储机制,主要用于改善查表操作的性能。CAM被组织成一个二维阵列,其中每一行的长度固定,称为一个槽。CAM提供的查找操作是并行匹配,处理器提供一个查找关键定,CAM返回匹配该关键字的一组槽,响应时间一般不超过100ns。CAM的组织(5)增加CAMCAM是一种支持快速搜索和数据存储的存储机制69TCAM的实现硬件在每个入口存储一个二进制数和一个掩码。掩码的长度等于槽长度,用于说明槽中哪些比特要和查找关键字中的相应比特进行比较。TCAM对于快速包分类尤其有用,可以并行地执行分类表的查找,并返回一个分类ID。用TCM查找分类表TCAM的实现硬件在每个入口存储一个二进制数和一个掩码。用T70AssociativeMemory使用CAM保存附加信息的概念可以推广以构成相联存储器。与查找关键字相关的附加信息存放在一个单独的RAM中。CAM的每个槽放两个值,一个查找关键字和一个指向RAM中附加信息的指针。这种间接关系允许程序员不修改硬件而改变查找关键字和附加信息之间的绑定。用CAM构建的相联存储器AssociativeMemory使用CAM保存附加信息的713.3其它制约扩放的因素芯片面积有限的空间限制了并行和存储的数量,不能将任意数量的处理器或存储器加到一个芯片上。可用空间也限制了内部连接的选择,特别是内部数据通路的带宽通常取决于并行线路的数目。时钟偏移和信号传播延迟信号传播延迟和时钟偏移限制了芯片的大小和数据通路的长度。管脚有限的管脚限制了芯片的可扩展性。3.3其它制约扩放的因素芯片面积72其它制约扩放的因素(续)内部和外部通信许多包处理任务是I/O密集的,因此数据传输速度会制约扩放性。内部通信机制提供片上通信,包括总线。外部通信机制提供网络处理器之间或者网络处理器与其它设备之间的通信,包括外部总线和交换结构。电气和热力学特性功耗和产热限制芯片的复杂度和规模软件许多网络处理器要求程序员编写适合硬件的代码。流水线结构上的软件扩展非常困难。将一个软件移到一个规模更大的系统上要求手工完成大量的改动。其它制约扩放的因素(续)内部和外部通信733.4瓶颈和扩放扩放网络处理器所要解决的最重要问题是:瓶颈在哪里?网络处理器的瓶颈可能来自硬件和软件组件的某种意想不到的组合。消除一个瓶颈后,新的瓶颈会出现网络处理器以及任何网络系统性能的提高都是通过不断地发现瓶颈和消除瓶颈来实现的。3.4瓶颈和扩放扩放网络处理器所要解决的最重要问题是:瓶颈74主要内容第三代网络系统与网络处理器网络处理器体系结构网络处理器的扩放网络处理器举例

网络处理器的设计权衡主要内容第三代网络系统与网络处理器754.1两级流水线(Agere)Agere公司的网络处理器称为AgerePayloadPlus(APP)。Agere的第一代网络处理器使用三个芯片的结构:快速模式处理器FPP(FastPatternProcessor):包分类路由交换处理器RSP(RoutingSwitchProcessor):包处理Agere系统接口模块ASI(AgereSystemInterface):提供主处理器到FPP和RSP的接口,维护数据流状态信息,获取统计信息FPP和RSP常被组织成一个两级流水线,线速地处理数据流。主处理器提供系统控制和管理,包括路由表和虚电路(ATM)更新、硬件配置和例外处理等。4.1两级流水线(Agere)Agere公司的网络处理器称76APP550芯片的概念组织模式处理引擎PPE:流水线结构的具有64个独立上下文的多线程处理器,以线速执行包分类。流量管理器:队列管理、流量管理、输出包修改,包含最多256K个包队列层次。状态引擎:收集统计数据,提供给流量管理器进行流量管理和调度,与主CPU接口。APP550芯片的概念组织模式处理引擎PPE:流水线结构的具77Agere网络处理器的特点能够提供RISC水平的灵活性和可编程能力:分类器和流量管理器均为可编程。Agere开发的函数式语言FPL是保证灵活性和多功能性的关键,FPL编写的代码可以实现第二层及以上协议的处理。包处理程序采用FPL编写,代码被编译成可被PPE执行的指令。调度和流量整形用类C的脚本语言C-NP编写,在流量管理器上执行。方便编程:Agere网络处理器向程序员隐藏了PPE的并行性,并允许程序员使用高级语言。FPL的使用大大方便了程序员编程,程序员只需编写代码告知下层计算资源实现何种功能,而不需要考虑如何实现。FPL能够大量减少指令的数目,显著提高软件工程的开发效率。Agere网络处理器的特点能够提供RISC水平的灵活性和可编78Agere网络处理器的特点(续)提供对流量管理的广泛支持流量调度管理器包含了最多达256K个包队列层次支持大规模搜索列表搜索和模式匹配专利技术:搜索任意长度的数据模式的时间取决于模式的长度,而与需要搜索的模式的数量无关。PPE能够同时进行64路数据包的解析和分类,不会出现RISC环境中由于推理性执行失败导致的流水线停顿,也不会出现上下文切换的开销。高性能超过基于先进RISC核心的网络处理器五倍达到固定ASIC的水平,且提供RISC水平的灵活性和可编程能力Agere网络处理器的特点(续)提供对流量管理的广泛支持794.2增强的RISC处理器(Alchemy)Alchemy架构由一个嵌入式RISC处理器加上协处理器组成。芯片的核心是一个增强了包处理能力的MIPS-32CPU指令集中增加了若干条与包处理有关的指令,如优化CRC或检查和的计算、计算比特串的某一位前有多少个1或多少个0、预取内存、有条件地转移数据等。由于芯片使用增强的MIPS处理器,因而可以用C编程。芯片提供商提供了软件开发工具、嵌入式操作系统和其它支持软件。功耗较低。4.2增强的RISC处理器(Alchemy)Alchemy80AlchemyAu1500芯片的内部结构芯片包含两个片上cache:指令cache和数据cache。嵌入式处理器可以访问各种I/O控制器和功能单元。两条内部总线:系统总线和外设总线。一个DRAM控制器一个SRAM控制器。AlchemyAu1500芯片的内部结构芯片包含两个片上c814.3并行的嵌入式处理器加协处理器(AMCC)AMCC网络处理器由嵌入式RISC系统加上一组协处理器组成,其核心是网络优化指令集计算NISC(Network-optimizedInstructionSetComputing)架构。NISC指令集是一个高度专用的指令集,裁减了不需要的指令,并优化了数据包解析、查找及修改等操作。NISC由AMCC公司的专利nPcore实现,据估计,nPcore引擎可获得4倍~12倍典型的RISC处理器的网络处理能力。高速AMCC芯片提供并行的nPcore,nPcore的数目取决于设备所要满足的连接速度。协处理器用于高速查找、包转换、收集统计信息等。核心处理器用C或C++编程,AMCC提供由编译器、汇编器和调试器组成的支持软件。采用隐式并行,程序员像为一个单处理器编程一样,硬件自动进行并行化。4.3并行的嵌入式处理器加协处理器(AMCC)AMCC网络82nP7510的内部结构6个并行的nPcore策略引擎:在一个时钟周期内同时查找第二、三、四层包头域。测量引擎:收集统计信息。包转换引擎:包头修改片上存储和统一的存储访问单元协处理器总线可以扩展到片外,适应更多产品的不同搜索要求。nP7510的内部结构6个并行的nPcore834.4同构处理器流水(Cisco)Cisco公司的PXF(ParalleleXpressForwarding)网络处理器是一个专用芯片,专为Cisco路由器而设计。PXF使用并行的处理器流水:一个芯片包含32个嵌入式处理器,分成四个并行流水线。用一个单独的路由处理器提供控制功能和网络管理功能。4.4同构处理器流水(Cisco)Cisco公司的PXF(844.5异构处理器流水(EZchip)由异构处理器组成的流水线,不同的处理器为不同的任务而设计,每一级使用一组相同的处理器。使用任务最优化处理器TOP(TaskOptimizedProcessor)引擎替代常见的RISC处理器,速度快约10倍。将大量快速高效的引擎集成在同一个芯片中并配置成超标量架构,使分组处理任务最优化。四种TOP引擎,每一类都有一个内部指令集和为特定协议处理任务优化的数据路径:TOPparse:解析包TOPsearch:查表TOPresolve:转发和QoS决定,路由表和状态信息维护TOPmodify:修改包四种TOP引擎按照四级并行流水的方式组织在一起4.5异构处理器流水(EZchip)由异构处理器组成的流水85EZchipNP-1的内部结构每个阶段都有多个TOP引擎执行相同的功能,每个阶段可对多个包同时进行处理。每个阶段的多个TOP处理器都有自身的指令存储器硬件调度器把到达的分组分配到流水线每个阶段的可用硬件上。对网络处理器编码就是对四种TOP引擎编码EZchipNP-1的内部结构每个阶段都有多个TOP引擎执86EZchip网络处理器的特点集成度高:一片网络处理器芯片加上外部DRAM就可以实现完整的交换卡。基于NP-1的解决方案,其芯片数量、功耗和运行成本大约为其它解决方案的1/5。第二代产品(NP-1c)处理能力提高一倍,而集成度更高、成本更低:10Gb/s接口的IPv6路由器只需要一个NP-1c和四个DRAM,整体价格约为820美元,功耗17W。EZchip网络处理器的特点集成度高:874.6大量不同的处理器(Hifn)基于PowerNP技术,包含了大量非常不同的嵌入式处理器、协处理器和其它功能单元。嵌入式处理器联合体EPC:1个嵌入式PowerPC处理器:提供CP(ControlPoint)功能。16个皮可引擎(picoengine):数据路径处理,每个皮可引擎是多线程的。各种协处理器:高速数据传输、校验和计算、队列操作、提供访问接口、流量管理、信号量。广泛的编程支持4.6大量不同的处理器(Hifn)基于PowerNP技术,88PowerNP网络处理器的内部结构PowerNP网络处理器的内部结构894.7灵活的RISC加协处理器(Motorola)每个C-Port处理器被设计为执行ingress和egress处理。每个C-Port芯片包含16个包处理器,称为通道处理器(ChannelProcessor,CP)。每个CP是一个具有独立编程能力的计算引擎,可独立执行不同的功能,如支持ATM、以太网、PPP等。一个CP可被配置为以下三种方式之一:专用配置:一个CP对应一个物理接口,适合于中低速接口。并行配置:一组CP被配置成一个并行簇,对应一个物理接口。流水线配置:一组CP被配置成一条流水线,对应一个物理接口。4.7灵活的RISC加协处理器(Motorola)每个C-90C-Port芯片的内部结构及并行簇配置C-Port芯片的内部结构及并行簇配置91一个CP的内部结构RISC处理器指令集为MIPS指令集的子集用C或C++编程主要运行应用程序串行数据处理器SDP负责数据编码/解码、帧封装/解析、CRC检测等比特级操作输入SDP:CRC校验、解码、包头分析、域抽取输出SDP:帧修改、CRC码生成、成帧、编码SDP可实现几乎所有的第一层接口和第二层协议处理每个端口可以独立地配置不同的协议使用微码编程一个CP的内部结构RISC处理器924.8超长同构流水线(Xelerated)数据包要穿过一条极长的流水线(200个处理器)每个处理器最多用四条指令处理一个包流水线提供11个外部访问点,在每个访问点上可以调用一个(片上或片外)功能单元,如片上hash生成器、分类器、管制器或统计数据累加器等。XeleratedX10q4.8超长同构流水线(Xelerated)数据包要穿过一条93主要内容第三代网络系统与网络处理器网络处理器体系结构网络处理器的扩放网络处理器举例网络处理器的设计权衡主要内容第三代网络系统与网络处理器94网络处理器VS.专用ASIC经济的角度:开发成本VS.性能技术的角度:可编程性VS.处理速度网络处理器VS.专用ASIC经济的角度:开发成本VS.95网络系统设计每端口速率VS.集合速率若与每个端口关联的机制形成系统瓶颈,则系统性能受制于每端口速率若交换结构形成系统瓶颈,则系统性能受制于集合速率设计者必须平衡网络处理器的最大速率与交换结构的集合速率。网络系统设计每端口速率VS.集合速率96指令集设计速度VS.功能:小而专门的指令集:功能少,执行速度快大而通用的指令集:功能强,芯片复杂,执行速度慢指令集设计速度VS.功能:97协处理器设计lookasideVS.flow-throughLookaside协处理器:运行起来像过程调用,主处理器在需要时调用一个协处理器优点:模块化,易于扩展缺点:调用时需要传递全部信息Flow-through协处理器:用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论