已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院工学硕士学位论文 a b s t r a c t n o w a d a y st h ep e r f o r m a n c e so fm o s tp a r a l l e lp r o c e s s o rs y s t e m sa l er e s t r i c t e db y t h e i rc o m m u n i c a t i o n so rt h e i ri n t e r c o n n e c t i o nm o d e s ,n o tb yt h e i ro p e r a t i o nu n i t s w i t h t h ed e v e l o p m e n to ft e c h n o l o g y , m e m o r i z e r sa n dp r o c e s s o r sa r eg e t t i n gf a s t e r b u tt h e p i nd e n s i t ya n dt h ei n t e r c o n n e c t i o nd e n s i t yo fp r o c e s s o r sa r ed i f f i c u l tt og r o w t h e c o m m u n i c a t i o nf r e q u e n c ya m o n gp r o c e s s o r si sf a rb e h i n dt h ei n t e r n a lc l o c kf r e q u e n c y o fm o d e mp r o c e s s o r s a l lo ft h e s ee q u a t i o n sm a k et h ei n t e r c o n n e c t i o nt e c h n i q u e s b e c o m et h ek e yf a c t o ro f t h ef u t u r ep a r a l l e lp r o c e s s o r s 1 1 1 er o u t e ra r i t h m e t i co ft h ep a r a l l e lp r o c e s s o ri sc o m p l e x t h ec i r c u i th a s1 0 n g l a t e n c ya n dt h el o g i ch a st h eh u g es i z e i tc o m m o n l yi st h eb o t t l e - n e c ko ft h ep a r a l l e l p r o c e s s o rt oi n c r e a s et h ef r e q u e n c ya n dl o w e rt h ea c h i e v e m c m n o wt h ei n v e s t i g a t i o n a n di m p l e m e n t a t i o no fh i g hp e r f o r m a n c ei n t c r c o n n e e t i o nn e t w o r kh a v eb e c o m et h eh o t p o m ti nt h ew o r l d s t r e a mp r o c e s s o ri sak i n do fs p e c i f i cp r o c e s s o r , i t sa p p l i c a t i o nm a i n l yf a c et h e d o m a i ni nd e n s e n e s sc a l c u l a t i o n t r e a t e da st h ea c c e l e r a t i o nu n i t ,i ti su s e dt od e v e l o p t h ec a l c u l a t i o np e r f o r m a n c et o w a r d ss t r e a md a t a i nxs t r e a mp r o c e s s o rs y s t e m , m a n y s t r e a mp r o c e s s o rc h i p sc o n s t i t u t ea na r r a ys y s t e m i tc a nh a n d l et h ea p p l i c a t i o nn e e d si n p a r a l l e lc a l c u l a t i o nm o r ee f f i c i e n c y t h i sa r t i c l er e s e a r c ha n di m p l e m e n tt h ei n t e r c o n n e c t i o nn e t w o r kb a s e do nx s t r e a mp r o c e s s o rm i n u t e l y t h ef i e q u e n c yi nt h i sd e s i g ni sm o r et h a n5 0 0 m h zt h r o u g h s i m u l a t i o na n ds y n t h e s i s t h el a t e n c yi nn e t w o r kr o u t e ri s6c l o c k st i m e ,a n dt h e t h r o u g h p u tr e a c ht h ev a l u eo f8 g b s i tm a t c h e st h ed e m a n do fp 嘶n m m c ci nx s 订e a mp r o c e s s o r t h en ca d o p t st h ep l a n a rr o u n d i n gn e tt ob et h ei m p l e m e n t a t i o no fs t n a c m r e , t r a n s m i t st h ed a t ai n4d i r e c t i o n s a n dt h er o u t e ra r i t h m e t i ci sf i x a t i o n n ch a s2 i n t e r n a li n t e r f a c e st oc o m m u n i c a t ew i t hs t r e a md a t aa n ds y s t e m m e s s a g es e p a r a t e l y n e r o u t e ra d o p t st h es t r u c t u r eo f c r o s s b a r b e c a u s et h ek e yf a c t o ri nn c p e r f o r m a n c ei st h e l o n gl a t e n c yi nc r o s s b a r , t h i sa r t i c l er e s e a r c h e st h ee n t i r ec r o s s b a rg e n e r a l l y n ra d o p t s 2c o m b i n a t o r i a l3 x 3c r o s s b a r si n s t e a do ft h e5 5c r o s s b a r a n dd e s i g nt h er o u t e r a r i t h m e t i cc a r e f u l l yt om a t c ht h ed e m a n do fs h o r t e rt h el o g i cl e v e l sa n dl o w e rt h ek e y p a t hl a t e n c y t h ew h o l ed e s i g nh a ss u c c e e d e di nt h et e s to fl a r g ed a t ai n p u t ,o p e r a t i o ni ne a c h i n s t r u c t i o n , b o r d e rc o n d i t i o na n de v e r yr a n d o md a t av e c t o r 1 1 地c o d ec o v e r a g eh a s r e a c h e dt h ep e r c e n t a g eo f1 0 0 a tt h es a m et i m e ,t h i sd e s i g nu s e dt h es l r e a l l lc l a n g u a g et ot e s tn ci ns y s t e mp l a t f o r m xs l r e a mp r o c e s s o rh a st a p e do u ts u c c e s s f u l l y t h ep r o c e s s o ri su n d e rt e s t i n gn o w c o n s e q u e n c eo f t h eo r i g i n a lv e r i f i c a t i o ns h o w st h a t n cw o r k sf i m e t i o n a l l ya n di t sp e r f o r m a n c em e e t st h ed e m a n d 第i i 页 国防科学技术大学研究生院工学硕士学位论文 k e yw o r d s :s t r e a mp r o c e s s o r ,i n t e r c o n n e c t i o nn e t w o r k s , n e t w o r ki n t e r f a c e ,n e t w o r kr o u t e r ,s w i t c ho fc l o c kd o m a i n ,v i r t u a l c h a n n e l ,r o u t e ra r i t h m e t i c ,d e a d l o c k 第i i i 页 国防科学技术大学研究生院工学硕士学位论文 表目录 表2 1 表3 1 表3 2 表3 3 表5 1 表5 2 表6 1 流程序设计语言与传统程序设计语言比较 网络包格式 n c 指令列表 n c 设计参数表 1 4 2 3 二进制计数值的错误采样 两种指针传递方式的比较4 5 性能参数对比 第l v 页 国防科学技术大学研究生院工学硕士学位论文 图目录 图1 1 图1 2 图1 3 图2 1 图2 2 图2 3 图2 4 图3 1 图3 2 图3 3 图3 4 图3 5 图4 1 图4 2 图4 3 图4 4 图5 1 图5 2 图5 - 3 图5 4 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 0 图5 1 l 图5 1 2 图5 1 3 图6 1 图6 2 图6 - 3 单片v i r a m 体系结构2 r a w 处理器结构及其互连模块3 流处理器i m a g i n e 的体系结构 x 流处理器总体结构9 运算群结构 r s 解码算法在流程序设计模型上的映射 普通函数与流核心程序的比较 互连网络的分类。 单总线网络( m = 存储器p = 处理器) 典型节点体系结构 二维环绕网拓扑结构 n c 结构示意图 消息发送,接收模型 网络接口位置实例 11 1 5 1 5 1 8 1 9 2 0 2 5 2 8 n i 结构示意图。2 9 流处理器接口模块。 一般路由器模型( l c 表示链路控制器) n r 结构示意图 源同步时钟及数据产生逻辑3 6 虫孔交换消息时空图 被阻塞的虫孔交换消息示意图。 虚通道 通过每条物理通道使用两条虚通道减少头阻塞延迟4 0 异步时钟导致的亚稳态 两级采样同步器消除亚稳态 异步f i f o 总体结构: 网络路由器结构 虚通道时钟域切换逻辑的模拟波形 路由算法的分类 系统级模拟测试流程 4 7 4 8 。5 3 改进前交叉开关5 5 改进后交叉开关5 5 第v 页 躬钳钓 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特剔加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文题目:薹速矬翌墨亘蔓圈缝鲍噩容生塞毽 学位论文作者签名:二整壁1日期:沙6 年,月f 牛日 学位论文版权使用授权书 本入完全了解国防科学技术大学有关保留,使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印,缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:薹逾缝翌墨亘蔓圆鳖鲍熟塞生塞塑 学位论文作者签名 作者指导教师签名 日期:神6 年fr 月l 咔日 日期:彩年月日 国防科学技术大学研究生院工学硕士学位论文 第一章绪论 人们从未停止过对更高计算能力的追求,而并行计算机是实现更高性能计算 能力的最有效的技术途径之一。2 0 世纪8 0 年代以来,高性能商用微处理器技术取 得了迅猛的发展,为并行计算机的实现提供了前所未有的、坚实的物质基础,使 高性能大规模并行计算机的实现成为可能。随着高性能商用微处理器在并行计算 机应用中的日益普及,高性能互连网络技术已经成为开发并行计算机性能的关键 技术。 流应用正成为微处理器的一项主要负载,流处理器正是为了加快对流应用处 理的速度而开发的一种专用处理器。多片流处理器芯片组织成阵列可以更大的提 高计算性能,而此阵列作为巨型机的加速部件可以加快巨型机的事务处理速度。 基于并行流处理器的网络互连既符合一般并行计算机互连网络的设计规则, 同时又是互连网络一项全新的应用,具有传统与创新并存的研究价值。 1 1 国内外研究概况 目前已有厂商开始推出商品化的互连网络产品,互连网络设计技术做为并行 计算机系统设计中最具活力、占主导地位的技术,仍然是并行计算机系统中商品 化最少、自行设计最多的部件。正因为如此,互连网络技术成为区别并行计算机 体系结构的标志性技术之一。 1 1 1 流处理器 国际上正积极开展新型体系结构的研究,涌现出t m a g i i l j ”、r a w l 2 1 、v i m m 3 1 、 t r i p s l 4 1 等超高速处理器和s c o r e 5 1 流计算模型等多种面向1 0 亿个以上晶体管的新 兴体系结构【6 】,由于这些体系结构拥有面向计算密集型应用,处理大量数据流的共 同特点,因此2 0 0 3 年在美国麻省理工学院召开的2 0 0 3w o r k s h o po l ls t r e a m i n g s y s t e m s 会议 7 1 上将其统归为流体系结构,应用背景最早来自媒体处理,现在已经 扩展到科学计算、信号处理、事务处理等领域。 1 1 。1 1 基于片上存储的v i r a m 体系结构 2 0 0 3 年6 月投片成功的v i m m 是u c b e r k e l e y 分校的d a v ep a t t e r s o n 等开发的 一种用于媒体处理的向量型芯片。v i m m 主要针对处理器性能不断增强,相应对存 储系统的带宽和延迟要求提高,而目前片外访存通信代价大、速度慢,使得存储 系统成为瓶颈的问题。其目标是要充分利用现有v l s i 的集成能力,通过向量和片 上d r a m 技术的结合,获得更高的带宽、更短的延迟和更低的功耗。 第1 页 国防科学技术大学研究生院工学硕士学位论文 v i r a m 的主要思想是尝试将向量处理器和d r a m 存储器( 1 3 m ) 都做到片上, 从而消除片外访存并减少访问层次。对于大多数面向1 0 亿晶体管级的体系结构来 说,其片上的大部分晶体管用作了c a c h e ,c a c h e 仅仅是保存了一份数据的冗余拷 贝。与此不同的是v h - a m 可以像使用主存一样使用片上d r a m 存储器,因此c a c h e 可以被取代,这是一个更高效的、某种程度上来说更精明的解决方案。当然片内 d r a m 的访问延迟比s r a m 长,v i r a m 使用延迟流水线( d e l a y e dp i p e l i n e ) 隐藏 了全部延迟。单片v i r a m 系统的体系结构如图1 1 所示。 图1 1 单片v i r a m 体系结构 v i r a m 的向量功能部件由4 个相同的l a n e 组成( 可以扩展更多的l a n e ,增 强计算能力) ,每个l a n e 可以看作一条完整的“位向量流水线,存储管理部件 从d r a m 中取2 5 6 位的数据送到l a n e 中,以s i m d 方式执行。 1 1 1 2t i l e 体系结构的代表:r a w 和t r i p s m i t 大学的r a w 体系结构是t i l e 体系结构的典型代表,一个r a w 处理器由 1 6 个可编程的t i l e 组成。每个t i l e 都有其单独的微处理器、数据c a c h e 、存储器 以及同连接各个t i l e s 的互连网络的接口,其结构如图1 2 。 r a w 适合于线程级并行,分空间执行,把底层的物理资源如门、线、引脚等 作为体系结构的实体暴露给程序员,这可使得程序员面对线延迟,更好的安排程 序从而获得最佳性能,较好的解决线延迟的问题。 t e x a s 大学提出的万亿次运算可靠智能自适应的处理系统t r i p s ,是一种面向 2 0 1 0 年的通用型体系结构,采用网格并行处理、片内的传感系统实现多态系统, 硬件可以根据不同应用软件和不同负载对自身进行调解,实现数据级、指令级、 线程级并行。实质还是一种可重构的t i l e 阵列,不过编译和操作系统的任务是全 新的,非常复杂。 第2 页 国防科学技术大学研究生院工学硕士学位论文 r a w c h i p 图1 2r a w 处理器结构及其互连模块 在流应用中,t i l e 体系结构通过采用线程级并行静态分配任务给片内t i l e 来 获得高的运算性能。他们也能采用s i m d 开发任务内并行。通过直接将一个任务 的结果送给另外一个任务也能挖掘出生产者消费者的局域性,而不用访问全局数 据存储器。 1 1 1 3i m a g i n e 流处理器 2 0 0 2 年4 月投片成功的i m a g i n e 是斯坦福大学的w j d a l l y 等开发的流体系结 构( s t r e a ma r c h i t e c t u r e ) 原型芯片,其体系结构如图1 3 。主要针对现代v l s i 工艺 条件下,片外通信昂贵,片内运算单元相对廉价,但是大部分片上面积被通信管 理等单元占据使得计算能力未被充分利用的问题。目标是通过开发符合流应用特 点的流式处理和三级带宽存储减少访问片外内存而使片内运算能力得到充分利 用,并且在一定程度上避免了长线延迟问题。 流处理的主要思想就是相关数据的集合组成一个记录( r e c o r d ) ,例如:一个 三角形的顶点、法线、颜色信息,或者是一幅图像的8 x 8 的像素区域,或者是一 个简单的整数等,有序的记录构成流。流无需定长,也可以是任意数据类型,但 同一个流中的记录必须同类型。而具体应用刚被分解表示成一连串对大量数据流 进行操作的计算核心( c o m p u t a t i o nk e r n e l ) 。所谓核心是运行在运算簇组( a r i t h m e t i c c l u s t e r s ) 里的小程序,对输入流里连续的数据重复执行并输出作为下一个核心的 输入流。一片i m a g i n e 同一时刻只能执行一个核心,即所有核心分时执行。在i m a g i n e 中实现了数据级并行( 运算簇组以s i m d 方式执行) 、指令并行性( 核心微代码 是v l l w 指令序列) 、任务级并行( 在执行核心时,s r f 可以与片外存储通信) 。 其性能指标相当不错,在2 5 0 m h z 下,i m a g i n e 在关键应用上可达到1 0 g f l o p s 、 2 0 g o p s 的运算能力,功耗仅为6 w n 。 第3 页 国防科学技术大学研究生院工学硕士学位论文 图1 , 3 流处理器i m a g i n e 的体系结构 1 1 1 4 流计算模型s e o r e s c o r e ( s ( r e a mc o m p u t a t i o n so r g a n i z e df o rr e c o n f i g u r a b l ee x e c u t i o n ) 是 u c b e r k e l e y 分校b r a s s 小组的e y l o nc a s p i 等于2 0 0 0 年提出的一种可重构执行 的流计算模型。主要针对目前芯片硬件规模日益增大,产品生产、设计时间缩短, 而引起的软件可重用问题。其目标是保护软件投资,使得软件无需重新编译就能 随硬件自动升级。 s c o r e 的关键思想是利用硬件分页来对编程者和执行隐藏硬件大小。具体方法 是将应用程序和硬件切分成固定大小的计算页( 分别称为页线程和计算页,页线 程在计算页上执行) ,由操作系统支持在运行时间自动交换成可用的硬件,类似 虚存页的使用。这样,一个被分页的应用可以运行在任意数量的物理计算页上, 而且无需重新编译就可运行在更多物理计算页上。这些计算页以数据流方式链接, 数据到达点火执行。数据流易分块,对分摊重构的高开销非常关键。 1 1 2 并行计算机互连网络 互连网络已经有很长的历史,电路交换网络很早就在电话中得到使用。2 0 世 纪5 0 年代出现了许多互连计算机和蜂窝式自动机的提议,但是几乎没有出现原型 样机。这些机器在2 0 世纪6 0 年代开始出现。1 9 6 2 年,s o l o m o n 成为第一台采用 m e s h 结构的位串多计算机。随后在2 0 世纪7 0 年代初,又出现了采用n i p 网络的 s t a r a n 、采用交叉开关的c m m p 以及采用更宽的二维m e s h 网络的i l l i a c 。在 此期间,还出现了间接互连网络,它用于向量和阵列计算机中多处理器与多存储 第4 页 国防科学技术大学研究生院工学硕士学位论文 体之间的互连。为了解决这一问题,学术团体开发了多种多级互连网络。1 9 8 2 年 推出的b b nb u t t e r f l y 就是第一批使用间接互连网络的多处理器系统中的一种。 1 9 7 8 年提出的二进制n 立方或超立方网络也于1 9 8 1 年在c a l t c c hc o s m i cc u b e 中 第一次具体实现。在2 0 世纪8 0 年代初期,学术团体主要集中于互连网络教学特 性的研究,这与在互连实际系统时遇到的实际问题逐渐分离。 最近1 0 年是互连网络研究的黄金时期。多计算机通信需求的驱动、单芯片 v l s i 路由器的实现,使研究团体在数字系统通信领域取得一系列革命性的突破。 1 9 8 5 年,t o m s 路由芯片沿着这条途径迈出了第一步。作为一系列单芯片路由部件 的先驱,该芯片引入了虫孔路由和用于死锁避免的虚通道,并和其他类似芯片一 道为现代直接网络中路由、流控、死锁和活锁问题的分析奠定了基础。经过大量 的研究,关于死锁和活锁问题的新理论、新的自适应路由算法、新的性能分析方 法、聚合通信的新途径以及新的网络体系结构层出不穷。2 0 世纪9 0 年代初期,基 于这些思路的低维直接网络已经广泛地取代了2 0 世纪7 0 年代的间接网络和2 0 世 纪8 0 年代的超立方,并被c m y 、i n t e l 、m e r c u r y 和其他公司的机器所采用。 1 9 9 5 年,m y r t a c t 的出现证明了互连网络应用于数字系统中并解决一般性通信 问题的可行性。这些点一点网络将取代由于电气限制从而已经达到性能极限的总 线技术。另外,就像应用于c r a yt 3 e 中b a r r i e r 网所证明的那样,它们也是替代专 用互连的一种比较经济的技术。然而,一个问题仍然阻碍着互连网络技术的广泛 应用。那就是关于这些网络的设计和分析的信息并不能很容易的被工程师和设计 者所获取。这些技术的描述可以在数百篇会议论文和期刊文章中找到。它们相互 交叉,其表示方法也常常不一致。 点一点互连网络已经在越来越广泛的应用领域中取代了总线,这些领域包括 芯片内互连、交换机和路由器以及f o 系统。其中,根据将一个或多个处理器与一 组i o 设备通过网络进行互连,出现了i n f m i b a n d 和r a p i d l o 标准。同时,一些公 司( 如s o n i c s ) 已经开始提供片上互连网络,有些时候也称为微网络 ( m i c r o n e t w o r k s ) 。而a v i c i 、p l u r i s 以及其他一些公司则开创性地采用了互连网 络作为路由器或交换机的基础构件。 互连网络在其传统应用领域中,如处理器与存储器的互连、处理器与处理器 之间的互连等,已经得到了普遍的应用。现在,互连网络甚至已经开始出现在中 等规模的计算机中了。c o m p a q a l p h a 2 1 3 6 4 中网络就是一个最好的例子。 直到现在,大多数制造商仍在设计全定制的互连网络( c c u b e 2 ,n c u b e 3 , i n t e lp a r a g o n ,c r a yt 3 d ,c m y t 3 e ,t h i n k i n gm a c h i n e sc o r p c m 一5 ,n e cc e n j u - 3 , m ms p 2 ) 最近开发了几种高性能的交换机( a u t o n e t ,m y d n e t ,s e r v e r n e t ) 并 投放市场。这些交换机面向工作站和个人计算机,用户可以使用这些高性能的交 第5 页 国防科学技术大学研究生院工学硕士学位论文 换机连接物美价廉的计算机,就可以组成廉价的并行计算机。 1 2 课题研究的意义 随着人们对计算性能永无止境的追求,在科研、国防、商务、娱乐等众多领 域,有一类典型的应用流应用,正成为微处理器的主要负载,日益吸引人们 的关注。流应用主要分为两类:一类是媒体应用,用来实时地处理音频、视频、 静态图像及其他密集型数据( d a t a - i n t e n s i v e ) ,典型的应用包括图像处理、图形处 理、视频编码与解码,信号处理等;另一类是科学计算,主要用于科学模型的建 立和模拟,典型的应用包括流体力学、气象、分子动力学、有限元方法问题等。 现有的用于媒体处理和流式科学计算的处理器,如桌面处理器、d s p 、向量微 处理器、专用图形处理器以及片内多处理机等,都存在各自的局限性如在传统 的微处理器中,数据重用局域性通常被寄存器文件或小容量的一级c a c h e 所捕获。 而生产者消费者的局域性则不容易被传统的存储层次所捕获,因为它并不符 合l r u ( l e a s t - r e c e n t l y - u s e d ) 替换规则。这些差别说明为整数运算而设计的体系 结构( 例如通用微处理器) 并不适合流应用,反之亦然。因此,很有必要设计一 款专门用于处理流应用的处理器。 提高性价比和峰值处理性能的作法就是将多片流处理器通过互连网络组织成 阵列,成为并行流处理器。根据有三点:首先,要使处理器的性能超出单片流处 理器,符合逻辑的想法是把多片流处理器连接在一起,这要比设计定制处理器更 划算。第二,系统结构革新的步伐是以指令级并行的不断开发为基础的,这种情 况持续了1 5 年,但这能否持续下去还不明朗。现代的多发射处理器已经变得异常 复杂,而且通过增加复杂度、增加电路和增加功率所能提高的性能正在减少。第 三,广泛推广并行机的主要障碍,即软件,出现了缓慢但稳定的进展。因此,多 片流处理器的思想可以有效的运用在流处理器系统中,通过网络互连,可以极大 的增加全局带宽。 当设计者力求更有效地使用宝贵的互连带宽时,互连网络几乎已成为现代数 字系统系统级通信问题的通用解决方案。起初为满足多计算机通信需求而开发的 互连网络目前已开始取代总线成为系统级互连的标准。此外,互连网络还取代了 专用系统中的专用线路,因为设计者发现,路由报文更快、更经济。 并行计算机需要某种通信子系统来连接处理器、存储器、磁盘和其他外围设 备。这些通信子系统的特殊需求依赖于并行计算机的体系结构。最简单的方法就 是:像单处理器系统那样,首先使用系统总线和y o 总线把处理器连接到局域网上。 但是,那些现成的通信子系统是为计算机网络而设计的,性能并不理想。尽管工 作站网络是构造并行计算机的一种廉价方案,但是通信子系统已经成为很多应用 第6 页 国防科学技术大学研究生院工学硕士学位论文 的瓶颈。 因此,并行流处理器性能提高的关键在于高效而快速的网络数据传输。设计 出一种满足x 流处理器性能要求的互连网络具有十分重要的意义。 1 3 研究内容及目标 为了充分利用多片流处理器的并行处理能力,减少数据在片间传输的延时, 需要一个性能优越的互连网络。x 流处理器对互连网络的要求主要有两点,一是 能够正确地将数据传送至路由指定的目标节点;二是时钟频率要不低于5 0 0 m h z 。 本文围绕x 流处理器高性能互连网络的设计实现展开。首先对目前国际上流行的 各种互连网络的拓扑结构开展深入细致的研究和分析;在此基础上,根据x 流处 理器具体需求设计优化了x 流处理器互连网络的总体结构;完成该互连网络的逻 辑设计及验证。 本论文研究工作的目标是: 1 ) 采用低延迟的交叉开关结构,6 站全流水设计实现一个高性能互连网络, 频率高于5 0 0 m h z ; 2 ) 完全遵循网络设计标准,实现了系统要求的所有指令; 3 ) 通过减少接口引脚数目,尽量减小实现面积; 4 ) 通过标准测试向量和流级程序测试,保证验证的充分性和正确性; 1 4 论文的贡献及结构 论文工作主要贡献包括: 1 ) 对目前国际上流行的各种互连网络的拓扑结构开展深入细致的研究和分 析; 2 ) 研究了流处理器互连网络的实现机制;提出了x 流处理器互连网络的总体 实现方案; 3 ) 设计实现了x 流处理器低延迟、高性能、小面积的互连网络; 4 ) 设计实现了网络接口,能够处理流处理器与网络的流数据交互; 5 ) 采用虚通道解决由二维环绕网网络结构可能导致的死锁; 6 ) 对交叉开关进行了设计改进,使得时钟频率比传统设计有所提高; 7 ) 编写了大量程序对多节点的互连网络的进行了详细的测试,验证了各项功 能,代码覆盖率为1 0 0 论文的结构安排如下: 第一章综述了并行计算机互连网络的发展及国内外流处理器的研究现状,阐 第7 页 国防科学技术大学研究生院工学硕士学位论文 述了课题研究的意义、研究内容和研究目标等。 第二章简述了x 流处理器的总体结构,介绍了流处理器的主要特点以及互连 网络( n c ) 在其中所处的位置。, 第三章对各种网络结构进行了分类和分析研究,分析了x 流处理器互连网络 的具体需求,确定了最合适的网络结构。 第四章说明了网络接口的一般功能,主要对网络接口( n i ) 的实现做了具体 的描述。 第五章描述了网络路由器的结构,对网络路由器( n r ) 内部各个逻辑进行了 详细的剖析,包括虚通道的设计、网络交换方式的选择、时钟域切换逻辑的实现, 路由算法的描述等。 第六章对n c 进行了模拟验证和综合优化,针对设计的性能要求,对其中的交 叉开关进行了改进。 最后对整个论文做了总结并对互连网络的继续研究点进行了分析。 第8 页 国防科学技术大学研究生院工学硕士学位论文 第二章x 流处理器 2 1 总体结构 x 流处理器是一款采用流处理技术服务于巨型机系统的高性能加速部件,是 构成巨型机系统的高性能加速阵列。 x 流处理器是一个可编程的单片处理器,它支持流编程模型。图2 1 展示了x 流处理器的主要模块图。x 流处理器结构支持2 4 个a i ,这些a l u 被组织成4 个s i m d 的运算群。每一个运算群拥有6 个a l u 及若干本地寄存器文件( l r f ) , 执行完全静态的超长指令字。寄存器文件( s r f ) 是处理器的数据连结部分。存储 系统,算术运算群,主机接口,微控和网络接口都通过s r f 将流导入或者导出。 图2 1x 流处理器总体结构 x 流处理器是一个协处理器,它有两个编程级别:核级和流级。数据流从s r f 中导入,核级程序被加载到微控制器的内部存储器。核级可能会访问局部变量, 读输入流,写输出流,但是不会做直接的访存操作。核级函数用k e m e l c 编写 ( k e m e l c 语法以c 语言为基础) ,在程序运行时被编译成微代码,这些微代码在 算术运算群内的功能单元中执行,对连续的流元素进行操作以完成核级函数的功 能。在流级,x 流处理器使用s t r e a m c 进行编程,s 仃e a m c 提供基本的函数来操作 流,控制流在核级程序之间进行流动。 第9 页 国防科学技术大学研究生院工学硕士学位论文 2 2 1 运算群阵列 2 2 分类部件 运算群是v l l w 执行的基本单位。x 流体系结构中运算群的数目可以随应用 需要加以裁减或扩展。x 流处理器设置了4 个运算群,在微控的控制下以s i m d 方式执行。微控将v l i w 指令发送到运算群,再将指令的各个域发送到对应的功 能单元并行执行。 如图2 2 ,运算群的功能单元分为两类:运算部件和非运算部件。运算部件执 行整数和浮点运算指令,包括4 个乘加单元;f m a c 0 ,f m a c l ,f m a c 2 ,f m a c 3 和一个除法单元d s q 。 四个乘加单元具有相同的结构。乘加单元内部又包括: m a f :执行浮点乘加指令,“位整数乘法指令,浮点和整数之问的转换 指令以及浮点规格化指令; f m i s c :执行浮点比较,浮点逻辑运算以及浮点数的最大最小值计算等浮 点杂类指令; a l u :执行6 4 位整数算术和逻辑运算,包括各种比较和移位操作。 除法单元d s q :完成浮点数倒数和平方根倒数的查表计算,此外d s q 也执行 几种数据移动指令。 非运算部件支持条件流和数据移动操作,包括局部寄存器文件( l r f 及条件 码寄存器文件c c r f ) 、i o 单元、群间通信单元c o m m 、便笺寄存器单元s p 、条 件流控制单元旧和v a l 。 局部寄存器文件是功能单元的数据源和中间结果暂存器,条件码寄存器文 件存储比较指令产生的结果,用于数据通路选择和条件流操作。 i o 单元在微控的控制之下从流缓冲器s b 中读取数据,或将结果总线上的 数据写回s b 。1 0 单元最多可以同时支持8 个输入输出流用于在运算群之 间传输数据,但受限于运算群内部的总线,并发的输入流最多4 个,而输 出流可以达到8 个。 s p 是个2 5 6 * 6 4 的存储器单元,支持基址+ 偏移的寻址方式,实现了一个 部件内的小型查找表。s p 可以作为条件流的暂存器,支持各种读写操作 的组合。 c o m m 是个通信单元,通过它运算群之间可以进行数据交换。 j b 和v a l 都是条件流的控制单元,产生和存储条件流需要的各种状态, 第l o 页 国防科学技术大学研究生院工学硕士学位论文 和微控一起控制i o 、s p 和c o m m 的执行,从而实现条件输入输出流。 功能单元之间的数据交换以及s r f 数据和功能部件之间的数据传输是通过运 算群内交叉互联网络开关完成的,所有的功能单元都是将输出结果发送到结果总 线上,而l r f 的输入端连接所有的结果总线,这样交叉互联开关就将所有的功能 单元和l r f 之问形成一种全互联的结构。 运算群指令流水线划分为读寄存器站( r e g ) 和指令执行站( e x e ) 。读寄存 器站的一个任务是对s p 、v a l 、j b 和c o m m 单元指令进行译码,另外一个重要 任务是完成对本地寄存器文件的读写。指令执行站则实现各种指令的操作。不同 部件的指令可以划分为多站完成。 2 2 2 微控制器( u c ) 图2 2 运算群结构 微控制器是x 流处理器的k e r n e l 级控制器,负责k e r n e l 级程序的运行。主要 完成以下功能:接受流控s c 传来的参数和控制信号;从s r f 中加载核心程序的 微代码并存储在微控制器u c 的指令存储器中;控制核心程序在运算群中的执行 第1 1 页 国防科学技术大学研究生院工学硕士学位论文 ( 在x 流处理器中核心程序以s i m d 的方式执行,因此指令执行时微控制器u c 将 指令同时发射到4 个运算群上) ;在u c 中还要执行k e r n e l 级v l i w 代码中微控制 器域指定的操作如l o o p ,u cd a t a 等,这些指令都在u c 中执行而无需发 射到运算群c l u s t e r 上运算。 2 2 3 流寄存器文件 s r f 是一个2 5 6 k b 大小的处理流的存储器。s r f 可以容纳任何数量任何长度 的流,唯一的限制只在于s r f 的实际大小。流通过一个流描述符被引用,该流描 述符包括一个在s r f 中的基地址,一个流长度。 一组由2 1 个3 2 字的流缓冲组成的阵列可以同时处理来自于2 1 个流客户端的 读或者写访问操作。这些客户端是将流读出或者写入s r f 的,比如说存储系统, 网络接口和算术运算群等。流缓冲内部存储阵列是1 6 字宽,每两拍就能将一个流 缓冲填满或者排空。 如果读数据可用或者写数据空间可用,每一个流客户每拍都能够对对应的流 缓冲进行访问。服务于运算群的8 个流缓冲每个流缓冲每次能够提供4 个数据字, 每个运算群一个字。服务于网络的8 个流缓冲总共能够每次提供2 个字的访问, 一读一写。另外5 个流缓冲每次提供一个字的访问。因此,流缓冲每拍最多能够 提供7 1 个字的带宽,这可能会出现峰值带宽超过单端口的s r f 的带宽的现象出现。 流缓冲是双向的,但是在某一次流传输的过程中只能是单向传输。 2 2 4 存储系统 如上所述,所有x 流处理器存储操作都是通过m e m o p 指令来完成的,m c m o p 指令可以在存储器和s r f 之间传输流。这种流的l o a d s t o r e 结构与传统的r i s c 标 量处理器的l o a d s t o r e 结构相类似。它可以简化编程,可以使存储系统优化流的吞 吐率,而不仅仅局限于单个独立的访存操作时间的优化。通过5 0 0 m h z 的工作频 率和两个访存通道,存储系统最多可以提供8 g b s 的片外带宽。系统可以同时提 供两个存储流访问。为了支持并发的传输,有四个从存储系统到s r f 的流通道( 两 个索引流,两个数据流) 。x 流处理器支持跨步、索引和位反三种访存类型。 2 2 5 网络控制器( n e t w o r kc o n t r o l l e r ) x 流处理器的网络提供了多x 流处理器系统中各处理器间的高带宽连接。网 络为二维环绕网,使用维序路由,路由信息由调度程序决定,网络中可以同时进 行系统消息通讯和流数据的传递。链路时钟与系统时钟完全异步。采用硬连线链 第1 2 页 国防科学技术大学研究生院工学硕士学位论文 路流控。网络控制器使用专门的8 个s b 进行流数据的发送和接收。每个处理器有 4 个外部单向网络通道,这样就可以构成任何规模的x 流处理器互连阵列。源处 理器执行n e t o p 指令从s r f 读取一个流然后根据报头的指定信息通过网络直接到 达目的节点。在目的处理器上会执行另一条n e t o p 指令,它把接收到的流送进s r f 中。每一条n e a p 指令都会指定一个t a g 标志以便处理器节点能够分辨到达的多个 消息。 使用流模型,一个应用可以很容易通过网络分解到多个x 流处理器上。在两 个处理器上分解一个应用时,两个处理器上的流级代码会被分解,其中一台上插
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省武汉市(2024年-2025年小学五年级语文)统编版小升初真题(下学期)试卷及答案
- 高中化学 第四章 非金属及其化合物教案及练习 新人教版必修
- 购买课件分享教学课件
- 高二物理全套教案(上学期)人教大纲版,从第16单元到第31单元成套
- DB11T 1080-2014 硬泡聚氨酯复合板现抹轻质砂浆外墙外保温工程施工技术规程
- 河南省驻马店市上蔡县2023-2024学年五年级上学期期中英语试卷
- 山西省吕梁市交城县2024-2025学年七年级上学期期中考试生物学试题(含答案)
- 便鞋市场发展预测和趋势分析
- 婴儿服装市场需求与消费特点分析
- 护肤药剂产业规划专项研究报告
- 2021-2022学年统编版道德与法治五年级上册全册单元测试题及答案(每单元1套共6套)
- 2024年财务条线人员考试题库(含答案)
- 天翼云高级解决方案架构师认证资格考试题库及答案
- 2024-2030年中国水上运动皮划艇行业营销动态与竞争趋势预测报告
- 2023年江苏省淮安市中考英语真题(解析版)
- 上下楼装修纠纷协议书范本
- 施工成本控制员岗位职责
- 2021-2022学年北京市房山区九年级(上)期中数学试卷【含解析】
- DB11∕1450-2017 管道燃气用户安全巡检技术规程
- 室上性心动过速-医学课件
- 《第4课 数据的安全》参考教案1
评论
0/150
提交评论