(电子科学与技术专业论文)x处理器总线的关键技术研究与实现.pdf_第1页
(电子科学与技术专业论文)x处理器总线的关键技术研究与实现.pdf_第2页
(电子科学与技术专业论文)x处理器总线的关键技术研究与实现.pdf_第3页
(电子科学与技术专业论文)x处理器总线的关键技术研究与实现.pdf_第4页
(电子科学与技术专业论文)x处理器总线的关键技术研究与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(电子科学与技术专业论文)x处理器总线的关键技术研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 a b s t r a c t w 池t h ed e v e l o p m e n to fm i c r o e l e c t r o n i c s t h ec u r r e n th i g h p e r f o r m a n c ep r o c e s s o r sa r e m a d ei no 13 u r np r o c e s sw i d e l y ,a n dt h ec l o c kf r e q u e n c yo fp r o c e s s o rc o r ei sa b o v e3 g h z h o w e v e r ,t h eb a n d w i d t ho fo f f - c h i pm e m o r ya n dp e r i p h e r a l si sm u c hl o w e r ,a n dt h eg a pi s e n l a r g i n g ,a sa ne x t e r n a li n t e r f a c eo f t h ep r o c e s s o r ,s y s t e mb u sc o m p o n e n ta f f e c t st h ee f f i c i e n c y o fm e m o r ys y s t e md i r e c t l y t h u s ,i ti si m p o r t a n tt o s t u d yp r o t o c o l sa n di m p l e m e n t a t i o no f s y s t e mb u st oh i d em e m o r yl a t e n c ya n di n c r e a s em e m o r ya c c e s sr a t e m o d e mh i g h p e r f o r m a n c ep r o c e s s o rc a ne x p l o i tm o r ep a r a l l e l i s m a so n ep r o g r a ms t o p s d u et ow a i t i n gf o rm e m o r yd a t a ,p r o c e s s o rc a nc h o o s et or u na n o t h e rp r o g r a m t h u s ,i ti sm o r e i m p o r t a n tt op r o v i d ec o n t i n u o u sd a t as t r e a mt h a nt or e d u c et h ed e l a yo fs i n g l em e m o r ya c c e s s a c c o r d i n gt ot h i sp r i n c i p l e ,s y s t e mb u sc o m p o n e n to f t h ec u r r e n th i 。g h - p e r f o r m a n c ep r o c e s s o r si s i m p l e m e n t e db yt h es p l i tt r a n s a c t i o nb u st e c h n o l o g y ,i nw h i c he a c ht r a n s a c t i o ni ss p l i tt os e v e r a l p h a s e s ,a n dt h ed i f f e r e n tp h a s e so ft r a n s a c t i o n sa r ep i p e l i n i n g b yt h i sm e a n st h es p l i tt r a n s a c t i o n b u sc a nd e l i v e rd a t at op r o c e s s o rc o r ec o n t i n u o u s l y w es t u d yt h es p l i tt r a n s a c t i o np i p e l i n i n g t e c h n o l o g yi nd e t a i l ,a n da p p l yi tt ot h ei m p l e m e n t a t i o no fs y s t e mb u sc o m p o n e n ti nx p r o c e s s o r t h eb u sa n dt h ep r o c e s s o rc o r eo r e nr u ni nd i f f e r e n tc l o c kf r e q u e n c i e s ,s ot h e i ri n t e r f a c e s i g n a l sb e l o n gt od i f f e r e n tc l o c kd o m a i n s t h i sw i l lb r i n go nt h es i g n a lt r a n s m i t t i n gd e l a y i nt h i s s i t u a t i o n ,i tm a yr e s u l ti n t h a tt h ei n t e m a lc a c h er e t u r n sw r o n gs n o o p i n gr e s u l tb e c a u s et h e i n t e r n a lc a c h ec a n n o tg e tt h ec o n f l i c t i n gi n f o r m a t i o ni nt i m ew h e nt h es n o o p i n gt r a n s a c t i o n c o n f l i c t sw i t ht h er e t u r n i n gt r a n s a c t i o n s i nt h i sp a p e r ,w ep r o p o s eo n er e - s n o o pm e c h a n i s m t o s o l v et h es n o o p u n c o n s i s t e n c yp r o b l e m t oi m p r o v et h ep e r f o r m a n c eo fs y s t e mb u sa n di n c r e a s eu t i l i z a t i o no ft h et r a n s a c t i o n p i p e l i n e ,w cr e f o r mt h ed a t at r a n s f e rp r o t o c o l ,s ot h a ti tc a ni n c r e a s et h es o u r c es y n c h r o n o u sd a t a t r a n s f e rr a t ef r o m2t i m e st o4t i m e s ,w h i c hm a k e st h ed a t ap h a s en ol o n g e rt h eb o t t l e n e c ko ft h e t r a n s a c t i o np i p e l i n e t h ep e r f o r m a n c et e s t so f t h er e f o r m e ds y s t e mb u sc o m p o n e n ts h o wt h a tt h e p e r f o r m a n c eo fs y s t e mb u si sh i g h l yi m p r o v e d t h er e s e a r c ho f s y s t e mb u sp r o t o c o la n di m p l e m e n t a t i o no f t h es y s t e mb u sc o m p o n e n to fx p r o c e s s o ra r es i g n i f i c a n t l yi m p o r t a n tt oi m p r o v et h ep e r f o r m a n c eo f0 1 1 1 6 4 一b i t sx p r o c e s s o r ,a n d t h i sp a p e ri sa l s oap r e f e r a b l er e f e r e n c et oe x p l o r es y s t e mb u sp r o t o c o lo ft h en e x t g e n e r a t i o n h i g h p e r f o r m a n c ep r o c e s s o r s k e y w o r d s :s y s t e m b u s c o m p o n e n t ,s p l i tt r a n s a c t i o n ,b u sp h a s e ,r e - s n o o p ,s o u r c e s y n c h r o n o u s i i 国防科学技术大学研究生院学位论文 图目录 图1 处理器计算时间与访存时间的变化趋势 图2x 处理器总线系统结构。,。, 图38 0 8 6 处理器的存储操作时序 图4 突发总线访存时序, 图5p e h t i u m 处理器中分离事务操作时序 图6 使用p e n t i u m p r o 构成多处理机系统 图7 集中仲裁的拓扑结构 图8 请求响应信号时序 图9 总线设备分布式仲裁连接示侧, 图1 0 事务流水示意图 图1 1 总线信号传输协议对比, 图1 22 倍频源同步数据传输协议 图1 3 事务流水线时空图, 图1 4x 处理器总线事务流水线结构, 图1 5 设备间的仲裁优先权轮转 图1 6 事务流水执行过程实例, 图1 7 公共时钟锁存协议 图1 8 系统总线部件功能单元结构, 图1 9 仲裁与事务发送状态机 图2 0 事务接收状态机, 图2 l 地址比较逻辑 图2 2i o q 与监听队列和响应队列的关系 图2 3 监听逻辑状态机, 图2 4 数据接收状态机 图2 5 数据发送状态机。, 图2 64 倍频源同步数据传输 图2 7 硬件加速器仿真环境, 图2 8 事务流水线吞吐率 0 0 0 ,0 0心坞m揭冯扒弘疆虬北飘昭弱卯 国防科学技术大学研究生院学位论文 v 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研冤成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明井表示谢意。 学位论文题目: k 矬堡墨墨堡鲍差焦撼垄班壅兰塞窭 学位论文作者签名:坠塑日期:埘牛年j 1 月1 5 目 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索可以采用影幻缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:x 盐垄墨! 垦丝鲍羞链挂盛班峦皇塞盈 学位论文作者签名:毯璺日期:2 阳千年j j 月圬日 作者指导教师签名:;墼丛坠日期:- 邓年,f 月f ,日 国防科学技术大学研究生院学位论文 第一章绪论 1 1 研究背景 在早期的计算机系统中,处理器与存储器的速度差距不是十分明显,因此早期处理器 ( 如i n t e l8 0 8 6 ) 的系统总线是通过处理器接口直接读写片外存储器的,总线访问都是独 占访问,即一次访问过程从发送地址开始到数据传输完成整个操作期间不能被打断。随 着芯片制造工艺的发展,处理器与存储器之间的速度差距越来越大山,处理器直接访问片 外主存储器将会造成大量的c p u 时间浪费。为了解决二者的速度差异问题,高性能处理器 普遍采用了c a c h e 缓存技术,多级c a c h e 缓存构成存储系统完成处理器内核的存储操作监, 并通过系统总线或者d i l & 通道访问主存储器。 对现代高性能处理器的研究显示,尽管c a c h e 的使用能够降低访存延迟,仍然有半数 以上的处理器停顿是由于访存延迟引起的。处理器性能持续提高的障碍不在处理器的计算 性能上,更多的是受到内存和外部设备等速度的限制而带来的计算等待, 粼年i i 二正 z 嘲年f 【二 z 毗年i 啊 二 z 眦年 图l 处理器计算时间与访存时间的变化趋势 图l 是2 0 0 i 年以来微处理器中计算时间与访存时间的变化趋势,在计算时间不断减 少的同时,访存延迟改善, f e d , ,处理器性能越来越受制于访存延迟。单从计算速度来看, 处理器拥有接近三倍的性能提升,但是整体性能提升却远不刭三倍。由于总线技术、大容 量内存、高频率制造工艺等诸多方面的限制,内存存取速度远没有计算性能的提升速度快, 随着主频的进一步提升,计算时间的可“压榨”的空间也越来越小,根据a m d a h l 定律,通过 进一步减少计算延迟来提高处理器系统性能将越来越行不通。 当前,由于采用同时多线程s m ( s i m u l t a n e o u sm u l t i t h r e a d i n g ) 或者片上多处理器 c m p ( c h i pm u l t i p r o c e s s o r ) 等先进技术,高性能处理器已经能够开发出越来越多的并行 性,处理器内部执行非访存操作所需要的时间也越来越短,当指令因访存而必须等待时, 处理器可以切换到其他程序段执行,隐藏访存等待时间皿。这样的处理机制要求存储系统 能够提供连续的指令和数据流供处理器切换到不同的程序段,减少处理器停顿。因此对于 第1 页 国防科学技术大学研究生院学位论文 存储系统,提供连续的访存结果要比降低单个存储访问的绝对延迟时间更加重要。 系统总线是存储系统的重要组成部分,也是处理器与外部设备进行数据交换的唯一通 路,其性能直接影响着访存性能并进而影响整个处理器系统的性能。总线频率、功耗以及 处理器封装技术是制约系统总线部件性能的重要因素皿皿,系统结构设计人员为克服这些 客观因素,提高总线系统的性能两做了大量的研究。我们称系统总线上的读或写等一次完 整地访问过程为一个总线事务,当前总线设计改变了过去的独占事务访问过程,而是将总 线事务访问过程分割为多个子操作( 也称为事务的多个阶段) 皿,每个子操作执行期间只 占用部分总线资源,而释放未使用的总线资源供其他总线事务访问。这类分割执行的总线 事务被称为分离事务。 x 处理器的总线协议采用分离事务总线设计技术,多个事务的不同阶段流水化执行, 利用流水线技术隐藏访存延迟。x 处理器总线的同步时钟高达2 0 0 m h z ,最高数据传输率为 6 。4 g b s 。其系统总线部件在尽量降低存储访问的绝对延迟时闻的同时,重点利用事务流 水线技术为存储系统提供连续不断的指令和数据流,具有很高的总线性能。 本课题属于我国8 6 3 计算机软硬件技术重大专项之高性能通用c p u 芯片项目设计 的一部分,课题研究与实现具有重要的现实意义。目前本课题的研究成果已经应用于x 处 理器系统总线部件的实现,运行状态良好。 1 2 处理器总线技术的发展现状 研究显示,当前高性能处理器的系统总线部件已经普遍采用分离事务总线技术,并按 照流水的方式执行总线事务,连续读取和返回存储器或者i 0 设备数据,利用流水线特性 隐藏访存延迟。控制和地址总线信号传输采用公共时钟锁存协议,即站到站的信号传输方 式,部分处理器的数据总线采用了源同步技术,提高数据信号完整性。大部分处理器系统 总线支持对称多处理机系统,一条总线上可以挂载多个处理器,采用分布式仲裁协议或者 集中仲裁协议分配总线使用权。 在单总线对称多处理机系统中,系统总线通过监听协议保证多个处理器间的c a c h e 一 致性址。监听协议要求总线上每个事务的地址都同时被所有总线设备时刻监听,总线上不 同的处理器按照相同的m e s i 协议维护其内部c a c h e 状态,实现多处理器间c a c h e 数据的 一致性。 系统总线控制信号传输采用公共时钟锁存协议皿,要求: 1 ) 所有输入信号首先进入输入寄存器,再传送给内部运算逻辑; 2 ) 所有输出信号均为寄存器输出,不经过除了驱动器以外的任何组合逻辑器件。 这种传输方式有效缩短了信号线互连延迟,有利于提高总线时钟频率。 事务流水执行是当前高性能处理器总线技术的重要特征。总线事务被分割为多个总线 阶段,如在x 处理器中,总线事务被分割为仲裁、请求、监听、响应、数据和延期6 个阶 第2 页 国防科学技术大学研究生院学位论文 段( 部分事务没有数据阶段和延期阶段) ,不同的总线阶段分别占用不同的总线资源。一 个事务在某个阶段一般只占用一种总线资源,而释放未用的总线资源供其他事务使用。这 种总线使用方式提高了资源利用率。使得多个事务能够按总线阶段重叠执行,被称为事务 流水线技术。 处理器与存储控制器和外部设备的连接结构有多种方式。目前x 处理器系统采用的是 比较经典的桥接结构,处理器与主存之间通过桥进行连接。这种结构便于系统选择各种不 同类型的存储器,具有更大的灵活性。同时处理器不必负责d r a m 存储器的刷新操作,减 轻处理器的负担并简化接口。 c p u lc p u n 图2x 处理器总线系统结构 近年商性能微处理器的发展中,数据总线信号传输开始采用源同步传输技术。数据信 号与被称为源同步时钟鲍采样时钟同步传递蜮,采样时钟信号与数据信号之阃的福对偏斜 能够通过控制布线长度( 片内+ 片间) 较好地得到控制,减小了数据信号相对于采样时钟 的偏斜,提高了信号完整性。 由于采用源同步技术后数据信号完整性的提高,数据信号能够以更快的时钟频率传输。 因此可以在一个总线时钟周期内传输2 次或者4 次数据,我们称之为2 倍频或4 倍频源同 步数据传输技术。x 处理器的数据总线采用了2 倍频源同步数据传输技术,总线时钟频率 为2 0 0 m h z ,最高数据传输率达到6 4 g b s 。 1 3 课题目标 分析主流处理器的系统总线协议和实现方法,掌握先进的系统总线设计技术。重点研 究分离事务总线,分析分离事务各阶段划分的基本原则和采用事务流水线对于提高总线性 能的影响,使用先进的总线技术实现x 处理器的系统总线部件;根据理论分析和x 处理器 第3 页 国防科学技术大学研究生院学位论文 系统总线部件的性能测试结果,探索更高效率的总线设计技术,改进总线协议,进一步提 高总线性能。 1 4 论文结构 本文主要研究了微处理器的分离事务总线协议和实现技术,实现了x 处理器的系统总 线部件,并改进数据传输方案,提出了总线协议的下一步改进方向和改进措施。全文组织 如下: 第章:绪论,简述了课题研究的背景和发展现状,给出课题目标和本文研究成果。 第二章:详细介绍处理器总线技术的发展历史与现状,研究当前与总线相关的前沿技 术,给出总线性能的评测模型。 第三章:详细讲述x 处理器系统总线协议。 第四章:实现x 处理器系统总线部件,给出解决由于时钟域转换而带来的误监听问题 的方法。改进数据传输方案,将源同步数据传输从2 倍频提高n 4 倍频。 第五章:给出了x 处理器总线设计的验证方案和实测结果,比较改进后的4 倍频数据传 输方案与2 倍频数据传输方案的性能,对课题的研究给出分析结论。 第六章:总结课题研究成果,对于当前x 处理器总线部件设计,提出下一步的改进方 向和措施,同时针对当前微处理器的发展方向,分析未来系统总线技术的研究方向,为下 一步的研究和设计工作做准备。 1 5 研究成果 本文深入研究了主流处理器的系统总线技术,并在x 处理器中实现了与i t a n i u m 2 处 理器总线协议兼容的系统总线部件。设计中提出了通过重复监听机制,以较小的代价解决 了误监听问题,同时,改进了数据传输方案,将2 倍频源同步数据传输提升为4 倍频传输, 降低了总线访问延迟,提高数据线的利用率,明显提升了总线性能。在研究期间,以第一 作者在高技术通讯( 增刊) 上发表文章一篇。 第4 页 国防科学技术大学研究生院学位论文 第二章处理器总线技术研究 2 1 总线技术的发展过程 处理器总线技术的发展是随着处理器的发展而不断前进的,最早比较有影响的微处理 器芯片是i n t e l 公司在上个世纪七十年代推出的8 0 0 8 和8 0 8 6 ,8 0 0 8 是8 位的处理器,而 8 0 8 6 m l 是1 6 位的处理器,其总线接口具有如下特性: 1 ) 2 0 位的地址总线,1 6 位数据总线,且地址和数据线是复用的。 2 ) 总线访问为独占访阃,即前一个访问结束前不能执行下一个访问操作。 3 ) 外频与处理器内核的工作频率相同,最高为6 删z 。 4 ) 使用串行仲裁协议切换总线使用权。 5 ) 总线操作类型有1 0 读写、存储器读写和中断响应。 6 ) 每次操作最多可传输2 个字节的数据。 串行仲裁方式下每个总线设备具有固定的优先权,一般处理器被默认为总线主设备, 具有最高优先权,其他总线设备必须等到处理器放弃总线使用权时才能使甩总线资源。 图3 为8 0 8 6 处理器访问主存的时序图,由于总线操作为原子操作而且地址和数据线 复用,总线操作最快为3 个时钟周期,最高数据传输率为4 m b s 。 “k 枇“o ”舢口 螺f 话 b - - 献7 。 t p s 山水 自e 0 v l d d t - t th t c m i c h c 一i 卜- hl t c l 2 1 e l i , ,、,_ 、 i卜叫 广1 ”、 厂 l,ij;, t c h c t v r t c h c l- 一t c l c h xx t c l o ”4 1 = l e h d x 卜- t c l x 、 ( r e 1 一,xs 4 - ! x t c l l h 卜二 一t 1 h u - 【。i t x ¥ 、 ,_ 一一 , t 眦 1 l b - 氛 i 。 t r y l 一 菇 t c l 1 “l 融1r - - - ,二 _ t c l o x - l x 炳 ) i 。水 m n 旷一 月 f l o a t 、一 1 叫h ,。 m n 一一 r + t m 洲- 盯,n 图38 0 8 6 处理器的存储操作时序 第5 页 国防科学技术大学研究生院学位论文 1 9 8 5 年i n t e l 推出了8 0 x 8 6 系列中的第一种3 2 位微处理器8 0 3 8 6 心,内部集成了2 7 5 万个晶体管,时钟频率为1 2 5 m h z ,后逐步提高到2 0 m h z 、2 5 旧z 和3 3 m h z 。8 0 3 8 6 的内部 和外部数据总线都是3 2 位,地址总线也是3 2 位,可寻址4 g b 内存。8 0 3 8 6 处理器在总线 技术上没有突破,只是通过制造工艺的提高,增加了总线宽度和速度,提高了数据传输率。 1 9 8 9 年,i n t e l 推出集成了1 2 0 万个晶体管的8 0 4 8 6 m l 芯片,时钟频率达到2 5 m h z , 并逐步提高到3 3 州z 、5 0 姒z 。8 0 4 8 6 是将8 0 3 8 6 和数学协处理器8 0 3 8 7 以及一个8 k b 的高 速缓存集成在一个芯片内。为了提高了处理器与主存的数据交换速度,8 0 4 8 6 处理器首次 采用了突发( b u r s t ) 总线技术,即在多个时钟周期内连续传输地址相邻的多个数据包, 实现块数据的快速传输,数据总线最高带宽达到了i o o m b s 。 c l k a d s # a 3 1 卅 w i o # 研c # w i r 黄 a 3 a 2 b e 3 k b e o # t it 1t 2 t 2t 2 t 2 州 厂一、jf l 一 7 l j 7 _厂 j 广弋i l 、!, l x xxxx l m | l l l l l l l l u | m | l | m l l l l l |幽 、蚴幽幽 x l|广 一 飞 一一、一 飞 ll ,l l ,1 l 二_- ,1 ll , 图4 突发总线访存时序 突发总线技术是总线协议发展中的重大突破,大大提高了总线的利用率,降低了访存 延迟,尤其在单处理器的系统中,由于突发总线技术隐藏了部分访存延迟,减少了处理器 的等待时间,因而提高了系统性能。 1 9 9 3 年,i n t e l 公司又推出了p e n t i u m 世处理器,处理器外频达到了6 6 m h z ,数据端口 宽度为6 4 位,地址端口宽度为3 2 位,可直接寻址4 g b 的存储空间,并在总线技术的发展 上又有了新的突破第一次采用分离事务总线技术。p e n t i u m 处理器提出了流水总线 ( p i p e l i n e db u s ) 她皿的概念,其总线事务将地址和数据分离发出,前一个总线事务尚 未完成数据阶段操作时,下一个事务就可以发射新的访问地址了,具有简单的流水执行的 特征,这样的总线处理方式提高了地址和数据总线的利用率,减少了总线操作的额外开销, 使得数据总线的利用率在理论上可以达到1 0 0 ,最高数据传输率高达5 2 8 m b s 。 第6 页 啪 一 帆 b 国防科学技术大学研究生院学位论文 姒爪:n :戊爪: ! :厂e 爪:爪:爪: a d d r a d s # w f r 霉 卜r 十卜斗, b 。叶。r _ 1 厂t 弋! 卧n ( 参 参( 参( 参,一d d t tii 图5p e n t i u m 处理器中分离事务操作时序 虽然分离事务总线技术在p e n t i u m 处理器上的应用还不成熟,事务流水化执行的效率 也不高,但是为后来在p e n t i u m p r o 乃至当前主流处理器的分离事务总线技术做出了良好 的铺垫。 1 9 9 6 年i n t e l 公司推出了p e n t i u m p r o m 处理器,虽然这款处理器在市场上并不成功, 但是其设计思想和整体架构却对后来的处理器设计产生了深远的影响,尤其是在总线技术 上有了很大突破: 1 ) 信号传输采用公共时钟锁存协议,显著提高了总线时钟频率。 2 ) 总线设备采用分布式仲裁协议,直接支持多处理器系统。 3 ) 分离事务总线技术已经运用的比较成熟,每个事务最多包含6 个阶段 4 ) 事务各阶段流水执行,隐藏了大部分访存延迟,总线资源的利用率高。 按照公共时钟锁存协议,信号传输是站到站的,传输过程中不通过任何组合逻辑运算 通路,信号传输延迟为d e l a y = 丁矗+ 丁矗。+ l 。,其中乙。为芯片内部寄存器输出到 芯片引脚的传输时间,z k 为片外线延迟时间,l 。一。为芯片引脚到内部输入寄存器的传输 时间。这样的信号传输机制虽然增加了信号的计算周期,但是减少了传输时间,提高了总 线时钟频率。 p e n t i u m p r o 处理器总线在设计时充分考虑了对多处理器的支持,抛弃了过去的总线设 备间的串行仲裁和集中仲裁方式,采用了支持特权设备的分布式仲裁方案,使得 p e n t i u m p r o 处理器可以在接口设备不做任何修改的情况下,非常灵活地构成多处理器系统 或者单处理器系统。特权设备一般是存储控制器或者i o 控制器,特权设备的优先级高于 任何处理器,这样可以快速地返回处理器请求的数据,减少处理器等待时间。分布式仲裁 要求在每个设备内部都设计一个仲裁模块并连接所有的设备请求信号,各处理器内的仲裁 第7 页 国防科学技术大学研究生院学位论文 模块按照相同的轮转优先权规则分别进行仲裁心,解决了串行仲裁方案不能满足多处理器 系统总线的使用公平性的缺点,可靠性也优于集中仲裁方案。 图6 使用p e n t i u m p r o 构成多处理机系统 p e n t i u m p r o 处理器的总线事务阶段共有仲裁、请求、错误检测、监听、响应和数据6 个阶段。每个事务都包含仲裁、请求、错误检测、监听和响应这5 个阶段,数据阶段是可 选的,并且数据阶段和响应阶段可以并发执行。不同事务的不同阶段在总线上流水执行, 提高了总线的事务吞吐率,这样的总线协议保证了总线系统能够向处理器提供连续的返回 数据流或者向外部存储器和设备提供连续的写出数据流,降低了处理器的等待时间。 m i p sr 1 0 0 0 0 m 1 微处理器是与p e n t i u m p r o 同一时期出现的高性能微处理器,其总线结 构也采用了分离事务总线技术,将总线事务的处理分为3 个阶段:仲裁、请求和响应。r 1 0 0 0 0 的处理器总线协议最多支持4 个处理器和1 个外部设备,总线优先权的仲裁为集中仲裁方 式,由外部设备实现对各个处理器的仲裁,每个总线设备在发送事务前先向外部设备发出 请求,外部设备根据公乎的仲裁原则分配各个处理器的总线使用权。 第8 页 国防科学技术大学研究生院学位论文 图7 集中仲裁的拓扑结构 r 1 0 0 0 0 处理器的数据总线和地址总线是复用的,总线宽度为6 4 位,总线信号的传输 采用公共时钟锁存协议。由于地址线与数据线是复用的,块数据的传输时间远大于传输地 址等请求信号的传输时间,造成事务流水线3 个阶段的执行时间不平衡,因此其事务流水 线性能不高。r 1 0 0 0 0 处理器总线接口逻辑的写合并缓冲区相比其他处理器较有特色,它实 现了非缓冲数据的写合并,将多个连续地址的非缓冲写数据合并为块写事务,减少了非缓 冲类写事务的延迟,有利于提高总线接口的数据传输效率。 当前,高性能微处理器系统总线设计吸收了前面提到的多种优势技术,并应用了源同 步数据传输等新技术,总线性能进一步提高。i n t e l 公司于2 0 0 2 年推出的6 4 位微处理器 i t a n i u m 2 世处理器的系统总线基本上涵盖了上述高性能总线特性。i t a n i u m 2 处理器系统总 线在分离事务和事务流水线的实现上吸收了p e n t i u m p r o 的设计方案,同时随着封装工艺 的进步增加了命令、地垃总线和数据总线臼勺宽度,命令、地址总线由3 8 位宽增加到5 2 位 宽,数据总线由6 4 位宽增加到1 2 8 位宽,一个时钟周期内能够传输更多的事务信息和数 据。 在分离事务总线技术上,i t a n i u m 2 处理器系统总线提出了通过延期阶段完成推迟事务 的方法,即对于不能立即响应的总线读事务,在响应阶段通知事务需要推迟完成,而后当 数据可用时在总线上插入一个数据传输阶段来返回该读事务请求的数据并完成该事务。这 样的延期处理方式改变了p e n t i u m p r o 中通过发送延期响应事务来完成被推迟事务的处理 方法,系统减少了完成总线事务所需要的阶段数,降低了访问延迟。 i t a n i u m 2 处理器采用了源同步数据传输协议心,提高了数据传输的信号完整性,能够 以2 倍于公共时钟频率的速度传输数据,使得数据传输的最高速率达到了6 4 g b s 。 2 2 总线关键技术研究 当前处理器总线发展的核心思想是为处理器内核提供连续的数据流,基于这一思想的 总线技术具有如下几个方面的特点: 1 ) 分布式仲裁,支持对称多处理器系统: 2 ) 总线事务为分离事务,具有多个事务阶段,且各阶段流水执行: 3 ) 通过监听协议支持多个总线设备的c a c h e 一致性: 4 ) 站到站的接口信号传输方式,尽量提高总线时钟频率: 5 ) 大量的信号传输线,同一周期内传输多字节数据和事务信息; 6 ) 采用源同步数据传输协议,保证商时钟频率下的信号完整性; 2 2 1 分布式仲裁 多个设备共享单一总线资源,因此总线上的各个设备在发出请求前需要先进行请求仲 第9 页 国防科学技术大学研究生院学位论文 裁,仲裁算法有串行仲裁和并行仲裁之分,其中并行仲裁又分为集中仲裁和分布式仲裁两 种方法姒。 早期的处理器总线采用的是串行仲裁方式,其基本思想是:各总线主模块可同时申请 使用总线,但总线仲裁部件发出的响应信号是在各部件间串行传送,如果响应信号到达某 一部件时,该部件没有总线申请,则响应信号继续下传:如果有总线申请,则响应信号就 中止,不再往下传,也表示该部件获得总线控制权。显然该方式下总线设备的优先级是固 定的,当优先级高的设备交换频繁时优先级低的设备会长期得不到响应,而且实时性差。 早期系统中,大多数情况下处理器被默认为总线主设备。在没有其他设备请求总线使用权 时,处理器始终占有总线。当有其他设备请求使用总线时,需要向处理器发出h o l d 信号, 处理器确认可以放弃使用权时发出h l d a 信号,通知其他设备可以使用总线了。其他设备 在使用完总线后,撤销h o l d 信号,返回总线使用权。 h o l d h io a s 2 :o :n 二n 二| n :n :n ! n :n ! n ! n :八:厂 i 厂卜+ _ - 卜种柚 li;ll 图8 请求响应信号时序 集中仲裁属于并行仲裁范畴,其方案是将所有设备的请求响应信号( h o l d h d l a ) 连 接到集中仲裁模块( 如图7 集中仲裁的拓扑结构) ,设备的优先权由仲裁器设定,仲裁算 法灵活,易于实现总线使用权的公平分配。但是集中仲裁总线结构的硬件连接复杂,不方 便扩展设备,而且一旦集中仲裁器发生故障或者受到干扰,整个系统都将无法工作,可靠 性差。 分布式仲裁则是在每个设备内部都设计一个仲裁模块并连接所有的设备请求信号( 见 图9 ) ,各仲裁模块按照相同的规则分别进行仲裁,一旦当前总线使用权拥有者撤销请求, 那么其他设备可以在下一周期获取此信息后立l i p y - 1 断出下一个总线拥有者,仲裁时间短, 效率高。 第1 0 页 国防科学技术大学研究生院学位论文 特权设备 0 t a g e n t o a g e n t la g e n t 2 i | a g e n t 3 【霎翼委垦il 萋星要蒌ll 翼量嚣要l 量墓委i t t tt t tt t t j 图9 总线设备分布式仲裁连接示例 在多处理器系统总线中,对于非特权设备的总线使用权切换大多要求公平使用总线。 处理器内的分布式仲裁逻辑一般采用优先权轮转的仲裁算法,多个处理器公平地使用总 线。分布式仲裁的另一个优点在于单个设备因发生故障拆除后,其他设备仍可以构成完整 的系统正常工作,可靠性高。 2 2 2 事务流水线 当前高性能微处理器系统总线都已经采用了分离事务技术,一次总线访j a - j 被分成多个 事务阶段,每个阶段完成一部分操作功能。这样在某个阶段完成后,可以释放一部分总线 资源,供其他阶段使用。如读事务的发送地址和接收数据两个阶段分离执行,地址发送完 毕后即可释放地址总线,下一个事务可以立即使用此地址总线而不必等待该读事务的数据 接收阶段完成。 当前处理器总线事务的分离阶段己远不只是地址与数据阶段,如为支持多处理器必须 添加仲裁阶段和监听阶段等。事务流水线的概念随着分离事务阶段的细化而产生了,在事 务流水线中事务的各阶段可以像指令流水线一样重叠执行,充分利用总线资源。 p h a s e l p h a s e 2 p b a s f 3 p b a s e 4 图1 0 事务流水示意图 如图1 0 所示,总线事务被分成了4 个阶段,各阶段的执行相互重叠,使得总线资源 始终被有效利用。类似于指令流水线,单个事务的访问延迟并未减少,但是多个事务的整 第1 1 页 一 一 梦梦 十丰 上l-斗i十l丁 国防科学技术大学研究生院学位论文 体延迟降低了。 实际的事务流水线并不像图1 0 的前三个事务的执行过程那样规整,不同的事务可能 具有不同的事务阶段,即便同一种事务,在不同的执行时刻也可能具有不同的事务阶段。 如在x 处理器中,在读事务的响应阶段,如果目标设备不能正常完成该事务要求的操作, 则目标设备发出延期类型的响应,通知请求设备推迟完成该事务,并在后续时刻当数据准 备好后,通过延期阶段或者延期响应事务来完成该事务;如果能够正常完成该读事务,那 么事务则不会执行延期阶段,在响应阶段同时执行数据阶段,返回读数据。即延期阶段和 数据阶段的执行与否是动态可变的,事务流水线属于动态流水线。 有些事务阶段的执行时间是可变的,例如x 处理器总线中的监听阶段,总线设备完成 返回监听结果的时刻有快有慢,监听阶段必须等待所有设备都返回监听结果才能继续执 行,某些情况下,监听阶段的执行时间可能很长;而对于不需要监听的事务,则监听阶段 只需要一个时钟周期就可以完成,因此监听阶段的执行时间是可变的。另外数据阶段的执 行时间随着访问数据的长度不同也是变化的。变化的阶段执行时间对于事务流水线的分析 和优化是不利的,根据流水线的基本原理,执行时间最长的阶段将成为流水线的性能瓶颈。 如何平衡流水阶段的执行时间也是事务流水线性能优化的关键。 事务流水线通过监听协议支持c a c h e 数据访问的一致性,各总线设备时刻盟听总线事 务,所有与c a c h e 相关的事务都需要根据设备内部的c a c h e 状态返回监听结果,弗根据监 听结果维护c a c h e 状态皿。如果事务访问了c a c h e 内已经修改的数据,那么总线设备还需 要返回被命中的c a c h e 行数据。为此事务流水线需要根据c a c h e 一致性协议决定为被监听 的事务添加数据阶段。 2 2 3 公共时钟锁存协议 早期处理器总线接口信号的传输延迟d e z 掣= 毛。一,+ 咒。+ 乙。,+ 0 + 。+ l 其 中乙。和t 一。为输出组合逻辑延迟和输入组合逻辑延迟,弓。和。为组合逻辑输 出或输入到芯片引脚间的传输延迟,l 。为片外线延迟,如图1 1 ( a ) 所示,由于组合逻辑 的存在以及板级延迟,总线时钟的频率无法达到信号线传输的最高频率。 总线设备l总线设备2总线设备1 总线设备2 第1 2 页 国防科学技术大学研究生院学位论文 图1 1 总线信号传输协议对比 为了提高总线频率,当前处理器总线信号传输采用的是公共时钟锁存协议皿,总线上 的所有信号都是站到站传输的,即所有的输出信号都是寄存器输出,所有的输入信号都首 先进入输入寄存器再进行运算,去除了信号接口之间的组合逻辑延迟,如图1 1 ( b ) 所示。 总线信号传输延迟变为d e l a y = 乙。+ 乙+ t 。i r e ,使得总线频率可以达到信号线传输频 率的极限。 2 2 4 源同步数据传输 源同步技术是最近几年出现的总线信号高速传输技术,其设计思想为:将一组数据线 的采样时钟与数据线同时传输,印制板布线时将采样时钟线与数据线同时布局,使得采样 时钟线与数据线具有相同的走线长度,减少了采样时钟与数据采样点间的偏斜( s k e w ) , 提高了数据信号完整性姒耻。图1 2 给出了2 倍频源同步数据传输过程的示意图。 卜毒厂_ : :l 叫 _ 茁 :i 卜i y k h i 、j 一 9。 m 时e c c v c 。、l 斧弋;矿厂 ! :l 一: s t b n ( r e c e i v e r ) 十_ 、 庐弋,卜 t _ 、:叫净_ 弋: 卜卜一 l :i: 图1 22 倍频源同步数据传输协议 图1 2 中c l k 为公共总线时钟,s t b 为数据源同步时钟,与组数据信号d a t a 同时传输, 具有相同的布线结构和走线长度,因此源同步时钟与数据信号在传输过程中导致的相位相 对变化很小。在驱动数据线d a t a 前,数据发送驱动器先驱动选通信号s t b p # 和s t b n # ,源 同步时钟与公共时钟有固定的相位偏移,保证在数据信号传输的最稳定时刻( 信号传输的 中间时刻) 产生s t b p # 或s t b n # 的上升沿信号。最后一个数据块发送完成后,驱动器撤

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论