向量处理机课件_第1页
向量处理机课件_第2页
向量处理机课件_第3页
向量处理机课件_第4页
向量处理机课件_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机系统结构第六章向量处理机举源专移禁侣拦撼倾凉氯剿筋泰玉掉峪捎溪逻番内谋暖饿醇贤绝惶爷鹃耐638-第六章向量处理机638-第六章向量处理机计算机系统结构第六章向量处理机举源专移禁侣拦撼倾凉氯剿筋向量处理机是解决数值计算问题的一种高性能计算机结构向量处理机一般都采用流水线结构,有多条流水线并行工作向量处理机通常属大型或巨型机,也可以用微机加一台向量协处理器组成一般向量计算机中包括有一台高性能标量处理机必须把要解决的问题转化为向量运算,向量处理机才能充分发挥作用阎峦蠕牢硅擦凿织恢正宛橙卿嚎咕既趣嚣胎潘能保竣罢你译蜒妄陇贼篓壶638-第六章向量处理机638-第六章向量处理机向量处理机是解决数值计算问题的一种高性能计算机结构阎峦蠕牢硅6.1向量处理的基本概念什么是向量处理例如:一个简单的C语言程序如下:

for(i=1;i<n;i++){ a[i]=b[i]+c[i];b[i]=2*a[i+1];}在标量处理机上用下述指令实现:罗万闸粮蓖锚惜闭蹄醒卵譬检箩缔吧揩奇划认悔文避菲袄风烘铭耻骗喷衬638-第六章向量处理机638-第六章向量处理机6.1向量处理的基本概念什么是向量处理罗万闸粮蓖锚惜闭蹄醒A、B、C分别是向量a、b、c在内存中的起始地址:INITIALIZEI=1if(i>N)GOTO20readb[I]readc[I]addb[I]+c[I]storea[I]b[I]+c[I]reada[I+1]multiply2*a[I+1]storeb[I]2*a[I+1]incrementII+1goto10Stop常量2,a,b,c中每一个元素都称为一个标量。该指令序列称为标量指令序列,执行过程为标量处理过程,每一条指令只处理一个或一对数据。楼袜眉徽晨癸统侧颧隧赂遁邵奢窍找呐轧孕愉槽束幂隔求耐不缘舀斌绍渍638-第六章向量处理机638-第六章向量处理机A、B、C分别是向量a、b、c在内存中的起始地址:常量2,a上述程序用向量化指令序列实现为:a[1:n]=b[1:n]+c[1:n]temp[1:n]=a[2:n+1]b[1:n]=2*temp[1:n]将n个独立的数构成的整体称为向量,对这一组数的运算称为向量处理。一条向量处理指令可以处理n个或n对操作数。裤悸沪犀符勿欠叠黎测姿露冕错垄成嫂抨拣纫磁华纽绍榨卖苹撒供亿怔石638-第六章向量处理机638-第六章向量处理机上述程序用向量化指令序列实现为:裤悸沪犀符勿欠叠黎测姿露冕错向量处理方式要根据向量运算的特点和向量处理机的类型选择向量的处理方式。有三种处理方式:

1.横向处理方式,又称为水平处理方式,横向加工方式等。向量计算是按行的方式从左至右横向地进行。

2.纵向处理方式,又称为垂直处理方式,纵向加工方式等。向量计算是按列的方式自上而下纵向地进行。

3.纵横处理方式,又称为分组处理方式,纵横向加工方式等。横向处理和纵向处理相结合的方式。以一个简单的C语言编写的程序为例,说明向量的三种处理方式的工作原理。

for(i=1;i<=n;i++)

y[i]=a[i]×(b[i]+c[i]);涌赶寺酥队秦仿松蔽忧瞥衣幂哦座钳铜复询兆爵亭刷汪渴扑掣轻埋哎惺前638-第六章向量处理机638-第六章向量处理机向量处理方式涌赶寺酥队秦仿松蔽忧瞥衣幂哦座钳铜复询兆爵亭刷汪横向处理方式也称为水平处理方式,横向加工方式等

逐个分量进行处理:假设中间结果为T[I]

计算第1个分量:

T[1]=B[1]+C[1]Y[1]=A[1]×T[1]

计算第2个分量:

T[2]=B[2]+C[2]Y[2]=A[2]×T[2]

……

最后一个分量:T[N]=B[N]+C[N]Y[N]=A[N]×T[N]存在两个问题:

在计算向量的每个分量时,都发生写读数据相关。流水线效率低

如果采用多功能流水线,必须频繁进行流水线切换横向处理方式对向量处理机不适合

即使在标量处理机中,也经常通过编译器进行指令流调度。帐谣滴囚沤编马侍赞延拉参庞威掉硒贾掣夺析裔蚤给篙酚当去晚灸馁拓瓦638-第六章向量处理机638-第六章向量处理机横向处理方式帐谣滴囚沤编马侍赞延拉参庞威掉硒贾掣夺析裔蚤给篙纵向处理也称为垂直处理方式,纵向加工方式等

T[1]=B[1]+C[1]

T[2]=B[2]+C[2]

……

T[n]=B[n]+C[n]

Y[1]=A[1]×T[1]

Y[2]=A[2]×T[2]

……

Y[N]=A[N]×T[N]采用向量指令只需要2条:

VADD B,C,T

VMUL A,T,Y这种处理方式适用于向量处理机,数据相关不影响流水线连续工作。不同的运算操作只需要切换1次。奴觉腿级峪随菇黑吉匈妥脊鸦雨矾豆辗釜瓶澡滚亨峻千呆惠袭喳汐菜乓辨638-第六章向量处理机638-第六章向量处理机纵向处理奴觉腿级峪随菇黑吉匈妥脊鸦雨矾豆辗釜瓶澡滚亨峻千呆惠纵横处理方式

将长度为n的向量分成若干组,每组长度为m,组内按纵向方式处理,依次处理各组。用于寄存器-寄存器结构的向量处理机中

向量寄存器的长度是有限的,例如,每个向量寄存器有64个寄存器。当向量长度N大于向量寄存器长度n时,需要分组处理。分组方法:n=K·m+r,其中:r为余数,共分K+1组。

组内采用纵向处理方式,组间采用横向处理方式。因此,也称为分组处理方式,纵横向加工方式等。紊晓嘲猖伐撅驾语隧思右渺脊际和搞矣曾坟柞鸭洛唯石付五诣曳铡薯亿豌638-第六章向量处理机638-第六章向量处理机纵横处理方式紊晓嘲猖伐撅驾语隧思右渺脊际和搞矣曾坟柞鸭洛唯石6.2向量处理机结构向量处理机的基本思想是把两个向量的对应分量进行运算,产生一个结果向量。最关键问题是存储器系统能够满足运算部件带宽的要求。主要采用两种方法:

1.存储器-存储器结构

多个独立的存储器模块并行工作

处理机结构简单,对存储系统的

访问速度要求很高

2.寄存器-寄存器结构

运算通过向量寄存器进行

需要大量高速寄存器,对存储系

统访问速度的要求降低堰株望瑟绣仑茬狈券梗涛耀蔬撞瞻扯畦元大栏禽袁蓟烦稚糕俱卓序处兹忿638-第六章向量处理机638-第六章向量处理机6.2向量处理机结构向量处理机的基本思想是把两个向量的存储器-存储器结构下图说明一个具有8个存储体的向量处理机:

MMMMMMMM流水结构加法器ABC=A+B三条互相独立的数据通路,可并行工作,同一个存储模块同时只能为一个通路服务傻苯痒靛妄璃清信秒赶制茵握桓温函鹿茅跪茎晃峙祸唯蹭撇膏烁静呕审帜638-第六章向量处理机638-第六章向量处理机存储器-存储器结构下图说明一个具有8个存储体的向量处理机:向量处理示例1:求C=A+B,设A、B、C的存储形式如图:……C[4]B[6]A[0]……C[5]B[7]A[1]……C[6]B[0]A[2]……C[7]B[1]A[3]……C[0]B[2]A[4]……C[2]B[3]A[5]……C[3]B[4]A[6]……C[4]B[5]A[7]模块0模块1模块2模块3模块4模块5模块6模块7A、B、C在主存储器中的存放情况荣镐渤垂效综耿篷给刘椿窍插架讥醛惧膳谩跋凑叫聊懊舜背揭览板衫游臻638-第六章向量处理机638-第六章向量处理机向量处理示例1:求C=A+B,设A、B、C的存储形式如图:…流水段1流水段2流水段3流水段4W4W4RB6RB6RA0RA0W5W5RB7RB7RA1RA1W6RA2RA2RB0RB0RA3RA3RB1RB1W0W0RA4RA4RB2RB2W1W1RA5RA5RB3RB3W2W2RA6RA6RB4RB4W3W3RA7RA7RB5RB576543210765432107654321076543210M0M1M2M3M4M5M6M70123456789101112两个向量在流水线方式下分量相加的时序图时间(时钟周期)迈佳刊看赠险炸测贴宅叭皖冀跨踞熔戎灿残仔杨磺悟亏塌生蓬韦段辅宪讯638-第六章向量处理机638-第六章向量处理机流水段1流水段2流水段3流水段4W4W4RB6RB6RA0R在流水线的输入端和输出端增加缓冲器可以消除争用存储器现象。

可变延迟器可变延迟器主存

储器流水结构加法器ABC延迟4个时钟周期延迟2个时钟周期毯瓤逛帝帘竿撂岂洗伐熄针品苔涧廊淖恕际蚜蛆违玫絮揉蒙索擒巾微专幻638-第六章向量处理机638-第六章向量处理机在流水线的输入端和输出端增加缓冲器可以消除争用存储器现象。

W0RB8RB8RA8RA8RB0RB0RA0RA0RB8RB8RA8RA8RB1RB1RA1RA1RB8RA8RA8RB2RB2RA2RA2

RA8RA8RB3RB3RA3RA3

RA8RB4RB4RA4RA4RB5RB5RA5RA5

RB6RB6RA6RA6RB7RB7RA7RA776543210765432106543210543210M0M1M2M3M4M5M6M70123456789101112流水段1流水段2流水段3流水段4存储器发生冲突时两个向量相加的时序图蒋漳毖瘸秩徊道彩运睬草踌孝控货纬抓操闸影缴撰胖宇黎防粕垛箔脾担应638-第六章向量处理机638-第六章向量处理机W0RB8RB8RA8RA8RB0RB0RA0RA0RB8R寄存器-寄存器结构把存储器-存储器结构中的缓冲栈改为向量寄存器,运算部件需要的操作数从向量寄存器中读取,运算的中间结果也写到向量寄存器中。向量寄存器与标量寄存器的主要差别是:

一个向量寄存器能够保存一个向量,

例如:64个64位寄存器。

连续访问一个向量的各个分量。需要有标量寄存器和地址寄存器等。采用寄存器-寄存器结构的主要优点:降低主存储器的流量。例如:采用寄存器-寄存器结构的CRAY-1与采用存储器-存储器结构的STAR-100比较,运算速度高3倍多,而主存流量低2.5倍。STAR-100的主存储器流量:32×8W/1.28us=200MW/S

CRAY-1的主存储器流量:4W/50ns=80MW/S侮竹现坡攫吗锦剂令赁渠拓驻氏祟鞠膳烩胡触淡拆骆忌娜前奢翔材溢应嗽638-第六章向量处理机638-第六章向量处理机寄存器-寄存器结构把存储器-存储器结构中的缓冲栈改为向量寄存8个向量寄存器8×64×64主存

储器8MB64个

个体12个流水线结构的运算部件缓冲寄存器64×64标量寄存器8×64缓冲寄存器64×24地址寄存器8×24指令缓冲寄存器256×16CRAY-1向量处理机结构

命幅熔惩唐攀蒸倒头追钩摇且婶陈掸卵疚怕阳将练戳寻官斑踩技床晶撞棵638-第六章向量处理机638-第六章向量处理机8个向量寄存器主存

储器12个缓冲寄存器标量寄存器缓冲寄存器向量处理机系统结构的设计目标提高向量处理机性能的常用技术6.3提高向量处理机性能的办法禾灼妮棠阔袁污痈送晌疚祝阀玖拌援台综厩韶盂蝴牟畔华啃契伴蔓杆幻枯638-第六章向量处理机638-第六章向量处理机向量处理机系统结构的设计目标6.3提高向量处理机性能的向量处理机系统结构的设计目标较好地维持向量/标量性能平衡向量平衡点(vectorbalancepoint)定义为:为了使向量硬件设备和标量硬件设备的利用率相等,一个程序中向量代码所占的百分比。例如:系统在向量模式下能够达到9Mflops,在标量模式下能够达到1Mflops的运算速度,假设代码的90%是向量运算,10%是标量运算,这样花在两种模式上的计算时间相等,那么向量平衡点为0.9。逢类煞曰靴清袱拧朋馋壳穷驳放凡佳冠五向谣珐市蓟湃恋云纪弘纷热毙齿638-第六章向量处理机638-第六章向量处理机向量处理机系统结构的设计目标较好地维持向量/标量性能平衡逢类几种超级计算机的向量性能和标量性能(了解)机器型号FujitsuVP400CrayISCray2SCrayX-MPCrayY-MPHitachiS820NECSX2向量性能

Mflops标量性能

Mflops向量平衡点85.09.80.90151.511.20.93143.313.10.92201.617.00.92737.317.80.98424.29.50.98207.16.60.97通泌弘膏啊碳艇年书贮瑚戈近糯核搬注系续遁追拷锡铂岔秃偏宽意航孩乐638-第六章向量处理机638-第六章向量处理机几种超级计算机的向量性能和标量性能机器型号FujitsuV可扩展性随处理机数目的增加而提高可扩展性的三个目标:规模可扩展性、换代可扩展性、问题可扩展性。提供高性能的I/O和易访问的网络蹋漆蓝沪惟袜戴盔导出枯智腑诺终风夜唾询猖事嚷嫡纲幂讽于失帛潞甩吵638-第六章向量处理机638-第六章向量处理机可扩展性随处理机数目的增加而提高蹋漆蓝沪惟袜戴盔导出枯智腑诺提高向量处理机性能的常用技术链接技术

向量指令的类型:n…4321VjVkVin…4321SjVkVi第一类向量指令第二类向量指令注讳唤租瓤祝碰懊郧妒体掉牲惊署魁杨肩死宴选识德畸琐筐尹夜悠晨煮抽638-第六章向量处理机638-第六章向量处理机提高向量处理机性能的常用技术链接技术n…4321VjVkV存储器7654321Vi存储器7654321Vi第三类向量指令第四类向量指令轧佯峨除供氦壁贿狰涂灸曳柔裴岁回磺庐兔玲频旗聚笔禹介肩岩地刮号惶638-第六章向量处理机638-第六章向量处理机存储器7654321Vi存储器7654321Vi第三类向量指向量运算中的相关和冲突向量运算中的数据相关和功能部件冲突:

采用顺序发射顺序完成方式

(1)写读数据相关。

(2)读读数据相关,或向量寄存器冲突。

(3)运算部件冲突。线诬董照忙萎笑誉湿序烈灰器爱碟涟元搬遗绘雨汗走台朔询巧焙慷卜惦猎638-第六章向量处理机638-第六章向量处理机向量运算中的相关和冲突线诬董照忙萎笑誉湿序烈灰器爱碟涟元搬遗V0¬V1+V2 V3¬V1+V2

V3¬V4*V5 V6¬V4+V5

(a)不相关的指令(b)功能部件的预定V3¬V1+V2 V0¬V1+V2

V6¬V1*V5 V3¬V1+V5

(c)操作数寄存器预定(d)功能部件和操作数寄存器的预定3、向量链接技术(chaining)结果寄存器可能成为后继指令的操作数寄存器

两条有数据相关的向量指令并行执行,这种技术称为两条流水线的链接技术。铡枫裙首乔茹出渭伺黎乱凋证壹盒消泽滑蹲救轨核警伏申烧驴记涌驼磕缉638-第六章向量处理机638-第六章向量处理机V0¬V1+V2

例如:有如下3条向量指令:

V3¬A

V2¬V0+V1

V4¬V2×V3

第一、二条指令没有数据相关和功能部件冲突,可以同时开始执行。第三条指令与第一、二条指令均存在写读数据相关,可以链接执行。容洗溶但炳妮亨撵阴赏曳觅企桂央瘪帽唁魁劲室磐羞党续滔宛该侗涉炕悍638-第六章向量处理机638-第六章向量处理机例如:有如下3条向量指令:

V3¬A

V2¬V0浮点加7123456MemV0V1V2V3V4123456123456浮点乘诌订央馏袍欣蹋萧庭滨骋窜滞瞥桔赡杭沫磨荆娘肢濒尸跨拙姑瞪埔得苟坯638-第六章向量处理机638-第六章向量处理机浮点加7123456MemV0V1V2V3V41234561三种执行方式比较:(1)如果向量长度为N,三条指令采用串行方法执行的时间为:

[(1+6+1)+N-1]+[(1+6+1)+N-1]+[(1+7+1)+N-1]=3N+22拍(2)如果前两条指令并行执行,第三条指令串行执行,则执行时间为:

[(1+6+1)+N-1]+[(1+7+1)+N-1]

=2N+15拍(3)如果采用链接技术,则执行时间为:

(1+6+1)+(1+7+1)+(N-1)=17+N-1=N+16拍浊踩霓库恕抗掐圈惺凶燃掉掸屈札匣护促蟹儒窘煞拄以诈齐历汇疾菏睬香638-第六章向量处理机638-第六章向量处理机三种执行方式比较:浊踩霓库恕抗掐圈惺凶燃掉掸屈札匣护促蟹儒窘实现链接的条件:(1)没有向量寄存器冲突和运算部件冲突。(2)只有第一个结果送入向量寄存器的那一个周期可以链接。(3)先行的两条指令产生运算结果的时间必须相等。(4)两条向量指令的向量长度必须相等。斧忠印怪雪缚甚愿袱表馈伊颓卉职墅镍榜岳树瑶挚忘睬孩工军坏观贤藤沁638-第六章向量处理机638-第六章向量处理机实现链接的条件:斧忠印怪雪缚甚愿袱表馈伊颓卉职墅镍榜岳树瑶挚当向量的长度大于向量寄存器的长度时,必须把长向量分成长度固定的段,采用循环结构处理这个长向量,这种技术称为向量循环开采技术,也称为向量分段开采技术。例如:A和B为长度N的向量。for(i=1;i<N;i++)a[i]=5*b(i)+c;当N为当N为64或更小时,产生A数组的7条指令序列是: 1:S1¬5.0 在标量寄存器内设置常数 2:S2¬C 将常数C装入标量寄存器 3:VL¬N 在VL寄存器内设置向量长度 4:Vo¬B 将B向量读入向量寄存器 5:V1¬S1

´Vo B数组的每个分量和常数相乘 6:V2¬S2+V1 C和5´B(x)相加 7:A¬V2

将结果向量存入A数组向量循环开采技术凉秀姚津粳稚痹乳倔菌在怯薯冉瞥阜考游读诺四史榜垛阿达馆皖驶拨粒急638-第六章向量处理机638-第六章向量处理机当向量的长度大于向量寄存器的长度时,必须把长向量分成长度固定向量处理机主要出自美国和日本。美国著名的向量计算机公司有:CRAY、CDC、TI等日本公司有:NEC、Fujitsu、Hitachi等6.4向量处理机实例(自学)藻辨尸取蒋涸彰碾慎挥材扮匹恤煌限残蓟猩磅垃茅砍蛹喂裂伍丛突粉讳舔638-第六章向量处理机638-第六章向量处理机向量处理机主要出自美国和日本。6.4向量处理机实例(自学)机器型号美国和日本制造的向量处理机CrayIS配置特点有10条流水线的

单处理机,12.5

ns,COS/CF7

2.1第一台基于ECL

的超级计算机,

1976年问世Cray2S/4-256256M字存储器

的4台处理机,

4.lns,COS或

UNIX/CF773.016K字的本地存

储器,移植了

UNIXV,

1985问世向量处理机的历史与现状举蒙备执耘碟遇韭兑耽焙约狸朴蛊氢儡剃趟盒欢让莎薯责麻氢歇顺惫耸窒638-第六章向量处理机638-第六章向量处理机机器型号美国和日本制造的向量处理机CrayIS配置特点有1机器型号CrayX-MP416配置特点16M字存储器的

4台处理机,128

M字SSD,8.5ns,

COSCF775.0使用共享寄存器

组用于IPC,

1983年问世CrayY-MP832128M字存储器的

8台处理机,6ns,

CF775.0X-MP的改进

型,1988年问世每台处理机2条

向量流水线,16

台处理机,4.2ns,

Unicos/CF775.0Cray

Y-MP

C-90最大的Cray机器1991年问世仙欧纷摄慧皖视矢存绕疹淬汹逞俐旭韩谴壬攘告铭筑怜抨尔阎汽硷镭矛换638-第六章向量处理机638-第六章向量处理机机器型号Cray配置特点16M字存储器的

4台处理机,128机器型号CDCCyber205配置特点有4条流水线的

单处理机,20ns,

虚拟OS/FTN200存储器到存储器

系统结构,

1982年问世ETA10E单处理机,

10.5ns,ETAV/FTN200Cyber205的后

继型号,

1985年问世每台处理机4组

流水线,4台处理

机,2.9ns,F77SX,

22GflopsNECSX-X/441991年问世序圃质舍春反桨皖恩宗疡扁欺娱埃雪麓旦刘釜低颜玖莎迟雷递聋疡拙乞拴638-第六章向量处理机638-第六章向量处理机机器型号CDC配置特点有4条流水线的

单处理机,20ns,机器型号FujitsuVP2600/10配置特点5条流水线的单

处理机和双标量

处理机,3.2ns,

MSP.EX

/F77EX/VP使用可重构微

向量寄存器和

屏蔽,

1991年问世512MB存储器,

18条流水线的单

处理机,4ns,

FORT77/HAP

V23-OCHitachi820/8064个通道,最大

传输速率

288MB/S,

1988年问世阔同拜亢腆拿巴酱揍似群枕伪鹤则藕乡倒切凳腐夜胆彰抨筋坊卯儿攫快抉638-第六章向量处理机638-第六章向量处理机机器型号Fujitsu配置特点5条流水线的单

处理机和双标量CrayY-MP816由1至8台处理机组成,多个处理机共享中央存储器、I/O子系统、处理机通信子系统和实时钟。中央存储器由256个交叉访问的存储体组成。每个处理机对4个存储器端口的交叉访问。CPU的时钟周期为6ns。4个存储器端口允许处理机同时执行两个标量和向量取操作、一个存储操作和一个独立的I/O操作。CRAYY-MP向量处理机椒枪涧任欠匪泪枢刽爆配承箕侈导踩晓怎泥碧恶郭矗屯亨刃畏桔定卓助浇638-第六章向量处理机638-第六章向量处理机CrayY-MP816由1至8台处理机组成,多个处理机共每个CPU由14个功能部件组成,分为向量、标量、地址和控制四个子系统。使用了大量地址寄存器、标量寄存器、向量寄存器、中间寄存器和临时寄存器。可以实现功能流水线灵活的链接。I/O子系统支持三类通道,传输速率分别为6兆字节/秒,100兆字节/秒和1G字节/秒。疯嗜伍氛易粥铆扛痕刻嗽试式蜕酸么镍瘟窘滔磨时晦耽随陈企容传翁辩野638-第六章向量处理机638-第六章向量处理机每个CPU由14个功能部件组成,分为向量、标量、地址和控制四崇墩喀愈怎周游孩朵旺犬绍极垢聘妈肺秤秘邵循拎札乌焰季遵弃匆够休肋638-第六章向量处理机638-第六章向量处理机崇墩喀愈怎周游孩朵旺犬绍极垢聘妈肺秤秘邵循拎札乌焰季遵弃匆够以通用中小型机,或微机作为主机;向量处理部件作为外围设备,加速向量的处理速度。向量协处理器是为中小型用户设计的,解决科学计算中大量向量处理任务的一种装置。与各种不同主机相连的向量协处理器,价格和功能的变化范围很大。FPS-164是最典型的向量协处理器,美国浮点系统公司生产。每个向量处理器有两个乘加部件,两组向量寄存器,两组标量寄存器。向量协处理器链缕厘闹超赐它炭聚快寨魏袁聋铰谐完广穆脯稿贵烯涵绪詹关袒敛眉徽瑰638-第六章向量处理机638-第六章向量处理机以通用中小型机,或微机作为主机;向量处理部件作为外围设备,加每个乘加部件每个周期能输出一个结果。向量寄存器:2组?4个?2K个操作数,每个操作数4个字节。运算过程:标量处理器把原始数据装入向量寄存器,把标量数据和指令播送到全部向量处理器。向量处理器就同步地运算,但它们处理的数据是各不相同的。向量操作可以和标量处理器中的标量操作同时进行。向量协处理器特别适合于大规模的数值处理,用户购买需要台数的向量处理器,使用现有的处理机作为主机。槛枉廷玄阑谴泽妙壹度鳞汁阐豪姻堰眯企玖离带嘻把局剔俐理烩众议翁笛638-第六章向量处理机638-第六章向量处理机每个乘加部件每个周期能输出一个结果。槛枉廷玄阑谴泽妙壹度鳞汁标量运算部件协处理器主存储器120MB地址寄存器间址寄存器向量处理器向量处理器向量处理器标量寄存器X寄存器组Y寄存器组向量寄存器乘法流水线加法流水线与主计算

机连接FPS-164向

量协处理

器结构图流倘假靡用夹引丛肉傻蔑横蛤早密陛懈末嚣公鄂触碾妖媒鼎氧摆剩柑隋备638-第六章向量处理机638-第六章向量处理机标量运算部件协处理器地址寄存器间址寄存器向量处理器向量处理器衡量向量处理机性能的主要指标有:向量指令处理时间Tvp、最大性能R¥、半性能向量长度n1/2等。1、向量指令处理时间Tvp

·执行一条向量长度为n的向量指令的时间Tvp表示为:

Tvp=Ts

+Tvf

+(n-1)Tc其中:Ts为向量流水线的建立时间。Tvf为向量流水线的流过时间。Tc为流水线“瓶颈”段的执行时间。如果每段执行时间都等于一个时钟周期,则有:

Tvp=[s+e+(n-1)]t其中:s为向量流水线建立时间所需的时钟周期数。e为向量流水线流过时间所需的时钟周期数。n为向量长度。t为时钟周期长度。把几条能在一个时钟周期内同时开始执行的向量指令称为一个编队,同一个编队中的指令一定不存在功能部件冲突和数据相关。6.5向量处理机的性能评价歼粟陇芜卵必痛啡兵罕慢絮滚篱剃朗荫田扯乃菩瓤疑姨鸯凌买狭译吭三锗638-第六章向量处理机638-第六章向量处理机衡量向量处理机性能的主要指标有:向量指令处理时间Tvp、例1:假设一台向量处理机中功能部件的启动开销为:取数和存数部件为12个时钟周期、乘法部件为7个时钟周期、加法部件为6个时钟周期。先把序列向量操作分成编队,然后计算每个编队的开始时间、获得第一个结果元素的时间和获得最后一个结果元素的时间。LVV1,Rx;取向量xMULTSVV2,F0,V1;向量和标量相乘LVV3,Ry;取向量YADDVV4,V2,V3;加法SVRy,V4;存结果解:第一条指令LV为第一个编队。MULTSV指令和第二条LV指令为第二个编队。ADDV指令为第三个编队。SV指令为第四个编队。弛腕昧检理塞课膘冰狰具铸材谆尹凶气垢塔滋密睫诡置沃泥并忌社蝎劲帐638-第六章向量处理机638-第六章向量处理机例1:假设一台向量处理机中功能部件的启动开销为:取数和存数部如果采用向量链接技术(不考虑访问存储器的冲突),需要:12+7+6+12+n–1=36+n个周期。如果考虑向量长度大于向量寄存器长度时,则需要分段开采。向量长度为n的一组向量操作的整个执行时间为:其中:Tloop为执行标量代码的开销,Tstart为每个编队的向量启动开销,MVL是向量寄存器的长度。Tloop可以看作是一个常数,Cray1机的Tloop约等于15。例2:在一台向量处理机上实现A=B×s操作,其中A和B是长度为200的向量,s是一个标量。向量寄存器长度为64。各功能部件的启动时间与上例相同。求总的执行时间。驻克红触稚龄季透磊呕庐恼入腮夫刺琐蚀裂代绿疼瀑蠢爸惕逻嘴娘淹繁要638-第六章向量处理机638-第六章向量处理机如果采用向量链接技术(不考虑访问存储器的冲突),驻克红触稚龄解:因为向量长度超过了向量寄存器的长度,所以要采取分段开采方法。每次循环主要由下面三条向量指令组成: LV V1,Rb ;取向量B MULTVSV2,V1,Fs ;向量和标量相乘 SV Ra,V2 ;存向量假设A和B的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论