




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章1.7,1.10,1.111.7某台主频为400MHz的计算机执行标准测试程序,程序中指令类型、执行数量和平均时钟周期数如下:指令类型指令执行数量平均时钟周期数整数450001数据传送750002浮点80004分支15002求该计算机的有效CPI、MIPS和程序执行时间。解:(1)(2)(3)1.10计算机系统有三个部件可以改进,这三个部件的加速比如下: 部件加速比130; 部件加速比220; 部件加速比310;(1) 如果部件1和部件2的可改进比例为30,那么当部件3的可改进比例为多少时,系统的加速比才可以达到10?(2) 如果三个部件的可改进比例为30、30和20,三个部件同时改进,
2、那么系统中不可加速部分的执行时间在总执行时间中占的比例是多少?解:(1)11(2)1.11 假设浮点数指令FP指令的比例为30%,其中浮点数平方根FPQSR占全部指令的比例为4%,FP操作的CPI为5,FPSQR操作的CPI为20,其他指令的平均CPI为1.25.现有两种改进方案,第一种是把FPSQR操作的CPI减至3,第二种是把所有的FP操作的CPI减至3,试比较两种方案对系统性能的提高程度。解:没有改进之前,每条指令的平均时钟周期CPI为:第一种方案:CPI1 = CPI-(CPIFPSQR-CPIFPSQR)0.04 = 2.375-(20-3)0.04 = 1.695第二种方案:CPI
3、2 = CPI-(CPIFP-CPIFP)0.3= 2.375-(5-3)0.3 = 1.775从CPI来看,第一种方案优于第二种。解法2:先使用已知条件求出原始CPI,再求出除去FPSQR指令外其他指令的平均CPI,最后比较改进后的CPI大小。没有改进之前,每条指令的平均时钟周期CPI为:设除FPSQR外其余指令的平均CPI为X,则 2.375 = 20 4% + (1 - 4%)X ,解出X = 1.640625方案1:CPI1 = 3 4% + 1.640625 (1 - 4%) = 1.695方案2:CPI2 = 3 30% + 1.25 (1 - 30%) = 1.775解法3(用A
4、mdahl公式):设指令总条数=M,时钟周期长度=CYCLE。没有改进之前总时间Told = 0.3M 5 CYCLE + 0.7M 1.25 CYCLE = M 2.375 CYCLETFP = 0.3M 5 CYCLE = M 1.5 CYCLE,所占比例为1.5/2.375 63%TFPSQR = 0.04M 20 CYCLE = M 0.8 CYCLE,所占比例为0.8/2.375 34%方案1:Se = 20/3,Fe 34%,Sn1 = 1 / (1 - Fe) + Fe / Se 1.4方案2:Se = 5/3,Fe 63%,Sn2 = 1 / (1 - Fe) + Fe / S
5、e 1.3方案1的加速比更大,性能更好 第二章2.14(补充),实验1【补充习题2.14】人工模拟以下MIPS程序的单条指令运行方式,在表中用16进制编码记录每一步产生的结果(不得借助模拟软件)。 .datan: .word 3x: .double 0.5 .text LD R1, n(R0) L.DF0, x(R0) DADDIR2, R0, 1; R2 1 MTC1R2, F11; F11 1 CVT.D.LF2, F11; F2 1loop: MUL.DF2, F2, F0; F2 F2F0 DADDIR1, R1, -1; decrement R1 by 1 BNEZR1, loop;
6、 if R10 continue HALT ; 此条不填表(提示:MIPS浮点数的格式是IEEE754)解:序号结果寄存器名称结果值(16进制)序号结果寄存器名称结果值(16进制)1R100000000000000038无无2F03fe00000000000009F23fd00000000000003R2000000000000000110R100000000000000014F11000000000000000111无无5F23ff000000000000012F23fc00000000000006F23fe000000000000013R100000000000000007R1000000
7、000000000214无无0.5的二进制表示:0.1=1.02-1尾数:(1).0000阶码:-1+1023=0x3fe 0x3fe0000000000000 1的二进制表示:1.0=1.020尾数:(1).0000阶码:0+1023=0x3ff 0x3ff0000000000000 补充知识:目前国际上流行的浮点数标准是IEEE 754,其基本组成是32bit单精度、64bit双精度两种类型。该标准规定基值为2,阶码E用移码表示,尾数M用原码表示,根据原码的规格化方法,最高数字位总是1,该标准将这个1缺省存储,使得尾数表示范围比实际存储的一位。IEEE 754的标准文件是ANSI/IEEE
8、 Std 754-1985IEEE Standard for Binary Floating-Point Arithmetic,通过Google可搜到pdf文件下载。在IEEE 754浮点数国际标准中,32位单精度浮点数和64位双精度浮点数的格式分别如下: 对于单精度浮点数,阶码用移-127码表示,即阶码的0255分别表示阶码的真值为-127128。尾数(原码)用1位符号位、23位小数和1位隐藏的整数共25位表示。尾数的基值和阶码的基值都是2。 当0e255时,表示一个非零的规格化浮点数,数值为:N=(-1)s2e-127(1.m) 当e=255,且m0时,表示一个非数NaN(Not-a-Nu
9、mber)。NaN可能是在许多非确定的情况下,如零除以零、求负数的平方根等产生的结果。 当e=255,且m=0时,表示一个无穷数:N=(-1)s。注意+和-的表示是不同的。 当e=0,且m0时,表示规格化浮点数:N=(-1)s2-126(0.m)。 当e=0,且m=0时,表示浮点数零:N=(-1)s0。注意+0与-0的表示是不同的。 对于64位双精度浮点数,阶码用移-1023码表示,其他规定与单精度浮点数类似。【实验1】实验要求:用MIPS64指令编写一个尽可能短小的程序,将事先存放在数据区的4字节字符串(例如“3901”)转换为一个4位BCD整数,赋给R9。在WinMIPS64模拟器调试通过
10、。实验报告:(1) 程序清单;(2) 运行结果(每轮循环末尾R9的数值,高位的0可以不写)循环轮数1234R9的值(BCD整数)(3) 程序效率指令总条数(不算HALT)运行总时间(节拍数)解:(1) 程序清单无统一答案;(2) 运行结果循环轮数1234R9的值(BCD整数)3393903901第八章 8.11,8.128.11假设在一个计算机系统中: (1)每页为32KB,cache块大小为128B(2)对应新页的地址不在cache中,CPU不访问新页中的任何数据; (3)Cache中95%的被替换块将再次被读取,并引起一次不命中; (4)cache使用写回方法,平均60%的块被修改过; (
11、5)I/O系统缓冲能够存储一个完整的cache块 (6)访问或不命中在所有cache块中均匀分布; (7)在CPU和I/O之间,没有其他访问cache的干扰; (8)无I/O时,每100万个时钟周期内有18000次不命中; (9)不命中开销是40个时钟周期,如果被替换的块被修改过,则再加上30个周期用于写回主存; (10)假设计算机平均每200万个周期处理一页 试分析I/O对于性能的影响有多大 解:每个主存页有32K/128256块。因为是按块传输,所以I/O传输本身并不引起Cache失效。但是它可能要替换Cache中的有效块。如果这些被替换块中有60被修改过,将需要(25660)304608
12、个时钟周期将这些被修改过的块写回主存。这些被替换出去的块中,有95的后继需要访问,从而产生95256244次失效,将再次发生替换。由于这次被替换的244块中数据是从I/O直接写入Cache的,因此所有块都为被修改块,需要写回主存(因为CPU不会直接访问从I/O来的新页中的数据),需要时间是244(4030)17080个时钟周期。没有I/O时,每一页平均使用200万个时钟周期,Cache失效36000次,其中60被修改过,所需的处理时间为:(3600040)40(3600060)(4030)2088000(时钟周期)I/O造成的额外性能损失比例为(460817080)(2000000208800
13、0)0.53Lets look at the impact on the CPU of reading a disk page directly into the cache. Make the following assumptions: .Each page is 16 KB, and the cache-block size is 64 bytes. .The addresses corresponding to the new page are not in the cache. .The CPU will not access any of the data in the new p
14、age. .95% of the blocks that were displaced from the cache will be read in again, and each will cause a miss. .The cache uses write back, and 50% of the blocks are dirty on average. .The I/O system buffers a full cache block before writing to the cache (this is called a speed-matching buffer, matchi
15、ng transfer bandwidth of the I/O system and memory). .The accesses and misses are spread uniformly to all cache blocks. .There is no other interference between the CPU and I/O for the cache slots. .There are 15,000 misses every 1 million clock cycles when there is no I/O. .The miss penalty is 30 clo
16、ck cycles, plus 30 more cycles to write the block if it was dirty.Assuming one page is brought in every 1 million clock cycles, what is the impact on performance?1. Each page fills 16,384/64 or 256 blocks.(1)2. I/O transfers do not cause cache misses on their own because entire cache blocks are tran
17、sferred. However, they do displace blocks already in the cache. (2)3. If half of the displaced blocks are dirty, it takes 128 x 30 clock cycles to write them back to memory. (5)(10)4. There are also misses from 95% of the blocks displaced in the cache because they are referenced later, adding anothe
18、r 95% x 256 (4), or 244 misses. 244 x30 cycles (10)5. Since this data was placed into the cache from the I/O system, all these blocks are dirty and will need to be written back when replaced. Thus, the total is on average 128 x 30 + 244 x 60 more clock cycles than the original 1,000,000+ 7500 x 30 +
19、 7500 x 60.6. This turns into a 1% decrease in performance:8.12(补充) 假定某网络型RAID系统包含6个SCSI磁盘,采用RAID 1+0结构,对给定时间t,各部分可靠度为:网络接口通道NIC的R1=0.9,阵列控制器R2=0.95,SCSI通道适配器R3=0.95,磁盘R4=0.8。(1)画出系统可靠性框图;(2)写出系统可靠性R的表达式,计算R的数值;(3)提出进一步增强系统可靠性的若干建议。NIC阵列控制器SCSI通道适配器NICGGHHIIDDEEFFAABBCC解:R1R1R2R3R4R4R4R4R4R4(1)(2)R=
20、(1-(1-R1)2)R2R3(1-(1-R4)2)30.79(3)采用双控制器、双SCSI适配器、提高数据冗余度、网络通道冗余度、提高各部分器件可靠度等。第九章 9.9,9.139.9 设32个处理器编号为0、1、31,(1) 分别计算下列互连函数:(2) 用Cube0和构成混洗交换网(每步只能使用Cube0或一次),网络直径是多少?从5号处理机发送数据到7号处理机,最短路径要经过几步?请列出经过的处理机编号。解: (1) (2) 2n个结点的均匀洗牌交换网的网络直径为2n-1,32个结点的均匀洗牌交换网的网络直径为9。从5号处理机发送数据到7号处理机,最短路径要经过6步:00101001000100001001100101001100111(3) 网络直径是3,结点度是9,与2号处理机距离最远的是13、15、21、23号处理机。9.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园大班社会活动《课间十分钟》教案(5篇)
- 2025年重庆市安全员知识题库及答案
- 莆田学院《数据结构(Java)》2023-2024学年第二学期期末试卷
- 天津中德应用技术大学《商务数据分析》2023-2024学年第二学期期末试卷
- 潍坊学院《土地测量与评价》2023-2024学年第二学期期末试卷
- 邯郸科技职业学院《风电机组设计与制造》2023-2024学年第二学期期末试卷
- 长治幼儿师范高等专科学校《预算管理模拟》2023-2024学年第二学期期末试卷
- 2025年江西省建筑安全员《B证》考试题库
- 2025年湖南省安全员《A证》考试题库及答案
- 扬州环境资源职业技术学院《通风空调A》2023-2024学年第二学期期末试卷
- 全国驾驶员考试(科目一)考试题库下载1500道题(中英文对照版本)
- TSG 07-2019电梯安装修理维护质量保证手册程序文件制度文件表单一整套
- 设备损坏评估报告范文
- 标准和计量管理制度范文(2篇)
- 透析患者心理问题护理干预
- 孕前口腔护理保健
- 《大学生安全教育》课件 项目四 军事安全
- 10KV电力配电工程施工方案
- 智能感知工程基础知识单选题100道及答案解析
- 肌肉注射药物不良反应及预防措施研究
- 人教版数学六年级上册第一单元测试卷
评论
0/150
提交评论