计算机系统结构(1)汇编_第1页
计算机系统结构(1)汇编_第2页
计算机系统结构(1)汇编_第3页
计算机系统结构(1)汇编_第4页
计算机系统结构(1)汇编_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 n1.1 计算机系统结构 n1.2 计算机系统设计技术 n1.3 系统结构的评价标准 n1.4 计算机系统结构的发展 第一章 基本概念 为什么要研究系统结构为什么要研究系统结构? ? 1. 提高处理机运算速度:提高处理机运算速度:MIPSFz IPC 其中: Fz为处理机的工作主频 IPC(Instruction Per Cycle)为 每个时钟周期平均执行的指令条数每个时钟周期平均执行的指令条数 提高提高IPC:依靠先进系统结构:依靠先进系统结构 过去,几个或几十个周期完成一条指令过去,几个或几十个周期完成一条指令 现在,一个周期完成几条指令现在,一个周期完成几条指令 提高提高Fz:缩短门

2、电路延迟,依靠技术进步缩短门电路延迟,依靠技术进步 流水线技术等,依靠先进系统结构流水线技术等,依靠先进系统结构 从指令串行执行,到从指令串行执行,到P4的的20级流水线级流水线 1.1 计算机系统结构 n计算机的更新换代 n第一代 电子管计算机 n第二代 晶体管计算机 n第三代 中小规模集成电路 n第四代 大或超大规模集成电路 n第五代 VLSI(超大规模集成电路) n计算机性能的大幅度提高或更新换代,一方面依靠器件的不 断更新,同时也依赖系统结构的不断改进。 350 300 250 200 150 100 50 0 1985 1985 1986 1987 1988 1989 1990 19

3、91 1992 1993 1994 1995 DEC Alpha SUN4 IBM Power1 MIPS R2000 DEC Alpha MIPS R3000 HP 900 IBM Power2 DEC Alpha 每每年年 1.58 倍倍 每每年年 1.35 倍倍 SPECint 速速度度指指标标 依依靠靠技技术术进进步步性性能能每每年年 提提高高 35% 先先进进系系统统结结构构对对性性能能的的 贡贡献献是是技技术术进进步步的的 5 倍倍 2. 计算机性能提高的几个阶段计算机性能提高的几个阶段 20世纪世纪70年代末之前,大型机和小型机计算机年代末之前,大型机和小型机计算机 性能性能每年

4、提高每年提高25%30%。 20世纪世纪80年代初,出现微处理机,依靠集成电年代初,出现微处理机,依靠集成电 路技术,性能路技术,性能每年提高每年提高35% 20世纪世纪80年中期,出现年中期,出现RISC技术、高级语言和技术、高级语言和 操作系统等,性能操作系统等,性能每年提高每年提高50% 1995年,年,先进系统结构先进系统结构对微处理器性能的贡献对微处理器性能的贡献 是单纯技术进步的是单纯技术进步的5倍。倍。 3. 近几年及将来,计算机性能按摩尔定理发展。近几年及将来,计算机性能按摩尔定理发展。 4. 计算机系统的设计者们要不断创新。计算机系统的设计者们要不断创新。 1.1.1计算机系

5、统的层次结构 n从使用语言的角度,把计算机系统按功能划分成多级层次结 构 n第0级由硬件实现 n第1级由微程序实现 n第2级是传统指令系统(机器语言)机器 n第3级是操作系统机器 n第4级是汇编语言机器 n第5级是高级语言机器 n第6级是应用语言机器 n第2级至第6级由软件实现 n由软件实现的机器称为:虚拟机 n从学科领域来划分 n第0和第1级属于计算机组成与系统结构 n第3至第5级是系统软件 n第6级是应用软件 1.1.2计算机系统结构的定义 n定义: n汇编语言程序员所看到的计算机属性,即硬件子系统的概 念结构及其功能特性。 n研究任务: n主要研究软件、硬件功能分配和对软硬件界面的确定。

6、 n实质: n外特性实际上定义了系统的软、硬件功能界面; n系统结构内特性计算机系统的设计人员看到的基本属性, 是外特性的逻辑实现。 透明性 n一种本来存在的事物或属性,但从某种角度来看似乎不存在 的概念,称为透明性。 n在一个计算机系统中,低层机器的属性往往对高层机器的程 序员是透明的。计算机组成设计的内容,对传统机器程序员 来讲一般是透明的。 1.1.3计算机组成与实现 n定义: n研究硬件系统各组成部分的内部构造和相互联系,以实现 机器指令级的各种功能和特性。目标是最合理地方式将各 种设备和部件连接为计算机,以达到最优的性价比,从而 实现所确定的系统结构。计算机组成是系统结构的逻辑实 现

7、。 计算机实现 n计算机实现: n研究各部件的物理结构、机器的制造技术和工艺等,是计 算机组成的物理实现。它着眼于器件技术和微组装技术。 n主存的物理实现,如存储器采用什么样器件,逻辑电路设 计和微组装技术均属计算机实现 系统结构、组成和实现三者的关系 n关系: n关系举例: n 注意: n系统结构设计不要对组成、实现技术的采用与发展有过多 或不合理的限制; n 计算机组成与实现是可以折衷权衡的; n 三者的内容不同时期会有所变化。 n 系统结构的设计与硬件的设计不可混淆。 外特性内特性实现 乘法功能 是否有乘法指令 乘法器/加法+移位物理实现 主存系统 容量、编址方式速度、措施器件、电路 1

8、 : n1 : n 外特性 -内特性 - 物理实现 系统结构、组成和实现三者的关系 n计算机组成是计算机系统结构的逻辑实现,计算机实现是计 算机组成的物理实现,三者各自包含不同的内容,但又有着 紧密的联系。 n一种系统结构可以有多种组成,同样,一种组成可以有多种 物理实现 nIBM系列机有370/115、125、135、145、158、168等一系列 从低速到高速的各种型号。 n它们有相同的系统结构,但采用不同的组成和实现技术。 n如它们有相同的指令系统, n在低档机上采用指令的分析和指令的执行顺序进行的方 式,而在高档机上采用重迭、流水和其它并行处理方式。 n从程序设计者看,各档机器的字长都

9、是32位, n机器内部的数据通路的宽度不一样,低档机器只有8位, 而高档机器32位甚至64位。 n各档机器都采用通道方式进行输入输出, n在计算机组成上,低档机器采用结合型通道,即让通道 的功能借用中央处理机的某些部件去完成,而高档机器 上则采用独立型通道,即让通道独立设置硬件,与中央 处理机并行工作。 1.1.4 计算机系统结构的分类 n1 Flynn分类法 n指令流(Instruction stream,IS) n数据流(Data stream,DS) n多倍性(Multiplicity) nSISD(Single Instruction stream single Data Stream

10、) 传统的顺序处理机(串行机) nSIMD(Single Instruction stream Multiple Data stream) 阵列处理机,并行处理机 nMISD(Multiple Instruction stream Single Data stream) 采用流水结构的计算机 nMIMD(Multiple Instruction stream Multiple Data stream) 多处理机 CUPUMM ISDS IS SISD CU PU1 PU2 PUn IS MM1 MM2 MMn DS1 DS2 DSn SIMD SISD SIMD CU1 CU2 CUn PU1

11、 PU1 PU1 MM1 MM2 MMn IS1 IS2 ISn IS1 IS2 ISn DS1 DSn MISD MM1 MM2 MMn CU1 CU2 CUn PU1 PU1 PU1 DS1 DS2 DSn IS1 IS2 ISn IS1 IS2 ISn MIMD 2 冯氏分类法 nPm: 最大并行度,指单位时间内能处理的最大二进制位数 n字串位串WSBS(Word serial and bit setial) n字并位串WPBS(Word parallel and bit serial) n字串位并WSBP(Word serial and bit parallel ) n字并位并WPBP

12、(Word parallel and bit parallel) n最大并行度:横坐标最大并行度:横坐标 纵坐标纵坐标 1 16 32 64 16384 288 256 64 32 16 MPP (1,16384) STARAN (1,256) Cmmp (16,16) PDP-11 (16,1) EDVAC (1,1) IBM 370/168 (32,1) PEPE (32,288) ILLIAC-IV (64,64) TI-ASC (64,32) 字宽字宽(n) 位片宽(m) 按最大并行度的冯氏分类法按最大并行度的冯氏分类法 3 Hndler分类法 n根据并行度和流水线提出的一种分类法。

13、n程序控制部件(PCU)的个数k; n算术逻辑部件(ALU)或处理部件(PE)的个数d; n每个算术逻辑部件包含基本罗辑线路(ELC)的套数w。如加 法器位数 nt(系统型号)=(k,d,w) 1.2 计算机系统设计技术 n1.2.1计算机系统设计的定量原理 n1 加快经常性事件的速度 n这是计算机设计中最重要也最广泛采用的设计准则。使 经常性事件的处理速度加快能明显提高整个系统的性能。 n在CPU中两个数进行相加运算时,相加结果可能出现溢出 现象,也可能无溢出发生,显然经常出现的事件是不发 生溢出的情况,而溢出是偶然发生的事件。因此,在设 计时应优化不发生溢出的情况,使这个经常性事件的处 理

14、速度尽可能快,而对溢出处理则不必过多考虑优化。 因为发生溢出的概率很小,即使发生了,处理得慢一些 也不会对系统性能产生很大的影响。 2 Amdahl定律 nAmdahl定律 性能没有采用改进措施前的 采用改进措施后的性能 加速比 n T 0 T 任务的时间采用改进措施后执行某 行某任务的时间没有采用改进措施前执 加速比 时间改进前整个任务的执行 可改进部分占用的时间 e F 时间改进后改进部分的执行 时间改进前改进部分的执行 e S TTFe Fe Se no *()1 S To T Fe Fe Se n n 1 1 () 例1.1 n假设将某系统的某一部件的处理速度加快到10倍,但该部件的

15、原处理时间仅为整个运行时间的40%,则采用加快措施后能 使整个系统的性能提高多少? n解:由题意可知:Fe=0.4, Se=10,根据Amdahl定律 S n 1 06 04 10 1 064 156 . . . . 例1.2 n采用哪种实现技术来求浮点数平方根FPSQR的操作对系统的 性能影响较大。假设FPSQR操作占整个测试程序执行时间的 20%。一种实现方法是采用FPSQR硬件,使FPSQR操作的速 度加快到10倍。另一种实现方法是使所有浮点数据指令的速 度加快,使FP指令的速度加快到2倍,还假设FP指令占整个执 行时间的50%。请比较这两种设计方案。 n解:分别计算出这两种设计方案所能

16、得到的加速比: S S FPSQR FP 1 102 02 10 1 082 122 1 105 05 2 1 075 133 (. ) . . . (. ) . . . 3 CPU性能公式 nCPU的性能取决于三个要素: n时钟频率f(或时钟周期t); n每条指令所花的时钟周期数CPI; n指令条数IC n一个程序所花的CPU时间(T)可以用两种方式来表示: nCPU时间(T)=CPU时钟周期数(CPIIC)*时钟周期长(t) n每条指令的平均时钟周期数: )f( )CPIIC(CPU )T(CPU 频率 时钟周期数 时间 IC CPU CPI 时钟周期数目 CPU时钟周期数=(CPIi*I

17、i ) i=1 n CPU时间(T)=时钟周期长度* (CPIi*Ii ) i=1 n CPI= (CPIi*Ii ) i=1 n IC = (CPIi*Ii /IC) i=1 n Ii是第i种指令的执行次数 Ii/IC是第I种指令所占比例 例1.3 n如果FP操作的比例为25%,FP操作的平均CPI=4.0,其它指 令的平均CPI为1.33,FPSQR操作的比例为2%, FPSQR的CPI 为20。假设有两种设计方案,公别把FPSQR操作的CPI和所有 FP操作的CPI减为2。试利用CPU性能公式比较这两种设计方 案哪一个更好(只改变CPI而时钟频率和指令条数保持不变)。 n解:原系统的CP

18、I=25%4+75%1.33=2 n方案1(使FPSQR操作的CPI为2)系统 nCPI=CPI原-2%(20-2)=2-2%18=1.64 n方案2(提高所有FP指令的处理速度)系统 nCPI=CPI原-25%(4-2)=2-25%2=1.5 n我们也可以根据以下公式计算出方案2系统的CPI nCPI= 75%1.33+25%2=1.5 n显然,提高所有FP指令处理速度的方案要比提高FPSQR处 理速度的方案要好。 n方案2的加速比=2/1.5= 1.33 例1.4 n假设这两台机器的指令系统中,执行条件转移指令需2个时钟 周期,而其它指令只需1个时钟周期。 nCPUA:采用一条比较指令来设

19、置相应的条件码,由紧随其后的 一条转移指令对此条件码进行测试,以确定是否进行转移。 显然实现一次条件转移要执行比较和测试两条指令。条件转 移指令占总执行指令条数的20%。由于每条转移指令都需要 一条比较指令,所以比较指令也将占20%。 nCPUB采用比较功能和判别是否实现转移功能合在一条指令的 方法,这样实现一条件转移就只需一条指令就可以完成。由 于CPUB在转移指令中包含了比较功能,因此它的时钟周期就 比CPUA要慢25%。 n现在要问,采用不同转移指令方案的CPUA和CPUB,那个工作 速度会更快些? 例1.4 解 n解:CPIA=0.22+0.81=1.2 TCPUA=ICA1.2tA

20、CPUB转移指令为20%80%=25% CPIB = 0.252+0.751=1.25 由于CPUB中没有比较指令,因此ICB = 0.8ICA。 t B = 1.25tA TCPUB = ICBCPIBtB = 0.8 ICA1.251.25tA = 1.25 ICAtA 可见TCPUA比TCPUB小,所以CPUA比CPUB运行得更快些。 例1.5 n在例1.4中,如果CPUB的时钟周期只比CPUA的慢10%, 那么哪一个CPU会工作得更快些? n解:TCPUA = 1.2ICA tA , 因tB = 1.10tA,所以 nTCPUB = 0.8 ICA1.251.10tA= 1.10 IC

21、A tA,由于CPUB 所需时间较少,所以CPUB比CPUA运行得更快些。 4 访问的局部性原理 n局部性分时间上的局部性和空间上的局部性。 n时间上的局部性是指最近访问过的代码是不久将被访问的 代码。 n空间上的局部性是指那些地址上相邻近的代码可能会被一 起访问。 n存储器体系的构成就是以访问的局部性原理为基础的。 1.2.2 计算机系统设计者的主要任务 n1 根据用户要求进行需求分析 n2 进行软硬件平衡 n3 设计出符合今后发展方向的系统结构 软硬件实现在功能上等效 n软件与硬件实现的特点 n硬件实现:速度快、成本高;灵活性差、占用内存少 n软件实现:速度低、复制费用低;灵活性好、占用内

22、存多 n发展趋势 n硬件实现的比例越来越高,硬件所占的成本越来越高 发展 不可编程目前计算机最少硬件 软件 硬件 软 硬 件 比 例 七十年代 硬件 软件 成本 年代 1.2.3计算机系统设计的主要方法 1 由上往下设计 n设计过程: n由上向下 n面向应用的数学模型 n面向应用的高级语言 n面向这种应用的操作系统 n面向操作系统和高级语言的机器语言 n面向机器语言的微指令系统和硬件实现 n应用场合: n专用计算机的设计(早期计算机的设计) n特点: n对于所面向的应用领域,性能和性能价格比很高,随着 通用计算机价格降低,目前已经很少采用 2 由下往上设计 n设计过程: n根据当时的器件水平,

23、设计微程序机器级和传统机器级。 n根据不同的应用领域设计多种操作系统、汇编语言、高级 语言编译器等。 n最后设计面向应用的虚拟机器级。 n应用场合: n在计算机早期设计中(6070年代)广为采用 n特点: n容易使软件和硬件脱节,整个计算机系统的效率降低。 3 由中间开始设计 n设计过程: n首先定义软硬件的分界面, n包括:指令系统、存储系统、输入输出系统、中断系统、 硬件对操作系统和编译系统的支持等 n然后各个层次分别进行设计: n软件设计人员设计操作系统、高级语言、汇编语言、应 用出现等;硬件设计人员设计传统机器、微程序、硬联 逻辑等 n应用场合: n用于系列机的设计 n特点: n软硬件

24、的分界面在上升;硬件价格下降,软件价格上升; 软硬件人员结合共同设计;器件设计占领硬件设计 1.3 系统结构的评价标准 n评价一个计算机系统结构好坏的标准主要是性能和成本这两 个指标。 n1.3.1性能 n衡量机器性能的唯一固定而且可靠的标准就是真正执行程 序的时间。 n1主要标准 n(1) MIPS nMIPS 表示每秒百万指令条数。对于一个给定的程序, MIPS 定义为: n程序的执行时间为: n愈快的机器其MIPS愈高 66 1010CPI MIPS 时钟频率 执行时间 指令条数 6 10 e MIPS T 指令条数 例:计算Pentium II 450处理机的运算速度 n解:由于Pen

25、tium II 450处理机的IPC=2 (或CPI=0.5), Fz=450MHz,因此, nMIPSPentium II 450=FzIPC=4502=900(MIPS) n对于用户来说,MIPS有三个方面的缺陷: n1)MIPS依赖于指令集。 n2)在同一台机器上,MIPS因程序不同而变化。 n3)MIPS可能与性能相反。 n等效指令速度:吉普森(Gibson)法 nWi:指令使用频度,i:指令种类 n静态指令使用频度:在程序中直接统计 )(等效 等效指令速度 等效指令执行时间 n i ii n i i i n i ii WCPICPI MIPS W MIPS TWT 1 1 1 /1

26、)( 等效指令速度 等效指令速度()MIPS1/ 0.80 0.5 0.20 0.5/100 0.02MIPS 例 n我国最早研制的小型计算机DJS-130,定点16位,加法每秒50 万次,但没有硬件乘法和除法指令,用软件实现乘法和除法, 速度低100倍左右。求等效速度。 n解:定点等效速度为: n即每秒2万次,由于乘法和除法用软件实现,等效速度降低 了25倍。 例 n假设在程序中浮点开平方操作FPSQR的比例为2%,它的CPI 为100;其他浮点操作FP的比例为23%,它的CPI= 4.0;其余 75%指令的CPI=1.33,计算该处理机的等效CPI。如果FPSQR 操作的CPI也为4.0,

27、重新计算等效CPI。 n解: n等效CPI=100*2%+4*23%+1.33*75% =3.92 n等效CPI2=4*25%+1.33*75%=2.00 (2) MFLOPS nMFLOPS即每秒百万次浮点操作次数。 nMFLOPS取决于机器和程序两个方面。 nMFLOPS 仅仅只能用来衡量机器浮点操作的性能,而不能体 现机器的整体性能。例如编译程序,不管机器的性能有多好, 它的MFLOPS不会太高。 nMFLOPS是基于操作而非指令的,所以它可以用来比较两种不 同的机器。 nMFLOPS依赖于操作类型。例如100%的浮点加要远快于100% 的浮点除。 n单个程序的MFLOPS值并不能反映机

28、器的性能。 (3)用基准测试程序来测试机器性能 n按评价准确性递减的顺序列出足几种测试程序: n1)实际的应用程序方法。运行例如C编译程序、Tex 正文处 理软件、CAD工具等等。 n2)核心程序方法。从实际的程序中抽取少量关键循环程序 段,并用它们来评价机器的性能。 n3)玩具基准测试程序。玩具基准测试程序通常只有10-100 行而且运行结果是可以预知的。 n4)综合基准测试程序。是为了体现平均执行而人为编制的, 类似于核心程序,没有任何用户真正运行综合基准测试程 序。 2 性能的比较 A机B机C机 程序111020 程序2100010020 总时间100111040 (1)总执行时间 n一

29、致的衡量标准 n平均执行时间是各执行时间的算术平均值。 n如果性能是用速度(例如MFLOPS)表示,那么平均时间是调和 平均 1 n Am= n Ti i=1 平均执行时间 Hm= i=1 n 1 Ri n 调和平均时间 MFLOPS Ri=1/ Ti (2)加权执行时间 n将权因子和执行时间的积相加,这叫做加权算术平均值。 n加权调和平均所体现的性能和加权算术平均相同。 n Am= WiTi i=1 加权平均执行时间 Hm= i=1 n Wi Ri 1加权调和平均时间 MFLOPS 例子:如下表所示 ABCW1W2W3 程序11.0010.0020.000.500.9090.999 程序21

30、000.0010.0020.000.500.0910.001 加权平均W1500.5055.0020.00 加权平均W291.8218.1820.00 加权平均W32.0010.0920.00 平均标准化时间 n将一个任务的执行时间标准化为一个参考机器的执行时间, 称为平均标准化时间,可以用算术平均和几何平均来表示 几何平均公式: 性质: G= n ETRi n i=1 G(Xi ) G(Yi ) = G( Xi Yi ) ETR是程序标准化为参考 机器后的时间 加权平均不仅要受在任务中使用的频度的影响,而且还要受 具体机器及输入量的制约,而标准化执行时间的几何平均是 和程序的执行时间无关,与

31、具体机器无关。 1.3.2 成本 n1 成本指标 n计算机系统的成本是指软件和硬件两方面的成本 n当前软件成本由于其复杂性和长度的增加而不断增长,硬 件成本则由于科技的发展尤其是VLSI的发展而快速下降。 n计算机系统的成本主要包括以下两部分: n(1)一次性开发成本; n(2)每个部件的生产成本。 n对于软件来说,其成本主要是指开发成本,软件的生产成 本即复制费是很低的。 n对于硬件,其成本既包括一次性开发成本,又包括生产成 本,硬件的生产成本是远远高于软件的。 2 硬件考虑 n1)系统结构的效率影响着产品的竞争能力。 n2)器件技术(集成度和芯片价格)影响着产品的竞争能力。 n3)在评价系

32、统结构的效率时,须考虑实际应用中的负载情况, 并要从不同的应用场合出发。 n场合一:所有机器运行同一个1MB的程序,系统需要占 有1000MB的内存,系统B仅需占有1MB的内存。 n场合二:所有机器运行各不相同的1MB程序,系统的运 行效率要超过系统B。 n例:系统A的逻辑结构复杂度是系统C的100倍,而系统B的复 杂度则系统C的10倍,若系统A和系统B的性能相同,那么由 于系统A的低效率导致的高成本使得其商品价格的竞争能力要 低于系统B。 n例:上例中若系统A所使用芯片的集成度是系统B的10倍,且 其每块芯片的价格也是系统B的十分之一,那么尽管系统的 复杂度是系统B的10倍,由于系统选择的器

33、件优于系统B, 使系统A的产品成本反而低于系统B。 n例:系统A是一个没有共享存储器的多处理机系统(1000台处 理机),系统B是一个具有共享存储器的多处理机系统(1000台 处理机)。 例 1.4 计算机系统结构的发展 n1.4.1冯.诺依曼结构 n以存储程序原理为基础,由指令驱动,由输入、输出设备、 运算器、控制器和存储器构成。 n1.4.2软件对系统结构的影响 n软件兼容性(可移植性):同一软件可不经修改或只须少量修 改即可由一台机器移植到另一台机器上运行,即同一软件 可应用于不同环境。 解决软件可移植性的方法 n1 系列机: n同一个厂家生产的具有相同系统结构,不同的组成和实现 技术的

34、一系列不同型号的机器。 n兼容机: n不同厂家生产的具有相同系统结构,不同的组成和实现 技术的性价比不同的机器。 n2 模拟: n用软件方法在一台现有机器上实现另一台机器的指令系统。 模拟方法速度低 n仿真: n用硬件、固件或软件/硬件/固件混合实现的方法 n用微程序直接解释另一台机器的指令系统为仿真。仿真 方法速度高,但需要较多的硬件(包括控制存储器) 系统结构差别大的机器难于完全用仿真方法来实现 n3 采用统一的高级语言 n可实现在结构相同或完全不同的机器上的软件移植。 nPC系列机: 8088、8086、80186、80286、80386、80484、Pentium、 Pentium I

35、I、Pentium III n不同工作主频; n不同扩展功能:Pentium、Pentium Pro、Pentium MMX n不同的Cache:Pentium II、Celeron、Xeon n不同的字长:8位(8088)、16位(80286)、32位、64位。 时间 机器档次 当前机器 向上兼容 向下兼容 高 低 向后兼容 向前兼容 PC系列机 采用系列机方法的主要优缺点 n采用系列机方法的主要优点: n系列机之间软件兼容,可移植性好; n插件、接口等相互兼容; n便于实现机间通信; n便于维修、培训; n有利于提高产量、降低成本 n采用系列机方法的主要缺点: n限制了计算机系统结构的发展

36、 n三种方法比较: n采用统一高级语言最好,是努力的目标 n系列机是暂时性方法,也是目前最好的方法 n仿真的速度低,芯片设计的负担重,目前用于同一系列机 内的兼容 1/101/2的芯片面积用于仿真 1.4.3,1.4.4 价格和应用对系统结构的影响 n要全面评价一个系统结构,既要考虑性能又要考虑价格。 n当两个系统的功能类似或性能接近时,性价比的比较才有意 义。 n改进系统结构应使性能或价格产生较小变化,以获得更好的 性价比。 n改进系统结构可提高系统的绝对性能,并使价格的增加比较 合理。 n针对特殊负载(特殊应用)的专用计算机系统结构往往具有高效 率,但缺乏通用性,市场面小。 n通用系统结构

37、可适应各种应用场合,市场面大,但效率低。 n设计的出发点是使专用系统结构的高效率与通用系统结构的 广泛市场成均势。 1.4.5 VLSI对系统结构的影响 n由于VLSI的发展,使计算机系统的价格发上很大变化,系统 结构的设计者不再把注意力放到如何利用每一个机器周期上, 从而使系统结构也发生新的变化。 本章重点 n1、计算机系统结构的定义及研究对象 n2、计算机系统的层次结构 n3、评价计算机系统的常用方法 n4、冯 诺依曼结构及其发展 n5、透明性、系列机、兼容性、模拟与仿真等概念 n6、了解计算机系统的分类方法 习题1.2 n每一级为了执行一条指令需要下一级的N条指令解释,若执行 第一级的一

38、条指令需kns,那么执行第2级、第3级、第4级的 指令需要多少时间? n第1级 k ns n第2级 1Nk ns = Nk ns n第3级 1NNk ns = N2k ns n第4级 1NNNk ns = N3k ns 习题1.4 n每一级指令能完成下一级的M条指令的工作量,且每一级指令 需要下一级的N条指令解释,若执行第一级的一条指令需kns, 那么执行第2级、第3级、第4级的指令需要多少时间? kns M N kns M N kns M N 3 3 2 2 4 3 2 kns 1 级第 级第 级第 级第 习题1.6 n试以实例说明计算机系统结构、计算机组成与计算机实现之 间的相互关系与相互

39、影响。 n系统结构、组成和实现是三个不同的概念,它们各自包含不 同的内容,但又有紧密的关系。 n以存储系统为例,主存储器容量和寻址方式的确定属计算机 系统结构,主存的速度应多高,在逻辑结构上采用什么措施 属计算机组成,而主存的物理实现,如存储器采用什么样器 件,逻辑电路设计和微组装技术则属计算机实现。 习题1.7 n什么是透明性概念?对计算机系统结构,下列哪些是透明的? 哪些是不透明的? n存贮器的模m交叉存取;透明(组成) n浮点数据表示;不透明(系统结构) nI/O系统是采用通道方式还是I/O处理机方式;不透明 n数据总线宽度;透明(组成) n阵列运算部件;透明(组成) n通道是采用结合型

40、的还是独立型的;透明(组成) nPDP-11系列中的单总线结构;不透明(系统结构) n访问方式保护;不透明(系统结构) n程序性中断;不透明(系统结构) n串行、重叠还是流水控制方式;透明(组成) n堆栈指令;存贮最小编址单位;不透明(系统结构) nCache存贮器。透明(组成) 习题1.8 n从机器(汇编)语言程序员看,以下哪些是透明的? n指令地址寄存器;指令缓冲器;时标发生器;条件码寄存器; 乘法器;主存地址寄存器;磁盘外设;先行进位链;移位器; 通用寄存器;中断字寄存器。 习题1.12 n 如果某一计算任务用向量方式求解比用标量方式求解要快到 20倍,称可用向量方式求解部分所花费时间占

41、总的时间的百 分比为可向量化百分比。请画出加速比与可向量化比例两者 关系的曲线。 n解:可向量化百分比为Fe, Se=20,根据Amdahl定律 e e .F9501 1 20 F F1 1 S e n 习题1.13 n在题1.12中,为达到加速比2, 可向量化的百分比应为多少? 2 F9501 1 S n e . 则可向量化的百分比Fe=0.526 习题1.14 n在题1.12中,为获得采用向量方式最大加速比的半值(即10)时, 所需可向量化的百分比为多少。 则可向量化的百分比Fe=0.947 10 F9501 1 S n e . 习题1.15 n在题1.12中,如果某程序可向量化部分为70

42、%,硬件设计组 认为可以通过加大工程投资,使向量处理速度加倍来进一步 增加性能;而编译程序编写组认为只需设法增加向量工作方 式的百分比就同样可使性能得到相同的提高,问:此时需使 可向量化成分再增加多少百分比就可实现。你认为上述硬、 软件两种方法中,哪一种方法更好? 习题1.17 n假设高速缓存Cache 工作速度为主存的5倍,且Cache被访问 命中的概率为90%,则采用Cache后,能使整个存储系统获得 多高的加速比? n解: 57. 3 5/9 . 09 . 01 1 Sn 57. 3 11 . 0 5 1 9 . 0 1 T T S n 0 n 习题1.18 n设计指令存储器有两种不同方

43、案:一是采用价格较贵的高速 存储器芯片,另一是采用价格便宜的低速存储芯片。采用后 一方案时,用同样的经费可使存储器总线带宽加倍,从而每 隔2个时钟周期就可取出2条指令(每条指令为单字长32位); 而采用前一方案时,每个时钟周期存储器总线仅取出1条单字 长指令。由于访存空间局部性原理,当取出2个指令字时,通 常这2个指令字都要使用,但仍有25%的时钟周期中,取出的 2个指令字中仅有1个指令字是有用的。试问采用这两种实现 方案所构成的存储器带宽为多少? n解: n方案一: n采用高速缓冲存储器,使每个时钟周期存储器总线取出1 条指令,则 n存储器带宽=1字/时钟周期=32位/时钟周期 n方案二:

44、n使存储器总线带宽加倍,从而每隔2个时钟周期就可取出 2条指令(每条指令为单字长32位),但仍有25%的时钟周 期中,取出的2个指令字中仅有1个指令字是有用的,则 时钟周期字实际带宽/875. 0 2 275. 01%25 习题1.19 n用一台40MHz处理机执行标准测试程序,它含的混合指令数 和相应所需的时钟周期数如下: n指令类型 指令数 时钟周期数 n整数运算 45000 1 n数据传送 32000 2 n浮点 15000 2 n控制传送 8000 2 n求有效CPI、MIPS速率和程序的执行时间。 s875. 3 108 .25 100000 10MIPS IC T s875. 3

45、1040 10000055. 1 ICCPIT 8 .25 1055. 1 1040 10CPI f MIPS 55. 1 100000 28000215000232000145000 IC/CPIiIiCPI 1000008000150003200045000IiIC1040f 66 6 6 6 6 4 1i 4 1i 6 有效 习题1.20 n某工作站采用时钟频率为15MHz、处理速率为10MIPS的处理 机来执行一个已知混合程序。假定每次存储器存取为1周期延 迟、试问: n (a) 此计算机的有效CPI是多少? n (b) 假定将处理机的时钟提高到30MHz,但存储器子系统速 率不变。这

46、样,每次存储器存取需要两个时钟周期。如果 30%指令每条只需要一次存储存取,而另外5%每条需要两次 存储存取,还假定已知混合程序的指令数不变,并与原工作 站兼容,试求改进后的处理机性能。 n解:f=30MHz , MIPS=10, 每次存取时间为2个时钟周期 58. 1 159 . 1 305 . 1 8 .15 109 . 1 1030 10 9 . 124%512%30 2,30)2( 5 . 1 1010 1015 10 ) 1 ( 6 6 6 6 6 6 新新 原原 新 原 原新 )()( 个时钟周期。但每次存取为存储系统的速率不变, 有效 CPII CPII T T Sn CPI f MIPS CPICPI MHzf MIPS f CPI C C 习题1.21 n假设在一台40MHz处理机上运行200 000条指令的目标代码, 程序主要由四种指令组成。根据程序跟踪实验结果,已知指 令混合比和每种指令所需的指令数如下: n指令类型 CPI 指令混合比 n算术和逻辑 1 60% n高速缓存命中的加载/存储 2 18% n转移 4 12% n高速缓存缺失的存储器访问 8 10% n(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论