高等计算机系统结构_第1页
高等计算机系统结构_第2页
高等计算机系统结构_第3页
高等计算机系统结构_第4页
高等计算机系统结构_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高等计算机系统结构

复习

(第二讲)

福旭

2005年2月28日

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

计算机工程化方法论

Implementation

Complexity/

Benchmarks

Technology、

Trends

pinentNe

g而」\k

GenerLiJonS'/J

0河山沟维

Work

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

测量工具

•基准程序(Benchmarks)、踪迹(Traces)、频度

(Mixes)

•成本(Cost)、延迟(delay)、大小(area)、功率(power)

•模拟(Simulation)(多个级别)

•ISA,RT,Gate,Circuit

・排队论(QueuingTheory)

•经验知识(RulesofThumb)

•基本原贝^FundamentalLaws)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

性能■成本

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

性能和成本

吞吐率

飞机华盛顿-巴黎速度乘客数量

(pmph)

Boeing7476.5小时610mph470286,700

BAD/Sud

3小时1350mph132178,200

Concorde

•完成任务的时间(执行时间)

•执行时间(executiontime),响应时间(responsetime),延迟

(latency)

•单位时间(每天、小时、星期、秒、纳秒…等等)内完成的任务数

量(性能)

•吞吐率(throughput),带宽(bandwidth)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

性能和成本(续)

Performace(X)=

ExTime(X)

“X比Y快n倍”(“XisntimesfasterthanY")

是指

ExTime(Y)Performance(X)

ExTime(X)Performance(Y)

•速度:Concorde与Boeing747

•吞吐率:Boeing747与Concorde

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

Amdahl定律

通过增加E,获得的加速比(Speedup):

加谏孤*=没有E时的执行时间二增加E后的性能

(厂增加E后的执行时间一没有E时的性能

假设,增加E可以加速整个任务的F部分,加速因子为S;并且这个

任务的其他部分不受影响.

那么

执行时间(增加E)=(J-F)+-乂执行时间口殳有E)

\S)

力口速比I曾加E):7执彳("有E)

。-方)+,x执行时间版有E)

<S)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

Amdahl定律(续)

口浮点指令的性能改进了两倍;但是只有10%的实

际指令是浮点指令

ExTimenew=ExTime01dx(0.9+.1/2)=0.95xExTime0,d

SpeedUPoverall="—1.053

0.95

大规律事件原则

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

性能的计量

/每月的响应

应用程序/每秒的操作

\编程语言/

\编译

(millions)ofInstructionspersecond-MIPS

1ISA1(millions)of(F.P.)operationspersecond-MFLOP/s

据通路\

/控制、-Megabytespersecond

/功能部件

/晶体管导线管月川Cyclespersecond(clockrate)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

影响CPU性能的几4、方面

秒数―Z号令数j时钟数秒娄

CPU时间=:—x

一程序一程序八指令周其夕

指令总数CPI时钟频率

程序X

编译器XX

指令系统体系结构XX

组成XX

X

工艺技术

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

CPI

CPU时间X时钟频率每条指令的平均周期数

CPI

指令总数(Averagecyclesperinstruction)

时钟周期数

指令总数

CPU时间=时钟周期时间X2,X(—ionfrequency")

CPI=YCPIixFi这里F二___L—

仁JJj指令总数

哪里是瓶颈(时间不够用),就对那里的资源

增加投资!

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

示例:计算CPI

BaseMachine(Reg/Reg)

OpFreqCPLCPI"(%Time)

ALU50%1.5(33%)

Load20%2,4(27%)

Store10%2.2(13%)

Branch20%2,4(27%)

/

/1.5

TypicalMix

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

选择基准程序集(BenchmarkSets)

Toybenchmarks

Kernels

Syntheticbenchmarks

•e.g.WhetstonesandDhrystones

Realprograms

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

SPEC:

SystemPerformanceEvaluationCooperative

第一版1989

10个程序(6Fp+4Int)产生单一数值(SPECmarks)

第二版1992

SPECInt92(6Int)和SPECfp92(14Fp)

不限制编译器的开关.DEC4000Model610在93年3月:

spice:unix.c:/def=(sysv,has_bcopy,掘copy(a,b,c)=memcpy(b,a,c)

wave5:/ali=(all,dcom=nat)/ag=a/ur=4/ur=200

nasa7:/norecu/ag=a/ur=4/ur2=200/lc=blas

第三版1995

一组新的程序:SPECint95(8Int)和SPECfp95(lOFp)

捷有效期三年?

对所有程序使用同一开关设置:SPECint_base95,SPECfp_base95

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

第一版SPEC

□1989年,第一版;10个程序,用单一数值来总结性能

(6Fp+4lnt),相对于VAX11/780

□其中有一个程序:99%的时间耗费在该程序的单一一行代码上

□新型前端编译器可以非常显著地改进它的性能

8oo

7oo

6oo

5oo

00

3

00

00

00

T

-s+-

nld

pd>

ooOd

pwOdto5

bjE

①CXO2

,BS

E

Benchmark

北京大学计I_____________________________「.,_____________________________________________[开发中心

SPEC95

BenchmarkDescription

goArtificialintelligence;playsthegameofGo

m88ksimMotorola88kchipsimulator;runstestprogram

gccTheGnuCcompilergeneratingSPARCcode

compressCompressesanddecompressesfileinmemory

liLispinterpreter

ijpegGraphiccompressionanddecompression

perlManipulatesstringsandprimenumbersinthespecial-purposeprogramminglanguagePerl

vortexAdatabaseprogram

tomcatvAmeshgenerationprogram

swimShallowwatermodelwith513x513grid

su2corquantumphysics;MonteCarlosimulation

hydro2dAstrophysics;HydrodynamicNaiverStokesequations

mgridMultigridsolverin3-Dpotentialfield

appluParabolic/ellipticpartialdifferentialequations

trub3dSimulatesisotropic,homogeneousturbulenceinacube

apsiSolvesproblemsregardingtemperature,windvelocity,anddistributionofpollutant

fppppQuantumchemistry

wave5Plasmaphysics;electromagneticparticlesimulation

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

.

Ip

gzrpe

SourceDescriptionSPEC2KcpU

VpcTcy

gcdcCompressionusingtheLempel-Zivalgorithm

cocFPGAcircuitplacementandrouting

cfConsistsoftheGNUCcompilergeneratingoptimizedmachine

e

ITlc

cafcCombinatorialoptimizationofpublictransitscheduling

rcc

piarnsChess-playingprogram

eoNtyc

cSyntacticEngishlanguageparser

pe.Graphicsvisualizationusingprobabilisticraytracinc

nsemc++

spcPerl(aninterpretedstring-processinglanguage)withfourinput

g-a

cpt

vo.Agrouptheoryapplicationpackage

bIzpexAnobject-orienteddatabasesystem

wN

ol)2fAblock-sortingcompressionalgorithm

Timberwolf:asimulatedannealingalgorithmforVLSIplaceand

rcDulte

FpF77

,FpF77Latticegaugetheorymodelofquantumchromodynamics

sIn

zdFpF77Solvesshallowwaterequationsusingfinitedifferenceequations

Fp7Multigridsolveroverthree-dimensionalfield

rrayF7C

aFpParabolicandellipticpartialdifferentialequationsolver

FThree-dimensionalgraphicslibrary

Tlesepo

rrgFpF9CComputationalfluiddynamics

algF

a计pcImagerecognitionofathermalimageusingneuralnetworks

FpSimulationofseismicwavepropagation

Fc

pcFacerecognitionusingwaveletsandgraphmatching

FMoleculardynamicssimulationofaproteininwater

arFPo

计算FoPerformsprimalitytestingfor.Mersenneprimes”一»

-c舸拓苣告恪布宿&已由祜屣,cFfeff^Hulaitiori理器研无开发中心

-一-■■■■■>a■■■.■

EEMBC

BenchmarktypeNumberofExamplebenchmarks

kernels

Automotive/industria166microbenchmarks(arithmeticoperations,

1pointerchasing,memoryperformance,matrix

arithmetic,tablelookup,bitmanipulation),5

automobilecontrolbenchmarks,and5filteror

Consumer5E帮保Sfl的旧电监chmarks(JPEG

compress/decompress,filtering,andRGB

Conversions)

Networking3Shortest-pathcalculation,IProuting,and

packetflowoperations

Officeautomation4Graphicsandtextbenchmarks(Beziercurve

calculation,dithering,imagerotation,text

processing)

Telecommunications6FilteringandDSPbenchmarks(autocorrelation,

FFT,decoder,encoder)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

如何总结性能

口算术平均值(或者加权算术平均值)追踪执行时间:

SUM(Ti)/n或者SUM(Wi*Ti)

□比率(例如MFLOPS)的调和平均值(或者加权调和平均值)

追踪执行时间:

n/SUM(l/Ri)或者n/SUM(Wi/Ri)

□为了按比例伸缩性能,规格化执行时间是非常便捷的!

例如,参照机器的时间4-被评测机器的时间

□注意,不可使用规格化的执行时间的算术平均值,而应该使用几

彳可平均值!

□几何平均值平等对待所有的改进情况:

A程序的执行从2秒减少到1秒

与B程序的执行从2000秒减少到1000秒

同等重要!

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

为什么对规格化数值要进行几何平均?

1

Program11101100.11

Program2100010010.1101

Arithmeticmean500.55515.055.051

Geometricmean31.631.61111

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

性能评测

□orbetterorworse,benchmarksshapeafield

□Goodproductscreatedwhenhave:

❖Goodbenchmarks

❖Goodwaystosummarizeperformance

□Givensalesisafunctioninpartofperformance

relativetocompetition,investmentinimprovingproduct

asreportedbyperformancesummary

□Ifbenchmarks/summaryinadequate,thenchoosebetween

improvingproductforrealprogramsvs.improving

producttogetmoresales;

Salesalmostalwayswins!

□Executiontimeisthemeasureofcomputerperformance!

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

低成制作流程

Blankwafers

Slicer

20to30processingsteps

TestedIndividualdies

Patternedwafers

dies(onewafer)

Dieaa

QIoi.■IL■■■■

・・,国国WDicer

■0”atester■广■■J

吧萨3fl

Testedpackageddies

Part零

Shiptocustomers

tester

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

集成电路的成本

Wafer_cost

Diecost=

Dies_per_waferxDie_yield

7rx(Wafer_diameter/2)27ixWafer_diameter

Dies_per_wafer=

DieareaJ2xDie_area

—ct

n..八…..八lDefectsperunitareaxDiearea、

Die_yield=Wafer_yieldx1+—4===

aJ

若a=3,晶模成本大致以晶模大小的四次方增长

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

其他成本

Diecost+Testingcost+Packagingcost

ICcost二

Finaltestyield

封装成本:取决于管脚数量和散热要求

ChipDiePackageTest&Total

costpinstypecostAssembly

386DX$4132QFP$1$4$9

486DX2$12168PGA$11$12$35

PowerPC601$53304QFP$3$21$77

HPPA7100$73504PGA$35$16$124

DECAlpha$149431PGA$30$23$202

SuperSPARC$272293PGA$20$34$326

Pentium$417273PGA$19$37$473

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

真实示例

ChipMetalLineWaferDefectAreaDies/YieldDieCost

1ayerswidthcost/cn?m席wafer

386DX20.90$9001.04336071%$4

486DX230.80$12001.08118154%$12

PowerPC60140.80$17001.312111528%$53

HPPA710030.80$13001.01966627%$73

DECAlpha30.70$15001.22345319%$149

SuperSPARC30.70$17001.62564813%$272

Pentium30.80$15001.5296409%$417

From''EstimatingICManufacturingCosts",byLinleyGwennap,

MicroprocessorReport,August2,1993,p.15

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

性能成本比Cost/Performance

WhatisRelationshipofCosttoPrice?

□ComponentCosts

口DirectCosts(add25%to40%)recurringcosts:labor,

purchasing,scrap,warranty

口GrOSSMargin(add82%to186%)nonrecurringcosts:

R&D,marketing,sales,equipmentmaintenance,rental,financing

cost,pretaxprofits,taxes

□AverageDiscounttogetListPrice(add33%to66%):

volumediscountsand/orretailermarkup

ListPrice—►

Average

Discount25%to40%

Avg.SellingPrice-►Gross

Margin34%to39%

DirectCost6%to8%

Component

Cost15%to33%

北京大学计算机科学技术系chengxu@**»、w*•・bn北京大享微处理器研究开发中心

小结:价格与成本

计算机科学技术系chengxu@北京大学微处理器研究开发中心

有穷状态自动机

°显式描述出系统的状态

。状态间的迁移用”有向边+输入”描述

输出可以表示为状态的一部分也可以表现为输出边的

一部分1

"Mod3Machine"

Input(MSBfirst)]

1061101010

恸1001221

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

有穿状态自幼机的实现:组合避辑+锁存器

1/0

7Q

6

InputSta十6。修Out|

I:________n[1

000000

001102

010011

100011

101000

110102

北京大学计算机科学技术系北京大学微处锂器研究开发中心

微程序控制器“

°Statemachineinwhichpartofstateisarmicro-pc”.

,ExplicitcircuitryforincrementingorchangingPC

°IncludesaROMwith"microinstructions”.

,Controlledlogicimplementsatleastbranchesandjumps

22

6

(

I0

n.IE

sP

TR

r--JD

uODW

AcMU

T0

d~

a.on-P

s43

e).-

sDO

UJ

~4

q.

uU

!O

20U

北京大学计算机科学m北京大学微处理器研究开发中心

微处理器的功耗

100

PentiumII(R)

PentiumPro

486

lQ

-u

:

(oD

-

386n

o

386s

15uu8u6u35N25uo8uou

..o..o..o.o....

飞Leadprocessorpowerincreaseseverygeneration

XCompactionsprovidehigherperformanceatlowerpower

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

微处理器的功率利用率与适应性

(1000

A

lDedicated

u

vHW

s

c

n100

wReconfigurablePleiades

x

o10-80MOPS/mW

)Processor/Logic

M10

W^B2VDSPJ3MOPS/mW

SASIPs

dDSPs

O1

W

SA110

EmbeddedProcessors0.4MIPS/mW

0.1>

Flexibility(Coverage)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

复习

指令系统、流水线、Cache

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

计算机体系结构定义是

theattributesofa[computing]systemasseen

bytheprogrammer,i.e.,theconceptual

structureandfunctionalbehavior,asdistinct

fromtheorganizationofthedataflowsand

controlsthelogicdesign,andthephysical

implementation.

Amdahl,Blaaw,andBrooks,1964

可编程存贮系统的组成

数据耀&簪结构:

指令格式

指令(或操作码)集合

-对数据项和指令进行寻址和访问的模式

—夕卜'情

北京大学乔建机科学技术系chengxu@北京大学微处理器研究开发中心

计算机体系结构定义的演变

□1950s-1960s:计算机体系结构课程

♦:♦计算机算术运算ComputerArithmetic

□1970s-1980s中:计算机体系结构课程

。指令系统设计,特别是适合编译器的ISA

□1990s:计算机体系结构课程

CPU设计、存储系统、I/Osystem系统、多处理器

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

指令系统体系结构

InstructionSetArchitecture(ISA)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

InterfaceDesign

Agoodinterface:

•Laststhroughmanyimplementations(portability,

compatability)

•Isusedinmanydifferenyways(generality)

•Providesconvenientfunctionalitytohigherlevels

•Permitsanefficientimplementationatlowerlevels

time

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

指令系统的演变

SingleAccumulator(EDSAC1950)

Accumulator+IndexRegisters

(ManchesterMarkI,IBM700series1953)

SeparationofProgrammingModel

fromImplementation

High-levelLanguageBasedConceptofaFamily

(B50001963)^^/(IBM3601964)

GeneralPurposeRegisterMachines

ComplexInstructionSetsLoad/StoreArchitecture

(Vax,Intel4321977-80)(CDC6600,Cray11963-76)

RISC

(Mips,Sparc,HPfAJBMRS6000,...1987)

LIW/"EPIC”?(IA-64...2001?)

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

指令系统的演变(续)

□大多数计算机体系结构的进步通常都与具有标志性的指令系

统设计联系在一起:

♦:♦例如:堆栈(B5500)与GPR(IBM360)

□必须考虑的设计抉择:

♦:♦工艺技术

♦:♦机器组成

。编程语言

♦:♦编译技术

。操作系统

...

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

典型RISC

口32位固定格式指令(3种格式)

口32个32位GPR(R0恒为0,双精成对使用)

□3地址、reg-reg算术指令

□load/store使用单一寻址方式:

base+displacement

。无间接寻址

□简单的转移条件(基于寄存器数值)

□延迟转移

参见:SPARC,MIPS,HPPA-Risc,DECAlpha,IBMPowerPC,

CDC6600,CDC7600,Cray-1,Cray-2,Cray-3

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

例如:MIPS

Register-Register

312625212016151110650

OpRs1Rs2RdOpx

Register-Immediate

312625212016150

OpRs1Rdimmediate

Branch

312625212016150

OpRs1Fs2/Opximmediate

Jump/Call

3126250

Optarget

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

流水技术的思想非常自然!

洗衣房

张三、李四、王五、赵六每人有一包衣服需要

洗涤、烘干、熨整

S1O1

洗衣机需要30分钟

烘干机需要30分钟

熨斗需要30分钟

O

洗衣工需要30分钟将衣物放到抽屉里

[北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

串行洗衣店

6PM78910111212AM

30'30130'30130'30'30130130130'30130'30130'30130

任工作时间

务酶。A

□串行洗衣店需要8个小时完成4个工作量

口如果他们了解流水技术,那么需要多长时间完成上述工

作呢?

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

流水化的洗衣店:尽可能早地开始工作

61PM78910111212AM

一(=1=^1=/—/—/

30303030303030

任工作时间

序府A

A

口流水化洗衣店需要3.5个小时完成4个工作量

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

♦流水技术无助于减少单个任务的

流水技术性质处理延迟(latency),但有助于提

、高整体工作负载的吞吐率

6PM78

彖个不同任务同时操作,使用不同

-1=1=1=1I时导资源

务30303030303030

顺询。泳♦潜在加速比二流水线级数

序,

酶给A.流水线的速率受限于最慢的流水段

酶。A.流水段的执#时间如果不均衡,那

0^0A么加速比就会降低

♦开始填充流水线的时间和最后排

放流水线的时间降低加速比

♦相关将导致流水线暂停

北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心

计算机中的流水线

□由于程序总是执行成千上万条指令,因而吞吐率是关

□DLX有利特征:所有指令长度相同,寄存器位于指

令格式大的固定场位,只肴l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论