版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高等计算机系统结构
复习
(第二讲)
福旭
2005年2月28日
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
计算机工程化方法论
Implementation
Complexity/
Benchmarks
Technology、
Trends
pinentNe
g而」\k
GenerLiJonS'/J
0河山沟维
Work
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
测量工具
•基准程序(Benchmarks)、踪迹(Traces)、频度
(Mixes)
•成本(Cost)、延迟(delay)、大小(area)、功率(power)
•模拟(Simulation)(多个级别)
•ISA,RT,Gate,Circuit
・排队论(QueuingTheory)
•经验知识(RulesofThumb)
•基本原贝^FundamentalLaws)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
性能■成本
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
性能和成本
吞吐率
飞机华盛顿-巴黎速度乘客数量
(pmph)
Boeing7476.5小时610mph470286,700
BAD/Sud
3小时1350mph132178,200
Concorde
•完成任务的时间(执行时间)
•执行时间(executiontime),响应时间(responsetime),延迟
(latency)
•单位时间(每天、小时、星期、秒、纳秒…等等)内完成的任务数
量(性能)
•吞吐率(throughput),带宽(bandwidth)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
性能和成本(续)
Performace(X)=
ExTime(X)
“X比Y快n倍”(“XisntimesfasterthanY")
是指
ExTime(Y)Performance(X)
ExTime(X)Performance(Y)
•速度:Concorde与Boeing747
•吞吐率:Boeing747与Concorde
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
Amdahl定律
通过增加E,获得的加速比(Speedup):
加谏孤*=没有E时的执行时间二增加E后的性能
(厂增加E后的执行时间一没有E时的性能
假设,增加E可以加速整个任务的F部分,加速因子为S;并且这个
任务的其他部分不受影响.
那么
执行时间(增加E)=(J-F)+-乂执行时间口殳有E)
\S)
力口速比I曾加E):7执彳("有E)
。-方)+,x执行时间版有E)
<S)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
Amdahl定律(续)
口浮点指令的性能改进了两倍;但是只有10%的实
际指令是浮点指令
ExTimenew=ExTime01dx(0.9+.1/2)=0.95xExTime0,d
SpeedUPoverall="—1.053
0.95
大规律事件原则
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
性能的计量
/每月的响应
应用程序/每秒的操作
\编程语言/
\编译
(millions)ofInstructionspersecond-MIPS
1ISA1(millions)of(F.P.)operationspersecond-MFLOP/s
据通路\
/控制、-Megabytespersecond
/功能部件
/晶体管导线管月川Cyclespersecond(clockrate)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
影响CPU性能的几4、方面
秒数―Z号令数j时钟数秒娄
CPU时间=:—x
一程序一程序八指令周其夕
指令总数CPI时钟频率
程序X
编译器XX
指令系统体系结构XX
组成XX
X
工艺技术
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
CPI
CPU时间X时钟频率每条指令的平均周期数
CPI
指令总数(Averagecyclesperinstruction)
时钟周期数
指令总数
CPU时间=时钟周期时间X2,X(—ionfrequency")
CPI=YCPIixFi这里F二___L—
仁JJj指令总数
哪里是瓶颈(时间不够用),就对那里的资源
增加投资!
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
示例:计算CPI
BaseMachine(Reg/Reg)
OpFreqCPLCPI"(%Time)
ALU50%1.5(33%)
Load20%2,4(27%)
Store10%2.2(13%)
Branch20%2,4(27%)
/
/1.5
TypicalMix
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
选择基准程序集(BenchmarkSets)
Toybenchmarks
Kernels
Syntheticbenchmarks
•e.g.WhetstonesandDhrystones
Realprograms
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
SPEC:
SystemPerformanceEvaluationCooperative
第一版1989
10个程序(6Fp+4Int)产生单一数值(SPECmarks)
第二版1992
SPECInt92(6Int)和SPECfp92(14Fp)
不限制编译器的开关.DEC4000Model610在93年3月:
spice:unix.c:/def=(sysv,has_bcopy,掘copy(a,b,c)=memcpy(b,a,c)
wave5:/ali=(all,dcom=nat)/ag=a/ur=4/ur=200
nasa7:/norecu/ag=a/ur=4/ur2=200/lc=blas
第三版1995
一组新的程序:SPECint95(8Int)和SPECfp95(lOFp)
捷有效期三年?
对所有程序使用同一开关设置:SPECint_base95,SPECfp_base95
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
第一版SPEC
□1989年,第一版;10个程序,用单一数值来总结性能
(6Fp+4lnt),相对于VAX11/780
□其中有一个程序:99%的时间耗费在该程序的单一一行代码上
□新型前端编译器可以非常显著地改进它的性能
8oo
7oo
6oo
5oo
00
3
00
00
00
T
-s+-
nld
pd>
ooOd
pwOdto5
bjE
①CXO2
,BS
E
Benchmark
北京大学计I_____________________________「.,_____________________________________________[开发中心
SPEC95
BenchmarkDescription
goArtificialintelligence;playsthegameofGo
m88ksimMotorola88kchipsimulator;runstestprogram
gccTheGnuCcompilergeneratingSPARCcode
compressCompressesanddecompressesfileinmemory
liLispinterpreter
ijpegGraphiccompressionanddecompression
perlManipulatesstringsandprimenumbersinthespecial-purposeprogramminglanguagePerl
vortexAdatabaseprogram
tomcatvAmeshgenerationprogram
swimShallowwatermodelwith513x513grid
su2corquantumphysics;MonteCarlosimulation
hydro2dAstrophysics;HydrodynamicNaiverStokesequations
mgridMultigridsolverin3-Dpotentialfield
appluParabolic/ellipticpartialdifferentialequations
trub3dSimulatesisotropic,homogeneousturbulenceinacube
apsiSolvesproblemsregardingtemperature,windvelocity,anddistributionofpollutant
fppppQuantumchemistry
wave5Plasmaphysics;electromagneticparticlesimulation
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
.
Ip
gzrpe
SourceDescriptionSPEC2KcpU
VpcTcy
gcdcCompressionusingtheLempel-Zivalgorithm
cocFPGAcircuitplacementandrouting
cfConsistsoftheGNUCcompilergeneratingoptimizedmachine
e
ITlc
cafcCombinatorialoptimizationofpublictransitscheduling
rcc
piarnsChess-playingprogram
eoNtyc
cSyntacticEngishlanguageparser
pe.Graphicsvisualizationusingprobabilisticraytracinc
nsemc++
spcPerl(aninterpretedstring-processinglanguage)withfourinput
g-a
cpt
vo.Agrouptheoryapplicationpackage
bIzpexAnobject-orienteddatabasesystem
wN
ol)2fAblock-sortingcompressionalgorithm
Timberwolf:asimulatedannealingalgorithmforVLSIplaceand
rcDulte
FpF77
,FpF77Latticegaugetheorymodelofquantumchromodynamics
sIn
zdFpF77Solvesshallowwaterequationsusingfinitedifferenceequations
Fp7Multigridsolveroverthree-dimensionalfield
rrayF7C
aFpParabolicandellipticpartialdifferentialequationsolver
FThree-dimensionalgraphicslibrary
Tlesepo
rrgFpF9CComputationalfluiddynamics
algF
a计pcImagerecognitionofathermalimageusingneuralnetworks
FpSimulationofseismicwavepropagation
Fc
pcFacerecognitionusingwaveletsandgraphmatching
FMoleculardynamicssimulationofaproteininwater
arFPo
坦
系
学
计算FoPerformsprimalitytestingfor.Mersenneprimes”一»
-c舸拓苣告恪布宿&已由祜屣,cFfeff^Hulaitiori理器研无开发中心
「
-一-■■■■■>a■■■.■
EEMBC
BenchmarktypeNumberofExamplebenchmarks
kernels
Automotive/industria166microbenchmarks(arithmeticoperations,
1pointerchasing,memoryperformance,matrix
arithmetic,tablelookup,bitmanipulation),5
automobilecontrolbenchmarks,and5filteror
Consumer5E帮保Sfl的旧电监chmarks(JPEG
compress/decompress,filtering,andRGB
Conversions)
Networking3Shortest-pathcalculation,IProuting,and
packetflowoperations
Officeautomation4Graphicsandtextbenchmarks(Beziercurve
calculation,dithering,imagerotation,text
processing)
Telecommunications6FilteringandDSPbenchmarks(autocorrelation,
FFT,decoder,encoder)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
如何总结性能
口算术平均值(或者加权算术平均值)追踪执行时间:
SUM(Ti)/n或者SUM(Wi*Ti)
□比率(例如MFLOPS)的调和平均值(或者加权调和平均值)
追踪执行时间:
n/SUM(l/Ri)或者n/SUM(Wi/Ri)
□为了按比例伸缩性能,规格化执行时间是非常便捷的!
例如,参照机器的时间4-被评测机器的时间
□注意,不可使用规格化的执行时间的算术平均值,而应该使用几
彳可平均值!
□几何平均值平等对待所有的改进情况:
A程序的执行从2秒减少到1秒
与B程序的执行从2000秒减少到1000秒
同等重要!
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
为什么对规格化数值要进行几何平均?
1
Program11101100.11
Program2100010010.1101
Arithmeticmean500.55515.055.051
Geometricmean31.631.61111
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
性能评测
□orbetterorworse,benchmarksshapeafield
□Goodproductscreatedwhenhave:
❖Goodbenchmarks
❖Goodwaystosummarizeperformance
□Givensalesisafunctioninpartofperformance
relativetocompetition,investmentinimprovingproduct
asreportedbyperformancesummary
□Ifbenchmarks/summaryinadequate,thenchoosebetween
improvingproductforrealprogramsvs.improving
producttogetmoresales;
Salesalmostalwayswins!
□Executiontimeisthemeasureofcomputerperformance!
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
低成制作流程
Blankwafers
Slicer
20to30processingsteps
TestedIndividualdies
Patternedwafers
dies(onewafer)
Dieaa
QIoi.■IL■■■■
・・,国国WDicer
■0”atester■广■■J
吧萨3fl
Testedpackageddies
Part零
Shiptocustomers
tester
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
集成电路的成本
Wafer_cost
Diecost=
Dies_per_waferxDie_yield
7rx(Wafer_diameter/2)27ixWafer_diameter
Dies_per_wafer=
DieareaJ2xDie_area
—ct
n..八…..八lDefectsperunitareaxDiearea、
Die_yield=Wafer_yieldx1+—4===
aJ
若a=3,晶模成本大致以晶模大小的四次方增长
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
其他成本
Diecost+Testingcost+Packagingcost
ICcost二
Finaltestyield
封装成本:取决于管脚数量和散热要求
ChipDiePackageTest&Total
costpinstypecostAssembly
386DX$4132QFP$1$4$9
486DX2$12168PGA$11$12$35
PowerPC601$53304QFP$3$21$77
HPPA7100$73504PGA$35$16$124
DECAlpha$149431PGA$30$23$202
SuperSPARC$272293PGA$20$34$326
Pentium$417273PGA$19$37$473
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
真实示例
ChipMetalLineWaferDefectAreaDies/YieldDieCost
1ayerswidthcost/cn?m席wafer
386DX20.90$9001.04336071%$4
486DX230.80$12001.08118154%$12
PowerPC60140.80$17001.312111528%$53
HPPA710030.80$13001.01966627%$73
DECAlpha30.70$15001.22345319%$149
SuperSPARC30.70$17001.62564813%$272
Pentium30.80$15001.5296409%$417
From''EstimatingICManufacturingCosts",byLinleyGwennap,
MicroprocessorReport,August2,1993,p.15
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
性能成本比Cost/Performance
WhatisRelationshipofCosttoPrice?
□ComponentCosts
口DirectCosts(add25%to40%)recurringcosts:labor,
purchasing,scrap,warranty
口GrOSSMargin(add82%to186%)nonrecurringcosts:
R&D,marketing,sales,equipmentmaintenance,rental,financing
cost,pretaxprofits,taxes
□AverageDiscounttogetListPrice(add33%to66%):
volumediscountsand/orretailermarkup
ListPrice—►
Average
Discount25%to40%
Avg.SellingPrice-►Gross
Margin34%to39%
DirectCost6%to8%
Component
Cost15%to33%
北京大学计算机科学技术系chengxu@**»、w*•・bn北京大享微处理器研究开发中心
小结:价格与成本
计算机科学技术系chengxu@北京大学微处理器研究开发中心
有穷状态自动机
°显式描述出系统的状态
。状态间的迁移用”有向边+输入”描述
输出可以表示为状态的一部分也可以表现为输出边的
一部分1
"Mod3Machine"
Input(MSBfirst)]
1061101010
恸1001221
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
有穿状态自幼机的实现:组合避辑+锁存器
1/0
▽
7Q
6
InputSta十6。修Out|
I:________n[1
000000
001102
010011
100011
101000
110102
北京大学计算机科学技术系北京大学微处锂器研究开发中心
微程序控制器“
°Statemachineinwhichpartofstateisarmicro-pc”.
,ExplicitcircuitryforincrementingorchangingPC
°IncludesaROMwith"microinstructions”.
,Controlledlogicimplementsatleastbranchesandjumps
22
6
(
I0
n.IE
sP
TR
r--JD
uODW
AcMU
T0
d~
a.on-P
s43
e).-
sDO
UJ
~4
q.
uU
!O
20U
北京大学计算机科学m北京大学微处理器研究开发中心
微处理器的功耗
100
PentiumII(R)
PentiumPro
486
lQ
-u
:
(oD
-
386n
o
386s
15uu8u6u35N25uo8uou
..o..o..o.o....
飞Leadprocessorpowerincreaseseverygeneration
XCompactionsprovidehigherperformanceatlowerpower
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
微处理器的功率利用率与适应性
(1000
A
lDedicated
u
vHW
s
c
n100
wReconfigurablePleiades
x
o10-80MOPS/mW
)Processor/Logic
M10
W^B2VDSPJ3MOPS/mW
SASIPs
dDSPs
O1
W
SA110
EmbeddedProcessors0.4MIPS/mW
0.1>
Flexibility(Coverage)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
复习
指令系统、流水线、Cache
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
计算机体系结构定义是
theattributesofa[computing]systemasseen
bytheprogrammer,i.e.,theconceptual
structureandfunctionalbehavior,asdistinct
fromtheorganizationofthedataflowsand
controlsthelogicdesign,andthephysical
implementation.
Amdahl,Blaaw,andBrooks,1964
可编程存贮系统的组成
数据耀&簪结构:
指令格式
指令(或操作码)集合
-对数据项和指令进行寻址和访问的模式
—夕卜'情
北京大学乔建机科学技术系chengxu@北京大学微处理器研究开发中心
计算机体系结构定义的演变
□1950s-1960s:计算机体系结构课程
♦:♦计算机算术运算ComputerArithmetic
□1970s-1980s中:计算机体系结构课程
。指令系统设计,特别是适合编译器的ISA
□1990s:计算机体系结构课程
CPU设计、存储系统、I/Osystem系统、多处理器
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
指令系统体系结构
InstructionSetArchitecture(ISA)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
InterfaceDesign
Agoodinterface:
•Laststhroughmanyimplementations(portability,
compatability)
•Isusedinmanydifferenyways(generality)
•Providesconvenientfunctionalitytohigherlevels
•Permitsanefficientimplementationatlowerlevels
time
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
指令系统的演变
SingleAccumulator(EDSAC1950)
Accumulator+IndexRegisters
(ManchesterMarkI,IBM700series1953)
SeparationofProgrammingModel
fromImplementation
High-levelLanguageBasedConceptofaFamily
(B50001963)^^/(IBM3601964)
GeneralPurposeRegisterMachines
ComplexInstructionSetsLoad/StoreArchitecture
(Vax,Intel4321977-80)(CDC6600,Cray11963-76)
RISC
(Mips,Sparc,HPfAJBMRS6000,...1987)
LIW/"EPIC”?(IA-64...2001?)
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
指令系统的演变(续)
□大多数计算机体系结构的进步通常都与具有标志性的指令系
统设计联系在一起:
♦:♦例如:堆栈(B5500)与GPR(IBM360)
□必须考虑的设计抉择:
♦:♦工艺技术
♦:♦机器组成
。编程语言
♦:♦编译技术
。操作系统
...
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
典型RISC
口32位固定格式指令(3种格式)
口32个32位GPR(R0恒为0,双精成对使用)
□3地址、reg-reg算术指令
□load/store使用单一寻址方式:
base+displacement
。无间接寻址
□简单的转移条件(基于寄存器数值)
□延迟转移
参见:SPARC,MIPS,HPPA-Risc,DECAlpha,IBMPowerPC,
CDC6600,CDC7600,Cray-1,Cray-2,Cray-3
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
例如:MIPS
Register-Register
312625212016151110650
OpRs1Rs2RdOpx
Register-Immediate
312625212016150
OpRs1Rdimmediate
Branch
312625212016150
OpRs1Fs2/Opximmediate
Jump/Call
3126250
Optarget
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
流水技术的思想非常自然!
洗衣房
张三、李四、王五、赵六每人有一包衣服需要
洗涤、烘干、熨整
S1O1
洗衣机需要30分钟
烘干机需要30分钟
熨斗需要30分钟
O
洗衣工需要30分钟将衣物放到抽屉里
[北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
串行洗衣店
6PM78910111212AM
30'30130'30130'30'30130130130'30130'30130'30130
任工作时间
务酶。A
次
序
□串行洗衣店需要8个小时完成4个工作量
口如果他们了解流水技术,那么需要多长时间完成上述工
作呢?
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
流水化的洗衣店:尽可能早地开始工作
61PM78910111212AM
一(=1=^1=/—/—/
30303030303030
任工作时间
务
次
序府A
A
口流水化洗衣店需要3.5个小时完成4个工作量
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
♦流水技术无助于减少单个任务的
流水技术性质处理延迟(latency),但有助于提
、高整体工作负载的吞吐率
6PM78
彖个不同任务同时操作,使用不同
任
-1=1=1=1I时导资源
务30303030303030
顺询。泳♦潜在加速比二流水线级数
序,
酶给A.流水线的速率受限于最慢的流水段
酶。A.流水段的执#时间如果不均衡,那
0^0A么加速比就会降低
♦开始填充流水线的时间和最后排
放流水线的时间降低加速比
♦相关将导致流水线暂停
北京大学计算机科学技术系chengxu@北京大学微处理器研究开发中心
计算机中的流水线
□由于程序总是执行成千上万条指令,因而吞吐率是关
键
□DLX有利特征:所有指令长度相同,寄存器位于指
令格式大的固定场位,只肴l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年不动产购置协议模板
- 2024年期塘口使用权租赁协议模板
- 2024项目协作中介服务协议
- 2024年车辆租赁托管协议
- 2024年劳动局劳动协议官方式
- 2024年度供货合作协议示例
- DB11∕T 1722-2020 水生态健康评价技术规范
- 2024年个人房产买卖协议样本
- 2024年汽车物流运输协议模板
- 第8课 三国至隋唐的文化(课件)-2024-2025学年统编版高一历史上册
- 2024至2030年高分子吸水树脂项目投资价值分析报告
- 期中测试卷(1-5单元)(试题)-2024-2025学年三年级上册数学人教版
- DB11T 731-2010 室外照明干扰光限制规范
- 学校食堂消毒记录
- 塔吊使用安全协议书
- 中国近代史纲要试题及答案(全套)
- 地 理气温的变化和分布课时1课件-2024-2025学年七年级地理上册(人教版2024)
- Unit4+My+space++Reading++The+1940s+House+课件高中英语沪教版(2020)必修第一册
- 4.1 中国特色社会主义进入新时代 课件高中政治统编版必修一中国特色社会主义-1
- 期中测试卷(1-3单元)(试题)-2024-2025学年苏教版数学六年级上册
- 部编版二年级上册-课文一-快乐读书吧:读读童话故事-孤独的小螃蟹(课件)(共26张课件)
评论
0/150
提交评论