高级计算机体系结构第4章1_第1页
高级计算机体系结构第4章1_第2页
高级计算机体系结构第4章1_第3页
高级计算机体系结构第4章1_第4页
高级计算机体系结构第4章1_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第四章性能评测2第一节性能评测概述一、并行计算机性能指标1、硬件性能参数--反映硬件系统基本性能名称符号含义量纲机器规模n处理器P的数量个时钟频率f时钟周期长度的倒数MHz峰值速度

Rpeak=nR’peak并行机峰值速度Mflop/s通信延迟t0传送0/1字节的时间us渐进带宽R∞长消息的通信速率MB/s

*硬件性能的辅助参数:

存储系统—主存/Cache容量、页/块大小、关联度等;通信系统—通信服务、IN及NIC性能参数3名称符号含义量纲工作负载W计算操作的数目MFlop顺序执行时间T1程序在单处理机上运行时间s并行执行时间Tn程序在并行机上运行时间s速度Rn=W/Tn程序在并行机上运行速度Mflop/s加速比Sn=T1/Tn并行机比单处理机速度的倍数无量纲效率En=Sn/n并行机硬件部件的利用率无量纲利用率U=Rn/Rpeak并行机峰值速度的利用率无量纲吞吐率TP=m/Tn(m)并行机单位时间内处理任务数个/s2、系统性能指标--反映软硬件系统性能和可扩放性

*程序参数:问题规模、工作负载、负载不平衡开销、工作集尺寸、通信-计算比、通信与同步开销、并行性开销等

*影响系统性能因素:硬件参数(结构与速度)、程序参数(应用与算法),及两者的相互作用回7页回13页回23页回24页回27页4二、为何要进行性能评测1、购买者进行性能评测的目的

主要是降低投资风险,提高投资效益

·有利于选择并行机型号(性/价、RARS、可扩展性)

·有利于配置系统相关参数(需求、性能、性/价)2、设计者进行性能评测的目的

主要是为优化设计提供量化依据

·有利于发现系统设计中存在的问题

·有利于合理地进行软/硬件功能分配,提高系统性/价

·有利于优化结构-算法-应用的组合,设计高效算法5三、如何进行性能评测

*系统性能指标:不同测试者所关心的性能指标种类不同

*性能评测层次:机器级、算法级、程序级1、机器级性能评测

*评测内容:

CPU及存储器基本性能(Tn、Rn等);

并行与通信开销(Tpar、t0、R∞等);

可用性、好用性(运行正常百分比、环境及界面);

性能与成本

*评测方法:通过基准测试程序,

不断改变硬件参数进行测试回7页62、算法级性能评测

*评测内容:应用-算法-结构组合的可扩放性;

即给定应用背景,系统扩放时的性能

*评测方法:通过基准测试程序,

不断改变问题规模及机器规模进行测试3、程序级性能评测

*评测内容:各种系统性能(如Tn、Rn、U、TP等)

*评测方法:通过基准测试程序进行测试

*基准测试程序种类:

按生成方式—真实、核心、小、综合程序;

按应用类型—科学计算、商业应用、信息处理等;按程序功能—宏观测试程序、微观测试程序回15页7第二节机器级性能评测一、CPU及存储器的基本性能指标转5页转3页

*基本性能指标:

并行执行时间—

Tn=Tcomput+Tcomm+Tsync+Tpara

速度--

Rn=W

/Tn,为系统实际速度(非峰值)1n并行度时间1、CPU性能指标

*基本参数:工作负载(W

)、顺序执行时间(T1)

工作负载—计算量,常用指令或浮点运算表示;(算法相关)顺序执行时间—工作负载在单处理器上的执行时间82、存储器性能指标

*存储器层次结构:

各层性能指标—容量C、延迟L、带宽B;

相关参数—交换粒度、一致性粒度、层间管理方案等

*影响容量C设计的因素:

与应用的进程数及各进程工作集尺寸等有关

*影响延迟L设计的因素:

与CPU主频f、指令系统CPI及带宽B等有关

*影响带宽B设计的因素:

与应用的数据通信量、通信频率和通信延迟等有关REG一级Cache主存二级Cache磁盘远程存储器9二、并行及通信开销2、开销量化方法

*测量准备:选择测量所用的参数,它们会影响测量结果(数据结构、语言及编译器、通信硬件及协议、计时方法等)

*测量方法:

点点通信—乒-乓法、热土豆(又称救火队)法等

集合通信—较复杂,原则是尽量避免/减少额外干扰

*测量结果表示:

表格法、曲线法、表达式法等1、开销来源

*并行开销:包括进程/进程组管理、数据分配等时间

*通信开销:包括通信及同步操作时间(软硬件)103、开销量化

*并行性开销:

特性--生命周期中分期偿还(总开销/计算量);

量化—测量并行性开销对应的计算量;

如:POWER2处理器的T进程创建=372,000T浮点运算

结果—计算粒度较大时,才需要创建进程

*点点通信(通信、互斥/事件等)开销:

量化--测量t(m)=t0+m/R∞的各项参数;

结果--根据t0与R∞关系确定最佳m(平衡设计原理)

*集合通信(广播、集合、栅障等)开销:

量化--测量t(m,n)=t0(n)+m/R∞(n)的各项参数;

结果--根据测量确定软/硬件功能分配(高性/价)11三、可用性与好用性

*可用性的提高:

方法--增加MTTF,或减少MTTR;

技术—分隔的冗余设备(双管理机),

故障诊断、通知与接管(如系统监控),

故障恢复(如检查点)等1、可用性

指系统正常运行时间占总时间的百分比

*量化方法:根据实际使用情况进行测量与统计

注意—排除环境、人为等因素的干扰122、好用性指用户环境的好用性,包括环境系统及界面2方面

*并行机用户环境:命令行+远程登录、GUI+X协议、客户GUI+服务器、浏览器+WEB服务器

*用户环境系统的好用性:

·灵活、易扩充和易集成;

·使应用软件开发与平台无关;

·用户可不了解低层系统的实现细节;

·提供单一系统映像

*用户界面的好用性:

实用性(提供服务)、高效性(提供帮助)、易学习性(简单/易理解/风格统一)、交互性(交互手段多)、美观性(感觉好)13四、性能与成本2、性能/价格

指性能/买价,性能常用速度(Rn)表示

※高性能/价格—性能或性能/成本不一定好3、成本有效性

指性能/成本,性能通常用利用率(U

)表示

※高性能/成本—体系结构较为合理1、成本与价格

常见关系为:转3页原料成本直接成本毛利润平均折扣原料成本直接成本原料成本毛利润直接成本原料成本100%75%25%37.5%12.5%50%25.1%8.3%33.3%33.3%成本价格14第三节算法级性能评测一、并行计算性能参数

*研究加速比的目的:

+对并行算法,研究顺序/并行部分对性能的影响;

+对算法-结构,研究基于结构的并行性开发方法

※性能提高方法—有并行化和容量增加2方面1、加速比

指对给定应用,并行相对于串行的性能提高程度

即Sn=T1/Tn=Rn

/R1,通常1≤Sn≤n

※给定应用--指工作负载W

、处理器数n为给定值

*影响Sn的因素:算法并行性、并行机体系结构152、可扩放性

指对给定应用背景,性能随P增加(n)的按比例提高能力

即Ψ(n,n’)=[Sn(W)/n]/[Sn’(W’)/n’],Ψ(n,n’)∈(0,1)

※应用背景—扩放时对W

及Tn的要求或限制;

Ψ(n,n’)—为曲线,希望很快接近常数

*影响Ψ(n,n’)的因素:

算法并行性、并行体系结构、应用背景等

*研究可扩放性的目的:

+对给定问题,选择算法及结构,以充分利用可扩充资源

+对给定应用及算法,评测体系结构的扩放性能

+对给定结构,评测并行算法的扩放性能+对给定可扩充资源,指导改进体系结构和并行算法转6页回下页回23页*特征:反映应用-算法-结构组合的有效性(有效利用n)16二、扩放模型及性能分析1、应用背景与扩放模型

*应用背景种类:

①实时性要求较高—关注Tn,W可不变,如Web服务

②结果精度要求较高—关注Δ,Tn可不变,如天气预报

③充分利用硬件资源—关注Un,Tn及W均可变,如计算中心

└→充分利用CPU和MEM等

*扩放模型种类:

①固定负载扩放模型—增加n(W固定),以减小Tn

②固定时间扩放模型—增加n及W,以提高精度(保持Tn)

③存储器受限扩放模型—增加n及W,以提高Un

*扩放模型性能分析:可用3个加速比性能定律进行性能分析转上页回下页回19页回21页172、Amdahl定律--适用于固定负载扩放模型

*基本思想:W不变,增加n,以提高处理速度(减小Tn)

*定律公式:设W=fW+(1-f

)W,f为顺序部分比例,则

*定律几何意义:工作负载(a)固定负载T1n执行时间(b)减少执行时间

123

4f加速比Sn10240%1%2%3%4%(c)固定负载的加速比TpTpTpTpT1T1T1n

123

4WpW1WpW1WpW1WpW1××91×48×31×24转上页回下页回19页18

*引入开销的加速比:设额外开销为T0(含通信/同步/并行化)

*定律含义:

--性能分析

①对给定工作负载,Sn≤1/f;

②仅增加n,顺序部分依然是瓶颈转上页193、Gustafson定律--适用于固定时间扩放模型

*基本思想:保持Tn不变,增加n及W,以增加计算量(精度)

*定律公式:设W’=fW+(1-f

)nW,f

为顺序部分比例,则

*定律几何意义:工作负载执行时间n

123

4TpT1TpT1TpT1TpT1W1n

123

4WpWpWpWpW1W1W1f加速比Sn10240%1%2%3%4%(c)固定时间的加速比××1014×××(a)规模扩展的负载(b)固定执行时间1004993983S1024=1024-1023f转16页转17页回下页回21页20

*定律含义:--性能分析

①当W可扩展以保持Tn不变时,Sn是n的线性函数

②当n充分大、W’成比例增加时,顺序部分不再是瓶颈

└→关键:顺序部分fW基本不变转上页

*引入开销的加速比:设额外开销为T0(含通信/同步/并行化)214、Sun和Ni定律--适用于存储器受限扩放模型

*基本思想:增加n及W,以提高Un(充分利用CPU和MEM资源)

*定律公式:设W’=fW+(1-f

)G(n)W,f为顺序部分比例,则

*定律几何意义:工作负载执行时间n

123

4TpT1TpT1TpT1TpT1W1n

123

4WpWpWpWpW1W1W1f加速比Sn10240%1%2%3%4%(c)存储器受限的加速比××1016×××(a)规模扩展的负载(b)执行时间稍增1007999991G(n)=1.25n转16页转19页回下页22

*定律含义:--性能分析

①若G(n)=1,Sn性能与Amdahl定律等效;

②若G(n)=n,Sn性能与Gustafson定律等效;

③若G(n)>n,Sn性能比固定负载、固定时间扩放模型都高

└→即W增加速度>MEM增长速度

(n增长速度)Snn存储器受限扩放模型固定时间扩放模型固定负载扩放模型工作负载W(问题规模)机器规模n固定负载扩放模型通信界限存储器界限αδ固定时间扩放模型γ存储器受限扩放模型转上页回下页

*引入开销的加速比:设额外开销为T0(含通信/同步/并行化)23三、可扩放性评测标准

*可扩放性的特征:可用效率、速度、利用率等反映1、可扩放性评测标准回下页转3页转上页转15页度量方法—解析法、测量法

*可扩放性的度量:

存在问题—W较大时T1(W)无法测量→Sn等无法测量解决方法—同时增加n及W,以保持性能不变,用所增加的W来衡量可扩放性

*可扩放性评测标准:

现状—无公认的、定义严格的评测标准

标准--等效率标准、等速度标准、等延迟标准(解析法)(测量法)(测量法)回28页242、等效率标准

用维持效率不变时,所需增加的W来度量可扩放性*等效率需求:增大n时,需增大s,E才可能保持不变(1)等效率函数

设问题规模为s,工作负载W(s)为s的函数,

并行开销为T0(s,n)为s及n的函数

*等效率函数:为保持效率E不变,增大n时增加W(s),此时W(s)与n的函数关系即为等效率函数

因E为常数,则对上式求解方程,可得s

=y(n)

由效率公式得,W(s)=E/(1-E)×nT0(s,n)回下页回26页转3页

等效率函数为fE(n)=W(s)=W(

y(n))解析法25(2)可扩放性评测*度量:对给定的等效率值,可获得具体的等效率函数系统1效率EnE系统1=E系统2=E系统3等效率函数fE(n)n系统2系统31可扩放性排序(好→差)结果:系统1→系统2→系统3

*等效率值的特性:等效率值E越小,可扩放性越好效率EnE系统1=E系统2等效率函数fE(n)n系统1系统210.50.3转上页*评价:等效率函数fE(n)越小,可扩放性越好26

例—两个N×N

矩阵相乘,W(s)=cN

3,A、B两系统运行时间分别为

,评价等效率值Ec分别保持1/3和1/4时,哪个系统具有更好的可扩放性。

即当Ec=1/3时,可扩放性A、B系统相同

即当Ec=1/4时,可扩放性B系统比A系统好

(1)当Ec=1/3时,1/3=cN

3/(cN

3+T0)

对A系统有,即

,等效率函数

对B系统,等效率函数(2)当Ec=1/4时,1/4=cN

3/(cN

3+h)

对A系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论