class1-并行计算简介_第1页
class1-并行计算简介_第2页
class1-并行计算简介_第3页
class1-并行计算简介_第4页
class1-并行计算简介_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

并行程序设计任课教师:主要内容

并行计算介绍

Linux

操作系统与编程环境

并行编程环境--MPI/OpenMP(重点)并行程序性能评价与优化

C

编程介绍

并行算法设计(数值计算)(重点)1.

什么是并行计算?传统上,一般的软件设计都是串行式计算:

软件在一台只有一个CPU的电脑上运行;问题被分解成离散的指令序列;指令被一条接一条的执行;在任何时间CPU上最多只有一条指令在运行在最简单的情形下,并行计算是使用多个计算资源去解决可计算问题。

用多核CPU来运行;问题被分解成离散的部分可以被同时解决;每一部分被细分成一系列指令;每一部分的指令可以在不同的CPU上同时的执行;计算资源可以包括:多核CPU;任意数量的CPU用网络连接起来;或者以上两者结合;可并行计算问题通常展示出如下的特性:能分解成可以同时解决的离散的工作块;同一时刻可以执行多条程序指令;通常用多个计算资源解决问题所花的时间要比单个计算资源要短;并行计算的用途在历史上,并行计算被认为是高端计算,并用于为复杂的科学计算和基于真实世界的工程问题建模。大气层、地球、环境物理学应用、核能、原子能、凝聚态、高压、溶解、光电子;生物科学、生物工程、基因学化学、分子科学地理和地震学机械工程、从弥补术到空间飞行器电气工程、电路设计、微电子学计算机科学、数学

今天,商务应用是推动快速计算机发展的更大的推动力。这些应用需要用复杂的方法处理大量数据。例如:数据库、数据挖掘BigData石油勘探

网络搜索引擎、基于网络的商务服务医学成像和诊断制药设计国有企业或跨国企业的管理金融经济建模虚拟现实

(娱乐,游戏主机等)网络视频和多媒体技术协同工作环境创:战纪简介20世纪80年代,电子软体天才凯文·弗林创建了英康公司,将人类带入一个全新的时代。可是在辉煌的时代开创不久后,凯文神秘失踪。在此之后,凯文年幼的儿子萨姆继承了父亲的位置,实际工作则由其他工作人员主持。萨姆天资聪颖,充满冒险精神,经常给英康的高层们惹来麻烦。这一天,他得知一间荒废已久的工作室内竟传来父亲的讯息。萨姆前去探查,结果竟进入一个全数字化的虚拟世界。这个世界的掌控者克鲁与父亲有着同样的容貌,却野心勃勃,邪恶无比。萨姆被迫卷入一场充满阴谋的电子争霸战中……渲染与超级计算机1985年,工业光魔又在《年轻的福尔摩斯》中创造了史上第一个计算机动画渲染角色:彩色玻璃骑士。虽然影片中计算机生成的镜头只有短短30秒时间,以当时的计算机技术却花费了6个月时间来完成。《阿凡达》推动超级计算机的电影制作

电影《阿凡达》经过14年的酝酿,耗资5亿美元(约合人民币27.2亿元),提供2D、3D和IMAX-3D三种制式供观众选择,可以说这是一部电影史上的丰碑。Weta

Digital公司负责该部影片视觉特效的公司,在为《阿凡达》制作炫目三维效果时也必须打破自己的一些纪录。据资料显示,2006年Weta

Digital开始着手《阿凡达》方面的工作时,公司的

“渲染墙”大约包含

4,400个CPU核心,存储系统大约有100TB。到《阿凡达》制作结束时,公司的渲染墙中大约有35,000个CPU核心,存储系统也达到3000TB。整个《阿凡达》渲染任务之繁重,逼迫Weta

Digital公司计算能力增长了10倍,最终按时完成客户要求。Weta

Digital

公司采用了超级计算机集群平台作为其解决方案,操作系统是我们熟知的Linux,在TOP

500超级计算机中排名也从最初的400多上升到了190多名。《阿凡达》所使用的超级计算机总内存有

104TB,内联采用的是万兆以太网。整个超级计算机的每一个节点型号是BL2x220c,它在一个刀片内放两台服务器,每服务器有两个4核CPU,节点CPU核心选择Intel服务器专用Xeon处理器。这套超级计算机渲染环境在2008年拥有4096个CPU内核,到2009年增加到5936个CPU内核,庞大的超级计算机集群已经成为除了导演和演员之外全片最大的贡献者。它们用自己稳定的工作,根据动画制作师划定的标准,渲染《阿凡达》每一帧静态图片,最终拼接成全片。整部电影大约3

PB的数据存放在BlueArc机构和NetApp机构的存储器上,数据传输通过光纤通道完成。电影完成时一帧的数据是12MB,一秒钟24帧,每分钟的数据就有

17.28

GB,整部《阿凡达》电影产生的数据据说在3PB左右,需要3000块个人电脑的1TB容量硬盘才能完成对数据的存储阿凡达高清图片

2.

为什么使用并行计算?

1)

节省时间和成本

理论上,使用更多的资源会使一个任务提前完成,而且会节约潜在的成本。况且可以使用便宜的、甚至市面将要淘汰的CPU来构建并行聚簇或者成本更低的GPU(显卡)来实现很多问题是相当庞大而复杂的,尤其是当计算机的内存受到限制的时候,用单个计算机来解决是不切实际或者根本不可能的。例如:a.

"GrandChallenge"(/wiki/Grand_Challenge)

问题需要Peta级浮点运算能力和存储空间的计算资源。b.网络搜索引擎和网络数据库每秒钟要执行上百万次的处理。2)解决更大规模的问题

单一的计算资源在同一时刻只能做一件事情。多个计算资源能够同时做很多事情。例如:

AccessGrid(/)提供一个全球的合作网络,在这里来自世界上不同国家的人们可以开会并“现场”指导工作。3)支持并行4)使用非本地资源

/wiki/%E9%A6%96%E9%A1%B5当缺少本地计算资源的时候可以使用广泛的网络或Internet计算资源。例如:a.

SETI@home()

使用超过330000个计算机来执行每秒超过528T次浮点运算;(August04,2008)b.

Folding@home()使用超过340,000

计算机来执行每秒4.2P次浮点运算

(November4,2008)云计算5)

串行计算的限制

在理论上和实际上,想要轻易地制造更快的串行计算机存在着巨大的限制。a.

传输速度——线性计算机的执行速度直接取决于数据在硬件中传输的速度。光速的绝对限制是每纳秒30cm,铜导线是每纳秒9cm。不断提升的执行速度更加靠近极限。b.

微型化的极限——处理器技术使芯片集成了更多的晶体管。但是,即使使用分子或者原子级别的组件也会很快达到芯片集成晶体管的极限。c.

经济上的限制——让单个芯片变得更快需要增加昂贵的投入。用多个一般的芯片来取代单个高性能的芯片或许性能会更好而且更便宜现在的计算机体系结构越来越依赖于硬件层次的并行来提高性能:a

多个执行单元b

多核3.

高性能计算机基本知识FLOPS是floating-pointoperationspersecond每秒所执行的浮点运算次数的英文缩写。它是衡量一个电脑计算能力的标准。最后面的S是秒的意思,最前面的p是个常量,1P=1024T1T=1024G1G=1024M1M=1024K这里的PFLOPS就是每秒运算能力为一千万亿次。1PFLOPS等于1千万亿次浮点指令/秒。一个MFLOPS(megaFLOPS)等于每秒1百万(=10^6)次的浮点运算,一个GFLOPS(gigaFLOPS)等于每秒10亿(=10^9)次的浮点运算一个

TFLOPS

(teraFLOPS)等于每秒1万亿(=10^12)次的浮点运算一个PFLOPS(petaFLOPS)等于每秒1千万亿(=10^15)次的浮点运算。GFLOPS:微处理器运算峰值IntelXeon3.6GHz:<1.8GFLOPSIntelPentium4HT3.6Ghz:7GFLOPSIntelCore2DuoE430014GFLOPSIntelCore2DuoE840024GFLOPSAMDPhenom9950:29.05GFLOPSIntelCore2QuadQ820037GFLOPSIntelCore2QX9770:39.63GFLOPSAMDPhenomIIx4955:42.13GFlopSIntelCorei7-965:69.23GFLOPSIntelCorei7-980XE

:107.6GFLOPSIntelCorei5-2500K@4.5GHz:123.35GFLOPS(w/AVXinstructionset)IBMPOWER7:264.96GFLOPSnVIDIAGeforce8800Ultra(G80-450GPU):393.6GFLOPSnVIDIAGeforceGTX280(G200-300GPU):720GFLOPSAMDRadeonHD3870(RV670GPU):497GFLOPSAMDRadeonHD4870(RV770GPU):1008GFlopsTFLOPS:显卡或者早期并行机nVIDIAGeforceGTX580(GF110-375GPU):2.37TFLOPSAMDRadeonHD6990(R900GPU):4.98TFLOPSEarthSimulator:35.61TFLOPSBlueGene/L:135.5TFLOPS曙光Dawning5000A:230TFLOPSPFLOPS:当代超算平台IBMRoadrunner:1.026PFLOPSJaguar:1.75PFLOPS天河一號:2.566PFLOPSFolding@home運算平台:4.769PFLOPSBOINC運算平台:6.282PFLOPS(持續增加中)IBMMira:8.16PFLOPS京:10.51PFLOPSIBMSequoia:16.32PFLOPS。。。。。。。TOP500Ranking20154.学习内容以及目标?目标:利用多个核或者多处理器以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论