版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GPU硬件体系结构介绍lec1GPU硬件体系结构介绍共35页,您现在浏览的是第1页!大纲GPU最近的成果CPUvs.GPU最近的GPU体系结构CPU和GPU发展趋势lec1GPU硬件体系结构介绍共35页,您现在浏览的是第2页!GPUputing20082013100M150K1604000430MCUDApatibleGPUs1.6MCUDA下载50超级计算机640所大学采用CUDA课程37,000篇paperlec1GPU硬件体系结构介绍共35页,您现在浏览的是第3页!lec1GPU硬件体系结构介绍共35页,您现在浏览的是第4页!CPUvs.GPU(GFLOPS)lec1GPU硬件体系结构介绍共35页,您现在浏览的是第5页!CPU体系结构DRAMCacheI$ControlALUFPUI$ControlALUFPUI$ControlALUFPUI$ControlALUFPUlec1GPU硬件体系结构介绍共35页,您现在浏览的是第6页!为什么需要SIMD(SIMT)控制逻辑vs.数据通路(i$/fetch/issue/decode/…)mm^2/flop记分牌(scoreboard)分支预测乱序缓存(re-orderbuffer)MemorywallByte/flop访存效率DDR的特点PowerwallWatt/floplec1GPU硬件体系结构介绍共35页,您现在浏览的是第7页!Byte/pute比例程序=数据+算法完成单位计算需要的数据矩阵乘法lec1GPU硬件体系结构介绍共35页,您现在浏览的是第8页!DDR时序(简化模型)
lec1GPU硬件体系结构介绍共35页,您现在浏览的是第9页!控制逻辑vs.数据通路更多控制逻辑?SISD更多数据通路?SIMDSIMD的优势mm^2/flopwatt/flop但是…lec1GPU硬件体系结构介绍共35页,您现在浏览的是第10页!如何利用多核系统MassiveParallelismDataparallelismRegularputationDosimilarworkindifferentthread避免资源冲突lec1GPU硬件体系结构介绍共35页,您现在浏览的是第11页!GPU历史固定功能流水线可编程流水线统一处理器流水线通用图形处理器(GPGPU)GPUlec1GPU硬件体系结构介绍共35页,您现在浏览的是第12页!可编程流水线简单的shaderPixel-shaderforeachpixel{Input:pixel坐标,等Output:pixel颜色,等}统一处理器流水线lec1GPU硬件体系结构介绍共35页,您现在浏览的是第13页!CUDA简单模型GPUCPU数据+代码运算结果lec1GPU硬件体系结构介绍共35页,您现在浏览的是第14页!Kepler(K20).nvidia./content/PDF/kepler/NV_DS_Tesla_KCompute_Arch_May_2012_LR.pdf
.nvidia./content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdflec1GPU硬件体系结构介绍共35页,您现在浏览的是第15页!lec1GPU硬件体系结构介绍共35页,您现在浏览的是第16页!编程模型动态并行Hyper-QGPUdirectlec1GPU硬件体系结构介绍共35页,您现在浏览的是第17页!lec1GPU硬件体系结构介绍共35页,您现在浏览的是第18页!GPU发展趋势lec1GPU硬件体系结构介绍共35页,您现在浏览的是第19页!应用领域Oil&Gas信号图像处理计算机视觉生命科学&材料科学分子动力学生物信息学医疗图像CT,MRI,etcBigdata…lec1GPU硬件体系结构介绍共35页,您现在浏览的是第20页!CPUvs.GPU(GB/s)lec1GPU硬件体系结构介绍共35页,您现在浏览的是第21页!GPU体系结构(SIMD/SIMT)DRAMCacheI$ControlALUALUALUALUALUALU…I$ControlALUALUALUALUALUALU…I$ControlALUALUALUALUALUALU…I$ControlALUALUALUALUALUALU…lec1GPU硬件体系结构介绍共35页,您现在浏览的是第22页!MemoryWall 为什么?Byte/flop(pute)典型应用访存效率DDR特点提高访存效率lec1GPU硬件体系结构介绍共35页,您现在浏览的是第23页!DDR架构选择bank激活(activate)一行(行寻址)根据列地址读取数据(列寻址)ArrayofcellsdecodeArrayofcellsdecodeRowdataRowdatarowbankcolcoladdrcoladdrDatabuslec1GPU硬件体系结构介绍共35页,您现在浏览的是第24页!提高访存效率主要指标:byte/activateCPU:大cache提高命中率,减少访存次数L2/L3cache增加mm^2/flopGPU:高并发,合并访存提高byte/activatelec1GPU硬件体系结构介绍共35页,您现在浏览的是第25页!并行编程挑战资源访问冲突访存效率冗余计算负载均衡通讯开销lec1GPU硬件体系结构介绍共35页,您现在浏览的是第26页!挑战?机遇?高频率==高性能?lec1GPU硬件体系结构介绍共35页,您现在浏览的是第27页!固定流水线简单OpenGL程序大部分功能固定只能修改部分参数lec1GPU硬件体系结构介绍共35页,您现在浏览的是第28页!通用计算(GPGPU)利用GPU的高浮点计算能力利用OpenGL启动计算代码缺点编程困难OpenGL的开销…CUDA/OpenCLlec1GPU硬件体系结构介绍共35页,您现在浏览的是第29页!GTX8800.nvidia./object/IO_37100.htmllec1GPU硬件体系结构介绍共35页,您现在浏览的是第30页!Kepler(K20)SMX处理器架构高性能peakflops高效率perf/watt存储系统增强的编程模型lec1GPU硬件体系结构介绍共35页,您现在浏览的是第31页!SMX1xclock2x数据通路面积节省功耗4
warpscheduler32个线程同时调度(warp)2dispatchperscheduler每线程255寄存器SHFL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 锌及锌合金材产品营销计划书
- 铝合金导线产品市场需求分析报告
- 环保巴士产品市场需求分析报告
- 短波数字话音保密机市场发展预测和趋势分析
- 超声波清洗设备产品市场需求分析报告
- 2024天融信日志收集与分析系统部署操作手册
- 越野汽车市场洞察报告
- 贵金属铂产品市场需求分析报告
- 超高压复合胶管产品原材料供应与需求分析
- 粉末涂料产品市场环境与对策分析
- 玻璃行业售后服务协议书
- 圆锥曲线大单元教学设计
- 环境艺术设计
- 幼儿园安全教育课件:《我会保护眼睛》
- 课堂教学反思记录(表格)
- 广域微域融合技术白皮书 2023
- 宣讲教育家精神六个方面微课PPT
- 中考英语时态专项练习题(附答案)
- 提高住院病历完成及时性持续改进(PDCA)
- 高中数学尖子生培养策略探究获奖科研报告
- 机械长期维修合同范本
评论
0/150
提交评论