cuda合并访问共享存储器bank冲突PPT课件_第1页
cuda合并访问共享存储器bank冲突PPT课件_第2页
cuda合并访问共享存储器bank冲突PPT课件_第3页
cuda合并访问共享存储器bank冲突PPT课件_第4页
cuda合并访问共享存储器bank冲突PPT课件_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、GPU关于合并访问和关于合并访问和bank冲突问题冲突问题本人将开题报告中关于本人将开题报告中关于CUDA的部分幻灯片复制下来分的部分幻灯片复制下来分享一下,忘批评指教享一下,忘批评指教zhongliangv第1页/共6页2课题背景课题背景u全局存储器优化 和设备访存支持32B,64B和128B三种分段的合并访问GPU之之CUDA01532B B的分段的分段64B B的分段的分段128B B的分段的分段Half-warp1、全黑箭头满足合并访问 。 2、黑+黄不满足,分两次传输 。 3、全绿箭头满足第2页/共6页3课题背景课题背景u全局存储器优化 GPU之之CUDA128B B的分段的分段 W

2、arp(32个线程个线程) Fermi Fermi架构架构(2.x)(2.x)仅支持仅支持128B128B分段的合并访问,并且是以分段的合并访问,并且是以warpwarp 为一组实现合并访问的为一组实现合并访问的1、全黑箭头满足合并访问 。 2、黑+蓝不满足,分两次传输第3页/共6页4课题背景课题背景012345678252627282930311112131415GPU之之CUDA018253031u共享存储器优化共享存储器优化bank绿色区绿色区域代表域代表32 X32的的数组数组warp1. 1. 读一行无冲突;读一行无冲突;2. 2. 读一个数,广播;读一个数,广播;3. 3. 读一列,冲突严重读一列,冲突严重设备共享存储器是分为16个bank而设备(Fermi架构)分为32个bank。下面以设备为例介绍共享存储器的优化。假设有数组_shared_ float a3232,则会存储在以下的bank中第4页/共6页5课题背景课题背景012345678252627282930311121314151GPU之之CUDA后面的线程依次类推后面的线程依次类推013031给刚才的数组多分配一列的给刚才的数组多分配一列的空间即空间即share32share323232+1+1 可避免冲突可避免冲突绿色区域绿色区域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论