




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、GPU所采用的核心技术有硬件座标转换与光源、立方环境材质贴图 和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染 引擎等。CPU和GPU的联系都是计算机体系结构中的重要部分超大规模集成电路元件 能够完成浮点运算功能GPU的设计目标与CPU是不同的:CPU的微架构是按照兼顾“指令并行执行”和“数据并行运 算”的思路而设计。CPU的大部分晶体管主要用于构建控制电路和CacheCPU的5%是ALU,控制电路设计更加复杂CPU的内存延迟是GPU的1/10GPU其实是由硬件实现的一组图形函数的集合。GPU控制电路相对简单,而且对Cache的需求小,所以可以 把大部分的晶体管用于计算单元GPG
2、PU 的 40%是 ALUGPGPU的内存带宽是CPU的10倍12.除了网络拓扑、路由方法和性能评测外,片上网络需要研究和解决的关键术还包 括新型网络连接方法和结构(例如光互连、无线互连等)、流控制、负载平衡与 服务质量(QoS)、低功耗技术、专用/可配置片上网络等。优点:通过点对点传输获得低功耗通过分层协议获得可靠的传输通过分组交换获得更高的链路利用率通过并发和非阻塞交换获得更高的带宽全局异步或准同步的、模块化、可升级的结构缺点:交换电路和接口增加了电路面积缓冲和增加的逻辑造成了功耗增加与原有IP核接口和协议的兼容问题数据打包、缓冲、同步和接口增加了延迟光互连的实现需要多种器件的配合使用,这
3、些器件包括实现光电信号转换所需的 光源、光探测器、光调制器;用于光功率调节控制的光放大器、光隔离器、光衰 减器;实现光互连空间控制所需的静态和动态方向性光耦合器;用于波长选择控 制的光滤波器、波长转换器以及目前可用于时间控制的光延迟线。1)光收发器件技术(光发送器和光探测器)光链路传输媒介(自由空间光连接和光波导连接)光耦合技术工作波长的选择Tomasulo算法基本思想核心思想记录和检测指令相关,操作数一旦就绪就立即执行,把发生RAW 冲突的可能性减少到最小;通过寄存器换名来消除WAR冲突和WAW冲突。Tomasulo算法具有以下两个特点:冲突检测和指令执行控制是分布的。每个功能部件的保留站中
4、的信息决定了什么时候指令可以在该功能部件开始执行。计算结果通过CDB直接从产生它的保留站传送到所有需要它的功 能部件,而不用经过寄存器。9. Tomasulo算法的两个主要优点:冲突检测逻辑是分布的(通过保留站和CDB实现)如果有多条指令已经获得了一个操作数,并同时在等待同一 运算结果,那么这个结果一产生,就可以通过CDB同时播送 给所有这些指令,使它们可以同时执行。消除了 WAW冲突和WAR冲突导致的停顿使用保留站进行寄存器换名,并且操作数一旦就绪就将之放入保留站。使用Tomasulo算法的流水线需3段:流出:从指令队列的头部取一条指令。如果该指令的操作所要求的保留站有空闲的,就把该指令送
5、到该保留站(设为r)。如果其操作数在寄存器中已经就绪,就将这些操作数 送入保留站r。如果其操作数还没有就绪,就把将产生该操作数的保 留站的标识送入保留站r。 一旦被记录的保留站完成计算,它将直接把数据送给 保留站r。(寄存器换名和对操作数进行缓冲,消除WAR冲突)完成对目标寄存器的预约工作(消除了 WAW冲突)如果没有空闲的保留站,指令就不能流出。(发生了结构冲突)执行当两个操作数都就绪后,本保留站就用相应的功能部件开始 执行指令规定的操作。 load和store指令的执行需要两个步骤:计算有效地址(要等到基地址寄存器就绪)把有效地址放入load或store缓冲器写结果功能部件计算完毕后,就将
6、计算结果放到CDB上,所有等待 该计算结果的寄存器和保留站(包括store缓冲器)都同 时从CDB上获得所需要的数据。: 2.2大数据的4个“V”,或者说特点有四个层面:-第一,Volume、数据体量巨大。从TB级别,跃升到PB级别;-第二,Variety、数据类型繁多。前文提到的网络日志、视频、图 片、地理位置信息等等。-第三,Value、价值密度低。以视频为例,连续不间断监控过程中, 可能有用的数据仅仅有一两秒。第四,Velocity、处理速度快。1秒定律。五.大数据技术: 5.1 NoSQL 5.2 Hadoop: HDFS 和 MapReduce2.2、乱序执行的周期这种范式通过以下步
7、骤打乱指令:(1)、指令获取。(2)、指令被发送到一个指令序列中(也称执行缓冲区或者reservation stations)。(3)、指令将在序列中等待直到它的数据运算对象是可以获取的。然后指 令被允许在先进入和旧的的指令之前开序列缓冲区。(4)、指令被分配给一个合适的功能单元并由之执行。(5)、结果被放到一个序列中。(6)、仅当所有在该指令之前的指令都将他们的结果写入寄存器后,这条 指令的结果才会被写入寄存器中。这个过程被称为毕业或者退休周期。三、乱序执行关键技术乱序执行(有序结束):充分利用资源(1)寄存器重命名:消除WAW和WAR相关并支持猜测性执行(2)动态调度:前面指令因相关而等待
8、时,后面的可继续前进。(3)转移猜测:在转移条件确定前,猜测某个分支取指并执行(4)重排序缓冲区(ROB):执行完的指令重新排序实现有序结束-非阻塞访存:提高访存指令执行效率,减少访存阻塞-乱序执行可以提高性能1.5-2倍。有序进入、乱序执行、有序结束-四、影响乱序执行因素影响RISC CPU性能的因素Iron Rule: Run time=程序指令数 *CPIPipeline CPI=Ideal pipeline CPI + Structural stalls + RAW stalls + WAR stalls + WAW stalls + Control stalls4.1指令的相关 数据
9、相关(真相关):导致RAW名字相关:会导致WAW和WAR控制相关:条件转移程序的相关性容易引起流水线堵塞,可以通过软件和硬件的方法避免堵 塞或降低堵塞的影响编译调度:如循环展开乱序执行:需要等待的指令不影响其他指令-、寄存器相关-2、控制相关-五、寄存器重命名寄存器不能随便改名字,否则原来的数据依赖关系被打乱,会导致 错误的执行结果,那么怎样才能既保留原先的数据依赖关系,又能将没有 数据依赖性的指令的寄存器改名字呢?这里介绍一种在处理器中经常实现的策略:1.将每条指令的目的寄存器映射到新的物理寄存器;2.指令的源寄存器映射为ISA寄存器最近映射到的那个物理寄 存器;3.当本条指令完成后,该目的
10、寄存器映射的更早的物理寄存器就 可以释放了5.2、寄存器重命名的方法1、软件重命名2、重命名到保留站3、重命名到发射队列4、建立物理寄存器到逻辑寄存器的映射总之只要找到一个地方临时放一下数据六、处理器的乱序执行前面介绍了乱序的概念以及去相关,这里开始介绍处理器的乱序执行结 构。6.1、Buffer 的作用1、去耦合在顺序执行内核中,指令依次流经各个流水线单元,不需要进 行缓存,而为了要能乱序执行,首先需要一个Buffer来缓存还没有执行 的指令,然后在这个Buffer中去调度指令的执行顺序。乱序执行内核的 基本模型如下:2、抗波动正常情况下,我们是每天买每天的食物,不过有时候,我们知道明 天有
11、事情,没有时间买食物,因此今天就把今、明两天的食物都买了,这 样明天就不会饿肚子了,这就是电冰箱的抗波动功能。6.2、保留站处理器内部需要一个Buffer来缓存指令,以供乱序调度,这个Buffer 就是保留站(Reservation Station),完成寄存器重命名后的指令被放置 在保留站中,等到操作数和功能单元都准备好时,保留站中的指令就能被 分派出去1、保留站组织的分类(1 X独立保留站:每个功能部件一个保留站(2 分组保留站:多个功能部件共享保留站(3 全局保留站:所有功能部件共享保留站3.2 S2MP的特点S2MP 是 Scalable Shared Memory MultiProc
12、essor 的简写,可称其为“可 扩展共享存储器多处理机结构”,是一种分布式共享存储器结构。S2MP体系结构 的关键技术包括CrayLink互联和IRIX操作系统。Origin服务器产品系列最先 实现了 S2MP体系结构S2MP结构为系统中的分布存储器在逻辑上统一编址,让所有处理 机节点可以共享系统中每个存储单元,这也就使得具有了与传统的共享存储型 多机结构相同的可编程性。S2MP是一种新颖的体系结构,它把SMP和MPP及Cluster的突出 优点结合起来。具有:SMP的容易编程的平稳扩充,MPP的高度可扩展性, Cluster的可用性和可扩性。移动存储有两方面的含义:一是数据通过移动存储设备
13、在不同的数码产品之间交换;二是数据的离机存放与备份。移动存储设备用途:移动办公容量扩充数据备份安全保密数据交换3.2缓解存储墙问题的方法.更宽更快的片外存储带宽.更大的片上Cache.动态访问调度更有效的片上存储器和存储带宽层次逻辑/DRAM集成技术PIM(即:Processor-in-Memory)技术将处理器和存储器紧密地耦合在一块芯片 上,处理器可以直接对行缓冲器中的数据进行操作,具有低延迟、高带宽和低功 耗等特性。因此,PIM与常规Processor-centric结构相比,具有较低的延迟和 更高的带宽,从而使得PIM技术能够从根本上有效地缓解存储墙问题。PIM技术把处理器与DRAM存
14、储器紧密耦合到一个芯片中,形成 Processor-in-Memory结构,为计算机系统性能的提高带来很多好处:低延迟、 高带宽、低功耗及高存储密度等。在PIM结构中,处理器和DRAM紧密地耦合在一块芯片上。因此,处理器对 DRAM中的数据的访问不再受限于片外的引脚数目,可以充分利用了 DRAM中的潜 在带宽,直接访问存储器的行缓冲器中的数据,从而大大地提高了存储器的带宽 (约是原存储器带宽的10到100倍);同时,由于处理器和DRAM位于一块芯片上, 那么无需再将存储器中的数据经过存储总线搬至片外的处理器,处理器的访存延 迟则主要由实际的DRAM延迟和存储控制器延迟组成,所以急剧地减少了处理器
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年商业与住宅按揭贷款合同参考
- 2025年园林绿化草皮供需合同
- 2025年公路运输服务合同标准
- 2025年企业市场营销经理聘请合同示例
- 2025兼职人员合同格式
- 2025年企业级软件策划与测试工程师劳动合同模板
- 2025年化妆品供应商年合同
- 2025年全程会议协调承办合同
- 2025年刘某与张某合同履行纠纷上诉案
- 2025年双方诚信策划购销合同范本
- 2022苏教版科学五年级下册全册优质教案教学设计
- 加油员的安全生产责任制
- 2023年R2移动式压力容器充装操作证考试题及答案(完整版)
- 九年级物理实验记录单
- 2022年湖北省高中学业水平考试真题-音乐学科
- 提高屋面防水施工质量年QC成果
- 部编初中语文古诗词按作者分类梳理
- 博朗IRT6520中文说明书家用版
- 旅行社运营实务电子课件 1.1 初识旅行社
- 【读书如熬粥阅读答案】读书如熬粥阅读答案
- 少儿美术绘本教案课件-3-6岁 《西兰花先生的理发店》
评论
0/150
提交评论