设计和分析的自适应处理器_第1页
设计和分析的自适应处理器_第2页
设计和分析的自适应处理器_第3页
设计和分析的自适应处理器_第4页
设计和分析的自适应处理器_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-.z设计和分析的自适应处理器TAKANO,三洋大规模集成电路设计系统软**。一个新的putationmodel称为缓存(缓存架构ConfigurableHardware引擎)在这篇文章中。该模型不需要一个专用的主机处理器及其软件利用重构。自动重新配置应用working-setdatapaths内执行。缓存模型有很多副作用;缓存、资源分配和部署位置和路由和碎片整理,处理数组本身和一个专用存放器称为working-set注册文件。模型旨在减少三个主要工作负载:(1)处理器和应用程序设计工作负载,(2)运行时资源管理和调度工作负载,和(3)重新配置负载。在为了减少这些工作负载,处理器体系构造无疑是不同于传统的计算模型及其微处理器体系构造。有三个主要的思想构建计算系统:(1)收发器working-setmodelmainly为了控制流的加载和存储,即控制交通量引入管理费用,(2)一个芯片上的僵局主要是为了管理资源和属性模型不断配置相应datapathsworking-set窗口,(3)缓存内存技术为这些模型工作,相当于working-set窗口机制,和缓存内存的过程相当于资源请求、获取和释放死锁的属性。第一个模型集中到流媒体应用程序,例如向量和矩阵运算,过滤器,等等,这需要粗粒度的操作,如整数操作c语言。关于性能相比需求方,来自不断的在不同的规模的应用程序吞吐量。此外,扩展模型中,我们称之为Instantmodeldatapath公司的自动生成实例,优于需求方。这论文展示了其计算模型、体系构造、底层设计和分析根本特征的执行。类别和SubjectDescriptors:C.1.2[ProcessorArchitecture]:多个数据流体系构造-数组和向量处理器一般条款:设计、管理额外的关键词和短语:可重构体系构造、运行时重新配置,运行时管理,流处理、设计和分析工作集模型芯片,芯片,死锁属性模型堆栈构造ACM参考格式:Takano,s.2012。设计和分析的自适应processor.ACMTrans。Reconfig。工艺。1系统。5日,第五条(2012年3月),34页。DOI=10.1145/2133352.21333573352.21333571。介绍微处理器是演变成类似于fpgamany-core处理器,与概念层次粒度many-core处理器之间唯一的区别和一个FPGA。这就引入了many-core处理器和fpga的主要问题。硅半导体技术的改进提供了一个更大的预算一样的芯片尺寸缩小设计规则和设计空间扩大。这是众所周知的摩尔定律(摩尔1995年)。然而,这种收缩了努力使数字或许可的副本局部或全部个人或教室使用的这项工作没有提供拷贝不了费用或分布式的利润或商业优势和此通知副本显示在第一页或初始屏幕显示连同完整的引用。的组件拥有的这项工作比ACM必须尊敬别人。抽象与信用是允许的。复制否则,再版,*贴的效劳器上,重新分配列表,或使用的任何组件之前工作在其他工作需要特定的权限和/或费用。权限可能要求出版物、ACM,Inc.,2佩恩广场,701套房,纽约,美国纽约10121-0701,+1(212)869-0481,或发至。c2012ACM1936-7406/2012/03art510.00美元DOI10.1145/2133352.2133357ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。2sTakano更多wire-delay金属互连层[Matzke1997]。此外,片装和off-chip带宽差距增加了。需要大量的周期外部主内存,这是一个memory-wall[沃尔夫和麦基1995]。这可以被看作是一个时机来改变目前的架构。先前的研究[Kozyrakis1999;纳etal.2001]检查芯片上多个内存银行(MMBs)。为了执行并行执行,这样的记忆银行必须在相对较短的同时延迟。大规模的单处理器会降低其复杂性的可伸缩性,其中的设计参数问题的宽度和指令窗口大小(Palacharlaetal.1997年)。而不是一个单一的大规模的处理器,chipmultiprocessor(CMP)讨论[哈蒙德etal。1997]。多核小指令宽度有更好的之间的权衡问题应用程序的并行性和处理器的并行性,以适应应用程序计算机系统有效[Olukotunetal.2007]。今天,数以万计的处理器和地方的记忆芯片可以放在[Wentzlaffetal.2007]。这样的芯片需要更多的内存。这将创立一个memory-wall因为更高包的局限性。因此,通过结合百万桶和CMP,数以万计的内存元素和处理元素(Sankaralingam可以放置在同一芯片etal.2006年)。另一方面,fpga正开场被用来加速计算,而不是仅仅用于测试和验证逻辑电路,在90年代,现场可编程自定义计算机器如Vuilleminetal。[1996]。今天,fpga是耦合的与主机处理器(s)和用于科学应用etal.2007][过活。他们的field-programmability和灵活性能够找到最优的组合软件和硬件的应用程序。然而,可重构计算(RC),混合传统的基于微处理器的运算称为时间计算,应用程序加速器使用fpga计算称为空间计算介绍了复杂性,使应用程序设计师有必要了解软件和硬件设计(Mangione-Smithetal.1997年)。指令和数据等信息的流动决定了计算机系统体系构造。一些应用程序域都有自己的特定的数据流模式。计算机架构师决定计算机基于配置文件的规*的教学构造,分布的寻址模式,解决inde*-lengths,等等。架构师必须设计考虑减少此类信息流量和额外的交通预测或猜测。传统的处理器有一个减少大量的逻辑电路,在后面的小节中讨论。关于钢筋混凝土系统,有三种类型的流:主机的指令流处理器,数据流在主机和RC硬件,配置数据流在RC硬件。RC模型必须照顾的管理和调度其顺序和配置系统中的数据流。映射到应用程序任务计算资源必须灵活或浮动有效地支持任务级别的并行计算。小规模的百万桶&CMP处理器执行浮动映射任务的核心芯片上的环网(安斯沃思和品克斯顿2007;西勒etal.2008年)。今天的大规模百万桶&CMP处理器往往执行静态映射任务在每个核心[Sankaralingametal.2006;Wentzlaffetal.2007;陈etal.2008;Tranetal.2009],或静态映射暂时VLIW指令的执行任务(Khailanyetal.2001年)。增加核心芯片的数量不能被容忍,因为我们面临一个资源管理和调度困难类似于钢筋混凝土模型。操作系统必须照顾超过数以万计的处理和内存资源。这包括资源分配和任务,位置和更换,碎片整理,和路由。静态调度应用程序编译器是由多更复杂的与一个复杂的系统体系构造。发布一个产品,需要时间ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。设计和分析的自适应处理器反映了上市时间的需求。计算机硬件和应用程序需要验证时间(Luddenetal.2002;Manolios2005)和优化时间,分别。验证所需的时间努力继续增加甚至对于一个处理器使用多核,小更新造成的核心实现SMT(同步多线程),它允许内存资源共享在线程(Victoretal.2005年)。传统的基于处理器的系统已经到达了极限,顺序执行系统即将成为并行处理系统。尽管RC系统放松限制,它需要复杂的设计应用程序设计人员的努力。的减少交通需要高效的计算涉及到众多的逻辑电路,一个大在操作系统上的工作量,和/或优化应用程序设计人员的努力。操作系统执行资源管理的困难的工作和调度,涉及多个任务。我们称之为努力参与设计的处理器、编译器和应用程序,作为一个工作负载,可以减少适当的分配信息交通量及其管理和调度。为了解决这些问题,我们的工程主要集中在“新居〞的三个主要领域:(1)处理器和应用程序设计工作量减少,(2)运行时资源管理和调度工作量减少,(3)重新配置工作量减少。这些都是基于一个特定的构造处理数组,以抑制这些问题不需要额外的硬件资源和系统软件在主机。这些减少是基于一个简单的计算模型,是在一个可伸缩的核心为核心处理数组。这个简化的计算模型可以减少很多处理器和应用程序设计的工作,尽管我们的根本知识计算模型和处理器体系构造是必需的。本文也有目标作为一个根本的信息指南。一个新的处理器管道作为一种资源任务datapath公司请求,并行任务取得,获得资源释放。我们考虑一个自治RC构造数组的重构技术datapath公司不能配置一个大型应用程序。这种方法使用应用程序依赖基于working-set大型应用程序重新配置datapaths。通过使用cycle-accurate模拟,我们演示和分析重新配置序列及其计算模型。下一节解释了模型的根底。新重组的机制第三节解释技术。第四局部解释了内存过程涉及重新配置。的解释常见的逻辑电路提供用于处理单元在第五局部。第六个节讨论相关工作编译器减少工作负载,内存流量减少、资源管理和调度和重构方法。第七局部州的工作量减少处理的优点之前的局部。讨论了根本模型的扩展在第八局部。第九局部显示了评估结果,和第十节总结了纸。2。缓存模式本节介绍了计算模型称为缓存(缓存架构可配置硬件引擎)。首先,计算的根本思想是解释说。working-set模型(1968年丹宁)和死锁属性模型[霍尔特1972]应用于资源分配和任务。缓存和碎片整理技术介绍了处理元素数组被称为一个对象数组(对象空间)。对象数组和一套专用存放器,working-set存放器用于自动地点和路线。working-set,整个datapath公司的一局部,和配置在运行时发布。表我显示了摘要的方法来减少工作量。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。五sTakano表一、减少工作负载及其方法计算系统模型处理器和应用资源管理重新配置设计工作负载和调度工作负载工作负载减少了简单计算减少Working-set模型中,死锁属性模型,模型:缓存机制(堆栈构造化对象数组):配置数据显示开掘——处理器流水线处理器管道dency对象之间的资源请求,获取,获取阶段激活——依赖配置datapath公司和释放阶段对象流量减少换入/出栈的栈构造构造芯片Working-set模型-确定性放置地点和路线的支持资源管理:寻找可替换的对象——死锁属性模型芯片Working-Set存放器文件Working-Set注册文件工作地点为这些模型-检查能力限制获取信号的选择——高速缓冲存储器技术端口可伸缩的架构与原因,消除交通引起的基于位置的地方和路线能够响应2.1。粗粒度的计算与分布式内存块通过memory-wall很高,很长的延迟意味着漫长的根本路径ALUandmainmemory之间的长度。这一事实可能导致一个分布式的使用内存块芯片上,这可能需要多个周期加载和存储,和沟通内存块和ALU之间。不需要理想的概念内存层次构造。此外,而不是一个内存块,多个内存块应该实现和并行来提高性能。中可以看到这个向量处理器(Espasa1997;Asaovic′1998;Kozyrakis1999]。有90/10的经历法则,10%的静态程序在近90%的动态执行时间。我们专注到热点与可重构加速处理元素的计算有很多资源和内存块。这引入了一个working-set模型假设一点新的资源和请求版本可能大量资源。我们将这一概念应用于可重构计算系统,即局部运行时重新配置就足够了。资源请求可以频繁,因此,关于局部重新配置一个单位,一个大配置数据大小不适合这种方法。我们调查的目的选择一个粗粒度的可重构构造称为物理对象(PO)经营一个整数操作配置一个标量配置数据。时间计算和重构由堆栈构造2.2。Working-Set模型芯片当我们关注式芯片(套核心和本地内存),一个相当大的代价是可能working-set大小,即本地内存的大小。这导致修复本地内存大小作为一个单元。因此,我们不能改变的working-set在第一次生产这样的处理器。而不是滚动working-set为一组核心和本地内存,我们铺了working-set数组的一个模型本地内存对象组成的ALU和单个条目。通过使用一个内存块和对象数组芯片,我们可以配置applicationspecific管线式datapath公司的working-set(图1和图2所示),单一入口本地内存用于重新定时(流水线)展开array.Wedatapath公司可以从源图像流流内存块,管线式datapath公司吗水槽内存块,如图1所示。datapath公司是working-set收集所需的资源和发布终止并行资源。我们实现了working-set及其窗口概念在芯片内存缓存机制。2.3。死锁属性模型的筹码计算资源包括硬件资源和软件资源。硬件资源称为物理对象(PO)。本地配置数据的软件资源是theset寻址操作和单上的数据条目本地内存映射到PO。这组被称为逻辑对象。资源管理是发生在收集和发布,即请求和释放,资源。我们的模型使用一个僵局[霍尔特1972]构造属性模型芯片上的资源管理。这个过程被配置为一个处理器管道与请求、获取和释放阶段。这个过程是解释3.1节。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。设计和分析的自适应处理器5:5模块化构造与全球网络图1。流处理自适应处理器。图2。管道工程配置。当请求和获得资源超过working-set的容量芯片,未使用和逻辑对象发布swapped-out内存块,以腾出空间为新请求。必须建立一个时间表配置特定于应用程序的管线式working-setdatapath公司。配置顺序是由配置数据流。分支的配置数据流,就像一个传统的分支指令流,创立一个动态的秩序。我们实现了僵局属性模型与处理器管道过程,高速缓冲存储器技术作为一个工作地点。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。2.4。缓存对象数组的行为当一个发布逻辑芯片再次请求对象,对象可以获得。当请求的逻辑对象不是芯片,必须swappedin的逻辑对象芯片。如前所述,换出可能发生的能力限制。这些行为导致缓存机制,引入对象数组本身,一个对象的行为作为一个缓存条目。为了实现缓存机制,用短的对象数组本身找时间,我们的模型使用重构管道[Schmit1997]当地互连网络移动逻辑对象的数组。这种方法实现了一个堆栈构造中使用的芯片高速缓冲存储器的研究评估马特森etal.1970年)。因此,换入的位置总是在堆栈换出的候选人是栈的底部附近。这种行为是一样的电子布告栏系统(BBS),在一个更新的话题总是的和不活泼的主题列表底部的列表。找到换出的候选人与特定实现互连网络通过构造一个时间表,如5.6节中解释。堆栈构造数组支持可再定位性。因此,碎片整理程序的支持。2.5。配置:对象之间的路由位置现在解释道。一个方法来路线或对象之间的交流下一个问题。首先,我们的模型使用前面提到的对象缓存机制,随着working-set。一个条目working-set登记专用存放器文件名为working-set注册文件(WSRF)。通过一个获取信号每个working-set存放器,获取信号发送到PO数组时请求对象缓存命中的芯片。因此,检测到缓存的缓存命中对象mechanismmakesobjectwake,并从theworking-set获取信号可以使用注册选择的通信端口。这个过程是解释3.3节2.6。新的重新配置片上working-set模型介绍了对象缓存的方法。对象缓存机制和working-set存放器介绍自动位置和路由硬件资源管理和调度。而不是整个datapath公司,所需的一局部datapath公司对应working-set配置运行时,其中包括换入的逻辑对象如果请求缓存小姐,换出的逻辑对象如果系统满足容量限制,和一堆从堆栈的顶部转移到栈的底部。重新配置管道模型中用于实现堆栈构造。通过使用multi-conte*t重新配置,堆栈可以从应用程序的隐藏的转变执行。因此,拖延执行是没有必要的。因此,结合这些重新配置需要,测序的配置数据流条件,使用堆栈构造(缓存机制)引入了一个新的独立的局部重新配置模型。本身是一个条目在缓存中记忆。因此,活动对象数组扮演缓存。资源管理和调度、位置和路由逻辑对象、对象缓存和碎片整理是实现使用一个统一的硬件将缓存技术,堆栈构造,僵局属性和working-set。这是一个硬件的解决方案,使用配置数据流提供了灵活性和可编程性。我们可以改变缓存和小姐回写式序列通过改变配置数据流。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月设计和分析的自适应处理器7栈顶栈底堆栈的转变全局配置数据流数据流Req0Req1Re2缓存检测数据图书馆配置数据图书馆个人电脑Ack搜索加载一个加载BC(A,B)D(DC)TMPTMPmpyAcc0*00*10*20*3二进制文件编译/Dot-product*定义tmpinit0*0*定义Btmpinit0*1*定义CMpyinit0*2*定义DAccinit0*3加载一个mem[];从mem加载B[];C(A,B);//繁殖D(DC);//积累源程序文件13547861缓存错过检测(3.1节、3.1、3.2)2资源请求(3.1节、3.3.2)3成认3.1(3.1节)4缓存加载小姐(3.1节)5LRU替换(5.6节)6地点和路线(年代我3242)7堆栈的转变(年代)8内存(4)换入换出99释放令牌(我3图3。缓存计算模型。2.7。缓存计算模型图3显示了缓存计算模型。不包括关注编程吗模型。对象描述文件(源程序文件)是三个分区二进制文件的本地配置数据,每个对象上定义了一个操作,全球配置数据(GCFG数据),序列应用datapath公司的整个配置,和初始数据集。GCFG数据流,相当于传统的简单指令流显示了一个根本的依赖。详细的操作分开流。细节是在本地配置中定义的数据。这种方法意味着GCFG数据独立于处理器的微体系构造。由当地做准备配置数据图书馆,GCFG数据可以在任何自适应处理器上运行有不同的细节,基于缓存模型。2.8。指导后面的局部图4说明了指南建议的想法。关于单datapath公司,由平行处理streamings和消除额外的交通改善了性能。除了这样的流处理,datapathsmulti-datapath处理实例通过扩展模型生成实现线性扩展的性能。本文提出的自动重新配置有根本区别和优势;专用控制器资源管理和重新配置是一个集中的模式已难以扩展处理数组。我们的模型,分布式模型,有限只有线延迟扩展。一个应用程序分区在传统模式可以采取几个重试找一个“更好〞的结果。在而且,很难动态调度的基于局部调整这样分区动态位置和路由局部datapath公司集,因为局部datapaths动态配置的位置也会影响到对方的决定的位置。关于我们的模型,没有应用程序分区,这简化了应用程序设计过程保持位置和路由的灵活性动态调度。此外,基于堆栈的转变使一个地方地点和路线的对象。堆栈是放置的位置,位置是确定的。底堆栈的LRU更换,容易找到的候选人。处理数组本身在没有大量的额外工作。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月8sTakano打击Req0打击Req2打击Req1Req2网络Req1网络请求(搜索)Req0Req1Req2配置数据32101230123Working-Set存放器文件PO-0PO-1po-2PO-(n-1)(PO)-n-2栈底:对象替换位置3.3和5.6节)连锁网络(5.4.2节)根本:直导线扩展:通道分割分布(9.8.2节)缓存命中检测比较单元(5.2节)的堆栈:对象放置位置(3.3节)路由器:飞机(5.4节)堆栈的转变(5.4节)(一)主题的组织po-2上下文0上下文1PO-0上下文0下文1PO-1上下文0上下文1上下文0上下文1上下文0上下文1上下文0上下文1之前堆栈转变堆栈转变b)栈的转变存储用来隐藏发送上下文最近邻对象存储用于执行OBJAOBobjCobjDobjDbjCOBobje上下文切换(5.1节)图4。指南建议意见组织处理器。3。自动重新配置本节解释如何配置datapath公司的应用程序。首先,它引入了一个新的处理器管道。第二,它说明了路由链对象。放置和替换序列直接与堆栈算法实现芯片。3.1。处理器管道一个处理器管道不同于传统的处理器。管道工程等缓存内存。因此,术语“缓存〞和“缓存命中〞可用于关系到管道。此外,每个对象的配置数据“本地〞配置数据。(1)管道阶段1:请求一)元素的配置数据请求注册(RR)请求对象。(b)如果所有请求的对象在对象空间(缓存命中),没有执行对象是后天获得的,请求获得,和配置数据存储WSRF。转到管道阶段2。c)如果执行对象已经收购了,等待发布执行的对象。(d)如果所请求的对象不是在对象空间(缓存)逻辑对象和地方配置数据存储到一个物理对象。(e)如果没有物理对象存储,没有收购对象是用于替换它。(2)管道阶段2:获取(一)收购对象执行操作后本地配置数据。发送结果数据对象(s)。(b)在释放令牌触发时,转到管道阶段3。(3)管道阶段3:释放以下对象发送最终结果和释放令牌。辞退对象不执行配置操作。一个ID用于确定每个对象。配置数据表达了id;因此,使用一样的ID在配置数据流显示依赖。释放令牌保证顺序尽快释放对象,也就是这原因释放分配的资源作为一个从working-set换出。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。3.2。对象图5(一个)显示简化处理器的配置及其处理器管道。有系统逻辑电路为请求注册(RR),working-set登记文件(WSRF),目标对象。死锁的属性模型[霍尔特1972]处理器的管道,包括请求、获取和发布阶段[Takano2004]。处理器管道过程如下。(1)发送请求对象空间,搜索与ID。2)发送缓存命中时确认为搜索。(3)存储配置数据元素,并将获取的信号发送给对象空间。(4)缓存命中对象(s)在收到链通道(飞机),并发送确认的成就。过程(1)和(2)请求管道阶段,和程序(3)和(4)是取得管道阶段。释放管道取得之后出现管道阶段。这些管道阶段重叠。3.3。位置、更换和路由本节解释了该处理器管道、放置和替换。图5(b)显示了必要的设备配置,阿宝数组中的角色置换算法。尽管请求由水槽和源字段,链的来源是省略为了简化的解释。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。表二。重新配置负载组成每个因素的开销因素描述Cconfig=Chost:主机系统上周期开销+Ctraffic:周期配置交通开销+Crouting:周期动态路由开销+Cswitch:周期设置Datapath公司的开销Chost=Cplacement:开销循环寻找放置的位置+Crepalcement:开销循环寻找LRU替代候选人Ctraffic=Cload:开销循环加载配置数据(换入)+Cstore:开销循环存储配置数据(换出)表3。重新配置的工作量减少因素函数或命令传统的模型缓存模式CplacementO(NappMapps,T)O(1)CrepalcementO(NappMapps,T)O(1)CloadB×Napp×cconf+clatency(1−β)×(B×3×1+3×clatency)CstoreB×Napp×cconf+clatency(1−β)×(B×3×1+3×clatency)Croutingdhops×(Napp−1)×CroutingO(1)Napp面料用于配置Mapps面料用于已经配置应用程序T可重构场的拓扑因素(仓库每个节点的数量)B为加载和存储带宽cconfig配置数据构造的大小clatency平均数量的周期内存延迟β对象缓存命中的概率dhops平均数之间的跳转面料crouting平均周期建立首先,有四个逻辑处理器中的对象,如ID3所示,2、0、5。有一个缓存命中时逻辑对象5请求,如图5所示(c)。确实认从缓存命中存储空WSR的请求。WSR将获取的信号发送到路由器。缓存命**号和成就信号形成一个链,端口可以用于请求的逻辑对象5。当缓存命中的请求(例如,闲置逻辑对象4)PE-3请求再次,缓存命中的逻辑对象移动到堆栈的顶部(PE-0),导致一堆从PE-0转向3,如图5所示(d)和(e),当有一个缓存的请求(例如,逻辑对象5以上)后,缓存逻辑对象加载到堆栈的顶部,这也导致一个堆栈的转变。3.4。总结提出了重新配置表2显示了一个根本的重新配置负载组成的开销周期Cconf。让我们关注到每一个开销因素,如表3所示。在托管效劳为根底的情况下重新配置,它可以采取许多周期地方和替换取决于所使用的算法。一个配置交通(swapin/)是增加了datapath公司的规模配置应用程序。动态表中显示的是一个路由开销wormwhole像路由增加面料之间的物理距离。关于我们的模型,放置确定性的堆栈总是符合位置。发现LRU替换由处理数组本身也是并行完成的方式与当地互连网络。配置交通可以减少缓存机制。的根本的三个管道阶段工作的路由。动态路由是在单一的完成循环管道和特殊存放器组称为working-set注册文件。的重新配置我们的模型是一个局部重叠和datapath公司的运行时执行缓存错过时,加载和存储需要高达三个对象。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月。设计和分析的自适应处理器4。内存块音序器对象附加到一个内存块(MB)和界面块(IB)对象,如图1所示。音序器对象地址的线性内存空间。存储和加载数据通过内存数据存放器(MDR)对象,如图1所示。请求内存请求音序器和MDR对象的内存。音序器和耐多药IDs不解决配置数据流的应用程序的元素。应用程序不能使用IDs的隔离空间;一个是执行对象的空间(向前地面空间),而另一个是内存背景空间(空间)。连接两个空间是由一个中断处理程序(IH)。这种隔离使得内存映射和内存配置更灵活。这分段描述了内存序列。4.1。程序内存内存的过程如下。(1)检测音序器请求(IH内存检测)。2)发送中断配置数据元素RR,配置数据元素请求IH参照对象的id,以评估内存。(3)取得的请求,链IH的参考数据。(4)绝对地址生成地址生成单元(AGU)。(5)查找音序器,MDRID和边界地址ID分配人单位。6)配置数据组成元素配置数据(GCFG作曲家)单元。(7)组成的参考数据集对参考数据(有效的和无效的数据)作曲家(RDC)单元。8)请求配置数据元素组成在步骤6。(9)获取请求,链引用数据集(有效数据)定序器对象。(10)继续1-9直到是有效的。(11)返回请求中断配置数据流。IH中断当前配置数据流和插入一个中断配置数据流(元素)。特殊的中断配置数据请求参考数据连接到首席执行官,这被称为中断参考存放器(IRR)数据。IRR数据引用,因此音序器对象指令和操作数数据。4.2。中断处理程序中断处理程序(IH)对象对于打断一些效劳是必要的优先级高于目前的执行。IH用于当前的内存效劳。IH检查配置数据元素前一个请求RR(存储)。图6显示了一个首席执行官的框图。它有四个主要局部:DCFG检查器,操作数的作曲家,作曲家(GCFG数据全局配置数据作曲家),参考数据作曲家(RDC)。图7显示了一个图的内存效劳。当IH检测内存请求,配置数据元素引用数据用于生成内存。原来的配置数据请求参考数据描述一个内存模式,IH的请求执行对象。请求的成就后,IH获得内存通过引用的数据模式信息。地址的一代在IH计算单元(AGU)绝对的基地址。绝对的基地址绝对基addressis用于查找音序器和MDRid,以及上边界和底部边界地址。查找单位是ID分配人单位。如果内存“负载〞数据,MDRID和索引数据的值存储在“Req0〞融合缓存中解释8.1节。存储的数据用于以下请求。操作数的作曲家将引用数据划分为向量的值长度、跨步、索引和定序器指令。ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2012年3月4.2.1。准备操作数的作曲家。操作数的作曲家使用生成的信息内存。上边界地址,底部边界地址,音序器ID和MDRID分配人单位抬头的ID。IDs是用来生成一个配置数据元素。4.2.2。GCFG数据。全局配置数据(GCFG数据)配置一个或多个配置数据元素。这包括三个单元路由互联网络。一个内存请求配置一个或两个全局配置数据元素。第一个是第一阶段,一个普通的配置数据元素。第二个是第二阶段,使用配置数据元素只有一个内存请求。第二阶段融合链式加载时可以跳过使用。总是使用了第二阶段配置数据元素存储在请求MDR对象和链从源对象或对象。4.2.3.。参考数据。引用数据(RDC)配置有效参考数据(有效数据1和2如图6所示),IH的译码器显示在图6中执行反向工程。RDC是配置单元生成有效的参考数据。生成的参考数据存储在中断参考存放器(irr)。5。计算单位:物理对象本节讨论物理对象的主要局部。常见的局部上下文切换单元,比较器单元(ID),并释放令牌单元,如图1所示,堆栈的转变以及路由器,LRU对象找到逻辑电路和执行面料。5.1。上下文切换单元钢筋混凝土构造有两个上下文。一个上下文用于执行,而另一个是用于在执行堆栈的转变。上下文切换单位决定上下文通过检查数量确实认面料和执行堆栈转变逻辑电路,请求堆栈转变。事件触发设置堆栈转变一到三的计数器值通过设置位串行移位存放器。开关使信号切换上下文值:“0→1〞或“1→0。〞5.2。比较器比较器是用来检测一个缓存命中。比较器发送一个确认当一个缓存命中发生在比较器。此外,确认包括anti-data的检测结果和输出的依赖,在那里一样的请求ID。5.3。令牌检查器令牌检查检查请求和应答令牌是否已经到达。它包括两个阶段,第一阶段检查请求和的到来确认信号,和第二阶段检查发射的令牌。执行在启用了织物请求和应答令牌都检测到。令牌的条件发射同异步系统。启用后执行,Muller-C用于切换请求和应答值。令牌检查程序可以集成到一个路由器(称为飞机)。5.4。堆栈的转变和路由器5.4.1之前。堆栈转变的逻辑。堆栈转变的微体系构造的核心执行对象的迁移寻找LRU对象(s),并执行碎片整理。图8显示了堆栈构造的转变。包括,不仅当地配置数据和结果数据,而且路由数据等等。多种环境中(上下文0和1在图8)用于隐藏堆栈转变,这可能是完成频繁。一个上下文用于钢筋混凝土构造。另一个背景是用于存储堆栈将上下文。如图8所示,Muller-C值是用来制造它可以编写从堆栈的顶部数据上下文。当一个上下文改变,事件检查逻辑电路断言事件。上下文切换事件执行一个自我参照Muller-C值成认物理对象因为每个对象栈转移。5.4.2。链路由器。图9显示了一个简化的链路由器逻辑电路。链路由器是通信层如图1所示,支持可再定位性放置后的栈构造物理对象数组。链路由器由飞机,源对象和水槽之间对象链。激活标签内存对象缓存命中结果的对象,和信号的获取WSRF,形成链。获取信号选择一个平面。一个释放的信号是发送到一个特定的WSRF条目,通过一个平面。释放的信号版本中,不仅是对象,而且链互连和WSRF条目。5.5。释放令牌释放令牌中扮演一个重要的角色在高效的计算,与减少的目标的空闲时间。当释放令牌被辞退,对象被释放。这发布涉及互连网络的发布和working-set登记用于获取。释放信号发送到WSRF通过收购端口(平面)和互连网络,如图5所示。释放令牌设置维护当对象之前不链到其他源对象的作为一个源对象缓存命中,除非从内存加载。释放对象尽快收购另一个配置。虽然传统的POs数据流(数组)处理模型需要时间等待通过关键路径,我们的模型快速释放未使用datapath公司的一局部,类似于working-set窗口。5.6。发现LRU对象找到一个LRU对象在对象空间是一个重要的问题。第一个自适应处理器体系构造使用一个基于优先级的线性多路互连网络。跟踪的数量是三(缓存对象需要参考资料)。图10显示了线性多路一片互连网络订单。多路复用器选择一个对象或一个对象的结果信息(ID数据)。栈的底部附近的一个对象被选中,如果对象是一个释放状态。LRU对象的id是锁定在缓存时处理程序和锁定/小姐缓存错过发生。5.6.1。总结替代候选人。必须有三种类型的对象擦除或swapped-out堆栈(回信:世行)的转变,如表4所示。最高优先级的对象是一个空对象,相当于一个缓存条目的感冒开场和空对象不需要世行序列,因为没有更新。5.6.2。顺序查找为寻找LRU对象序列。图11(一个)显示了一个例如的一个对象空间。有一个缓存命中对象第三,LRU对象与一个不是肮脏的对象,两个脏对象第二和第六POs。信号传向堆栈的顶部,如图11所示(一个)。关于LRU对象,多路互联网络应用。对象的状态空间表达的表,如图11所示(b)。缓存命中的表是一致的左栏,LRU的其他表对象已经假定多路复用与左栏的互连网络。这三个合并成一个结果表如表,堆栈换挡规律所示图11(c)。使用前三的内容。因此,第二列的不使用肮脏的对象表。表显示了次堆栈必须转变在每个订单执行。阿宝和“1〞旗帜需要n次堆栈转变,0≤n≤3。5.7。执行面料可重构计算构造必须支持运营商支持高层描述语言如c语言等等。定序器对象计算内存块的地址或外部内存。使用这个地址从内存加载到一个MDR对象或存储流元素通过MDR对象。量的跨越半字位域。因此,一个32位的字支持一个65535的距离。该指数(设置基地址)是一种半字签名印度之行中(±32)或一个词。目前的音序器织物架构支持64公斤的内存块。MDR对象接口的内存块,数据元素必须通过这个对象。6。相关工作6.1。编译器的工作量减少但是。存放器分配和调度消除。对于传统的系统,性能存放器分配敏感(Espasaetal.1995;黄和彭2002]。因此,注册调度已经深入研究(布里格斯1992年)。的依赖关系处理器管道插入泡沫,导致存放器文件,减少存放器重命名(2000年硅镁层)。工程Ri*neretal。[2000]说明一个存放器文件的复杂性。这工程使用分布式存放器文件配置的位置在一个任务。这介绍了硬件和软件的复杂性。需要更多的硬件资源对互连网络和存放器文件创立一个层次构造。这个软件需要更多的数据流调度,因为大量的存放器。总的来说,分布式存放器文件牺牲硅资源和编译器负载到达峰值带宽在每个层次的水平。我们的模型消除了注册文件。注册的调度和存放器重命名并不是必要的。而不是硅资源分配注册文件和其网络,我们的模型分配互连网络资源,等等。6.1.2。自动位置和路由。工程的烧伤等。[1997]支持运行时地点和路线针对*ilin**C6200FPGA。因为它需要一个专用的主机执行它,它需要时间来执行。它关注的局部重新配置,有可能涉及高频重构的一局部。我们的模型需要线性阵列构造作为一个堆栈。堆栈构造和working-set登记工作链依赖对象,选择一个端口(通道)。由于multiconte*t,执行一个datapath公司基于working-set可以维护的路线,和搬迁不会影响路由。Network-on-Chip(NoC)关于网格拓扑和路由器有一个缩放限制的通信延迟和每个路由器的流量,分别(Qietal.2010年)。基于瓷砖数组的运行位置和路由有困难需要许多周期找到更好的结果。为了减少延迟,和的地方路线必须基于位置的工作最小化物理距离。陈的工程etal。[2008]是基于位置的映射到一个CMP,然而piletime,不是一个动态的地点和路线。其他也CMP的静态配置位置和路由(Tranetal.2009年)。工程的霍华德etal。[2011]消息传递接口及其支持指令和逻辑电路。CMP不关心位置直接影响到延迟。一个更高的维度拓扑显然有更高的复杂性和路线。我们的模型使用一个线性的堆栈数组构造,提供基于位置的移动对象,使更短物理距离。飞机的通信是点对点的根底上,这并不需要一个缓冲抑制路由器上的交通。6..2。内存流量减少工程Khailanyetal。[2001]讨论了基于内存流量减少在一个应用程序任务级别的生产国和消费国局部性和硬件带宽的层次构造。任务级别的生产国和消费国的位置,应用程序配置任务级别的管道,和之间的位置作为一个进程间的任务位置。流消费从流存放器文件(SRF)和生产对由ALU基因集群。当地不需要内存。带宽层次构造支持intratask位置,内部执行的地方任务是展开一个互连网络和分布式存放器文件。我们的模型是在两个进程间和intratask地方。一个进程间位置支持分布式内存块芯片。intratask位置是支持通过扩展互连网络的根本模型。一个通道分割分布通常用于应用fpga(布朗etal.1992]互连网络[Takano2004]。数据必须依赖距离短于对象数组的大小,以防止缓存小姐扩展互连网络假设短依赖配置之间的距离数据流,在应用程序中扮演着主要的角色datapath公司因我们使用一个working-set模型。正如前面提到的,涉及的内存流量调度是减少。6.3。资源管理和调度6.3.1。的资源管理和调度。几乎每一个可重构系统需要基于主机处理器的管理和调度(Brebner1996;Wigley)和科尔尼2001;BondalapatiPrasanna2002],因为没有规*可重构硬件。此类软件建立模型与一个专用主机处理器的时间和费用增加主机处理器和互连网络。托管软件增加了复杂性,不仅可重构硬件资源,而且主机本身,因为主机资源和影响对方。工程Maestreetal。[2000]提出amanagementinmulticonte*t系统,需要指数周期发现replacealbe对象,根据探索深度。我们的模型不需要主机,管理和调度后阶段。分区程序内核在主机和内核可重构硬件资源是完全没有必要的。这些优势简化系统模型,并介绍应用程序的设计和优化。再。自动的重新定位和碎片整理。基于硬件的搬迁和碎片整理讨论了康普顿etal。[2002]。它使用一个配置缓冲暂存区域维护的配置数据存储到一个特定的位置可重构的硬件资源。它使用一个专门的互连网络存储从缓冲区,和加载和存储缓冲为了搬迁,从而整理磁盘碎片。它仍然需要一个主机来处理位置和碎片整理。此外,它不讨论路由后放置和碎片整理。此外,在搬迁,datapath公司不相关重新配置必须停顿。我们的模型使用了普通的全球和本地用于互连网络缓冲和放置在堆栈的顶部,将逻辑对象从顶部的堆栈的底部。我们的模型不需要主机、停滞或维护对象之间的路由。6.4。重新配置方法6.4.1。局部重新配置。典型的方法有局部调整主机或管理部门提出了盘工程硬件指令方法(Wirthin和钦斯1995年)。一个主机系统资源是必要的管理和调度。除了资源管理和调度,的动态重新配置硬件指令只激活一个硬件指令。结果是一个连续的硬件指令顺序执行。此外,资源管理和调度位置/替换也主机系统的考虑,必须照顾碎片(RC)织物。6.4.2。Multi-Conte*t重新配置。的工程DeHon[1996]和豪泽Wawrzynek[1997]使用严密耦合的主机处理器和织物有多个(RC)配置数据的上下文。该工程设备必须缓存最频繁使用datapaths因为只有少量的上下文缓存。关于我们方法,multi-conte*t仅用于重叠执行和重新配置working-set的一局部。虽然可能重组开销相比照上下文切换的方法只有在上下文的数量回收,我们的方法可以消除时域资源管理和调度,尝试的地方/上下文替换一些调度程序软件/硬件[Bobda2007]。此外,我们的方法不浪费资源。6.4.3。重新配置管道。重新配置管道[Schmit1997]也是协处理器模型与专用控制器和内存单元。的重新配置管道需要在一个管道阶段均衡的执行时间和配置时间在另一个管道阶段减少空闲时间和维护高通量我们的方法消除了拓扑约束,在一个应用程序(1997年Schmit)必须配置为一个线性流水线datapath公司没有绕过路径。6.4.4。重新配置缓存。的工程DeHon[1996],豪泽和Wawrzynek[1997],Trimbergeretal。[1997]在FPGA使用缓存上下文。当前执行逻辑,执行新逻辑不能重叠,为了防止阻塞的绑定和执行新的逻辑。之间有一个权衡资源浪费和开销路由配置的规模缓存。如果规模过大,资源会被浪费,而且它不会有效,甚至尽管路由负载后绑定新的逻辑将被承受。如果规模太小,路由时间和本钱将会增加,即使它会有效在利用资源。关于我们的模型,这样不发生重叠的缓存。堆栈构造缓存机制不浪费资源。堆栈(缓存的结合内存)构造和working-set存放器照顾路由。的路由发生的缓存不需要额外的资源。6.5。硬件和软件的工作量传统的微处理器必须找到独立的指令来执行。这是一个并行性的难题,这些指令是很难找到,因为独立性是隐式应用程序所示,每个语句的地方连接与其他语句作为一个依赖,并构造一个原子块(根本块)。基于动态发现独立可执行指令条指令窗口[史密斯和Sohi1995],和无序的执行是基于标记的标记方案,见表诉流水线微处理器需要填充空管道阶段可执行指令。空管道阶段依赖和内存延迟发生,总结如表六世。是一个本钱的硬件资源的指令调度,然后硬件是复杂的,或执行时间的本钱schedulingwith一个编译器使编译器复杂。这导致长时间验证硬件方或长时间优化软件。而不是寻找独立性,依赖中显式地表示指令(配置数据元素)是在我们的模型中使用。自适应处理器配置原子块,并流。的流需要时间(周期)生产(中级)(年代)。这一事实导致原子的重叠配置执行块。原子块是并行执行的。这种方法提供了一个简单的处理器构造,小的设计过程和本钱。让我们比较的特点与模型传统的微处理器。没有注册文件和注册是完全分布。因此,这两个存放器重命名的硬件支持和注册着色编译器的支持是不必要的。因为没有管道风险datapath公司的模型是动态重新配置。带宽之间的差距处理器和内存很小,集成的RC织物和内存块在同一芯片。尽管投机执行提高了性能,但增加硬件本钱。我们的模型不使用投机执行。分支预测是不必要的,因为处理器管道使用最小数量的管道阶段的请求,获取和发布。微体系构造的主要问题是如何对待数据的依赖和数据流流量减少功能单位的闲置时间,从而改善的性能。我们的模型积极使用应用程序的数据依赖关系atapath公司对应working-set,积极使用多个内存块芯片上消除intra-task存放器文件中的数据流调度水平.我们的模型不使用指令窗口,存放器重命名,等等因此,我们的模型大大减少了硬件和软件的本钱。相反,模型使用基于硬件的资源管理和调度,位置/更换,碎片整理和路由。此外,该模型不使用中央解码器。这里引入了一个新的教学理念,ISA显示简单依赖性,这意味着硬件/软件由ISA作为分区是不固定的接口。接口可变量,hardware-oriented或面向软件库支持。这种先进的概念提供了特定于应用程序的平衡分配硬件和软件,在RISC和CISC方法。传统的可重构计算机器需要一个主机处理器或系统利用可重构计算加速器。这需要分区和调度的应用程序。自治重构模型不需要这个。这些支持减少了硬件和软件设计的工作负载,从而减少处理器和应用程序设计。7。工作量减少缓存模型可减少或消除以下编译器和操作系统工作负载。1)存放器分配和调度消除。(2)中表达的加载和存储配置数据仅是必要的流媒体数据。3)对象分配、分配和调度从编译器工作负载的硬件支持。(4)我们的模型不需要摊位的碎片整理程序的执行。(5)对象的位置和路由从编译器的工作负载硬件支持。(6)使用的全球互联网络路由对象没有限制datapath公司的配置,任何datapath公司的拓扑可以映射到它。7)应用程序的分区是没有必要的,因为没有分解内核在主机软件和硬件内核在RC硬件。基于硬件或软件的调度数据流的计算是必要的。为了减少或消除调度工作负载,内存流量应该减少。这些优点介绍编译器和操作系统问题减少内存交通量。(1)通过消除存放器文件,额外的通信造成的泄漏/填补作品消除。(2)它不会创立额外的加载和存储一个对象从低质量的调度。(3)任务切换的频率资源管理/操作软件和调度是减少。(4)堆栈构造阵列消除了碎片整理的任务和任务切换。(5)运行时的位置和路由由硬件、执行和任务任务切换是不必要的。(6)图转换适合在互连网络是不必要的。(7)没有分区应用程序不需要主机之间的通信和RC硬件。最后提出的模型提供了有效的计算系统,如下所示。(1)命令(指令流)相关注册文件调度、资源分配碎片整理,任务地点和路线,不需要。这些取消启用一个紧凑的应用程序代码。(2)所有处理资源可以用于计算或缓存的可再定位性逻辑对象的栈构造数组。当浪费资源存在,这些资源可以用作缓存内存,或用于多个datapath公司配置。虽然应用程序的流媒体关键路径必须适合一个物理对象数组,相当于working-set窗口,datapath公司超过能力working-set尽快配置的概念8。根本模型的扩展8.1。扩展1:融合链简单的和加载到一个对象MDR对象需要一个临时对象如图12所示(c)。Req0对象是一个临时对象,没有操作。时态对象的开销增加的频率和内存请求减少可执行对象的数量。这样一个时间对象必须被消除。融合链是解决方案。请求ID的值作为一个标签显示键直接加载MDR对象执行的对象。图12(d)、(e)和(f)显示融合链。计数器是必要的来生成惟一的id几个重复的无效内存请求。计数器的值是一个扩展的ID。因此,重置计数器值是在一个有效的内存。缓存中存储的数据融合包括MDRID、“Req0〞价值,计数器值。数据存储在负载发生内存。数据加载当请求断言融合国旗。8.2。扩展2:实例方案为了减少冗余配置数据、实例datapaths应该生成从一个模式描述。例如,一个数字滤波器有固定的构造,配置应该只有单一的配置数据挖掘处理。实例datapath公司方案配置等常规方法构造。该方案提出了这是去研究,因此,我们显示了当前开发工作。图13显示了根本对象空间和方法来创立一个实例。当一个全局配置数据流用于构造loop-body屡次提取,对象的一局部loop-bodydatapath公司复制。用于复制的对象构造新的实例。一个物理对象包括标签2,标签1,最重要的是使用(MSU)国旗,和其他信息。标签1对象ID标签2。是额外的数据实例方案,这是一个实例ID。密歇根州立大学国旗也更多数据,它显示了最重要的使用和请求的对象。实例方案一样遵循。-Object缓存错过案例没有对象请求对象ID(标签1)。存储缓存对象后,集零值标签2,密歇根州立大学国旗。-Object缓存命中情况有一个物体(s)请求对象ID(标签1)。密歇根州立大学的对象声明国旗是复制的来源。Copy对象并设置标签2+1的值时,标签2所请求的对象已经收购了。设置密歇根州立大学国旗复制对象的新实例配置和重置密歇根州立大学的旗帜在源对象实例。——缓存命中对象执行请求时配置的操作对象不是收购。-Write-Back回写式的对象不是肮脏的和/或不主*密歇根州立大学标志被忽略。方案在这种情况下的实例,实例的对象ID包含ID(标签2)和对象ID(标签1)。因此,全局配置数据元素不能解决一个对象ID。这一方案是只适合动态loop-unrolling。然而,这是非常简单的。它需要一个加法器来计算标签2的值。9。评估本节显示了评价结果。评价的目的是演示缓存模型和其内部的行为,而不是简单地显示提高性能。这需要使用简单的流媒体应用程序进展观察和分析。首先,评估系统模型是解释说。模拟器和应用程序用于评价然后解释道。9.1。与DSP相比缓存模型是数字信号处理器(DSP)。的比较DSP是LPDSP32由三洋设计大规模集成电路设计系统软(SLDS)[SLDS2010]。的LPDSP32有三个管道阶段(取指令、指令译码和执行),与72位dual-MAC蓄电池,双重加载/存储。双重加载/存储不本评价中使用,为了比较DSP的根本模型。9.2。评估模型所有的评估模型使用融合缓存扩展。有两种类型的栈转变模式。一个模型是一个严格堆栈转移模型(SSS模型),堆栈变化总是在一个对象的要求配置数据流。另一个模型不是一个严格的堆栈转移模型(NSS模型);相反,堆栈的转变是在完成的对象缓存小姐,两种模型都已被观察到的根本行为以前的工作[Takano2004]。摘要评估基于cycle-accurate仿真模拟,而不是功能。实例方案(即时模型)可用于SSS模型。共有三种模式(SSS模型,SSS+即时模型,和NSS模型)进展了评估。9.3。参数和处理器配置表七显示总结参数对处理器配置。一个对象缓存命中一个物理对象接近堆栈的顶部必须省略消除额外的运动对象的缓存命中的位置堆栈。这种消除需要决定该地区的堆栈的转变可以执行。的最大请求数在一个配置数据元素三,因此阈值大于或等于三。在这个评估中,我们使用三个。目前的模型使用一个32位的长度,一个对象ID使用8位。的RC构造的对象的最大数量是有限长度的配置数据元素。套内存块的数量也决定了这个限制。这个评估使用16个RC构造对象和16个内存块。上的延迟球线被认为是平均延迟时间,因为我们不知道数组的物理布局。延迟可以超过或等于零周期延迟。为了简单起见,所有的内存块具有一样的内存延迟。在本评价中,我们使用一个显式的一个周期延迟等全球电线全球互联网络以及zero-cycle内存延迟9.4。APsim:Cycle-Accurate模拟器为了评估缓存模型的能力,我们开发了一个cycle-accurate模拟器用c语言编写的,叫做APsim。APsim是事件驱动的,一个事件检查函数信号信息。这个事件可以检查功能用拖鞋和一个小逻辑电路实现。APsim执行每个物理对象的事件在一个单一的周期延迟时间。9.5。评估使用的应用程序为了观察缓存模型及其根本性能的特点,使用一些简单的应用程序。9.5.1。吞吐量:冷杉过滤器。吞吐量是由流的吞吐量内存性能)。因为自适应处理器配置一个特定于应用程序的管线式datapath公司,吞吐量总是常数不同流长度。自适应处理器总是3周期通信当内存延迟对象之间是零。数字滤波器是最用于数字信号处理。multiply-accumulate(MAC)用于应用程序。这类似于dot-product稍后讨论。通过级联MAC(乘法器和加法器,最多两个对象)以对象,多个阀门可以配置如图14所示。关于顺序执行需求方,吞吐量下降了敲击的次数。自适应处理器并不会导致这样的水龙头时减少配置在芯片领域。因此,自适应处理器上的吞吐量是常数,结果每1/3周期,在不同数量的水龙头。然而,后来的结果所示,配置开销不能被忽略。9.5.2。Dot-Product。在这种评价,向量的长度*围从1到16k。的dot-product程序显示了流水线处理的吞吐量。图15和与LPDSP3216显示的比较。dot-productLPDSP32,吞吐量是每3周期生成一个结果。因此,执行周期LPDSP32相当于3×L,L在哪里流的长度或数量的步骤从一开场的执行。自适应处理器具有一样的吞吐量,但开销配置从冷启动小姐执行周期自适应处理器上LPDSP32是一样的,除了这个配置的开销。配置周期引起的冷启动小姐还没有优化。这两个数据和本地配置数据总是加载配置缓冲对象,甚至虽然它通常是没有必要来加载数据。NSS模型自适应处理器有一个小数量的周期比SSS模型在短流长度(或启动阶段的执行)。这个结果不同于前面的评价[Takano2004],因为第一次评价是基于功能模拟,不包括逻辑电路及其延迟的担忧和cycle-accurate模拟器系统状态和灵活memory-mapping(如图6所示),增加执行周期。结果SSS+即时模型对应的SSS模型,因为实例没有生成。这意味着以前发布的对象被回收。当配置周期Econfig常数Cconfig周期,和执行周期Ee*ec吞吐量T流长度l.则,的总数执行周期,Etotal,对于这类应用程序当前cycle-accuratedot-product模拟器需要数以百计的周期配置小姐在冷启动的情况下减少配置的开销直接降低了总执行周期。9.5.3。矩阵向量乘法。基于dotproduct矩阵向量乘法这是包装的循环。因此,它包含的配置在循环的dot-product,inde*-calculation内存块加载流和储存标量的结果。外循环是基于hardware-loop音序器对象支持的控制流和生成内存块的地址。dot-product*围从1到16k,hardware-loop*围从1到4。因此,它组成1×1到4×16k矩阵。传统的DSP使用许多执行周期成正比的总MAC操作。NSS模型和SSS的模型自适应处理器有一样的结果,如图17所示18两个实例代(硬件循环指数两个),和数字19和20四个实例代(硬件循环指数四个)。由于优化LPDSP32代码的编译器对于每个向量的长度,它有最小的执行周期。自适应处理器只是使用一样的代码在不同的向量长度。这将创立一个大的开销在短流长度在两个模型。此外,这个应用程序还用于观察对象实例的效果方案。18日和20日的数据显示,即时模式潜在的高性能处理。执行cyclesmay减少N(N倍hardware-loop的指数)。这导致N倍执行和Ndatapaths动态生成和并行执行。然而,这个问题忽略了关于可用的内存块的数量。因此,理想的加速,Sinstant自适应处理器与即时模型对这种应用程序是Sinstant∝米,在M和M的内存块总数芯片上的数量内存块用于hardware-loopdatapath公司,分别。的加速传统的基于微处理器的系统有一定的限制,波拉克的规则,在那里加速成正比√一个,一个是可用的晶体管数量芯片。因此,即时模型优于传统模型在长执行时间。在短流长度,都是一样的,因为主要的执行周期执行周期的因素是配置开销,和处理器执行并行处理。因此,dot-products隐藏在的执行配置工作。9.5.4。摘要绩效评估的应用程序。实际的问题吞吐量如下:(1)的吞吐量datapath公司正是配置由每个内存块的内存吞吐量。(2)一个记忆块的内存延迟可以等于或大于关键路径延迟一个钢筋混凝土构造。(3)外部存储器单元内存延迟超过芯片上的延迟。因此,即使我们有一个高性能的织物,它必须等待数据(流从内存块元素)到达,并必须等待数据(流元素)完全发送到内存块。因此,我们选择简单的功能单元几乎每一个物理对象织物为了平衡功能部件和延迟内存块延迟。这种方法使得高密度的实现成为可能,它提供了相对更多的并行处理在同一芯片区域。正如在之前研究的结果[Takano2004],长向量或流提高了性能.吞吐量不断在我们的模型中。通过减少的影响造成的开销配置、自适应处理器优于传统的需求方,减少与循环应用程序吞吐量热的地方。9.6。评估的配置和发布阶段在本文中,一种新的重构技术进展了探讨。图21和22显示活动2-TAP冷杉过滤器NSS模型workingset的数量注册获取和对象的数量。其配置由一个1-TAP加载例如数据声明中,三种语句(如图14所示(b),并使用2-TAP),和一个存储结果的声明中,共有八个语句。在冷启动的情况下小姐,如图21所示,所有的对象钢筋混凝土构造的阵列。因此,重复配置序列,八时报?显示堆栈转变事件。在250周期之前,它是配置阶段。注意,处理器使用流水线资源管理。因此,第一个结果数据生成之前的配置。的配置是配置数据的重叠,获得元素消耗和保持SRF。因此working-set存放器的数量增加。活动的数量对象也有所提高。缓存错过序列,从而配置序列,使用额外的对象配置的缓冲区,IRR,MDR,音序器,为了内存块的数据和配置数据。配置序列使用每40个周期。序列由加载本地配置的两个阶段数据和加载数据。因此,可以减少最多,半周期如果初始数据不是必需的。当所有对象缓存命中,执行周期的总数小,如图22所示。坡展示了取得(请求)带宽,其中一个取得大约需要8个周期。事实上,资源管理流水线,从而有效带宽小于1/8。这种情况下不使用内存,因此没有堆栈的转变是由于缓存小姐。因此,总的来说,活动对象的数量小于冷启动的情况下。执行的最后一步是释放阶段。这两种情况下减少数量在这一阶段的活动对象。datapath公司并使释放令牌传播每个对象和working-set注册发布数据流的方式。因为释放令牌,datapath公司的一局部是尽快发布。9.7。评价堆栈转变缓存模型使用一个堆栈转变为了构造一个对象作为缓存working-set窗口。本节讨论了堆栈的数量在每一个变化钢筋混凝土构造,如图23和24所示。ID0是堆栈的顶部。它显示了累积值。评估应用程序四个dotproducts组成的矩阵向量乘法通过循环。向量长度是16。只有当NSS模型使用堆栈转变对象缓存是错过了。九个栈的变化发生在几乎每一个RC构造对象,和对象被回收。请注意,没有垃圾在RC构造数组对象在初始状态为冷启动小姐SSS模型使用一堆时的转变对象缓存到达或小姐,总共8RC构造对象被要求为每个迭代。dot-product由8语句(元素的配置数据)。数量栈的变化是增加了。多路复用互连网络,钢筋混凝土构造对象接近堆栈的顶部有一个大量的堆栈的转变。9.8。缓存模型的总结重新配置是存储配置数据到一个特定的存储控制互连网络的切换(在)或作为源数据。例子,在FPGA,CLB和LUT)数据,存储路由数据。此外,重新配置有一个阶段的资源管理和调度。在本文中,死锁属性模型和working-set模型被用来建立通过管理和调度数据重组序列,包括配置数据流量通过控制加载和存储的数据集。与working-set模型,动态改变数据集使用的概念working-set窗口,包括资源请求和释放(或填充和泄漏)。资源请求和释放由系统管理效劳资源获取从应用程序的任务。数据流量已深入研究作为一个内存层次构造。在传统的系统中,高速缓冲存储器的数据流量放松(内存子系统),它实现了研究了属性的堆栈算法。堆栈算法是用来取代内存子系统的数据集。这意味着堆栈算法是等价的为释放working-set模型算法。此外,缓存命中堆栈算法或内存子系统相当于更新系统状态当一个没有再次请求数据集获取但释放working-set模型。此外,缓存堆栈算法或内存子系统小姐是等价的更新系统状态,旨在请求而不是内存子系统。进入缓存数据集小姐内存子系统相当于进入数据集working-set窗口。在这个概念中,相当于working-set窗口内存子系统,记忆本身是资源死锁属性模型。这些行为发生在堆栈算法或缓存内存,和working-set模型是用来平衡系统通过控制界面上的数据流量注视着子系统。效劳数据流量的过程基于僵局属性模型,它检查和获得应用程序的请求和释放的任务。僵局属性模型是数据事务和资源管理过程。working-set模型是一个规则系统的平衡(数据流量)和资源调度。内存子系统的工作地点是死锁的属性模型和working-set模型。重新配置是创立事务和数据流量。它包括前面提到的资源管理的属性内存子系统和调度。因此,内存子系统本身可重构计算系统的计算单位。9.8.1。我们的模型和现有模型之间的关系。而传统working-set模型使用一个常数时间间隔τ,因此静态窗口大小,可重构计算有困难使用恒定的时间间隔和窗口大小。主问题,这是一个事实,那就是重构时间通常需要更多的时间采样间隔τ。因此,预测资源需求和调度是困难的。它需要一些调整应用到可重构计算模型。间隔过程时间τ可以建立一系列的配置或资源请求就像一个页面引用原始模型。关于一个单一的逻辑块的可重构硬件、堆栈中使用的算法LRU置换算法是有用的考虑。τWorking-setW(t)使用在我们的模型构造堆栈,堆栈可以使用最大间隔时间距离=C,C所示的缓存容量马特森etal.[1970]。一个单一的逻辑块的限制,working-set相当于LRU置换算法。同时系统对传统working-setmodel包括内存和需求处理器的要求,RC模型也有两个要求。例如,测序控制流可能的处理器和内存需求包括逻辑blockon内存资源。特别是,一个自治的应用程序,这是一个collectionof逻辑块在可重构硬件和本地内存,只能有内存需求。因此,应用程序的系统需求可以统一andestablished仅使用的内存需求。列的重新配置缓存率,成功函数(马特森etal.1970]跟踪L,命中率β(),如下:其中n()的次数堆栈距离观察处理跟踪。参考间隔距离与栈,包括重新配置时间蓝新特因子(重新配置逻辑块的大小)。参考区间包括时间序列Tseq∝蓝新特过程Pi∈(逻辑块)。因此,返回流量率ϕi[丹宁过程(逻辑块)Pi∈如下ϕi=(1−βi)1+(1−βi)·Tseq内存的平衡我迪用于构造系统平衡,和平衡政策(1968年丹宁)可以应用到系统的运行时配置硬件。在一个典型的情况下使用的主机和系统模型可重构硬件、传统working-set模型可以应用,尽管注视着需求maymake有必要将注视着之间的调度主机处理和逻辑块的资源配置。该系统平衡W(t,τ)=我作业指导书(t,τ),连接到主机(自治)系统,必须照顾抖动。9.8.2。未来的工作。即时模式,不允许inter-iteration之间的依赖在当前的模型实例。类似于融合缓存技术,一个对象ID可以用作实例之间的标签,而不是一个ID。数组的规模的影响并非本文中讨论。它增加了线延迟,从而降低性能或时钟周期时间,即时的模型。当前全球线延迟是固定为一个单一的周期延迟。未来的工作将与阵列的规模varythe延迟。此外,作为下一步,额外的评估应用程序是必要的观察缓存机制方面的影响缓存的命中率,这是有关缓存命中位置RC构造数组马特森etal.1970年)。我们还必须检查使用的全球互联网络。这纸,上的延迟互连网络是固定在一个周期。短延时和小面积模型相当于channelsegmentation分布的权衡模型[Takano2004]。这种模式下使用一个短的距离thesink和源对象的对象数组。之间的距离相当于dependencydistance应用程序的语句。它配置N-channels分段互连网络,其中N是源和水槽对象之间的最大距离。此外,它相当于距离地质学用于缓存行为(马特森etal.1970年),和形式的记忆交通模型提出了working-set模型[丹宁1968]。然而,它介绍了调度object-request秩序的距离短。这意味着我们可以控制重新配置的内存流量通过调整距离的依赖。这依赖关系的调整可以通过重新执行程序的语句。10。结论本文集中到处理器的三个工作负载和应用程序设计运行时资源管理和调度,和重新配置。为了减少这些工作负载,我们提出了新的计算模型称为缓存模型。缓存芯片上working-set模型的模型由,芯片上的僵局属性模型和缓存内存的栈构造机制。简单的构造由模块

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论