BlueDBM论文reviewed_第1页
BlueDBM论文reviewed_第2页
BlueDBM论文reviewed_第3页
BlueDBM论文reviewed_第4页
BlueDBM论文reviewed_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高级计算机系统结构课程报告Reviewed for BlueDBM: An Appliance for Big Data Analytics院 系 计算机科学与技术学院 专业班级 博1501班 姓 名 王坤 学 号 D201577731 2015年 12 月 26 日一、 论文大纲摘要概括本文内容,基于DRAM的存储系统虽然可以满足数据访问的需求,但是其依然存在高功耗和高成本的问题,为了解决该问题本文提出了一个名叫BlueDBM的系统架构。BlueDBM既可以带来低功耗和低成本,又可以带来高性能。1、 引言介绍大数据背景,并针对相应的问题提出BlueDBM系统,并简介该系统的功能和本论文的贡献

2、。2、 相关工作介绍了一些数据存储和FPGA异构架构两方面的相关工作,包括RAM Cloud和Catapult等。3、 系统架构每一个BlueDBM存储设备通过PCIe接口插到主机中,它构成了Flash存储,一个in-store 处理器,多个高速网络接口以及一个板上DRAM。主机通过以太网或其他通用网络连接在一起。主机能通过PCIe接口来访问BlueDBM存储设备。in-store处理器能够执行数据计算。in-store处理器可以访问四个主要部件:Flash接口,网络接口,主机接口和板上 DRAM 缓冲。3.1 Flash 接口将多个Flash片集成在几个可以并行

3、操作的信道上来实现高带宽。提出新的Flash管理算法包括垃圾回收、错误恢复和坏块管理等。同时把Flash管理从该设备移到文件系统或者设备驱动中。3.2 网络接口通过高性能串行连接将网络分层。交换机有两层,分别是内部交换机和外部交换机。从而实现低延迟和高带宽的网络接口。3.3 主机接口主机接口支持RPC和DMA操作来实现并行和高性能。4、 软件接口有三个接口可供用户程序使用,分别是文件系统接口、块设备接口和加速接口。RFS实现了FTL的某些功能,包括逻辑到物理地址映射以及垃圾回收机制。这个能以更低的内存需求而获得更好的垃圾回收效率。在BlueDBM中的文件系统接口就是采用了RFS同样的范式。为了

4、更有效的共享硬件资源,BlueDBM运行一个调度器为竞争性的用户分配可用的硬件加速单元。5、 硬件实现用FPGA来实现该in-store处理器,该架构还包括Flash、主机和网络控制器。该集群由20个机架式的Xeon服务器组成,每个服务器有24个核并且有50GB的DRAM。每一个服务器有一个Xilinx VC707 FPGA开发板通过PCIe接口连接。主机操作系统是UBuntu版本的Linux。5.1 定制的flash板卡用Xilinx的Artix 7 FPGA芯片来实现flash的的控制和ECC。然后该板卡通过FMC插在主机的FPGA上面。5.2 网络接口网络连接是用低延

5、迟的串行收发器实现的,带宽最高可以达到8GB/s。5.3 软件接口用Connectal实现主机接口。Connectal的PCIe实现最高1.6GB/s读操作和1GB/s写操作。6、 评估6.1 FPGA资源使用率Artix 7 芯片的查找表使用率为56%,寄存器使用率为23%,BRAM的使用率为50%,I/O引脚的使用率为46%。Virtex 7 FPGA的查找表使用率为45%,寄存器使用率为22%,RAMB36使用率为22%,RAMB18使用率为1%,这些数据说明还有Virtex 7 FPGA还有很充足的资源空间用来做加速器。6.2 功耗主机服务器为200W,VC707为30W,两片flas

6、h是10W,总共是240W。BlueDBM占了其中不到20%。也就是说BlueDBM为整个系统增加的功耗不足20%。6.3 网络性能每个hop的延迟是0.48微秒,一个节点有5个hop,所以延迟是2.5微秒,而flash访问的延迟大概是50微秒,所以只增加了不到5%的延迟。网络带宽最高可以达到8.2GB/s。6.4 远程存储访问该延迟由四部分组成:软件延迟、存储访问延迟、传输延迟和网络延迟。其中网络延迟都很小,传输延迟也都差不多一样。而存储访问延迟和软件延迟则与访问类型有很大的关系。6.5 存储访问带宽实验结果证明,为了提高flash的使用率,快速的网络、快速的主机互联和低消耗的软件是必须的。

7、而in-store处理器可以减轻一些上面的需求。7、 应用加速7.1 最近邻搜索把该算法的距离计算用in-store处理器完成。实验既比较了flash和in-store处理器带来的收益,又比较了BlueDBM和现成的SSD之间的性能提升。实验结果证明BlueDBM带来了一个数量级的加速。7.2 图的遍历将图的遍历算法在in-store处理器和集成存储网络中实现,结果证明有很大的性能提升。7.3 字符串搜索把MP字符串搜索引擎用in-store处理器实现,再辅以文件系统、flash控制器和应用程序。加速了7.5倍,并且可以将CPU的使用率从65%降低至13%。8、 总结和未来的工作总结系统架构以

8、及系统带来的贡献。未来的工作:通过查询处理和过滤分流到In-store处理器的SQL数据库加速应用、基于稀疏矩阵的线性代数加速以及基于BlueDBM优化的 MapReduce。9、 致谢感谢一些有贡献的人和单位。参考文献二、 论文内容分析1、 Brief summary磁盘已经无法满足复杂的数据查询对数据访问速度的要求,然而DRAM的成本又过高。本文提出BlueDBM系统。BlueDBM用flash代替磁盘支持高达20TB的大数据工作负载,还实现了用户可定制的in-store处理器用来加速应用。在性能上较磁盘提升了一个数量级,在成本上较DRAM降低了一个数量级。所以BlueDBM提供

9、了一个很有效的成本和性能均衡的方案。2、 Strengths 本文用flash代替磁盘提升了存储系统的随机访问性能; 本文用FPGA实现in-store处理器用来加速应用程序,提升了数据处理的速度,减轻了CPU负载; 本文提出的flash控制器高效的实现了数据的垃圾回收和错误恢复等; 本文利用内部交换机和外部交换机实现了低延迟和高带宽的网络。3、 WeaknessesBlueDBM系统中三块FPGA的资源使用率都不高,造成了一些硬件资源的浪费。这说明系统还有进一步优化的空间,在保证系统性能的前提下,减少成本。4、 My ideas 实现FPGA的虚拟化。将FPGA的资源进行划分,分别实现不同的

10、应用,这样可以几个应用共享一片FPGA减少FPGA的数量,减少经济成本; 实现FPGA的多重配置。将一个大应用拆分成几个小应用,这几个小应用轮流使用FPGA,这样可以用较少资源的FPGA替换当前FPGA减少经济成本。三、 实验结果的分析1、网络性能测试a. 本实验的实验目标测试系统的网络性能。b. 本实验的设计思想在多个节点之间用网络传输一个128位数据的包,统计每个hop的延迟和网络带宽。c. 本实验的具体配置最大的物理连接带宽是10Gbps,每个hop的延迟是0.48微秒。d. 图表解表该图的横坐标是hop的个数,左边纵坐标是网络带宽,右边纵坐标是所有hop的延迟之和。图中实线表示的是带宽

11、,虚线表示的是延迟。e. 实验结论网络带宽可以达到8.2Gb/s,每个节点的延迟是2.5微秒左右,假设访问flash的延迟是50微秒,那么只增加了不到5%的延迟。f. 结果解释网络带宽与hop的个数无关,稳定在8.2Gb/s。每个hop的延迟是0.5微秒左右,一个节点有5个hop的话,延迟就是2.5微秒左右。2、远程存储系统访问延迟测试a. 本实验的实验目标测试远程存储系统的访问延迟。b. 本实验的设计思想从4中不同的资源中读取8K页的数据,分别统计软件延迟、存储访问延迟、传输延迟和网络延迟。c. 本实验的具体配置4中资源如下:ISP-F:从in-store处理器到远程flash存储;H-F:

12、从主机到远程flash存储;H-RH-F:用自己的主机从主机到远程flash存储;H-D:从主机到远程DRAM。d. 图表解表该图的横坐标是四种不同的访问类型,纵坐标是延迟时间。柱形图的每段用不同的颜色标记,表示四种不同的延迟即软件延迟、存储访问延迟、传输延迟和网络延迟。e. 实验结论每种访问类型的网络延迟都很小,传输延迟也都差不多一样。而存储访问延迟和软件延迟则与访问类型有很大的关系。f. 结果解释由上图可以很明显的看出实验结论。优化后的网络延迟都很小,不论是何种访问类型其传输的路径都基本一样,所以其传输延迟也差不多。然而不同的存储器必然会造成存储访问延迟的不同,并且主机接口的不同也造成软件

13、延迟的不同。四、 收获本文提出的BlueDBM系统很好的替代了传统的存储系统,无论是在性能还是在成本控制上面都有一个数量级的提升。这篇论文中给我印象最深刻的就是用FPGA实现的in-store处理器。我们都知道FPGA是硬件的实现,这种把应用程序实现在FPGA上面的方法必然会加速程序的执行速度。对于软件方法实现的程序,我们再执行的过程中会首先编译成一些指令,然后通过CPU的取指、译码、执行和写回等步骤得到最终的程序执行结果,但是对于硬件方法来说,这些步骤都不需要,把相应的算法用电路实现以后,数据来了就可以触发电路的执行。所以,硬件的方法会比软件的方法快上很多。所以这个in-store处理器很有效的实现了应用程序执行速度的加速。但是,对于很多的软件工程师来说,FPGA是一个很陌生的东西,更不用说硬件描述语言了,所以FPGA的开发对于软件工程师来说是一大重要的问题。好在现在越来越多的FPGA可以支持OpenCL等高级语言了,这也减小了软件工程师的开发难度。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论