基于数据流的大数据计算引擎_第1页
基于数据流的大数据计算引擎_第2页
基于数据流的大数据计算引擎_第3页
基于数据流的大数据计算引擎_第4页
基于数据流的大数据计算引擎_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据流的大数据计算引擎技术创新,变革未来数据流起源与发展数据流的起源数据流基础理论由MIT的Jack Dennis教授于上世纪七十、八十年代提出;Jack Dennis教授是美国工程院院士,由于其在数据流理论的贡献获得2012年的IEEE 冯诺依曼奖章。数据流的发展高光荣教授跟随Jack,坚持发展30余年,并成为数据流技术的主要代表人物;高教授由于在数据流及处理器设计对中国的贡献,于2012年获得CCF海外杰出贡献奖。EARTH Gao 1999Maxeler 2014, EUCyclops-64 Gao, 2008, IBMYita飞流MDFA Gao 1989运行系统静态数据流动态数据

2、流TTDA (MIT 1990)加速 芯片新 硬件现有 硬件Threaded Abstract Machine (TAM) (MIT 1991)系统实现Static Dataflow(J. Dennis, MIT)SIGMA-ISuper Computing (1998 JP)Arg-Fetch Gao 19872控制流模型 (冯诺依曼模型)LOADR1, 1LOADR2, 2ADDR1, R2LOADR3, 3LOADR4, 4指令栈( 1 + 2)*(3 + 4 )+(5 + 6)*(7 + 8)PCPC3并行控制流模型 (并行冯诺依曼模型)PCPCPCPCPCPCPCPCLOAD R7,

3、 7LOAD R8, 8ADD R7, R8SYNC指令栈指令栈指令栈指令栈(1 + 2 )*(3 + 4 )+(5 + 6)*(7 + 8 )PCPCLOAD R1, 1LOAD R2, 2ADD R1, R2SYNCMUL R1, R3ADD R1, R5LOAD R3, 3LOAD R4, 4ADD R3, R4SYNCLOAD R5, 5LOAD R6, 6ADD R5, R6SYNCMUL R5, R74并行控制流模型 (并行冯诺依曼模型)PCPCPC指令栈指令栈指令栈指令栈PCPCPCPCPC5LOAD R7, 7LOAD R8, 8ADD R7, R8SYNCLOAD R3, 3

4、LOAD R4, 4ADD R3, R4SYNC(1 + 2)*(3 + 4)+(5 + 6)*(7 + 8)LOAD R1, 1LOAD R2, 2ADD R1, R2SYNCMUL R1, R3SYNCADD R1, R5LOAD R5, 5LOAD R6, 6ADD R5, R6SYNCMUL R5, R7SYNC数据流模型1PE+2345678Inactive TaskMUL R1, R2, R5 MUL R3, R4, R6 ADD R5, R6, R7Enabled TaskADD 1, 2, R1ADD 3, 4, R2ADD 5, 6, R3ADD 7, 8, R46数据流模型

5、3PE+7+345678Enabled TaskADD 3, 4, R2ADD 5, 6, R3ADD 7, 8, R4Inactive TaskMUL R1, R2, R5 MUL R3, R4, R6 ADD R5, R6, R734数据流模型PE+5678Inactive TaskMUL R1, R2, R5 MUL R3, R4, R6 ADD R5, R6, R73Enabled TaskADD 3, 4, R2ADD 5, 6, R3ADD 7, 8, R487数据流模型PE+56783ADD R5, R6, R7Inactive TaskMUL R1, R2, R5 MUL R3

6、, R4, R6MUL R1, R2, R5Enabled TaskADD 5, 6, R3ADD 7, 8, R491并行数据流模型+2345678Inactive TaskMUL R1, R2, R5 MUL R3, R4, R6 ADD R5, R6, R7Enabled TaskADD 1, 2, R1ADD 3, 4, R2ADD 5, 6, R3ADD 7, 8, R4PEPE10PEPE85672341并行数据流模型+Inactive TaskMUL R1, R2, R5 MUL R3, R4, R6 ADD R5, R6, R7Enabled TaskADD 1, 2, R1A

7、DD 3, 4, R2ADD 5, 6, R3ADD 7, 8, R4PEPEPEPE11并行数据流模型+31+5+7+11+Inactive TaskMUL R1, R2, R5PEPEPEPEEnabled TaskMUL R1, R2, R5 MUL R3, R4, R6MUL R3, R4, R6 ADD R5, R6, R712并行数据流模型+3+15+7+11+Enabled TaskMUL R1, R2, R5 MUL R3, R4, R6Inactive TaskADD R5, R6, R7PEPEPEPE132610并行数据流模型ADD R5, R6, R7+Inactive

8、 TaskPEPEPEPEEnabled TaskADD R5, R6, R7142610并行数据流模型+Enabled TaskInactive TaskPEPEPEPEADD R5, R6, R7计算完成数据流是一种天然并行模型,根据资源情况自适应地调节并行度。15并行数据流模型-流水线并行+3+71+11+5+Inactive TaskMUL R1, R2, R5PEPEPEPEEnabled TaskMUL R1, R2, R5 MUL R3, R4, R6MUL R3, R4, R6 ADD R5, R6, R71020304050607080ADD 10, 20, R1ADD 30

9、, 40, R2ADD 50, 60, R3ADD 70, 80, R41610203040并行数据流模型-流水线并行+3+15+11+Inactive TaskADD R5, R6, R7PEPEPEPE50607080Enabled TaskMUL R1, R2, R5 MUL R3, R4, R6ADD 10, 20, R1ADD 30, 40, R2ADD 50, 60, R3ADD 70, 80, R4+717Yita与传统控制流大数据对比基于控制流的大数据系统基于数据流的Yita系统18Yita基于Flowlet的编程模型Resource Reader AsplitLine Flo

10、wletcounter FlowletResource Writer FsplitLine FlowletResource Reader Bdef splitLine(lineNum, line, flow): for word in line.split( ): flow.push(word, 1)19arc = splitLine.bindPush(counter) arc.setFlowType(GLOBAL)ResourceReader和ResourceWriter也是一类 特殊的Flowlet。Yita执行模型任务映射 到抽象机 的计算 资源依赖关系满足的任务依赖关系未满足的任务满足

11、 依赖关系计算资源被占用 任务运行分配任务到计算资源依赖关系满足CPUCPUCPUCPUCPUCPUCPUCPUCPUMMMM抽象机中可用的计算资源任务结束释放计算资源数据流 执行模型MMCPUMMCPUMM细粒度-流水线-数据流并行模式示意图20Yita系统运行流程21Yita系统组件架构22Yita与大数据生态圈YitaMRSparkStormYARN资源管理计 算业 务流处理动态的流批混合处理数据实时数据图关联 分析计算查询处理批处理Lambda架构应用HDFSHBaseDatabasePOSIX FS数据接入23存 储KafkaSocketYita的业务场景24控制流(集群硬LYita

12、:细LYita:细Yita优势:海量内存计算Stage 1Stage 2Stage 3Stage 4Stage 5件资源的并行度(P)= 100(核)每个并行度需要数据(D)= 1 GB以Spark为例):粗粒度的数据并行数据缓存使用内存(L)数据计算使用内存(M-L)=P*D*R=100*1GB*2=200GB粒度的数据、流水线并行数据缓存使用内存(L)数据计算使用内存(M-L)=P/S*D=100/5*1GB=20GB粒度的数据、流水线并行且按流式处理载入数据L数据计算使用内存(M-L)=P/S*d=100/5*100KB=2MB25耗内存粗粒度省内存细粒度Yita执行时间Spark执行时

13、间Yita对Spark加速比Yita对Spark加速比 高达25倍Yita对Spark加速比 高达8.8倍Yita对Spark加速比Spark执行时间Yita执行时间SpoutBolt 1Bolt 2Bolt 326Yita优势:动态实时 (1/2)按照经验,预先静态定义好每一级所需计算资源ThreadSpoutBolt 1Bolt 2Bolt 3Thread实际情况中,每一级负载往往处于动态变化中,影响吞吐和延迟资源浪费资源不足27Threadwlet 3let 3ThreadYita优势:动态实时 (2/2)ReaderFlowlet 1Flowlet 2Flo计算资源无需预先分配,所有线

14、程均可以处理任意一级的计算根据每一级的实际负载,动态调配资源分配,保证吞吐和延迟ReaderFlowlet 1Flowlet 2Flow高延迟高吞吐低延迟低吞吐低延迟高吞吐Yita吞吐量Storm吞吐量Spark吞吐量Storm时延Yita时延任务; 要求。Spark时延Yita对Spark、Storm 吞吐量高达25倍Yita对Spark、Storm 平均延迟低至5%28习通用系统专用系统解决场景疏的大数算法支持 态调度Yita优势:数据智能海量更充高维分的 解决高维稀稀疏资源据场景数据利用 异步,SSP 细粒度,动 解决高维稀疏的大数据场景深度学 异步,SSP算法支持MIT 数据流数大数据

15、据流同步粗粒度异步细粒度Yita执行时间Spark执行时间Yita对Spark加速比Yita对Spark加速比 高达13倍Yita对Spark加速比 高达25倍Yita对Spark加速比Yita执行时间Spark执行时间29Yita在IO密集型上的性能的表现WordCount数据量增加TeraSort 数据量增加Grep数据量增加随着数据量的增大,IO操作 比重逐渐增大,Yita针对计 算效果的优化,反映在整体 计算性能加速上表现甚微。Yita技术生态圈华中科技大学上海交通大学中科院计算所清华大学美国特拉华大学北京大学IEEE STCParallel Execution Model and System: Dataflow and Beyond中国地质大学某省级电信运营商视频监控分析业务某省级电信运营商海量流式数据实时分析某省级电信运营商快速用户画像业务某金融信息公司智能投顾业务某省高速公路实时车辆视频分析系统某市公安实时智能视频巡逻系统商 业 案 例共同从事和推进数据 流-大数据技术研究 与产业化工作某大学校级大 数据处理平台电信金融政府教育30Yita版本状态31Yita V1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论