版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
百度张建伟•背景•架构•关键技术•收益与总结•下一步计划•背景•架构•关键技术•收益与总结•下一步计划研发效率相关工具服务托管tcherative分布式计算NFS分布式存储统一资源调度-NormandyterMetaServerNameSpace分布式文件系统研发效率相关工具服务托管tcherative分布式计算NFS分布式存储统一资源调度-NormandyterMetaServerNameSpace分布式文件系统-AFSontainer集群操作系统-Matrixnagement集群/机器管理Machinenagement高精硬件产品生产品生态搜索搜索金融糯米AI开放云ADU预预算交付管理交付管理结结算API层计算引擎资源调度资源管理机器资源背景-百度大数据计算平台API层计算引擎资源调度资源管理机器资源onNormandyatrixDCEStreama背景-百度大数据离线计算平台发展历程超过5000台百度DAG引擎上线2004200722004200720142006201120142015Hadoop15.1MR模百度统一计算表示层发布背景-DAG引擎ererducer背景-一般的Shuffle模式ererducererducer•背景•架构•关键技术•收益与总结•下一步计划ControlmessageShuffleMasterDataFlow1.createshufflesessionShufflerMapWorkerReduceWorkerHDFS7.mappushtoshufflerHDFSMapWorkerShufflerReduceWorkerMapWorkerShufflerReduceWorkerHDFSControlmessageShuffleMasterDataFlow1.createshufflesessionShufflerMapWorkerReduceWorkerHDFS7.mappushtoshufflerHDFSMapWorkerShufflerReduceWorkerMapWorkerShufflerReduceWorkerHDFSJJobMaster架构-基本概念•ShuffleMaster•Shuffler(ShuffleWorker)•WriterReader•Session•Shard•背景•架构•关键技术•收益与总结•下一步计划关键技术-ShuffleMasterwriter决定primary和backup的切换•智能调度•负载均衡MasterShuffleMasterSessionManagerSessionInfoShuffleWorkerInfoDAddresstatusLoadpushShuffleWorkerInfopushMapperInfoAssignment关键技术-ShuffleMasterwriter决定primary和backup的切换•智能调度•负载均衡MasterShuffleMasterSessionManagerSessionInfoShuffleWorkerInfoDAddresstatusLoadpushShuffleWorkerInfopushMapperInfoAssignmentInfoAssginIdShardIDDPrimaryWriterShufflerException2.Shuffler上报负载情况cServerSessionUpdatesHeartBeatflerflerflerWriterWriterpushSessionUpdateDataPusherMapperInfoMapperIDAddressSessonIDUpdateInfocClientAssgnInfoAssgnInfoAssgnInfoAssgnInfoAssgnInfoAssgnInfoSessionAhardhardhardhardhardhardAssgnInfoAssgnInfo CreateSessionDeleteSessioncServerHeartBeaHeartBeatWWriterccShuffler分配信息Shuffler状态WriterBufferDataSendercKVWriterBufferKVccShuffler分配信息Shuffler状态WriterBufferDataSendercKVWriterBufferKV关键技术-Writer•数据缓存与异步发送•异常处理ShuffleMasteShuffleMasterMapWriterSession更新状态汇报SessionAShufflersProcessSessionBDataSenderShuffler分配信息Shuffer太忙BusySuccessRPC回调返回•异常处理writer发送RPC给某个Shuffler超时也没有回调重试其他Shuffler所有RPC不再尝试此Shuffler此Buffer重试其他ShufflerShuffer太忙BusySuccessRPC回调返回•异常处理writer发送RPC给某个Shuffler超时也没有回调重试其他Shuffler所有RPC不再尝试此Shuffler此Buffer重试其他Shuffler发送bufferShuffler挂了此此Buffer的发送暂时回避这个Shuffler返回给Writer数据发送成功Cancle此Buffer对其他Shuffler返回给Writer数据发送成功ShufflerCreateSessionDeleteSessionRPCServerSessionHandlerShardHandlerSH...SHSorter...SorterSorterRpcwithShufflerCreateSessionDeleteSessionRPCServerSessionHandlerShardHandlerSH...SHSorter...SorterSorterRpcwithdataRpcwithdataRpcwithdataSortflushandackSortflushandackSortflushandackRpcwithackRpcwithack•内存聚合•流控•Sort&FlushShShuffleMasterWriterWritersSessionHandlerShardHandlerSH...SHSorterSorter1.1.相同Partition的数据交给一个activeSorter2.每个Sorter限制一定的内存大小,满内存后交给排序线程3.Sorter等待过长时间后,也交给排序线程4.所有Sorter使用内存不超过阈值1.1.N个排序线程,排序之后写入DFS,并Ack相应数据块2.待排序的Sorter个数多于排序线程数时,部分Sorter等待关键技术-Reader•所有Map完成后,调度Reduce•直接读取DFS排好序的数据•去重&数据验证•多路归并排序MapperMapperMapper关键技术-MapMapperMapperMapper•Map端Writer,要等Shuffler将数据持久化到DFS后,才能将发送的rpcbuffer释放•所有发送的数据被Shuffler持久化后,Map才能安全退出MapperMapperush关键技术-MIMO•无MIMO时:Vetex3和vertex4收到vertex2的全部两路数据再做filter。此业务作业多shuffle近10T数据broadcastvertex1mimovertex2broadcastbroadcastvertex1mimovertex2broadcast关键技术-MIMO•方案•不同边可对应不同•不同session对应不同vertexvertex0vertexvertex3normalfleMaMa关键技术-RuntimeMaMa•背景•架构•关键技术•收益与总结•下一步计划与总结•收益huffler数,减少IO度•中间数据持久化:避免重算(对dag作业尤为重要)与总结•流式Shuffle服务Shuffle局信息、更专业的shuffler来做•问题•更多的网络io(万兆网卡,网络不是瓶颈)•Shuffler资源共享,作业间可能互相影响(让Shuffler资源非瓶颈)•背景•架构•关键技术•收益与总结•下一步计划proc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年东营港经济开发区公开招聘聘任制工作人员15人备考题库及1套参考答案详解
- 2026年北京第三实验学校校园招聘11人北京第三实验学校备考题库完整答案详解
- 2026年广东派潭镇中心卫生院乡村医生招聘6人备考题库有答案详解
- 2026年关于内江市部分市本级事业单位公开选调工作人员14人的备考题库完整答案详解
- 2026年宁波市镇海区龙赛医疗集团公开招聘派遣制工作人员备考题库完整答案详解
- 2026年哈尔滨市道里区爱建社区卫生服务中心招聘备考题库参考答案详解
- 2026年中建材(浙江)材料科技有限公司招聘备考题库及完整答案详解一套
- 2026年中华人民共和国沧源海关招聘备考题库及答案详解参考
- 2026年南安市丰富小学教师招聘备考题库及参考答案详解一套
- 2026年东胜区诃额伦社区卫生服务中心招聘西医医师1名、彩超医师1名备考题库及答案详解1套
- 种子公司企业管理制度
- 口腔门诊急救药箱配置与管理规范
- 2025至2030中国日本清酒行业市场发展现状及发展前景与投资报告
- T/CECS 10169-2021埋地用聚乙烯(PE)高筋缠绕增强结构壁管材
- openEuler系统管理与服务器配置 课件 第9章DNS服务器
- 供销集团考试试题及答案
- 《并购后的整合与管理》课件
- 高一期中历史试卷及答案
- 《纪检工作规范化法治化正规化建设年行动工作方案》培训
- 江苏省苏州市2020年中考化学真题试卷(含答案)
- 《环境保护税纳税申报表(A类)》
评论
0/150
提交评论