版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ArchSummit
2014全球架构师峰会京东实时数据平台技术实践刘彦伟目录京东大数据平台介绍实时数据平台背景实时数据平台解决方案关键环节详解关于平台产品化京东大数据平台定位支撑全集团数据业务全集团数据集中自助式服务平台模式大数据
平台商城拍拍易迅无线金融京东大数据平台发展历程---技术选型2011年之前2011~20122012~至今京东大数据平台发展历程---技术选型传统商业数据仓库解决方案弊端高复杂度计算任务并发性差海量数据处理能力不足存储能力有限扩展性差成本高后期遇到的问题越来越多的ETL任务需要12点后才能完成任务排队现象严重基于流量等大数据量的批量计算和复杂推荐类算法基本无法应付存储达到上限,需不断转移历史数据京东大数据平台发展历程---工具脚本+配置文件分散工具集一站式消费+多屏可用京东大数据平台架构自助式服务平台支持离线模式\流式模式开源组件+自主研发通过产品化发挥最大价值让用户专注于开发实时数据平台背景运营场景实时感知业务运行情况,实现实时决策支持,比如调整营销策略、库房排班等营销场景根据用户位置、实时浏览轨迹、商品价格变化等实现精准推荐、广告Top排行榜:销量排行、热度排行等优化离线数据仓库数据抽取环节传统“T+1”模式的数据仓库每天凌晨第一件事就是增量或全量抽取业务数据
随着数据抽取任务的不断增长,数据抽取时间成本不断增长,离线计算启动时间不
断被推迟实时数据平台要解决的几个问题实时数据采集----数怎么来数据要全延迟要低实时数据存储----数放在哪数据存储统一方便使用、高吞吐量实时数据计算----数怎么算及时性支持高复杂度场景实时数据平台解决方案实时数据采集实时数据总线实时数据分发实时数据流式处理准实时数据批量处理高可用实现产品化关键环节详解—实时数据采集实时数据来源在线系统记录日志统一的实时日志采集方案支持数据上报提供SDK支持用户上报实时数据基于数据库日志无需开发数据最全优势几乎覆盖全部业务数据通过产品化实现用户自助接入快速新增实时数据关键环节详解—实时数据采集数据库日志采集方案Parser分库分表数据合并格式转换协议解析数据拆分数据过滤数据压缩Tracker数据确认数据压缩异构适配实时采集DBJDQ数据缓存库粒度原始日志保证顺序内部使用JDQ数据缓存表粒度结构数据保证顺序对外消费关键环节详解—高可用的任务调度框架实时任务调度框架–
Magpie保证任务的高可用节点不可用时任务自动切换到可用节点调度框架通过Zookeeper实现各调度节点的无状态根据CPU,内存,网络资源平衡集群各节点压力通过分组实现集群内资源隔离集群规模水平扩展整合监控关键环节详解—实时数据总线DBLOG在线系统JDQTopic_f2Topic_f1Topic_p1Topic_t2Topic_t1SDK上报BinlogFile关键环节详解—实时数据总线实时数据采集与下游数据使用者之间的桥梁数据共享通道实现了数据集中、统一了实时数据出口一个支持高吞吐率的分布式消息队列保障数据的基本可靠性以Topic为单位存储实时数据对象基于单分区保障Binlog数据的顺序性支持数据权限控制关键坏环节导详解—流式处理离线胃批量俊计算静态走数据规则伯可变流式腾计算动态牙数据规则种预设及时然响应关键并环节格详解—流式处理流式询计算--诸--计算涨程序盼从庞镰大而敲连续罚的数抄据流文中提垮取、鲁过滤迈、分兴析数弟据实时姐数据阴是一顽个持症续的基数据快流基于诱事件矿触发并行叶计算可靠宪的消放息处寨理机倍制,益失败盟后自粒动重卫试及时务性高舒,毫粉秒级叙处理岁延迟关键配环节浑详解—实时愿计算猛平台统一保的实粘时计洒算平汗台基于St卡or携m打造遣的流评式计肃算平我台提供SD插K实现墙与JD信Q的对拐接,翻从而突通过JD渔Q获取川实时丝式数据提供腰可视征化的馋配置荒管理成系统支持Jo痛b的自恳助上央传、揪测试叠、发刮布、攻管控左服务支持Jo菊b的版逐本控旁制集成尸监控纵,实薪现状很态、率延迟脚等异殊常报众警实时进查看Jo兆b运行哲日志实现巴了公听司资债源利们用最济大化悲,包焦括人峰力、释技术浊、硬探件等关键刷环节疼详解—实时燃数据哲分发从JD楚Q中消您费某盘一特涂定数纵据,询并根俭据用陶户配扎置信蚀息将雪数据圾分发冈到HD奖FS中日志脆型文胖件数无据落斑地为HD牢FS的文茅件Bi母nl窝og型实黄时增忌量数凑据落才地为宾准实谨时Hi旱ve还原脚表基于比分钟桨级时贴间分扣区存卖储每个压分区娃中一神份全敏量数言据提供UD越F获取渐最新婚分区基于蕉实时佳增量扬日志础每天蝴生成洲一份皇拉链枣表关键论环节善详解—实时军数据删分发准实摩时Hi险ve还原子表的荒实现劫思路关键作环节衣详解—准实椒时批银量处理适用桑场景计算糖逻辑侍复杂闭,难思以通凶过流聚式处泄理模胳式实每现的墓实时抄计算及场景开发司人员赔擅长糕传统ET砌L开发撒或SQ排L,不筒熟悉寺流式尿处理可以幸接受苦分钟独级的备延迟实现报方式每隔固定兔时间鼠周期瞒(分洞钟级企)批阁量处洪理一暗次与传倡统离论线数握据处乱理模飘式相脉同,刻学习蝴成本高低依赖准实决时的hi率ve还原景表关键螺环节呀详解—基于脉Bi戴nl藏og妄增量坡日志舞的拉演链表改变础原有”T牲+1得”数据调抽取录模式省去抗离线菠抽取寒环节基于涝当天甚数据振库实惜时Bi振nl相og增量忌日志脑快速生生成咱离线千拉链饱表缩短组离线级计算赢等待凭时间关于乱平台绒产品宁化愿景通过必产品望化降捐低技册术门骡槛,剃从而滤降低运大数钟据消眨费门党槛让人系人都狡成为素数据笛专家原则流程牵抽象标准延化功能丸完备董,配艘置、上管控篮、监继控、换分析殖、运珍营等蠢功能敞缺一淹不可其他统一膊风格稿、统钓一交孤互关注争细节帮助刺文档+提示+最佳犁案例多屏侮可用关于洒平台匆产品涨化—标准棋化关于踪蝶平台婶产品茧化—分析广告法一下《京东洁技术解密》的面每世,赶就是嗓京东沸技术慰团队筹首次腔向业谷界集粘体亮扒相。京东金创始殿人刘荡强东蚀、腾讯骄大佬臣张志等东作驰序鼎饰力推趣荐,同禽样写烧给产睁品、饼运营翅、管磨理、侄品牌寄商、区创业汇人群蹄。书中壁用翔执实的湾内容险为读列者逐附一解贝答:——如何
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论