版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据实时处理技术及其应用大数据实时处理技术及其应用1Agenda••••大数据的现状业务场景思考技术架构及其应用Q&AAgenda•大数据的现状2关于京东关于京东3营销管理供应商
管理仓储管理财务系统客户数据网站前台关于京东(续)
京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平
台,全面提升用户体验。配送管理营销供应商仓储财务客户网站关于京东(续)配送4•
3
V
:速度、容量、类型•
数据的来源更加丰富–
商品、订单、„–
社交
„–
营销
„•
数据间的关联性更加复杂–
人与人–
商品与商品–
„•
数据的价值–
时效性–
新商业模式大数据时代•3V:速度、容量、类型–商品、订单、5大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日志存储…大规模数据处理更加容易ETL/企业数据仓库数据挖掘/建模(R6•••••“Next
Click”运营智能风险控制互动分析„一些场景需要进一步的考量
MapReduce批量处理
=
延迟较长无法满足用户的实时需求
调度开销较大•“NextClick”一些场景需要进一步的考量 Map7批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理„数据决策分析/„„大数据包括三部分批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处8服务模型
性能大数据实时处理的思考服务模型性能大数据实时处理的思考9•
模型–
海量数据•
数据量大•
并发数高–
多个数据源整合–
预定义好的数据模型•
去规格化–
数据任务依赖关系简单–
推和拉的问题•
拉比推好大数据实时处理的思考(续)•模型–海量数据•数据量大–多个数据源10•
性能–
高并发需求–
大容量需求•
GB–TB
级后台数据处理吞吐–
高速度需求•
从数据产生到处理完成结果延迟要求到秒级•
计算需要在短时间内完成–
批处理预算–
硬件支持•
内存、CPU、网络–
容错–
水平扩展大数据实时处理的思考(续)•性能–高并发需求•GB–TB级后11––––关联获取价值,维度按需定制互动分析、报表等完成价值交付与其他在线生产系统进行数据对接(数据反哺)计算即服务大数据实时处理的思考(续)•
服务–关联获取价值,维度按需定制大数据实时处理的思考(续)12生产数据库企业数据仓库大数据实时处理架构
财务数据集市采销数据集市罗盘数据集市分析挖掘
数据集
数据缓冲区企业消息总线流式计算集群实时数据
同步模型日志系统高速存取集群
在线实时计算集群持久化PUSHPULL/PUSH订阅ELTELT高速存取集群ETL报表应用分析应用推荐应用...数据推送中心近实时分析集群近实时计算
实时计算在线服务离线计算应用
分布式消息系统缓存集群生产数据库企业数据仓库大数据实时处理架构采销数据集市罗盘数据13––––日志(用户行为、„)批量同步消息队列„•
开源技术––––FlumeScribeKafka„大数据实时处理技术•
数据传输–日志(用户行为、„)•开源技术–Flume大数据实14•
Apache项目:/•
一个分布式的发布/订阅消息系统•
术语–
Topics•
消息分组–
Brokers•
消息存储–
Producers•
消息生产者–
Consumers•
消息消费者Kafka•Apache项目:http://kafka.apa15–––––大数据实时处理技术•
几个点SinkAgentAgentStorm等Broker(Topic1)
Broker(Topic2)HDFSZookeeper解耦缓冲容错透明跨数据中心数据分发
FlumeKafka–大数据实时处理技术SinkAgentAgentStorm等16––––––HadoopHBaseCassandraMongoDBRedis„•
数据库Sharding•
合适的就是最好的大数据实时处理技术•
存储
–
大容量低速存储
–
高速存储
–
KV存储•
开源NoSQL数据存储–Hadoop•数据库Sharding大数据实时处理17––––可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算•
开源计算框架
–
Storm
–
Impala
–
„大数据实时处理技术•
计算–可加计算、不可加计算•开源计算框架大数据实时处理技18Impala•
Cloudera公司贡献•
一种通用的SQL查询引擎(Hive语法)•
与Hadoop整合在一起HDFS
DNHBase
SQL
AppJDBC/ODBC
HiveMetastoreHDFS
NNStatestore
Query
PlannerQuery
Coordinator
Query
ExecutorHDFS
DNHBaseHDFS
DNHBase
SQLrequest
Query
PlannerQuery
Coordinator
Query
Executor
Query
PlannerQuery
Coordinator
Query
ExecutorImpalaHDFSDNHBase SQLApp H19MondrianMondrian
)(OLAP)大数据实时分析ImpalaHDFS
ImpaladDataNode
M1
ImpaladDataNode
M2
ImpaladDataNode
M3
HiveMetastoreHDFS
NNStatestore元数据缓存
IDEJDBCReport
JDBC
ROLAP
Mondrian(OLAP)
JDBCMondrianMondrian)(OLAP)大数据实时分20大数据实时分析明细事实表聚合表1聚合表2聚合表3大数据实时分析明细事实表聚合表1聚合表2聚合表321•
基本概念
–
Streams(流)
•
元组序列
–
Spouts
•
流的源头
–
Bolts
•
Functions,
Filters,
Joins,
Aggregations
–
Topologies•
优点
–
可扩展、容错、易用„–
在内存中执行流式计算Storm•
Twitter开源的分布式处理框架SpoutsBoltTopologies•基本概念 •元组序列–在内存中执行流22•
Nimbus–
主控节点,用于任务分配,集群任务监控等•
Zookeeper–
集群中协调,共有数据的存放(如心跳信息)•
Supervisor–
对应一台物理机,用于启动worker•
Worker–
工作进程,负责启动task,以及通过zeromq进行tuple的分发,与接收。•
Task–
工作线程,任务的处理Storm的部署•Nimbus–主控节点,用于任务分配,集群任23Storm的应用模式用户查询大数据存储数据视图集(批处理)数据流HadoopStorm
数据视图集(实时处理)
数据流
数据视图集(实时处理)
数据视图集(实时处理)Storm的应用模式用户查询大数据存储数据视图集数据流Had24流式计算(续)流式计算(续)25流式计算(续)应用事件收集器Storm前段展现•
事件驱动实现流式计算(续)应用事件收集器Storm前段展现•事件驱动26•
注意–
内存泄露–
消息堆积–
算法模块拆分流式计算(续)•注意–内存泄露–算法模块拆分流式计算(27––––分析可视化数据可视化数据反哺计算即服务•
仔细思考其价值–––––实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、„运营需求:资源调派„大数据实时处理技术•
服务和应用•
价值展现–分析可视化•仔细思考其价值–实时的统计:最流行大数28•
对系统的压力–
数据量–
数据展现–
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工厂食堂外包租赁协议书
- 餐饮审计租赁合同模板
- 船舶运输吊车租赁协议模板
- 安徽省心理咨询室租赁合同
- 媒体制作加班内容创新
- 国际农业合作合同管理办法
- 美甲店营业员劳动合同
- 医疗设施建设合同监管
- 八年级道德与法治开学摸底考试卷(天津专用)(答题卡)A4版
- 水泥生产储罐租赁合同
- 《秸秆还田》ppt课件
- GB∕T 4942-2021 旋转电机整体结构的防护等级(IP代码) 分级
- 食品加工企业安全设计设施专篇
- 高中政治校本课程——趣味哲学1
- 反射隔热涂料施工方案(完整版)
- 海南省建设工程施工阶段监理服务费计费规则
- 创建五星级班组PPT课件
- TBJWA001-2021健康直饮水水质标准
- 监理日报模板
- 冻结法加固在盾构隧道施工中应用讲解
- 廉洁风险防控手册(医院)
评论
0/150
提交评论