版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
物流大数据处理物流大数据处理采集导入/预处理
统计/分析
挖掘
1234567
潘果物流大数据处理物流大数据处理采集导入/预处理
统淘宝数据分析挖掘实践及变革百度大数据分析系统架构京东大数据实时处理技术物流大数据处理简介1234目录淘宝数据分析挖掘实践及变革百度大数据分析系统架构京东大数据实【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系你知晓大数据在哪些方面有应用?你知晓大数据在哪些方面有应用?3132
架构化1950-1970数字化1970-1990
网络化1990-2010+
物联网
大数据Something
Big
is
Happening
NOW移动互联网
云计算4信息技术革命的小周期
智慧化3132 架构化数字化1970-1990 网络化 物联网移51:1
MarketingNanotargeting和Retargeting51:1MarketingNanotargeting和Re662©IBM
IBM
2013
多渠道
交通控制交易分析智慧的医疗
国土安全
制造
金融
电信欺诈和风险
日志分析
搜索质量
零售:流失、促销©
Copyright
2011
Corporation大数据在各行各业都可以获得应用22©IBMIBM20134©
Copyright
2011
Corporation©IBM
IBM
2013获得突破性回报
了解关于客户的
一切作快速大量地创新产品和风险利用工具化的资产利用大数据能力可以帮助企业获得突破性回报利用大数据独有的
技术能力
可视化和发现Hadoop
执行零延迟的操数据仓库流计算文本分析整合和治理多媒体内容通过分析仸意
大数据类型
交易
/
应用数
据机器数据社交媒体数据
实时侦测欺诈44©Copyright2011Co11快杂大大数据的新思维11快杂大大数据的新思维13多数据源的集成浮动车GPS:20M/day手机位置信息:18M/day居民调查:80000户视频/图像数据和元数据:100s
of
TB/day
GIS数据供水系统智能电网睡眠质量出租车运营数据:1M/day
交通卡:19M/day
高速路收费数据:
0.5M/day
社交网络
情感分析部分数据来源:BeijingTOCC13多数据源的集成浮动车GPS:20M/day手机位置信息:12
大数据的新方法学数据极大丰富前提下的新分析思维和技术采样数据全集数据
多数据源的整合
基于主观因果假设
相关关系
大数据+小算法
+上下文+知识积累
描述性分析预测性
和处方性分析实时性
>
绝对的精确性12 大数据的新方法学采样数据全集数据 大数据+小数据数据中介
服务生态系统
数据拥有者大数据的数据中介
数据技术公司
数据产品
和服务16数据数据中介生态系统 数据拥有者数据中介 数据技术公司大数据系统的设计权衡大体量基于采样的查询
实时性
流计算
批量计算精确性惰性数据的即席查询
Little
data
(个人计算)19城市计算增量计算内存计算大数据系统的设计权衡大体量基于采样的查询 批量计算惰性数据的案例一:大数据分析系统架构的搭建案例一:百度的数据规模•
100~1000PB•
10~100PB/天•
千亿~万亿•
百亿~千亿•
十亿~百亿/天•
十亿~百亿/天•
100TB~1PB/天
数据总量数据处理量
网页
索引
更新量
请求
日志百度的数据规模•100~1000PB 数据总量离线在线离线分析与在线实验相结合快速迭代是互联网产品的
主要创新手段
算法A
算法B
算法B
通过反馈来验证算法优劣离线在线离线分析与在线实验相结合快速迭代是互联网产品的搜索引擎的迭代5%5%Online
LearningA/B
test
策略
机器学习
平台FeatureTraining
数据网页
网页库
倒排表
Data
Mining搜索引擎的迭代5%5%OnlineLearning 机器学想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代
A/B测试,持续优化
数据智能验证数据分析应用引擎
云测试应用引擎想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代数据架构技术互联网服务
enable
数据智能数据架构互联网服务IT产业生产力的变化‘60‘70‘80‘90‘00‘10
硬件Mainframe软件
PCInternet
Inf+人+数据
Cloud迭代的本质是让人参与系统进化,而Big
Data为迭代指导方向,Infrastructure则加速迭代。
软件
+人IT产业生产力的变化‘60‘70‘80‘90‘00‘10 硬互联网服务的典型技术特点超大规模快速迭代互联网服务的典型技术特点超大规模快速迭代数据智能软件基础架构大数据数据中心、网络、服务器数据中心计算云计算技术体系数据智能软件基础架构大数据数据中心、网络、服务器数据中心计算DiskFlashPipeK/VFileTable统一存储体系
–
平衡大容量、高并发、低延迟
–
不同访问模式通过组合满足统一访问与传输数据访问层P2PCDN分布式存储DiskFlashPipeK/VFileTable统一存储描述能力数据流优化控制流管理资源分配优先级、并发控制隔离、安全执行层模型层MapReduce表示层SQL-like
翻译JoinSelectTop分布式计算BCDA描述能力数据流优化控制流管理优先级、并发控制执行层模型层Ma实时存储与计算kNN查询
平台向量计算引擎流式数据处理引擎PubSub
引擎机器学习算法平台OLAP引擎
复杂事件处理引擎
分布式数据结构超大规模数据仓库图查询
平台实时检索
平台实时存储与计算kNN查询向量计算引擎流式数据处理引擎PubS向量计算引擎VectorLayoutMap-ShuffleOperators/
CheckpointSIMDProgram向量计算引擎VectorLayoutMap-ShuffleO复杂事件处理average(price)trigger(?,b,c)filter(b)pattern(a->b->c)condition(func(a,b,c))复杂事件处理average(price)pattern(a-流式计算模型
windowstepboundtimeM=Stream<window,step,bound>流式计算模型stepboundtimeM=Stream<wi目标•
1000PB•
10亿维特征训练•
100维条件查询•
流式•
触发式
海量高维、多维
实时更大、更复杂、更快!目标•1000PB 海量更大、更复杂、更快!数据智能
分布式存储与计算
大规模人工辅劣标注系统人计算向量引擎MachineLearning
算法Web
Contents流式处理LogsPubSub推荐系统智能交通Apps
自劢评估商业智能决策辅劣数据智能 分布式 大规模人工人计算向量引擎MachineWe关于京东关于京东营销管理供应商
管理仓储管理财务系统客户数据网站前台关于京东
京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平
台,全面提升用户体验。配送管理营销供应商仓储财务客户网站关于京东配送大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日志存储…大规模数据处理更加容易ETL/企业数据仓库数据挖掘/建模(R•••••“Next
Click”运营智能风险控制互动分析„一些场景需要进一步的考量
MapReduce批量处理
=
延迟较长无法满足用户的实时需求
调度开销较大•“NextClick”一些场景需要进一步的考量 Map批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理„数据决策分析/„„大数据包括三部分批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处服务模型
性能大数据实时处理的思考服务模型性能大数据实时处理的思考•
模型–
海量数据•
数据量大•
并发数高–
多个数据源整合–
预定义好的数据模型•
去规格化–
数据任务依赖关系简单–
推和拉的问题•
拉比推好大数据实时处理的思考•模型–海量数据•数据量大–多个数据源•
性能–
高并发需求–
大容量需求•
GB–TB
级后台数据处理吞吐–
高速度需求•
从数据产生到处理完成结果延迟要求到秒级•
计算需要在短时间内完成–
批处理预算–
硬件支持•
内存、CPU、网络–
容错–
水平扩展大数据实时处理的思考•性能–高并发需求•GB–TB级后––––关联获取价值,维度按需定制互动分析、报表等完成价值交付与其他在线生产系统进行数据对接(数据反哺)计算即服务大数据实时处理的思考•
服务–关联获取价值,维度按需定制大数据实时处理的思考生产数据库企业数据仓库大数据实时处理架构
财务数据集市采销数据集市罗盘数据集市分析挖掘
数据集
数据缓冲区企业消息总线流式计算集群实时数据
同步模型日志系统高速存取集群
在线实时计算集群持久化PUSHPULL/PUSH订阅ELTELT高速存取集群ETL报表应用分析应用推荐应用...数据推送中心近实时分析集群近实时计算
实时计算在线服务离线计算应用
分布式消息系统缓存集群生产数据库企业数据仓库大数据实时处理架构采销数据集市罗盘数据––––日志(用户行为、„)批量同步消息队列„•
开源技术––––FlumeScribeKafka„大数据实时处理技术•
数据传输–日志(用户行为、„)•开源技术–Flume大数据实•
Apache项目:/•
一个分布式的发布/订阅消息系统•
术语–
Topics•
消息分组–
Brokers•
消息存储–
Producers•
消息生产者–
Consumers•
消息消费者Kafka•Apache项目:http://kafka.apa–––––大数据实时处理技术•
几个点SinkAgentAgentStorm等Broker(Topic1)
Broker(Topic2)HDFSZookeeper解耦缓冲容错透明跨数据中心数据分发
FlumeKafka–大数据实时处理技术SinkAgentAgentStorm等––––––HadoopHBaseCassandraMongoDBRedis„•
数据库Sharding•
合适的就是最好的大数据实时处理技术•
存储
–
大容量低速存储
–
高速存储
–
KV存储•
开源NoSQL数据存储–Hadoop•数据库Sharding大数据实时处理––––可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算•
开源计算框架
–
Storm
–
Impala
–
„大数据实时处理技术•
计算–可加计算、不可加计算•开源计算框架大数据实时处理技大数据实时分析明细事实表聚合表1聚合表2聚合表3大数据实时分析明细事实表聚合表1聚合表2聚合表3•
基本概念
–
Streams(流)
•
元组序列
–
Spouts
•
流的源头
–
Bolts
•
Functions,
Filters,
Joins,
Aggregations
–
Topologies•
优点
–
可扩展、容错、易用„–
在内存中执行流式计算Storm•
Twitter开源的分布式处理框架SpoutsBoltTopologies•基本概念 •元组序列–在内存中执行流•
Nimbus–
主控节点,用于任务分配,集群任务监控等•
Zookeeper–
集群中协调,共有数据的存放(如心跳信息)•
Supervisor–
对应一台物理机,用于启动worker•
Worker–
工作进程,负责启动task,以及通过zeromq进行tuple的分发,与接收。•
Task–
工作线程,任务的处理Storm的部署•Nimbus–主控节点,用于任务分配,集群任Storm的应用模式用户查询大数据存储数据视图集(批处理)数据流HadoopStorm
数据视图集(实时处理)
数据流
数据视图集(实时处理)
数据视图集(实时处理)Storm的应用模式用户查询大数据存储数据视图集数据流Had流式计算流式计算流式计算应用事件收集器Storm前段展现•
事件驱动实现流式计算应用事件收集器Storm前段展现•事件驱动实现•
注意–
内存泄露–
消息堆积–
算法模块拆分流式计算•注意–内存泄露–算法模块拆分流式计算––––分析可视化数据可视化数据反哺计算即服务•
仔细思考其价值–––––实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、„运营需求:资源调派„大数据实时处理技术•
服务和应用•
价值展现–分析可视化•仔细思考其价值–实时的统计:最流行大数•
对系统的压力–
数据量–
数据展现–
数据读写和传输•
解决方法–
前端和后端解耦•
缓存的应用•
JS发挥前端的能力–
压缩–
排队•
异步、非阻塞IO模型•
线程池•
事件驱动–
后端更强劲•
数据库集群:分库、分表、分区•
NoSQL数据库:Hbase、MongoDB等数据应用的问题•对系统的压力–数据量–数据展现–淘宝数据分析挖掘实践及变革淘宝数据分析挖掘实践及变革淘宝数据四阶段•
被动响应–2007年前•
主动变革
–2008-2010•
优化完善
–2011-2012•
引领驱动–2013-淘宝数据四阶段•被动响应–2007年前•主动变革–201数据系统变迁2007年前数据库(集群)脚本简单调度数据报表2008-2010Hadoop集群调度监控实时日志传输数据门户多维分析2011-2012Hadoop集群DXP公有云实时Storm调度监控实时日志传输实时数据库同步数据门户自助查询工具元数据管理2013-数据驱动新模式探索数据系统变迁2007年前2008-2010实时日志传输201调度监控业务库(Mysql)Log
Server外部数据数据源数据计算平台数据门户多维自助查询平台OpenAPI数据平台架构
数据应用数据收集DBSyncTTDataX……HiveHDFSHbase实时计算Storm…Ocean
Base分布式集群量子恒道在云端接入数据魔方
DXP数据交换平台冷数据
集群调监控业务库(Mysql)LogServer外部数据数数计数据应用格局数据应用格局对外数据产品•
数据魔方/淘宝指数–行业趋势–人群特征–成交排行–市场细分•
量子恒道–销售分析–营销效果–来源分析•
搜索排行榜对外数据产品•数据魔方/淘宝指数–行业趋势•量子恒道–销对外数据产品•
淘宝时光机–/–回忆的感动•
排行榜对外数据产品•淘宝时光机–http://me.taobao对外数据产品-淘宝指数对外数据产品-淘宝指数对外数据产品-量子恒道对外数据产品-量子恒道数据嵌入产品中•
搜索匹配、排序•
广告匹配、排序•
推荐•
商家后台数据•
营销效果–直通车、展示广告、淘宝客数据嵌入产品中•搜索匹配、排序•商家后台数据–直通车、展内部数据服务•
淘数据门户–用户分析–商家云图–活动效果分析–例行数据报表•
在云端–低门槛接入分布式集群–周活跃用户1000+内部数据服务•淘数据门户–用户分析–活动效果分析•在云端内部数据服务•
多维数据自助查询平台–数据仓库和索引技术结合–随意组合维度–秒级返回•
日常数据需求管理–数据接口人内部数据服务•多维数据自助查询平台–数据仓库和索引技术结合数据工具•
天网调度•
元数据管理•
数据地图-定位、血缘分析•
DataX异源数据传输•
TimeTunnel实时日志传输•
监控报警•
生命周期管理数据工具•天网调度•元数据管理•数据地图-定位、血缘分新的探索•
金融服务–小微企业贷款–个人消费贷款•
全网精准营销–DMP、DSP、AD
Exchange、RTB•
无线与PC数据打通•
数据交换新的探索•金融服务–小微企业贷款•全网精准营销–DMP、一些观点•
数据处理是手段,数据应用是根本•
云系统运维能力是核心竞争力•
整合关联让数据价值指数级增长•
数据可视化很重要•
想大做小,迭代优化•
关于隐私–隐私和服务的权衡–控制使用比控制收集更有效–不针对具体个体一些观点•数据处理是手段,数据应用是根本•想大做小,迭代初识物流物流信息技术物流信息平台概念发展历程初识物流物流信息技术物流信息平台概念发展历程物流的概念(Logistics)来源于二战军事(运输管理、仓储管理和库存管理)物流管理:除运输外的需求预测、采购、生产计划、存货管理、配送与客户服务等物流的概念(Logistics)来源于二战军事(运输管理、仓大数据物流可视化解决方案课件物流信息技术条码技术射频技术物流信息技术条码技术射频技术物流信息技术EDI技术GPS技术物流信息技术EDI技术GPS技术物流信息技术GIS技术物流信息技术GIS技术物流大数据来源被动主动自动海量并行爆发式增长物流大数据来源被动主动自动海量物流大数据处理过程处理过程挖掘统计/分析导入/预处理收集识别、定位和感知
物流大数据处理过程处理过程挖掘统计/分析导入/预处理收集识别大数据物流可视化解决方案课件研究点:物流信息平台的压力测试物流信息平台大数据在亚马逊平台的性能分析……研究点:物流信息平台的压力测试整合:用服务去换取管理科学拆分数据的数量优于质量数据相关性优于数据逻辑性或因果性公共平台解决网络(资源)与流程(服务)电商物流企业(物流仓储平台建设、物流信息平台建设)启示整合:用服务去换取管理启示发展趋势大数据能否预言足球盛况?拭目以待发展趋势大数据能否预言足球盛况?拭目以待ThankYou!ThankYou!物流大数据处理物流大数据处理采集导入/预处理
统计/分析
挖掘
1234567
潘果物流大数据处理物流大数据处理采集导入/预处理
统淘宝数据分析挖掘实践及变革百度大数据分析系统架构京东大数据实时处理技术物流大数据处理简介1234目录淘宝数据分析挖掘实践及变革百度大数据分析系统架构京东大数据实【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系你知晓大数据在哪些方面有应用?你知晓大数据在哪些方面有应用?3132
架构化1950-1970数字化1970-1990
网络化1990-2010+
物联网
大数据Something
Big
is
Happening
NOW移动互联网
云计算4信息技术革命的小周期
智慧化3132 架构化数字化1970-1990 网络化 物联网移51:1
MarketingNanotargeting和Retargeting51:1MarketingNanotargeting和Re662©IBM
IBM
2013
多渠道
交通控制交易分析智慧的医疗
国土安全
制造
金融
电信欺诈和风险
日志分析
搜索质量
零售:流失、促销©
Copyright
2011
Corporation大数据在各行各业都可以获得应用22©IBMIBM20134©
Copyright
2011
Corporation©IBM
IBM
2013获得突破性回报
了解关于客户的
一切作快速大量地创新产品和风险利用工具化的资产利用大数据能力可以帮助企业获得突破性回报利用大数据独有的
技术能力
可视化和发现Hadoop
执行零延迟的操数据仓库流计算文本分析整合和治理多媒体内容通过分析仸意
大数据类型
交易
/
应用数
据机器数据社交媒体数据
实时侦测欺诈44©Copyright2011Co11快杂大大数据的新思维11快杂大大数据的新思维13多数据源的集成浮动车GPS:20M/day手机位置信息:18M/day居民调查:80000户视频/图像数据和元数据:100s
of
TB/day
GIS数据供水系统智能电网睡眠质量出租车运营数据:1M/day
交通卡:19M/day
高速路收费数据:
0.5M/day
社交网络
情感分析部分数据来源:BeijingTOCC13多数据源的集成浮动车GPS:20M/day手机位置信息:12
大数据的新方法学数据极大丰富前提下的新分析思维和技术采样数据全集数据
多数据源的整合
基于主观因果假设
相关关系
大数据+小算法
+上下文+知识积累
描述性分析预测性
和处方性分析实时性
>
绝对的精确性12 大数据的新方法学采样数据全集数据 大数据+小数据数据中介
服务生态系统
数据拥有者大数据的数据中介
数据技术公司
数据产品
和服务16数据数据中介生态系统 数据拥有者数据中介 数据技术公司大数据系统的设计权衡大体量基于采样的查询
实时性
流计算
批量计算精确性惰性数据的即席查询
Little
data
(个人计算)19城市计算增量计算内存计算大数据系统的设计权衡大体量基于采样的查询 批量计算惰性数据的案例一:大数据分析系统架构的搭建案例一:百度的数据规模•
100~1000PB•
10~100PB/天•
千亿~万亿•
百亿~千亿•
十亿~百亿/天•
十亿~百亿/天•
100TB~1PB/天
数据总量数据处理量
网页
索引
更新量
请求
日志百度的数据规模•100~1000PB 数据总量离线在线离线分析与在线实验相结合快速迭代是互联网产品的
主要创新手段
算法A
算法B
算法B
通过反馈来验证算法优劣离线在线离线分析与在线实验相结合快速迭代是互联网产品的搜索引擎的迭代5%5%Online
LearningA/B
test
策略
机器学习
平台FeatureTraining
数据网页
网页库
倒排表
Data
Mining搜索引擎的迭代5%5%OnlineLearning 机器学想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代
A/B测试,持续优化
数据智能验证数据分析应用引擎
云测试应用引擎想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代数据架构技术互联网服务
enable
数据智能数据架构互联网服务IT产业生产力的变化‘60‘70‘80‘90‘00‘10
硬件Mainframe软件
PCInternet
Inf+人+数据
Cloud迭代的本质是让人参与系统进化,而Big
Data为迭代指导方向,Infrastructure则加速迭代。
软件
+人IT产业生产力的变化‘60‘70‘80‘90‘00‘10 硬互联网服务的典型技术特点超大规模快速迭代互联网服务的典型技术特点超大规模快速迭代数据智能软件基础架构大数据数据中心、网络、服务器数据中心计算云计算技术体系数据智能软件基础架构大数据数据中心、网络、服务器数据中心计算DiskFlashPipeK/VFileTable统一存储体系
–
平衡大容量、高并发、低延迟
–
不同访问模式通过组合满足统一访问与传输数据访问层P2PCDN分布式存储DiskFlashPipeK/VFileTable统一存储描述能力数据流优化控制流管理资源分配优先级、并发控制隔离、安全执行层模型层MapReduce表示层SQL-like
翻译JoinSelectTop分布式计算BCDA描述能力数据流优化控制流管理优先级、并发控制执行层模型层Ma实时存储与计算kNN查询
平台向量计算引擎流式数据处理引擎PubSub
引擎机器学习算法平台OLAP引擎
复杂事件处理引擎
分布式数据结构超大规模数据仓库图查询
平台实时检索
平台实时存储与计算kNN查询向量计算引擎流式数据处理引擎PubS向量计算引擎VectorLayoutMap-ShuffleOperators/
CheckpointSIMDProgram向量计算引擎VectorLayoutMap-ShuffleO复杂事件处理average(price)trigger(?,b,c)filter(b)pattern(a->b->c)condition(func(a,b,c))复杂事件处理average(price)pattern(a-流式计算模型
windowstepboundtimeM=Stream<window,step,bound>流式计算模型stepboundtimeM=Stream<wi目标•
1000PB•
10亿维特征训练•
100维条件查询•
流式•
触发式
海量高维、多维
实时更大、更复杂、更快!目标•1000PB 海量更大、更复杂、更快!数据智能
分布式存储与计算
大规模人工辅劣标注系统人计算向量引擎MachineLearning
算法Web
Contents流式处理LogsPubSub推荐系统智能交通Apps
自劢评估商业智能决策辅劣数据智能 分布式 大规模人工人计算向量引擎MachineWe关于京东关于京东营销管理供应商
管理仓储管理财务系统客户数据网站前台关于京东
京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平
台,全面提升用户体验。配送管理营销供应商仓储财务客户网站关于京东配送大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日志存储…大规模数据处理更加容易ETL/企业数据仓库数据挖掘/建模(R•••••“Next
Click”运营智能风险控制互动分析„一些场景需要进一步的考量
MapReduce批量处理
=
延迟较长无法满足用户的实时需求
调度开销较大•“NextClick”一些场景需要进一步的考量 Map批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理„数据决策分析/„„大数据包括三部分批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处服务模型
性能大数据实时处理的思考服务模型性能大数据实时处理的思考•
模型–
海量数据•
数据量大•
并发数高–
多个数据源整合–
预定义好的数据模型•
去规格化–
数据任务依赖关系简单–
推和拉的问题•
拉比推好大数据实时处理的思考•模型–海量数据•数据量大–多个数据源•
性能–
高并发需求–
大容量需求•
GB–TB
级后台数据处理吞吐–
高速度需求•
从数据产生到处理完成结果延迟要求到秒级•
计算需要在短时间内完成–
批处理预算–
硬件支持•
内存、CPU、网络–
容错–
水平扩展大数据实时处理的思考•性能–高并发需求•GB–TB级后––––关联获取价值,维度按需定制互动分析、报表等完成价值交付与其他在线生产系统进行数据对接(数据反哺)计算即服务大数据实时处理的思考•
服务–关联获取价值,维度按需定制大数据实时处理的思考生产数据库企业数据仓库大数据实时处理架构
财务数据集市采销数据集市罗盘数据集市分析挖掘
数据集
数据缓冲区企业消息总线流式计算集群实时数据
同步模型日志系统高速存取集群
在线实时计算集群持久化PUSHPULL/PUSH订阅ELTELT高速存取集群ETL报表应用分析应用推荐应用...数据推送中心近实时分析集群近实时计算
实时计算在线服务离线计算应用
分布式消息系统缓存集群生产数据库企业数据仓库大数据实时处理架构采销数据集市罗盘数据––––日志(用户行为、„)批量同步消息队列„•
开源技术––––FlumeScribeKafka„大数据实时处理技术•
数据传输–日志(用户行为、„)•开源技术–Flume大数据实•
Apache项目:/•
一个分布式的发布/订阅消息系统•
术语–
Topics•
消息分组–
Brokers•
消息存储–
Producers•
消息生产者–
Consumers•
消息消费者Kafka•Apache项目:http://kafka.apa–––––大数据实时处理技术•
几个点SinkAgentAgentStorm等Broker(Topic1)
Broker(Topic2)HDFSZookeeper解耦缓冲容错透明跨数据中心数据分发
FlumeKafka–大数据实时处理技术SinkAgentAgentStorm等––––––HadoopHBaseCassandraMongoDBRedis„•
数据库Sharding•
合适的就是最好的大数据实时处理技术•
存储
–
大容量低速存储
–
高速存储
–
KV存储•
开源NoSQL数据存储–Hadoop•数据库Sharding大数据实时处理––––可加计算、不可加计算实时数据的实时计算实时数据的计算数据的实时计算•
开源计算框架
–
Storm
–
Impala
–
„大数据实时处理技术•
计算–可加计算、不可加计算•开源计算框架大数据实时处理技大数据实时分析明细事实表聚合表1聚合表2聚合表3大数据实时分析明细事实表聚合表1聚合表2聚合表3•
基本概念
–
Streams(流)
•
元组序列
–
Spouts
•
流的源头
–
Bolts
•
Functions,
Filters,
Joins,
Aggregations
–
Topologies•
优点
–
可扩展、容错、易用„–
在内存中执行流式计算Storm•
Twitter开源的分布式处理框架SpoutsBoltTopologies•基本概念 •元组序列–在内存中执行流•
Nimbus–
主控节点,用于任务分配,集群任务监控等•
Zookeeper–
集群中协调,共有数据的存放(如心跳信息)•
Supervisor–
对应一台物理机,用于启动worker•
Worker–
工作进程,负责启动task,以及通过zeromq进行tuple的分发,与接收。•
Task–
工作线程,任务的处理Storm的部署•Nimbus–主控节点,用于任务分配,集群任Storm的应用模式用户查询大数据存储数据视图集(批处理)数据流HadoopStorm
数据视图集(实时处理)
数据流
数据视图集(实时处理)
数据视图集(实时处理)Storm的应用模式用户查询大数据存储数据视图集数据流Had流式计算流式计算流式计算应用事件收集器Storm前段展现•
事件驱动实现流式计算应用事件收集器Storm前段展现•事件驱动实现•
注意–
内存泄露–
消息堆积–
算法模块拆分流式计算•注意–内存泄露–算法模块拆分流式计算––––分析可视化数据可视化数据反哺计算即服务•
仔细思考其价值–––––实时的统计:最流行广告CTR预测ETL:格式转换、重复值过滤、„运营需求:资源调派„大数据实时处理技术•
服务和应用•
价值展现–分析可视化•仔细思考其价值–实时的统计:最流行大数•
对系统的压力–
数据量–
数据展现–
数据读写和传输•
解决方法–
前端和后端解耦•
缓存的应用•
JS发挥前端的能力–
压缩–
排队•
异步、非阻塞IO模型•
线程池•
事件驱动–
后端更强劲•
数据库集群:分库、分表、分区•
NoSQL数据库:Hbase、MongoDB等数据应用的问题•对系统的压力–数据量–数据展现–淘宝数据分析挖掘实践及变革淘宝数据分析挖掘实践及变革淘宝数据四阶段•
被动响应–2007年前•
主动变革
–2008-2010•
优化完善
–2011-2012•
引领驱动–2013-淘宝数据四阶段•被动响应–2007年前•主动变革–201数据系统变迁2007年前数据库(集群)脚本简单调度数据报表2008-2010Hadoop集群调度监控实时日志传输数据门户多维分析2011-2012Hadoop集群DXP公有云实时Storm调度监控实时日志传输实时数据库同步数据门户自助查询工具元数据管理2013-数据驱动新模式探索数据系统变迁20
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天然气储量评估与开发技术创新考核试卷
- 农业科学与农产品加工企业兴起考核试卷
- 2024劳务分包合同(范本)
- 肉桂的栽培种植管理
- 2024居间借款合同模板
- 行政部转正述职报告
- 2024砂石料销售合同范文
- 禽腺病毒的诊断与治疗
- 幼儿英语教师年终总结
- 苏州科技大学天平学院《建筑表现基础》2021-2022学年第一学期期末试卷
- 解一元一次方程去分母 全市一等奖
- InfoQ:2023中国企业数字化人才发展白皮书
- 阀门检验试验方案
- 第14章-几何非线性有限元分析1
- 供水设备维保实施方案
- 04S519小型排水构筑物1
- 肾病综合征业务学习
- 关于交通运输局自查报告范文
- 500万羽智能化蛋鸡养殖项目可行性研究报告-立项备案
- 人工智能(基础版)高职人工智能基础课程PPT完整全套教学课件
- 放弃父母的财产的协议书
评论
0/150
提交评论