版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
物流大数据处理物流大数据处理采集导入/预处理
统计/分析
挖掘
1234567
潘果淘宝数据分析挖掘实践及变革百度大数据分析系统架构京东大数据实时处理技术物流大数据处理简介1234目录【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系你知晓大数据在哪些方面有应用?3132
架构化1950-1970数字化1970-1990
网络化1990-2010+
物联网
大数据Something
Big
is
Happening
NOW移动互联网
云计算4信息技术革命的小周期
智慧化51:1
MarketingNanotargeting和Retargeting62©IBM
IBM
2013
多渠道
交通控制交易分析智慧的医疗
国土安全
制造
金融
电信欺诈和风险
日志分析
搜索质量
零售:流失、促销©
Copyright
2011
Corporation大数据在各行各业都可以获得应用24©
Copyright
2011
Corporation©IBM
IBM
2013获得突破性回报
了解关于客户的
一切作快速大量地创新产品和风险利用工具化的资产利用大数据能力可以帮助企业获得突破性回报利用大数据独有的
技术能力
可视化和发现Hadoop
执行零延迟的操数据仓库流计算文本分析整合和治理多媒体内容通过分析仸意
大数据类型
交易
/
应用数
据机器数据社交媒体数据
实时侦测欺诈411快杂大大数据的新新思维13多数据源的的集成浮动车GPS:20M/day手机位置信信息:18M/day居民调查:80000户视频/图像像数据和元数据:100sofTB/dayGIS数据据供水系统智能电网睡眠质量出租车运营营数据:1M/day交通卡:19M/day高速路收费费数据:0.5M/day社交网络情感分析部分数据来来源:BeijingTOCC12大数据的新新方法学数据极大丰丰富前提下下的新分析析思维和技技术采样数据全集数据多数据源的的整合基于主观因因果假设相关关系大数据+小小算法+上下文+知识积累累描述性分析析预测性和处方性分分析实时性>绝对的精确确性数据数据中介服务生态系统数据拥有者者大数据的数据中介数据技术公公司数据产品和服务16大数据系系统的设设计权衡衡大体量基于采样样的查询询实时性流计算批量计算算精确性惰性数据据的即席席查询Littledata(个人计计算)19城市计算算增量计算算内存计算算案例一::大数据分分析系统统架构的的搭建百度的数数据规模模•100~1000PB•10~100PB/天•千亿~万亿•百亿~千亿•十亿~百亿/天•十亿~百亿/天•100TB~1PB/天数据总量量数据处理理量网页索引更新量请求日志离线在线离线分析析与在线线实验相相结合快速迭代代是互联网网产品的的主要创新新手段算法A算法B算法B通过反馈馈来验证证算法优优劣搜索引擎擎的迭代代5%5%OnlineLearningA/Btest策略机器学习习平台FeatureTraining数据网页网页库倒排表DataMining想法原型系统快速开发发测试产品部署运维维开发框架架互联网产产品的迭迭代A/B测试,持持续优化化数据智能能验证数据分析析应用引擎擎云测试应用引擎擎数据架构技术互联网服服务enable数据智能能IT产业业生产力力的变化化‘60‘70‘80‘90‘00‘10硬件Mainframe软件PCInternetInf+人+数据Cloud迭代的本本质是让让人参与与系统进进化,而BigData为迭代代指导方方向,Infrastructure则加加速迭代代。软件+人互联网服服务的典典型技术术特点超大规模模快速迭代代数据智能能软件基础础架构大数据数据中心心、网络络、服务务器数据中心心计算云计算技技术体系系DiskFlashPipeK/VFileTable统一存储储体系–平衡大容容量、高高并发、、低延迟迟–不同访问问模式通通过组合合满足统一访问问与传输输数据访问问层P2PCDN分布式存存储描述能力力数据流优优化控制流管管理资源分配配优先级、、并发控控制隔离、安安全执行层模型层MapReduce表示层SQL-like翻译JoinSelectTop分布式计计算BCDA实时存储储与计算算kNN查询平台向量计算算引擎流式数据据处理引引擎PubSub引擎机器学习习算法平台台OLAP引擎复杂事件件处理引引擎分布式数数据结构构超大规模模数据仓仓库图查询平台实时检索索平台向量计算算引擎VectorLayoutMap-ShuffleOperators/CheckpointSIMDProgram复杂事件件处理average(price)trigger(?,b,c)filter(b)pattern(a->b->c)condition(func(a,b,c))流式计算算模型windowstepboundtimeM=Stream<window,step,bound>目标•1000PB•10亿维维特征训训练•100维维条件查查询•流式•触发式海量高维、多多维实时更大、更更复杂、、更快!数据智能能分布式存储与计计算大规模人人工辅劣标注注系统人计算向量引擎擎MachineLearning算法WebContents流式处理理LogsPubSub推荐系统统智能交通通Apps自劢评估估商业智能能决策辅劣劣关于京东东营销管理供应商管理仓储管理财务系统客户数据网站前台关于京东东京东拥有有覆盖企企业全部部价值链链的稳定定系统,,通过持持续优化化打造开开放平台,全面面提升用用户体验验。配送管理大规模数数据处理理更加容容易ETL/企业数数据仓库库(Hive/Pig/MR))数据挖掘掘/建模模(R、Mahout))搜索和推推荐日志存储储…•••••“NextClick”运营智能能风险控制制互动分析析„一些场景景需要进进一步的的考量MapReduce批量处理理=延迟较长长无法满足足用户的的实时需需求调度开销销较大批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型MapReduceQueriesDAG用户分析师/开发者分析师/开发者开发者成本中高高应用ETL/数据挖掘/预处理„数据决策分析/„„大数据包包括三部部分服务模型性能能大数数据据实实时时处处理理的的思思考考•模型型–海量量数数据据•数据据量量大大•并发发数数高高–多个个数数据据源源整整合合–预定定义义好好的的数数据据模模型型•去规规格格化化–数据据任任务务依依赖赖关关系系简简单单–推和和拉拉的的问问题题•拉比比推推好好大数数据据实实时时处处理理的的思思考考•性能能–高并并发发需需求求–大容容量量需需求求•GB––TB级后后台台数数据据处处理理吞吞吐吐–高速速度度需需求求•从数数据据产产生生到到处处理理完完成成结结果果延延迟迟要要求求到到秒级级•计算算需需要要在在短短时时间间内内完完成成–批处处理理预预算算–硬件件支支持持•内存存、、CPU、、网网络络–容错错–水平平扩扩展展大数数据据实实时时处处理理的的思思考考––––关联联获获取取价价值值,,维维度度按按需需定定制制互动动分分析析、、报报表表等等完完成成价价值值交交付付与其其他他在在线线生生产产系系统统进进行行数数据据对对接接((数数据据反反哺哺))计算算即即服服务务大数数据据实实时时处处理理的的思思考考•服务务生产产数数据据库库企业业数数据据仓仓库库大数数据据实实时时处处理理架架构构财务务数数据据集集市市采销销数数据据集集市市罗盘盘数数据据集集市市分析析挖挖掘掘数据据集集数据据缓冲冲区区企业业消消息息总总线线流式式计计算算集集群群实时时数数据据同步步模型型日志志系统统高速速存存取取集集群群在线线实实时时计计算算集集群群持久久化化PUSHPULL/PUSH订阅阅ELTELT高速速存存取取集集群群ETL报表表应应用用分析析应应用用推荐荐应应用用...数据推送中心近实实时时分分析析集集群群近实实时时计计算算实时时计计算算在线线服服务务离线线计计算算应用用分布布式式消消息息系系统统缓存存集集群群––––日志志((用用户户行行为为、、„„))批量量同同步步消息息队队列列„•开源源技技术术––––FlumeScribeKafka„大数数据据实实时时处处理理技技术术•数据据传传输输•Apache项项目目:•一个个分分布布式式的的发发布布/订订阅阅消消息息系系统统•术语语–Topics•消息息分分组组–Brokers•消息息存存储储–Producers•消息息生生产产者者–Consumers•消息息消消费费者者Kafka–––––大数数据据实实时时处处理理技技术术•几个个点点SinkAgentAgentStorm等Broker(Topic1)Broker(Topic2)HDFSZookeeper解耦耦缓冲冲容错错透明明跨数数据据中中心心数数据据分分发发FlumeKafka––––––HadoopHBaseCassandraMongoDBRedis„•数据据库库Sharding•合适适的的就就是是最最好好的的大数数据据实实时时处处理理技技术术•存储储–大容容量量低低速速存存储储–高速速存存储储–KV存存储储•开源源NoSQL数数据据存存储储––––可加加计计算算、、不不可可加加计计算算实时时数数据据的的实实时时计计算算实时时数数据据的的计计算算数据据的的实实时时计计算算•开源源计计算算框框架架–Storm–Impala–„大数数据据实实时时处处理理技技术术•计算大数据实实时分析析明细事实实表聚合表1聚合表2聚合表3•基本概念念–Streams(流))•元组序列列–Spouts•流的源头头–Bolts•Functions,Filters,Joins,Aggregations–Topologies•优点–可扩展、、容错、、易用„„–在内存中中执行流式计算算Storm•Twitter开源的的分布式式处理框框架SpoutsBoltTopologies•Nimbus–主控节点点,用于于任务分分配,集集群任务务监控等等•Zookeeper–集群中协协调,共共有数据据的存放放(如心心跳信息息)•Supervisor–对应一台台物理机机,用于于启动worker•Worker–工作进程程,负责责启动task,以及及通过zeromq进进行tuple的分发发,与接收。•Task–工作线程程,任务务的处理理Storm的部署Storm的应用模模式用户查询询大数据存存储数据视图图集(批处理理)数据流HadoopStorm数据视图图集(实时处处理)数据流数据视图图集(实时处处理)数据视图图集(实时处处理)流式计算算流式计算算应用事件收集集器Storm前段展现现•事件驱动动实现•注意–内存泄露露–消息堆积积–算法模块块拆分流式计算算––––分析可视视化数据可视视化数据反哺计算即服务务•仔细思考考其价值值–––––实时的统统计:最最流行广告CTR预测测ETL::格式转转换、重重复值过过滤、„„运营需求求:资源源调派„大数据实实时处理理技术•服务和应应用•价值展现现•对系统的的压力–数据量–数据展现现–数据读写写和传输输•解决方法法–前端和后后端解耦耦•缓存的应应用•JS发挥挥前端的的能力–压缩–排队•异步、非非阻塞IO模型型•线程池•事件驱动动–后端更强强劲•数据库集集群:分分库、分分表、分分区•NoSQL数据据库:Hbase、MongoDB等数据应用用的问题题淘宝数据据分析挖挖掘实践践及变革革淘宝数据据四阶段段•被动响应应–2007年前前•主动变革革–2008-2010•优化完善善–2011-2012•引领驱动动–2013-数据系统统变迁2007年前数据库(集群)脚本简单调度度数据报表表2008-2010Hadoop集集群调度监控控实时日志志传输数据门户户多维分析析2011-2012Hadoop集集群DXP公公有云实时Storm调度监控控实时日志志传输实时数据据库同步步数据门户户自助查询询工具元数据管管理2013-数据驱动动新模式探探索调度监控业务库((Mysql))LogServer外部数据据数据源数据计算平台数据门户户多维自助助查询平平台OpenAPI数据平台台架构数据应用数据收集DBSyncTTDataX……HiveHDFSHbase实时计算算Storm…OceanBase分布式集集群量子恒道道在云端接接入数据魔方方DXP数据交换平台冷数据集群数据应用用格局对外数据据产品•数据魔方方/淘宝宝指数–行业趋趋势–人群特特征–成交排排行–市场细细分•量子恒道道–销售分分析–营销效效果–来源分分析•搜索排行行榜对外数据据产品•淘宝时光光机–回忆的的感动•排行榜对外数据据产品-淘宝指指数对外数据据产品-量子恒恒道数据嵌入入产品中中•搜索匹配配、排序序•广告匹配配、排序序•推荐•商家后台台数据•营销效果果–直通车车、展示示广告、、淘宝客客内部数据据服务•淘数据门门户–用户分分析–商家云云图–活动效效果分析析–例行数数据报表表•在云端–低门槛槛接入分分布式集集群–周活跃跃用户1000+内部数据据服务•多维数据据自助查查询平台台–数据仓仓库和索索引技术术结合–随意组组合维度度–秒级返返回•日常数据据需求管管理–数据接接口人数据工具具•天网调度度•元数据管管理•数据地图图-定位位、血缘缘分析•DataX异源源数据传传输•TimeTunnel实时日日志传输输•监控报警警•生命周期期管理新的探索索•金融服务务–小微企企业贷款款–个人消消费贷款款•全网精准准营销–DMP、DSP、ADExchange、RTB•无线与PC数据据打通•数据交换换一些观点点•数据处理理是手段段,数据据应用是是根本•云系统运运维能力力是核心心竞争力力•整合关联联让数据据价值指指数级增增长•数据可视视化很重重要•想大做小小,迭代代优化•关于隐私私–隐私和和服务的的权衡–控制使使用比控控制收集集更有效效–不针对对具体个个体初识物流流物流信息技术物流信息平台概念发展历程物流的概概念(Logistics)来源于二战军事(运输管理、仓储管理和库存管理))物流管理理:除运输外的需求预测测、采购、生产计划划、存货管理理、配送与客客户服务务等物流信息息技术条码技术术射频技术术物流信息息技术EDI技术GPS技术物流信息息技术GIS技术物流大数数据来源源被动主动自动海量并行爆发式增增长物流大数数据处理理过程处理过程程挖掘统计/分析导入/预处理收集识别、定定位和感感知研究点::物流信息息平台的的压力测测试物流信息息平台大大数据在在亚马逊逊平台的的性能分分析…………………………整合:用用服务去去换取管管理科学拆分分数据的数数量优于于质量数据相关关性优于于数据逻逻辑性或或因果性性公共平台台解决网网络(资资源)与与流程((服务))电商物流流企业((物流流仓储平平台建设设、物物流信息息平台建建设))启示发展趋势势大数据能能否预言言足球盛盛况?拭目以待待ThankYou!9、静夜四无邻邻,荒居旧业业贫。。12月-2212月-22Friday,December23,202210、雨中黄叶树树,灯下白头头人。。11:42:1711:42:1711:4212/23/202211:42:17AM11、以以我我独独沈沈久久,,愧愧君君相相见见频频。。。。12月月-2211:42:1711:42Dec-2223-Dec-2212、故人江海海别,几度度隔山川。。。11:42:1711:42:1711:42Friday,December23,202213、乍乍见见翻翻疑疑梦梦,,相相悲悲各各问问年年。。。。12月月-2212月月-2211:42:1711:42:17December23,202214、他他乡乡生生白白发发,,旧旧国国见见青青山山。。。。23十十二二月月202211:42:17上上午午11:42:1712月月-2215、比不了得就就不比,得不不到的就不要要。。。十二月2211:42上上午12月-2211:42December23,202216、行动出成果果,工作出财财富。。2022/12/2311:42:1711:42:1723December202217、做前,,能够环环视四周周;做时时,你只只能或者者最好沿沿着以脚脚为起点点的射线线向前。。。11:42:17上上午11:42上上午11:42:1712月-229、没有失败,,只有暂时停停止成功!。。12月-2212月-22Friday,December23,202210、很多事情努努力了未必有有结果,但是是不努力却什什么改变也没没有。。11:42:1711:42:1711:4212/23/202211:42:17AM11、成功就是日日复一日那一一点点小小努努力的积累。。。12月-2211:42:1711:42Dec-2223-Dec-2212、世间间成事事,不不求其其绝对对圆满满,留留一份份不足足,可可得无无限完完美。。。11:42:1711:42:1711:42Friday,December23,202213、不知香香积寺,,数里入入云峰。。。12月-2212月-2211:42:1711:42:17December23,202214、意意志志坚坚强强的的人人能能把把世世界界放放在在手手中中像像泥泥块块一一样样任任意意揉揉捏捏。。23十十二二月月202211:42:17上上午午11:42:1712月月-2215、楚塞塞三湘湘接,,荆门门九派派通。。。。。十二月月2211:42上上午12月月-2211:42Decembe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025玉石买卖合同标准版
- 2025文化长廊景观改造合同书
- 宇观商业策略探索之旅洞察太空经济的机遇
- 科技媒体融合引领内容创新的未来趋势
- 课题申报参考:考虑AI直播和政府补贴的电商供应链决策研究
- 教育领域中的创新思维与商业创新
- 新时代下智慧农场的技术与运营模式研究
- 2024年彩妆化妆品项目资金需求报告代可行性研究报告
- 火灾应急救援中的协同作战策略探讨
- 仪器仪表在智能养老中的应用考核试卷
- 山东铁投集团招聘笔试冲刺题2025
- 真需求-打开商业世界的万能钥匙
- 2025年天津市政集团公司招聘笔试参考题库含答案解析
- GB/T 44953-2024雷电灾害调查技术规范
- 2024-2025学年度第一学期三年级语文寒假作业第三天
- 2024年列车员技能竞赛理论考试题库500题(含答案)
- 心律失常介入治疗
- 《无人机测绘技术》项目3任务2无人机正射影像数据处理
- 6S精益实战手册
- 展会场馆保洁管理服务方案
- 监理从业水平培训课件
评论
0/150
提交评论