版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据处理技术简介1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍大数据概念1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。3、海量异构的数据(包括文本、图像、声音等)。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用的实例包括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流模型中,数据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海量瞬时流动数据建模并处理,产生了一些新的基础性研究问题。大数据处理技术的应用大数据应用情景一(B2C、C2C与金融):淘宝、股票等即时交易数据截至2011年11月,淘宝Beltles平台单日最大服务调用量19亿。今年淘宝双11QPS:32万/分钟2012-01-14报道,铁道部12306网站连续5天日均点击数超过10亿次,高峰时超过14.09亿次,导致系统近乎崩溃或瘫痪。2009年四月统计:上证交易所新一代交易系统峰值订单处理能力约80000笔/秒,平均订单时延比现用交易系统缩短30%以上,系统日双边成交容量不低于1.2亿笔/日,相当于单市场1.2万亿的日成交规模。大数据应用情景三(社交网络):社交网络即时消息处理每秒钟,人们发送290万封电子邮件。每分钟,人们向Youtube上传60个小时的视频。每一天,人们在Twitter上发消息1.9亿条微博。每一天,人们在Twitter上发出3.44亿条消息。每一天,人们在Facebook发出40亿条信息。大数据应用情景三(物联网数据流):传感网、物联网、智慧城市数据库
传感设备
服务器
用户端程序
实时数据流处理平台
Internet设备网PDA决策支持PC机传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如位置、生活信息等数据,对在线即时处理提出了更高的要求和挑战。大数据应用情景四(数据流过滤):互联网带宽增长根据中国互联网络信息中心(CNNIC)的“中国互联网络发展状况统计报告”调查显示,2011年中国的互联网基础资源继续保持快速增长,IP地址、域名、网站和网页等增速基本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mbps,半年增长了7.6%。国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理能力必须与数据流量大小相匹配。
Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。实时计算(数据驱动)VS.批处理计算(任务驱动)
国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处理能力必须与数据流量大小相匹配。Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文件系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。实时计算(数据驱动)VS.批处理计算(任务驱动)
应用计算模型与通信机制数据规模计算模型普通集群基于消息传递的分布式模型TB级/百台MPI云计算基于文件传输的并行计算模型PB级/千台MapReduce数据流实时云计算基于消息(封装文件)传输的并行计算PB级/千台Online
MapReduce分布布式式并行行计计算算系系统统流水水线线+并行行、、可配配置置、可容容错错、弹性性可可扩扩展展、全内内存存、、实时时在线线处理理。。第一一类类方方法法,,Hadoop改造造::[1]YingyiBu等在在HadoopMapReduce工作作的的基基础础上上设设计计了了HaLoop,主主要要克克服服了了Hadoop进行行迭迭代代计计算算时时需需要要设设置置收收敛敛条条件件以以及及每每次次迭迭代代均均需需要要重重新新加加载载数数据据的的缺缺点点;;[2]伯克克利利大大学学的的TysonCondie等对对Hadoop进行行改改进进,,设设计计了了HadoopOnlinePrototype(HOP)系统统,,支支持持连连续续查查询询、、事事件件监监测测以以及及流流处处理理等等功功能能;;[3]Facebook在SIGMOD’’2011上发发表表了了利利用用Hbase/Hadoop进行行实实时时处处理理数数据据的的论论文文,,通通过过一一些些实实时时性性改改造造,,力力图图使使hadoop批处处理理计计算算平平台台也也具具备备实实时时计计算算的的能能力力。。[4]Google在新新一一代代内内容容索索引引系系统统中中放放弃弃了了MapReduce,替替代代者者是是尚尚不不为为人人知知的的分分布布式式数数据据处处理理系系统统Percolator,Percolator是一一种种增增量量处处理理平平台台,,它它能能持持续续更更新新索索引引系系统统,,无无需需从从头头重重新新处处理理一一遍遍整整个个系系统统。。[5]WangLam等开开发发了了类类似似于于Map-reduce框架架、、专专注注于于快快速速处处理理数数据据的的Muppet;第二二类类方方法法,,实实时时云云计计算算系系统统::[6]MIT等三三所所高高校校的的研研究究人人员员联联合合研研发发了了第第二二代代分分布布式式流流处处理理系系统统Borealis;[7]SheheryarMalik设计计了了具具有有良良好好错错误误容容忍忍机机制制的的实实时时云云计计算算系系统统;;HarmeekSinghBedi申请请了了实实时时云云计计算算系系统统的的专专利利;;[8]BaiduDstream,淘淘宝宝Beales,FacebookPuma,TwitterStorm,Yahoo!S4[9]2011年组组织织了了以以实实时时云云计计算算和和虚虚拟拟化化为为主主题题的的国国际际讨讨论论组组会会RTSOAA(Real-TimeCloudComputingandVirtualization)。。[10]2011年度度的的HadoopChina大会会一一个个热热点点议议题题就就是是数数据据流流计计算算,,在在MapReduce计算算模模型型风风靡靡全全球球之之后后,,StreamProcessing将会会是是下下一一个个研研究究热热点点,,无无论论是是在在工工业业界界还还是是学学术术界界。。实时时计计算算系系统统的的改改造造1234大数数据据处处理理相相关关工工具具介介绍绍国内内相相关关数数据据处处理理平平台台简简介介Storm实时时计计算算系系统统简简介介概念念及及背背景景介介绍绍Hadoop家族族14开源源工工具具简简介介---批处处理理HadoopCommon:Hadoop体系系最最底底层层的的一一个个模模块块,,为为Hadoop各子子项项目目提提供供各种种工具具,,如如::配配置置文文件件和和日日志志操操作作等。HDFS:是是Hadoop的分分布布式式存存储储系系统统,同Google的GFS性质质是是一一样样的的。MapReduce:是是一一种种编编程程模模型型,,用用于于大大规规模模数数据据集集的的并并行行运算算。Hive是基基于于Hadoop的一一个个数据据仓库库工具具,,提供供简简单单的的sql查询询功功能能,,可可以以将将sql语句句转转换换为为MapReduce任务务进进行行运行行,十分分适适合合数据据仓仓库库的统统计计分分析析。。Pig:Pig最大大的的作作用用就就是是对MapReduce算法法(框架架)实现现了了一一套套shell脚本本,,类类似似我我们们通通常常熟熟悉悉的的SQL语句句,,在在Pig中称称之之为为PigLatin。Hbase:一个分分布布式式、、可可扩扩展展的的大大数数据据存存储储。。它它提提供供了了大大数数据据集集上上随随机机和和实实时时的的读读/写访访问问,,并并针针对对了了商商用用服服务务器器集集群群上上的的大大型型表表格格做做出出优优化化———上百百亿亿行行,,上上千千万万列列。它是是Googlebigtable的一一个个开开源源的的实实现现。。Zookeeper:它是一个个针针对对大大型型分分布布式式系系统统的的可可靠靠协协调调系系统统,功功能能包括括::配配置置维维护护、、名名字字服服务务、、分分布布式式同同步步、、组组服服务务等等。。ZooKeeper的目标就就是封装装好复杂杂易出错错的关键键服务,,将简单单易用的的接口和和性能高高效、功功能稳定定的系统统提供给给用户。它是Google的Chubby一个开源源的实现现。开源工具简简介---实时计算算国外1:facebookpuma国外2:twitterstorm国外3:yahoo!s4Twitter数据处理理分层架架构Puma3系统数据据处理通通路Storm数据流处处理示意意图S4数据流处处理流程程RealtimeCloudcomputingFacebookPumaTwitter
StormYahoo!S4开发语言JAVAClojureJAVA高可用机制被动备用上游回放被动备用架构均匀架构主从架构主从架构资源利用率低高低恢复时间短长长开源工具具简介---全内存查查询Spark是一通用用并行计计算框架架,由UCBerkeley的AMP实验室开开发。将中间数数据放到到内存中中,对于于迭代运运算效率率比较高高。如::机器学学习(ML)与hadoop相比提供供了更多多种运算算操作,,并且通通信模型型也是多多样的,,hadoop仅有DataShuffle。缺点:Spark不适用那那种异步步细粒度度更新状状态的应应用,例例如web服务的存存储或者者是增量量的web爬虫和索索引。就就是对于于那种增增量修改改的应用用模型,,因为增增量改动动完了,,也就不不用了,,不需要要迭代了了。Druid为分析而设计计-Druid是为OLAP工作流的探索索性分析而构构建。它支持持各种filter、aggregator和查询类型,,并为添加新新功能提供了了一个框架。。交互式查询-低延迟数据摄摄取架构允许许事件在它们们创建后毫秒秒内查询,完全有可能在在6TB的数据集上实实现秒级查询询。高可用性-支持需要一直直在线的SaaS的实现。你的的数据在系统统更新时依然然可用、可查查询。规模的的扩大和缩小小不会造成数数据丢失。可伸缩-每天处理数十十亿事件和TB级数据。Druid被设计成PB级别。优缺点:Druid对于需要实时时单一、海量量数据流摄取取产品非常适适合。特别是是如果你面向向无停机操作作时,如果你你对查询查询询的灵活性和和原始数据访访问要求,高高于对速度和和无停机操作作,Druid可能不是很好的解决方案。1234大数据处理相相关工具介绍绍国内相关数据据处理平台简简介Storm实时计算系统统简介概念及背景介介绍国内相关计算算平台国内1:baidu下一代数据流流系统DStream百度基础架构构部的下一代代规划中,实实时计算是重重要的组成部部分。实时计算系统统和批处理计算系系统同属于云计算算这个大的范范畴,相互配合使用用。批处理计算算是MapReduce(Hadoop)、实时计算算是DStream等。DStream的Release1.0版本在2012年上半年发布布。DStream依赖几个第三三方系统,Bigpipe、Zookeeper和HDFS,分别用于数数据流输入输输出和操作日日志的存储、、分布式异常常监控、用户户文件存储和和计算状态存存储。1、每天有超过30亿的店铺、商商品浏览记录录,10亿在线商品数数,上千万的的成交、收藏藏和评价数据。2、量子统计、数据魔魔方和淘宝指数。3、Hadoop集群:1500个节点,每天有大约40000个作业对1.5PB的原始数据按按照产品需求求进行不同的的MapReduce计算。4、Storm集群:处理实时流流数据。国内相关计算算平台国内2:淘宝数据分析平平台架构数据存储引擎:MySQL的MyISAM引擎统计数据:10TB(分布在20个节点),每每天6亿条的增量节点类型划分分:热节点:SAS硬盘(15000转/分钟)4.5W/TB冷节点:SATA硬盘(7500转/分钟)1.6W/TB缺点:不能解解决全属性选选择器问题,,这时NoSql是对其的有益益补充。Myfox简介4:300国内相关计算算平台国内相关计算算平台国内2:淘宝Beatles实时流式数据据分析平台2010年Beatles开放平台基础础体系开始建建立,服务调调用量增涨到到了9亿。截至2011年11月,单日最大大服务调用量量19亿,增量统计计实时性要求求在2分钟内(包含含数据分析和和数据产出,,低峰期1分钟,高峰期期1分半),系统统可用性要求求高于99.6%目录1234大数据处理相相关工具介绍绍国内相关数据据处理平台简简介Storm实时计算系统统简介概念及背景介介绍Storm实时计算系统Storm数据流处理引擎整体体架构主要模块Master-Supervisor-Worker的模块关系图图控制节点启动动Master,负责整个topology执行监控和任务分分配工作节点启动动Supervisor,每个Supervisor包含一组port,每个port可以初始化一一个Worker,每个Worker执行一部分数数据处理程序序工作节点启动动Zookeeper,负责topology的协调和同步Nimbus模块Supervisor模块步骤1:Supervisor从Zookeeper目录中下载Worker执行的代码步骤2:Supervisor监控Worker的执行状态。。步骤3:Supervisor向Zookeeper的目录中写入入它所监控的的各个Worker的心跳信息Worker模块步骤1:Worker从Zookeeper目录获取Task集合步骤2:Worker建立接收和发发送的消息队队列步骤3:Worker内部的每个Task开始初始化,,准备执行处处理程序和向向Zookeeper发送心跳步骤4:消息队列把把Tuple发送给相应的的Task进行处理,处处理结果再传传给消息队列列进行下发关键技术——并行处理技术术条件:查询由两个有状态态算子(一个个Join和一个Aggregate)和4个无状态算子子(两个Map和两个Filter)组成。如图b所示,将每个个算子都部署署在有15个节点的子集集群,跳数为为5,每个节点的的扇出数为15,所以扇出的总数就就是155。如图c所示,将a所示的查询根根据有状态算算子进行划分分,可以划分分成3个子查询,每每个子查询都都部署在30个节点的子查查询上,由此此可见,跳数数为2,每个节点的的扇出数为302。相关工作关键技术——可靠性保障技技术a)主动备份技术术b)被动备份技术术c)上游备份技术术主动备份技术术:节点A产生的元组同同时发送给主主节点B1和备份节点B2。该容错技术术存在保存副
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年版影视制作与发行合同
- 美业门店培训课程设计
- 英语加国学课程设计理念
- 感觉统合课程设计大班
- 油画初学者 课程设计
- 2024政法干警考试复习资料
- 系统动力学课程设计总结
- 深圳市政府投资交通建设项目管理模式-第二册
- 大班社会签到课程设计
- 2024年羽绒家纺销售岗位职责(共8篇)
- 第六单元大单元教学设计统编版语文八年级上册
- GB/T 713.2-2023承压设备用钢板和钢带第2部分:规定温度性能的非合金钢和合金钢
- 宠物养护与经营专业《宠物解剖生理》课程标准
- 沪教2011课标版三年级起点五年级下册《Buying Clothes》说课稿
- 幼儿园教职工教代会会议记录
- 车辆移交安全协议书
- 《涑水记闻》2021年江苏镇江中考文言文阅读真题(含答案与翻译)
- 家庭家教家风·家庭美德·文明家庭主题班会
- 庐山云雾阅读答案千姿百态
- 个人营业执照注销委托书范文
- 影像叙事语言智慧树知到答案章节测试2023年中国传媒大学
评论
0/150
提交评论