大数据处理技术简介课件

上传人：r*** IP属地：贵州上传时间：2022-12-10 格式：PPTX 页数：74 大小：5.74MB 积分：25 举报 版权申诉

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据处理技术简介大数据处理技术简介1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍1234大数据处理相关工具介绍国内相关数据处理平台简介Sto大数据概念1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。3、海量异构的数据（包括文本、图像、声音等）。大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）大数据概念1、指的是所涉及的资料量规模巨大到无法通过目前主流近年来，一种新的数据密集型应用已经得到了广泛的认同，这些应用的实例包括：网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流模型中，数据以大量、快速、时变（可能是不可预知）的数据流持续到达，如何对海量瞬时流动数据建模并处理，产生了一些新的基础性研究问题。大数据处理技术的应用近年来，一种新的数据密集型应用已经得到了广泛的认同，大数据应用情景一（B2C、C2C与金融）：淘宝、股票等即时交易数据截至2011年11月，淘宝Beltles平台单日最大服务调用量19亿。今年淘宝双11QPS:32万/分钟2012-01-14报道，铁道部12306网站连续5天日均点击数超过10亿次，高峰时超过14.09亿次，导致系统近乎崩溃或瘫痪。2009年四月统计：上证交易所新一代交易系统峰值订单处理能力约80000笔/秒，平均订单时延比现用交易系统缩短30%以上，系统日双边成交容量不低于1.2亿笔/日，相当于单市场1.2万亿的日成交规模。大数据应用情景一（B2C、C2C与金融）：淘宝、股票等即时交大数据应用情景三（社交网络）：社交网络即时消息处理每秒钟，人们发送290万封电子邮件。每分钟，人们向Youtube上传60个小时的视频。每一天，人们在Twitter上发消息1.9亿条微博。每一天，人们在Twitter上发出3.44亿条消息。每一天，人们在Facebook发出40亿条信息。大数据应用情景三（社交网络）：社交网络即时消息处理每秒钟，人大数据应用情景三（物联网数据流）：传感网、物联网、智慧城市数据库

传感设备

服务器

用户端程序

实时数据流处理平台

Internet设备网PDA决策支持PC机传感网、物联网源源不断产生海量数据流、数据量更大，加上能更准确、更快地收集比如位置、生活信息等数据，对在线即时处理提出了更高的要求和挑战。大数据应用情景三（物联网数据流）：传感网、物联网、智慧城市数大数据应用情景四（数据流过滤）：互联网带宽增长根据中国互联网络信息中心（CNNIC）的“中国互联网络发展状况统计报告”调查显示，2011年中国的互联网基础资源继续保持快速增长，IP地址、域名、网站和网页等增速基本与网民增长等速或超过网民的增速，网络国际出口带宽达到1,182,261.45Mbps，半年增长了7.6%。大数据应用情景四（数据流过滤）：互联网带宽增长根据中国互联网国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据流流入系统，系统处理能力必须与数据流量大小相匹配。

Hadoop（MapReduce）框架为批处理做了高度优化，数据存储在分布式文件系统中，系统典型地通过调度批量任务来操作分布式文件系统静态数据。实时计算（数据驱动）VS.批处理计算（任务驱动）

国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据流流入系统，系统处理能力必须与数据流量大小相匹配。Hadoop（MapReduce）框架为批处理做了高度优化，数据存储在分布式文件系统中，系统典型地通过调度批量任务来操作分布式文件系统静态数据。实时计算（数据驱动）VS.批处理计算（任务驱动）

国内外相关研究数据流计算的典型模式之一是不确定数据速率的数据应用计算模型与通信机制数据规模计算模型普通集群基于消息传递的分布式模型TB级/百台MPI云计算基于文件传输的并行计算模型PB级/千台MapReduce数据流实时云计算基于消息（封装文件）传输的并行计算PB级/千台Online

MapReduce分布式并行计算系统

流水线+并行、可配置、可容错、弹性可扩展、全内存、实时在线处理。应用计算模型与通信机制数据规模计算模型普通集群基于消息传递的第一类方法，Hadoop改造：[1]YingyiBu等在HadoopMapReduce工作的基础上设计了HaLoop，主要克服了Hadoop进行迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点；[2]伯克利大学的TysonCondie等对Hadoop进行改进，设计了HadoopOnlinePrototype(HOP)系统，支持连续查询、事件监测以及流处理等功能；[3]Facebook在SIGMOD’2011上发表了利用Hbase/Hadoop进行实时处理数据的论文，通过一些实时性改造，力图使hadoop批处理计算平台也具备实时计算的能力。[4]Google在新一代内容索引系统中放弃了MapReduce，替代者是尚不为人知的分布式数据处理系统Percolator，Percolator是一种增量处理平台，它能持续更新索引系统，无需从头重新处理一遍整个系统。[5]WangLam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet；第二类方法，实时云计算系统：[6]MIT等三所高校的研究人员联合研发了第二代分布式流处理系统Borealis；[7]Sheheryar

Malik设计了具有良好错误容忍机制的实时云计算系统；HarmeekSinghBedi申请了实时云计算系统的专利；[8]BaiduDstream，淘宝Beales，FacebookPuma，TwitterStorm，Yahoo！S4[9]2011年组织了以实时云计算和虚拟化为主题的国际讨论组会RTSOAA（Real-TimeCloudComputingandVirtualization）。[10]2011年度的Hadoop

China大会一个热点议题就是数据流计算，在MapReduce计算模型风靡全球之后，Stream

Processing将会是下一个研究热点，无论是在工业界还是学术界。实时计算系统的改造第一类方法，Hadoop改造：实时计算系统的改造1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍1234大数据处理相关工具介绍国内相关数据处理平台简介StoHadoop家族14Hadoop家族14开源工具简介---批处理HadoopCommon：Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。HDFS：是Hadoop的分布式存储系统，同Google的GFS性质是一样的。MapReduce：是一种编程模型，用于大规模数据集的并行运算。Hive是基于Hadoop的一个数据仓库工具，提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。Pig：Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本，类似我们通常熟悉的SQL语句，在Pig中称之为PigLatin。Hbase：一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问，并针对了商用服务器集群上的大型表格做出优化——上百亿行，上千万列。它是Googlebigtable的一个开源的实现。Zookeeper:它是一个针对大型分布式系统的可靠协调系统，功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是

Google的Chubby一个开源的实现。开源工具简介---批处理HadoopCommon：Hado开源工具简介---实时计算国外1：facebookpuma国外2：twitterstorm国外3：yahoo!s4Twitter数据处理分层架构Puma3系统数据处理通路Storm数据流处理示意图S4数据流处理流程RealtimeCloudcomputingFacebookPumaTwitter

StormYahoo！S4开发语言JAVAClojureJAVA高可用机制被动备用上游回放被动备用架构均匀架构主从架构主从架构资源利用率低高低恢复时间短长长开源工具简介---实时计算国外1：facebookpuma开源工具简介---全内存查询Spark是一通用并行计算框架，由UCBerkeley的AMP实验室开发。将中间数据放到内存中，对于迭代运算效率比较高。如：机器学习（ML）与hadoop相比提供了更多种运算操作，并且通信模型也是多样的，hadoop仅有DataShuffle。缺点：

Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型，因为增量改动完了，也就不用了，不需要迭代了。Druid为分析而设计-

Druid是为OLAP工作流的探索性分析而构建。它支持各种filter、aggregator和查询类型，并为添加新功能提供了一个框架。交互式查询-低延迟数据摄取架构允许事件在它们创建后毫秒内查询，完全有可能在6TB的数据集上实现秒级查询。高可用性-支持需要一直在线的SaaS的实现。你的数据在系统更新时依然可用、可查询。规模的扩大和缩小不会造成数据丢失。可伸缩-每天处理数十亿事件和TB级数据。Druid被设计成PB级别。优缺点：Druid对于需要实时单一、海量数据流摄取产品非常适合。特别是如果你面向无停机操作时，如果你对查询查询的灵活性和原始数据访问要求，高于对速度和无停机操作，Druid可能不是很好的解决方案。开源工具简介---全内存查询Spark1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍1234大数据处理相关工具介绍国内相关数据处理平台简介Sto国内相关计算平台国内1：baidu下一代数据流系统DStream百度基础架构部的下一代规划中，实时计算是重要的组成部分。实时计算系统和批处理计算系统同属于云计算这个大的范畴，相互配合使用。批处理计算是MapReduce（Hadoop）、实时计算是DStream等。DStream的Release1.0版本在2012年上半年发布。DStream依赖几个第三方系统，Bigpipe、Zookeeper和HDFS，分别用于数据流输入输出和操作日志的存储、分布式异常监控、用户文件存储和计算状态存储。

国内相关计算平台国内1：baidu下一代数据流系统DStre1、每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，上千万的成交、收藏和评价数据。2、量子统计、数据魔方和淘宝指数。3、Hadoop集群：1500个节点，每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。4、Storm集群：处理实时流数据。国内相关计算平台国内2：淘宝数据分析平台架构1、每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，数据存储引擎：MySQL的MyISAM引擎统计数据：10TB（分布在20个节点），每天6亿条的增量节点类型划分：

热节点：SAS硬盘（15000转/分钟）4.5W/TB

冷节点：SATA硬盘（7500转/分钟）1.6W/TB缺点：不能解决全属性选择器问题，这时NoSql是对其的有益补充。Myfox简介4:300国内相关计算平台数据存储引擎：MySQL的MyISAM引擎Myfox简介4:国内相关计算平台国内2：淘宝Beatles实时流式数据分析平台2010年Beatles开放平台基础体系开始建立，服务调用量增涨到了9亿。截至2011年11月，单日最大服务调用量19亿，增量统计实时性要求在2分钟内（包含数据分析和数据产出，低峰期1分钟，高峰期1分半），系统可用性要求高于99.6％国内相关计算平台国内2：淘宝Beatles实时流式数据分析平目录1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍目录1234大数据处理相关工具介绍国内相关数据处理平台简介SStorm实时计算系统Storm实时计算系统Storm数据流处理引擎整体架构Storm数据流处理引擎整体架构主要模块Master-Supervisor-Worker的模块关系图控制节点启动Master,负责整个topology执行监控和任务分配工作节点启动Supervisor，每个Supervisor包含一组port，每个port可以初始化一个Worker，每个Worker执行一部分数据处理程序工作节点启动Zookeeper,负责topology的协调和同步主要模块Master-Supervisor-Worker的模Nimbus模块Nimbus模块Supervisor模块步骤1：Supervisor从Zookeeper目录中下载Worker执行的代码步骤2：Supervisor监控Worker的执行状态。步骤3：Supervisor向Zookeeper的目录中写入它所监控的各个Worker的心跳信息Supervisor模块步骤1：Supervisor从ZooWorker模块步骤1：Worker从Zookeeper目录获取Task集合步骤2：Worker建立接收和发送的消息队列步骤3：Worker内部的每个Task开始初始化，准备执行处理程序和向Zookeeper发送心跳步骤4：消息队列把Tuple发送给相应的Task进行处理，处理结果再传给消息队列进行下发Worker模块步骤1：Worker从Zookeeper目录关键技术——并行处理技术条件：查询由两个有状态算子（一个Join和一个Aggregate）和4个无状态算子（两个Map和两个Filter）组成。如图b所示，将每个算子都部署在有15个节点的子集群，跳数为5，每个节点的扇出数为15，所以扇出的总数就是155。如图c所示，将a所示的查询根据有状态算子进行划分，可以划分成3个子查询，每个子查询都部署在30个节点的子查询上，由此可见，跳数为2，每个节点的扇出数为302。关键技术——并行处理技术条件：查询由两个有状态算子（一个Jo相关工作关键技术——可靠性保障技术a)主动备份技术b)被动备份技术c)上游备份技术主动备份技术：节点A产生的元组同时发送给主节点B1和备份节点B2。该容错技术存在保存副本的空间开销。被动备份技术：将要备份的算子的状态信息周期的拷贝到备份节点。当最后一个校验点出现故障时，主节点中的所有元组并没有在备份节点中维护，那么，就需要上游算子将元组重新发送到备份节点上，这会导致故障的恢复时间较长。上游备份技术：上游节点维护所有输出元组的状态，当且仅当下游节点确认已经接收上游节点发来的这些元组，上游节点才会将这些已确认的元组删除。该容错技术也存在故障恢复时间较长的问题。相关工作关键技术——可靠性保障技术a)主动备份技术b)被元组跟踪器总体结构关键技术——可靠性保障技术工作原理：1、读取配置文件，生成元组跟踪单元。2、跟踪记录的构造（三元组）。三元组结构：<springId,taskId,checkValue>3、元组跟踪单元的选择。4、校验值更新。5、将更新结果反馈给元组生成器（Spring）。元组跟踪器总体结构关键技术——可靠性保障技术工作原理：元组跟踪单元（acker）选择关键技术——可靠性保障技术a)springId（taskId）映射b)acker的元组分配元组跟踪单元（acker）选择关键技术——可靠性保障技术a)元组跟踪单元（acker）选择关键技术——可靠性保障技术c)acker故障后的元组分配d)acker变更后的元组分配元组跟踪单元（acker）选择关键技术——可靠性保障技术c)校验值更新策略关键技术——可靠性保障技术校验值更新策略关键技术——可靠性保障技术弹性可扩展协议关键技术——弹性可扩展技术窗口重构协议能够避免处理元组的Task间通信，但是该协议的一个弊端就是协议的完成时间依赖于滑动窗口大小，因此，假如窗口很大的话，协议的完成时间会很长，这样的效果是不能接受的。状态重构协议该协议不受滑动窗口大小的影响，该协议的实现是通过用一个检查点来记录元组桶，该检查点就是元组发送到新Task和旧Task的分界点。弹性可扩展协议关键技术——弹性可扩展技术窗口重构协议大数据处理技术简介课件大数据处理技术简介大数据处理技术简介1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍1234大数据处理相关工具介绍国内相关数据处理平台简介Sto大数据概念1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。3、海量异构的数据（包括文本、图像、声音等）。大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）大数据概念1、指的是所涉及的资料量规模巨大到无法通过目前主流近年来，一种新的数据密集型应用已经得到了广泛的认同，这些应用的实例包括：网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流模型中，数据以大量、快速、时变（可能是不可预知）的数据流持续到达，如何对海量瞬时流动数据建模并处理，产生了一些新的基础性研究问题。大数据处理技术的应用近年来，一种新的数据密集型应用已经得到了广泛的认同，大数据应用情景一（B2C、C2C与金融）：淘宝、股票等即时交易数据截至2011年11月，淘宝Beltles平台单日最大服务调用量19亿。今年淘宝双11QPS:32万/分钟2012-01-14报道，铁道部12306网站连续5天日均点击数超过10亿次，高峰时超过14.09亿次，导致系统近乎崩溃或瘫痪。2009年四月统计：上证交易所新一代交易系统峰值订单处理能力约80000笔/秒，平均订单时延比现用交易系统缩短30%以上，系统日双边成交容量不低于1.2亿笔/日，相当于单市场1.2万亿的日成交规模。大数据应用情景一（B2C、C2C与金融）：淘宝、股票等即时交大数据应用情景三（社交网络）：社交网络即时消息处理每秒钟，人们发送290万封电子邮件。每分钟，人们向Youtube上传60个小时的视频。每一天，人们在Twitter上发消息1.9亿条微博。每一天，人们在Twitter上发出3.44亿条消息。每一天，人们在Facebook发出40亿条信息。大数据应用情景三（社交网络）：社交网络即时消息处理每秒钟，人大数据应用情景三（物联网数据流）：传感网、物联网、智慧城市数据库

传感设备

服务器

用户端程序

实时数据流处理平台

MapReduce分布式并行计算系统

China大会一个热点议题就是数据流计算，在MapReduce计算模型风靡全球之后，Stream

Processing将会是下一个研究热点，无论是在工业界还是学术界。实时计算系统的改造第一类方法，Hadoop改造：实时计算系统的改造1234大数据处理相关工具介绍国内相关数据处理平台简介Storm实时计算系统简介概念及背景介绍1234大数据处理相关工具介绍国内相关数据处理平台简介StoHadoop家族51Hadoop家族14开源工具简介---批处理HadoopCommon：Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。HDFS：是Hadoop的分布式存储系统，同Google的GFS性质是一样的。MapReduce：是一种编程模型，用于大规模数据集的并行运算。Hive是基于Hadoop的一个数据仓库工具，提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。Pig：Pig最大的作用就是对MapReduce算法(框架)实现了一套shell脚本，类似我们通常熟悉的SQL语句，在Pig中称之为PigLatin。Hbase：一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问，并针对了商用服务器集群上的大型表格做出优化——上百亿行，上千万列。它是Googlebigtable的一个开源的实现。Zookeeper:它是一个针对大型分布式系统的可靠协调系统，功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。它是

热节点：SAS硬盘（15000转/分钟）4.5W/TB

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据处理技术简介课件

文档简介

温馨提示

最新文档

评论

大数据处理技术简介 课件

文档简介

温馨提示

最新文档

评论

相关文档

大数据处理技术简介课件