大数据处理与分析相关平台简介49_第1页
大数据处理与分析相关平台简介49_第2页
大数据处理与分析相关平台简介49_第3页
大数据处理与分析相关平台简介49_第4页
大数据处理与分析相关平台简介49_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据及及其主要要特征2规模(Volume)、种类类(Variety)、速速度(Velocity)2001年,道格格.莱尼(Doug Laney)VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天关于大数数据定义义的误解解http:/blogs./doug-laney/Other“V”s likeveracity, validity,valu

2、e,etc.areaspirational qualitiesofalldata,not definitionalqualitiesofbig data.3硬件、技技术、数数据不断断进化4传统的数数据处理理ExternalDataSourcesExtractTransformLoadData WarehouseIntegrated storageData processingUsersSQL数据分析析的需求求也逐渐渐提高从海量数数据中快快速获取取有价值值信息低延迟、高性能能、分布布式、可可扩展、容错。6RTAPOLAPOLTP需求变化化7Real-TimeNon-InteractiveBatc

3、hInteractiveOnlinesystemsReal timeAnalyticsComplex event processingData preparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprise reportsData miningParameterizedReportsDrilldownVisualizationExploration0-5s5s-1m1m-1h1h+场景不同同-工具不同同-视角不同同Hortonworks将应用需需求进行行了如下下划分:实时应用用场景(05s)

4、:Storm、S4、ClouderaImpala,ApacheDrill等;交互式场场景(5s1m):最好支持持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式式场景(1m1h):MapReduce、Hive、Pig、Stinger等;批处理场场景(1h+)运行时间间较长,处理数数据量较较大,对对容错性性和扩展展性要求求较高MapReduce、Hive、Pig、Stinger等。8大数据分分析与处处理架构构一个案例例9IngestLanding andAnalyticsSandboxZoneIndexes, facetsHive/HBaseColStore

5、sDocumentsInVariety of FormatsAnalyticsMapReduceRepository, WorkbenchIngestionand Real-timeAnalyticZoneDataSinksFilter, TransformIngestCorrelate, ClassifyExtract,AnnotateWarehousing ZoneEnterprise WarehouseData MartsQuery EnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearc

6、hAnalyticsand ReportingZoneMetadataandGovernanceZone9Connectors大数据处处理与分分析技术术数据采集集数据处理理数据存储储统计分析析数据挖掘掘模型预测测数据可视视化元数据管管理10数据处理理的几种种模式转换TransformerConvert payloadormodify headers过滤FilterDiscard messages based on booleanevaluation路由RouterDeterminenextchannel based on content分割SplitterGeneratemultiplemes

7、sagesfrom one聚集AggregatorAssemblea singlemessage frommultiple11几种平台台介绍MPPHadoopstormspark12开源的大大数据处处理平台台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据据仓库brighthouse基于MySQL的数据仓仓库存储储引擎13开源的大大数据处处理平台台NO-MapReduce系统微软的DAG任务计算算模型DryadG

8、oogle的图批量量同步处处理系统统Pregel和增量式式计算框框架PercolatorYahoo!的数据流流计算系系统S4、NYU的共享内内存处理理系统PiccoloBerkeley的交互式式实时处处理系统统Spark等等。NEWSQL系统VoltDBmySQL集群14Hadoop的版本1516IntelHadoop*17Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metast

9、ore(HCatalog)OozieClouderaNavigatorMore varieddata sourceswithmany moreaccess /retention requirementsUsersHadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorData accessed throughmultipleentr

10、ypointsUsersHadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorUsersLots of newconsumersofthe dataHadoopeco-systemExternalDataSourcesHDFS storagelayerProcessing Framework(Map-Reduce)HBaseSqo

11、op+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorUsersOneaccess controlmechanism:filesHadoop1.0HDFS存储模型型23Hadoop1.0计算模型型MapReduce24节点功能能与角色色25集群部署署示意26YARN和Hadoop2.027comprisesthe latestrelease acrossHadoopand thekeyrelatedprojectsinto asingle integratedand testedplatformCore ser

12、vicesData servicesOperationalservices28Hadoop2.0Hadoop2.0YARN的基本思思想是将将JobTracker的两个主主要功能能资源管管理和作作业调度度/监控分离离主要方法法是创建建一个全全局的ResourceManager(RM)和若干干个针对对应用程程序的ApplicationMaster(AM)29对比:Hadoop1.0JobTracker和TaskTracker30对比:Hadoop2.031运行在YARN上的计算算框架YARN =Yet AnotherResourceNeogitator.32内存计算算Spark andShark3

13、3High-Speed In-MemoryAnalyticsoverHadoopandHiveDataUC BERKELEY34MapReduce数据共享享于HDFSiter.1iter.2.InputHDFSreadHDFSwriteHDFSreadHDFSwriteInputquery 1query 2query 3result 1result 2result 3. . .HDFSreadSlowduetoreplication, serialization, anddisk IO35iter.1iter.2.InputSpark数据共享享于内存存DistributedmemoryInpu

14、tquery1query2query3.one-timeprocessing10-100fasterthannetwork anddiskSpark之RDD弹性分布布式数据据集37伯克利架架构38分布式实实时计算算系统Storm流数据处处理Storm可以用来来处理源源源不断断流进来来的消息息,处理理之后将将结果写写入到某某个存储储中去。S4(SimpleScalableStreaming System)是一个分分布式流流处理引引擎,开开发者可可以在这这个引擎擎基础上上开发面面向无界界的,不不间断的的流数据据处理应应用。分布式rpc由于storm的处理组组件是分分布式的的,而且且处理延延迟极低低

15、,所以以可以作作为一个个通用的的分布式式rpc框架来使使用。搜索引擎擎本身也也是一个个分布式式rpc系统。39STORM角色Nimbus:负责资源源分配和和任务调调度。Supervisor:负责接受受nimbus分配的任任务,启启动和停停止属于于自己管管理的worker进程。Worker:运行具体体处理组组件逻辑辑的进程程。Task:worker中每一个个spout/bolt的线程称称为一个个task.40基本逻辑辑概念Spout:在一个topology中产生源源数据流流的组件件。Spout是一个主主动的角角色,其其接口中中有个nextTuple()函数,storm框架会不不停地调调用此函函数

16、,用用户只要要在其中中生成源源数据即即可。Bolt:在一个个topology中接受数数据然后后执行处处理的组组件。Bolt可以执行行过滤、函数操操作、合合并、写写数据库库等任何何操作。Bolt是一个被被 动的的角色,Tuple:一次消息息传递的的基本单单元。Stream:源源不断断传递的的tuple就组成了了stream。Topology:storm中运行的的一个实实时应用用程序,因为各个个组件间间的消息息流动形形成逻辑辑上的一一个拓扑扑结构。41大数据处处理平台台MPP42 应用程序通过Master主机访问数据 在存储节点和Master主机之间交换数据 每一个存储节点都是独立的PgSQL数据

17、库(无共享)QueryPlanMPP=Massive Parallel Processing海量并行行处理结结构数据分发发43Share-Nothing的完全并并行架构构44共享磁盘例如:Oracle RACDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享例如:SMP服务器DB磁盘完全不共享例如:GreenplumDBDBDBDB网络磁盘磁盘磁盘磁盘Master注:所有有的共享享资源都都用蓝灰灰色表示示基于外部部表的高高速数据据加载利用并行行数据流流引擎,Greenplum可以直接接用SQL操作外部部表数据加载载完全并并行,加加载速度度可达4.5TB/小时45Master主机Segment主机内部互联网千兆以太网交换机gdfdistgdfdistSegment主机Segment主机Segment主机外部表文件外部表文件ETL服务器内部网络MapReduce&SQL一体环境境46传统RDBMS系统ACID交易管理器ACID交易管理器查询优化器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论