




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来大数据及其主要特征2规模(Volume)、种类(Variety)、速度(Velocity)2001年,道格.莱尼(DougLaney)VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天大数据及其主要特征2规模(Volume)、种类(Variet关于大数据定义的误解/doug-laney/Other“V”slikeveracity,validity,value,etc.areaspirationalqualitiesofalldata,notdefinitionalqualitiesofbigdata.3关于大数据定义的误解http://blogs.gartner硬件、技术、数据不断进化4硬件、技术、数据不断进化4传统的数据处理ExternalDataSourcesExtractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL传统的数据处理ExternalExtractDataWar数据分析的需求也逐渐提高从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。6RTAPOLAPOLTP数据分析的需求也逐渐提高从海量数据中快速获取有价值信息6RT需求变化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterized
ReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+需求变化7Real-TimeNon-InteractiveB场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分:实时应用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景(5s~1m):最好支持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。8场景不同-工具不同-视角不同Hortonworks将应用需求大数据分析与处理架构——一个案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZone9Connectors大数据分析与处理架构——一个案例9IngestLandi大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理10大数据处理与分析技术数据采集10数据处理的几种模式转换TransformerConvertpayloadormodifyheaders过滤FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplemessagesfromone聚集AggregatorAssembleasinglemessagefrommultiple11数据处理的几种模式转换Transformer11几种平台介绍MPPHadoopstormspark12几种平台介绍MPP12开源的大数据处理平台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据仓库brighthouse基于MySQL的数据仓库存储引擎13开源的大数据处理平台SQLonHadoop13开源的大数据处理平台NO-MapReduce系统微软的DAG任务计算模型Dryad
Google的图批量同步处理系统Pregel和增量式计算框架PercolatorYahoo!的数据流计算系统S4、NYU的共享内存处理系统PiccoloBerkeley的交互式实时处理系统Spark等等。NEWSQL系统VoltDBmySQL集群14开源的大数据处理平台NO-MapReduce系统14Hadoop的版本15Hadoop的版本151616IntelHadoop*17IntelHadoop*17Hadoop1.018Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorMorevarieddatasourceswithmanymoreaccess/retentionrequirementsUsersHadoopeco-systemExternalHDFSHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorDataaccessedthroughmultipleentrypointsUsersHadoopeco-systemExternalHDFSHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersLotsofnewconsumersofthedataHadoopeco-systemExternalHDFSHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersOneaccesscontrolmechanism:filesHadoopeco-systemExternalHDFSHadoop1.0——HDFS存储模型23Hadoop1.0——HDFS存储模型23Hadoop1.0——计算模型MapReduce24Hadoop1.0——计算模型MapReduce24节点功能与角色25节点功能与角色25集群部署示意26集群部署示意26YARN和Hadoop2.027YARN和Hadoop2.027comprisesthelatestreleaseacrossHadoopandthekeyrelatedprojectsintoasingleintegratedandtestedplatformCoreservicesDataservicesOperationalservices28Hadoop2.0comprisesthelatestreleaseaHadoop2.0YARN的基本思想是将JobTracker的两个主要功能资源管理和作业调度/监控分离主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)29Hadoop2.0YARN的基本思想是将JobTracke对比:Hadoop1.0JobTracker和TaskTracker30对比:Hadoop1.0JobTracker和Task对比:Hadoop2.031对比:Hadoop2.031运行在YARN上的计算框架YARN=YetAnotherResourceNeogitator.32运行在YARN上的计算框架YARN=YetAnothe内存计算——SparkandShark33High-SpeedIn-MemoryAnalytics
overHadoopandHiveDataUCBERKELEY内存计算——SparkandShark33High-Sp34MapReduce——数据共享于HDFSiter.1iter.2...InputHDFS
readHDFS
writeHDFS
readHDFS
writeInputquery1query2query3result1result2result3...HDFS
readSlowduetoreplication,serialization,anddiskIO34MapReduce——数据共享于HDFSiter.1i35iter.1iter.2...InputSpark——数据共享于内存Distributed
memoryInputquery1query2query3...one-time
processing10-100×
fasterthannetworkanddisk35iter.1iter.2...InputSpSpark之RDD——弹性分布式数据集Spark之RDD——弹性分布式数据集3737伯克利架构38伯克利架构38分布式实时计算系统
Storm流数据处理Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。S4(SimpleScalableStreamingSystem)是一个分布式流处理引擎,开发者可以在这个引擎基础上开发面向无界的,不间断的流数据处理应用。分布式rpc由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。搜索引擎本身也是一个分布式rpc系统。39分布式实时计算系统
Storm流数据处理39STORM角色Nimbus:负责资源分配和任务调度。Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。Worker:运行具体处理组件逻辑的进程。Task:worker中每一个spout/bolt的线程称为一个task.40STORM角色Nimbus:40基本逻辑——概念Spout:在一个topology中产生源数据流的组件。Spout是一个主动的角色,其接口中有个nextTuple()函数,storm框架会不停地调用此函数,用户只要在其中生成源数据即可。Bolt:在一个topology中接受数据然后执行处理的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。Bolt是一个被动的角色,Tuple:一次消息传递的基本单元。Stream:源源不断传递的tuple就组成了stream。Topology:storm中运行的一个实时应用程序,因为各个组件间的消息流动形成逻辑上的一个拓扑结构。41基本逻辑——概念Spout:41大数据处理平台——MPP42
应用程序通过Master主机访问数据
在存储节点和Master主机之间交换数据
每一个存储节点都是独立的PgSQL数据库(无共享)QueryPlanMPP=MassiveParallelProcessing海量并行处理结构大数据处理平台——MPP42应用程序通过Master主数据分发43数据分发43Share-Nothing的完全并行架构
44共享磁盘例如:OracleRACDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享例如:SMP服务器DB磁盘完全不共享例如:GreenplumDBDBDBDB网络磁盘磁盘磁盘磁盘Master注:所有的共享资源都用蓝灰色表示Share-Nothing的完全并行架构
44共享磁盘DBS基于外部表的高速数据加载利用并行数据流引擎,Greenplum可以直接用SQL操作外部表数据加载完全并行,加载速度可达4.5TB/小时45Master主机Segment主机内部互联网—千兆以太网交换机gdfdistgdfdistSegment主机Segment主机Segment主机外部表文件外部表文件ETL服务器内部网络基于外部表的高速数据加载利用并行数据流引擎,GreenpluMapReduce&SQL一体环境46传统RDBMS系统ACID交易管理器ACID交易管理器查询优化器ACID交易管理器关系型表关系型表SQL关系型表数据库日志数据流引擎reduce{……}map{……}化简映射reduce{……}map{……}数据流引擎数据流引擎map{……}ACID交易管理器ACID交易管理器查询优化器ACID交易管理器关系型表关系型表SQL关系型表数据库日志数据流引擎查询优化器关系型表查询优化器数据库日志化简映射化简map{……}reduce{……}ACID交易管理器ACID交易管理器ACID交易管理器关系型表关系型表关系型表数据库日志数据流引擎关系型表数据库日志传统的编程环境Greenplum机制MapReduce&SQL一体环境46传统RDBMS系统PivotalHD+hawq47PivotalHD+hawq47Phd集群48Phd集群48谢谢大家!谢谢大家!大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来大数据及其主要特征51规模(Volume)、种类(Variety)、速度(Velocity)2001年,道格.莱尼(DougLaney)VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天大数据及其主要特征2规模(Volume)、种类(Variet关于大数据定义的误解/doug-laney/Other“V”slikeveracity,validity,value,etc.areaspirationalqualitiesofalldata,notdefinitionalqualitiesofbigdata.52关于大数据定义的误解http://blogs.gartner硬件、技术、数据不断进化53硬件、技术、数据不断进化4传统的数据处理ExternalDataSourcesExtractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL传统的数据处理ExternalExtractDataWar数据分析的需求也逐渐提高从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。55RTAPOLAPOLTP数据分析的需求也逐渐提高从海量数据中快速获取有价值信息6RT需求变化56Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterized
ReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+需求变化7Real-TimeNon-InteractiveB场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分:实时应用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景(5s~1m):最好支持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。57场景不同-工具不同-视角不同Hortonworks将应用需求大数据分析与处理架构——一个案例58IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZone58Connectors大数据分析与处理架构——一个案例9IngestLandi大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理59大数据处理与分析技术数据采集10数据处理的几种模式转换TransformerConvertpayloadormodifyheaders过滤FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplemessagesfromone聚集AggregatorAssembleasinglemessagefrommultiple60数据处理的几种模式转换Transformer11几种平台介绍MPPHadoopstormspark61几种平台介绍MPP12开源的大数据处理平台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据仓库brighthouse基于MySQL的数据仓库存储引擎62开源的大数据处理平台SQLonHadoop13开源的大数据处理平台NO-MapReduce系统微软的DAG任务计算模型Dryad
Google的图批量同步处理系统Pregel和增量式计算框架PercolatorYahoo!的数据流计算系统S4、NYU的共享内存处理系统PiccoloBerkeley的交互式实时处理系统Spark等等。NEWSQL系统VoltDBmySQL集群63开源的大数据处理平台NO-MapReduce系统14Hadoop的版本64Hadoop的版本156516IntelHadoop*66IntelHadoop*17Hadoop1.067Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorMorevarieddatasourceswithmanymoreaccess/retentionrequirementsUsersHadoopeco-systemExternalHDFSHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorDataaccessedthroughmultipleentrypointsUsersHadoopeco-systemExternalHDFSHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersLotsofnewconsumersofthedataHadoopeco-systemExternalHDFSHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersOneaccesscontrolmechanism:filesHadoopeco-systemExternalHDFSHadoop1.0——HDFS存储模型72Hadoop1.0——HDFS存储模型23Hadoop1.0——计算模型MapReduce73Hadoop1.0——计算模型MapReduce24节点功能与角色74节点功能与角色25集群部署示意75集群部署示意26YARN和Hadoop2.076YARN和Hadoop2.027comprisesthelatestreleaseacrossHadoopandthekeyrelatedprojectsintoasingleintegratedandtestedplatformCoreservicesDataservicesOperationalservices77Hadoop2.0comprisesthelatestreleaseaHadoop2.0YARN的基本思想是将JobTracker的两个主要功能资源管理和作业调度/监控分离主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)78Hadoop2.0YARN的基本思想是将JobTracke对比:Hadoop1.0JobTracker和TaskTracker79对比:Hadoop1.0JobTracker和Task对比:Hadoop2.080对比:Hadoop2.031运行在YARN上的计算框架YARN=YetAnotherResourceNeogitator.81运行在YARN上的计算框架YARN=YetAnothe内存计算——SparkandShark82High-SpeedIn-MemoryAnalytics
overHadoopandHiveDataUCBERKELEY内存计算——SparkandShark33High-Sp83MapReduce——数据共享于HDFSiter.1iter.2...InputHDFS
readHDFS
writeHDFS
readHDFS
writeInputquery1query2query3result1result2result3...HDFS
readSlowduetoreplication,serialization,anddiskIO34MapReduce——数据共享于HDFSiter.1i84iter.1iter.2...InputSpark——数据共享于内存Distributed
memoryInputquery1query2query3...one-time
processing10-100×
fasterthannetworkanddisk35iter.1iter.2...InputSpSpark之RDD——弹性分布式数据集Spark之RDD——弹性分布式数据集8637伯克利架构87伯克利架构38分布式实时计算系统
Storm流数据处理Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。S4(SimpleScalableStreamingSystem)是一个分布式流处理引擎,开发者可以在这个引擎基础上开发面向无界的,不间断的流数据处理应用。分布式rpc由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。搜索引擎本身也是一个分布式rpc系统。88分布式实时计算系统
Storm流数据处理39STORM角色Nimbus:负责资源分配和任务调度。Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。Worker:运行具体处理组件逻辑的进程。Task:worker中每一个spout/bolt的线程称为一个task.89STORM角色Nimbus:40基本逻辑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 共用深水井免责协议书
- 防水材料承包协议书
- 营业执照转让协议书
- 车站进站加班协议书
- 解除担保责任协议书
- 销售人员安全协议书
- 车位优惠费用协议书
- 骨肿瘤营养管理
- 赠送车位保密协议书
- 裁判公正制裁协议书
- 2024秋招北森题库数学百题
- 倍智tas人才测评系统题库及答案
- 形势与政策(贵州财经大学)知到智慧树章节答案
- 2023年新高考(新课标)全国2卷数学试题真题(含答案解析)
- DL∕T 904-2015 火力发电厂技术经济指标计算方法
- DL-T 1476-2023 电力安全工器具预防性试验规程
- 中国戏曲剧种鉴赏智慧树知到期末考试答案章节答案2024年上海戏剧学院等跨校共建
- 六年级趣味数学思维拓展题50道及答案
- 国开《Windows网络操作系统管理》形考任务4-配置故障转移群集服务实训
- 基于智能巡检机器人与PLC系统联动控制设计和实现电子信息工程专业
- 年产3万吨生物质颗粒燃料技术方案
评论
0/150
提交评论