大数据处理与相关平台简介_第1页
大数据处理与相关平台简介_第2页
大数据处理与相关平台简介_第3页
大数据处理与相关平台简介_第4页
大数据处理与相关平台简介_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据处理与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据及其主要特征2规模(Volume)、种类(Variety)、速度(Velocity)2001年,道格.莱尼(DougLaney)VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天关于大数据定义的误解Other“V”slikeveracity,validity,value,etc.areaspirationalqualitiesofalldata,notdefinitionalqualitiesofbigdata.3硬件、技术、数据不断进化4传统的数据处理ExternalDataSourcesExtractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL数据分析的需求也逐渐提高从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。6RTAPOLAPOLTP需求变化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterized

ReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分:实时应用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景(5s~1m):最好支持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。8大数据分析与处理架构——一个案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZone9Connectors大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理10数据据处处理理的的几几种种模模式式转换换TransformerConvertpayloadormodifyheaders过滤滤FilterDiscardmessagesbasedonbooleanevaluation路由由RouterDeterminenextchannelbasedoncontent分割割SplitterGeneratemultiplemessagesfromone聚集集AggregatorAssembleasinglemessagefrommultiple11几种种平平台台介介绍绍MPPHadoopstormspark12开源源的的大大数数据据处处理理平平台台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布布了了Dremel和PowerDrillEMC推出出Pivotal+HAWQ开源源数数据据仓仓库库brighthouse基于于MySQL的数数据据仓仓库库存存储储引引擎擎13开源源的的大大数数据据处处理理平平台台NO-MapReduce系统统微软软的的DAG任务务计计算算模模型型DryadGoogle的图图批批量量同同步步处处理理系系统统Pregel和增增量量式式计计算算框框架架PercolatorYahoo!的数数据据流流计计算算系系统统S4、NYU的共共享享内内存存处处理理系系统统PiccoloBerkeley的交交互互式式实实时时处处理理系系统统Spark等等等。。NEWSQL系统统VoltDBmySQL集群群14Hadoop的版版本本1516IntelHadoop*17Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorMorevarieddatasourceswithmanymoreaccess/retentionrequirementsUsersHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorDataaccessedthroughmultipleentrypointsUsersHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersLotsofnewconsumersofthedataHadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersOneaccesscontrolmechanism:filesHadoop1.0————HDFS存储储模模型型23Hadoop1.0————计算算模模型型MapReduce24节点点功功能能与与角角色色25集群群部部署署示示意意26YARN和Hadoop2.027comprisesthelatestreleaseacrossHadoopandthekeyrelatedprojectsintoasingleintegratedandtestedplatformCoreservicesDataservicesOperationalservices28Hadoop2.0Hadoop2.0YARN的基本思想是是将JobTracker的两个主要功功能资源管理理和作业调度度/监控分离主要方法是创创建一个全局局的ResourceManager(RM)和若干个针针对应用程序序的ApplicationMaster(AM)29对比:Hadoop1.0JobTracker和TaskTracker30对比:Hadoop2.031运行在YARN上的计算框架架YARN=YetAnotherResourceNeogitator.32内存计算——SparkandShark33High-SpeedIn-MemoryAnalyticsoverHadoopandHiveDataUCBERKELEY34MapReduce———数据共享于HDFSiter.1iter.2...InputHDFSreadHDFSwriteHDFSreadHDFSwriteInputquery1query2query3result1result2result3...HDFS

readSlowduetoreplication,serialization,anddiskIO35iter.1iter.2...InputSpark———数据共享于内内存Distributed

memoryInputquery1query2query3...one-time

processing10-100×fasterthannetworkanddiskSpark之RDD——弹性分布式数数据集37伯克利架构38分布式实时计计算系统Storm流数据处理Storm可以用来处理理源源不断流流进来的消息息,处理之后后将结果写入入到某个存储储中去。S4(SimpleScalableStreamingSystem)是一个分布式式流处理引擎擎,开发者可可以在这个引引擎基础上开开发面向无界界的,不间断断的流数据处处理应用。分布式rpc由于storm的处理组件是是分布式的,,而且处理延延迟极低,所所以可以作为为一个通用的的分布式rpc框架来使用。。搜索引擎本身身也是一个分分布式rpc系统。39STORM角色Nimbus:负责资源分配配和任务调度度。Supervisor:负责接受nimbus分配的任务,,启动和停止止属于自己管管理的worker进程。Worker:运行具体处理理组件逻辑的的进程。Task:worker中每一个spout/bolt的线程称为一一个task.40基本逻辑——概念Spout:在一个topology中产生源数据据流的组件。。Spout是一个主动的的角色,其接接口中有个nextTuple()函数,storm框架会不停地地调用此函数数,用户只要要在其中生成成源数据即可可。Bolt:在一个topology中接受数据然然后执行处理理的组件。Bolt可以执行过滤滤、函数操作作、合并、写写数据库等任任何操作。Bolt是一个被动动的角色,Tuple:一次消息传递递的基本单元元。Stream:源源不断传递递的tuple就组成了stream。Topology:storm中运行的一个个实时应用程程序,因为各个组件件间的消息流流动形成逻辑辑上的一个拓拓扑结构。41大数据处理平平台——MPP42应用程序通过Master主机访问数据在存储节点和Master主机之间交换数据每一个存储节点都是独立的PgSQL数据库(无共享)QueryPlanMPP=MassiveParallelProcessing海量并行处理理结构数据分发43Share-Nothing的完全并行架架构44共享磁盘例如:OracleRACDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享例如:SMP服务器DB磁盘完全不共享例如:GreenplumDBDBDBDB网络磁盘磁盘磁盘磁盘Master注:所有的共共享资源都用用蓝灰色表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论