版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据处置与分析相关平台简介中国人民大学信息学院董兆安内容来自CSDN等互联网资源大数据及其主要特征2规模〔Volume〕、种类〔Variety〕、速度〔Velocity〕2001年,道格.莱尼〔DougLaney〕VolumeVolumeVarietyVolume模态多样VelocityVolume速度极快体量宏大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超越25亿个/天,添加数据超越500TB/天关于大数据定义的误解blogs.gartner/doug-laney/Other“V〞slikeveracity,validity,value,etc.areaspirationalqualitiesofalldata,notdefinitionalqualitiesofbigdata.3硬件、技术、数据不断进化4传统的数据处置ExternalDataSourcesExtractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL5数据分析的需求也逐渐提高从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。6RTAPOLAPOLTP需求变化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterizedReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+场景不同-工具不同-视角不同Hortonworks将运用需求进展了如下划分:实时运用场景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式场景〔5s~1m〕:最好支持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式场景〔1m~1h〕:MapReduce、Hive、Pig、Stinger等;批处置场景〔1h+〕运转时间较长,处置数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。8大数据分析与处置架构——一个案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZone9Connectors大数据处置与分析技术数据采集数据处置数据存储统计分析数据发掘模型预测数据可视化元数据管理10数据处置的几种方式转换TransformerConvertpayloadormodifyheaders过滤FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplemessagesfromone聚集AggregatorAssembleasinglemessagefrommultiple11几种平台引见MPPHadoopstormspark12开源的大数据处置平台SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据仓库brighthouse基于MySQL的数据仓库存储引擎13开源的大数据处置平台NO-MapReduce系统微软的DAG义务计算模型DryadGoogle的图批量同步处置系统Pregel和增量式计算框架PercolatorYahoo!的数据流计算系统S4、NYU的共享内存处置系统PiccoloBerkeley的交互式实时处置系统Spark等等。NEWSQL系统VoltDBmySQL集群14Hadoop的版本1516IntelHadoop*17Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorMorevarieddatasourceswithmanymoreaccess/retentionrequirementsUsers19Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorDataaccessedthroughmultipleentrypointsUsers20Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersLotsofnewconsumersofthedata21Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersOneaccesscontrolmechanism:files22Hadoop1.0——HDFS存储模型23Hadoop1.0——计算模型MapReduce24节点功能与角色25集群部署表示26YARN和Hadoop2.027comprisesthelatestreleaseacrossHadoopandthekeyrelatedprojectsintoasingleintegratedandtestedplatformCoreservicesDataservicesOperationalservices28Hadoop2.0Hadoop2.0YARN的根本思想是将JobTracker的两个主要功能资源管理和作业调度/监控分别主要方法是创建一个全局的ResourceManager〔RM〕和假设干个针对运用程序的ApplicationMaster〔AM〕29对比:Hadoop1.0JobTracker和TaskTracker30对比:Hadoop2.031运转在YARN上的计算框架YARN=YetAnotherResourceNeogitator.32内存计算——SparkandShark33High-SpeedIn-MemoryAnalytics
overHadoopandHiveDataUCBERKELEY34MapReduce——数据共享于HDFSiter.1iter.2...InputHDFS
readHDFS
writeHDFS
readHDFS
writeInputquery1query2query3result1result2result3...HDFS
readSlowduetoreplication,serialization,anddiskIO35iter.1iter.2...InputSpark——数据共享于内存Distributed
memoryInputquery1query2query3...one-time
processing10-100×fasterthannetworkanddiskSpark之RDD——弹性分布式数据集3637伯克利架构38分布式实时计算系统
Storm流数据处置Storm可以用来处置源源不断流进来的音讯,处置之后将结果写入到某个存储中去。S4(SimpleScalableStreamingSystem)是一个分布式流处置引擎,开发者可以在这个引擎根底上开发面向无界的,不延续的流数据处置运用。分布式rpc由于storm的处置组件是分布式的,而且处置延迟极低,所以可以作为一个通用的分布式rpc框架来运用。搜索引擎本身也是一个分布式rpc系统。39STORM角色Nimbus:担任资源分配和义务调度。Supervisor:担任接受nimbus分配的义务,启动和停顿属于本人管理的worker进程。Worker:运转详细处置组件逻辑的进程。Task:worker中每一个spout/bolt的线程称为一个task.40根本逻辑——概念Spout:在一个topology中产生源数据流的组件。Spout是一个自动的角色,其接口中有个nextTuple()函数,storm框架会不停地调用此函数,用户只需在其中生成源数据即可。Bolt:在一个topology中接受数据然后执行处置的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。Bolt是一个被动的角色,Tuple:一次音讯传送的根本单元。Stream:源源不断传送的tuple就组成了stream。Topology:storm中运转的一个实时运用程序,由于各个组件间的音讯流动构成逻辑上的一个拓扑构造。41大数据处置平台——MPP42
运用程序经过Master主机访问数据
在存储节点和Master主机之间交换数据
每一个存储节点都是独立的PgSQL数据库〔无共享〕QueryPlanMPP=MassiveParallelProcessing海量并行处置构造数据分发43Share-Nothing的完全并行架构
44共享磁盘例如:OracleRACDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享例如:SMP效力器DB磁盘完全不共享例如:GreenplumDBDBDBDB网络磁盘磁盘磁盘磁盘Master注:一切的共享资源都用蓝灰色表示基于外部表的高速
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年建材市场商铺租赁及品牌展示合同2篇
- 二零二五版A4一页纸环保印刷定制合同2篇
- 二零二五年度活动板房租赁合同(含消防设施及安全检查)3篇
- 二零二五版城市绿化带基站场地租赁与景观融合合同3篇
- 二零二五版办公室能源管理合同3篇
- 二零二五年度高性能1号不锈钢驳接爪批量采购供货合同2篇
- 二零二五版企业清算注销及员工安置及补偿及债务清理合同3篇
- 二零二五版金融资产抵押交易合同范本3篇
- 二零二五版古建筑修复工程劳务承包施工合同2篇
- 二零二五版钢材现货及期货交易合同示范文本3篇
- 轮式智能移动操作机器人技术与应用-基于ROS的Python编程 课件 第4章 机器人运动应用实例
- 2024质量管理理解、评价和改进组织的质量文化指南
- 手指外伤后护理查房
- 油气回收相关理论知识考试试题及答案
- 我能作业更细心(课件)-小学生主题班会二年级
- 2023年湖北省武汉市高考数学一模试卷及答案解析
- 城市轨道交通的网络安全与数据保护
- 英国足球文化课件
- 《行政职业能力测验》2023年公务员考试新疆维吾尔新疆生产建设兵团可克达拉市预测试题含解析
- 医院投诉案例分析及处理要点
- 烫伤的安全知识讲座
评论
0/150
提交评论