统一数据分析平台解决方案_第1页
统一数据分析平台解决方案_第2页
统一数据分析平台解决方案_第3页
统一数据分析平台解决方案_第4页
统一数据分析平台解决方案_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统一数据分析平台处理方案第1页什么是大数据?维基百科对大数据定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理数据集合大数据展现出三大特征,即3V数据大(Volume),比如Facebook天天在30万台服务器上处理25Tb数据时效性要求高(Velocity),比如搜索引擎要求在几分钟内为用户查询新闻种类和起源多样化(Variety),除了结构化数据、半结构化、非结构化数据大量产生第2页Source:IDCDigitalUniverseStudy1ZB=1024EB,1EB=1024PB增加44X:35.2Zettabytes下一个十年数据源将会数据源正在膨胀第3页CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第4页大数据处理之道-云计算

古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮牛。一样,我们也不需要尝试开发超级计算机,而应该试着结合使用更多计算机系统。——GraceHopper第5页云计算特点云计算特点内容超大规模云”含有相当规模,Google云计算已经拥有100多万台服务器,亚马逊、Yahoo等企业“云”均拥有几十万台服务器。“云”能赋予用户前所未有计算能力。虚拟化云计算支持用户在任意位置、使用各种终端获取服务。所请求资源来自“云”,而不是固定有形实体。高可靠性“云”使用了数据多副本容错、计算节点同构可交换等方法来保障服务高可靠性,使用云计算比使用当地计算机愈加可靠。通用性云计算不针对特定应用,在“云”支撑下能够结构出千变万化应用,同一片“云”能够同时支撑不一样应用运行。高可扩展性“云”规模能够动态伸缩,满足应用和用户规模增加需要。按需服务“云”规模能够动态伸缩,满足应用和用户规模增加需要。低总体成本“云”特殊容错方法使得能够采取极其廉价节点来组成云。第6页CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第7页驾驭大数据能够改变什么?3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就公布了详细海啸预警。NOAA经过对海洋传感器获得实时数据进行计算机模拟,制作海啸影响模型出现在各大网站。第8页驾驭大数据能够改变什么?电信行业借助社交网络分析,对客户通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户通话统计,而是分析各用户所处社交网络。房第9页驾驭大数据能够改变什么?全球金融危机带给我们最大教训就是加强风险监管力度,怎样更加好进行风险管理已经成为银行等金融机构主要课题。第10页CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第11页第12页Whatisit?Private/HybridCloudInfrastructureorApplianceDataAccess&QueryLayer3rdParty/PartnerTools&ServicesGreenplumChorus-AnalyticProductivityLayerGreenplumHadoopData

ScientistData

EngineerDataAnalystBl

AnalystLOB

UserGreenplumDatabaseData

PlatformAdminDataScienceTeamTheGreenplumUnifiedAnalyticsPlatformEMCGreenplum第13页GreenplumProductLine第14页CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第15页Shared-Nothing架构优势DBSAN/共享存放DBDBDBDBDiskDBDBDBDBDiskDiskDiskDiskMasterShared-EverthingShared-StorageShared-Nothing红色表示共享资源绿色表示无共享资源第16页数据均匀分布并行处理关键43Oct201264Oct201145Oct204246Oct206477Oct203248Oct2012OrderOrderOrder

DateCustomer

ID50Oct203456Oct202163Oct201544Oct201053Oct208255Oct2055数据均匀分布在每一块磁盘上面发挥每一块磁盘性能,根本上处理I/O瓶颈支持数据Distribution分布和Partition分区第17页MasterNode高可用性StandbyMasterNode当PrimaryMaster出现故障时,热备份StandbyMaster担它全部工作热备份StandbyMaster经过复制进程,保持与PrimaryMaster交易日志同时一致第18页SegmentNode高可用性MirrorTechnologyRAID保护驱动器故障,MirrorSegment保护服务器故障,同一份数据在集群内有4份copyMirrorSegment接管不丢失服务,快速在线差异恢复第19页大规模并行处理优势真正意义上并行处理利用原生MapReduce模型实现,业界效率最高并行处理引擎全部SQL逻辑都能够并行在每一个SegmentNode执行负载依据SegmentNode数量自动均衡SegmentSegmentSegmentSegmentMaster第20页并行加载和导出优势业界最快并行加载速度>10TB/Hr并行加载技术充分利用分布式计算和分布式存放优势,确保发挥出每一块DiskI/O资源并行加载比串行加载,速度提升40-50倍以上,降低ETL窗口时间增加Segment和ETL

Server,并行加载速度呈线性增加第21页行列组合存放优势列存放少数字段查询,大幅节约I/O操作大数据量频繁访问,性能提升30%以上Column1Column2Column3Row1Row2Row3+行存放大多数字段频繁查询随机行访问较多组合存放按照应用类型,随需定制Partition存放方式到达最优化访问性能第22页动态在线扩容优势系统永不停机Greenplum动态在线扩容技术,能够确保客户在扩容期间不宕机不能动态在线扩容,高可用性无从谈起宕机意味着利润流失,客户需要可靠IT环境在线数据重分布010100000101000001010000010100000101000000000000000001010000010100000101000001010101000001010000010100000101000001010000000000000000010100000101000001010000010101010101010101010101010101010101010101010000010100000101000001010000010100000000000000000101000001010000010100000101010100000101000001010000010100000101000000000000000001010000010100000101000001010101000001010000010100000101000001010000000000000000010100000101000001010000010101010000010100000101000001010000010100000000000000000101000001010000010100000101在线数据重分布在线数据重分布第23页CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第24页开源Apache项目Hadoop关键包含:-HDFS–分布式文件系统-Map/Reduce–分布式计算用JAVA编写运行在:Linux,MacOS/X,andSolaris开放硬件平台ShuffleMapReduceWhat

isHadoop?第25页TheDatagraphBlogSource:HadoopSummitPresentationsHadoop在各行业应用第26页HDFSHadoop分布式文件系统MapReduce分布式开发框架Pig分布式开发语言Zookeeper高可靠性分布式协调服务Hive基于Hadoop的数据仓库工具HBase一个高可靠性、高性能的非结构化数据库Hadoop组件第27页GreenplumHDMapR

Enterprise-ReadyHadoopPlatformforUnstructuredDataFaster2–5x速度提高于ApacheHadoopReliable高可用性镜像EasiertoUse可使用NFS系统管理第28页DFSIO

(higherisbetter)Terasort

(lowerisbetter)10nodecluster,2xQuad-Core,24GDRAM,12x1TBSATADrives@7200rpm,QuadNICsElapsedtimeinminutesMB/sec3.5TBGPHDMapRApacheGreenplumHDMapR更加快速度第29页LocklessStorageService™

消除存储抢占和竞争DirectBlockDeviceIO发挥全部存储的IO性能HadoopDirectShuffle利用NameNode的可扩展性,提供更快并行计算性能ClientSideCompression实用自动压缩减少网络开销CvsJava消除JAVA的回收机制,使用C编写为何有更加快速度?第30页GreenplumHDMapR

JobTracker高可用性确保业务连续性专为关键业务设计自动安全重开启没有任务丢失重新连接稳定任务执行状态GreenplumHDMapRDistributionEnterpriseHDMapReduceEnterpriseHD

LocklessStorageServicesDistributedNameNodeJobTrackerHA第31页GreenplumHDMapR

DistributedNameNode全部Hadoop节点都进行分布式处理自动和已处理失效机制稳固元数据高达1万亿个文件存放Hadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNN第32页GreenplumHDMapR

管理简单直观洞察力完整查看一个或者多个节点第33页GPDB&GPHD并行访问

AnalyticProductivityApplications,Tools,ChorusGreenplumDatabaseHadoopComputeStorageSQLDB

EngineComputeStorageMapReduce

EngineDataComputingInterfacesSQL,MapReduce,In-DatabaseAnalytics,ParallelDataLoading(batchorreal-time)AllDataTypesunstructureddatastructureddatatemporaldatageospatialdatasensordataspatialdataparallel

dataexchangeparallel

dataexchangeNetwork第34页CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第35页数据分析现实状况对企业数据仓库访问严格管理数据仓库中计算负载通常很大有可能能够发觉非常有价值看法深入分析不被勉励数据分析结果不再存放在数据库中,而是经过邮件来交换共享第36页GreenplumChorus

主要给三类用户提供帮助数据库架构师和管理员负责管理数据库和提供数据访问监控数据流动数据分析师负责从数据推导看法和数据库管理员紧密合作企业管理层负责解释投资回报关注对数据快速有效分析第37页分析沙箱公有云数据普通硬件虚拟机ChorusChorus

自我服务分析架构Hadoop企业数据仓库第38页Chorus主要功效企业数据云整合数据源整合结构化数据和非结构化数据自我服务架构自己创建沙箱数据库加紧数据分析和形成商业方案进程协作环境分析师通力合作,发觉和创建看法共享分析结果,代码和数据开放和可扩展平台第39页Chorus与企业数据仓库数据仓库管理数据生成企业运行汇报和财务汇总,Chorus一个自我服务架构,支持针对不一样业务分析沙箱分析结果能够影响企业发展方向和方案第40页Chorus与Hadoop把Hadoop作为一个数据源注册到Chorus中浏览Hadoop分布式文件系统(HDFS)目录预览HDFS文件把HDFS文件添加到分析沙箱中为HDFS文件添加注解统一数据分析平台结构化数据(数据库表)非结构化数据(HDFS文件)第41页CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第42页EMCGreenplumDCA2GPDBMasterServers210GESwitchesAdministrativeSwitchFunctionalModuleFunctionalModuleFunctionalModuleFunctionalModule第43页DCA模块化灵活配置GPDBHDGreenplumHDModuleGreenplumDBModuleDIADIAModuleGreenplumHDModule28TBcapacity(3copies,uncompressed)Eachservercontains:2sockets/12cores-48GBMem12x2TBstorageGreenplumDatabaseModule9TBor31TBcapacity(uncompres

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论