EMCGreenplum统一数据分析平台解决方案_第1页
EMCGreenplum统一数据分析平台解决方案_第2页
EMCGreenplum统一数据分析平台解决方案_第3页
EMCGreenplum统一数据分析平台解决方案_第4页
EMCGreenplum统一数据分析平台解决方案_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

EMCGreenplum统一数据分析平台解决方案第一页,共48页。CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第二页,共48页。什么是大数据?维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据呈现出三大特征,即3V数据大(Volume),例如Facebook每天在30万台服务器上处理25Tb数据时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻种类和来源多样化(Variety),除了结构化的数据、半结构化、非结构化的数据大量产生第三页,共48页。Source:2011IDCDigitalUniverseStudy1ZB=1024EB,1EB=1024PB增长44X2020:35.2Zettabytes下一个十年数据源将会数据源正在膨胀第四页,共48页。CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第五页,共48页。大数据解决之道-云计算

古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应该试着结合使用更多计算机系统。——GraceHopper第六页,共48页。云计算的特点云计算特点内容超大规模云”具有相当的规模,Google云计算已经拥有100多万台服务器,亚马逊、Yahoo等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。虚拟化云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。按需服务“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。低总体成本“云”的特殊容错措施使得可以采用极其廉价的节点来构成云。第七页,共48页。CloudMeetsBigDataWhatisBigData?CloudComputingWhatischanged?GreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第八页,共48页。驾驭大数据能够改变什么?2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。第九页,共48页。驾驭大数据能够改变什么?电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析各用户所处的社交网络。房第十页,共48页。驾驭大数据能够改变什么?全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好的进行风险管理已经成为银行等金融机构重要的课题。第十一页,共48页。CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第十二页,共48页。第十三页,共48页。Whatisit?Private/HybridCloudInfrastructureorApplianceDataAccess&QueryLayer3rdParty/PartnerTools&ServicesGreenplumChorus-AnalyticProductivityLayerGreenplumHadoopData

ScientistData

EngineerDataAnalystBl

AnalystLOB

UserGreenplumDatabaseData

PlatformAdminDataScienceTeamTheGreenplumUnifiedAnalyticsPlatformEMCGreenplum第十四页,共48页。GreenplumProductLine第十五页,共48页。CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第十六页,共48页。Shared-Nothing架构优势DBSAN/共享存储DBDBDBDBDiskDBDBDBDBDiskDiskDiskDiskMasterShared-EverthingShared-StorageShared-Nothing红色表示共享资源绿色表示无共享资源第十七页,共48页。数据均匀分布并行处理的关键43Oct2020051264Oct2020051145Oct2020054246Oct2020056477Oct2020053248Oct20200512OrderOrderOrder

DateCustomer

ID50Oct2020053456Oct2020052163Oct2020051544Oct2020051053Oct2020058255Oct20200555数据均匀分布在每一块磁盘上面发挥每一块磁盘性能,根本上解决I/O瓶颈支持数据Distribution分布和Partition分区第十八页,共48页。MasterNode高可用性StandbyMasterNode当PrimaryMaster出现故障时,热备份StandbyMaster担它全部工作热备份StandbyMaster通过复制进程,保持与PrimaryMaster的交易日志同步一致第十九页,共48页。SegmentNode高可用性MirrorTechnologyRAID保护驱动器故障,MirrorSegment保护服务器故障,同一份数据在集群内有4份copyMirrorSegment接管不丢失服务,快速在线差异恢复第二十页,共48页。大规模并行处理优势真正意义上的并行处理利用原生MapReduce模型实现,业界效率最高的并行处理引擎全部SQL逻辑都可以并行在每一个SegmentNode执行负载根据SegmentNode数量自动均衡SegmentSegmentSegmentSegmentMaster第二十一页,共48页。并行加载和导出优势业界最快并行加载速度>10TB/Hr并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间增加Segment和ETL

Server,并行加载速度呈线性增长第二十二页,共48页。行列组合存储优势列存储少数字段查询,大幅节省I/O操作大数据量频繁访问,性能提升30%以上Column1Column2Column3Row1Row2Row3+行存储大多数字段频繁查询随机行访问较多组合存储按照应用类型,随需定制Partition存储方式达到最优化访问性能第二十三页,共48页。动态在线扩容优势系统永不停机Greenplum动态在线扩容技术,可以保证客户在扩容期间不宕机不能动态在线扩容,高可用性无从谈起宕机意味着利润的流失,客户需要可靠的IT环境在线数据重分布010100000101000001010000010100000101000000000000000001010000010100000101000001010101000001010000010100000101000001010000000000000000010100000101000001010000010101010101010101010101010101010101010101010000010100000101000001010000010100000000000000000101000001010000010100000101010100000101000001010000010100000101000000000000000001010000010100000101000001010101000001010000010100000101000001010000000000000000010100000101000001010000010101010000010100000101000001010000010100000000000000000101000001010000010100000101在线数据重分布在线数据重分布第二十四页,共48页。CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第二十五页,共48页。开源Apache项目Hadoop核心包括:-HDFS–分布式文件系统-Map/Reduce–分布式计算用JAVA编写运行在:Linux,MacOS/X,andSolaris开放硬件平台ShuffleMapReduceWhat

isHadoop?第二十六页,共48页。2007200820092010TheDatagraphBlogSource:HadoopSummitPresentationsHadoop在各行业的应用第二十七页,共48页。Hadoop

组件第二十八页,共48页。GreenplumHDMapR

Enterprise-ReadyHadoopPlatformforUnstructuredData第二十九页,共48页。DFSIO

(higherisbetter)Terasort

(lowerisbetter)10nodecluster,2xQuad-Core,24GDRAM,12x1TBSATADrives@7200rpm,QuadNICsElapsedtimeinminutesMB/sec3.5TBGPHDMapRApacheGreenplumHDMapR更快的速度第三十页,共48页。为什么有更快的速度?第三十一页,共48页。GreenplumHDMapR

JobTracker高可用性保证业务连续性专为关键业务设计自动安全重启动没有任务丢失的重新连接稳定的任务执行状态GreenplumHDMapRDistributionEnterpriseHDMapReduceEnterpriseHD

LocklessStorageServicesDistributedNameNodeJobTrackerHA第三十二页,共48页。GreenplumHDMapR

DistributedNameNode所有Hadoop节点都进行分布式处理自动和已处理的失效机制稳固的元数据高达1万亿个文件存储Hadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNNHadoop

NodeNN第三十三页,共48页。GreenplumHDMapR

管理简单直观洞察力完整查看一个或者多个节点第三十四页,共48页。GPDB&GPHD并行访问

AnalyticProductivityApplications,Tools,ChorusGreenplumDatabaseHadoopComputeStorageSQLDB

EngineComputeStorageMapReduce

EngineDataComputingInterfacesSQL,MapReduce,In-DatabaseAnalytics,ParallelDataLoading(batchorreal-time)AllDataTypesunstructureddatastructureddatatemporaldatageospatialdatasensordataspatialdataparallel

dataexchangeparallel

dataexchangeNetwork第三十五页,共48页。CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第三十六页,共48页。数据分析现状对企业数据仓库的访问严格管理数据仓库中的计算负载通常很大有可能可以发现非常有价值的见解的深入分析不被鼓励数据分析的结果不再存储在数据库中,而是通过邮件来交换共享第三十七页,共48页。GreenplumChorus

主要给三类用户提供帮助数据库架构师和管理员负责管理数据库和提供数据访问监控数据流动数据分析师负责从数据推导见解和数据库管理员紧密合作公司管理层负责解释投资回报关注对数据的快速有效分析第三十八页,共48页。分析沙箱公有云数据普通硬件虚拟机ChorusChorus

自我服务的分析架构Hadoop企业数据仓库第三十九页,共48页。Chorus主要功能企业数据云整合数据源整合结构化数据和非结构化数据自我服务的架构自己创建沙箱数据库加快数据分析和形成商业方案的进程协作环境分析师通力合作,发现和创建见解共享分析结果,代码和数据开放和可扩展的平台第四十页,共48页。Chorus与企业数据仓库数据仓库管理数据生成企业运营报告和财务汇总,Chorus一个自我服务的架构,支持针对不同业务的分析沙箱分析的结果可以影响企业发展方向和方案第四十一页,共48页。Chorus与Hadoop把Hadoop作为一个数据源注册到Chorus中浏览Hadoop分布式文件系统(HDFS)目录预览HDFS文件把HDFS文件添加到分析沙箱中为HDFS文件添加注解统一的数据分析平台结构化数据(数据库表)非结构化数据(HDFS文件)第四十二页,共48页。CloudMeetsBigDataGreenplumUAPGreenplumDatabaseGreenplumHDGreenplumChorusGreenplumDCAAgenda第四十三页,共48页。EMCGreenplumDCA2GPDBMasterServers210GESwitchesAdministrativeSwitchFunctionalModuleFunctionalModuleFunctionalModuleFunctionalModule第四十四页,共48页。DCA模块化灵活配置GPDBHDGreenplumHDModuleGreenplumDBModuleDIADIAModuleGreenplumHDModule28TBcapacity(3copies,uncompressed)Eachservercontains:2sockets/12cores-48GBMem12x2TBstorageGreenplumDatabaseModule9TBor31TBcapacity(u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论