分布式与MPP 完整版_第1页
分布式与MPP 完整版_第2页
分布式与MPP 完整版_第3页
分布式与MPP 完整版_第4页
分布式与MPP 完整版_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分布式与MPP大数据主流技术新兴的分布式计算平台,使用基于内存的计算框架以提升性能,适用于迭代计算场景。同时提供应用工具降低使用复杂度。主流大数据技术Hadoop技术Spark技术MPP数据库流处理内存数据库NoSQL技术数据采集技术基于PCServer集群部署的并行关系型数据库,针对分析型使用场景提供了大量技术优化,以充分发挥关系数据库的数据关联分析能力和MPP架构的性能优势。七大技术一种实时计算框架,基于数据流的分发、处理模式及时、高效处理数据。通过将数据存储在内存中以提高数据库性能,同时通过额外的数据保护机制保障内存数据库安全通常指非关系型数据存储和查询技术,通过削减传统关系型数据库的部分特性,来提升特定类型处理性能的设计泛指在不同平台间传递不同类型、格式数据的技术主流的分布式计算平台,基于PCServer集群部署,提供分布式数据存储、分布式计算框架。同时整个生态圈提供了大量外围组件满足各类应用场景需求。分布式存储与分布式计算MapReduce:分布计算HDFS:分布存储分布式的CAP理论C:一致性(Consistency)在分布式系统中的所有的数据拷贝在同一时刻相同A:可用性(Availability)在部分节点故障后是否还能响应客户端读写请求P:分区容忍(PartitionTolerance)系统可继续工作(读和写),即使当某些节点无法与其它节点通信时Brewer的CAP理论在分布式架构设计中只能三选二通常P是必须的,所以一个分布式系统只能在C和A之间权衡MPP数据库定义MPP即大规模并行处理(MassivelyParallelProcessor)。在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。对外网络私有网络内部磁盘内部磁盘内部磁盘Node1CPURAMNode2CPURAMNode3CPURAM大规模并行处理(MPP)架构HPVertica/TeradataVertica无共享MPP的特点无特殊节点所有节点对等可通过任意节点查询或加载数据实时加载与查询同步进行DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘MasterGreenplum

/NetezzaMaster-Slave架构无共享架构DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘客户机客户机为什么选择MPPPB级别的分析需求传统数据库无法支持大规模集群与PB级别数据量性能受限扩展性受限成本高昂软硬件一体机成本高昂、扩展受限生产扩容、测试、开发、容灾都需新购同型号一体机(机柜)跨代兼容性问题In-memory技术太贵而且不成熟内存成本高TB级别以下,不适合大数据量Hadoop技术的先天不足Hive等sql-on-hadoop性能太慢SQL兼容性与支持不足数据安全性无法保证分析数据库的演变19701980200020102005200020031989SybaseIQ19782009SAPHANA201019791974IngresMichaelStonebraker19841982商用IngresSybase1990MSSQL1999200520061983DB2分析数据库的演变1970198020002010200520002003198919782009SAPHANA201019791982商用Ingres1984Sybase1990MSSQLSybaseIQ19992005200620121983DB21974IngresMichaelStonebraker2011Hadoop大数据技术栈结构化非结构化扩展能力OldSQLNoSQLMPP/NewSQL半结构化ACID易用性OldSQLvsNoSQLvsNewSQLvsHadoop常见MPP数据库HPVerticaPivotalGreenPlumGbase–南大通用TDAsterNetezzaParAccel……11VerticaMPP特点50x–1000x性能提升TBs~PBs高可扩展性与现有ETL和BI解决方案可轻松整合在工业标准x86服务器上具有超强性能快速灵活部署

内嵌高可用标准SQL接口无共享MPP自动优化设计高级主动压缩纯列式存储大数据分析模型常见分布式并行处理架构Real-TimeMessagingApacheKafka™Cluster

实时数据流

✓机器学习

半结构化数据结构化非关系型化数据(Parquet/ORCfile)

结构化关系型数据、汇总数据ResilientDistributedDatasets

ApacheSpark™Hadoop™Parquet™Cluster

✓✓✖

RESTAPIOrLocalKafkaApplicati

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论