大数据实时分析平台_第1页
大数据实时分析平台_第2页
大数据实时分析平台_第3页
大数据实时分析平台_第4页
大数据实时分析平台_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Vertica-大数据实时分析平台大数据趋势重要特点:数据量大、增长迅速、变化多样性、单个低价值、复杂什么是大数据?匹配分析模型VelocityComplexity多目标导向与互动上下文关系BIGDATA社交媒体视频音频电子邮件文本移动电话交易数据设备数据文档收索引擎图片VolumeVariety大数据量(Volume)信令数据、网管数据、网优数据海量的话单信息(语音话单、短信话单、GPRS话单)海量信令信息(用户位置信息、开关机信息、异常断线信息)互联网网关信息(URL信息、查询关键词)社交媒体、M2M数据、用户行为内容增长迅速(Velocity)信令数据、话单信息、互联网数据增长速度很快业务上需要能够对数据实时访问和处理多样性(Variety)短信文本信息CallCenter投诉信息WAP日志/WEB日志用户行为内容营业厅影像或票据等价值(Value)单条低价值复杂(Complexity)非常难处理,包括上下文关联、多格式匹配、多目标互动大数据指的是数据集的大小和复杂度使得无法通过常用技术以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据。BigData市场玩家业界最优秀的MPP列式数据仓库:HPVertica

-出自数据之父的Stonebraker

-数据库先驱:MichaelMichaelStonebrakerVerticaCo-Founder伯克利加州分校–1971–2000Ingres,1973年,第一个关系数据库,最早运行于DECUnix,80年代,以BSD许可免费发行,应用发展迅速,2005年成立独立公司,其中项目成员RobertEpstein基于Ingres的代码开发了Sybase,随后,Sybase代码作为MicrosoftSQLServer基础.Postgres,80年代Ingres之后,BSD-like许可,支持面向objectrelationalprogrammingmodel,支持optimizer,querylanguage,runtime,andindexingframeworks,从PostgreSQL发展过来的数据库产品有EnterpriseDB,andGreenplum.也包括Illustra

,后被Informix收购。MIT–2000~VERTICA,分布式MPP列式数据库SCIDB,2008,用于科学研究计算Vertica历程:快速发展,持续创新

客户数几何级数增长

7月,0.9发布,Benchmark比SybaseIQ和Oracle快10倍以上.12月,第一个客户(Streambase)5月发布3.0,专注SQL-99,易用性,分析函数,并行加载。11月发布3.5版本,实现FLEXSTORE,支持mapReduce20062007200820092010201116541163281发布1.1–1.4,专注性能和稳定性的提高首次发布和HP及REAHD合作的打包产品发布2.0–2.5,专注SQL,易用性,监控和可管理性。5月发布基于云平台运行的产品5月发布4.0,支持高级SQL分析函数,新的优化器和执行引擎,优化资源和数据加载管理等功能。3月,HP收购Vertica。6月份发布版本5.0,专注查询性能提高,增强了内在分析处理功能和集群管理和使用的简易性400+201212月,HPVertica最新版本6.1BullDozer发布客户量猛增2000+20133月,HPAppSystem

forVertica发布,进入一体机市场7.0也即将发布2500+近实时的数据分析,是传统架构的50-1000倍极快的数据分析高速、可扩展、开放与低成本HPVertica分析平台高新能大数据分析平台HPVertica实时分析平台无限的扩展,线性的性能提升大规模可扩展性开放的架构,能与多种开放工具集成,包括Hadoop,R,ETL和BI工具开放架构优化的存储方式,能提供10x-30x存储能力优化的数据存储Vertica——高效能、低成本的海量数据实时分析数据库标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP提高在BI,ETL,Hadoop上的投资效益自动设置、优化、数据库管理内置式冗余可提高查询速度基于低成本的x86Linux服务器群集通过12+算法获得高达90%的空间节省无磁盘I/O瓶颈;可同时进行数据加载和查询50x–1000x性能提升TBs~PBs高可扩展性与现有ETL和BI解决方案可轻松整合在工业标准x86服务器上具有超强性能快速灵活部署

列式数据库——大幅降低磁盘I/O范例:计算1天中某支股票的平均价格SELECTAVG(price)FROMtickstoreWHEREsymbol=‘AAPL’ANDdate=‘5/06/09’

AAPLNYASENYAASENYSENYASENGGYSENYGGGSENYSENYSENYSE143.74

NYSENYSENYSE

5/05/09

AAPLNYASENYAASENYSENYASENGGYSENYGGGSENYSENYSENYSE143.74

NYSENYSENYSE

5/06/09

BBYNYASENYAASENYSENYASENGGYSENYGGGSENYSENYSENYSE37.03

NYSENYSENYSE

5/05/09

BBYNYASENYAASENYSENYASENGGYSENYGGGSENYSENYSENYSE37.13

NYSENYSENYSE

5/06/09列式数据库-读取3列行式数据库-读取所有列NQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSNYSENYSENYSENQDSAAPLAAPLBBYBBY143.74143.7537.0337.135/05/095/06/095/05/095/06/09标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP对于OLAP数据分析而言,最大性能瓶颈是磁盘IO,通常绝大部分数据分析的时间都花费在磁盘上,如何最小化磁盘IO是数据仓库的关键点强大的数据主动压缩根据数据类型、基数、排序自动进行数据压缩,支持12+压缩算法压缩比通常可达10:1以上支持直接访问编码数据的数据值,大大节省在数据查询期间的CPU开销EncodingMechanismJust-In-TimeDecodingEngine:EncodedblocksBufferPool:De-compressonlyNetwork:Encodedblocks+OptionalLZOTransactionDateCustomerIDTrade5/05/20095/05/20095/05/20095/05/20095/05/20095/05/20095/05/20095/05/20095/05/20095/05/20095/05/2009000000100000010000003000000300000050000011000001100000200000026000005000000510000052Fewvaluessorted5/05/2009,16RLE000000102241010192549DeltaValManyvaluesintegerRawDataCompressedDataDisk:Encoding+CompressionManyOthers…Results100.25302.43991.2373.45134.09843.11208.13114.2983.0743.98229.76ManydistinctvaluesLZOÞìÃp:±æ+©>Hì&ì¥YÛ¡×¥©éa½?50ÓJ标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP无共享大规模并行处理(MPP)架构标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP并行设计,通过projections来实现分布式存储和分布式负载“活动的”冗余设计自动复制、切换和恢复标准的Shared-nothing、网格基础架构,使得通过廉价的设备也能搭建出高性能的集群简单的添加节点就能实现容量和性能的扩展ClientNetworkPrivateDataNetwork8

TB8

TB8

TBNode12x6-8Core64+GBRAMNode22x6-8Core64+GBRAMNode32x6-8Core64+GBRAMNodesarePeers无特殊节点所有节点对等可通过任意节点查询或加载数据实时加载与查询同步进行革命性的高可用性数据库内类似RAID的功能SmartK-安全性加载/查询持续可用“活”的冗余:服务于更多的查询Segment1集群网络客户端网络Segment2SegmentN-1SegmentNSegmentNSegment3Segment2Segment1标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP高可用性13在数据库内部实现RAID类似的冗余功能Projections在其它节点上的的拷贝能保证当某个节点宕机时,数据仍然可用可按照不同的排序模式冗余数据,提高查询性能在查询和加载时始终保持可用无需手工日志恢复当有节点down时,查询和加载仍然可以继续可通过查询其它节点恢复数据A3B3C3A2B2C2B1A1C1B2A2C2B1A1C1A3B3C3A1B1C1B3A3C3标准SQL接口与现有BI以及ETL工具轻松无缝地整合Vertica数据库支持SQL、ODBC、JDBC、ADO.NET和主流ETL以及BI展现工具等产品提升现有投资价值同时降低TCOSQL,ODBC,JDBC,ADO.net批量与微量加载ETL、复制与数据质量分析、报告标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP自动优化设计最优数据布局(物理模式)最优性能用户提供逻辑模式范例数据集典型查询数据库设计器(DBD)生成数据布局建议:优化查询性能优化数据读取吞吐量最小化存储空间负载分析器基于DataCollector系统收集的历史负载情况,提供优化建议标准SQL接口高可用自动优化设计高级主动压缩列式数据库无共享MPP数据分析的实时性:数据分析和数据加载的并行支持

-来源于独有的数据管理模式(Projection)Vertica不提供索引和物化视图,通过Projection提供高效率查询同一张表的多个Projection可按不同排序方式、压缩模式以及数据分布满足查询的多样性可通过Pre-joinProjection提升Join的查询效率排序可提升Groupby和数据定位的效率多个Projection分布在多个节点上,提升查询的并行效率不同于传统表+索引的存储架构,在数据导入时,projection一直可用=>数据分析一直可用灵活的数据分布-提升海量数据处理性能Partition垂直分区在每个节点内对表再拆分可提高大批量数据删除性能Segmentation数据水平分布到多个node可指定数据分布的节点支持hash和range分布均匀分布,减少数据热点ABCABCABCABCABCABCABCABCABCPartitionSegment分布式查询18客户端连接到任一节点发起查询客户端连接节点变为initiator节点其它节点成为executor节点Initiator节点负责解析SQL语句并挑选执行计划Initiator节点将最优的执行计划发布到executor节点上所有节点执行查询,然后将结果数据送回到initiator节点Initiator节点汇总,然后返回最终结果集给用户实时分析小数据量频繁加载混合存储架构实现了低延时载入事务处理模型支持并行数据装载和查询新提交事务不修改现有数据文件:Insert—追加,Delete—标记删除,Update—Delete+Insert通过事务号或时间点可查询任意时间点上的历史数据事务处理模型异步数据迁移数据移动

磁盘式

已排序/已压缩

已分段大量数据直接装载(ABC|A)ABC写优化存储

(WOS)在内存中未排序/未压缩已分段低延时/少量快速插入读优化存储

(ROS)已提交事务插入、删除、更新与查询I历史查询(无锁)未提交事务当前事务最近提交事务混合存储架构和数据装载大数据量批量加载ATTIME'timestamp''

SELECT*

混合负载支持20基于查询的模式自动调节资源分配小查询只利用部分节点来扩展查询性能当对小数据集操作时,只使用单线程利用metadata中的信息,只访问必要的数据块自动控制查询的优先级分析查询

/大查询利用MPP架构中的所有节点来进行运算多线程执行自动连接聚合压缩数据tacticalanalytictacticalTacticalGeneralAnalyticUser1并发与负载管理21无主节点瓶颈!查询被自动均匀分布到每个集群节点并发能力会随着节点数的增加而提高配置资源管理不同类型的查询可设定不同的资源池限制并保证查询所需资源可按每个资源池设置优先级别、并发数、运行时间和资源分配概要资源限制可设置在资源池、用户或session级别实时负载管理实时调整查询的优先级Kill掉超时查询tacticaltacticalanalyticAnalyticUser2UDx框架用户定义函数的框架基于C++/R的并行计算扩展框架未来还会支持Java语言灵活性:进行多种类型的计算数据分析/汇总多阶段分析处理(类M/R)数据装载把Vertica作为大规模并行计算平台用户自定义SQL函数用户自定义C++程序和分析函数用户自定义数据导入函数融合的结构化/非结构数据分析Vertica提供HadoopConnector,支持Map任务并发读取数据,Reduce任务保存数据可直接使用HadoopStreaming接口在Vertica与HDFS之间同步数据Hadoop/Vertica:AdvancedAnalyticsComputerClusterDFSBlock1DFSBlock1DFSBlock1DFSBlock2DFSBlock2DFSBlock2DFSBlock3DFSBlock3MapMapMapReduceVerticaDatadatadatadatadatadadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadatadataComputerClusterDFSBlock1DFSBlock1DFSBlock1DFSBlock2DFSBlock2DFSBlock2DFSBlock3DFSBlock3MapMapMapReduceVerticaVerticaHadoop/Vertica:ETL灵活的备份与恢复24基于文件的备份恢复工具全量与增量备份相结合只备份上次以来变化的数据热备份在线备份时无锁竞争可配置的备份方式MappingVertica节点到备份服务器在数据库和备份位置直接的传输加密配置多个恢复点对象级别的备份与恢复配置按应用、用户、Schema级别的备份策略,满足各种不同SLA的需求HPAppSystemforVertica通用配置:HPDL380pGen825-SFFwith:(2)Intel®Xeon®E5-26702.6GHz/8-core128GB1600MHzMemoryHigh-performanceSASArrayController2GBFlash

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论