星环大数据方案介绍_第1页
星环大数据方案介绍_第2页
星环大数据方案介绍_第3页
星环大数据方案介绍_第4页
星环大数据方案介绍_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

星环大数据方案介绍TranswarpDataHub产品概述TranswarpDataHub架构图TranswarpProprietary最完整的SQL支持99%的SQL

2003支持,唯一支持PL/SQL的引擎(98%),唯一支持ACID分布式事务的SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2等分析用数据库。高效内存/SSD计算第一个支持SSD的基于Hadoop的高效计算引擎,可比硬盘快一个数量级;可用于建立各种数据集市,对接多种主流报表工具。最完整的分布式机器学习算法库支持最全(超过50余种)的分布式统计算法和机器学习算法,同时整合超过5000个R语言算法包。适合金融业风险控制、反欺诈、文本分析、精准营销等应用。支持最完整SQL和索引的NoSQL数据库支持SQL2003、索引、全文索引,支持图数据库和图算法,支持非结构化数据存储支持高并发查询最健壮和功能丰富的流处理框架支持真正的Exactly

Once语义支持所有组件的高可用(HA)支持流式SQL和流式机器学习ApacheProjectsStream流处理引擎HyperbaseNoSQL数据库搜索、图计算TranswarpManagerInceptorPL/SQL批处理交互式分析资源管理

YARN(内置TranswarpExtension)优化存储HDFS(内置TranswarpErasureCode)批处理Pig批处理框架MapReduce2协作服务Zookeeper消息队列Kafka工作流Oozie日志采集Flume全文搜索ElasticSearch数据集成SqoopDiscover数据挖掘机器学习交互工具HUEGuardian安全管控实时同步DataAlive交互分析Zeppelin交互式分析引擎Inceptor-完整SQL支持DistributedExecutionEngine分布式执行引擎Batch&InteractiveSQL

EngineJDBC4.0SHELLODBC3.5SQL2003Compiler语法解析器

SQLParser优化器RBO&CBO代码生成CODEGENERATORTransactionManager分布式增删改

DistributedCRUD事务并发控制器ConcurrencyControllerStarGate数据源连接器SourceHDFSText,

ORC,

ORCTransactionSourceOracleSourceHyperbase分布式内存/SSD列式存储HolodeskSourceDB2HDFSDriverHolodeskDriverHyperdrive驱动层实现数据访问计算算子下推以减少数据传输执行计划仍采用分布式计算……Connector中间件管理单元PL/SQLCompiler存储过程解析器ProcedureParser控制流优化器

CFGOptimizer并行优化器

ParallelOptimizer多租户管理Guardian计算资源配置ResourceManagement用户安全授权管理Security&Authentication行级安全控制RowLevelSecurityDB2DriverOracleDriverApacheSpark基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据像“光速”一样快,比HadoopMap/Reduce快10x倍。Holodesk跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全内存存储的分析性能。Most

complete

SQL

support兼容>95%

ANSISQL2003,HiveQL和>90%

PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型语法,方便应用迁移。SQL引擎高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速处理缓存在Holodesk上的列式数据。丰富的工具支持支持主流可视化和BI/挖掘工具,包括Tableau,IBMCognos,SAPBO,OracleBI,SAS等。支持Informatica,Pentaho/Kettle等ETL工具。DataFederation具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力Inceptor不同版本功能描述标准版SQL2003,分布式事务专业版基础版+内存/SSD数据库功能企业版专业版+PL/SQLTranswarp

DiscoverDistributedExecutionEngine分布式执行引擎Association

Mining关联/推荐Classification分类算法Clustering聚类算法Sequential

Analysis时序分析Regression回归算法Deep

Learning深度机器学习DimensionReduction主成分分析Statistics统计算法R

Runtime

Library

R语言动态运行库BeliefNetwork信念网络DecisionMethods决策方法Sampling采样算法Discriminate

Analysis判别分析Q-Learning增强学习GraphInference图推理FactorAnalysis因子分析GeneticAlgorithm遗传算法R

Language

Interface

R语言接口Java

Language

InterfaceJava语言接口R

StudioWeb

IDE开发环境TranswarpInceptor高速SQL引擎TranswarpHadoop分布式系统推荐系统风险分析反欺诈文本分类分布式机器学习算法MoreDistributedMachineLearningAlgorithms数据分析图形化交互工具R

Runtime

Library

R语言动态运行库BeliefNetwork信念网络DecisionMethods决策方法Sampling采样算法Discriminate

Analysis判别分析Q-Learning增强学习GraphInference图推理FactorAnalysis因子分析GeneticAlgorithm遗传算法TranswarpHadoop分布式系统TranswarpDiscoverDistributedAlgorithmLibraryAssociation

Mining关联/推荐Classification分类算法Clustering聚类算法Sequential

Analysis时序分析Regression回归算法Deep

Learning深度机器学习DimensionReduction主成分分析Statistics统计算法DataEngineersDataScientistsWorkflowToolstobuildpipelinesTranswarpInceptorSQLEngineDataFrameAbstractionDataTransformationusingPL/SQLFeatureExtractionusingdataframeandnativeRoperationsMachineLearningusingmoredistributedalgorithmsDataMiningusingnativeRalgorithms特征抽取FeatureEngineering:Extractvaluefromdarkdata易用的工具Graphicaltoolsfordatascientists,e.g.,workbook,notebook;andaworkflowtooltobuildthepipelineNotebook:ApacheZeppelin重要组成:实时NewSQL数据库HyperbaseTranswarpHBase–HadoopDatabase分布式BigTableTranswarpHyperdrive

SQL

backend

engine

between

Inceptor

&

HyperbaseReal-timeOLTP+OLAP+BATCH+Search+GraphTraversalApplicationMixedWorkload混合负载业务GraphlanguageScalableGraphDatabase图形数据库TransactionSQL

&

APITransactionExecutionEngine分布式事务处理引擎IndexSQL

&

APIGlobal/LocalIndex全局/局部索引Elastic

Search分布式全文索引DocumentSQL

&

APIDocument

Storejson/bson文档存储ObjectSQL

&

APIObject

Storeimage/files,

etc对象存储SearchSQL

&APIDistributedFull-textSearch全文搜索Transwarp

InceptorHyperbase不同版本功能描述标准版OLTP支持高并发毫秒级数据插入/修改/查询/删除(CRUD)。结合InceptorSQL引擎,可以支持通过SQL进行高并发的CRUD。支持分布式事务处理。支持常见数据类型,可更高效的存取数据OLAP支持多种索引(global/local/high-dimensionalindex)。结合Inceptor,可进行行列存储转换,进行秒级高效分析。支持复杂查询条件,自动利用索引加速数据检索,无需指定索引。专业版基础版+内嵌搜索引擎实时同步创建索引实现秒级关键字搜索企业版专业版+图数据库支持高并发图遍历和检索多类型支持结构化记录半结构化文档(JSON/BSON)非结构化数据(图片、音频、二进制文档等)支持混合结构数据的存储、搜索、统计、分析支持SQL访问关系表和层次化文档实时数据研判处理TranswarpStream计算层SourceManager数据源管理DistributedExecutionEngine分布式执行引擎ApplicationManager流式任务管理服务StorageManager存储管理SinkerManager输出管理

TranswarpHyperbase

分布式NoSQL数据库高速查询或搜索在线数据挖掘时间窗口统计实时比对告警实时判断告警实时数据TranswarpDataMart分布式内存/SSD缓存高速数据探索分析StreamSQLSQLCompiler编译器ODBCJDBCShellDataMining并行算法APIR语言量化模型StreamSQL

99%的ANSISQL2003的支持率强大的优化器提升性能支持按时间切分滑动窗口和滑动步长多数据源支持Socket文件Kafka……多种输出方式支持HyperbaseHolodeskHDFS……企业数据总线支持从一个流读入数据,再将其输入另一个流,如常见的企业数据总线以Kafka为存储中间件在线数据挖掘支持离线模型,在线预测时间窗口数据进行实时挖掘分析Stream不同版本功能描述标准版基本流处理框架,支持流式聚合专业版基础版+SQL企业版专业版+机器学习UserAUserB统一大数据存储平台HDFSRBAC支持Dir/FileaccesscontrolDir/FileACLStorageQuotaControlUser……统一权限管控TranswarpGuardianKerberosHAsupportedLDAPHAsupportedAccounting

账户管理Authentication

用户认证Audit&AlertAudit

审计统一计算资源管理调度YARNQueueUse/AdminControl内部计算/存储资源配置ResourceManagement用户安全授权管理Grant/RevokeviaSQL行级安全控制RowLevelSecurityInceptor内部计算资源配置ResourceManagement用户安全授权管理Grant/RevokeviaSQL主题级安全控制KafkaTopicLevelSecurityStream用户安全授权管理AuthenticationwithInceptorandHDFSDiscover数据交互安全控制DataTransfer&Communication用户安全授权管理Grant/RevokeviaSQL(withInceptor)单元格安全控制CellLevelSecurityHyperbaseAuthorization

权限管理经理RoleA普通职员RoleBRole……TranswarpOperatingSystem产品概述多租户资源管理架构演进混合负载和多租户SLA管理能力多租户资源配额管理资源共享和抢占资源和数据的隔离性批处理任务和实时任务调度机制v.s.PigOozieHiveStormSparkStreamingElasticSearchHyper-baseHBaseInceptorSparkHDFSYARNKubernetesHDFSPigOozieHiveStormSparkStreamingElasticSearchHyper-baseHBaseInceptorSparkPaaSContainerManagersschedulerpluginKubernetes

or?2014~2015资源调度框架之争,mesos和kubernetes逐渐占据优势,YARN被边缘化2016年两种竞争的技术路线Apache

MesosBig

Data

SparkHadoop,&more…Databases

Redis,MongoDB,&more…Applications

Nginx,Tomcat,&more…通用性/标准化隔离性资源弹性调度KubernetesP.K.IaaSCloudVMsBaremetalIaaSCloudVMsBaremetalHDFSYARNInceptorStreamElasticSearchHyperbasePigOoizeFlumeSqoopPostgresSQLRedisServiceRepositoryTranswarpOperatingSystem架构CPU/MEMpriority-basedschedulerTranswarp

Operating

SystemDiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceTOS的组成部分:Ring0:Docker/ContainerRing1:ResourceschedulerRing2:Built-in

systemservicesRing3:Centralservicerepository(dockerimages)ContainerPluginsContainersTOS显著优势自动一键部署运行任何docker镜像完善的资源隔离性弹性计算自动扩容自我修复TOS

+

TDH=IaaS

+

PaaS可用于构建企业大数据私有云或者在公有云上提供大数据平台服务基于Docker的微服务架构开始涌现CPU/MEMpriority-basedschedulerTranswarp

Operating

System-elastic

micro-servicemanagementsystemDiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceContainerPluginsContainersPlatform

Service

LayerSoftware

Service

LayerInfrastructure

LayerHadoopInceptorDiscoverHyperbaseStreamKafkaZookeeperRedisElasticSearchSqoop2GuardianOozieHUETerminalSpagoBIRstudioNginxTomcatZeppelin…………TDHwithTOSonCloud

IaaSPaaSHaaS公有云…私有云…物理服务器集群BasedonVMsDirectBasedonPhysicalServershadoopinceptordiscoverhyperbasestreamkafkaredis…16TOSApplication&PlatformServicesMarketTranswarpConfidentialTranswarpDataWarehouse产品概述Manager监控管理审计告警OperationalDW实时数据分析Oozie统一作业调度HUEGuardian统一安全权限管控DataIntegration数据集成与质量管理ServiceRepositoryTranswarpDataWarehouse架构CPU/MEMpriority-basedschedulerTranswarp

Operating

System数仓版DiskstoragemanagerNetworkVLANmanagerSchedulercoordinationetcdorchestrationloadbalancerSystem

Serviceauto-scalingreplicatordiscoveryname

serviceContainerPluginsContainers分布式存储HDFSTraditionalDWPL/SQL批处理分布式事务Context-IndependentDW数据挖掘关联分析DataMart交互式分析Holodesk分布式内存列式存储完整数据仓库支持实时处理数据仓库(OperationalDW),进行实时数据采集,时间窗口内数据进行比对以及统计挖掘,通过流技术来构造实时处理仓库。上下文无关联数据仓库(ContextIndependentDW),在不知道数据之间的关联模型的情况下,也可以通过数据挖掘的方式发现数据之间的关联关系,隐藏的联系和模式。传统数据仓库(TraditionalDW),主要是做批处理,做离线加工,加工基础数据,在基础上做各种主题模型,以及固定报表。通过对于SQL2003、PL/SQL以及分布式事务的支持实现传统数仓向大数据的平滑迁移。数据集市(DataMart),把数据装载到基于内存或者SSD当中的Holodesk做高速的数据交互式分析探索,同时也对接着报表工具。企业客户不再需要混合架构,不需要孤立的多个集群,可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。多租户管理平台自动一键部署,自我修复,完善的资源隔离性弹性计算,自动扩容/缩容,多部门之间资源动态共享,灵活支持多部门多应用在统一平台上平滑运行。全平台组件数据权限隔离,支持基于角色的访问权限控制,支持行级权限控制用户友好的管理交互界面、提供了集群配置,监控及预警等多方面支持,在可管理性方面优势显著。RstudioSpagoBILogicalDW搜索查询半/非结构化数据支持基于大数据技术的数据仓库逻辑架构CRM现有业务系统ETL调度Flume宏观政策/经济社交网络其他信息…非/半结构化数据实时数据Kafka实时接收非结构化处理日志处理影像存储文本分析图计算结构化数据处理资源管理平台

(TOS)(Virtualization,Multi-tenant

SLA,Audit)实时决策平台(StreamSQL)流式处理实时研判自助分析平台(SQL)自助报表交互探索数据探索平台(R)统计预测模型发现离线批处理平台(SQL)数据加工主题模型Operational

DW

Traditional

DW

Data

MartContext-independentDWERPHRFinance……贴源层轻度汇总层元数据管理明细层数据质量管理主题模型层作业调度管理检索平台(SQL)明细查询综合搜索T+0~T+1DataMartCluster交互式数据探索Hyperbase明细查询、影像检索、文档检索TraditionalDWClusterContextIndependentDW数据关联挖掘Rstudio图形化挖掘工具Kafka实时数据实时数据…AgentAgent实时数据OperationalDWCluster时间窗口数据实时数据批量装载入Holodesk准实时分析OperationalDataWarehouseHolodesk分布式内存/SSD列式存储RDBSqoop实时同步CDC(IBM)OGG(Oracle)全量导入,定时增量,HUE/Zeppelin图形化数据分析查看数据仓库数据流转Multi-IndexFull-TextIndexObjectStore文件/日志/影像FlumeFTPInterface实时条件判断实时比对实时时间窗口数据统计实时数据挖掘模型预测数据稽核元数据管理数据处理工作流调度分布式统计算法库分布式挖掘算法库SpagoBIBI报表工具ODS贴源层DWD基础明细层公共主题模型层结果数据写入Hyperbase提供查询TDARESTInterfaceTranswarpAppliance产品概述融合一体机大数据一体机星环技术核心优势优势一:完整的数据库支持能力,包括SQL2003、PL/SQL支持和超强的性能混合架构基于的假设100TB10TB1TB100GB~hours<1hourminutesseconds<1secondRDB可容忍的分析延时需要处理的数据量HadoopisthebestHadoopvsMPPMPPIn-MemDBLinearscalabilitySQL支持不完整2.Hadoop性能低于MPP混合架构将逐渐消失MPP数据库过去的优势高性能SQL支持完整(SQL92/SQL99)工具全主要弱点数据重分布容错性扩展性Transwarp最新进展总体性能超越MPP完整支持SQL2003,以及PL/SQL扩展支持主流传统BI/ETL工具,新兴分析工具建立在Hadoop之上固有优势数据无需重分布,不易受数据倾斜影响Map/Reduce和Spark具备容错调度机制性能近乎线性扩展(星环部署有600个节点集群)100TB10TB1TB100GB~hours<1hourminutesseconds<1secondRDB可容忍的分析延时需要处理的数据量HadoopHadoopvsMPPMPPIn-MemDBSQL

onHadoop

技术比较名称计算引擎ANSISQL支持程度PL/SQL第一个版本发布时间ClouderaImpala类Dremel,类MPP引擎SQL92子集+SQL2003扩展(<30%)不支持2011/10HortonworksTez/StingerMap/Reduce改进SQL92子集+SQL2003扩展(<30%)不支持2012/5TranswarpInceptorSpark

VariantSQL2003(>99%)OracleCompatiblePL/SQL(>98%)2013/11DatabricksSparkSQLSparkHiveQL(SQL92子集,

<30%)不支持2014/6MapRDrill改进自OpenDremelSQL92子集(<30%)不支持2012/6立项,2014/11发布IBM

BigSQLv4DB2/DPF

like

MPP

Engine

over

HDFSIncluding

ImpalaSQL

2003N/A2014/6Pivotal

HAWQGreenplum

like

MPP

Engine

over

HDFSSQL

2003(<90%)不支持2013/2Splice

MachineApache

Derby

+

HBaseSQL

1999不支持2015

GAActian

VortexMPP

Engine

over

HDFSSQL

2003不支持2014TranswarpInceptor是第一个支持PL/SQL的SQL

on

Hadoop引擎InceptorPL/SQLCompiler兼容Hive,

ANSI

SQL,

PL/SQL

SQLParserSQLStatementsAbstractSyntax

TreeConstant

FoldingConstant

FoldingConstant

FoldingAST

optimizerRDDDAGSQLNormalizerLogical

OptimizerCSEbyte

code

generationcolumn

pruneroperator

prunerpartitionprunerpredicatepushdownPL/SQLSQL2003CBOOptimizerJoinoptimizationsPL/SQLAnalyzerControlFlow

GraphCFG

Optimizerfunction

inliningdead

code

eliminationredundanteliminationCSEloopinvariantshoistingParallelOptimizercursor

parallelizationTableStatisticsDAGOptimizershufflereducerPhysicalPlanDAGSchedulersparktasksparktasksparktaskFirstPL/SQLCompileronHadoop;98%

Oracle

PL/SQL

Compatibility.唯一支持存储过程的SQLonHadoop引擎串行执行逻辑CURSORcISSELECT*fromscoreOPENcFORv_recINcLOOPIFv_rec.flag>0THENUPDATEfact1SET…ELSEUPDATEfact2SET…ENDIFENDLOOPCFG

on

Masterslave0Acursorcanbeparallelizedifthereisnoloop-carried

dependenceorthedependenceisinductive.优化后等价于sql(“SELECT*from

score”).map(loop_cfg_func)并行度的来源和种类partitionparallelismcontrolflowparallelismpipelineparallelismscoreflag>0YesNoMovecaheadYesupdatefact1updatefact2partition

0flag>0YesNoMovecaheadYesupdatefact1updatefact2partition

Nflag>0YesNoMovecaheadYesupdatefact1updatefact2slaveN游标示例程序并行执行逻辑兼容98%以上的Oracle

PL/SQL语法支持存储过程、函数、控制流、游标、异常处理等各类语法基于代价的优化器31Table

A1000

Recordskurtmaryjohnsmith622523454095243622550042034568622544334568763622534878982324v_nameCard_id12……999999910000000No.TableB1000

recordsJOINONA.card_id=B.card_idCostbasedoptimizerTablesizeImmediateresultsizeDataskewValuedistributionselectivityMapJoinLookupJoinHashJoin执行计划CommonJoinCo-GroupJoin稳定高效的核心计算引擎Testenvironment:29

worker

nodes2CPUs,12Cores,E5-2620v296GBmemoryNetwork:2X1GbpsDisks:12X3TB星环Hadoop集群已经可以在生产环境中处理20PB的数据ORC

FilesDataNodeORC

FilesDataNodeORC

FilesDataNodeORC

FilesDataNodemetastoreInceptormasterExecutorExecutorExecutorExecutorTransactionManagerZKCluster单机计算并行计算分布数据、计算均分布化星环SQL

on

Hadoop已经能够高效处理100TB数据的复杂分析TranswarpInceptor’sPhysicalDeploymentDiagramTPC-DS性能对比Testenvironment:Fournodes2CPUs,12Cores,E5-2620v2128GmemoryNetwork:2X1GbpsDisks:3X2TWorkload:TPC-DS1TBSingleuserInceptor4.1

vs

Open

Source

Hive

0.14和开源的Hive执行效率相比中,Inceptor4.0能够带来10x~100x的性能提升。下图是TPC-DS的部分query在Inceptor和ApacheHive的性能提升倍数,其中最大的提升倍数可达到123倍。Hive是目前国内绝大部分友商采用的版本唯一支持全局分布式事务处理的分析引擎ORC

FilesDataNodeORC

FilesDataNodeORC

FilesDataNodeInceptorLock

ManagerInceptorLock

ManagerInceptorLock

ManagerORC

FilesDataNodeInceptormetastoreInceptorDriverZKClusterExecutorExecutorExecutorExecutor采用多版本两阶段封锁协议实现可串行化快照隔离(Serializable

Snapshot

Isolation)Transaction1begin

transactionselectmax(price)fromorders

where

age

<

20readvalueintolocalvariablemaxorderupdate

ordersset

price

=

maxorder-1,…commitTransaction2begin

transaction…update

orders

set

price=200

where

id

=

“007”

commit优点:1.两阶段封锁协议可保证事务的完全可序列化;2.多版本(快照)隔离可以保证只读事务的高并发性Database

FederationInceptorBatch

SQLInteractive

AnalysisStarGateAccess

PlatformSourceText,

ORC,

Parquet

on

HDFSSourceOracleSourceHyperbaseSourceHolodesk需要具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力。创建一个到oracle_server上Oracle数据库oracle_db的dblink:CREATEDATABASELINKlink_to_oracleCONNECTTOuserIDENTIFIEDBY'password'USING'jdbc:oracle:thin:@oracle_server:1521:oracle_db';使用该dblink中的oracle_tab表与inceptor中的inceptor_tab表做join:SELECT*FROMoracle_tab@link_to_oracleaJOINorc_tablebONa.col=b.col;SourceDB2DB2DriverOracleDriverORC/ParquetDriverHolodeskDriverHyperdrive驱动层实现数据访问计算算子下推以减少数据传输执行计划仍采用分布式计算StarGate

vs

QueryGrid

vs

ORCL

connectorHadoop为主v.s.关系数据库为主两种技术方案和路线:平安银行:以Hadoop为基础的风险分析平台FlumeOracleMySQLDB2现有关系数据库TDH统一存储和计算平台系统日志Web日志SqoopPentaho账单文件FTP定期ELT每天/每小时/每10分钟Tableau数据实验室内存/SSD缓存HolodeskRStudioSAS深度挖掘CognosOBIEEOozieWaterlineAzkaban数据汇总/治理/粗加工PL/SQL定制程序PL/SQL深度汇总OracleDB2前台展现库准实时采集<5分钟采用TDH后2015年3月上线,之前尝试过Cloudera的CDH以及华为的FusionInsights,以及一些MPP数据库,都不能满足要求湖北移动:运营商大数据分析平台数据源8类数据源,包括信令数据、充值数据、CRM、业务订阅数据等每天4TB增量应用13个分析应用,包括:流量分析网优基于位置实时营销用户指标库…部署集群20x86服务器比4台DB2小型机集群快5x内部服务接口平台数据O域BOSS系统Gn信令业务订购使用行为数据Mc信令通信详单营帐资料渠道数据政企数据网络覆盖数据GIS地图服务LTE信令InceptorSQL编译解析器流量运营平台SPARK集群自助分析平台SPARK集群经营分析系统M/R集群渠道运营平台M/R集群…客户标签库在线数据查询服务Hyperbase基于位置的实时事件营销Stream集群八大数据源新增4TB/天FlumeFTPOverHDFS分布式消息队列RabbitMQOrSocketCLI命令行接口外部服务接口PL/SQLJDBC/ODBCREST编程接口文件接口JAVA编程接口权限访问控制SSD数据流程统一资源调度和管理YARN统一的大数据存储平台HDFS流量经营平台之前湖北移动建有多个Hadoop集群,有亚信、华为等5家厂商各自建立的集群,目前采用TDH作为统一的数据分析平台优势二:交互式数据分析和挖掘能力

MemoryvsSSDvsDisk物理性能DeviceTypeIOPSLatency(ms)Peakrate(MB/s)Interface7,200rpmSATAdrives~75-10010100SATA3Gbit/s10,000rpmSATAdrives~125-1507140SATA3Gbit/s10,000rpmSASdrives~1408140SAS15,000rpmSASdrives~175-2105210SASIntel®SSDDCP3700IOPSLatency(us)Peakrate(MB/s)InterfaceRead460,0002.22800NVMe*PCIe*3.0Write175,00061900NVMe*PCIe*3.0Read/Write250,0004n/aNVMe*PCIe*3.0StandardNameDatarate(MT/s)Latency(ns)Peakrate(MB/s)DDR3-800800106400DDR3-106610667.58500DDR3-13331333610666>10x3~5xSanDiskUltraDIMMIOPSLatency(us)Peakrate(MB/s)InterfaceRead140,000150880DDR3Write44,0005600DDR3为SSD设计专有格式1WA2XB3YC4ZD5OE6PF7QG8RHHolodesk–AColumnarStoreonSSDcachelayerSparkZKCluster1WAGLOBALINDEX2XBDictionaryBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTER3YC4ZDBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTERDictionary5OE6PFBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTERDictionary7QG8RHBITMAPINDEXFILTERBITMAPINDEXFILTERBITMAPINDEXFILTERDictionaryHDFSStorageLayerHDFSTextorORCorParquetFilesMemoryTierSSDTierHDFSStorageTier–让应用程序来选择存储层MemoryasstoragetierSSDStorageTier但是,现有的Text以及行列混合(ORCorParquet)等文件格式都不足以利用SSD的高性能。ExecutorSparkContextExecutorExecutorExecutorColumnarStoreAPIColumnarStoreAPIColumnarStoreAPIColumnarStoreAPIFileSystemAPICREATETABLEt1TBLPROPERTIES("cache"=“SSD”

“holodesk_index”=“c1,c2…”)ASSELECT*FROMsrc;Off-HeapColumnarstoreSecondaryindexTableformatSSD

ascacheMemory与SSD在TPC-DS测试中性能接近geomean=9.6%gainoverssd不同格式在SSD上的性能对比测试项格式硬件介质存储引擎text(disk)SequenceFileHardDisk(x6)HDFStext(ssd)SequenceFilePCI-eSSDHDFSorc(ssd)ORC

FilePCI-e

SSDHDFSholodesk(ssd)ColumnarStorePCI-eSSDHolodesk结论:采用文本格式,PCI-eSSD带来的性能提升仅1.5倍采用针对硬盘设计的行列混合ORC存储格式,在SSD上可比文本格式提升2.7倍采用转为内存和SSD设计的Holodesk列式存储,在SSD上可进一步比ORC提升2倍;比SSD上的文本格式提升6倍;比硬盘上的文本格式提升8倍以上。提升倍数TPC-DS中I/O密集的测试集SliceDiceRollupDrill

UpDrill

DownPivot交互式OLAP分析:DistributedCubeHolodesk–AColumnarStoreonSSDcachelayerExecutorInceptorServerExecutorExecutorExecutorColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)ColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)ColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)ColumnarStoreAPICube(D1,D2,D3)INDEXColumnD1INDEXColumnD2INDEXColumnD3INDEXColumnM1Cube(D1,D2),(D2,D3),(D1,D3)如何定义一个Cube?Cube

Size256KB固定大小ZKCluster

Cube

on

Transwarp

Holodesk

Cube是OLAP分析的常用技术createtablestore_sales

tblproperties(

‘cache’=‘ram’,

‘holodesk.dimensions’=‘product,cities,time’)asselect*fromstore_sales;计算下沉到存储层Compute

and

filters

pushed

down

to

storage

layerHolodeskCube带来的性能加速OperationSQLqueryq1countselectcount(*)fromstore_salesq2measureselectsum(ss_sales_price)fromstore_salesq3aggregationselectsum(ss_sales_price)fromstore_salesgroupbyss_customer_skq4drilldownselectsum(ss_sales_price)fromstore_salesgroupbyss_sold_date_skq5drilldownselectsum(ss_sales_price)fromstore_salesgroupbyss_customer_sk,ss_sold_date_skq6sliceselectsum(ss_sales_price)fromstore_sales_rwheress_customer_sk=5000groupbyss_customer_sk,ss_sold_date_skq7diceselectsum(ss_sales_price)fromstore_saleswheress_sold_date_skbetween2450629and2451816groupbyss_customer_skq8pivotselectsum(ss_sales_price)fromstore_saleswheress_customer_sk>5000andss_sold_date_skbetween2450629and2451816groupbyss_customer_sk,ss_sold_date_sk40亿条记录共500GB驻留内存4台两路普通服务器每台服务器256GB内存CPU为E5-2620v2万兆网络交互式探索分析交互式分析一直是数据分析的重点,但是传统关系型数据库或者基于MapReduce计算框架对临时的实时性要求高的交互式分析无法快速响应,查询效率低,无法进行有效数据探索。数据存储和分析能力的一站式平台,支持并行化多种统计分析算法,数据挖掘算法。为亿级别的数据的关联汇总,探索分析,模式变化,通过不断改变维度或度量分析数据的分布以及趋势。数据探索交互分析场景基于内存的统计分析能力,效率成百倍提升提供JDBC/ODBC接口,报表工具连接快速展现反馈的分析结果。传统数据库-数据仓库-BI工具数据多次拷贝效率低通过一站式平台解决所有问题内存分析R集成一站平台与数据可视化工具良好对接在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具,如Tableau,SAPBusinessObjects,OracleBusinessIntelligence等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。业务人员通过简单的拖拽既可定制个性化报表,跳过了数据准备的工作环节。优势三:完整的数据挖掘和机器学习算法MakeMachineLearningMoreAccessibleR

Runtime

Library

R语言动态运行库BeliefNetwork信念网络DecisionMethods决策方法Sampling采样算法Discriminate

Analysis判别分析Q-Learning增强学习GraphInference图推理FactorAnalysis因子分析GeneticAlgorithm遗传算法TranswarpHadoop分布式系统TranswarpDiscoverDistributedAlgorithmLibraryAssociation

Mining关联/推荐Classification分类算法Clustering聚类算法Sequential

Analysis时序分析Regression回归算法Deep

Learning深度机器学习DimensionReduction主成分分析Statistics统计算法DataEngineersDataScientistsWorkflowToolstobuildpipelinesTranswarpInceptorSQLEngineDataFrameAbstractionDataTransformationusingPL/SQLFeatureExtractionusingdataframeandnativeRoperationsMachineLearningusingmoredistributedalgorithmsDataMiningusingnativeRalgorithms民生银行持卡人行为分析训练数据采样民生银行2012年的04~09半年的交易流水,一共大约2亿条记录,506万个独立持卡人,数据大小约80G。并行360度用户画像在2分钟内完成对506万独立持卡人的画像消费频繁度消费水平美食爱好旅游爱好体育爱好电子爱好IT爱好年轻活力男性女性商人开车一族电话达人差旅人士民生银行用户流失分析流失预测SVM迭代1000次,在15分钟内训练和预测出所有持卡人的流失情况。两月前一月前当前月当月无消费人数下个月预测值两月前一月前当前月下个月预测值持卡人流失数趋势人数恒丰银行商圈分析ID名称ID名称ID名称1五角场6徐家汇11大柏树2浦东建材市场7静安寺-南京路-人民广场12娄山关路3金沙江路中环路口8虹莘路13新世界4漕河泾9金沙江路祁连山路14长寿路5中山公园10陆家嘴实时刷卡信息(来自银联)定义商圈商圈聚类模型分析与选择模型拟合动态商圈区域即时呈现,收缩变化一目了然二级商圈的挖掘人群密度趋势研判上海移动:利用基站数据进行人流分析通过基站数据定位用户的活动区域通过基站上网数据分析用户的关注点、出行目的、出行时间通过人群密集度算法,算出时间、经纬度、人群密度等关键指标,分析出人群迁移和密度变化趋势民生银行小微在线融资—大数据企业征信小微贷款服务平台2014年下半年上线每家企业选取200个财务指标采用分类算法对企业进行信用评估国家工商总局:企业投资任职关系分析

多家企业之间是否有关联?如何关联?关联关系如何变化?供应链管理?如何变化?企业信用分析?自然人E投资投资人企业C企业B企业A投资供应商投资人企业D自然人F个体户G配偶亲属投诉财报目前近百家银行使用该服务Logistic

regressionDecisiontreeRandomforestCostsensitiveLRSVM恒丰银行金融实时交易风险分析系统(试点)交易数据交易数据交易数据聚类/分类检测直接交易正常可疑正常交易异常交易交易时间、地点、金额、商家等信息神经网络模型每笔交易恒丰银行-异常交易检测(试点)无监督异常交易检测基本思路对原始数据进行聚类分析,得出聚类中心计算出多数点至聚类中心的距离范围根据距离范围鉴别出交易中的异常行为多维度的数据挖掘和精准营销

–华数获取用户业务访问特征值构建用户个性化标签信息集合挖掘用户的消费属性并对相应的产品进行包装预测现有客户购买相关产品的可能性获取客户其他业务的订购信息,寻找业务之间的关联性进行产品的组合消费和引导根据用户访问数据提炼热点信息、进行排行根据热点内容进行有针对性的广告投放用户消费模型产品关联模型内容热度模型用户特征模型价值核算模型通过分析用户行为,评估某一内容的市场价值预测未来可能火爆的内容预测(Prediction)数据分组(AffinityGrouping)聚类(Clustering)描述(Description)复杂数据挖掘1.用户为中心的面向主题的数据分析框架思想客户为中心的业务规划面向主题的业务模型自定2.数据分析框架的主要事件分类(Classification)估计(Estimation)锦江旅游路线推荐系统锦江旅行家推荐系统----基于Inceptor&R优势四:高并发低延时的NewSQL分布式数据库Hyperdrive

ProjectforHyperbaseTranswarpHyperdriveIndexable

Storage

Engine

implementedforHyperbase

HBaseElastic

SearchTransactionSQL

&

APITransactionExecutionEngine分布式事务处理引擎IndexSQL

&

APIGlobal/LocalIndex全局/局部索引SearchSQL

&APIDistributedFull-textSearch全文搜索InceptorStarGateProjectHyperbase

Native类型支持全面兼容全文索引,支持正则表达式作为语法全面提升模块易用性民生银行卡部历史工单查询历史数据量(4年)数据表行数大小dds_acct_acct181246212.7Gdds_acct_card3866529917.6Gdds_acct_stm8Gdds_trans_event716425258218.5Gdds_acct_quick_chng1070666344616.5Gtab_info_list3094239.4K合计925GB生产系统(SAS)TDH硬件2x

P750小型机(HA)8台x86服务器工单查询延时最快20分钟平均4秒程序SAS

444行PL/SQL

108行民生银行理财业务数据并发查询单位:SQL查询/秒DPF集群使用power7+处理器,共64个物理核;TDH集群使用x86E5处理器,共72个物理核,CPU性能DPF集群比TDH集群强3倍左右Hyperbase+Inceptor

-

兼顾统计分析和精确查询两种场景

单位:秒单位:秒十并发查询测试批量统计测试HyperbaseClusterZookeeperTimeServerClientLockCleaner保证HA检测冲突锁获取唯一递增时间戳检测冲突锁告知锁是否可以清除若锁可以清除则清除锁返回冲突锁预写事务提交事务分布式事务基于SQL的分布式事务支持常用的事务操作BEGIN/ENDTRANSACTIONCOMMIT,ROLLBACK基于两阶段提交算法创建支持事务的表添加增删改事务Commit事务,写入Hyperbase中Rollback事务,前面的插入事务都被取消插入多条记录数据分布式事务的ODBC示例代码索引+智能索引智能索引技术CostBasedIndexTechnology查询计划智能使用最快速的索引无需用户在SQL中指定索引对指定查询,根据该表有的多个索引创建不同的执行计划根据成本计算性能最佳的执行计划和索引支持精确查询和模糊查询查询延时百毫秒级相对于普通索引技术,CBI准确率高,性能更好,满足复杂场景需求优势五:半结构化和非结构化数据处理日志大数据分析平台OnlineServicesWebServicesServersSecurityGPSLocationStorageDesktopsNetworksPackagedApplicationsCustomApplicationsMessagingTelecomsOnlineShoppingCartWebClickstreamsDatabasesEnergyMetersCallDetailRecordsSmartphonesandDevicesRFID数据中心私有云公有云完全真实可靠的系统运行状况1从系统消息,到传感器数据,事无巨细2业务实时运行信息可以从日志中进行挖掘3日志处理核心过程Oct1320:00:43.874401rule193/0(match):blockinonxl0:26.3859>:S1818630320:1818630320(0)win65535<mss1460,nop,nop,sackOK>(DF)Oct1320:00:43fwboxlocal4:warn|warningfw07%PIX-4-106023:Denytcpsrc

internet:26/3859dst8/135byaccess-group"internet_access_in"Oct1320:00:43fwboxkernel:DROPPEDIN=eth0OUT=MAC=ff:ff:ff:ff:ff:ff:00:0f:cc:

81:40:94:08:00SRC=26DST=8LEN=576TOS=0x00PREC=0x00

TTL=255ID=8624PROTO=TCPSPT=3859DPT=135LEN=556多来源多格式的日志网络设备预处理Cisco/MaipuHuawei…

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论