




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
WarpEngineForBig4中国最早自主研发的大数据基础软率先支持银行业复杂关键应用的大数据平
最早入 采购网的 版产国内落地应用案例最多的大数据厂 版厂商之5 7 在十二月份的webinarHadoop2015:MovingIntoMainstream MarketGuideforHadoopDistributions中,同被列RepresentativeVendors(最具代表性厂商)中的主流 。星环科技的产品名为TranswarpDataHub,它包含一整套Hadoop组件,星环科技还为TranswarpDataHub配备掘组件。TranswarpDataHub支持Docker和Kubernetes,还提供独特的PL/SQL编译器。目前,星环科技大多数业务。 解决方案市场,在其魔力象限1.中对全球21家厂商进行了对比分析 球最具发展前景的公司却是来自中国的公司——星环科技
——星环星环科技的产品有其独特的功能,例如它的SQL引擎Inceptor,基于ApacheSpark,兼容OracleSQL和PL/SQL,支持事务处理的CRUD(CREATE,READ,UPDATE,DELETE)并能保证ACID。 的用户中受到了非常高的评价 小企业发展基金、基石资本等国内知名机构投资。报报瑞力投资基金成立于2011年三大国三大国、实国际著 Gartner在2016年初发布的发版市场指南《MarketGuideforHadoop行版软件代表厂商之一,也是唯一入选的中国公司。发目前星环的产品TDH已的电信、金融、交通、能源,等行业陆续落地,是国内落地案例最多的大数 成员单市高新技术企业、软件企 Hadoop技术及应用推 发起单BIGDATA100最具网 大数据企
2015
BIGDATA
荣最 人物 2015年6月,在星环成立只有 之际市副 带领本市经信委,科委,发改委,及 徐汇区委莫负春书记曾到星环公司调得 科技创新支持的项目包括基于SPARK内存计算的大数据平台软件大数据处理及内存计算系统研基于SSD和内存实时大数据平台及应大数据 及产业集群培 师,100%本科以上学历,以博士为主。骨干技术开发人员很多来自的复旦,交大等独特的优势。以星环大数据为基础的Hadoop推 星环科技典型案例(落地案例最多 公安交 山东 厅交管 厅交管 厅交管吉林 厅交管
金融行
运营
政府能
其他行 江苏银行寿 TranswarpTranswarpDataHubTranswarpDataHub架构图Transwarp
最完整的SQL
资源管理(内置Transwarp资源管理(内置Transwarp优 (内置TranswarpErasure
Elastic
Data
消息队
高效内存/SSD最完整的分布式机器学习算法时整合超过6000个R、文本分析、精 等应用支持最完整SQL和索引的NoSQL数据Transwarp
Apache
最健壮和功能丰富的流处理支持真正的Eacty支持所有组件的高可用(支持流式SQL和流式机器学习 交互式分析引擎Inceptor-完整SQL支持Apache基于内存的Map/Reduce“光速”一样快,比HadoopMap/Reduce快10xJDBC JDBCODBCBatch& ctiveSQL
SS
,常用于缓存数据供Spark高 Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低 MostcompleteSQL兼容>99%ANSISQL2003,HiveQL和>98%PL/SQLSQL2003
PL/SQLSQLSQLRBO&CODECFGParallel
DistributedConcurrency
管Security&
SQLResource高度优化的高速SQL引擎,可运行在Spark或MResourceRowLevel丰富RowLevelDistributedExecutionEngine分布式执行引擎includingApache支持主流可视化和BITableau,IBMCognos,SAPDistributedExecutionEngine分布式执行引擎includingApacheData不同版不同版功能描专业版
SourceText,ORC,ORC
SQLonHadoop名 计算引 ANSISQL支持程 第一个版本Cloudera类Dremel,类MPP引擎SQL92子集+SQL2003扩展(不支Map/Reduce改进SQL92子集+SQL2003扩展(不支TranswarpSparkOracleCompatibleHiveQL(SQL92子集,不支MapR改进自IBMBigSQLDB2/DPFlikeMPPEngineoverIncludingSQLPivotalGreenplumlikeMPPEngineoverSQL不支SpliceApacheDerby+SQL不支2015ActianMPPEngineoverSQL不支 TableTableJOINDataTableresultValue12……LookupHashLookupHashCo-GroupCommonMap 智能索引技术CostBasedIndex相对于普通索引技术,CBIPerformancePerformancespeedupofCBIfromauser1 SpeedupwithsimpleSpeedupwith 唯一支 过程的SQLonHadoop引兼容98%以上的OraclePL/SQL支 过程、函数、控制流、游标、异常处理等各类语并行度的来源和种类controlflow
Acursorcanbeparallelizedifthereisnoloop-carrieddependenceorthedependenceisinductive.优化后等价于sql(“SELECT*frompartitionpartitionflag>flag>flag> CFGon游标示例程CURSORcISSELECT*fromOPENFORv_recINcIFv_rec.flag>0THENUPDATEfact1SET…UPDATEfact2SET…ENDIFEND 单 计算并 计算分 数据、计算均分布ZK
星环SQLonHadoop已经能够高效处理100TBTranswarpInceptor’sPerformanceTPC-DSExecutionTimefor99Queries(in29worker2CPUs,12Cores,E5-262096GBNetwork:2X•Disks:12X0
ORCFilesORCORCORCFilesORCORCORCFiles TPC-DS测试集的通过 运行出错的
Inceptor相对其他引擎性能提升倍Test2CPUs,12Cores,E5-2620Network:2XDisks:3XSingle004032Impala Tez Inceptor4.1SparkSQL1.4.1
Impala Tez SparkSQL Greenplum Inceptor4.1vsOpenSourceHiveInceptor4.0能够带来Inceptor和ApacheHive的性能 BEGIN/ENDCOMMIT,TimeTime
创建支持事务的
检
添加增删改事
预Hyperbase锁Hyperbase锁
LockCommit事务,写入LockRollback事务,前面的插入事务都被取
插入多条记录数 采用多版本两阶 协议实现可串行化快 Snapshot更新更新申请写亏斥锁,一直到transaction结束时才释放,幵且严格遵守两阶段协议,同时事务提交时将对应的数据更新 版本oo oo只读只读
LockManagerORCFilesORCORCFilesORCORCORCFiles多版本(快照 DatabaseHadoop为主v.s.关系数据库为主StarGatevsQueryGridvsORCLconnector
Batch
创建一个到oracle_server上Oracle数据库CREATEDATABASELINKlink_to_oracleCONNECTTOuserIDENTIFIEDBY'password'USING使用该dblink中的oracle_tab表与inceptorSELECT*FROMoracle_tab@link_to_oracleJOINorc_tablebONa.col=
Text,Text,ORC,Parqueton MemoryvsSSDvsDisk6In®SSDDCIn®SSDDC700Peak NVMe*PCIe*6NVMe*PCIe*4NVMe*PCIe*SanDiskSanDisk5DevicePeak7,200rpmSATA~75-SATA10,000rpmSATA~125-7SATA10,000rpmSAS815,000rpmSAS~175-5 HDFSStorageTier–让应用程序来选 MemoryasstorageSSDStorage但是,现有的Text以及行列混合(ORCor等文件格式都不足以利用SSD
ColumnarSecondarySSDasCREATECREATETABLE)SELECTFROM
ZKHDFSHDFSTextorORCorParquetMemorySSDColumnarStoreColumnarStore1WA2XB3YC4ZD5OE6PF7QG8RHHolodesk–AColumnarStoreonSSDcache1WA2XB1WA2XB3YC4ZD5OE6PF7QG8RH TPC-DS性能测试(diskvsssdvs0q2q5q12q15q19q22q26q28q33q37q40q42q45q47q49q51q53q56q58q60q62q64q66q68q73q77q79q82q84q86q88q90q92q95q97q99 holodesk(pci-essd)
speedup(memoryvs memoryvs
geomean=9.6%gainoverq2q5q12q15q19q22q26q28q33q37q40q42q45q47q49q51q53q56q58q60q62q64q66q68q73q77q79q82q84q86q88q90q92q95q97 DrillDrillCubeonTranswarp
如何定义一个createtablestore_salestblproperties(‘holodesk.dimensions’=‘product,cities,time’)asselect*from Computeandfilters
ZKColumnarStore ColumnarColumnarStoreColumnarStoreColumnarStoreColumnarStoreCubeSize
Cube(D1,D2),Cube(D1,D2),Cube(D1,D2),
Cube(D1,D2),Cube(D1,D2),Cube(D1,D2),SQLselectSQLselectcount(*)fromselectsum(ss_sales_price)fromstore_salesgroupbydrilldowselectsum(ss_sales_price)fromstore_salesgroupbydrilldowselectsum(ss_sales_price)fromstore_salesgroupss_customer_sk,selectsum(ss_sales_price)fromstore_sales_rwheress_customer_sk=5000groupbyselectsum(ss_sales_price)fromstore_saleswheress_sold_date_skbetween selectsum(ss_sales_price)fromstore_saleswheress_customer_sk>5000andss_sold_date_skbetween 404 普通服务0
1.31.3
w/ w/o数 与数据可视化工具良好对P BusinessObjects,OracleBusinessIn P Transwarp反反
Java语言接口
RStudioWebIDE开发环境
DistributedExecutionEngine分布式执行引擎
RRuntimeLibrary MakeMachineLearningMoreData Data
usingPL/SQL
FeatureExtractionusingdataframeandnativeRoperations
MachineLearningusingmoredistributed
DataMiningusingnativeRalgorithmsTranswarpDiscoverDistributedAlgorithmLibrary采样算Q-增强学判别分因子分信念网RRuntimeLibraryTranswarpSQL 实时NewSQL数据库TranswarpTranswarpHyperdrive–SQLbackendenginebetweenInceptor&Real-timeOLTPOLAPBATCHSearchGraphTraversalApplicationMixedWorkload混合负载业务不同版本
功能描述结合InceptorSQL引擎,可以支持通过SQL进行高并 基础版内嵌搜索引专业版图数据多类型支半结构化文档非结构化数据(、音频、二进制文档等)支持混合结构数据的、搜索、统计、分析支持SQL关系表和层次化文档SQL&SQL&SQL&SQL&Global/LocalObjectSQL&TranswarpHBase–Hadoop分布式BigElastic 实时数据 理Transwarp
管
SQLCompilerApplicationStorageDistributedExecution
S
并行算法Data并行算法
如常见的企业数据总线以Kafka为中间件离线模型,不同版本功能描基础版TranswarpDataTranswarpDataTranswarpStream+Hyperbase+InceptorTranswarpKafkaSQL usingANSI
usingR
…
&insertHighspeedinsertion
Holodeskon … Stream+SQL+Rdataminingonbatchbatch@batch@
learningusing
transwarp 部–实时流式推流处理过
推推
分
统一权限管控Transwarp
HAHA
Audit&Audit&HAUserQueueUse/AdminUserQueueUse/Admin
支持支持Resource
DataDataTransfer& InceptorandHDFSResource
(withCellLevelCellLevelRowLevelKafkaTopicLevelRole普通职RoleRole
统一计算资源管理调度Dir/FileDir/FileStorageQuotaStorageQuota Dir/Fileaccess 界界TranswarpTranswarpDataWarehouseTranswarpDataWarehouse架构Oozie控Oozie控 理审 告警
Data
Data
安 安全
完整数据仓库支实时处理数据仓库(OperationalDW),进行实时数据采上下文无关联数据仓库(ContextIndependentDW),在 定报表。通过对于SQL2003、PL/SQL以及分布式事务的支持实现传统数仓向大数据的平滑迁移。数据集市(DataMart),把数据装载到基于内存或者SSD多租户管理 SystemTranswarpSystemTranswarpOperatingSystemOperational Traditional Data
有 务
流 实处 研
加 模
报
预
综查 搜系
结构化数据作模型 数 作
非结构化处调 调其他信
质 度管 度管
……
(Virtualization,Multi-tenantSLA,平安银行:以Hadoop为基础的风险分析平台
定期定期天/每小时/每10每
现库 现库 / /TDH和计算平 文文件接编程接编程接数据8类数据源,包括 应13个分析应用,包括
4TB/流Mc量经Gn营平LTE台 营帐资 数
Or流量运营平台…经营分析系
权 控 客 …部署集群20x86比4台DB2小型机
OO 平业务订台使用行数 数据据
平台之 平台 旅年 一月 当前 名名名1五角6徐家大柏2浦东建材市7静安寺-路-人民广娄山关3金沙江 路8虹莘4漕河9金沙江路祁连长寿5中山公陆家实时刷卡信息(来自银联 移动:利 通 通 –华用户特征模
用户消费模 产品关联模 内容热度模
价值核算模
用户为中心的面 的数据分析框架思面 的业务模型自分类估计
预测数据分组(Affinity 聚类描述 锦江旅行家推荐系统----基于Inceptor& 历史数据量(4年数据数据行数大小合生产生产系统2xP750小型机SAS444
并发查询延时(秒9
1
并发查询延(秒
0
民生银 业务数据并发查
1
0.1TDH Hyperbase+Inceptor-兼顾统计分析和精确查询两种场
数据中
11
私有
s
Messaging 公有
and
CallDetail
多来源多格式的日Oct1320:00:43.874401rule193/0(match):blockinonxl0:26.3859>: (0)win65535<mss1460,nop,nop,sackOK>Oct1320:00:43fwboxlocal4:warn|warningfw07%PIX-4-106023:Denytcpsrcinternet:26/3859dst8/135byaccess-group"internet_access_in"Oct1320:00:43fwboxkernel:DROPPEDIN=eth0OUT=MAC=ff:ff:ff:ff:ff:ff:00:0f:cc:81:40:94:08:00SRC=26DST=8LEN=576TOS=0x00PREC=0x00TTL=255ID=8624PROTO=TCPSPT=3859DPT=135LEN=556来源分类归类预处理及字段…
………
多数据源系 数据定制化定制化
消 实时流处系 JobTopicJobTopic
检索分析
数据方分析挖掘分析展分析挖掘 AgentAgent志weblog
日志 索、统计JobJob
BIBI服搜索搜索AgentAgent实时告警实时仪表AgentAgent实时告警实时仪表Webe.g.JobTopicTopic CDNCacheCache
文 接
In-memoryCache…In-memoryCache……
Cache Cache 在每个节点内部署日 Agent,通过UDP 服务器syslog日志,节点Agent 系统部署600+Agent,20
平台采用TranswarpDataHub支持峰值928w/sec的数据写入和分析 整理后,进行实时压缩处理,输出至 平台依赖于TranswarpInceptor 的日志流数 我们 优势:ErasureCode将 能力翻倍 83218321 8321 8321
开副本数=3,可 4321 43212121
4 4Reed-SolomonErasure
开副本数=1,校验块数=4, 任意四个 TOSTOS全球第一个深度实现HADOOPONDOCKER的分布式操 统一的企业大数据平Data需求一:资源弹性共享-提高资源利用灵活部署:Big
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 白萝卜栽培技术
- 工程问题的课件
- 工程道德法规课件下载
- 工程进度课件
- 2026届浙江省宁波北仑区东海实验校中考语文最后一模试卷含解析
- 2025版美甲店会员管理系统开发与维护服务合同
- 2025年度农业科技项目技术转让合同
- 内部承包经营合同书
- 小学作文端午节的习俗10篇
- 共享农业技术推广与服务平台协议
- 建筑证书管理培训
- 车间安全用电培训课件
- 2024建安杯信息通信建设行业安全竞赛题库
- 2025至2030中国低压交流接触器行业发展趋势分析与未来投资战略咨询研究报告
- 南门精酿啤酒厂管理制度
- 渐冻人麻醉处理要点
- 2025年山东省高考生物试卷真题(含答案解析)
- 2025年高考数学复习 解题技巧:函数性质(易错点+七大题型)学生版+解析
- GB/T 28583-2025供电服务规范
- 海外项目工程管理
- 恩施市2025届数学三年级第一学期期末达标测试试题含解析
评论
0/150
提交评论