星环科技大数据领军掘金云+AI_第1页
星环科技大数据领军掘金云+AI_第2页
星环科技大数据领军掘金云+AI_第3页
星环科技大数据领军掘金云+AI_第4页
星环科技大数据领军掘金云+AI_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录 HYPERLINK l _TOC_250012 公司概况:数据基础软件领航者,打造一体化平台 1 HYPERLINK l _TOC_250011 公司发展历程:从分布式架构到一站式大数据基础软件平台 1 HYPERLINK l _TOC_250010 团队与融资情况 1 HYPERLINK l _TOC_250009 主营业务:统一的大数据与人工智能处理平台 3 HYPERLINK l _TOC_250008 公司主要产品:为客户提供处理大数据与人工智能业务的软件平台 3 HYPERLINK l _TOC_250007 大数据产品:基于分布式/云原生的多模型数据处理平台 4 HYPERL

2、INK l _TOC_250006 数据科学产品:帮助客户更好的利用手中的数据 14 HYPERLINK l _TOC_250005 技术路径:从开源分布式架构到全产品自主可控 17 HYPERLINK l _TOC_250004 海外分布式架构商业化公司:Cloudera 的衰落与 Databricks 的兴起 17 HYPERLINK l _TOC_250003 持续研发推动下,公司实现技术架构全面替代 20 HYPERLINK l _TOC_250002 市场分析:云与国产新势力夺取传统厂商市场份额 21 HYPERLINK l _TOC_250001 市场快速增长,国产替代与应用场景增

3、加推动竞争环境变化 21 HYPERLINK l _TOC_250000 市场格局出现重塑,新兴实力崛起正当时 23风险因素 26投资分析 26插图目录图 1:星环科技发展历程 1图 2:截止 D2 轮公司股权结构 2图 3:按行业分标杆案例客户数量 2图 4:按产品分标杆案例客户占比 2图 5:公司产品阵列:为客户提供大数据与人工智能产品 4图 6:星环多模型架构图 6图 7:TPC-H 性能测试中 Inceptor 运行速度可比 SparkSQL 和 Greenplum 快近 100 倍 7图 8:TPC-DS 测试集的通过率 7图 9:Inceptor 相对其他引擎性能提升倍数 7图 1

4、0:TDH 核心组件 Inceptor 8图 11:Slipstream 主要行业应用 8图 12:基于 Slipstream 实时计算实现各场景下实时信息处理 8图 13:公司 Hyperbase 定义为 NewSQL 数据库 9图 14:Transwarp Scope 大规模搜索和统计的融合引擎 9图 15:星环科技图数据库产品 10图 16:分布式闪存数据库 ArgoDB 架构 11图 17:分布式关系型数据库 KunDB 架构 11图 18:星环科技(Transwarp)多模数据库能够提供国内数据库中最丰富的产品体系 12图 19:TDH 支持主流数据模型超过其他主流竞争对手 12图

5、20:星环的平台能够统一数据湖、数据仓库和数据集市 13图 21:TDC 云化产品架构 14图 22:旧式资源调配平台处理功能主要缺陷 14图 23:Sophon 智能分析工具 15图 24:TDS 架构图 16图 25:公司核心产品 Transwarp Data Cloud 数据应用全栈云平台 17图 26:传统 Hadoop 架构:核心为 HDFS 与 Map/Reduce 17图 27:Cloudera 主要向外提供的产品能力 18图 28:全球云原生应用数及同比增速 20图 29:Gartner 预测 2022 年 75%的数据库都在云上 20图 30:星环大数据技术架构演变(从蓝色的

6、的开源产品转变为绿色的的星环自主研发产品). 20图 31:全球 OLAP 市场规模 22图 32:中国大数据市场规模预测 22图 33:中国 OLTP 市场规模及预测 22图 34:中国 OLAP 市场规模及预测 22图 35:2019-2024 年中国大数据市场规模预测 23图 36:2020 年中国大数据各子市场规模占比 23图 37:全球 OLTP 市场规模及增速 24图 38:全球 OLAP 市场规模及增速 24图 39:2019 年全球数据仓库市场份额 24图 40:企业混合云部署情况(2020 年) 24图 41:IDC 关于企业是否接纳混合云战略的调研 25图 42:企业混合云

7、部署情况(2020 年) 25图 43:2020 年 Gartner 数据库象限 25表格目录表 1:公司历史各轮融资投资方与规模 2表 2:公司主要产品 3表 3:星环科技大数据产品对应的应用场景 4表 4:公司多模数据库分为五层 6表 5:TDH 主要产品 6表 6:星环科技数据科学产品 15表 7:Hadoop 较为重要的子模块 18表 8:Hadoop 主要组件发行时间 19表 9:公司主要解决方案,应用场景与竞争产品 26表 10:可比公司估值参考 27 公司概况:数据基础软件领航者,打造一体化平台公司发展历程:从分布式架构到一站式大数据基础软件平台星环科技成立于 2013 年,致力

8、于打造“云计算+大数据+数据库+人工智能”的基础平台产品,为企业客户提供一站式大数据基础软件平台。总部位于上海,现已在北京、广州、新加坡、南京、郑州、成都、深圳、天津、武汉等地拥有区域中心、研发中心或区域办事处。公司创始人、公司 CTO 孙元浩曾为 Intel 负责 Hadoop 发行版研发工作,2013 年离开 Intel 创办星环科技。公司愿景是成为世界领先的基础软件供应商,为所有的大数据和人工智能应用提供基础平台,致力于为中国开发出一款自主可控的基础大数据软件。公司以Hadoop 架构起步,逐步研发改进形成独立自主的数据基础软件平台。2016 年,星环科技被 Gartner 评为全球最具

9、有前瞻性的数据仓库及数据管理解决方案厂商,2017 年被 IDC评为中国大数据市场领导者。公司产品已经在二十多个行业应用落地,2018 年,星环科技成为 12 年来全球首个完成 TPC-DS 测试并通过官方审计的数据库厂商。公司的产品目前已经在二十余个行业实现落地,在金融领域具备多年技术积累。公司目前已完成 D2 轮融资,拟科创板挂牌上市,于 2020 年 12 月开始上市辅导。图 1:星环科技发展历程资料来源:星环科技官网,团队与融资情况星环科技创始人兼 CEO 孙元浩是公司实际控制人,曾任英特尔亚太研发有限公司数据中心软件部亚太区 CTO,负责的分布式架构团队包括 50 余人。Hadoop

10、 架构最终在市场中被证明需要脱离于硬件,以软件产品的形式推广,但是由于 Intel 本身是如 Oracle 等软件公司的上游长期供应商,使得公司无法推行孙元浩的软件产品化、全产业化的商业策略。最终,在 Intel 决定注资 Cloudera 后,孙元浩决定出走,创建星环科技,致力于在中国建立起一个全球顶尖的大数据基础平台产品供应商。2014 年 4 月,公司创立并获得第一笔 100 万人民币的天使轮投资。在此之后,公司先后进行七轮融资:投资方包括启明创投、腾讯、中金、金石投资等一级市场明星投资机构。公司成立至今已累计完成 15 亿元人民币的融资。表 1:公司历史各轮融资投资方与规模投资方融资时

11、间A 轮方广资本、恒生、信雅达数千万2014 年 8 月A+轮启明创投数千万2015 年 1 月B 轮瑞智炜格、创新投资、基石资本、国家中小企业发展基金1.55 亿2016 年 3 月C 轮腾讯、勤智资本、兴瑞智新2.35 亿2017 年 5 月D1 轮TCL 资本、中金资本、深创投数亿2019 年 2 月D2 轮中金资本、渤海中盛、渤海产业投资基金、任君资本、交银国际、第一创业证券投资、朗玛峰创投、新鼎资本、晶凯资本等5 亿2019 年 10 月资料来源:36 氪,图 2:截止 D2 轮公司股权结构3.14%28.01%13.18%12.51%8.90%孙元浩 林芝利创赞星投资国家军民融合产

12、业基金范磊云友投资方广投资启明创投4.55%4.61%4.72%7.16%7.98%5.24%长江合志恒生电子其他资料来源:公司官网,多元化客户分布,体现公司产品能力:公司当前的产品已经能够覆盖金融、能源、交通、政府、运营商、教育、医疗、零售、媒体等 20 多个行业超过 2000 家用户,用户行业多元化展现公司技术研发、拓展能力强劲。金融行业用户对于数据库产品要求严格,容错率低,是数据库产品国产替代的高地,公司金融客户 200 多家,体现公司的技术水平与行业开发能力。信创行业重点领域的客户如能源、政府、交通、电信为公司贡献 78%的客户比例。1202529161746107图 3:按行业分标杆

13、案例客户数量(单位:个)图 4:按产品分标杆案例客户占比(单位:%) 14012010080604020数据仓库数据集市实时计算信息检索深度学习行业方案9.1%16.4%30.9%16.4%9.1%18.2%0金融 能源 交通 政府 运营商 教育 医疗 零售 媒体资料来源:公司官网,资料来源:公司官网, 主营业务:统一的大数据与人工智能处理平台公司主要产品:为客户提供处理大数据与人工智能业务的软件平台产品围绕着数据处理为核心,为企业客户提供完整的基础软件产品解决方案:公司经过长期自主研发与产品积淀,围绕着为客户提供数据处理工具,研发设计出一整套数据管理软件产品,包括用于企业本地部署的分布式极速

14、大数据平台 Transwarp Data Hub ( TDH );基于容器,用于云化部署的智能大数据云平台 Transwarp Data Cloud ( TDC );为企业提供 AI 开发能力的智能分析工具 Transwarp Sophon、大数据开发工具 TDS 以及为企业提供软硬件一体化能力的超融合大数据一体机 TxData Appliance。公司六大核心技术优势领先市场竞争:包括领先的分布式系统软件技术、优秀的分布式编译技术、领先的分布式数据库技术、基于容器的数据云技术、数据全生命周期的开发和管理技术、支持计算智能、感知智能、认知智能、行为智能的机器学习技术。表 2:公司主要产品产品线

15、核心组件特性与应用场景关系型分析引擎(Inceptor)+实时流计算引擎大数据和云基础平台分布式关系型数据库Transwarp Data Hub(TDH)企业级一站式极速大数据综合平台Transwarp Data Cloud(TDC)数据应用全栈大数据云平台ArgoDB分布式闪存数据库KunDB分布式交易数据库(Slipstream)+ 知识库(Transwarp Scope 和 StellarDB)+操作型数据库(Hyperbase)+数据科学平台(Sophon Discover)数据仓库、数据集市、实时计算平台、分布式搜索引擎、分布式图数据库、分布式在线交易数据库、深度学习分布式计算引擎+

16、分布式存储引擎分布式计算引擎、分布式存储引擎容器化的一站式大数据平台,目标场景包括数据仓库、机器学习、物联网与信息检索等提供多租户式云上大数据服务,以及多行业全方位解决方案,满足各种数据处理场景需求,实现企业数据与应用的生态化建设为适应全闪存服务器设计,实现离线批处理数据仓库、实时数据分析平台、 OLAP 数据库、全文检索数据库功能可扩展、高并发、高可用,为各行业提供通用解决方案数据开发与智能分析Sophon智能分析工具Transwarp Data Studio大数据开发工具统一的企业级数据智能分析工具。提供数据清洗、数据分析挖掘、机器学习、深度学习、模型管理、API 部署、工作流调度等功能,

17、助力企业 AI 时代业务创新与变革包含数据探索、数据集成、元数据管理、数据质量标准、数据血缘分析、数据任务调度、数据质量报告、数据资产管理、指标设计与服务发布等核心功能模块通过软硬件一体化装置实现计算、存超融合大数据一体机Transwarp TxData Appliance超融合大数据一体机四子星服务器、双子星服务器、普通双路服务器,包含 X86 与 ARM 两个版本储、网络、虚拟化和应用融合的紧密集成的大数据平台资料来源:星环科技官网,星环科技作为分布式软件系统研发提供商,拥有天然的底层硬件基础,其创始团队拥有丰富的编译器经验和分布式架构经验。公司从分布式架构 Hadoop 商业发行版产品起

18、步,结合 Spark 开源产品并逐步自主替换,完成了自主产品代码更替与原架构的改良,并利用 容器能力基于 K8S 平台提供云原生版本产品。公司独特的多模型异构体系被信通院评为大 数据产品线最丰富的厂商,并早于国外同行 2 年完成大数据组件的容器化部署,成为业界第一个基于容器化的大数据平台。丰富的产品线让星环科技可以实现数据全生命周期管理:在大数据处理方面,公司产品通过改造的存储引擎,统一的计算引擎形成统一的软件平台,形成了包括分布式分析型、交易型数据库、实时流式计算引擎、图数据引擎、搜索引擎、机器学习工具中间件、NoSQL 数据库等融合一系列数据库的多模数据库。在数据开发与智能分析方面,公司具

19、备智能分析工具 Sophon、大数据开发工具 TDS 等产品。为完善面向客户的全套解决方案能力,公司在硬件上还具备 x86 和 ARM 架构下的超融合一体机。图 5:公司产品阵列:为客户提供大数据与人工智能产品资料来源:星环科技 2021 新产品发布会大数据产品:基于分布式/云原生的多模型数据处理平台为客户提供处理大数据业务服务,公司的产品有企业级一站式极速大数据平台(TDH)、大数据云平台(TDC)以及分布式数据库 ArgoDB、KunDB。TDH 为客户提供了分布式本地部署的多模数据库,TDC 是 TDH 的云原生版本:从用户的角度而言,公司的产品为用户提供了基于一个平台管理下的,囊括了分

20、布式数据库、数据仓库、大数据开发工具、智能分析工具等一整套数据管理应用类软件产品。基于公司的产品,用户可以实现数据仓库、搜索、实时计算、数据集市、数据湖、关系型数据库等数据开发、管理类事务,帮助企业或政府客户更好的应用、管理、维护自身的数据。表 3:星环科技大数据产品对应的应用场景产品应用场景企业级一站式极速大数据综合平台(TDH)数据仓库、搜索引擎、人工智能数据仓库、数据集市、数据湖、实时计算、搜索引擎、人新一代智能大数据云平台(TDC)工智能、关系数据库分布式闪存数据库 ArgoDB数据仓库、数据集市、数据湖、关系数据库分布式交易数据库 KunDB高并发操作型数据应用资料来源:公司官网,公

21、司产品从分布式架构出发,能够为客户提供基于廉价商用硬件设备,高性能、高吞吐量的海量数据处理解决方案。分布式架构即是建立在网络之上的软件系统。随着强大的单一服务器无法满足大型系统持续增长的业务需求,需要使用分布式数据库及分布式文件系统来支撑,分布式架构允许将计算与存储任务通过网络分发给多地的多个服务器并对其进行统一调度,以满足海量数据处理需求。随着业务进一步复杂,对数据存储、检索和实时处理的需求又进一步催生了如非关系型数据库 NoSQL,分数据库查询技术搜索引擎、实时计算流式数据库等分布式架构下的产品类别。由于数据量巨大以及部门分散在多个地区的行业属性,分布式系统在金融、运营商等部门率先被应用,

22、目前已经成为传统行业与互联网行业进行本地大数据管理的通用解决方案。多模型数据处理平台 TDH:国内支持数据库种类最多的多模数据库多模型数据处理平台是星环将客户的需要应用于各类场景的多个数据库产品,融合为一个基于统一管理下的数据管理平台。随着大数据技术使用日益广泛,越来越多企业在应用场景方面有更多元的诉求,需要处理的数据量飞速增长,需要处理的场景日趋复杂。传统厂商与云厂商出于技术路径选择或是商业策略考量,在过去习惯于将不同数据库区分出售。但是当前单个数据库解决单一场景的方式已经不适用于复杂场景的需求。客户如果购买多个单一数据库,并简单的利用多个数据库构建混合架构平台,则需要额外的接口层实现数据导

23、入导出、一致性处理与信息汇总能力,对 IT 人员和整体系统的负担都非常大。多模数据库在当前数据种类越来越多,数据库工具类型越来越多的背景下,成为简化用户使用,打通客户手中数据的关键能力。2021 年发布的 TDH 8.0 采用了领先的多模型技术架构和统一数据管理,可以构建服务于整个企业的统一数据资源库,让不同部门的数据间的隔阂彻底打破,使跨部门数据灵活调用拥有了技术支撑。通过 8 种异构存储引擎支持业界领先的 10 种存储模型,自动化应对多部门业务需求,能够支撑用户各种高阶的数据分析场景,帮助用户完成数据自动化管理,实现业务价值。TDH 对于存储和计算完全解耦。用户可以根据业务的变动,按需创建

24、新模型,按需申请计算和存储资源。任务的生命周期结束时,可以释放占用的计算和存储资源,回收到集群资源池中。公司多模数据库核心能力在于其底层引擎配置。公司的多模数据库将软件层分成五层,资源管理/操作系统层统一的存储管理层独立的存储引擎层(存储格式、存储访问方式是独立的)统一的计算层统一的 SQL 接口层。与其他同类竞争对手相比,星环多模架构难点在于实现计算层统一,做成独立计算引擎。多模的计算引擎统一便于客户进行开发,公司独立研发的统一的数据计算引擎 Nucleon DCE 实现计算层自主决策,支持运营式 OLTP 数据库(Operational)、分析式 OLAP 数据库(Analytical)、

25、以及低延时的事件驱动数据库(Slipstream)。底层引擎应用统一的数据操作查询语言(SQL/Cypher)。多模型数据库适用于不同场景,发挥了各自数据库在面对不同场景中的技术优势,又能够统一管理运维,整体架构更为简洁便捷轻巧。图 6:星环多模型架构图资料来源:星环科技 TDH 产品白皮书(来源于公司官网)表 4:公司多模数据库分为五层统一的 SQL 编译器Transwarp Quark统一的分布式计算引擎Transwarp Nucleon异构存储引擎层开发了统一的分布式 SQL 引擎,兼容 HIVE、Oracle、DB2、Teradata 等语言,用户不需要因为场景切换、数据库切换,造成接

26、口、开发语言的切换而烦恼。开发人员学习成本低,开发的代码可移植性强,技术对接容易。TDH 不同的存储引擎都使用统一的计算引擎。计算引擎能根据不同的存储引擎自动匹配高性能算法统一优化、拆分、分发、运行计算任务通过 8 种独立的存储引擎,支持十种不同的存储模型:关系型数据存储、宽表存储、文本存储、对象存储、键值存储、全文检索、地理空间存储、图存储、事件存储、时序数据存储统一的分布式存储管理层开发了统一的存储管理引擎,数据块分部管理、数据多副本一致性管理、文件服务管理等存储公用功能开发了统一的资源调度框架,通过容器化编排,统一调度计算、存储、网络资源,支持 X86 和 ARM 混合架构统一的资源管理

27、层以及多种操作系统资料来源:TDH 产品白皮书,基于公司多模型数据库平台底座,公司数据库主要包含 5 类核心产品:关系型分析引擎 (Transwarp Inceptor),实时流计算引擎(Transwarp Slipstream),操作型数据库 Nosql数据库(Hyperbase),图数据库(Transwarp StellarDB),搜索引擎知识库(Transwarp Scope)。表 5:TDH 主要产品产品名应用类型海外厂商竞争优势Inceptor关系型分析引擎CLOUDERA、DATABRICK、FACEBOOK使用数据库的搜索能力对大数据进行搜索 Slipstream实时流计算引擎F

28、link/Stream Structrue/Storm实时营销,风控,物联网实时处理 HyperbaseNoSql 数据库HBaseHbase 的自主迭代产品TranswarpStellarDBTranswarp Scope图数据库Neo4J市场竞争对手较少公司使用 C+基于 ELASTIC SEARCH 改造而搜索引擎ELASTIC SERACH来,扩展性能更好,SQL 接口资料来源:整理关系型分析引擎 Inceptor 是星环科的核心数据仓库产品,也是公司组件中市场领先程度最高的一个。Inceptor 用于批量处理及分析的数据库,支持客户进行大数据的处理分析。提供完整 SQL 2003 标

29、准支持以及 Oracle、DB2、Teradata 兼容,被广泛应用于数据仓库和数据集市的构建,实现数据离线批处理和交互式分析功能。分布式搜索引擎在 2012 年成为全球大数据市场研发焦点,公司基于 SPARK SQL 基础上,于 2014 年之后将其重新编写,对其进行了大幅度的性能改良。在 TPC-DS 1TB 测试中,Inceptor 相对于 Impala 2.6 有 2.3 倍的性能提升,对于 Spark 2.2 有 2.5 倍的性能提升。以 1TB 的数据库为对象进行测试,在 OLAP Cube 的加速下,TPC-H 在Inceptor 中的运行速度比SparkSQL和 Greenpl

30、um 快近 100 倍。2018 年,Inceptor 成为世界上首个获得官方认证的通过 TPC-DS 10TB 测试的数据库引擎, 打破了多年以来无人能破的历史。图 7:TPC-H 性能测试中 Inceptor 运行速度可比 SparkSQL 和 Greenplum 快近 100 倍资料来源:公司官网图 8:TPC-DS 测试集的通过率图 9:Inceptor 相对其他引擎性能提升倍数1009080706050403020100支持的SQL0出错的SQL40399952504835ImpalaTEZInceptor SparkSQL GreenPlum2.7543210I

31、mpalaTEZSparkSQLGreenPlum资料来源:星环科技产品发展方向白皮书,资料来源:星环科技产品发展方向白皮书,图 10:TDH 核心组件 Inceptor资料来源:TDH 产品白皮书Slipstream 是 SQL 接口的实时流计算引擎,也是公司核心领先产品之一。Slipstream 是一款通用的实时计算引擎,使用事件驱动和批处理统一的模型,在保证毫秒级别延迟的同时,帮助用户更高效、准确的进行数据集成,同时提供更复杂的分析功能,以帮助企业挖掘实时数据的价值,主要用在实时营销,风控,物联网实时处理。同类型产品包括 Databricks 的 Structure Streaming,

32、Twitter 的 Storm,以及开源生态的 Flink 等。早期公司使用开源的 spark streaming 与 strom,但 storm 接口不友好,spark streaming延时非常长,不适合做实时的搜索引擎,均存在各自问题。公司 16 年实现了基于 SQL 接口的流式处理引擎能力,结合两个开源产品的优势,领先竞争对手 Databricks 等厂商。后续 DATABRICK 晚于星环将自身产品迭代为基于 SQL 接口的 Spark structure streaming,证明公司产品路径正确,早于市场主要竞争对手。图 11:Slipstream 主要行业应用图 12:基于 Sl

33、ipstream 实时计算实现各场景下实时信息处理资料来源:公司官网资料来源:TDH 产品白皮书HYPERBASE 是实现 HBase 功能的的 NoSql 数据库,允许开发者直接利用 SQL构建复杂应用,实现极速的信息检索与数据入库。产品可以在普通廉价服务器集群上实现PB 级别数据量的高效在线 OLTP 应用、高并发 OLAP 应用、批处理应用、流处理应用、全文搜索或高并发图形数据库检索应用。Hyperbase 支持以标准 SQL 为接口的高效数据访问,并自带高效的数据迁移工具。图 13:公司 Hyperbase 定义为 NewSQL 数据库资料来源:TDH 产品白皮书搜索引擎 Transw

34、arp Scope,是面向企业的综合搜索引擎,用来解决企业对海量数据的检索和分析需求。产品最早是根据 ELASTIC SERACH 改造而来,最后用 C+自行开发,扩展性性能更好,并支持 SQL 接口,提供了完整的 SQL 语法支持。通过优化数据搜索的执行过程,实现在 PB 数据量级上的秒级全文搜索。Transwarp Scope 不仅可以用于数据搜索业务,还可以用于海量数据的统计分析业务场景。图 14:Transwarp Scope 大规模搜索和统计的融合引擎资料来源:公司官网图数据库 StellarDB 是一款为企业级图应用而打造的分布式图数据库,用于快速查找数据间的关联关系,并提供强大的

35、算法分析能力。产品克服了海量关联图数据存储的难题,通过自定义图存储格式和集群化存储,实现了传统数据库无法提供的低延时多层关系查询。主要对标竞品如 Neo4J,目前市场上同类产品相对较少。图 15:星环科技图数据库产品资料来源:星环科技官网在星环 2021 年新品发布会中,TDH8.0 的工具组件 Aquila、Manager、Guardian、 Audit 同样迎来了全面的升级,让系统的安装部署、扩容升级、安全防卫、风险告警、权限管理等工作变得更便捷。公司新产品包括:Transwarp Aquila 智能运维分析平台软件是一站式综合智能运维平台, 提供监控仪表盘、告警通知、日志生命周期管理、日

36、志检索、审计日志等功能。同时,Aquila 还预置了基础监控、大数据监控、PaaS 层监控等多维度的监控资源,能做到整个 TDH 产品各个维度的开箱即用的一键运维。Transwarp Manager 大数据管理软件是负责配置、管理和运维 TDH 集群的图形化工具。用户只需通过几个手动步骤,就可以在 x86、ARM、MIPS 等各架构服务器或基于 Docker 的云端平台上完成集群部署,并且提供报警、健康检测、监控和度量等运维服务。用户可以实时的浏览各服务的状态,并且在告警出现时采取恰当的措施以处理应对。此外,Manager 还提供了一些便捷的运维功能,例如磁盘管理、软件升级和服务迁移等。Tra

37、nswarp Audit 智能运维分析平台软件面向TDH 中对数据的操作和权限进行合理布控和监测,整合大数据平台各节点中的监控信息,实现对数据访问和操作的集中监控、查看和管理的智能化、可视化审计。Audit 支持对各类审计事件做出快速、准确的定位,并进行过滤和归并,实现集中、综合的展现。Transwarp Guardian 大数据安全管理软件为 TDH 提供集中的安全和资源管理服务。它支持 LDAP 和 Kerberos,保护集群免受恶意攻击和安全威胁,而且还可以对资源做细粒度的 ACL 控制。其多租户资源管理模块可以按照租户的方式管理资源,并通过一个图形化工具为用户提供权限配置以及资源配置接

38、口。分布式数据库:ArgoDB 与 KunDB 针对客户痛点,完善产品矩阵公司另外两个独立数据库产品 AgroDB 与 KunDB,分别用于分析型与交易型场景。 2021 年新品发布会宣布最新的版本ArgoDB3.0 与 kunDB 2.0。AgroDB 是硬件基于闪存的分析性数据库,于 2017 年发布脱胎于 Inceptor,完全由公司自主完成,与 HADOOP 兼容,是为了适应服务器硬件未来将由硬盘全面转成闪存的产品。随着硬件升级,服务器中的硬盘 SAS 硬盘,逐步升级为 SATA SSD,到 PCIE-SSD,再到 Memory,吞吐与 IOPS 性能都有着数量级的增长。AgroDB

39、可用于替代 Oracle、 Teradata 的产品做数据分析。据央采网 3 月 19 日发布的中央国家机关 2021 年数据库软件协议供货采购项目成交公告显示,星环的分布式闪存数据库软件(AgroDB)入围事务型数据库管理系统供应商,被认可成为 Oracle 数据库的信创替代产品。KunDB 是交易型 OLTP 数据库,主要应用场景为处理高并发、大流量访问,支持多租户能力。KunDB 是云原生的数据库产品,可以部署在公有云、私有云、及混合云架构。保障租户隔离和 SLA,分布式的 MYSQL 底层。作为安全可控的国产数据库产品,分布式在线交易数据库系统(KunDB)入围了分析型数据库管理系统供

40、应商,成为微软SQL Server事务型数库,甲骨文 Oracle 数据库的信创替代产品。图 16:分布式闪存数据库 ArgoDB 架构图 17:分布式关系型数据库 KunDB 架构资料来源:公司官网资料来源:公司官网在 2021 年新品发布会中,公司还推出了 ArgoDB2.0 与 KunDB2.0 的整体解决方案,为用户同时提供 TP 和 AP 两种能力。对外统一了 SQL 入口,无需对应用改造,实现对 TP 类业务和复杂分析的统一处理;统一计算横跨交易型数据库和列存分析型数据库,不存在数据同步流转,保障了数据的一致性与分析实效性。用户的使用体验变得更加优秀。 ArgoDB3.0 与 Ku

41、nDB2.0 支持更高性价比、更灵活的数据库部署方式,在支持 x86、ARM混合部署的同时支持主流国产操作系统、国产服务器,满足国产化需求。公司的多模数据库借助软件能力实现计算资源和存储引擎解耦合。由于在实际应用当中,计算资源按客户实时需求而扩张收缩,但存储资源需求是持续存在的,因此解耦合将会大幅缩减客户的成本。传统架构如 Oracle、MySQL 都是紧耦合的,在扩展存储的时候计算必须同步扩展,所以成本非常高。TDH 在软件工程上实现解耦合,计算资源扩张的伸缩弹性用容器技术实现。公司基于自主的计算、存储引擎之上,拥有国内最丰富的多模数据库产品。图 18:星环科技(Transwarp)多模数据

42、库能够提供国内数据库中最丰富的产品体系资料来源: ITPUB 老鱼图 19:TDH 支持主流数据模型超过其他主流竞争对手资料来源:2021 年新品发布会,ACM Computing Survey公司的分析型数据库是首个支持多种混合分析负载的数据库:融合的数据平台统一了数据湖、数据仓库和数据集市,不再需要混合架构,单个平台就能支持各种分析类应用,降低了成本,也降低了应用开发和运维的难度图 20:星环的平台能够统一数据湖、数据仓库和数据集市资料来源:公司 TDH 产品白皮书云原生架构 TDC:为客户提供云上 PaaS 产品基于底层的开源 Kubernets(K8S)容器管理层,公司应用容器能力实现

43、了 TDH 的功能的 PaaS 服务提供。TDC 由基于数据中心云原生操作系统和三大 PaaS 平台服务(数据 PaaS、分析 PaaS 与应用 PaaS)构成,实现了公司主要产品能力的公有云与私有云部署。云化后的公司产品具备低成本(无需企业硬件部署)、简单易用、弹性资源调度的优势。云化数据库是未来的趋势。但在中国,部分政企客户出于数据敏感性原因或者行业法律合规原因,数据不能在公有云进行处理,而是采取私有云本地部署。因此公司有必要具备本地部署/私有云部署/公有云部署等跨多种部署的方案能力。公司的云原生能力能够有效弥补本地化部署的缺陷。智能大数据云平台 TDC 融合了公司大数据平台 TDH、自研

44、云操作系统 TCOS、智能分析工具 Sophon 能力,提供了与大数据和人工智能相关的七种产品,可以覆盖数据处理与分析的常见场景,具体包括数据仓库/数据集市/实时计算平台/分布式搜索引擎/分布式图数据库/分布式在线交易数据库/深度学习能力。图 21:TDC 云化产品架构资料来源:星环科技产品白皮书公司底层的架构已经从传统的 Hadoop 的 YARN 改为 Google 的开源容器管理平台 K8S,并对其进行了插件化改进。Hadoop 架构的 YARN 存在的缺陷在于资源调配打通能力不足,无法实现在线作业。同样基于 HDFS 与 YARN 底座的 Hadoop 衍生平台 Spark在发现 YA

45、RN 的问题后,在公司之后同样推出了利用 K8S 取代 YARN 资源调配平台功能的产品版本,证明了公司在全球的技术敏锐度水平。图 22:旧式资源调配平台处理功能主要缺陷资料来源:CSDN,数据科学产品:帮助客户更好的利用手中的数据公司的数据科学产品,包括了智能分析工具 Sophon,大数据开发工具 TDS 与实时智能决策引擎 FIDE。表 6:星环科技数据科学产品智能分析工具 Sophon人工智能大数据开发工具(TDS)数据仓库、数据集市、数据湖实时智能决策引擎 FIDE实时计算、人工智能资料来源:公司官网,智能分析工具 Sophon:为客户提供数据分析与机器学习建模的一系列数据科学工具So

46、phon 是面向客户开发者使用的智能分析工具。基于平台,用户可以快速完成从特征工程、模型训练到模型上线的机器学习全生命周期开发工作。在对数据进行过处理后,平台可以为客户提供数据挖掘的能力,例如为客户提供可视化建模和代码建模,帮助客户优化模型的上架、上线、及线上监控。除此之外,Sophon 平台还集成了面向各种行业领域的分析工具,包括知识图谱工具、实体画像工具、报表工具、视频分析工具等,集成了数据处理、模型加工、线上监控以及数据分析为一体。平台主要子模块中,Sophon Base 数据科学基础平台是基础平台,可满足一站式机器学习建模需求。Sophon KG 知识图谱模块最早用于图分析软件,如图情

47、报分析,军用情报分析等,后续扩展到金融行业中的企业知识图谱,用于反洗钱、反欺诈等。SophonEdge 等分别为图像/视频/边缘计算等提供工具。SOPHON FIDE 实时决策引擎包含了指标计算/智能决策/决策引擎三个模块。通过实时数据处理来判定行为是否属于个欺诈行为,从而制定实时决策,做出具体执行。图 23:Sophon 智能分析工具资料来源:星环科技产品白皮书当前 Sophon 主要客户集中于金融领域,主要客户是券商的量化交易部门,金融行业依靠自身程序算法构建 GPU 集群进行量化交易模型搭建。大数据开发与治理一站式平台 TDS:全组件的企业数据中台公司将数据应用开发中间件的工具组进行整合

48、,构成了大数据开发与治理一站式平台 Transwarp Data Studio,包含数据探索、数据集成、元数据管理、数据质量标准、数据血缘分析、数据任务调度、数据质量报告、数据资产管理、指标设计与服务发布等核心功能模块;基于分布式计算设计,支持各种关系数据库和主流大数据平台,可以用于企业级的数据治理和数据资产平台的建设。TDS 类似于阿里的数据中台系统,基于数据仓库为用户提供一套自身搭建数据中台的工具集。TDS 通过协助客户实现自身数据规范化业务数据化业务智能化数据资产化的一揽子解决方案。TDS 实现了协助客户公司构建自身的数字化运营能力包括 了决策管理、KPI 驱动、实时运营指标监控,从把业

49、务数据存下来,到把业务数据用好,且可以用于与他人的数据交易。客户可以实现包括数据服务、数据湖、数据仓库、数据集市、数据运营平台、知识图谱、数据科学平台、智能决策系统等一系列数据中台功能,最终帮助客户输出数据产品:包括特征指标、用户画像,收入预测模型、预测客户流失、预测公司风险模型或者外接的 API 接口。图 24:TDS 架构图资料来源:公司官网 技术路径:从开源分布式架构到全产品自主可控公司的原始架构来自于 Hadoop,也是分布式架构最主流的类型。Hadoop 架构是一整套开源的解决方案,以 HDFS 分布式文件系统为存储系统,HBase 为 NoSQL 数据库,YARN 为资源调度系统,

50、计算引擎采用 MAP/REDUCE 或 SPARK(为另一开源社区,但底层存储、资源调配引擎与 Hadoop 相同)实现并行计算的分布式架构。公司产品以传统 HADOOP 架构为支撑,开始进行自主化的产品技术迭代,现在已经脱离了开源的 Hadoop架构,并且应用容器化底座搭建了自身的云平台,已经与传统 Hadoop/Spark 架构商业化公司产品如 Cloudera、Databricks 等存在非常大的区别。图 25:公司核心产品 Transwarp Data Cloud 数据应用全栈云平台图 26:传统 Hadoop 架构:核心为 HDFS 与 Map/Reduce资料来源:公司官网资料来源

51、:CSDN海外分布式架构商业化公司:Cloudera 的衰落与 Databricks 的兴起当前市场最主流的分布式架构为 Hadoop 与 Spark,两者公用一套底层存储与资源分配引擎 HDFS 和 Yarn,区别在于计算引擎为 Map/Reduce 或 Spark,因此通常协同一起应用。Hadoop 基于 Google 2003 年发布的白皮书 “MapReduce:针对大数据的简化数据处理”进行演进,2006 问世。Hadoop 就是用 java 的分布式,以“分组合并”的方式来处理大数据的框架。Hadoop 架构包含了众多的子项目,主要由 HDFS、Yarn、MapReduce、HBa

52、se、Hive等成员组成。其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统 HDFS(Hadoop Distributed File System)来执行 MapReduce 程序的计算引擎。HDFS是一个高度容错性的分布式文件系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用;MapReduce 是一种编程模型,用于大规模数据集的并行运算,以实现映射与化简。Hadoop 家族实现了任务多节点部署,并行计算,再将节点进行合并的核心需求。表 7:Hadoop 较为重要的子模块子模块功能HadoopCommonHadoop 体系最底层的一个模块,

53、为 Hadoop 各子项目提供配置文件和日志操作HDFS存储:分布式文件系统,有着高容错性的特点,适合那些超大数据集的应用程序Yarn资源调度:协调应用程序运行时的调度程序MapReduce计算:编程模型,处理大规模数据集(大于 1TB)的并行运算算法Hive数据仓库系统,提供完整的 SQL 查询,可以将 sql 语句转换为 MapReduce 任务HBase开源的,基于列存储模型的分布式数据库Cassandra高性能、可线性扩展、高有效性数据库Pig大规模数据分析平台,为并行计算提供简单的操作和编程接口资料来源:CSDN,Hadoop 的核心能力在于解决了超大规模文件的分布式部署,主要包括了

54、:1)支持TB 和 PB 级别的数据部署;2)检测和快速应对硬件故障,从而使得架构可以部署在廉价硬件之上,降低了分布式架构的部署门槛;3)追求高吞吐量的流式数据访问;4)使用简单,高度容错。正是借助于这些优势,使得 Hadoop 能够让用户轻松架构和使用的分布式计算平台,并开发和运行处理海量数据的应用程序。Hadoop 的诞生推动了分布式架构在全球范围内的快速推广。最重要的Hadoop 社区商用公司为Cloudera。Cloudera 成立于2008 年,随着Hadoop逐渐成为企业和大型机构的主流开源软件基础架构而同步成长。在社区开源版本上,公司免费提供 CDH,并开发出商用版本及付费组件

55、IMPALA、FLUME 等,通过售卖商用版本与提供运维服务盈利。2018 年 10 月,Cloudera 与同为开源平台的 Hortonworks 公司以 52 亿美元的价格合并,后者是来自 Yahoo!的独立上市开源部门。合并后,Cloudera 能够实际控制开源社区中的 HDFS、Yarn、Map/Reduce、Hive 等组件,并拥有如 Flume、Impala、 HUE 等商业化组件。图 27:Cloudera 主要向外提供的产品能力资料来源:Cloudera 官网分布式的另一重要开源社区为 Spark,主导厂商为一级市场明星 Databricks。Spark由加州大学伯克利分校 A

56、MP 实验室的开源集群计算环境而来,相比于 Hadoop,其核心差异在于可以基于内存实现快速、通用、可扩展的分布式数据集迭代作业,当前主流应用方法是在 Hadoop 基础上运行 Spark 计算引擎,实现交互式查询并优化迭代工作负载。主导公司 Cloudera 在营收与股价方面面临压力,表现疲软。Hadoop 已经显得较为陈旧,我们可以从下表看到 Hadoop 主要组件的最早发布时间已经较为久远。而明星公司 Databricks 的开源架构 Spark 基于 Hadoop 而来,弥补了 MapReduce 实际应用的大量缺陷,因此受到使用者与资本市场的一致追捧,估值达到 280 亿美元。表 8

57、:Hadoop 主要组件发行时间工具描述第一次发布最近发布YARN资源管理器和调度器20062019/2/6HbaseNoSQL 数据库20082019/6/11Hive数据仓库和 SQL 抽象20102019/5/14SqoopRDMBS 数据传输管道20092019/1/18Spark数据处理框架和计算引擎20142019/5/8Tez运行在 Hive 或 Pig 上的 DAG 计算框架20142019/3/29资料来源:CSDN,Cloudera 衰落主要来自于内部与外部的冲突竞争。由于底层架构的原因,Hadoop架构不可避免存在产品缺陷:如不支持低延迟数据访问、不能高效存储大量小文件、

58、不支 持多用户同时操作、不能弹性部署、YARN 不能实现资源隔离等。星环的自身产品研发利用 Spark 或自身技术更替弥补 Hadoop 架构的这些问题。Cloudera 的衰败更大的原因来自 于内外交困,首先是在开源社区内部,Cloudera 与 Hortonworks 两厂商陷入竞争疲于内耗,导致均无法主导社区,且未能及时推出云化版本;后续虽然两家合并,开始将 HDFS、YARN、 IMPALA 实现完全控制,但更大的开源生态破坏者来自于云厂商,AWS 利用开源协议,推 出针对 Hadoop 生态的公有云产品 Elastic MapReduce,来自云厂商的竞争对开源商业 公司生态造成巨大

59、冲击。而在技术方面,基于云化的云数据仓库实现了存储和计算的完全 解耦,在提供近乎无限的延展性和高弹性(解决 Hadoop 架构存储计算绑定,资源浪费问题),也能够保障数据的一致性,并支持结构化和半结构化数据的处理。正是出于对Cloudera 这一 Hadoop 社区商业化公司经验与现状的理解的基础上,星环科技走出了云化、闭源的自主演进道路。图 28:全球云原生应用数及同比增速(百万个,%)图 29:Gartner 预测 2022 年 75%的数据库都在云上6005004003002001000云原生应用数同比增速20192020E2021E2022E2023E70%60%50%40%30%20

60、%10%0%80%70%60%50%40%30%20%10%0%20162017201820192022E资料来源:IDC(含预测),资料来源:Gartner(含预测),持续研发推动下,公司实现技术架构全面替代公司产品逐步实现自主更迭,最早的产品即 TDH2.0 以前的版本,是基于 Hadoop 开源架构进行的开发,后续为了改良架构自身面临的问题,公司逐步引入 Spark 架构上层计算引擎,并不断进行自主代码开发与更替,目前已经实现了除底层 K8S 使用谷歌开源社区架构外,全部产品自主可控。图 30:星环大数据技术架构演变(从蓝色的的开源产品转变为绿色的的星环自主研发产品)资料来源:公司官网公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论