数据中台建设方案版本_第1页
数据中台建设方案版本_第2页
数据中台建设方案版本_第3页
数据中台建设方案版本_第4页
数据中台建设方案版本_第5页
已阅读5页,还剩235页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据中台建设方案二二二 年目录 TOC o 1-3 h z u HYPERLINK l _Toc517357298 1.数据中台平台建设方案 PAGEREF _Toc517357298 h 2 HYPERLINK l _Toc517357299 1.1.总体建设方案 PAGEREF _Toc517357299 h 2 HYPERLINK l _Toc517357300 1.1.1.大数据平台-TDH PAGEREF _Toc517357300 h 2 HYPERLINK l _Toc517357301 1.1.2.云操作系统-TOS PAGEREF _Toc517357301 h 3 HYPE

2、RLINK l _Toc517357302 1.1.3.大数据平台产品优势 PAGEREF _Toc517357302 h 7 HYPERLINK l _Toc517357303 1.1.4.大数据平台性能优化 PAGEREF _Toc517357303 h 12 HYPERLINK l _Toc517357304 1.2.大数据集成平台 PAGEREF _Toc517357304 h 22 HYPERLINK l _Toc517357305 1.2.1.数据采集层建设 PAGEREF _Toc517357305 h 22 HYPERLINK l _Toc517357306 1.2.2.数据存

3、储层建设 PAGEREF _Toc517357306 h 32 HYPERLINK l _Toc517357307 1.2.3.数据交换层建设 PAGEREF _Toc517357307 h 41 HYPERLINK l _Toc517357308 1.2.4.数据管理层建设 PAGEREF _Toc517357308 h 62 HYPERLINK l _Toc517357309 1.2.5.资源管理层建设 PAGEREF _Toc517357309 h 76 HYPERLINK l _Toc517357310 1.3.大数据计算平台 PAGEREF _Toc517357310 h 82 HY

4、PERLINK l _Toc517357311 1.3.1.数据计算层建设 PAGEREF _Toc517357311 h 82 HYPERLINK l _Toc517357312 1.4.大数据开发平台 PAGEREF _Toc517357312 h 138 HYPERLINK l _Toc517357313 1.4.1.大数据平台可视化工具 PAGEREF _Toc517357313 h 138 HYPERLINK l _Toc517357314 1.4.2.大数据平台集成能力 PAGEREF _Toc517357314 h 183 HYPERLINK l _Toc517357315 1.

5、5.大数据运维平台 PAGEREF _Toc517357315 h 184 HYPERLINK l _Toc517357316 1.5.1.大数据平台运维 PAGEREF _Toc517357316 h 184 HYPERLINK l _Toc517357317 1.5.2.大数据平台安全性 PAGEREF _Toc517357317 h 218 HYPERLINK l _Toc517357318 1.5.3.大数据平台高可用性 PAGEREF _Toc517357318 h 227 HYPERLINK l _Toc517357319 1.5.4.大数据平台开放性 PAGEREF _Toc51

6、7357319 h 230 HYPERLINK l _Toc517357320 1.5.5.大数据平台兼容性 PAGEREF _Toc517357320 h 231数据中台建设方案总体建设方案 通过对客户大数据应用平台服务需求的理解,根据建设目标、设计原则的多方面考虑,建议采用星环科技Transwarp Data Hub(TDH)大数据基础平台的架构方案,基于Transwarp Operating System(简称TOS)云平台方式部署构建。 通过建立大数据集成平台、大数据计算平台、大数据开发平台及大数据运维平台来满足客户大数据应用平台服务建设的要求。大数据平台-TDH 星环大数据平台Tra

7、nswarp Data Hub(简称TDH)基于开源Spark技术,从查询引擎、计算框架、存储引擎和资源调度等方面做了性能的优化,相较于同类产品,提供更好的性能。改进的分布式计算引擎Inceptor,解决了开源Spark的稳定性问题,并且已经在众多成功案例中经历了的考验。同时Ipcetor大幅提高Spark计算性能,是开源的2-10倍。TDH Inceptor极大提高了Spark功能和性能的稳定性,可以7*24小时在企业的生产环境运行,并能在TB级规模数据上高效进行各种稳定的统计分析。星环大数据平台TDH采用基于Hadoop的数据平台架构,海量数据查询分析服务集群既可以处理结构化的数据,也可以

8、处理非结构化、半结构化的数据,满足配置、日志、网页、音视频、社交网络等多源异构数据的加载和存储,提供数据查询、全文检索、数据离线批处理分析、交互式分析、图分析、数据挖掘、机器学习等多种数据处理模式。同时,基于平台提供的实时流处理集群,可以满足实时数据研判分析服务的需求。整个平台提供完整的多租户功能,对于计算资源与存储资源以及数据访问资源进行统一控制管理,对于计算资源进行高效的调度管理与使用控制;对于存储资源进行配额管理;对于数据访问权限,进行严格的权限管理。在安装、配置、监控、告警方面,通过统一的Transwarp Manager进行运维管理。星环大数据平台TDH应用范围覆盖各种规模和不同数据

9、量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理10GB到100PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。云操作系统-TOS 星环云操作系统Transwarp Operating System(简称TOS)是为大数据应用量身订做的云操作系统,基于Docker和Kubernetes开发。TOS支持一键部署TDH,基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。 未来企业对于构建统一的企业大数据平台(Data

10、 Hub)来驱动各种业务具有强烈需求,统一的企业大数据平台需要提供以下功能:资源弹性共享提高资源利用率灵活部署:支持灵活部署大数据应用和其他常规应用资源调度:具备自动扩容和自动修复功能服务发现:具备集中式的仓库隔离性保障服务质量和安全性数据隔离:包括数据源、访问模式等计算隔离:隔离CPU、内存、网络、磁盘IO等 TOS满足了以上企业大数据平台的需要,支持对TDH的一键式部署、扩容、缩容,同时也允许其他服务和大数据服务共享集群,从而提高资源的使用率。TOS创新的抢占式资源调度模型能在保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时业务在互不干扰的情况下分时共享计算资源。 另外,在T

11、OS上运行的TDH还引入微服务的架构,显著地降低了用户部署环境对TDH稳定性的影响,提高了部署的可用性,并且能让用户在不停机的前提下,享受到将来更新版本的升级以及修复。 TOS由以下几个部分组成:容器层容器层主要包含一系列的容器docker container。Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在测试机上编译测试通过的容器可以批量地在生产环境中部署。Docker容器通过Docker镜像来创建,容器与镜像的关系类似于面向对象编程中的对象与类。每个容器分配了一定的计算及存储资源,可以运行各自的应用程序。通过将应用服务装载在Docke

12、r容器中,能够实现应用环境和底层环境的解耦合,容器间相互隔离互不影响。调度模块基于Kurbernetes开发,包含多种调度模块,以及相应的调度策略。支持对CPU、内存的调度,内嵌了FIFO调度、公平调度等常规的调度策略。额外的,基于Docker容器能够快速启动的特点,TOS还包含了抢占式的优先级调度策略,通过设计不同的优先级,优先级高的容器能够抢占优先级低容器的资源启动。系统服务层系统服务层包含了容器正常运行所需的系统服务,如服务etcd、name service等,该层用于支持平台的容器化。集中式服务仓库类似于Maven的集中仓库,TOS也自带了一个集中式的应用服务仓库。用户需要启动一个已存

13、在于仓库中的应用时,只需要将该应用的Docker image拉下来启动即可。仓库预置了常用的应用服务,如完整Docker化的Transwarp Data Hub各个组件和Tomcat、MySQL等常用服务。如果用户想要使用其他应用服务,也可以通过TOS提供的接口,在测试环境将应用服务制作为DockerImage,上传至TOSmarket,即可在生产环境下载并使用。基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池,可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。该系统具备以下优势:便捷

14、部署基于TOS,用户可以通过Web UI、REST API或者命令行一键瞬间安装和部署TDH集群,能自动根据服务的依赖性安装所需的其他服务组件。在虚拟技术之前,部署硬件资源满足新的应用需求需要几天时间,通过虚拟化技术把这个时间降到了分钟级别,而目前基于Docker的TOS云平台把时间降到了秒级别。Docker作为装载进程的容器,不必重新启动操作系统,几秒内能关闭,可以在数据中心创建或销毁,没有额外消耗。典型的数据中心利用率是30%,通过更积极的资源分配,以低成本方式对新的实例实现更合理的资源分配,从而提高数据中心的利用效率。完整的资源隔离TOS通过优化Kubernetes资源管理框架实现了基于

15、Docker容器对CPU、内存、硬盘和网络更好的隔离。TOS中Docker容器的隔离目前是由Linux内核提供的六项隔离,包括主机名与域名的隔离,信号量、消息队列和共享内存的隔离,进程编号的隔离,网络设备、网络栈、端口的隔离,挂载点(文件系统)的隔离,用户和用户组的隔离。这些隔离保证了不同容器的运行环境是基本不受影响的,比如挂载点的隔离,就保证了一个容器中的进程不能随意访问另外一个容器中的文件。TOS平台相比于传统的Apache Yarn管理框架和开源Kubernetes的资源管理框架而言,在资源粒度方面可以管控磁盘和网络,而传统资源调度框架只能管理到CPU和内存;在隔离性方面,容器技术有天然

16、的优势;在依赖性和通用性方面,不依赖于Hadoop组件以及技术,这意味着可以实现所有上层应用的云化开发、测试、升级以及管理调度。资源粒度隔离程度依赖性通用性YARNCPU/MEM进程级别、不精确依赖某个HDFS支持少量计算引擎KubernetesCPU/MEMContainer不依赖Hadoop支持通用Linux负载TOSCPU/MEM,DISK,NETWORKContainer+Quota+VLAN不依赖Hadoop支持大数据及通用应用灵活资源调度TOS支持对TDH组件自动扩容或者缩容,同时也允许其他应用服务和大数据服务共享集群,从而提高资源的使用率。TOS创新的支持抢占式资源调度模型,能在

17、保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时业务在互不干扰的情况下分时共享计算资源。通过支持动态扩容和收缩集群,从何实现了资源的动态分配与调度,整个过程热插拔业务、服务无需重启。自动修复TOS的Replicator模块负责检测集群规模,当集群中服务发生问题时可以另起一个服务实例实现集群的自我修复功能。举例而言,某个HyperbaseRegionServer由于硬件原因服务停止,TOS平台能够实时感知,并在管理的资源范围内另起一个Region Server的Docker容器接替因故停止的容器,动态的保证了服务集群的整体稳定性。应用隔离在TOS上运行的TDH以及应用服务还引入微服

18、务的架构,显著降低用户部署环境对TDH以及应用服务稳定性的影响,提高了部署的可用性,并且能让用户在一定程度上不停止业务以及服务的前提下,进行快捷的TDH以及应用服务更新版本滚动升级。大数据平台产品优势完整的SQL支持星环大数据平台支持完整的SQL 99标准和SQL 2003核心扩展,可以运行TPC-DS标准测试集的全部99个测试项;唯一支持存储过程的SQL on Hadoop引擎;兼容98%以上的Oracle PL/SQL 与80%以上的DB2 SQL PL语法 支持存储过程、函数、控制流、游标、异常处理等各类语法。唯一支持ACID分布式事务的大数据SQL引擎;定位数据仓库和数据集市市场,可用

19、于补充或替代Oracle、DB2等分析用数据仓库。TDH提供ANSI SQL2003语法支持以及PL/SQL过程语言扩展,并且可以自动识别HiveQL、SQL2003和PL/SQL语法,在保持跟Hive兼容的同时提供更强大的SQL支持。支持标准的SQL形式访问数据。TDH更完整的SQL支持使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理更大的数据量。为了降低开发流应用程序的难度,TDH还支持Stream SQL标准,其中包含流扩展后的SQL 99。因此,开发者可以在TDH上直接使用SQL而不是通过各种API来编写流计算程序,也不需要考虑任何打包或部署工作。为了

20、更好的提供全文搜索服务,TDH中的Search也支持SQL的检索扩展语法(兼容Oracle标准)。由于支持标准的JDBC 4.0和ODBC 3.5,TDH可以兼容主流的数据库软件和中间件。TDHApache HiveApache SparkSQL 99是是是SQL 99&2003是部分是Oracle PL/SQL是部分否DB2 SQL PL是否否Database方言是否否DB-Link扩展是否否StreamSQL是否否Search扩展是否否完整的事务支持ACID对于大数据的数据处理和数据清洗过程至关重要。如果没有ACID,数据的插入修改过程将存在各种潜在问题,终端用户需要亲自探究事务操作的失败

21、原因并找出避免和解决问题的方法,这使用户应用的过程变得复杂,甚至根本不可行。更糟糕的是,如果没有ACID,当两个应用程序向同一个数据块中写入数据时,会很容易出错。TDH是第一个提供完整ACID支持的Hadoop商业化产品。Transwarp Inceptor实现了串行化的事务隔离,并通过两阶段锁和MVCC协议保证数据的一致性。Transwarp InceptorHiveImpalaOracleCRUD支持支持支持不支持支持事务类型事务+自治事务自动提交事务不支持事务+自治事务隔离级别可串行不支持不支持只读+可串行+读取提交事务错误处理事务+PL/SQL+SQL PL不支持不支持事务+PL/SQ

22、L数据一致性支持不支持不支持支持超快的执行速度Transwarp Inceptor采用专有的高效列式内存存储格式和为内存优化的Apache Spark计算引擎,相比广泛使用的Map/Reduce框架消除了频繁的I/O磁盘访问。此外,Spark引擎还采用了轻量级的调度框架和多线程计算模型,相比Map/Reduce中的进程模型具有极低的调度和启动开销,除带来更快的执行速度以外,更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面,Transwarp Hyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执

23、行引擎及数据存储层上的优化,使得TDH性能全面领先开源 Apache Hadoop 2.0,SQL支持完整程度和性能大幅领先Cloudera Impala,比主流MPP数据库快1.5到10倍。 Transwarp Inceptor作为大数据分析工具有着极致的执行性能和扩展能力。星环深度优化了Inceptor的分布式计算引擎,并使其具有灵活的扩展能力,同时它会对数据重分布和广播的逻辑进行调试优化以达到更好性能。Inceptor Holodesk是一个基于SSD或内存的列式存储引擎,能提供非常高的数据读取数据。此外,Inceptor还采用了基于成本的优化和基于规则的优化来为执行任务选择最佳执行计划

24、。所有这些特性都有助于Inceptor提供批量处理过程的效率和扩展性,在TPC-DS各个数据量级别的测试中,Inceptor都有非常好的表现。 Inceptor可以很好地适配各种交互式数据分析和OLAP场景。Holodesk提供了索引支持,并且可以有效的利用SSD来加速扫描,因此对交互式分析场景的业务可实现多倍的提速。对于模式较为固定的数据报表业务,用户可以采用OLAP Cube技术使分析性能提高10-100倍。我们以1TB的数据集为对象进行测试,发现在OLAP Cube的加速下,TPC-H在Inceptor中的运行速度比SparkSQL和Greenplum快近100倍。超强的数据分析功能将大

25、数据放在数据分析师的手中,交互式地探索数据,获得洞察并发现模式和趋势,以便展开进一步的分析及决策已经变得越来越重要。TDH通过分布式的内存列式存储和优化的高速执行引擎来支持交互式SQL查询,使得实时和交互式分析变成可能。TDH同时支持R统计引擎,最新版本的TDH除了支持通过R访问HDFS或者Hyperbase中的数据外,还支持访问存储在Inceptor分布式内存中的数据。Inceptor同时内置了常用机器学习算法的并行化实现,可以与R语言中的数千个算法混合使用。新版本同时支持R命令行以及图形化的R Studio执行R语言程序来访问TDH中的数据,从而使得TDH成为在大数据的数据挖掘和可视化应用

26、领域的利器。TDH包含了经过高度优化的专有图算法,可高速分析关联关系网络等图数据。Transwarp Discover为终端用户提供了R语言接口用于进行数据挖掘,并实现了超过60种分布式机器学习算法 和多种行业模型,包括金融行业的交易反欺诈模型、文本挖掘模型等,从而加快机器学习在这些行业的落地商用。星环还通过Transwarp Sophon来帮助数据工程师开发数据挖掘的应用。Sophon提供了可视化界面工具Midas 用于创建模型,用户只需通过拖拽数据源对象和运算符就能完成模型设计,然后将设计的模型在TDH集群上训 练或预测分析。相对于传统的单机计算,分布式执行器有着极快的模型运行速度,数据科

27、学家们的模型训练能 够提升数倍甚至数十倍。此外,Sophon还整合了深度学习框架Tensorflow,使用户可以通过拖拽生成各种神经网络模型,灵活调参和训练,将大数据和人工智能结合起来推动业务创新。容器技术和Kubernetes资源管理TDH中的组件都针对Docker作了优化,计算引擎也可以使用Kubernetes进行资源管理,得以使TDH以较低 的成本部署在公共云或者私有云上。星环还充分利用Docker和Kubernetes的资源隔离能力和对资源调度的QoS 支持,提供了弹性的资源共享,保障数据、资源、应用之间的隔离,实现了更好地多租户管理,以支持各种不 同的业务需求。容器技术给TDH的部署

28、和维护带来了非常显著的提升,它支持动态扩容、缩容,支持灰度升级,可以实现在 不停服的情况下对系统进行升级生态系统的强力整合TDH非常重视与数据分析生态系统的整合以提高系统的易用性。TDH与现有成熟系统的无缝整合涉及了数据获取,数据分析以及数据可视化端。传统的关系型数据库的数据可以直接作为数据源接入到集群中参与计算分析,目前已经支持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数千种统计算法的同时,可以充分利用R语言中的绘图工具绘制专业的统计报表;数据可视化不仅可将最终分析结果展示给用户,还可以帮助数据分析师来进行数据探索来发现和解决新问题。TDH支持多种可视化及报表

29、生成工具,包括Tableau、SAP Business Objects、Oracle OBIEE等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。虽然有些工具也支持Apache Hadoop,但只有高性能的TDH才真正使得交互式地探索大数据成为现实。完备的企业级解决方案TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案,可管理性是TDH的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性和快速故障恢复能力,H

30、DFS2.5做为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS 2.5的HA功能而优化,确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等。大数据平台性能优化TDH计算框架优化 星环支持多种主流的分布式计算框架,包括MapReduce和Spark,并且在产品设计之初就将Spark作为整个产品的缺省计算框架,多年来在计算框架方面做了大量的优化工作,提高了其性能与稳定性。MapReduce MapReduce

31、是一个分布式计算框架,基于该框架能够容易地编写分布式应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠地,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce擅长处理大数据,该计算框架的核心思想就是“分而治之”,整个计算过程可以分解为Map(分)与Reduce(合)两个阶段。首先,将复杂的任务分解为若干个简单的小任务来处理。其中简单的小任务包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会被分配到存放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此之间没有依赖关系。Reducer负责对map阶段的结果进行汇

32、总。Spark Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提

33、供交互式查询外,它还可以优化迭代工作负载。 Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。计算引擎优化 星环科技基于开源Spark技术,改进的分布式计算引擎Inceptor,解决了开源Spark的稳定性问题,并且已经在众多成功案例中经历了的考验。同时Ipcetor大幅提高Spark计算性能,是开源的2-10倍。TDH Inceptor极大提高了Spark功能和性能的稳定性,可以7*24小时在企业的生产环境运行,并能在TB级规模数据上高效进行各种稳定

34、的统计分析。 Inceptor基于Apache Spark深度开发了专用分布式计算引擎,不仅大幅提高了计算性能,而且有效的解决了Spark在稳定性方面的很多问题,确保计算引擎能够7x24小时无间断运行。此外,Inceptor引擎独立构建了分布式数据层,将计算数据从计算引擎JVM内存空间中独立出来,因此可以有效减少JVM GC对系统性能和稳定性的影响。 在SQL执行计划优化方面,Inceptor实现了基于代价的优化器和基于规则的优化器,辅以100多种优化规则,可以保证SQL应用在无需手工改动的情况下能够发挥最大的性能。对于数据倾斜等常见的数据处理难题,执行引擎也能够自动识别并加以优化,能够解决绝

35、大部分存在数据倾斜的计算场景,杜绝数据倾斜对系统稳定性的影响。 为了更好的适应各种数据场景,Inceptor的执行引擎包含两种执行模式:低延时模式和高吞吐模式。低延时模式主要应用在数据量比较小的场景,执行引擎会生成执行延时低的物理执行计划,通过减少或避免一些高延时的任务(如IO,网络等)来保证SQL的执行时间很短,达到或者逼近关系型数据库在这些场景下的性能。高吞吐模式主要应用在大数据的场景,通过合理的分布式执行来提高超大数据量上的复杂统计分析的性能。因此,Inceptor的执行引擎可以满足从GB到PB的各种数据量上的数据业务需求。TDH查询引擎优化Transwarp Inceptor引擎内置了

36、丰富的查询优化器,包括基于代价的优化器(CBO)、基于规则的优化器(RBO)和基于物化视图的优化器(MBO)。基于代价的优化器CBO全称是Cost Based Optimization(基于代价的优化方式),是SQL执行计划重要的优化手段。Inceptor对大数据平台原有的CBO功能进行了增强和扩展,进一步提升了SQL兼容性和执行性能。 性能提升方面,在测试TPC-DS标准测试集时,开源Hive在开启CBO优化以后,平均有2.5倍的性能提升。Inceptor基于原有的功能进行了扩展和增强,在开启内置CBO后,约10%的测试场景性能提升34倍,接近20%的场景性能提升40%,约有80%的执行计划

37、等于或接近最优计划。实际海量数仓业务中,预计CBO能够提供较好的性能优化提升。基于规则的优化器 RBO全称是Rule BasedOptimization(基于规则的优化方式),应用静态优化规则生成一个优化的逻辑执行计划,通过一组简单的启发式规则和打分原则来确定语句的执行过程和访问方式的,其中排名越靠前,被认为效率越高。基于物化视图的优化器 MBO全称是Materialized view Based Optimizer(基于物化视图的优化器),它可以基于物化的OLAP Cube或者视图来优化输入的SQL查询,根据对执行成本的计算,决定是否执行读取物化对象的存储计划。智能索引大数据平台中部分数据存

38、储上可以建立索引,达到查询加速的效果。Inceptor内置智能索引功能,可以识别出底层存储具备的索引,并在查询时优先使用存储上的索引。智能索引技术具有以下特点:查询计划智能使用最快速的索引无需用户在SQL中指定索引对指定查询,根据该表有的多个索引创建不同的执行计划根据成本计算性能最佳的执行计划和索引支持精确查询和模糊查询查询延时百毫秒级比如Hyperbase支持多种索引,包括全局索引(Global Index)、局部索引(Local Index)、高维索引(High-dimensional Index)以及全文索引(Full-text Index)等;结合Inceptor支持通过SQL进行复杂

39、条件毫秒级高并发查询,同时查询计划智能使用最快速的索引,无需用户在SQL中指定索引。对指定查询,根据该表有的多个索引创建不同的执行计划,根据成本计算性能最佳的执行计划和索引,与此同时,支持精确查询和模糊查询。相对于普通索引技术,智能索引技术基于代价的执行优化,准确率高,性能更好,能满足各类复杂场景需求,包括基于条件的多表关联即席查询与统计,可以满足高速的OLAP数据分析应用需求。相对于普通索引技术,CBI准确率高,性能更好,满足复杂场景需求。TDH存储引擎优化内存/SSD/磁盘混合存储加速 交互式分析是指用户期待秒级的分析响应。为支持在线事务处理、交互式分析、近实时挖掘,或针对操作型数据直接进

40、行复杂、即席的分析性应用需求,传统数据集市、数据仓库等均针对预先定义的分析服务类型进行预先计算。将原始数据做抽取、转换、加载,最后生成物化视图,实现相关分析;同时周期性检查数据存储中的增量数据,优化分析结果,因而无法满足实时、即席的复杂分析要求。此外,数据存储模式的变化,数据量激增之后,传统的在线分析的局限性越来越明显,如数据存取性能下降,连接处理复杂化等。 为了加速交互式分析的速度,Inceptor推出了基于内存或者SSD的列式存储引擎Holodesk。Holodesk将数据在内存或者SSD中做列式存储,辅以基于内存的执行引擎,可以完全避免IO带来的延时,极大的提高数据扫描速度。除了列式存储

41、加快统计分析速度,Holodesk支持为数据字段构建分布式索引。通过智能索引技术为查询构建最佳查询方案,Inceptor可以将SQL查询延时降低到秒级。 Inceptor中Holodesk支持跨内存/闪存介质的分布式混合列式存储,可用于缓存数据供Spark高速访问。Holodesk利用SSD的高IOPS特性进行针对性的存储结构优化,通过列式存储,内置索引等技术,使得在SSD上分析性能比纯内存缓存相差在10%20%范围左右,提供性能接近的交互式SQL分析能力。由于内存的价格是SSD的近10倍,因此可以采用SSD来替代内存作为缓存,一方面可以增大分布式内存数据库Holodesk存储容量,另一方面可

42、以降低成本,同时性能没有明显损失。 Inceptor可以通过SQL将数据从Hyperbase/HBase以及HDFS上装载入Inceptor分布式内存列式存储Holodesk,星环的Inceptor支持对海量数据的交互式数据分析,具备在秒级扫描分析数十亿条数据的能力。未来可以对不同业务部门开放交互式分析能力,提供现有数据仓库不能满足的交互式内存分析能力。 Holodesk允许用户对多字段组合构建OLAP-Cube,并将cube直接存储于内存或者SSD上,无需额外的BI工具来构建Cube,因此对于一些复杂的统计分析和报表交互查询,Holodesk能够实现秒级的反应。除了性能优势,Holodesk

43、在可用性方面也表现出色。Holodesk的元数据和存储都原生支持高可用性,通过一致性协议和多版本来支持异常处理和灾难恢复。在异常情况下,Holodesk能够自动恢复重建所有的表信息和数据,无需手工恢复,从而减少开发与运维的成本,保证系统的稳定性。 平台支持基于内存或者固态硬盘高IO特性优化的列式存储,避免IO带来的延时以提高数据扫描速度。Holodesk星环自主研发用于应对海量数据OLAP高性能分析查询难题的一款产品,它是跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Inceptor高速访问。Holodesk内建索引,结合Inceptor计算引擎可提供比开源Spark更高的交互

44、式统计性能,可以达到秒级灵活分析数亿条记录的性能;结合使用低成本的内存/闪存混合存储方案,可接近全内存存储的分析性能。它着力于交互式分析中即时查询效率的提高且能够保证扩展性与稳定性。Transwarp Holodesk 通过 Zookeeper 来管理元数据,从而避免因为单点故障而导致的数据丢失,数据checkpoint 在 HDFS 中。服务在故障恢复之后,Holodesk 能够通过Zookeeper 中的信息自动重建数据与索引,因此有很高的可靠性。全局索引平台可以采用全局索引,快速找到精确查询的记录,索引采用分桶技术,加快寻找索引速度,快速精确定位数据。Holodesk通过创建全局索引,优

45、化底层存储,对于过滤率较高的情况有很好的优化效应。Holodesk提供了表组织成桶的优化方式,通过分桶技术可以做到:有助于取样取样是从所有数据随机的抽取一部分样本。当数据极多时,不方便使用全部的数据验证系统功能,这时需要使用样本数据进行测试。表若被分桶,每个桶的内容是对数据的离散后的结果,满足对于样本的要求,所以取样时可以直接抽取任意一桶的全部数据作为样本。减少操作量,提高查询速率条件过滤时,如果过滤字段和分桶字段一致,可根据哈希结果直接知道该记录所在的相关分桶编号,只在这些分桶查找满足条件的记录,而不用搜索所有的文件,有很高的查询效率。减少Shuffle数据量分桶操作使得如GROUP BY以

46、及特定场景下的JOIN(多个JOIN表分桶个数相同)能够在一个Stage中完成,避免了Shuffle过程。例如,有两张表对Join Key的列分桶,现对这两张表做JOIN,由于两个表相同列值的记录都在对应表的同一个编号bucket中,因为Inceptor实现了同一个编号的bucket在同一个节点上的co-location的特性,所以可以直接在一个Stage实现JOIN,而不用Shuffle。局部索引平台支持在分布式内存列式存储上建立局部索引,提供OLAP能力,为大表创建索引,支持多维数据灵活分析,无需预先物化计算。索引和Cube的建立会提升在高过滤和高聚合率的情况下的查询速率和效率,并且使得以

47、更直观地方式从多维度多层面研究数据。Holodesk的索引是将列式存储的每个单元看作整体建立的。索引的创建采用了字典编码技术(Dictionary Encoding)。相对于通过遍历每一条记录进行条件过滤的手段,使用索引大幅度缩短了过滤时间。可以根据需求,选择对一个字段或多个字段创建索引,Holodesk的索引支持所有数据类型。TDH资源调度优化 星环科技的大数据平台通过细粒度的资源调度优化,充分利用物力资源,是的单位时间内能够满负荷地运行任务,面对高并发ETL或者交互式分析的场景,有非常出色的处理能力。计算资源管理 Transwarp Yarn支持同时对计算资源(CPU核心)和内存资源的管理

48、能力,Yarn和分布式存储在同一个物理集群中,达到分布式计算中数据优先本地化计算的目的,避免计算过程中数据需要全部从网络获取。在申请资源配额后,如果当前用户的资源紧张或受限,还可以动态调配其他用户的闲置资源加入,当其他用户使用时再归还。TDH大数据平台基于YARN的资源调度框架,启动Spark和Map/Reduce计算集群,按需动态创建与销毁计算集群。长期占用资源管理 TDH平台在一个Inceptor/Spark计算集群内部同样能实现计算资源在不同资源池(Pool)的共享与隔离,通过公平调度算法保证高优先级的Pool优先拿到闲置资源,同时每个Pool具有指定的资源保有量,避免高负载批处理业务占

49、用全部计算资源。同时,这种机制也能支持服务类的业务长期占用一定量的资源。资源分配与回收 在Transwarp Yarn上,可以非常方便的动态创建和销毁Spark或者Map/Reduce集群。对于用户提交的MapReduce以及Spark作业以及Inceptor集群,需要提交到其有权限的队列中,向Yarn申请资源,当用户当集群中节点上有足够的资源满足作业中task的要求并且没有达到该用户资源使用上线时,Yarn中将这部分CPU和内存资源封装成container,提供给task运行;如果剩余的资源量不足以满足计算所申请的资源,则任务需要排队。作业任务运行完成后动态销毁,释放占用的CPU与内存资源。

50、因此,对于平台分析应用,可以充分使用Transwarp Yarn的特性,实现分析集群的按需创建与销毁,从而帮助实现资源、计算能力的统一调度和规划。资源最低配额 在Yarn中通过Fair Scheduler管理调度策略,支持定义用户最低获取资源,以及最高获取资源,用户提交任务时所占用的最低资源不低于分配给用户的最低资源,在空余资源的情况下,最高资源能够达到分配给用户的最高资源。在其他任务需要资源时,根据优先级决定资源分配情况,如果优先级不够,支持抢占式调度,能够将低优先级作业占用的多余资源释放出来。组内资源再分配 通过TDH中Guardian的统一多租户资源管理调度,用户组可以分配对应队列资源,

51、组管理员具有队列资源配置权限,可以自主地对分配给本组的资源为组内用户再次分配。组内所有用户的最低资源总和不超过组的最低资源,最大的最高资源不超过组的最高资源。TPC-DS基准测试和TPC-H测试TPC-DS是国际公认的数据库性能测试,其中包含了99个精心设计的SQL查询语句,涵盖了绝大部分商用数据库使用场景,通过该测试则能证明测试产品: 1. 具有良好的SQL支持能力,能够无缝对接绝大部分基于SQL的应用场景。2.能在短时间内跑完这些测试说明该产品的性能非常优秀。星环大数据平台通过了大规模性能测试,验证了TDH在100TB的TPC-DS测试集下的性能。商业智能计算测试TPC-H 是美国交易处理

52、效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集.目前,在学术界和工业界普遍采用它来评价决策支持技术方面应用的性能. 这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,同时也具有普遍的商业实用意义,目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。TPC-H 基准测试的度量单位是每小时执行的查询数( HYPERLINK mailto:QphHsize t _blank QphHsize),其中 H 表示每小时系统执行复杂查询的平均

53、次数,size 表示数据库规模的大小,它能够反映出系统在处理查询时的能力.TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数.总而言之,TPC 组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限。星环TDH进行了大数据性能测试,验证了在TPC-H下的性能。大数据集成平台数据采集层建设大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。采集方式包含流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、

54、半结构化数据、非结构化数据。数据采集层负责实现内外部结构化数据、非结构化数据和流数据的自动化采集,遵从统一数据交换架构,完成数据采集相关工具、组件的安装、部署和集成,利用数据调度和采集工具将数据源数据导入大数据基础平台中。本建设方案满足甲方对于数据采集层建设的基本要求:利用了FTP/SFTP、Sqoop、Kafka、Flume等开源组件和技术;实现了离线采集和加载、实时/准实时数据同步等功能;遵循了开放性和先进性原则;并且提供了更高效的数据导入工具SQL Bulkload,与关系型数据库准实时同步的工具OGG和ODC,使得数据采集工具更加丰富,数据导入效率更高,时效性更强。可以给甲方后续建设提

55、供更丰富、更多样性的选择。数据接入多样化结构化数据加载在Oracle、DB2、Mysql等传统关系型数据库以及MongoDB等NoSQL数据库上的产生结构化数据需要迁移到Hadoop平台上Inceptor表、Hyperbase表或者Search表中进行数据分析或者检索,TDH上支持各类结构化数据的加载,支持灵活通用的数据格式描述,包括数据包含的字段、各字段的分隔符、字段类型等。支持传输的带分隔符的元组序列,每个元组的字段结构相同,由指定的分隔符分隔。支持的字段类型包括:整数(最长8字节)、浮点数、字符串、日期、时间等。在Inceptor中定义相关的表结构,Inceptor中支持整形、浮点数、字

56、符串以及日期和时间等常用的简单字段类型以及Map、Array、Struct等复杂的数据类型。通过Sqoop生成分布式任务对数据进行高效抽出同步,或者通过TDA组件对关系型数据库中的表进行准实时同步插入更新删除等数据操作;业务平台实时产生的结构化日志或者消息通过Flume分布式日志实时采集工具加载到TDH平台上HDFS、Search、Hyperbase或者Kafka数据队列中;加载到HDFS上的数据,通过Inceptor SQL进行数据处理或者在Discover中进行数据挖掘和机器学习。加载到Hyperbase中的数据可以通过Inceptor进行后模糊或精确匹配的高并发检索查询。加载到Searc

57、h中的数据可以通过Inceptor进行前模糊、后模糊、范围检索、关键字检索、全文检索等。在千兆网络下,Search的数据入库速度为单节点20000条每秒。业务系统定义数据格式,数据源(数据库或者结构结构化文件),数据存储端(HDFS、Search、Holodesk、Hyperbase等),数据调度方式,数据同步方式等,TDH上根据定义的数据加载方式为该任务自动配置数据处理的数据源、中间件(Sqoop、TDA、API/REST API、FTPOverHDFS、JDBC/ODBC、Flume或Kafka等)、存储以及处理方式等,启动相应的Oozie工作流任务或者中间件的调度任务,并对数据的加载、传

58、输以及处理入库全流程进行监控和记录。TDH上支持各类结构化数据的加载,支持灵活通用的数据格式描述,包括数据包含的字段、各字段的分隔符、字段类型等。支持传输的带分隔符的元组序列,每个元组的字段结构相同,由指定的分隔符分隔。支持的字段类型包括:整数(最长8字节)、浮点数、字符串、日期、时间等。在Inceptor中定义相关的表结构,Inceptor中支持整形、浮点数、字符串以及日期和时间等常用的简单字段类型以及Map、Array、Struct等复杂的数据类型。在负载均衡方面,当一类数据加载量较大时支持由多个加载客户端并行加载。Sqoop,Flume,Kafka等工具均是分布式架构数据采集工具,支持多

59、任务并行执行。Sqoop通过生成并提交MapReduce程序来切分task实现并行执行抽取数据任务;Flume通过分布式架构可以通过定义多个Agent或者多组Source-Channel-Sink组件来实现多个客户端并行加载数据;Kafka通过定义并行收集数据的Kafka Producer或者多个Kafka Producer来对数据进行并行加载。支持将数据加载到数据库、Hyperbase、总线消息队列、流处理系统以及HDFS上。Flume支持多个Agent数据传输节点之间以多对一的方式进行数据汇聚,如采集不同服务节点上的同一类日志数据汇聚到同一份文件中,支持一对多的方式数据分发,如将同一份数据

60、通过KafkaSink传输到kafka上导入到Stream中做流式计算,通过HdfsSink传输到HDFS上做数据存储,还可以通过ElasticsearchSink到Search做数据搜索。分布式数据采集框架Flume集成多种数据源以及数据传输的插件,并通过程序接口可以快速实现相关采集传输数据以及数据计数、数据筛选、数据预处理以及数据流监控等功能。Flume里面的支持自定义插件interceptor对数据进行过滤筛选等,并且在Flume里面,还可以通过KafkaSink将数据流接入Kafka导入到Stream中通过StreamSQL进行数据处理,在这里Flume作为Kafka的一种数据源。TD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论