鲲鹏智能计算导论 课件 第6章 鲲鹏openLooeng数据虚拟化引擎_第1页
鲲鹏智能计算导论 课件 第6章 鲲鹏openLooeng数据虚拟化引擎_第2页
鲲鹏智能计算导论 课件 第6章 鲲鹏openLooeng数据虚拟化引擎_第3页
鲲鹏智能计算导论 课件 第6章 鲲鹏openLooeng数据虚拟化引擎_第4页
鲲鹏智能计算导论 课件 第6章 鲲鹏openLooeng数据虚拟化引擎_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章

鲲鹏openLooKeng数据虚拟化引擎鲲鹏智能计算导论6.1openLooKeng数据虚拟化引擎6.2openLooKeng基础实践学习要点6.1.1 openLooKeng概述openLooKeng是一个统一、高效的数据虚拟化融合分析引擎,北向提供标准、统一的接口给业务层使用,南向屏蔽各类异构数据源差异。openLooKeng使用统一数据源连接框架DataSourceConnector提供多种数据源的访问能力,无论是大数据生态的Hive或者Hbase,还是OLTP数据库的PostgreSQL及MySQL,都可以方便接入。openLooKeng提供ODBC、JDBC及REST接口,以ANSI2003SQL为载体提供统一数据访问接口,BI工具、AI工具可以有效通过所提供的接口与openLooKeng集成,简化系统设计。在南向接口方面在北向接口方面6.1.1 openLooKeng概述openLooKeng是一个类大规模并行处理(MPP)架构的分布式处理系统,包含协调器(Coordinator)以及Worker两种角色,通过实现AA(Active-Active)高可用性,使得整体系统无单点故障问题。openLooKeng内部采用向量化列式处理引擎,针对大数据场景,列式处理性能更高且可以充分利用CPU并行潜力。通过基于内存的流水线处理,openLooKeng可以实现高性能并行处理。内存计算框架ANSISQL2003语法支持DataSourceConnector种类丰富DataCenterConnector支持跨域跨数据中心高性能的查询优化技术高可用特性6.1.2 openLooKeng关键技术服务器类型01OPTIONopenLooKeng协调节点openLooKeng工作节点openLooKeng工作节点是openLooKeng在安装时的服务器,负责执行任务和处理数据。openLooKeng工作节点从连接器获取数据,并交换中间数据。openLooKeng协调节点负责从openLooKeng工作节点获取结果,并将最终结果返回给客户端。当openLooKeng工作节点进程启动时,它会将自己通告给openLooKeng协调节点中的发现服务器,这样,openLooKeng协调节点就可以使用它来执行任务。openLooKeng工作节点使用RESTAPI与其他openLooKeng工作节点和openLooKeng协调节点进行通信。openLooKeng协调节点是负责解析语句、规划查询和管理openLooKeng工作节点的服务器。每个openLooKeng在安装时必须有一个openLooKeng协调节点,以及一个或多个openLooKeng工作节点。若用于开发或测试,则可以配置openLooKeng的单个实例来扮演这两个角色。openLooKeng协调节点跟踪每个openLooKeng工作节点上的活动,并协调查询的执行。6.1.2 openLooKeng关键技术数据源模型02OPTION连接器连接器将openLooKeng连接到诸如Hive或关系数据库的数据源,可以将其理解为类似数据库的驱动。它是openLooKeng的服务提供接口(SPI)的一个实现,它允许openLooKeng使用标准API与资源进行交互。openLooKeng包含若干内置连接器,如Java管理扩展(JavaManagementExtensions,JMX)连接器、提供对内置系统表访问的系统连接器、Hive连接器,以及为TPC-H基准数据服务的TPC-H连接器等。每个目录都与一个特定的连接器相关联。如果检查目录配置文件,则将看到每个文件都包含一个强制属性,目录管理器使用该属性为给定的目录创建连接器。多个目录可以使用同一个连接器来访问类似数据库的两个不同实例。6.1.2 openLooKeng关键技术数据源模型02OPTION目录openLooKeng目录包含模式并通过连接器引用数据源。例如,可以配置一个JMX目录,以便通过JMX连接器访问JMX信息。在openLooKeng中运行SQL语句时,将针对一个或多个目录运行该语句。目录的其他示例包括连接Hive数据源的Hive目录等。在openLooKeng中查询表时,完全限定的表名称总是以目录作为根的。例如,一个完全限定的表名hive.test_data.test将引用hive目录中test_data模式中的test表。目录定义在openLooKeng配置目录的属性文件中。6.1.2 openLooKeng关键技术数据源模型02OPTION模式模式是组织表的一种形式。目录和模式一起定义了一组可以查询的表。当使用openLooKeng访问Hive或MySQL等数据库时,模式会在目标数据库中被转换为相同的概念。其他类型的连接器可以选择以对基础数据源有意义的方式将表组织到模式中。表表是一组无序行,这些行被组织成具有类型的命名列。这与任意关系数据库中的情况相同。源数据到表的映射由连接器定义。6.1.3 openLooKeng典型应用场景12345openLooKeng采用基于内存的计算框架,可以充分利用内存并行处理、索引优化、缓存机制,以及分布式流水线作业等技术手段,以实现查询与分析的高速处理,从而处理TB级甚至PB级的海量数据。使用openLooKeng可实现RDBMS、NoSQL等数据库及Hive或MPPDB等数据仓库的联合查询,借助openLooKeng的跨源异构查询能力,用户可实现海量数据的分钟级甚至秒级查询、分析。openLooKeng专门为这种跨域查询设计了跨域跨数据中心的解决方案DataCenterConnector,通过openLooKeng集群之间传输计算结果的方式,解决了带宽不足、丢包等网络问题。openLooKeng计算存储分离的技术架构可实现集群节点的动态扩展,实现在不中断业务的情况下进行资源弹性伸缩,适用于需要计算存储分离的业务场景。openLooKeng通过标准语法定义了一个虚拟的数据集市,结合跨源异构查询能力连接到各个数据源,从而在这个虚拟的数据集市的语义层定义用户需要探索的各种分析任务。高性能交互式查询场景跨源异构查询场景跨域跨数据中心查询场景计算存储分离场景快速进行数据探索场景6.1openLooKeng数据虚拟化引擎6.2openLooKeng基础实践学习要点6.2.1 环境安装实践以openLooKeng自动化部署脚本为例,介绍单节点环境的安装过程。其前提条件是有一个就绪的Linux环境(双核CPU,内存容量为8GB)。执行以下命令可以一键下载所需软件包和部署openLooKeng服务器。wget-O-https://download.openlookeng.io/install.sh|bash正常情况下,只需等待安装完成,服务即会自动启动。/opt/openlookeng/bin/stop.sh安装结束后,可通过以下命令停止服务。/opt/openlookeng/bin/start.sh若想再次启动服务,则可执行以下命令。通过执行以下命令可以启动openLooKeng命令行终端。/opt/openlookeng/bin/openlk-cli6.2.1 环境安装实践进入命令行终端交互界面后,可通过命令查看信息并验证服务状态。可以执行下图所示的命令,并通过回显结果信息查看当前系统中已有的目录,以及当前系统运行时所包含的节点信息与状态。openLooKeng服务运行过程中所产生的日志会默认记录在以下目录文件中,通过对此日志的查看,能了解服务运行状态,同时有助于问题的排查与定位。/home/openlkadmin/logs/server.log6.2.2 数据源对接实践环境前置条件准备01OPTION由于是单节点环境,实践中会涉及postgres多个实例,因此选择以Docker方式在环境中部署postgres服务,同时环境中的openLooKeng已启动且服务正常。postgres实例部署02OPTION通过执行以下命令,使用Docker快速部署postgres服务。dockerrun--namepostgres1-ePOSTGRES_PASSWORD=123456-dpostgres6.2.2 数据源对接实践新建配置03OPTIONpostgres服务启动后,需要在openLooKeng对应配置目录中新建配置,才能使服务感知到postgres1实例的存在。因此,需在/opt/openlookeng/hetu-server/etc/catalog目录下创建一个配置文件,将其命名为“perties”,并打开该文件进行编辑,编辑内容可参考如下。=postgres1connection-url=jdbc:postgres1://:5432/postgresconnection-user=postgresconnection-password=123456注意:本例中connection-url中的IP地址为容器postgres1实例对应的IP地址。6.2.2 数据源对接实践重启与验证04OPTION完成新建配置后,openLooKeng服务需要重启以加载新的配置,可执行以下命令使服务重启。/opt/openlookeng/bin/restart.sh服务重启后,再次进入openLooKeng命令行终端,在终端中执行以下SQL语句查询当前系统目录,结果如图所示。6.2.2 数据源对接实践通过openLooKeng对postgres进行操作05OPTION在openLooKeng的命令行终端中,可以执行SQL语句对postgres1实例进行相应操作。以表的创建和数据插入为例,具体操作及结果如图所示。6.2.3 跨数据源查询实践搭载华为鲲鹏处理器的TaiShan2280服务器的内部模组memory目录数据准备01OPTION通过执行以下SQL语句,在memory目录内的default模式中创建demo表,并将数据添加到demo表中。createtablememory.default.demo(idint,namevarchar(50),fkint);insertintomemory.default.demovalues(6,'mem_aa',1),(7,'mem_ab',3),(8,'mem_ac',5),(9,'mem_ad',7);执行结果6.2.3 跨数据源查询实践搭载华为鲲鹏处理器的TaiShan2280服务器的内部模组跨数据源查询02OPTION跨数据源查询可通过执行以下SQL语句实现。需要注意的是,不同数据源待合并的数据字段需要一致,因此SQL语句中指定了对应字段。selectid,namefrommemory.default.demounionallselect*frompostgres1.public.demoorderbyid;跨数据源查询结果6.2.3 跨数据源查询实践搭载华为鲲鹏处理器的TaiShan2280服务器的内部模组跨数据源查询02OPTION以下SQL语句的执行结果可展示跨数据源数据连接查询能力。需要注意的是,由于不同数据源中有相同字段,因此SQL语句中对字段指定了相应别名。selectmemory.default.demo.idmem_id,mem_name,postgres1.public.demo.idpg_id,pg_name

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论