Greenplum数据仓库技术架构介绍_第1页
Greenplum数据仓库技术架构介绍_第2页
Greenplum数据仓库技术架构介绍_第3页
Greenplum数据仓库技术架构介绍_第4页
Greenplum数据仓库技术架构介绍_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Greenplum数据仓库技术架构介绍1OLAP 在互联网公司的实践与思考Greenplum状态描述2三Greenplum体系架构二数据仓库体系架构一Greenplum开发规范五Greenplum运维体系四数据仓库体系架构3数据仓库架构要点数据生命周期业务数据特点OLAP场景举例OLAP架构示意数据流转过程具体技术实现数据认识业务认识业务需求整体框架数据流转实现方式数据仓库体系架构4数据生命周期与业务归类时间维度:过去 - 现在 - 未来(数据的生命周期)“现在”的数据 OLTP“过去”的数据 OLAP“未来”的数据 趋势分析数据仓库体系架构5业务数据特点现在的数据 OLTP实时,在线系统,客

2、户使用事务小,频率高,并发高过去的数据 OLAP非实时(T+1,或小时级),离线系统,分析决策事务大,频率相对小,并发低未来的数据 趋势分析非实时,离线+在线流系统,趋势分析算法分析,持续计算数据仓库体系架构6OLAP场景举例业务相关场景用户状态 (注册数,活跃数,并发量,峰值)金币状态 道具/物品状态 对账状态活动反馈架构相关场景不同数据量,不同事务特点,不同查询需求历史数据归档与冷热分离实时与延时需求的权衡数据仓库体系架构数据架构示意图7数据仓库体系架构8数据流转过程1 业务数据的产生 OLTP2 业务数据的中转 ETL服务器3 数据的存储和计算 OLAP集群4 结果数据的展现 数据集市5

3、 访问接口的封装 API接口服务器6 最终数据的显示 前端界面7 结果数据的交互 OLTP,趋势分析8 OLAP数据流转 dbsync平台数据仓库体系架构9架构的具体技术实现轻量级数据仓库 Inforbright与MySQL数据库结合,易使用,冷热分离数据库归档,只能load,不支持DML对特定OLAP类查询有很好的支持作用通用性数据仓库 Greenplum独立的数据库仓库解决方案可以很好支持各种方式的数据加载和DML操作具备海量的数据存储和计算性能Greenplum状态描述10三Greenplum体系架构二数据仓库体系架构一Greenplum开发规范五Greenplum运维体系四greenp

4、lum体系架构11体系结构要点postgresql体系结构pg逻辑和物理结构Greenplum体系结构GP架构特点与功能单元结构单元分解集群结构集群特点greenplum体系架构postgresql体系结构12greenplum体系架构13postgresql体系结构pg结构组成连接关系系统编译执行系统存储执行系统事务系统系统表pg逻辑和物理结构instance实例 - user - tablesapcedatabase - schema - table,view,function - data row物理文件 - oid - 表空间 - 数据文件命名greenplum体系架构greenplu

5、m的体系结构14greenplum体系架构greenplum的体系结构15greenplum体系架构16greenplum的体系结构greenplum的架构特点MPP ShareNothing海量并行处理+完全无共享cpu计算能力数据从Disk上的I/O吞吐性能master管理节点segment数据节点greenplum的核心功能无共享MPP多态存储(gpfdist+外部表,每小时4TB+)高效数据加载分布分区数据压缩外部访问Greenplum状态描述17三Greenplum体系架构二数据仓库体系架构一Greenplum开发规范五Greenplum运维体系四Greenplum现状说明18Gre

6、enplum集群现状概述三大Greenplum集群体系公司IDC_01机房Greenplum体系公司IDC_02机房Greenplum体系公司IDC_03机房Greenplum体系Greenplum现状说明19三大Greenplum集群定位分类公司IDC_01机房Greenplum体系公司第一套Greenplum集群,网络环境为千兆网数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作以对账业务为主,统计计算为辅公司IDC_02机房Greenplum体系针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数以重点业务线、活动数据、非OLTP业务数据的任务计算为主公司IDC_

7、03机房Greenplum体系数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方 式以核心业务的数据计算、统计为主Greenplum现状说明数据架构示意图20Greenplum现状说明21三大Greenplum集群关系数据来源不同数据处理不同时效速度不同体系架构相同年表划分相同平台整体定位定位不同,多集群配合形成逻辑大集群Greenplum现状说明Greenplum多层业务规划图22Greenplum状态描述23三Greenplum体系架构二数据仓库体系架构一Greenplum开发规范五Greenplum运维体系四Greenplum运维体系24运维要点环境规划与部署系统状态监控数

8、据库备份数据传输与同步任务调度构建系统监控系统保障系统流转系统计算系统Greenplum运维体系25环境创建与部署部署流程规划部署方案准备硬件资源修改系统参数安装 Greenplum 软件 / postgresql软 件初始化实例修改实例参数文件 初 始化业务所需库表环境、用户环境 加载数据业务程序访问Greenplum运维体系26环境创建与部署部署注意点资源要充足(ETL,管理节点,数据节点,数据集市)万兆网络 (网络环境对功能和性能的影响)节点规划 (数据节点6-10个segment节点)参数调整 (操作系统参数,greenplum集群参数)Greenplum运维体系系统状态监控 - gp

9、cc -公司IDC_01机房27Greenplum运维体系系统状态监控 - gpcc -公司IDC_02 机房28Greenplum运维体系系统状态监控 - gpcc -公司IDC_03机房29Greenplum运维体系30数据库备份配置与结构备份多机房级联备份Greenplum在本机进行第一次备份备份通过rsync传输到同机房ETL服务器各机房ETL服务器在备份到备份服务器结果数据备份Greenplum集群与postgresql集市备份结果数据csv文件备份结果数据到备份postgresql实例Greenplum运维体系31数据库数据传输与同步数据同步情况分类reader端与writer端全

10、量,id列增量,date列增量datax,csv,load,copy数据同步结果确认与显示数据同步方式gpfdist+外部表 : UMGW大表db_sync同步程序 : 底层库 + 同步逻辑 + Django界 面临时同步需求: datax , copyGreenplum运维体系数据库数据传输与同步-db_sync32Greenplum运维体系数据库数据传输与同步-db_sync33Greenplum运维体系34Greenplum任务调度greenplum内部存储过程调度大批量任务采用 kettle调度单个存储过程,可以在shell中 select func_name() 的方式调 度外部任务

11、调度将整个过程封装成shell脚本,或 Python脚本用crontab在操作系统调用脚本用 opencron在图形界面调用脚本Greenplum运维体系Greenplum任务调度-opencron35Greenplum状态描述36三Greenplum体系架构二数据仓库体系架构一Greenplum开发规范五Greenplum运维体系四Greenplum开发规范37开发规范要点不规范容易出现的问题业务库表设计规范用户与权限规范Greenplum使用规范规范必要性库表设计权限控制操作注意Greenplum开发规范38不规范容易出现的问题GP架构易出现问题资源不足 连 接、语句执行失败 多任务冲突库

12、表使用易出现问题表定义过大表类型单一表的散列键不恰当分区表的分区键性能不佳加载易出现问题文件加载出现特殊字符数据校验标准问题Greenplum开发规范39业务库表设计规范GP中表的范围最大时间为年表数据量小,可用单表多种表类型堆表 (选好常用列作为三列键)分区表 (按照 yyyymmdd 分区,建议都添加 datenum int8)append表列存储表多种表类型结合表的命名GP内所有名称都小写table_name命名要符合命名规则,做到见名知义Greenplum开发规范40用户与权限规范四层授权保保障角色 role : 管理数据库内对象权限用户 user : 用户认证权限pg_hba.conf : 实例权限配置文件iptables : 防火墙IP访问配置策略账号类型划分管理账号开发账号调度账号业务账号测试账号账号名称限定所有都用小写字母加下划线的方式按照命名规则,做到见名知义Greenplum开发规范41Greenplum使用规范平时使用规范避免高频率的insert、update操作避免频繁执行高内存消耗的会话避免出现死锁可以在适当的时候执行 vaccum 操作避免直接在Greenplum执行消耗session会话的操作尽量不创建索引上线与调度规范上线的程序,必须要经过测试,才可以生产使用调度程序需考虑每个任务的前后关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论