版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库基础数据仓库基础 信息技术部 开发三处 徐景春 第第2页页 日程 技术 知识 基本概念 体系结构 设计方法 技术实现 管理 知识 开发流程 团队角色 开发特点 DW2.0与 大数据 DW2.0 大数据平台 基础 知识 实践 经验 第第3页页 日程:技术知识 基本概念 体系结构 设计方法 技术实现 数据 仓库 特征 面向主 题 集成 非易失 的 随时间 变化 第第4页页 背景:数据处理的发展历程 1969: E.F.Code 发明关系数据 库 1991: W.H.Bill Inmon 发表“构建数 据仓库” 2008: W.H.Bill Inmon DW2.0 维克托迈尔- 舍恩伯格大
2、数据 文件方式文件方式 l数据与程序混杂 l管理复杂 l并发问题 l一致性问题 数据库数据库 OLTP处理交易 l统计类需求 l数据源繁杂 传统数据仓库传统数据仓库 OLAP处理分析 l性能问题 l非结构化数据 l实时 说明说明 l不是“替代”关系 l本文档重点介绍“传统数据仓库” DW2.0 大数据平台大数据平台 第第5页页 OLTP与OLAP 理赔 保全 承保 OLTP l处理交易 l流程 l运转 OLAP l分析数据 l数据 l记录、观察 第第6页页 数据仓库定义 Data warehouse is a subject oriented, integrated,non- volatile
3、 and time variant collection of data in support of managements decision. Inmon,1996 数据仓库是一个面向主题的、集成的、非易失的且随时间 变化的数据集合,用来支持管理人员的决策。 第第7页页 数据仓库其他定义 Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integra
4、ted platform . Ladley,1997 是一组方法、技术、工具 Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure. Appleton,1995Haley,1997Gardner 1998 是一个过程 第第8页页 四个特征Inmon,1996 面向主题 主题是在较高层次上对数据抽象 面向主题的数据组织分为两步骤 确定主题 确定每个主题所包含的数据内容 每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户ID) 主题内数据可以存储在不同
5、介质上(综合级,细节级,多粒度) 集成 从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清 洗) 代码、粒度、结构 非易失的(不可更改的) 批处理增加,仓库已经存在的数据不会改变 随时间变化 键码都包含时间项,以标明数据的历史时期 第第9页页 面向主题 第第10页页 集成 第第11页页 非易失的(不可更改的) 第第12页页 随时间变化 第第13页页 Data Mart、ODS、ETL Data Mart 数据集市 小型的,面向部门或工作组级数据仓库。 Inmon:部门级仓库,数据仓库数据的部分拷贝 Kimball:数据仓库的组成部分,构成数据仓库 Operation Dat
6、a Store 操作数据存储 支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境 四个基本特点 面向主题的(Subject -Oriented) 集成的 可变的 当前或接近当前的 ETL 数据抽取、转换、装载(Extract/Transformation/Load) 第第14页页 元数据、分割、粒度 元数据 关于数据的数据。用于构造、维持、管理使用数据仓库。 分割 数据分散到各自的物理单元中去,它们能独立地处理。 粒度 指数据仓库的数据单位中保存数据的细化或综合程度的级别 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 粒度影响数据仓库中数据量的大小 粒度问题是设计数
7、据仓库的一个重要方面 在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻度综合),做分析 第第15页页 BI的由来 商业智能(Business Intelligence,简称BI) 最早是由美国Gartner Group于1996年提出的。当时将其 定义为一类数据仓库(或数据集市)、查询报表、数据分 析、数据挖掘、数据备份和恢复等部分组成的、以帮助企 业决策为目的技术及其应用。 数据仓库、OLAP、数据挖掘总是纠缠在一起,交流太麻 烦,统称为BI,不仅如此,以后不用DW/OLAP/DM,BI 也不会过时。 本文没有严格区分数据仓库和BI 第第16
8、页页 日程:技术知识 基本概念 体系结构 设计方法 技术实现 第第17页页 体系结构的重点 重点问题:数据的获取、存储和使用 数据仓库和集市的加载能力至关重要 数据仓库和集市的查询输出能力至关重要 Relational Package Legacy External source Data Clean Tool Data Staging Enterprise Data Warehouse Datamart Datamart RDBMS ROLAP RDBMS End-User Tool End-User Tool MDB End-User Tool End-User Tool Data Sta
9、ging:数据 处理区域,为了实现 ETL过程的临时存储 第第18页页 体系结构 Pieter,1998 Source Databases Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Transform and Load Data Modeling Tool Central Metadata Architected Data Marts Data Access and Analysis End-User DW Tools Central Data Warehouse Central Data War
10、ehouse Mid- Tier Mid- Tier Data Mart Data Mart Local Metadata Local Metadata Local Metadata Metadata Exchange MDB Data Cleansing Tool Relational Appl. Package Legacy External RDBMS RDBMS 第第19页页 带ODS的体系结构 Source Databases Hub - Data Extraction, Transformation, load Warehouse Admin. Tools Extract, Tra
11、nsform and Load Data Modeling Tool Central Metadata Architected Data Marts Data Access and Analysis Central Data Ware- house and ODS Central Data Warehouse Mid- Tier RDBMS Data Mart Mid- Tier RDBMS Data Mart Local Metadata Local Metadata Local Metadata Metadata Exchange ODS OLTP Tools Data Cleansing
12、 Tool Relational Appl. Package Legacy External MDB End-User DW Tools 第第20页页 小结:体系结构 ETL 数据获取 数据仓库 数据存储 分析 数据使用 元数据管理 调度管理 数据标准管理 数据质量管理 门 户 数 据 源 用 户 第第21页页 数据获取:ETL 职责 负责将数据从源系统提取到数据仓库中 功能 去掉操作型数据库中不需要的数据 统一转换数据的名称和定义 计算汇总数据和派生数据 估计遗失数据的缺省值 关键问题 增量数据获取 异常处理 异常捕获、异常处理 非功能需求 如何复用代码 性能:是否使用存储过程、如何转换 易
13、用性:并行开发、维护 第第22页页 增量数据获取方式 时间戳 源表有时间戳字段,记录新增、 修改、删除更新时间戳字段 触发器 源表中创建触发器,通过触发器 捕获数据的增、删、改 数据库日志 对事务数据库的日志文件进行分析,获取变化的数据 Hash值 通过比对记录的hash值,识别出变化的数据 业务日期 根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付 费表的实收日期,保全生效日等 CDC组件 Change Data Capture 改变数据捕获 存量数据 增量1 增量2 ETL 插入 数据仓库 修改 删除 第第23页页 CDC整体连接示意图 q CDC FOR ORACL
14、E 连接核心Oracle数据库作为数据源 q CDC FOR DATASTAGE 让数据源的增量数据落地成数据文件,作为目标端 q CDC FOR ACCESSSERVER 连接 CDC FOR ORACLE和CDC FOR DATASTAGE 并提供用户管理 第第24页页 如何选择增量获取方式 数据源 源表如何记录 改造成本 影响程度 ETL 实现难度 维护成本 稳定性 目标表 需要哪些数据 写入效率 第第25页页 数据存储:数据仓库 职责 负责存储数据 功能 快速存取,适应变化 关键问题 4个基本特征的数据集合 数据架构:分哪几层 数据模型:每层如何存储数据 数据流向 第第26页页 数据使
15、用:分析 职责 负责数据的使用、分析、展现 常见方式 报表:常规的制式固定报表 OLAP:联机分析处理 数据挖掘 即席查询 自助查询 第第27页页 联机分析处理(OLAP) 是针对特定问题的联机访问和分析 通过对信息的很多种可能的观察形式进行快速、稳定一致 和交互性的存取,允许分析人员对数据进行深入观察 概念 变量是数据的实际意义,描述数据是什么 维是人们观察数据的特定角度 维的层次是维在不同细节程度的描述 维成员是维的一个取值 多层次维的维成员是各层次取值的组合 对应一个数据项,维成员是该数据项在该维中位置的描述 多维数组可以表示为(维1,维2,变量),如(地区,时间,销售渠道,销售额) 多
16、维数组的取值称为数据单元(单元格) 可以理解为交叉表的数据格 第第28页页 第第29页页 钻取和上卷 第第30页页 旋转 第第31页页 示例:钻取-操作 第第32页页 示例:钻取-效果 第第33页页 基于多维数据库的OLAPMOLAP 以多维方式组织数据(综合数据) 以多维方式显示(观察)数据 多维数据库的形式类似于交叉表,可直观地表述一对多、 多对多的关系 如:产品、地区、销售额 关系 多维 多维数据库由许多经压缩的、类似于数组的对象构成,带 有高度压缩的索引及指针结构 以关系数据库存放细节数据、以多维数据库存放综合数据 第第34页页 MOLAP架构 第第35页页 基于关系数据库的OLAPR
17、OLAP 以二维表与多维联系来表达多维数据(综合数据) 星型结构 事实表,存储事实的量及各维的码值(BCNF) 维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余) 事实表通过外键与每个维表相联系 雪花、星座、雪暴 模拟多维方式显示(观察)数据 第第36页页 ROLAP架构 第第37页页 MOLAP与ROLAP MOLAP 计算速度较快 支持的数据容量较小 缺乏细节数据的OLAP 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指 针结构 以关系数据库存放细节数据、以多维数据库存放综合数据 ROLAP 结构较复杂 以关系模拟多维 支持适当细节的OLAP 较成熟
18、 HOLAP是以上两种的综合 第第38页页 数据挖掘(Data Mining) 探测型的数据分析 发现信息、发现知识 基于人工智能、机器学习、统计学 由计算机自动智能地分析数据,获取信息,作出预测或帮 助决策 需要算法的支持和机器的环境 第第39页页 数据挖掘的常用方法 决策树方法 利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树 的节点,再根据该属性字段的不同取值建立树的分支 在每个分支子集中重复建立下层节点和分支 关联分析 为了挖掘出隐藏在数据间的相互关系 支持度/置信度作为输入的条件,进行筛选、分析 序列模式分析 类似与关联分析 着重于分析数据的前因后果 分类分析
19、对于不同分类的数据进行分析,找出他们的规律、特征 聚类分析 是分类的逆过程 根据数据特征,进行分类 第第40页页 数据挖掘与OLAP 都属于分析型工具 DM是挖掘型工具 DM试图自动地发现隐藏在数据中的模式或规律 OLAP是验证型工具 OLAP更多地依赖于用户的输入和假设 两者相辅相成,互补 以DM挖掘潜在的模式、预测未来趋势 以OLAP来验证DM的结果 第第41页页 调度管理 职责 负责监控、管理ETL程序(ETL程序类型通常会有所扩展)的执行。 功能 调度策略(定时、依赖关系) 调度监控 手工处理 其他 扩展:分布式,总分间的数据传输 ETL工具有相关功能 定制开发 第第42页页 元数据管
20、理 职责 负责元数据的管理 应用场景 管理信息 资产 提升数 据质量 辅助开 发和运 维 第第43页页 元数据分类-Alex Berson etc, 1999 业务元数据 定义:给用户易于理解的信息 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 维度、指标、报表 技术元数据 定义:为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓 库开发和管理任务。 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问等
21、 数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法 第第44页页 示例:元数据管理模块的逻辑架构 第第45页页 数据管控 系统建设 制定流程 技术支撑 技术 流程 人员 第第46页页 日程:技术知识 基本概念 体系结构 设计方法 技术实现 数据架构数据模型维度建模 第第47页页 设计方法 方法论 系统架构设计 数据架构设计 从顶层、抽象角度,数据仓库的建设方法可 分为:自顶而下,自底而上。 从系统架构设计角度,数据仓库作为一 个系统,其架构设计应包括的内容。如: 系统定位、模块组成及相互关系、各模 块的架构设计等。 数据存储是数据仓库建设的核心 问题,因此数据
22、架构的设计更值 得关注。包括数据层、数据流向、 数据模型。 第第48页页 方法论:自顶而下 构建企业数据仓库(EDW) Common central data model Data re-engineering performed once 最低限度减少数据冗余和不一致性 明细历史数据,全局数据查找 基于EDW构建数据集市(DM) 和部门相关的数据仓库子集 几乎是汇总级数据 直接依赖EDW的数据 局部数据集市 外部数据 局部数据集市 操作型数据 企业数据仓库 第第49页页 方法论:自底而上 创建部门的数据集市(DM) 范围局限于一个主题区域 快速的 ROI - 局部的商业需求得到满足 本部门自
23、治 - 设计上具有灵活性 对其他部门数据集市是一个好的指导 容易复制到其他部门 需要为每个部门做数据重建 有一定级别的冗余和不一致性 一个切实可行的方法 扩大到企业数据仓库(EDW) 创建EDW作为一个长期的目标 局部数据集市 外部数据 操作型数据 (全部) 操作型数据 (局部) 操作型数据 (局部) 局部数据集市 企业数据仓库 第第50页页 系统架构设计 架构 视图 逻辑 架构 物理 架构 运行 架构 开发 架构 数据 架构 体系结构 架构5视图 第第51页页 数据架构 51 数据架构数据架构数据模型维度建模 示例:参考数据架构 第第52页页 参考数据架构的说明 分层是从逻辑角度划分的,并非
24、物理上的 整合层、通用语义层、应用层是可灵活组合的 数据流向并非严格的顺层流动 整合层的主流行业概念模型(EDW) IBM IIW Teradata FS-LDM (Financial Service Logical Data Model) 52 数据架构数据架构数据模型维度建模 第第53页页 数据模型(逻辑模型) 数据模型 模型是对现实世界进行抽象的工具。在数据仓库系统中需要将现实世界的事物及 其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数 据模型作为这种转换的桥梁。 这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型 到物理模型的转换过程。 数据
25、架构数据模型数据模型维度建模 现实世界概念模型逻辑模型计算机世界 信用特性属性 列(字段、 数据项) 张三个体实体记录 客户整体同质总体表文件 客户与产品整体间联系异质总体数据库 第第54页页 模型设计方法 第三范式建模(Third Normal Form简称3NF) 定义:(1)第三范式设计必须满足以下条件,每个属性的值唯一,不具有多义性;(2) 每个非主属性必须完全依赖于整个主键,而非主键的一部分;(3)每个非主属性不能依 赖于其他关系中的属性。 优点:数据冗余少;抽象程度高、信息高度集成;支持应用灵活; 缺点:数据获取效率较差;建设难度大;周期较长; 维度建模(Star-Schema)
26、定义:维度建模是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表 (Dimension Table)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表 的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实 (Fact),它们一般都是数值或其他可以进行计算的数据。 优点:信息显性化,因此运行效率较高;周期较短,容易见效; 缺点:数据冗余大;对信息跳跃性较强的应用支持不够理想; 数据架构数据模型数据模型维度建模 第第55页页 模型设计方法:第三范式建模 Bill Inmon 先生系统地阐述了企业级数据仓库的定义及体系结构,被誉为数据仓库之父。 其
27、核心观点认为数据仓库应该从构建高度抽象的企业数据模型开始。 特点: v是一种数据驱动方法; v以3NF建模为基础; v着眼公司中、长期目标; v建成后系统具备较好的 适应性和扩展性。 ETL 产品 渠道 客户 保单 客户流失 渠道分析 产品分析 保费分析 数据源 业务 收付 外部 ETL 数据仓库 数据集市 数据架构数据模型数据模型维度建模 第第56页页 模型设计方法:维度建模 Ralph Kimball 先生作为数据仓库体系结构的最早实践者,在数据仓库的建设方面做了大量的工作,其 业务维度生命周期方法指引了世界范围内众多数据仓 库项目的实施。 业务维度生命周期方法的突出贡献是采用了一致的维度
28、与事实的概念来构建数据仓库总线结构。 特点: 是一种需求驱动方法; 以维度建模为基础; 实施周期短,见效快; 实施风险较低 维度模型可理解性 让所有事项尽可能简单,但是又不能简 单得过了头 模型要保留“源”有信息,有价值与元 价值信息都要保留; 反规范化维度层次结构设计是维度建模 提高查询性能保障; 每个维都是一个等效的事实表入口点; BI展现工具多维立方体是维度建模完善 体现; 维度模型扩展易用性; 数据仓库 数据源 业务 收付 外部 ETL 一致的维度下的 数据集市 保费分析客户留存 渠道分析产品分析 数据架构数据模型数据模型维度建模 第第57页页 维度模型VS规范化模型 57 n规范化模
29、型规范化模型 描述业务的逻辑关系 消除冗余,解决数据的一致性问题 模型灵活、稳定 如果数据源没有企业数据模型控制,ETL抽取很难 n维度模型维度模型 易于理解 因为冗余,性能好易于访问 多维模型在满足用户需求方面是非常高效的,但是灵活性不好 整合层 通用语义层 集市层 数据架构数据模型数据模型维度建模 第第58页页 数据模型的评估 58 数据数据 模型模型 集成性集成性管理性管理性 性能性能 扩展性扩展性 可用性可用性 完整性完整性 支持BI应用 扩展 支持数据源扩展 支持模型自身扩展 快速扩展 支持各类BI应用 涵盖保险业务各环节 参考主流行业模数据型 安全管理 支持数据的维护 数据生命周期
30、管理 易于理解 设计合理 优化BI应用性能 优化ETL性能 结构集成 内容集成 主题集成 扩展集成 集成可操作 增量策略 模型管理 制定标准和规范 数据架构数据模型数据模型维度建模 第第59页页 维度建模相关概念 应用驱动 业务价值链 业务过程 维度表 维度 渐变维度 退化维度 杂项维度 雪花模型 事实表 事务事实表 周期快照事 实表 累积快照事 实表 设计过程 选择业务过 程 定义粒度 选定维度 确定事实 总线结构 总线矩阵 一致性维度 一致性事实 59 数据架构数据模型维度建模维度建模 第第60页页 维度基本概念:以日期维度为例 主键 维度属性 每一字段,列 成员 每一行 层次关系(路径)
31、 年、半年、季度、月、日 60 日期 标识 日期年半年季度月日星期周描 述 旬描 述 年天 数 假期农历 年 农历 月 201501012015年年 1月月1日日 2015年年上半年上半年1季度季度1月月1日日星期四星期四第第1周周上旬上旬1元旦元旦腊月腊月十一十一 201501022015年年 1月月2日日 2015年年上半年上半年1季度季度1月月2日日星期五星期五第第1周周上旬上旬2工作日工作日腊月腊月十二十二 201501032015年年 1月月3日日 2015年年上半年上半年1季度季度1月月3日日星期六星期六第第1周周上旬上旬3周末周末腊月腊月十三十三 201501042015年年 1
32、月月4日日 2015年年上半年上半年1季度季度1月月4日日星期日星期日第第2周周上旬上旬4周末周末腊月腊月十四十四 维度属性代理键 成员 层次关系层次关系 第第61页页 维度特点 观察的角度 包含丰富的维度属性,即很多列,且带有描述性质 维度属性用于查询约束条件、报表标签、分组汇总 丰富的维度属性带来丰富的分析能力 “维度表是进入事实表的入口” 理论上不必有代码,如果用户很熟悉代码则可加 通用性:日期、机构、险种、渠道、 61 第第62页页 缓慢变化维(SCD) Slowly Changing Dimensions 背景 在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生变化。这种
33、随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变 化信息的问题称为处理缓慢变化维的问题。 处理缓慢变化维的方式 TYPE 1:第一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历 史数据,无法分析历史变化信息。 TYPE 2:第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是 当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通 过自然键可以和原维度记录保持关联。 TYPE 3:第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信 息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接 覆盖。这种方式
34、的优点是可以同时分析当前及前一次变化的属性值,缺点是只保 留了最后一次变化信息。 第第63页页 示例:SCD 维度 展业机构 业务键 展业机构代码(AgentGroup) 代理键 展业机构ID(AgentGroupID) 类型2 Branchattr Branchtype Branchtype2 逻辑 当上述3个维度属性的值 发生变化时,增加一条记录 第第64页页 代理键 可以保证源系统的变化不会对BI系统产生影响 可以允许BI系统整合多个源系统中的数据 可以允许在维度表中加入不存在的行 提供了一种跟踪维度属性随时间变化的方法 使用整型的代理键在关系库、多维库中是高效的方法,提高系统查询 和处
35、理性能,减少了事实表本身的大小 代价:ETL的性能耗费 根据成员个数选择smallint、int、bigint 64 数据架构数据模型维度建模维度建模 第第65页页 退化维度、杂项维度 退化维度 维度除了主键以外没有其他维度属性。 没有维度表 如订单号 杂项维度(junk dimension) 通过创建一个抽象的维度将多个低基数的标志位合并以将其放到维度体系中 第第66页页 星型模型 以事实表为中心,加上若干维表,组成星型数据模式。事 实表存放基本数据, 第第67页页 雪花模型 维一般是由若干层次组成 把维按其层次结构表示成若干个表 规范化、节省存储空间 但需多做连接操作 第第68页页 事实表
36、 事务型事实表 事务发生时,每个事务记录一行,不需要更新 维度:事务日期 例子:支付事实表、收费事实表 周期快照型事实表 周期性快照,不需要更新 维度:快照日期 例子:待发货、有效保单、有效人力 累积快照型事实表 一个事件一行,由多个步骤组成,步骤发生时更新 维度:关键步骤的多个日期 例子1:购买(订购日期、付款日期、发货日期、收货日期) 例子2:承保(申请日期、暂收日期、核保日期、签单日期、核销日期) 68 第第69页页 示例:维度与事实 第第70页页 设计过程 选取业务 过程 将对业务需 求的理解与 对可用数据 的理解组合 起来 定义粒度 何种详细程 度 选定维度 一旦粒度被 选定,则维
37、度随之被确 定 确定事实 确定哪些度 量在事实表 中出现 70 数据架构数据模型维度建模维度建模 第第71页页 示例:总线矩阵、一致性维度 第第72页页 日程:技术知识 基本概念 体系结构 设计方法 技术实现 第第73页页 技术实现 硬件 操作系统 数据库 ETL工具 报表工具 开发工具 中间件 逻辑 分析工具 第第74页页 Gartner 2015 数据仓库和分析市场魔力象限 :领导者 Teradata,Oracle,IBM,微软, SAP,惠普 :挑战者 MapR Technologies,Cloudera, 1010data,AWS :特定领域者 Exasol,MarkLogic,Kog
38、nitio, Hitachi,Infobright :远见者 Actian,Pivotal 第第75页页 各厂商解决方案及产品 TeradataSAPIBMOracle微软微软其他其他 ETL 及调及调 度度 Teradata 数 据库迁移工具 ETL Automation, 调度 SAP集成平台 (XI Administrato r workbench, 调度 DataStageOracle Warehouse Builder Integration Services Informatica 数据数据 仓库仓库 Teradata 数 据库 SAP数据仓库 (BW),OLAP DB2Oorac
39、le Oracle Express,OLAP SQL Server Analysis Services, OALP racleracle 展现展现 及分及分 析析 业务浏览器组 件(Business Explore Suite) 包括查询、分 析、web、发布。 Cognos SPSS Oracle Reports Oracle Discoverer Reporting Services MSTR SAS 数据数据 管控管控 Teradata 元 数据 管理应用、 数据质量管理 应用 主数据管理 (MDM) Common Warehouse Metadata(CWM) JAVA定制开发 .NE
40、T定制开发 门户门户 Teradata Portal SAP企业门户 (Portal) Oracle Portal PerformanceP oint Services JAVA定制开发 .NET定制开发 第第76页页 管理管理业务 前台分析后台 知识体系 保险实务保险实务 SQL编程编程分析工具分析工具DW设计设计前端工具前端工具Java编程编程项目管理项目管理 技术(技术(*) 数据库原理数据库原理 数据仓库数据仓库 数据建模数据建模 面向对象程序设计面向对象程序设计 设计模式设计模式 保险原理保险原理 统计学统计学 数据挖掘数据挖掘 项目管理项目管理 软件工程软件工程 第第77页页 参考
41、书 数据仓库(原书第4版) 数据仓库工具箱(第3版):维度建模权威指南 数据仓库工具箱:面向SQL Server2005和Microsoft商业智能工具集 数据仓库设计 数据模型资源手册 第第78页页 日程 技术 知识 基本概念 体系结构 设计方法 技术实现 管理 知识 开发流程 团队角色 开发特点 DW2.0与 大数据 DW2.0 大数据平台 第第79页页 开发过程及相关角色 需求分析阶段系统设计阶段开发阶段测试阶段 数据 探查 分析统计 逻辑 设计数据 模型 设计映射 规则 开发ETL 程序 测试 ETL程序 前端需求分析前端设计开发前端程序 测试 前端程序 集 成 测 试 用 户 测 试
42、 项目经理 技术经理 业务顾问 模型设计师 数据分析师 ETL工程师 前端工程师 Java工程师 第第80页页 Copyright 2002 , Inc. All rights reserved. 各角色责任细分(一) 项目经理 负责协调资源,控制项目进度、质量,达成项目目标。项目的灵魂人物,项目成 败的关键。 应具备的能力 有效计划和分配资源 团结并激励整个团队并使其保持和谐 善于与客户沟通 控制项目范围 风险管理 定期评定项目开发成果并评估每个人员 敢于承认失败并把项目带回正轨 技术经理 负责系统的架构设计,确保各模块能组装到一起。 应具备的能力 系统架构设计经验 第第81页页 各角色责任
43、细分(二) 业务顾问 负责需求调研、分析,解答业务问题,分析指标统计逻辑,协助数据探查及分析。 应具备能力 相关业务经验比最终用户还要丰富 了解行业的标准及发展趋势 了解数据仓库的一些技术实现 善于将业务转化为技术人员所能接受的语言 模型设计师 负责设计数据模型、设计转换规则、数据探查。 应具备的能力 分析并引导用户的需求 对数据库的范式和星型结构熟练运用 设计系统的ER图和数据字典如属性、约束等 善于沟通,能把项目的设计架构清晰的告诉别人 熟悉RDBMS并有良好商业分析能力 第第82页页 各角色责任细分(三) ETL工程师 负责ETL程序的开发。工作量最大。 应具备能力 深入了解就有系统,并
44、理解系统内数据存储 向最终用户的顾问学习业务知识 熟悉各种常用系统的接口和规范 有很强的编码和开发能力最好能熟悉一些常用工具 能够制定计划并使数据的迁移过程自动进行 应该是一个认真仔细的人,脏数据对系统的影响往往能超出一的想象 前端工程师、Java工程师 负责报表程序、JAVA程序的开发。 应具备能力 应该是个完美主义者,用户们喜欢上帝的感受 善于与用户沟通,记住他们是以后的使用者 了解用户才操作上的喜好,投其所好大家都欢迎 有一定的美学基础,漂亮的界面总是让人喜欢,尤其是新用户 要有足够的耐心,某些中国特色的东西很锻炼人的耐力 第第83页页 成长路径 保险实务保险实务 SQL编程编程 分析工
45、具分析工具 DW设计设计 前端工具前端工具 Java编程编程 ETL工程师工程师 前端工程师前端工程师 数据分析师数据分析师 技术经理技术经理 Java工程师工程师 项目经理项目经理 模型设计师模型设计师 项目管理项目管理 业务顾问业务顾问 第第84页页 不同于OLTP系统的开发 基础工作 数据探查 理解数据源:正确写出统计逻辑;正确设计数据转换规则;正确分析数据; 需求分析 统计逻辑不明确 有标准值:直接取用标准值,或分析标准值计算逻辑。 无标准值:自行计算基准值,然后与业务一同核对。不断修正。 成果物:指标卡片 业务部分:业务语言描述;技术部分:SQL描述 系统设计 数据架构、数据模型 开发 ETL开发 用户测试 数据准确性测试 进度取决需求是否明确,不明确的话在这个阶段“补课”,工作量更大。 第第85页页 本质:数据类项目 以数据 为核心 基础 工作 需求 分析 系统 设计 开发 测试 第第86页页 关于逻辑确认:越早越好 确定一版统计 逻辑 提取指标值 核对指标(抽 样、明细) 分析差异原因 需求分析阶段测试阶段 第第87页页 日程 技术 知识 基本概念 体系结构 设计方法 技术实现 管理 知识 开发流程 团队角色 开发特点 DW2.0与 大数据 DW2.0 大数据平台 第第88页页 传统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 旅游行业景点评级标准
- 手术中的电生理监测
- 自制礼物课件教学课件
- 河南省2024九年级语文上册第二单元8就英法联军远征中国致巴特勒上尉的信课件新人教版
- 慢病调理中心介绍
- 消防演练总结讲评
- 农业物联网导论
- 感恩课件英文教学课件
- 玉米灰斑病病害循环
- 气管切开烧伤病人的护理
- (完整版)译林版四年级上册Unit7单元测试
- 水上作业危险源辨识与技术控制措施
- 吊索具检查记录表
- 商务接待申请表
- 最新少先队基础知识竞赛题库(含答案)
- 卫生院在全院实行工作日午间禁酒的规定
- 蓝色卡通幼儿园关爱眼睛主题班会
- XX镇 2022年度温室大棚项目可研报告范本
- 各种能源排放因子
- 护士值班及交接班制度测试卷附答案
- 船体结构介绍课件
评论
0/150
提交评论