版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第1页页数据仓库基础信息技术部 开发三处 徐景春第第2页页日程第第3页页日程:技术知识 基本概念 体系结构 设计方法 技术实现第第4页页背景:数据处理的发展历程文件方式文件方式l数据与程序混杂l管理复杂l并发问题l一致性问题数据库数据库OLTP处理交易l统计类需求l数据源繁杂传统数据仓库传统数据仓库OLAP处理分析l性能问题l非结构化数据l实时说明说明l不是“替代”关系l本文档重点介绍“传统数据仓库”DW2.0大数据平台大数据平台第第5页页OLTP与OLAPOLTPl处理交易l流程l运转OLAPl分析数据l数据l记录、观察第第6页页数据仓库定义 Data warehouse is a sub
2、ject oriented, integrated,non-volatile and time variant collection of data in support of managements decision. Inmon,1996数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。第第7页页数据仓库其他定义 Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delive
3、rs data to end-users on an integrated platform . Ladley,1997 是一组方法、技术、工具 Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure. Appleton,1995Haley,1997Gardner 1998 是一个过程第第8页页四个特征Inmon,1996 面向主题主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤 确定主题 确定每个主题所包含的数据内容每个主题由一组关系表实现,相关表通
4、过公共的键码关联(如:客户ID)主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清洗)代码、粒度、结构 非易失的(不可更改的)批处理增加,仓库已经存在的数据不会改变 随时间变化键码都包含时间项,以标明数据的历史时期第第9页页面向主题第第10页页集成第第11页页非易失的(不可更改的)第第12页页随时间变化第第13页页Data Mart、ODS、ETL Data Mart数据集市小型的,面向部门或工作组级数据仓库。Inmon:部门级仓库,数据仓库数据的部分拷贝Kimball:数据仓库的组成部分,构成数据仓库 Oper
5、ation Data Store操作数据存储支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境四个基本特点 面向主题的(Subject -Oriented) 集成的 可变的 当前或接近当前的 ETL数据抽取、转换、装载(Extract/Transformation/Load)第第14页页元数据、分割、粒度 元数据关于数据的数据。用于构造、维持、管理使用数据仓库。 分割数据分散到各自的物理单元中去,它们能独立地处理。 粒度指数据仓库的数据单位中保存数据的细化或综合程度的级别粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多粒度影响数据仓库中数据量的大小粒度问题是设计数据仓库
6、的一个重要方面在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻度综合),做分析第第15页页BI的由来 商业智能(Business Intelligence,简称BI)最早是由美国Gartner Group于1996年提出的。当时将其定义为一类数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。 数据仓库、OLAP、数据挖掘总是纠缠在一起,交流太麻烦,统称为BI,不仅如此,以后不用DW/OLAP/DM,BI也不会过时。 本文没有严格区分数据仓库和BI第第16页页日程:技术知识 基本概
7、念 体系结构 设计方法 技术实现第第17页页体系结构的重点 重点问题:数据的获取、存储和使用数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse DatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolData Staging:数据处理区域,为了实现ETL过程的临时存储第第18页页体系结构 Pieter,
8、1998SourceDatabasesData Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisEnd-UserDW ToolsCentral DataWarehouseCentral DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal
9、MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS第第19页页带ODS的体系结构SourceDatabasesHub - Data Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisCentral Data War
10、e-house and ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-UserDW Tools第第20页页小结:体系结构ETL数据获取数据仓库数据存储分析数据使用元数据管理调度管理数据标准管理数据质量管理门户数据源用户第第21页页数据获取:ETL 职责
11、负责将数据从源系统提取到数据仓库中 功能去掉操作型数据库中不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值 关键问题增量数据获取异常处理 异常捕获、异常处理非功能需求 如何复用代码 性能:是否使用存储过程、如何转换 易用性:并行开发、维护第第22页页增量数据获取方式 时间戳源表有时间戳字段,记录新增、修改、删除更新时间戳字段 触发器源表中创建触发器,通过触发器捕获数据的增、删、改 数据库日志对事务数据库的日志文件进行分析,获取变化的数据 Hash值通过比对记录的hash值,识别出变化的数据 业务日期根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,
12、收付费表的实收日期,保全生效日等 CDC组件Change Data Capture 改变数据捕获存量数据增量1增量2ETL插入数据仓库修改删除第第23页页CDC整体连接示意图q CDC FOR ORACLE 连接核心Oracle数据库作为数据源q CDC FOR DATASTAGE 让数据源的增量数据落地成数据文件,作为目标端q CDC FOR ACCESSSERVER 连接 CDC FOR ORACLE和CDC FOR DATASTAGE 并提供用户管理第第24页页如何选择增量获取方式第第25页页数据存储:数据仓库 职责负责存储数据 功能快速存取,适应变化 关键问题4个基本特征的数据集合数据
13、架构:分哪几层数据模型:每层如何存储数据数据流向第第26页页数据使用:分析 职责负责数据的使用、分析、展现 常见方式报表:常规的制式固定报表OLAP:联机分析处理数据挖掘即席查询自助查询第第27页页联机分析处理(OLAP) 是针对特定问题的联机访问和分析 通过对信息的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许分析人员对数据进行深入观察 概念变量是数据的实际意义,描述数据是什么维是人们观察数据的特定角度维的层次是维在不同细节程度的描述维成员是维的一个取值多层次维的维成员是各层次取值的组合对应一个数据项,维成员是该数据项在该维中位置的描述多维数组可以表示为(维1,维2,变量),如(
14、地区,时间,销售渠道,销售额)多维数组的取值称为数据单元(单元格) 可以理解为交叉表的数据格第第28页页第第29页页钻取和上卷第第30页页旋转第第31页页示例:钻取-操作第第32页页示例:钻取-效果第第33页页基于多维数据库的OLAPMOLAP 以多维方式组织数据(综合数据) 以多维方式显示(观察)数据 多维数据库的形式类似于交叉表,可直观地表述一对多、多对多的关系如:产品、地区、销售额 关系 多维 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构 以关系数据库存放细节数据、以多维数据库存放综合数据第第34页页MOLAP架构第第35页页基于关系数据库的OLAPROL
15、AP 以二维表与多维联系来表达多维数据(综合数据)星型结构事实表,存储事实的量及各维的码值(BCNF)维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余)事实表通过外键与每个维表相联系雪花、星座、雪暴 模拟多维方式显示(观察)数据第第36页页ROLAP架构第第37页页MOLAP与ROLAP MOLAP计算速度较快支持的数据容量较小缺乏细节数据的OLAP多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构以关系数据库存放细节数据、以多维数据库存放综合数据 ROLAP结构较复杂以关系模拟多维支持适当细节的OLAP较成熟 HOLAP是以上两种的综合第第38页页数
16、据挖掘(Data Mining) 探测型的数据分析 发现信息、发现知识 基于人工智能、机器学习、统计学 由计算机自动智能地分析数据,获取信息,作出预测或帮助决策 需要算法的支持和机器的环境第第39页页数据挖掘的常用方法 决策树方法利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树的节点,再根据该属性字段的不同取值建立树的分支在每个分支子集中重复建立下层节点和分支 关联分析为了挖掘出隐藏在数据间的相互关系支持度/置信度作为输入的条件,进行筛选、分析 序列模式分析类似与关联分析着重于分析数据的前因后果 分类分析对于不同分类的数据进行分析,找出他们的规律、特征 聚类分析是分类的逆
17、过程根据数据特征,进行分类第第40页页数据挖掘与OLAP 都属于分析型工具DM是挖掘型工具DM试图自动地发现隐藏在数据中的模式或规律OLAP是验证型工具OLAP更多地依赖于用户的输入和假设 两者相辅相成,互补以DM挖掘潜在的模式、预测未来趋势以OLAP来验证DM的结果第第41页页调度管理 职责负责监控、管理ETL程序(ETL程序类型通常会有所扩展)的执行。 功能调度策略(定时、依赖关系)调度监控手工处理 其他扩展:分布式,总分间的数据传输ETL工具有相关功能定制开发第第42页页元数据管理 职责负责元数据的管理 应用场景第第43页页元数据分类-Alex Berson etc, 1999 业务元数
18、据定义:给用户易于理解的信息主题区和信息对象类型,包括查询、报表、图像、音频、视频等维度、指标、报表 技术元数据定义:为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。数据源信息转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问等 数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法第第44页页示例:元数据管理模块的逻辑架构第第45页页数据管控系统建设制定流程技术支撑第第46页页日程:技术
19、知识 基本概念 体系结构 设计方法 技术实现第第47页页设计方法从顶层、抽象角度,数据仓库的建设方法可分为:自顶而下,自底而上。从系统架构设计角度,数据仓库作为一个系统,其架构设计应包括的内容。如:系统定位、模块组成及相互关系、各模块的架构设计等。数据存储是数据仓库建设的核心问题,因此数据架构的设计更值得关注。包括数据层、数据流向、数据模型。第第48页页方法论:自顶而下 构建企业数据仓库(EDW)Common central data modelData re-engineering performed once最低限度减少数据冗余和不一致性明细历史数据,全局数据查找 基于EDW构建数据集市(
20、DM)和部门相关的数据仓库子集几乎是汇总级数据直接依赖EDW的数据局部数据集市外部数据局部数据集市操作型数据企业数据仓库第第49页页方法论:自底而上 创建部门的数据集市(DM)范围局限于一个主题区域快速的 ROI - 局部的商业需求得到满足本部门自治 - 设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门 需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法 扩大到企业数据仓库(EDW)创建EDW作为一个长期的目标局部数据集市外部数据操作型数据 (全部)操作型数据(局部)操作型数据(局部)局部数据集市企业数据仓库第第50页页系统架构设计 体系结构 架构5视图第第
21、51页页数据架构示例:参考数据架构第第52页页参考数据架构的说明 分层是从逻辑角度划分的,并非物理上的 整合层、通用语义层、应用层是可灵活组合的 数据流向并非严格的顺层流动 整合层的主流行业概念模型(EDW)IBM IIWTeradata FS-LDM (Financial Service Logical Data Model)第第53页页数据模型(逻辑模型) 数据模型模型是对现实世界进行抽象的工具。在数据仓库系统中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从
22、逻辑模型到物理模型的转换过程。 现实世界概念模型逻辑模型计算机世界信用特性属性 列(字段、数据项)张三个体实体记录客户整体同质总体表文件客户与产品整体间联系异质总体数据库第第54页页模型设计方法 第三范式建模(Third Normal Form简称3NF) 定义:(1)第三范式设计必须满足以下条件,每个属性的值唯一,不具有多义性;(2)每个非主属性必须完全依赖于整个主键,而非主键的一部分;(3)每个非主属性不能依赖于其他关系中的属性。 优点:数据冗余少;抽象程度高、信息高度集成;支持应用灵活; 缺点:数据获取效率较差;建设难度大;周期较长; 维度建模(Star-Schema) 定义:维度建模是
23、一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实 (Fact),它们一般都是数值或其他可以进行计算的数据。 优点:信息显性化,因此运行效率较高;周期较短,容易见效; 缺点:数据冗余大;对信息跳跃性较强的应用支持不够理想;第第55页页模型设计方法:第三范式建模 Bill Inmon 先生系统地阐述了企业级数据仓库的定义及体系结构,被誉为数据仓库之父。 其核心观点认为数据仓库应该从构建高度抽象的企业数据模型开始。
24、 特点:v是一种数据驱动方法;v以3NF建模为基础;v着眼公司中、长期目标;v建成后系统具备较好的 适应性和扩展性。ETL产品渠道客户保单客户流失渠道分析产品分析保费分析数据源业务收付外部ETL数据仓库数据集市第第56页页模型设计方法:维度建模 Ralph Kimball 先生作为数据仓库体系结构的最早实践者,在数据仓库的建设方面做了大量的工作,其业务维度生命周期方法指引了世界范围内众多数据仓库项目的实施。 业务维度生命周期方法的突出贡献是采用了一致的维度与事实的概念来构建数据仓库总线结构。 特点: 是一种需求驱动方法; 以维度建模为基础; 实施周期短,见效快; 实施风险较低 维度模型可理解性
25、 让所有事项尽可能简单,但是又不能简单得过了头 模型要保留“源”有信息,有价值与元价值信息都要保留; 反规范化维度层次结构设计是维度建模提高查询性能保障; 每个维都是一个等效的事实表入口点; BI展现工具多维立方体是维度建模完善体现; 维度模型扩展易用性;数据仓库数据源业务收付外部ETL一致的维度下的数据集市保费分析客户留存渠道分析产品分析第第57页页维度模型VS规范化模型n规范化模型规范化模型描述业务的逻辑关系消除冗余,解决数据的一致性问题模型灵活、稳定如果数据源没有企业数据模型控制,ETL抽取很难n维度模型维度模型易于理解因为冗余,性能好易于访问多维模型在满足用户需求方面是非常高效的,但是
26、灵活性不好整合层通用语义层集市层第第58页页数据模型的评估数据数据模型模型集成性集成性管理性管理性性能性能扩展性扩展性可用性可用性完整性完整性支持BI应用 扩展支持数据源扩展支持模型自身扩展快速扩展支持各类BI应用涵盖保险业务各环节参考主流行业模数据型安全管理支持数据的维护数据生命周期管理易于理解设计合理优化BI应用性能优化ETL性能结构集成内容集成主题集成扩展集成集成可操作增量策略模型管理制定标准和规范第第59页页维度建模相关概念第第60页页维度基本概念:以日期维度为例 主键 维度属性每一字段,列 成员每一行 层次关系(路径)年、半年、季度、月、日日期标识日期年半年季度月日星期周描述旬描述年
27、天数假期农历年农历月201501012015年年1月月1日日2015年年上半年上半年1季度季度1月月1日日星期四星期四第第1周周上旬上旬1元旦元旦腊月腊月十一十一201501022015年年1月月2日日2015年年上半年上半年1季度季度1月月2日日星期五星期五第第1周周上旬上旬2工作日工作日腊月腊月十二十二201501032015年年1月月3日日2015年年上半年上半年1季度季度1月月3日日星期六星期六第第1周周上旬上旬3周末周末腊月腊月十三十三201501042015年年1月月4日日2015年年上半年上半年1季度季度1月月4日日星期日星期日第第2周周上旬上旬4周末周末腊月腊月十四十四维度属性
28、代理键成员层次关系层次关系第第61页页维度特点 观察的角度 包含丰富的维度属性,即很多列,且带有描述性质 维度属性用于查询约束条件、报表标签、分组汇总 丰富的维度属性带来丰富的分析能力 “维度表是进入事实表的入口” 理论上不必有代码,如果用户很熟悉代码则可加 通用性:日期、机构、险种、渠道、第第62页页缓慢变化维(SCD) Slowly Changing Dimensions 背景在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题。 处理缓慢变化维的方式TYPE 1:第
29、一种方式是直接覆盖原值。这样处理,最容易实现,但是没有保留历史数据,无法分析历史变化信息。TYPE 2:第二种方式是添加维度行。这样处理,需要代理键的支持。实现方式是当有维度属性发生变化时,生成一条新的维度记录,主键是新分配的代理键,通过自然键可以和原维度记录保持关联。TYPE 3:第三种方式是添加属性列。这种处理的实现方式是对于需要分析历史信息的属性添加一列,来记录该属性变化前的值,而本属性字段使用TYPE 1来直接覆盖。这种方式的优点是可以同时分析当前及前一次变化的属性值,缺点是只保留了最后一次变化信息。第第63页页示例:SCD 维度展业机构 业务键展业机构代码(AgentGroup) 代
30、理键展业机构ID(AgentGroupID) 类型2BranchattrBranchtypeBranchtype2 逻辑当上述3个维度属性的值发生变化时,增加一条记录第第64页页代理键可以保证源系统的变化不会对BI系统产生影响可以允许BI系统整合多个源系统中的数据可以允许在维度表中加入不存在的行提供了一种跟踪维度属性随时间变化的方法使用整型的代理键在关系库、多维库中是高效的方法,提高系统查询和处理性能,减少了事实表本身的大小代价:ETL的性能耗费根据成员个数选择smallint、int、bigint第第65页页退化维度、杂项维度 退化维度维度除了主键以外没有其他维度属性。没有维度表如订单号 杂
31、项维度(junk dimension)通过创建一个抽象的维度将多个低基数的标志位合并以将其放到维度体系中第第66页页星型模型 以事实表为中心,加上若干维表,组成星型数据模式。事实表存放基本数据,第第67页页雪花模型 维一般是由若干层次组成 把维按其层次结构表示成若干个表 规范化、节省存储空间 但需多做连接操作第第68页页事实表 事务型事实表事务发生时,每个事务记录一行,不需要更新维度:事务日期例子:支付事实表、收费事实表 周期快照型事实表周期性快照,不需要更新维度:快照日期例子:待发货、有效保单、有效人力 累积快照型事实表一个事件一行,由多个步骤组成,步骤发生时更新维度:关键步骤的多个日期例子
32、1:购买(订购日期、付款日期、发货日期、收货日期)例子2:承保(申请日期、暂收日期、核保日期、签单日期、核销日期)第第69页页示例:维度与事实第第70页页设计过程第第71页页示例:总线矩阵、一致性维度第第72页页日程:技术知识 基本概念 体系结构 设计方法 技术实现第第73页页技术实现硬件操作系统数据库ETL工具报表工具开发工具中间件逻辑分析工具第第74页页Gartner 2015 数据仓库和分析市场魔力象限:领导者Teradata,Oracle,IBM,微软,SAP,惠普:挑战者MapR Technologies,Cloudera,1010data,AWS:特定领域者Exasol,MarkL
33、ogic,Kognitio,Hitachi,Infobright :远见者Actian,Pivotal第第75页页各厂商解决方案及产品TeradataSAPIBMOracle微软其他ETL及调及调度度Teradata 数据库迁移工具ETL Automation,调度SAP集成平台(XIAdministrator workbench,调度DataStageOracle Warehouse BuilderIntegration ServicesInformatica数据数据仓库仓库Teradata 数据库SAP数据仓库(BW),OLAPDB2OoracleOracle Express,OLAPSQ
34、L ServerAnalysis Services,OALPracleracle展现展现及分及分析析业务浏览器组件(Business Explore Suite)包括查询、分析、web、发布。CognosSPSSOracle ReportsOracle DiscovererReporting ServicesMSTRSAS数据数据管控管控Teradata 元数据 管理应用、数据质量管理应用主数据管理(MDM)Common Warehouse Metadata(CWM)JAVA定制开发.NET定制开发门户门户Teradata PortalSAP企业门户(Portal)Oracle PortalP
35、erformancePoint ServicesJAVA定制开发.NET定制开发第第76页页管理管理业务前台分析后台知识体系保险实务保险实务SQL编程编程分析工具分析工具DW设计设计前端工具前端工具Java编程编程项目管理项目管理技术(技术(*)数据库原理数据库原理数据仓库数据仓库数据建模数据建模面向对象程序设计面向对象程序设计设计模式设计模式保险原理保险原理统计学统计学数据挖掘数据挖掘项目管理项目管理软件工程软件工程第第77页页参考书 数据仓库(原书第4版) 数据仓库工具箱(第3版):维度建模权威指南 数据仓库工具箱:面向SQL Server2005和Microsoft商业智能工具集 数据仓
36、库设计 数据模型资源手册第第78页页日程第第79页页开发过程及相关角色集成测试用户测试 项目经理 技术经理 业务顾问 模型设计师 数据分析师 ETL工程师 前端工程师 Java工程师第第80页页各角色责任细分(一) 项目经理负责协调资源,控制项目进度、质量,达成项目目标。项目的灵魂人物,项目成败的关键。应具备的能力 有效计划和分配资源 团结并激励整个团队并使其保持和谐 善于与客户沟通 控制项目范围 风险管理 定期评定项目开发成果并评估每个人员 敢于承认失败并把项目带回正轨 技术经理负责系统的架构设计,确保各模块能组装到一起。应具备的能力 系统架构设计经验第第81页页各角色责任细分(二) 业务顾
37、问负责需求调研、分析,解答业务问题,分析指标统计逻辑,协助数据探查及分析。应具备能力 相关业务经验比最终用户还要丰富 了解行业的标准及发展趋势 了解数据仓库的一些技术实现 善于将业务转化为技术人员所能接受的语言 模型设计师负责设计数据模型、设计转换规则、数据探查。应具备的能力 分析并引导用户的需求 对数据库的范式和星型结构熟练运用 设计系统的ER图和数据字典如属性、约束等 善于沟通,能把项目的设计架构清晰的告诉别人 熟悉RDBMS并有良好商业分析能力第第82页页各角色责任细分(三) ETL工程师负责ETL程序的开发。工作量最大。应具备能力 深入了解就有系统,并理解系统内数据存储 向最终用户的顾
38、问学习业务知识 熟悉各种常用系统的接口和规范 有很强的编码和开发能力最好能熟悉一些常用工具 能够制定计划并使数据的迁移过程自动进行 应该是一个认真仔细的人,脏数据对系统的影响往往能超出一的想象 前端工程师、Java工程师负责报表程序、JAVA程序的开发。应具备能力 应该是个完美主义者,用户们喜欢上帝的感受 善于与用户沟通,记住他们是以后的使用者 了解用户才操作上的喜好,投其所好大家都欢迎 有一定的美学基础,漂亮的界面总是让人喜欢,尤其是新用户 要有足够的耐心,某些中国特色的东西很锻炼人的耐力第第83页页成长路径保险实务保险实务SQL编程编程分析工具分析工具DW设计设计前端工具前端工具Java编
39、程编程ETL工程师工程师前端工程师前端工程师数据分析师数据分析师技术经理技术经理Java工程师工程师项目经理项目经理模型设计师模型设计师项目管理项目管理业务顾问业务顾问第第84页页不同于OLTP系统的开发 基础工作数据探查 理解数据源:正确写出统计逻辑;正确设计数据转换规则;正确分析数据; 需求分析统计逻辑不明确 有标准值:直接取用标准值,或分析标准值计算逻辑。 无标准值:自行计算基准值,然后与业务一同核对。不断修正。成果物:指标卡片 业务部分:业务语言描述;技术部分:SQL描述 系统设计数据架构、数据模型 开发ETL开发 用户测试数据准确性测试 进度取决需求是否明确,不明确的话在这个阶段“补课”,工作量更大。第第85页页本质:数据类项目第第86页页关于逻
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑防腐工程延期协议书
- 赞助合同案例
- 农村建房工程合同样本
- 离婚协议书中教育投资规划
- 增强现实行业关联交易管理办法
- 2024年度互联网医疗服务平台建设与运营合同
- 城市大型学校周边道路改造合同
- 城市绿化景观养护施工合同
- 商用面包车出租合同范本
- 科技别墅租赁合同
- 企业如何利用新媒体做好宣传工作课件
- 如何培养孩子的自信心课件
- 中医药膳学全套课件
- 颈脊髓损伤-汇总课件
- 齿轮故障诊断完美课课件
- 2023年中国盐业集团有限公司校园招聘笔试题库及答案解析
- 大班社会《特殊的车辆》课件
- 野生动物保护知识讲座课件
- 早教托育园招商加盟商业计划书
- 光色变奏-色彩基础知识与应用课件-高中美术人美版(2019)选修绘画
- 前列腺癌的放化疗护理
评论
0/150
提交评论