数据仓库实施步骤与关键成功因素_第1页
数据仓库实施步骤与关键成功因素_第2页
数据仓库实施步骤与关键成功因素_第3页
数据仓库实施步骤与关键成功因素_第4页
数据仓库实施步骤与关键成功因素_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库实施步骤与关键成功因素一、数据仓库实施方法论?规划解决方案支持数据仓库管理(处理流程与操作)物理数据库设计数据转换应用开发数据挖掘服务设计与实现支持与增强解决方案体系结构设计元数据管理数据仓库评估应用增强逻辑数据模型回顾物理数据库回顾性能调整容量规划解决方案集成定制解决方案规划详细数据分析解决方案准备就绪解决方案实施建议现成解决方案规划数据仓库策略开发业务探索业务探索解决方案定义逻辑数据模型设计修改逻辑数据模型验证解决方案数据仓库的循环过程3/16/20022数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成项目具体实施步骤项目前期准备业务探索信息探索逻辑数据模型二、项目具体实施步骤1.项目前期准备2.业务探索(BusinessDiscovery)3.信息探索(InformationDiscovery)4.逻辑数据模型设计5.系统体系结构设计6.物理数据库设计7.数据转换加载ETL8.前端应用开发9.数据挖掘服务10.元数据管理11.数据仓库管理(处理流程与操作)12.解决方案集成(测试验收与试运行)3/16/200232.1项目前期准备主要任务:–项目启动会议(Kick-offMeeting)–确认项目范围和主要目标–确认项目阶段性验收及总体验收标准–确认项目实施计划–成立项目组–确定各项目小组的成员及各自的工作职责–确定各项目小组的阶段性工作目标–确定教育训练计划–确定服务流程及方式

交付项目:《项目组织机构》《项目人员组成》

项目前期准备业务探索信息探索逻辑数据模型3/16/200242.2业务探索(BusinessDiscovery)主要任务:–确定重点用户与数据源–用户需求调研与确认–数据源确认–用户需求和数据源的筛选和分析交付项目:《业务需求说明书BRL(BusinessRequirementList)》《概念数据模型CDM(ConceptualDataModel)》

项目前期准备业务探索信息探索逻辑数据模型3/16/200252.3信息探索(InformationDiscovery)主要任务:–分析用户需求–数据源分析–进行工具评估–系统安全性设计–系统命名规范设计交付项目:《功能需求列表FRL(FunctionRequirementList)》《系统安全性设计说明书》

《系统命名规范说明书》《数据质量分析》项目前期准备业务探索信息探索逻辑数据模型3/16/200262.4逻辑数据模型设计主要任务:–进行原始数据分析–建立实体模型–建立实体间依赖关系–完善并填入所有属性–建立数据库逻辑模型利用工具:

ERWin交付项目:数据仓库逻辑数据模型LDM《逻辑数据模型说明书》项目前期准备业务探索信息探索逻辑数据模型3/16/200272.4逻辑数据模型概念逻辑数据模型是用来发现、记录和沟通业务的详细“蓝图”基于概念数据模型(CDM)由一系列表和实体详细描述组成通用的业务语言便于业务与业务之间的功能理解集成当前和未来数据的蓝图独立于技术为物理数据库设计作准备是IT人员和业务人员沟通的工具发现属性发现关系发现实体1.业务规则2.ER图3.ERA建模3/16/200282.4逻辑数据模型(LDM)示例3/16/200292.5系统体系结构设计主要任务:对业务、技术环境及企业文化的充分了解,从技术、组织、教育和支持等方面对系统进行全面评估定义业务驱动力定义数据仓库成功的关键因素定义数据仓库的实施原则对系统体系结构各个组件进行详细设计交付项目:《系统体系结构设计说明书》数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/2002102.5体系结构设计组件用户类型拓扑结构网络存取与互连组织机构安全性数据体系结构逻辑数据模型元数据数据质量命名规范数据采集与转换用户存取及工具备份系统操作管理3/16/200211主要任务:转换逻辑数据模型(LDM)为物理数据模型定义主索引、次索引非正则化处理(denormalizations)数据库建立设计优化数据库功能测试使用工具:ERWwin交付项目:物理数据模型(LDM)《物理数据模型说明书》《数据库描述语言DDL》2.6物理数据库设计建模方法:

第三范式3NF

星型结构雪花状结构数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/200212概念数据模型(CDM–ConceptualDataModel)主要实体和它们的关系(MajorEntitiesandTheirRelationships)逻辑数据模型(LDM-LogicalDataModel)业务模型加(CDMPlus)

:所有的表及简单的数据(AllTableswithSampleData)辅助的表及简单的数据(MinorTableswithSampleData

)主键与外键的关系(PK&FKRelationships)数据约束(Constraints

)属性(Attributes

)扩展逻辑数据模型(ELDM-ExtendedLogicalDataModel)逻辑数据模型加(LDMPlus)

:存取详细描述(AccessDemographics)数据详细描述(DataDemographics)物理数据模型(PDM-PhysicalDataModel)扩张逻辑数据模型(ELDMPlus):索引(Indices)非正则化(Denormalization)2.6数据模型的演变3/16/200213非正则化的两种类型:物理非正则化派生数据(DerivedData)汇总表(SummaryTables)重复的Groups(RepeatingGroups) 多物理表(MultiplePhysicalTables)预连接(Pre-joins)子实体(Sub-entities)

逻辑非正则化视图(Views)逻辑星型结构(LogicalStarSchemas)物理非正则化对模型的灵活性会有影响逻辑非正则化是一个优选的方法(OLAP实现)2.6非正则化处理

(Denormalization)3/16/2002142.6物理数据模型(PDM)3/16/2002152.7数据转换与加载(ETL)主要任务:数据源及其特性定义数据析取、转换和加载策略设计构建和测试初始加载的程序和处理流程构建和测试日常加载的程序和处理流程40%的工作量在数据转换与加载上使用工具:Teradata

Builder、C、Shell、Perl交付项目:《数据转换加载设计说明书》《数据映射(DataMapping)说明书》

数据转换加载脚本(ETLScripts)

加载流程控制(ETLProcessControl)数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/2002162.7数据清洗方法在源系统上进行清洗(数据析取前)在加载服务器上进行清洗(数据析取后、加载前)在数据仓库里进行清洗(数据加载后)源系统ETL服务器数据仓库SQL,C,ShC,ShSQL3/16/2002172.7数据转换常用手段析取Extracting

条件Conditioning

剔除Scrubbing

合并Merging

浓缩Enrichment

确认Validating

加载Loading

评分Scoring

家庭关系识别Householding3/16/2002182.8前端应用开发主要任务:前端应用体系结构设计OLAP应用设计(Summary/Fact表及Cub的产生)前端应用开发(随机查询、预定义报表、OLAP应用)撰写用户使用手册用户测试验收使用工具:查询报表工具OLAP工具(Brio,Cognos,MicroStrategy…)基于Web的开发工具(InterDev,ColdFusion…)其他开发工具,如:Portal交付项目:《前端应用体系结构设计说明书》《应用模块设计说明书》《用户使用手册》数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/2002192.9数据挖掘服务2.知识应用(KnowledgeDeployment):将发现的知识应用于某种目标,例如进行预测1.知识发现(KnowledgeDiscovery):

发现将数据转变成信息的潜在模式数据知识信息决策与行动3/16/2002202.9数据挖掘方法项目管理知识转移业务理解体系结构和技术准备数据理解和数据准备分析建模和模型评估知识应用DataMiningLabAnalyticServicesTeradataDatabaseDataMining&OLAPAssistsTeraMinerSQL3/16/2002212.9数据挖掘常用算法及应用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关联分析Association市场组合分析套装产品分析目录设计交叉销售3/16/2002222.10元数据管理元数据(Metadata)是指关于数据的数据,即用来描述数据的类型、来源、定义、存储位置,使得业务用户可以正确地使用数据仓库。主要任务:定义元数据使用功能设计元数据环境逻辑结构设计元数据环境物理结构选择合适的元数据管理工具建立元数据仓库(MetadataRepository)建立和测试元数据接口使用工具:TeradataMetadataService交付项目:《元数据管理说明书》数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/2002232.10元数据开发元数据的开发应该包含在数据仓库实施过程的每一步骤中,下图是元数据各部分内容与数据仓库开发过程的对应关系:

3/16/2002242.11数据仓库管理主要任务:设计和开发数据仓库支持体系结构开发和测试数据仓库日常运作流程开发和测试性能监视程序开发和测试数据备份与恢复程序开发和测试安全系统设计和开发操作人员/最终用户培训计划建立用户支持和培训材料使用工具:系统监控工具和管理工具交付项目:《数据仓库管理过程说明书》《数据备份过程设计说明书》《安全管理模块设计说明书》《用户培训计划》及《用户使用手册》数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/2002252.12解决方案集成(系统验收与试运行)主要任务:建立并执行集成测试计划建立并执行数据仓库平台测试计划建立并执行系统验收测试计划移植开发系统到生产系统执行用户培训计划实施数据仓库管理基础设施项目实施完成回顾项目状态交付项目:《数据转换管理系统测试报告》《数据访问和信息发布系统测试报告》《数据仓库平台测试报告》《数据仓库管理过程测试报告》《系统回顾报告》数据仓库管理物理数据模型数据转换应用开发数据挖掘服务系统体系结构设计元数据管理解决方案集成3/16/2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论