数据仓库系统的设计及开发_第1页
数据仓库系统的设计及开发_第2页
数据仓库系统的设计及开发_第3页
数据仓库系统的设计及开发_第4页
数据仓库系统的设计及开发_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1数据仓库系统的设计及开发数据仓库系统的设计及开发2022年5月3日22.3.数据仓库设计数据建模最佳实践构建高性能的数据仓库数据仓库设计ETL设计数据仓库设计建模过程日程安排数据仓库设计界面设计数据仓库的开发应用过程2022年5月3日31)能够很好的分离出底层技术的实现和上层业务的展现2)当上层业务发生变化时,通过数据模型,底层技术实现可以较为轻松的完成业务的变动,从而达到整个数据仓库系统的灵活性1)能够全面了解业务系统的业务架构图和整个业务运行情况2) 能够将业务按照特定的规律进行分门别类和程序化1) 建立全方法的数据视角;2)保证整个企业的数据的一致性;3)消除各个部门之间的信息孤

2、岛;2022年5月3日42022年5月3日52022年5月3日62022年5月3日72022年5月3日82022年5月3日9业务建模组织结构分析2022年5月3日102022年5月3日星期二112022年5月3日12业务建模业务流程分析2022年5月3日132022年5月3日142022年5月3日152022年5月3日162022年5月3日172022年5月3日182022年5月3日19数据仓库数据模型-星型模型与雪花模型2022年5月3日202022年5月3日212022年5月3日222022年5月3日23为模型设计、数据提取、数据展现等多个方面奠定基础2022年5月3日242022年5月3

3、日252022年5月3日262022年5月3日272022年5月3日282022年5月3日29比较项目比较项目优点优点缺点缺点星型模式1.查询效率高,事实表作连接时其速度较快;2.便于用户理解。比较直观,通过分析星形模式,很容易组合出各种查询增加了存储空间雪花模式1.在一定程度上减少了存储空间2.规范化的结构更容易更新和维护1.比较复杂,用户不容易理解;2.浏览内容相对困难3.额外的连接将使查询性能下降2022年5月3日30明细帐单表1PK account_datePK user_idPK account_idPK item_id item_fee item_favour明细帐单表2PK ac

4、count_datePK user_idPK account_id base_fee toll_fee message_fee other_fee .2022年5月3日312022年5月3日322022年5月3日332022年5月3日342022年5月3日352022年5月3日36n混合模式2022年5月3日37数据仓库建模_案例2022年5月3日382022年5月3日39服务通过网络实现 /网络支持服务网络产生事件 /事件包括网络类产品被销售给客户 /参与人使用和管理产品跟踪应付&应收/提供成本&收入历史事件包含财务类参与人产生和经历事件 /事件包括参与人的产品/服务产生事件 事件包括产品类

5、营销产生事件事件实现营销营销被锁定位置 /位置定位营销针对特定产品 /产品通过营销推向市场为参与人建立帐户、帐单 /记录帐户、成本和付款服务使用的帐务信息 /帐务记录产品的成本和付款定位网络/网络支持的位置营销的目标针对参与人 /参与人是营销的受众包括消费者和运营商在内/ 位置定位Finance Management(财务管理)BILLING(帐务)NETWORK(网络资源)PRODUCT(产品)MARKETING(市场营销)LOCATION(地域)PARTY(参与人)EVENT(事件)跟踪总帐/负责2022年5月3日40基 本 结 构特 征奖 励隐 私 参与人主题描述了和电信运营商有着业务联

6、系的 任何个人、企业、组织、团体等。 2022年5月3日41参与人间关联 参与人角色组织层次结构层次结构级别层次结构类型商业组织内部组织标准分类代码参与人:和电信运营商有着业务联系的任何个人、组织机构、家庭和虚拟客户 。例:财务市场营销网管例:客户潜在客户电信运营商代理商供应商管理者雇主职工个人家庭组织参 与 人2022年5月3日42特征符合程度特征类别值客 户 特 征帐 户 特 征特 征 类 别例:个人喜好信用类信息家庭类信息教育类信息职业类信息机构类信息 例:信用等级职业状态收入子女数教育程度特 征 分 组完全符合部分符合不符合2022年5月3日43奖励计划管理参与人角色奖励目标客户群目

7、标 群奖 励 等 级奖 励 类 型参与人奖励历史记录奖 励 计 划奖励计划:记录电信运营商向客户提供奖励和回报的历史。2022年5月3日44隐私信息类别同意周期组织隐私策略信息参与人帐户隐私信息帐户同意等级信息参与人同意等级信息参与人隐私信息隐私信息类别2022年5月3日452022年5月3日46数据仓库建模_案例实践2022年5月3日47n目前我们国家的社保主要分为养老,失业,工伤,生育,医疗保险和劳动力市场这 6 大块主要业务领域。n在这 6 大业务领域中,目前的状况养老和事业的系统已经基本完善,已经有一部分数据开始联网检测。n对于工伤,生育,医疗和劳动力市场这一块业务,有些地方发展的比较

8、成熟,而有些地方还不够成熟。? 请大家思考并简单描述社保行业的数据仓库模型:大致的业务模型大致的概念模型2022年5月3日482022年5月3日492022年5月3日50通过领域概念模型细化逻辑模型 每一个抽象的实体,例如:“人”的属性包括年龄,性别,受教育程度等等。 各个抽象实体间的联系。例如:对于养老金征缴这个“事件”的属性得考虑,对于失业劳动者培训这个“事件”的属性得考虑等等。 找出抽象事件的关系,并对其进行说明。例如:对于“事件”中的地域,事件等因素的考量等等。建议:可以参考 3NF 的建模方法,表达出实体的属性,以及实体与实体之间的联系。例如:在这个阶段,我们可以通过采用 ERWIN

9、 等建模工具等作出符合 3NF 的关系型数据模型来。2022年5月3日51完成物理模型 生成创建表的脚本。不同的数据仓库平台可能生成不同的脚本。 针对数据集市的需要,按照维度建模的方法,生成一些事实表,维表等工作。 针对数据仓库的ETL车和元数据管理的需要,生成一些数据仓库维护的表,例如:日志表等。注:根据业务实际的需要和自己对抽象能力的把握来创建适合自己的数据模型2022年5月3日522022年5月3日532.3.数据仓库数据模型星形与雪花最佳实践构建高性能的数据仓库数据仓库设计ETL设计数据仓库设计建模过程日程安排数据仓库设计界面设计数据仓库的开发应用过程2022年5月3日542022年5

10、月3日55n数据流和工作流的考虑2022年5月3日562022年5月3日57抽取策略- 每日增量- 每日全量- 每月增量- 每月全量抽取策略- 全表覆盖- 历史加载- 直接追加- 主表加载-初始加载-其它加载2022年5月3日582022年5月3日592022年5月3日602022年5月3日612022年5月3日622022年5月3日632022年5月3日642022年5月3日652022年5月3日662022年5月3日672022年5月3日682.3.数据仓库数据模型星形与雪花BI项目设计开发的最佳实践数据仓库设计ETL设计数据仓库设计建模过程日程安排数据仓库设计界面设计数据仓库的开发应用过

11、程2022年5月3日692022年5月3日70某运营商KPI系统目标 以最方便的形式让各级领导对考核指标完成情况进行浏览分析 采用良好方式实现常用指标的关联展示,更加符合业务人员的分析逻辑 采用树型菜单对个体分散指标进行分类展示组织,提高指标分析的操作的便捷性 详细编写各业务指标的统计口径,让用户可以方便查询和检索2022年5月3日71KPI系统指标体系2022年5月3日72数据准确性刷新/上载数据的频率 (定期)数据下钻能力访问控制KPI系统关键性关键性:低高KPI分层KPI系统主要功能2022年5月3日73KPI系统框架和关键功能2022年5月3日74KPI系统首页界面2022年5月3日7

12、5树状的目录力求简单,清晰,操作方便,减少用户的点击切换环节过程。KPI系统树状目录结构2022年5月3日761.简单明了的KPI指标往往成为管理者和普通市场人员最关注的对象2.领导的聊望台3.滚动指标告警指标列表区首页或结果展示区 滚动指标告警区KPI系统首页界面2022年5月3日77增强指标之间的关联性,对若干指标的内在联系,进行归类对比展示,以多种图形方式进行多角度地展现。KPI系统界面12022年5月3日78lKPI指标主要展现此项指标在时间上的对比,例如,上月当日,历史同期,环比等。lKPI指标按业务分析逻辑有机排列,方便业务人员对比观看。lKPI在表格上增加趋势的展现,分为三种,“

13、平稳”,“升高”,“降低”点击以后将展示最近一周的趋势KPI系统界面22022年5月3日792.数据仓库数据模型星形与雪花BI项目设计开发的最佳实践数据仓库设计ETL设计数据仓库设计建模过程日程安排数据仓库的开发应用过程数据仓库设计界面设计2022年5月3日80ExternalDataODSCentral DataWarehouseDataMartDataMart2022年5月3日81DataMartDataMartCentral DataWarehouseExternalDataODSpartpartpartpartpartpart2022年5月3日822022年5月3日832022年5月3

14、日84异2022年5月3日85收集记录业务需求确定业务对象确定数据分析场景确定功能需求理解客户的业务环境理解基础架构环境理解数据环境 差异分析 需求分析识别业务主题领域识别数据差异识别基础设施差异识别资源的差异理解客户环境 三个任务可以重叠进行 2022年5月3日862022年5月3日872022年5月3日882022年5月3日892022年5月3日90体系结构设计接口设计应用程序模块设计数据源层数据后端处理层数据仓库及其管理层数据集市层数据仓库应用层数据展示层数据源与分析模型的接口分析模型与应用的接口2022年5月3日91分析设计实施需求分析需求分析风险分析风险分析方案设计方案设计POC实施

15、实施UAT发布发布环境准备环境准备Scope系统功能系统功能目标分析目标分析系统性能系统性能环境环境所带来的风险所带来的风险分析分析可以容忍可以容忍的见险的见险关键流程关键流程的定义的定义确定组织架构确定组织架构方案设计方案设计(技术框架(技术框架/流程流程)数据备份方案数据备份方案时间窗时间窗环境环境(DB/TOOL/DATA)源代码源代码/POC数据数据POC报告报告CUT计划测试计划测试/用户用户测试测试数据备份数据备份系统观察系统观察系统发布系统发布Bug Fix项目建设方法论2022年5月3日92923 May 20222022年5月3日93933 May 20222022年5月3日

16、94943 May 20222022年5月3日95M0M1M2M3M4M5M0.5M1.5M2.5M3.5M4.5注:在大约项目启动后2个月,POC阶段将完成,也即最初的原型构建,用户可以得到一个阶段性的Release,下一步的项目实施及集成测试将以迭代的方式实现。2022年5月3日96阶段阶段输入输入输出输出项目启动 - 评估SOW/方案建议书/迁移评估问题清单评估计划,迁移方案, 原始系统检查报告项目启动 - 项目计划项目实施方案,当前环境和业务需求,数据和属性,适用的实施工具项目计划,质量计划,风险管理计划,配置管理计划,单元测试案例(持续更新),集成测试案例(持续更新)POC源代码,P

17、OC数据,原始系统检查报告,实施方案实施模块,POC测试结果,POC经验总结,实施方案(更新),模块实施步骤报告迁移源代码,POC数据,原始系统检查报告,迁移方案实施的ETL脚本,数据模型,数据代码,迁移测试脚本,模块实施步骤报告集成测试测试计划,测试案例,基准版本,质量计划已测试应用,测试报告,测试案例(更新)发布已实施应用Release Note用户验收测试(UAT)验收测试计划验收测试报告Roll Out已迁移应用部署计划,培训材料2022年5月3日972022年5月3日982022年5月3日992.数据仓库数据模型星形与雪花BI项目设计开发的最佳实践数据仓库设计ETL设计数据仓库设计建

18、模过程日程安排数据仓库的开发应用过程数据仓库设计界面设计2022年5月3日1002022年5月3日101 应用查询,统计的支持(Query) KPI 固定报表 OLAP 数据挖掘 专题分析 即席查询 经营分析报告/策划查询性能更应该被优先保证查询性能更应该被优先保证!空间换取时间的优化思想依然适用空间换取时间的优化思想依然适用!2022年5月3日102非规范化是一项高级设计技巧!OLTP系统也有,但OLAP需要更多,而且是核心!2022年5月3日103分表技术与非规范化技术类似只应用在物理模型中!2022年5月3日1041、业务驱动数据仓库模型设计 2、仓库内数据分层3、合理选用3NF、混合、

19、星型、雪花及宽表模式Data Warehouse (Hybird)ODS (3NF)OLAP ModelMining ModelReport ModelAnalysis(Star Schema、宽表)Data WarehouseODSAnalysisparallel loaderQuery数据仓库设计需要艺术地处理性能与灵活性之间的矛盾2022年5月3日105dw_call_city_ymddw_call_msSample: WeekItemStore1/7/90111/14/9013123344. . . . .1/7/901/7/901/7/901/7/901/7/901/7/901/7/

20、901/14/901/14/901/14/901/14/901/14/901/14/901/14/901111334453413324245351201112. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2022年5月3日1062022年5月3日107纯净目标数据文件(含修复数据)错误数据文件格式化文件输出格式化文件输出格式化但错误众格式化但错误众多的数据源文件多的数据源文件错误核查修复错误核查修复指示文件指示文件映射文件映射文件数据稽核修复引擎数据稽核修复引擎稽核报告2022年5月3日108SourceDatabas

21、esData ExtractionCentral DataWarehouseTransformation, loadDataCleansingToolRelationalAppl. PackageLegacyExternalCentralDataWarehouseCode FilesData FilesAutoDimensionEngineMap FilesWarehouseAdmin.ToolsParallelExtractDataModelingToolCentralMetadataDataQualityEngine2022年5月3日1092022年5月3日1102022年5月3日1112

22、.3.数据仓库设计数据建模最佳实践构建高性能的数据仓库数据仓库设计ETL设计数据仓库设计建模过程日程安排数据仓库设计界面设计数据仓库的开发应用过程2022年5月3日1121)能够很好的分离出底层技术的实现和上层业务的展现2)当上层业务发生变化时,通过数据模型,底层技术实现可以较为轻松的完成业务的变动,从而达到整个数据仓库系统的灵活性1)能够全面了解业务系统的业务架构图和整个业务运行情况2) 能够将业务按照特定的规律进行分门别类和程序化1) 建立全方法的数据视角;2)保证整个企业的数据的一致性;3)消除各个部门之间的信息孤岛;2022年5月3日1132022年5月3日1142022年5月3日1152022年5月3日116服务通过网络实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论