数据仓库解决方案_第1页
数据仓库解决方案_第2页
数据仓库解决方案_第3页
数据仓库解决方案_第4页
数据仓库解决方案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、深圳太极云软技术股份有限公司2016 年 1 月目录(一)概述3一. 国内信息化的现状 3二. 以应用驱动,数据仓库建设应由后向前规划 3三. “想大做小”(整体设计、分布实施) 4(二)系统架构5数据仓库架构6系统功能架构7(三)数据仓库建设方法8数据仓库建设8大步骤91. 系统分析,确定主题 92. 选择满足数据仓库系统要求的软件平台 103. 建立数据仓库的逻辑模型 104. 逻辑数据模型转化为数据仓库数据模型 115. 数据仓库数据模型优化 126. 数据清洗转换和传输 137. 开发数据仓库的分析应用 148. 数据仓库的管理15(四)系统功能详细介绍 16企业数据门户 16主题分析

2、17即席查询18多维分析工具19ETL工具19报表工具21(一)概述一. 国内信息化的现状1. 信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进 行建设,过一段时间, 如果有新的业务推出, 就再建设一个新的系统, 或在原系统的基础上增加新的业务处理。 这样的结果使每个系统和系 统之间缺少真正的信息沟通和信息交换。 。 。2. 为何要建立数据仓库:根据现状业务系统各自为政, 相互独立。当很多业务系统建立后, 由于领导的要求和决策的需求, 需要一些指标的分析, 在相应的业务 系统基础上再增加分析和相应的报表功能, 这样每个系统就增加了报 表和分析功能。 但是,由于数

3、据源不统一导致了对同一个指标分析的 结果不相同。为了解决该问题,为了分析和决策的需要,将相互分离 的业务系统的数据源整合在一起, 可以为领导和决策层提供分析和辅 助决策。 。 。 。 。 。 。 。二. 以应用驱动,数据仓库建设应由后向前规划数据仓库到底应该怎么建设 ?我一贯的主张是应用驱动。什么样 的应用呢?应用是应考虑政府管理的现状和决策层最关心的问题入 手。分利用现有信息系统资源,进一步细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执 法诚信、科学考核评价和提升管理精度, 最终使群众的合法权益得到 保护,实现权力有效监督和提升政府效能。通过分析经济发

4、展、卫生 健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全 避险、资源环境、社保就业、财税金融、法律服务等这些主题的分析 是否可行,应该先进行评估。这样从应用主题入手,就可以知道需要 什么样的数据, 来自那些业务系统和数据源, 这些数据的全体进行一 定的整合,按照分析的要求存储就组成了一个个数据集市( Data Mart )。 。 。 。 。 。 。 。三. “想大做小”(整体设计、分布实施) 为了避免原有业务系统相对独立而形成的一个个信息孤岛,以应 用驱动建设数据仓库, 往往会造成新的信息孤岛。 这是因为应用往往 是部门级的或者是某一方面的应用,不能完全覆盖企业级的所有应 用。当

5、然我们这里不提倡一次建设的应用。如何避免这个问题,是我 这里着重要要强调的。这里分两种情形进行设计,系统作用 。 。 。 。1. 整合业务数据 在各业务系统中,数据不流通,形成信息孤岛,商业智能解决方 案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一 决策界面。 。 。 。 。 。2. 支撑决策从数据中分析企业发展趋势, 挖掘新的机会方法, 根据数据决策,提高决策的及时性及准确率。3. 提供管理效能,量化办事效率基于系统分析内容,管理者能了解细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执 法诚信、科学考核评价和提升管理精度,最终使群众的合法权

6、益得到 保护,实现权力有效监督和提升政府效能。(二)系统架构|离线报表多维分析即席查询数报表统十数据挖掘决策管理 |预测分析数据管理层元 数 据 管 理数据清洗、转换、加载数据交换I相关业务单位系统架构图在建立数据仓库,数据仓库按主题域存储各业务数据。数据来源主要是政府管理结构的不同业务管理系统。通过数据交换平台定期采集各管理机构的业务数 据,后台数据处理工具 ETL 抽取、清洗数据,并加载入数据仓库中架构于数据仓库上的系统功能主要包括大数据门户、 专题主题分析、 即系查 询、多维分析、 自助报表的功能模块, 通过这些功能模块为管理者获取数据和分 析数据提供简单易用、 功能强大的方法, 为管理

7、者决策及提升管理精度, 最终实 现权力有效监督和提升政府效能。 。数据仓库架构数据仓库是一个建设过程,而不是产品。数据仓库是通过对来自 不同的数据源进行统一的处理及管理, 通过灵活的展示方法来帮助决 策支持。 。 。 。 。数据获取层实现如何从所有源系统中获得原始的业务数据,并对其进行一定 的数据处理, 按主题进行数据重组和格式转换, 然后传送并装载到数 据仓库系统中。 。 。 。 。 。数据仓库系统需要从多个源数据系统中抽取和汇总各个业务数 据,这些数据源系统是数据仓库系统的数据来源。把上述数据源系统中的数据按照主题进行划分和组织,然后抽取 并装载到数据仓库系统中。数据需要经过三个过程:数据

8、抽取、数据转换、数据装载。这三 个过程是在保证各个数据源系统与数据仓库系统能够成功连接 (包括 网络协议标准的转换、不同平台之间的接口)的前提下实现的。保证 把来自不同的源数据系统的同类数据的一致性和完整性, 转换完成的 数据装载到数据仓库系统中。 。 。 。 。数据管理层 把数据存储到企业级数据仓库系统中进行集中管理。在数据存 储层,数据是存放在两类数据库中:关系型数据库和多维数据库。数 据存储是数据仓库系统的中心。 取自多个数据源系统的明细数据, 以 及用于分析的集成汇总数据都存储在这个中心。 它在逻辑上是一个完 整的库。 。数据使用层 把数据仓库系统中的数据和分析结果提供给最终用户。按照

9、用 户的分析需求、使用报表、 随即查询、多维度分析和数据挖掘进行数 据展现。 。 。 。 。数据输出层的功能是使最终用户通过报表、图形和其他分析工具 的方式简便、快捷地访问数据仓库系统中的各种数据,得到分析结 果。提供多种数据分析方法,包括标准报表、即席查询报表、 动态分 析报表、多维分析、趋势预测、假设分析和数据挖掘等。 。 。 系统功能架构多维分析 OLDP 多角度、 立体化、灵活动态的分析业务数据。 产 品简单易用, 无需编写任何的代码, 用户只需要通过语义层的定义就 可以轻松搭建自己的多维数据模型。 。即席查询 统计报表、指标的快速检索,帮助业务分析人员快速获 得所需要的数据和统计信息

10、。数据门户 Data Portal 进行统一展现,展现方式包括仪表盘、表 格、报表、日历等内容,并支持用户个性化定制内容、指标等功能, 实现真正的个性化服务。 数据门户中展现的内容是管理者及业务人员 最关注的指标,通过门户为他们获取数据提供最简单容易的方式。 。 主题分析 根据资源的组织,支持数据的深入挖掘和分析应用,跟 踪、监控政策的执行情况及实施效果,让管理层了解细化、量化权力 清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体 行为、记录执法诚信、科学考核评价和提升管理精度,最终使群众的 合法权益得到保护,实现权力有效监督和提升政府效能。 。报表业商业智能系统建设的重要组成部分

11、,主要对企业数据仓库 中整合的各主题域业务数据,按照监督管理要求,面向各级部门,快 速提供准确、全面、灵活的体现政府管理效能等方面实际的数据信息, 为决策支持、业务管理提供有效的数据信息支撑。 。ETL工具:ETL是数据仓库最核心的后台组件,通过对及汇总来 的不同来源数据的抽取、 清洗、加载实现数据仓库中数据的更新及流 转。ETL工具(桥接器),实现了图形化及自动化的方式来配置 ETL 流程,极大的减轻了数据加工的工作量, 提高了数据准确性及处理效 率。 。(三)数据仓库建设方法数据仓库决策分析的业务处理流程主要分为四个阶段。1)数据集中: 各级政府部门业务数据统一汇总数据中心临时 数据存储;

12、2) 数据整理和转换:汇总后的业务数据经过ETL抽取、转换、 加载到数据仓库中;3) 数据存储和管理:对数据仓库数据进行集中存储和管理、 备份和维护;4) 数据挖掘和展现:用户通过前端的展现工具对数据仓库中 数据进行挖掘、钻取和分析,在数据门户展现;数据门户各委办局业务系统抽取决策转换趋势临时存储数据交换平台交换平台加载数据仓库建设8大步骤1. 系统分析,确定主题确定一下几个因素:操作出现的频率,即业务部门每隔多长时间做一次查询分析。在系统中需要保存多久的数据,是一年、两年还是五年、十年。用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。用户所能接受的响应时间是多长、是几秒钟,还

13、是几小时。 。 。 。 。 。 。2. 选择满足数据仓库系统要求的软件平台选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多 因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下 是一些公认的选择标准:厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。数据库对大数据量( TB 级)的支持能力。数据库是否支持并行操作。能否提供数据仓库的建模工具,是否支持对元数据的管理。能否提供支持大数据量的数据加载、转换、传输工具( ETT)。能否提供完整的决策支持工具集,满足数据仓库中各类用户的需 要。3. 建立数据仓库的逻辑模型具体步骤如下:(1)确定建立数据仓库逻辑模型的基本方法

14、。(2)基于主题视图, 把主题视图中的数据定义转到逻辑数据模型中。(3)识别主题之间的关系。(4)分解多对多的关系。 。 。日时总編导 1仃怕叮七姓名ChirflCtCft(1Q)由址Chawctef*(iQ)电匡Characters(15)积分NumberVIPBoolean主标示軒DateTimeNumbeF(10.2)目录 Ldha Inteaer 日卿搁Dale & Tim电预付童顶Dedmal (6.2)Decimal (E.2)1C录诉号Number (10)生标识需商昭廂ULon口 1门怕口凶TextLong characars (20) 日期Date & TimsNumber

15、(6.2)(5) 用范式理论检验逻辑数据模型。(6) 由用户审核逻辑数据模型。4. 逻辑数据模型转化为数据仓库数据模型具体步骤如下:(1) 删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。(2) 增加时间主键:数据仓库中的数据一定是时间的快照,因此必 须增加时间主键。(3) 增加派生数据:对于用户经常需要分析的数据,或者为了提高 性能,可以增加派生数据。(4) 加入不同级别粒度的汇总数据:数据粒度代表数据细化程度, 粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因 素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显

16、然,粒度级别越低,贝y支持的查询越多;反之,能支持的查询就有限。PK序WIT iibU寸 fH 1*hFl*PKuFKl PK.FIC3 P#C. FK3 PIC.FK 斗 PiCPFIC5農E至!91III阳厂mHI严无?H Fii r- e m严m m尸AL楞严站10MCr owt増共i titr5. 数据仓库数据模型优化数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也 需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是:合并不同的数据表。通过增加汇总表避免数据的动态汇总。通过冗余字段减少表连接的数量,不要超过 35个。用ID代码而不是描

17、述信息作为键值。对数据表做分区。-2. 323 159, 4S-0. 02,32, U 00 . 59 48Al A3 . . . A1 15T1T3Al A2 A3 A12CT1T2T3T2OO0T14566. 数据清洗转换和传输由于业务系统所使用的软硬件平台不同, 编码方法不同,业务系统中 的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数 据仓库中数据的一致性。在设计数据仓库的数据加载方案时,必须考虑以下几项要求:加载方案必须能够支持访问不同的数据库和文件系统。数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。支持各种转换方法,各种转换方法可以构成一个工作流。

18、支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。7. 开发数据仓库的分析应用建立数据仓库的最终目的是为业务部门提供决策支持能力, 必须为业 务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。信息部门所选择的开发工具必须能够:满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各 个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户 只是简单的分析报表,有些用户则要求做预测和趋势分析。提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表 现,支持复杂的图表。使用方式上,可以是客户机 /服务器方式,也 可以是浏览器方式。事实上,没有一种工具能够满足数据仓库的

19、全部分析功能需求, 一个 完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑 多个工具之间的接口和集成性问题, 对于用户来说,希望看到的是一 致的界面。8. 数据仓库的管理只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项 目的失败。数据仓库管理主要包括数据库管理和元数据管理。数据库管理需要考以下几个方面:安全性管理。数据仓库中的用户只能访问到他的授权范围内的数 据,数据在传输过程中的加密策略。数据仓库的备份和恢复。数据仓库的大小和备份的频率直接影响到 备份策略。如何保证数据仓库系统的可用性,硬件还是软件方法。数据老化。设计数据仓库中数据的存放时间周期和对过期数据的老 化方

20、法,如历史数据只保存汇总数据,当年数据保存详细记录。然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。在数据采集阶段,元数据主要包括下列信息:源数据的描述定义:类型、位置、结构。数据转换规则:编码规则、行业标准。目标数据仓库的模型描述:星型/雪花模型定义,维/事实结构定义。源数据到目标数据仓库的映射关系:函数 / 表达式定义代码:生成转换程序、自动加载程序等。在数据管理阶段,元数据主要包括下列信息: 汇总数据的描述:汇总 / 聚合层次、物化视图结构定义。 历史数据存储规则:位置、存储粒度。多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义 等。在数据展现阶段,元数据主

21、要包括以下信息:报表的描述:报表结构的定义。统计函数的描述:各类统计分析函数的定义。结果输出的描述:图、表输出的定义。 元数据不但是独立存放, 而且对用户是透明的, 标准元数据之间可以 互相转换 。(四)系统功能详细介绍企业数据门户企业实施商业智能、数据仓库的目的之一为整合各系统的业务数 据,统一指标口径,实现统一视图、统一决策界面。企业数据门户功 能主要对整合的业务数据进行统一展现, 展现方式包括仪表盘、 表格、 日历等内容。数据门户中展现的内容是管理者及业务人员最关注的指 标,通过门户为他们获取数据提供最简单容易的方式。 数据门户中 展现的内容根据用户角色不同而有所差异, 每个用户都可以定

22、制自己关注的内容,实现真正的个性化服务。系统截图:Mum恥计划宣蓟1弋醇*n*评比tMflttlULLft1714-ig9ft 理-tom9M是2 2MJL12-2 iZj?2 24*airttiftZE”解MMiSw倆杯f.1Wf 5*AmX4411 *4驚11OlAim1404-if 4$%l&tt”占曲鼻肝;百*门4曲1用日标轉讯筋厲叶武ik收人纵向对tt日耐樹4耳莒址收扎白酣聒BnW12AI3KMW9MeJiltii2345Ts*5*.w专D叶林1112IS1:415I71J161252627?aM30sanscTfipioi1W仏心何苗Topm河再10.|日

23、i *月昭计:岂対*6克|專计fftt:fl S II4K主题分析数据仓库中的业务数据通常是面向主题进行组织的。主题分析是 在较高层次上将企业信息系统的数据进行归并、抽象,形成对分析对 象的一个完整的描述,体现分析数据之间的相互关系,揭示数据规律 和问题。 。 。 。主题分析模块从主题域的角度入手,支撑数据资源的组织,支持 数据的深入挖掘和分析应用, 跟踪、监控政策的执行情况及实施效果, 倒逼行政权力部门认真履职、规范执法、优化服务 , 努力提高政府效 厶匕能。 。 。 。 。 。 。考虑到国情特点和现状,主题分析涵盖了经济发展、卫生健康、 教育科技、道路交通、机构团体、生活服务、文体娱乐、安

24、全避险、 资源环境、社保就业、财税金融、法律服务量等八个主题域相关的主 题分析功能。 。即席查询即席查询针对数据仓库内的各主题数据、 统计报表、 指标的快 速检索,帮助分析人员快速获得所需要的数据和统计信息。 即席查询 工具通过提供各种向导式界面、图形查询生成器、联机帮助等功能, 为系统使用人员提供细粒度数据。 。 。即席查询是分析人员的重要的辅助工具,它是在数据仓库的信息 组织基础上,尽可能多的在后台按照分析人员关心的分析角度沉淀业 务知识,在前端功能上屏蔽后台查询技术细节, 为分析人员提供灵活 的业务分析查询角度定制和结果定制功能, 使分析人员在分析汇总数 据的同时能够通过即席查询进一步深

25、入到自己感兴趣的细节数据中, 以便更全面地反映情况,做出正确决策。 。 。多维分析工具多维分析是商业智能的核心技术,可以帮助用户进行多角度、立 体化、灵活动态的分析。多维分析报表由“维” (影响因素)和 “指 标”(衡量因素)组成,能够真正为用户所理解、并真实的反映国情 特性信息。I -J I * I II LJ、BI- 多维分析工具简单易用,无需编写任何的代码,用户只 需要通过语义层的定义就可以轻松搭建自己的多维数据模型。 同时具 有灵活的分析功能、 直观的数据操作和分析结果可视化表示等突出优 点,从而使用户对基于大量复杂数据的分析变得轻松而高效, 以利于 迅速做出正确判断。 它可用于证实人

26、们提出的复杂的假设, 以图形或 者表格的形式来表示的对信息的总结。 。 。 。多维分析工具专门设计用于支持复杂的分析操作,侧重对决策人 员和高层管理人员的决策支持, 可以根据分析人员的要求快速、 灵活 地进行大数据量的复杂查询处理, 并且以一种直观而易懂的形式将查 询结果提供给决策人员, 以便他们准确掌握企业 (公司)的经营状况, 了解对象的需求,制定正确的方案。 。 。 。ETL工具ETL负责将分散的、异构数据源中的数据如关系数据、平面数据 文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据 仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环,它

27、是承前启后的必要的一步。 。ETL工具纯java编写,可以在 Window Linux、Unix上运行,绿色无需安装,数据抽取咼效稳疋。功能强大、灵活,使用简单ETL 平台麹据 抽驭调度(ETL平台架构)数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据转换主要用于解决数据不一致性问题, 数据加载就是将从数据源系统中抽取、 转换后的数据加载到数据仓库 系统中。ETL流程管理调度是ETL过程中的统一调度者和指挥者,它 把复杂的数据处理过程中各个步骤整合成一个整体。异常数据处理机 制指源数据系统中的数据本身出错并发生变更后,对于正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一套 机制。系统截图:耳日It出:忻(ETL界面切图)产品特色:(1) 支持 MYSQL/ORACLE/MSSQLSERVER/DB2/AC达梦等多种数据库;(2) 支持 Windows/Linux/Solaris/AIX 等多种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论