数据仓库总体设计报告_第1页
数据仓库总体设计报告_第2页
数据仓库总体设计报告_第3页
数据仓库总体设计报告_第4页
数据仓库总体设计报告_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文档编号产品版本密级1.0共87页数据仓库系统总体设计文档作者:______日期:2023/12/20项目经理:______日期:2023/12/28部门经理:____ 日期:2023/01/08总工办:______日期:2023/01/08

目录TOC\o"1-4"\h\z1 概述 71.1 背景 71.1.1 待开发的软件系统名称 81.1.2 系统的基本概念 81.1.3 项目组名称 81.1.4 项目代号 81.2 术语和缩写词 81.3 设计目的 92 系统设计 92.1 设计原则 92.2 系统结构 112.2.1 子系统划分 112.3 系统数据结构 172.3.1 逻辑结构 122.3.2 层次结构 132.3.3 网络拓扑结构 142.3.4 网络层次结构 162.4 行业特殊需求 172.5 底层数据库(仓库)设计 192.5.1 设计原则 192.5.2 数据现状 202.5.3 数据存储整体规划 212.6 ETL系统 242.6.1 需求规定 242.6.2 运营环境 242.6.3 设计思想 242.6.4 结构说明 252.6.5 解决流程 262.7 系统管理 272.7.1 需求规定 272.7.2 运营环境 282.7.3 设计思想 282.7.4 结构说明 282.7.5 解决流程 292.8 数据展现 302.8.1 需求规定 302.8.2 运营环境 322.8.3 设计思想 322.8.4 结构说明 322.8.5 解决流程 342.9 界面设计 342.9.1 需求规定 342.9.2 主程序界面 342.9.3 重要页面设计 352.10 接口设计 382.10.1 外部接口 382.10.2 内部接口 392.11 安全设计 392.11.1 网络安全 392.11.2 数据库安全 422.12 系统可靠性设计 432.12.1 可靠性 432.12.2 可维护性 432.12.3 可扩展性 442.12.4 健壮性 442.12.5 性能保证 442.12.6 犯错解决 452.12.7 备份与恢复 452.13 运营设计 462.14 相关工具选择 462.14.1 数据库选择 472.14.2 WEB服务器和应用服务器 472.14.3 数据库建模工具 482.14.4 分析型工具 482.14.5 OLAP工具介绍 492.14.6 ORACLE公司OLAP介绍 502.15 开发环境 512.15.1 硬件环境 512.15.2 操作系统 512.15.3 开发语言 522.15.4 数据库系统 522.15.5 中间件系统 522.15.6 应用系统 533 系统调试和测试 533.1 目的 533.2 基本规定 543.2.1 测试计划 543.2.2 测试说明 543.2.3 测试环境建立 543.2.4 测试报告 543.3 应遵循的原则 543.4 测试方法 553.5 测试重点 554 项目进度 564.1 项目资源计划 564.1.1 项目组 564.1.2 数据仓库领导小组办公室 564.2 项目工期计划 564.3 时间进度计划 564.3.1 数据仓库系统需求调查与两会系统 574.4 第一期开发主题 574.5 第二期开发主题 574.6 工作量分派计划 575 小结 586 参考文献 607 附录 617.1 Oracle性能评估报告 617.2 主流WEB服务器比较 657.3 IBM小型机性能评估报告 767.4 具体网络拓扑图及设备清单 787.5 在多层体系结构下建立数据仓库 83

摘要数据仓库系统的建立可以解决传统数据库不能很好提供分析决策功能的问题,可以发掘历史数据中隐含的大量有价值的信息,为国民经济的发展和宏观决策提供大量有效的参考信息。系统数据来源复杂,在数据仓库设计中不能采用常规方法解决问题;主题众多且分析热点会随时间变化而变化,规定主题下所含的信息在一定范围可变;主题下指标也许需要调整等实际情况,这和数据仓库的数据的不可修改性有矛盾;等等。我们结合数据仓库的特点和系统实际情况,提供了一套完整的数据仓库系统的解决方案。整个数据仓库系统从数据采集到数据展现共分为四部分:1、数据抽取、转换、加载;2、系统管理(涉及数据库维护);3、数据展现;4、支撑整个系统的数据库的设计(涉及ETL中间数据库和数据仓库)保证系统具有相称的灵活性。各个部分独立完毕本部分功能,同时紧密协作组成数据仓库系统。数据仓库系统管理与数据导入部分采用C/S模式有针对性的开发;数据仓库系统的数据展现采用流行的B/S模式向用户提供数据查询、决策分析。关键词:指标,主题,数据仓库,联机分析,数据挖掘,决策支持。

概述背景通过2个多月的需求分析调查,拟定了数据仓库系统总体定位(省政府数据仓库是以充足发挥信息的社会作用和经济效益为最终目的)和系统功能需求。现根据需求分析规定和局具体情况,拟定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。省政府局数据具有建立数据仓库系统的基本条件:积累了大量历史数据,这是数据仓库存在的必要条件;随着市场经济的发展,社会各界(如金融投资等领域为了规避市场风险,提高决策的准确度,开发新的市场和利润增长点,挖掘市场潜力)对数据的需求不断增大,社会各界迫切需要运用数据进行决策分析,指导经济建设。省政府数据仓库建设存在以下困难:当前局各个处室没有统一规划的数据库系统;只有少量数据以电子文献形式存在,大部分历史数据保存在纸介质上,到目前为止,建国以来的数据有一般以上以纸介质方式存储;由于我国制度在不断发展完善,指标在不同的历史时期的口径不同,为了使同类指标具有可比性,要拟定不同时期各个指标的调整规则,并对历史数据按规则进行调整,这种调整除了少数指标可以按统一的算法进行以外,大部分调整工作需要人工参与;因此,省政府数据仓库的建设中数据的整理加载工作量极大,ETL(Extract、Transform、Cleaning、Load)工具开发难度大;完善的、与数据仓库系统良好联接的、统一规划的各个处室的数据库系统是据仓库系统的具有长期生命力的基本保障,因此各处室数据库的建设应同步进行。待开发的软件系统名称省政府数据仓库系统系统的基本概念指标:系统的数据以指标为载体,所有的数据都是指标在不同时间,不同地区上的取值,统一指标也许有年度、月度、季度、半年、连续某几个月等时间段的数据,也许有国家、省、地、市、县、乡、村的数据,甚至有居民户、具体公司单位的明细数据,数据仓库中的数据就是这些数据的有机集合。主题:数据仓库中的数据按主题组织,这是由数据仓库以分析决策为重要目的决定的。主题是一个在较高层次上将数据归类的标准,每一个主题相应一个宏观的分析领域。省政府数据仓库是将指标数据按分析主题集成起来,供查询、分析、辅助决策。项目组名称数据仓库项目组项目代号XhnTJDW001-0019术语和缩写词指标:StatisticalParameter数据仓库:DW(DataWarehouse)主题:Subject数据集市:DataMart元数据:MetaData数据抽取、转换、加载:ETL(Extract、Transform、Cleaning、Load)联机分析解决:OLAP(On-LineAnalyticalProcessing)联机事务解决:OLTP(On-LineTransactionProcessing)决策支持系统:DSS(DecisionSupportSystem)数据挖掘:DM(DataMining)应用服务器:AS(ApplicationServer)Web服务器:WebServer设计目的省政府数据仓库系统是以充足发挥信息的社会效益和经济价值为最终目的。将大量事务解决数据库中的数据进行清理、抽取和转换,并按决策主题进行多维重组,在高效的网络平台上充足发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供数据、信息服务,为信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。为省政府局建立一套面向党政领导、专业分析人员、广大社会群众对外发布信息的数据仓库系统。整个系统集数据采集、管理、维护、展现于一体,旨在建立数据仓库后既减轻局工作人员工作量,又能很好的为公众服务。前端数据展现要有通用性,采用浏览器浏览数据,是瘦客户端。后端维护系统要具有高效性,能及时、高效解决、管理数据,功能强大,是胖客户端。数据仓库系统重在建立一个适应分析的系统环境,首期开发“两会”信息征询,公司名录、人口普查、字典、工业经济、农业经济等主题。系统设计设计原则从充足发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供“快、精、准”的信息服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增长和变化的业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。多层结构与传统的客户/服务器结构的区别在于:在传统的客户/服务器两层结构中,用户将实际的业务逻辑放置到客户端(作为对表达逻辑的增补)或放置到后端数据库(作为数据逻辑的一部分包含在存储过程中)。而在多层结构中,用户将业务逻辑放到中间层上。这种模块化方法明确地划分了表达逻辑、业务逻辑和数据存储。多层结构通过将应用逻辑集中到中间层,开发者可以迅速更新业务逻辑,而无需重新将应用递交到成千上万的桌面系统上。提高数据库的性能、改善系统的开放性、可扩展性和数据的安全性,并减少管理的复杂性。结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次化,整个系统由接口定义良好的多个模块组成,每个模块都有具体的功能说明和设计文稿,每个模块完毕相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB服务器等服务器软件系统,选用品有良好平台移植性的B/S和C/S模式下的开发语言开发应用程序和应用中间件,提高应用系统的平台移植性;统一性和多样性相结合。面向用户的各个应用系统,尽量保持统一风格以适应用户的操作习惯,但各个系统根据内容具有各自的特色,整个系统和谐统一,清新明了。自主开发和运用现有工具相结合。尽量运用各成熟的数据仓库系统软件(工具)为数据仓库这个具有特殊性的项目服务,针对具有特殊性的需求,开发特定的系统软件,缩短数据仓库开发周期,减少开发成本,保证系统正常开发。安全性的考虑。系统安全和数据安全是一个网络应用系统应当一方面考虑的问题,数据仓库系统的设计要从网络安全、系统安全、数据安全等各个方面充足考虑,保障系统安全稳定。分散与集中相结合。数据仓库系统是一个非常庞大的系统,所有数据集中存储,但局各处室能分别维护本处室数据,数据仓库根据需要能对系统管理分别设立权限,不同用户维护不同数据。稳定优先,注重效率。数据仓库的海量数据存储和高效查询是一对矛盾,在当今硬件技术不断发展和成本不断减少的形式下,我们优先考虑系统效率,但是在系统稳定性和效率不可兼顾时,以系统稳定优先。。例如在数据仓库设计方面,我们通过逆规范化(引进适当冗余)来提高系统查询效率。以最简朴的方式实现复杂的功能。为提高系统的稳定性和可读性,可维护性,尽量采用简洁易懂的方式实现系统功能,不追求复杂、深奥的算法。系统结构子系统划分整个系统按功能分为四大系统,各系统分别为:数据库系统中间数据库数据仓库ETL系统指标数据抽取子系统指标数据加载子系统系统管理系统ETL管理管理子系统数据仓库管理子系统元数据管理子系统数据展现系统应用服务器子系统WEB服务器子系统OLAP多维分析决策支持分析子系统数据挖掘子系统图形展示子系统报表解决子系统数据导出子系统逻辑结构层次结构整个系统在逻辑上分为三层:原始数据层,中间逻辑层(业务逻辑层、WEB服务层、安全服务层),应用层。原始数据层:以统一规范的方式存储数据;中间逻辑层:解析应用层的业务逻辑,使应用层和原始数据互相独立,提高应用层系统(程序)的可扩展性、可移植性;应用层:面向最终用户,提供和谐、简洁、方便的用户界面,具有良好的业务无关性。网络拓扑结构我们根据以下列出的几点,拟定硬件系统结构:系统已经拥有比较完备的内部网络系统,此系统是全国系统的专用网络。省政府数据仓库系统的数据、信息既可以在系统的网络内最大限度的实现数据共享,又能将可以对公众发布的信息分不同的级别向外界发布。尽也许在网络设计上考虑防止黑客袭击、病毒传播等破坏数据的手段和方式。尽也许运用现有网络系统,涉及系统专有网,公共Internet网,政府办公局域网等。我们设计了一个在物理上可以随时隔离或连接、由两大部分组成的网络系统结构,如下图所示:说明:出于网络安全的因素,将整个网络分为内部网络和外部网络两部分。内部网络与外部网络的系统机构基本相同。外部网络基本上用在对外发布,不涉及保密信息。外部网络需要的发布数据从内部网络中通过ETL工具获得,存放在外部网络的数据仓库中。外部网络通过防火墙、路由器与Internet相连。为保证数据安全,只在外部网络从内部网络抽取数据时,两者才是连通的(且要通过防火墙),其余时间两个网络物理隔离。工作站分别为各个处室的个人PC机,也可以是单独的工作站,功能为向ETL服务器提供仓库所需数据及通过浏览器访问数据仓库数据信息。ETL工具定期从各个处室的数据库系统抽取数据,且ETL服务器兼中间数据库服务器,抽取的数据暂时保存在ETL服务器上,在导入数据仓库之前允许修改。考虑到数据仓库系统决策分析时需要大量数据信息,所以规定互换机容量应为1000M。OLAP服务器和应用服务器结合比较紧密,在实际的应用中共享一台设备。入侵检测系统是一台单独的设备,放在路由之后,起到防止非法入侵的作用。安全隐患扫描系统可以运营在一台高性能的PC机上,提供及时的安全扫描,及早发现问题。具体的硬件配置及全局网络拓扑参见附件:HYPERLINK具体网络拓扑图及设备清单网络层次结构整个数据仓库系统由内而外分为四层: 1、系统内核层:涉及数据仓库服务系统及应用系统。 2、系统安全层: 使用网络安全产品,与局现有网络系统兼容,保护内部数据安全,网上信息传送安全、防止黑客破坏或恶意入侵。3、公共网络层:基于TCP/IP的城域网和广域网(省局目前开通的帧中继网),使用现在已经建成的公共网络将数据、信息、知识发布出去。4、外部应用层:各种数据仓库系统的客户应用系统,通过外部应用系统用户可以获得系统提供的向外发布的各种信息。系统数据结构省政府数据仓库的数据是基于多维建模理论的关系型数据存储方式,采用多星型结构存储维度和事实数据。行业特殊需求主题的增长系统的分析方向众多,涉及社会各界,且热点每年都会发生变化,分析主题会随着社会经济的发展不断有所增长,我们采用自顶向下的设计方法来设计局数据仓库系统,采用自底向上的方式实行,这样每增长一个主题就是建设一个新的数据集市,每个数据集市都是整体数据仓库的有机组成部分,分环节分阶段建成完整的数据仓库,在完整的数据仓库建立起来以后,就可以更快的建立更多的数据集市,满足系统不断增长的主题需求。主题所含指标的修改主题的内容是由指标来体现,主题的分析目的也许在一定的范围内发生变化,起其所包含的指标就会有相应的增长或减少,由于数据仓库采用的是多维方式的数据存储方式,某个主题下指标的增长(减少),只需要在相应的指标维表、事实表中增长(减少)新的数据即可;每个主题在数据库相应一个指标代码表,具体解释主题下所含指标。每个主题相关数据组成一个事实表。这样主题可以很方便增长,且效率比较高,主题下指标可以适当调整。指标数据修改专业事实表(原始数据)专业事实表(原始数据)主题事实表(用户使用数据)数据调整数据更新权限由于数据仓库的数据维护由分散的多个处室在不同的时间进行,为了防止数据的异步操作给系统的数据一致性问题。我们通过数据库操作权限的控制,保证每个指标数据只有唯一的用户拥有更新(增长、删除、修改)权限,但可以有多个用户有查询权限。定期报警定期检测各个处室的数据是否按设计规定及时导入数据仓库,否则以适当方式报警。决策算法的扩展由系统结构的高度模块化实现。跨主题指标的查询通过调整主题指标,减少跨主题指标的查询;临时性的跨主题指标查询,运用全局指标库,从不同的主题事实表中查询。本地文献读写基于C/S模式的应用,将查询分析结果保存在本地是一件很容易的事情,但基于B/S模式的应用,虽然基于安全角度上的考虑,IE限制了ActiveX、JavaScript,、JavaApplet等对本地文献的读写;但对于JavaScript,ActiveX,可以通过配置IE的安全属性,来读写本地文献,当然,这种配置也会带来一些安全隐患,为一些恶意代码对本地文献系统导致破坏提供了机会,就JavaApplet而言,Java安全提供了API和工具集用于向应用程序或JavaApplet“注入”安全。提供细粒度(fine-grained)和可配置的访问控制的架构被内置到核心Java安全体系结构之中,这是通过使用Java2权限、策略文献、访问控制器功能和数字署名实现的。高频指标智能维护系统实现高频指标自适应功能:用户每次查询数据时,数据库自动指标查询次数,系统定期刷新高频指标表,完毕高频指标的自动维护。底层数据库(仓库)设计设计原则数据库设计是整个数据仓库系统的核心,其设计的好坏关系着整个数据仓库系统建设的成败。根据数据仓库系统需求及Oracle9i数据库系统的特性,我们对数据仓库系统的数据库设计应遵循如下设计原则:规范化原则:数据仓库系统是一个数据量大,开发周期长,投入资金大,涉及面广的系统工程。为开发和将来系统维护的方便我们对数据仓库中的所有对象如表空间、数据文献、日记文献、表、视图、索引、存储过程、列,都规定有严格的命名规范简洁性原则:数据库设计尽也许简洁和易理解,对常用的数据集可通过自定义数据类型来实现。高效性原则:数据仓库中的数据达成TB级别,对查询速度的提高是我们考虑的重点,可通过建Index,Cluster,尽也许的用存储过程,允许适当的数据冗余等技术来保证查询效率。灵活性原则:设计要充足考虑主题,指标等的变化合理性原则:数据应在源头输入。数据库的生成和维护应尽量靠近信息源和使用点,使信息按最短的途径存取,以保证信息合理和快速流动。独立性原则:数据库与应用程序严格的互相独立,保证数据的存贮相应用程序的独立性,它的改变不影响应用程序。安全性原则:由于局是国家一级保密单位,其信息对特定的用户有特定的保密规定,我们在设计数据库时要有必要的安全机制设计严格的数据操作权限和级别控制,保证数据不被非法用户访问,数据库不被黑客破坏,如在数据库的主键中加入操作用户的信息等等。数据现状1、数据格式多种多样,一致性较差,并存在数据冗余各个处室使用的数据格式均不相同,有Oracle,dbf,sarp,MITT,Excel,Word,Text格式,且各个系统相对独立。2、数据来源多,但数据存放相对分散,缺少统一管理数据不仅来源于局内部各个专业处室,并且大来源于直报公司和其他相关部门或外部单位的报送。这些数据一般分散存放在各个专业科室的数据库中,缺少集中存放和管理3、数据量很大,但对数据资源的开发运用不充足业务涉及到各行各业和众多公司,指标很多,数据量很大,各级局只能做到将这些数据汇总成为报表、年鉴、县卡,还不能对专业数据进行各种深层次分析、综合、提炼、挖掘。不便于分析、预测。4、偏重于上报报表 在计划经济时期,局的职能重要是为上级机关报送报表;在市场经济时期,局不仅要为上级机关报送报表,并且还要更多地为辅助本级政府宏观决策和公司微观决策及时提供各种信息和情报。新时期对信息的质量提出了更高的规定:为了对复杂的动态环境做出及时响应,现代管理规定在大量的数据中找出有价值的信息和情报作为决策时参考的依据;在决策过程中,一旦需要,决策人员可以不久得到方方面面详尽的信息和情报支持,涉及历史的、当前的、未来的各种信息和情报资源;支持对分布在不同地点的数据或信息进行操作,涉及内部、外部或远程的数据和信息;支持对不同类型和格式的数据或信息进行操作;信息要为更广大的社会用户特别是公司的微观决策提供支持;规定信息资源能实现充足共享与快速交流。数据存储整体规划根据省局数据的特点,数据仓库的数据分为专业数据,主题数据和决策数据数据集市三个层次。这三个数据库层次逐层浓缩,其层次结构如下:各专业数据流专业数据层数据存储层数据集市数据库模型专业数据是从局各处室的数据库系统中抽取,转换,清洗而来的数据;主题数据是从专业数据通过增长一定的列或一定的数据运算、修改等而得到的数据;决策数据各专业数据流专业数据层数据存储层数据集市数据库模型专业数据层建立在相应的子系统中,是为专业子系统服务的。其数据重要是与某专业子系统直接相关的数据。一般与其他专业子系统不发生频繁的数据共享,它的物理位置可以设立在网络服务器上,集中存储,亦可设立在各专业子系统的微机上,呈分布式存储。数据存储层,其数据来源于专业数据层,但这些数据一般不限于某个专业子系统调用,而往往被其他专业子系统频繁地共享,为若干个子系统和领导层提供信息服务。数据集市中存放对整个行业来说,带全局性的计划、技术经济指标,各种和实时数据分析,其数据除了来源于各主题数据库以外,尚有模型库和方法库给予支持,作为领导提供预测和决策的支持。

能源能源工业工业经济决策交通邮电消费生产价格居民家庭收入城市社会经济决策元数据数据仓库数据组成示例

单个主题的数据库逻辑设计地区维表地区维表地区编号地区名称…时间维表时间编号时间名称…专业事实表指标编号时间编号地区编号数据…指标维表指标编号指标名称…时间维表时间编码时间名称…主题事实表指标编码时间编码地区编码数据…指标维表指标编号指标名称…地区维表地区编号地区名称…主题所属指标主题编号指标编号…主题表主题编码主题描述…ETL系统需求规定采用自动加手动的方式导入数据。数据导入以定期自动导入为主,设立到期自动报警功能。各个处室可以在任何时候向ETL服务器导入数据,而只在拟定的时间从ETL服务器向数据仓库导入数据。提供导入数据的接口,直接与各个处室的数据库连接,尽也许运用现有系统数据,减轻各处室工作量。可以与通用的数据文献进行连接,适应各专业处室也许的数据库平台的变更,能导入同种类型的不同格式的数据。运营环境服务端指标数据加载子系统运营于主流UNIX操作系统客户端指标数据抽取子系统运营在高性能PC上,Windows98以上版本操作系统,需要有Oracle客户端支持。设计思想指标数据抽取子系统建立灵活的数据导入方式,直接运用中间件ODBC访问各种数据库系统。建立统一的环境,各个处室在统一的环境下向中间数据库导入数据。通过用户权限区别各个处室应当导入的数据,让不同用户在导入数据时不会发生混乱。指标数据加载子系统程序自动运营的同时引进人工干预,定期启动加载系统,自动进行中间数据库向数据仓库导入数据的工作。建立一个数据导入的环境,各种数据操作按中间数据库模型库中的规定执行。结构说明局各种行业数据不是在统一的时间生成,数据在进入数据仓库之前需要通过大量的运算,为了不影响原有系统的正常运营和保证导入数据仓库数据的对的性与有效性,设立中间数据库。中间数据库起所有数据从传统数据库导入到数据仓库的过渡作用。处室数据存放在不同媒介中,提供手动输入界面、程序自动导入功能、半自动导入等等。接受从局各个处室收集的指标数据,通过抽取、清洗,存放在中间数据库,在特定的时间检查数据仓库需要的数据是否齐全,齐全后一次性加载到数据仓库的专业事实表中。人工输入数据仓库中间数据库自动导入各个处室人工输入数据仓库中间数据库自动导入各个处室数据抽取、清洗、转换、加载过程高度模块化,ETL系统用数据抽取模型从各处室抽取数据、用数据清洗模型清洗数据、用转换模型转换不同类型的数据、用加载模型加载数据到数据仓库。ETL系统是一个体系环境,各种数据操作按中间数据库模型库中的规定执行。维护系统则通过维护中间数据库的模型库达成维护ETL服务器的目的。数据抽取、清洗、转换、加载有以下子系统:指标数据抽取子系统。这个系统又可以称为数据导入。功能:数据抽取、数据清洗。把各个处室不同格式的数据按指标进行抽取、通过清洗后存入中间数据库,允许数据修改。指标数据抽取子系统能收集各种通用格式的数据,提供输入界面手动输入数据。能转换以下几种数据格式:Sybase、Oracle、db2、dbf等可以通过odbc访问的数据库,和Excel数据以及按顺序排列数据的文本文献。各种格式的数据都有相应的模块,这些模块遵循统一数据接口,可以不断增长并辨认新的数据格式。指标数据加载子系统。功能:数据转换、数据加载。把中间数据库所有指标数据通过转换后,加载到数据仓库中。解决流程指标数据抽取子系统通过读取ETL中间数据库中的抽取模型和清洗模型,把各个处室的数据暂存到中间数据库。指标数据加载子系统读取中间数据库中的转换模型与加载模型,把中间数据库的数据加载到数据仓库中。系统管理需求规定数据的维护年度数据至少保存2023以上;进度(月、季、半年度)数据至少保存5年以上;在条件允许的情况下,数据保存尽也许长的时间。历史数据的导出、导入功能。随着指标体系的变化,可以对数据进行少量修改,插入、增长新的数据。对时间跨度很大的普查数据等非时间累加数据按实际需要保存相应年限。对数据要进行备份。指标的维护数据库指标管理、维护,随时间的推移可增长主题下涉及的指标;能适应制度的变化,指标口径(指标含义)能进行适当调整。行政区划代码允许调整。系统的维护设立不同级别用户的维护访问权限。各个处室只有维护本处室相应主题部分的权限。外界用户无权访问维护系统。系统管理具有日记功能。主题的维护随着时间、形式的变化,主题可以增长或减少。分析方法的维护对现有分析方法提供描述,可以对分析方法进行修改。可以增长分析方法。备份数据仓库的备份与劫难恢复功能。运营环境系统运营在高性能PC机上,操作系统为Windows系统。设计思想系统管理系统自主开发。在操作习惯、程序风格上与Windows一致。结构说明系统管理是整个数据仓库系统的保障系统,保障数据仓库系统正常运营。系统管理分为两大子系统:ETL管理子系统、数据仓库管理子系统,分别管理ETL服务器中间数据库系统和数据仓库系统。ETL服务器ETL服务器系统管理指标管理主题管理备份与维护权限管理元数据管理数据仓库ETL管理子系统所有转换规则都存在数据库中,ETL管理子系统通过维护数据库中数据达成维护ETL服务器的目的。维护子系统通过各种可视化和谐界面提供应用户简洁明了维护方式。维护ETL服务器数据抽取模型库,保证从局各处室收集对号入座;维护ETL服务器数据清洗模型,避免垃圾数据进入数据仓库;维护ETL服务器数据转换模型,保证转换的对的性;维护ETL服务器数据加载模型,保持ETL服务器中指标与数据仓库指标的统一。进行ETL服务器数据维护,采用备份与恢复避免中间数据库数据遗失。通过ETL加载子系统提供的接口,控制ETL加载子系统的运营。数据仓库管理子系统元数据管理:管理关于数据的数据,它描述的是数据仓库的数据和环境。元数据分为两类::一类是管理元数据,它是对元数据及其内容,数据仓库主题,数据转换及各种操作信息的描述;另一类是用户元数据,它帮助用户查询信息,理解结果,了解数据仓库中的数据和组织等。决策模型库维护主题库维护数据备份与维护挖掘模型库维护高频数据维护解决流程数据仓库管理子系统:对数据仓库的数据进行定期的自动或手动维护,涉及备份与恢复。元数据分类:技术元数据;商业元数据;数据仓库操作型信息。ETL管理子系统数据展现需求规定查询可以方便的对数据仓库内的所有数据进行检索、查询。能进行任意条件组合查询,并支持模糊查询等具有智能高频指标自适应功能,能根据用户使用的频率,对高频指标表进行自动维护。提供关联指标的搜索功能。导出数据的展现能提供文字说明、简朴图表显示、多种图形(线图、饼图,方柱图等)直观显示(达成两会系统的图形功能)。主栏、宾栏可以互换,可以显示多层表格结构。简朴的运算功能:计算均值、最大值、最小值、求和、发展速度、比重、标准差,可以排序。提供经济地图的直观表达。可以打印报表、图形。提供通用数据格式的查询数据导出功能,涉及文本、dbf库文献、Word文档、Excel表格。所查询出来的表能保存或另存为其他格式文献。提供简朴分析报告自动生成功能。展现结果可通过用户列表形式用E-mail向用户发送,也可进行功能设立,定期自动发送。联机分析(OLAP:On-LineAnalyticalProcessing)可以进行时间序列分析和变量分析。时间序列分析:普通最小二乘法(Ls)带有自回归误差校正项的最小二乘法两阶段最小二乘法加权最小二乘法加权两阶段最小二乘法非线性最小二乘法加权非线性最小二乘法变量分析:主成分分析相关分析判别分析因子分析聚类分析数据挖掘决策支持、数据挖掘子系统可以进行数据钻取、挖掘。可以从分析结果逐步查询到更具体的数据。运营环境服务系统运营在UNIX操作系统下。浏览器运营在采用HTTP协议的任何操作系统下。设计思想尽量选用目前成熟的OLAP多维分析、数据挖掘工具。对有特殊规定的决策支持算法,采用在购买的软件包上进行二次开发。Web页面采用以抽象画为主格调的背景,高雅清新的页面风格。各个主题格调保持基本一致,但各个具体主题的用户界面各有特色,突出各自主题特点。结构说明应用服务器直接与数据仓库交互,解决外界查询请求;WEB服务器完毕和用户的交互,直接为用户提供查询、分析数据,接受用户输入;OLAP服务器与用服务器交互得到大量数据,将对大量数据进行分析计算的结果返回给WEB服务器。提供应用户访问数据仓库的接口,使数据仓库的访问对用户透明,完毕数据从数据仓库中提取后通过运算、分析,用直观的方式展现给用户。数据仓库数据展现报表解决查询数据导出简朴分析报告生成即席查询、排序多种图表直观显示多种决策算法数据仓库数据展现报表解决查询数据导出简朴分析报告生成即席查询、排序多种图表直观显示多种决策算法数据展现采用多种灵活的方式,比如客户/服务器模式或浏览器/服务器模式。我们分为以下子系统:应用服务器是数据仓库与应用系统的统一,使应用系统访问数据不需了解数据仓库设计。OLAP决策分析子系统进行多维分析、运用决策模型进行决策分析。按规定生成简朴文字分析报告。WEB服务器使用户能通过浏览器访问数据仓库,其中还涉及协调控制数据展现系统的各子系统,为用户提供与数据仓库交互界面,解决用户的查询分析请求。报表解决子系统 满足用户对报表的解决、打印请求。数据挖掘子系统 对数据进行分析挖掘。图形展示子系统 对输入的数据进行各种图形展示,输出数据表格、饼图、柱状图、折线图等等。数据导出子系统WEB服务器应用服务器用户浏览器图形展示子系统OLAP决策分析子系统数据挖掘子系统数据导出子系统报表解决子系统WEB服务器应用服务器用户浏览器图形展示子系统OLAP决策分析子系统数据挖掘子系统数据导出子系统报表解决子系统对用户需要导出查询数据时,将需要导出的数据按各种通用格式导出。解决流程数据展现系统采用J2EE技术平台,解决用户对数据仓库的数据访问、运算、展现等问题。接口设计外部接口用户接口数据展现部分采用浏览器的模式与用户交互信息。数据采集、原数据管理系统采用C/S模式与用户交互硬件接口本系统没有特定的硬件接口软件接口ETL系统接口:ETL系统分为指标数据加载子系统和指标数据抽取子系统,指标数据抽取子系统为指标数据加载子系统提供原始数据。指标数据抽取子系统是完全模块化的。各模块完全独立,具有完整的数据抽取、清洗功能,根据不同的源数据类型开发相应的模块,保证现在数据格式有相应的数据采集模块、新增或更换了数据格式,只需添加或修改相应的模块即可,易于维护和升级。因此,指标数据抽取子系统读取数据(数据导入)时,通过ODBC标准接口获得数据。指标数据加载子系统检测客户端提交到中间数据库的数据完整且合符规定期,允许将数据从中间数据库加载到数据仓库专业事实表。系统管理系统接口:系统管理系统分为ETL管理子系统和数据仓库管理子系统,ETL管理子系统通过管理ETL中间数据库的模型库达成管理指标数据抽取子系统和指标数据加载子系统的目的。数据展现系统接口:数据展现有两种形式,一种是静态展现,即将事先定义好的结构和模式将某种结果强制性的展现,另一种是交互式的展现,由用户提出请求后,按用户的实时规定进行展现,数据展现的过程为,用户通过WEB界面提交请求,WEB服务器,将接受的用户请求提交给应用服务器,应用服务器按用户请求,返回的相应数据提交OLAP服务器按指定规定解决或直接送到WEB服务器,展现给用户。因此,WEB服务器提供接受用户请求接口,应用服务器提供访问数据仓库接口,OLAP服务器提供接受数据仓为返回数据接口。其他接口以各个子系统之间的接口为准。通讯接口以各个子系统的接口为准。内部接口以各个子系统的接口为准。安全设计网络安全针对省局内部网的网络、系统现状,特别是因特网出口、数据库服务器等安全薄弱环节,我们制订了具有针对性的安全解决方案,以保证省局的内部网络及数据仓库系统更安全。防火墙黑客一般会运用因特网出口来袭击内部网络。为了将外网(Internet)和内网进行有效的安全隔离,保证内网的安全,在与Internet连接的出口处应安装防火墙。在内部网与Internet连接的出口处安装防火墙有重要意义:(1)保护脆弱的服务:通过过滤不安全的服务,防火墙可以极大地提高网络安全和减少子网中主机的风险。例如,防火墙可以严禁NIS、NFS服务通过,防火墙同时可以拒绝源路由和ICMP重定向封包等。(2)控制对系统的访问:防火墙可以提供对系统的访问控制。如允许从外部访问某些主机,同时严禁访问此外的主机。例如,防火墙允许外部访问特定的邮件服务器和Web服务器。(3)集中的安全管理:防火墙对公司内部网实现集中的安全管理,在防火墙定义的安全规则可以运用于整个内部网络系统,而无须在内部网每台机器上分别设立安全策略。如在防火墙可以定义不同的认证方法,而不需在每台机器上分别安装特定的认证软件。外部用户也只需要通过—次认证即可访问内部网。(4)增强的保密性:使用防火墙可以阻止袭击者获取袭击网络系统的有用信息,如Finger和DNS。(5)记录和网络运用数据以及非法使用数据:防火墙可以记录和通过防火墙的网络通讯,提供关于网络使用的数据,并且防火墙可以提供数据,来判断也许的袭击和探测。(6)策略执行:防火墙提供了制定和执行网络安全策略的手段。未设立防火墙时,网络安全取决于每台主机的用户。推荐产品:NetScreen公司NetScreen-100防火墙。入侵检测运用防火墙技术,通过仔细的配置,通常可以在内外网之间提供安全的网络保护,减少了网络安全风险。但是,仅仅使用防火墙、网络安全还远远不够:(1)入侵者可寻找防火墙背后也许敞开的后门;(2)入侵者也许就在防火墙内;(3)由于性能的限制,防火墙通常不能提供实时的入侵检测能力。入侵检测系统是近年出现的新型网络安全技术,目的是提供实时的入侵检测及采用相应的防护手段,如记录证据用于跟踪和恢复、断开网络连接等。实时入侵检测能力之所以重要,一方面是它可以对付来自内部网络的袭击,另一方面它可以缩短黑客入侵的时间。入侵检测系统通过监控系统事件和传输的网络数据,对可疑的行为进行自动监测和安全响应,使用户的系统在受到危害之前即可截取并终止非法入侵的行为和内部网络的误用,从而最大限度地减少安全风险,保护公司网络的系统安全。推荐产品:网络隐患扫描网络隐患扫描重要是对被检测网络里的设备(比如主机、路由器和互换机等)进行安全检测,找出它们隐藏的安全漏洞,及时对这些漏洞进行修补,从而消除安全隐患。它在网络层扫描各种设备,检查路由器、Web服务器、Unix服务器、WindowsNT服务器、桌面系统和防火墙的安全漏洞,它不仅给用户提供网络的安全状况的清楚图象,使用户了解其网络的安全状况,并对存在的问题和漏洞给予及时的排解和补救,同时还支持用户建立适应性的安全策略和有效地安全模式,为用户提供专业的安全报告,涉及修改建议和专业知识库等。推荐产品:。安全服务网络是动态的,网络安全也是动态的。因此,网络安全并不是只依赖于某些安全产品就能解决的,不也许一劳永逸。它需要合理的安全保障体系和适当的安全产品组合,更需要根据网络系统需求及网络用户的实际情况来规划、设计和实行一定的安全策略,对网络安全状态进行评估,找出公司网络的安全缺陷,实行安全审计和操作,这些都属于安全服务的范畴。安全产品和安全服务历来都是密不可分的。这里指的服务并不仅仅是针对我们产品的售后服务。网络安全服务是一个广义的概念,它是针对服务对象的行业特点、网络安全所面临的威胁和特定的安全需求,为客户量身定制的一揽子解决方案与具体实现,是一项从安全评估与技术征询、方案设计、方案实行、验收到定期安全检测、安全技术培训、应急响应支持的全面的、综合的服务。公司作为一家专业的网络安全服务商,长期以来,一直致力于为客户提供高质量、高效率、高可靠性的解决方案、自主知识产权的安全产品和长期、优质、全面的网络安全服务。我们提供公司级的整体安全策略和解决方案,并基于您的具体需求来保障网络的安全性,对安全事件进行快速响应。服务流程:安全评估与技术征询安全评估与技术征询方案设计客户确认方案实施验收安全技术培训应急响应支持定期安全检测数据库安全1、创建和管理用户建立用户表,设立用户操作功能子系统的范围,根据用户的身份和级别,拟定哪些功能不能访问,哪些功能能访问(功能级限制),或是同一级功能下哪些数据可访问,哪些数据不可访问(信息级限制);2、管理权限和角色运用数据库的用户安全机制,如ORACLE数据库中的数据库管理员(DBA)特权、资源(Resource)特权、连接(Connect)特权等可以分别授予ORACLE用户。(用系统权限来控制用户能否对数据库执行操作。对象权限控制用户能否对单个对象(例如表和视图)执行操作;角色通过将相关的权限集合在一个单一的角色下,使DBA和应用程序开发者能简化权限管理。)3、创建和分派用户配置文献制定用户配置文献Profile,限制用户的行为。限制一组用户可以使用的系统资源。例如,它可以使数据库终止执行了一个小时以上的查询;用Profile可以限制用户对CPU资源的消耗,并且能增强口令的复杂性。Profile也可以定义口令多长时间需要被更新一次等。4、其他数据库内部执行级安全管理,重要有下面几点的结合:用视图限制用户可以查看的数据用触发器阻止越权更新表用存储过程作为管理更新和删除的工具5、数据库扫描数据仓库是省局数据仓库系统中最重要的保护对象,数据库服务器存储了大量敏感的机密数据,是黑客袭击的重点,其安全性至关重要。因此,为数据仓库建立严格的安全防范措施非常必要。数据库扫描是一个针对数据库管理系统风险评估的检测工具。运用它可以建立数据库的安全规则,通过运营审核程序来提供有关安全风险和位置的简明报告。运用数据库扫描器对数据库进行定期的安全检查能大大提高数据库的安全。推荐产品:ISS公司的数据库扫描器(DatabaseScanner)。系统可靠性设计可靠性数据库系统运营在具有高可靠性的UNIX操作系统平台下,保障了系统运营的高可靠性和长期运营的高稳定性;最终数据使用用户通过浏览器获取数据,浏览器自身的可靠性保证了用户软件的可靠性;可维护性数据展现部分采用了B/S模式,只要浏览器正常工作,数据查询用户不需要进行维护,后台系统的维护升级对用户上透明的。数据采集、元数据管理部分功能规定强大,且具有针对性。采用C/S模式,其用户量少,系统维护量相对较小。可扩展性可导入源数据类型的可扩展性:ETL抽取子系统是完全模块化的,增长新的源数据类型只需要开发相应的功能模块,在理论上具有无限扩展性。主题的扩展性和主题下指标的扩展性:参见技术分析部分OLAP分析模式、决策算法的扩展性:采用组件技术和动态联接库。健壮性B/S模式客户端(Browser)的健壮性:IE等浏览器为通用程序,其健壮性由开发商保证C/S模式客户端(Client)的健壮性:通过充足调试、严格测试提高其健壮性数据库系统的健壮性:保障数据库系统的软硬件环境,其健壮性由数据库厂商产品保证中间件系统的健壮性:应用服务器和WEB服务器的健壮性由系统软件生产商产品保证,自主开发的中间件通过精心调试和严格测试来保证性能保证B/S模式速度:优化中间件程序设计,提高其性能、效率;优化数据库设计,提高后台数据库的性能并发性能:中间件产品和数据库系统都有良好的并发控制性能。数据流量控制:限制最多同时使用用户数,适当配置网络参数稳定性:严格单元测试,长时间高负荷系统性能测试犯错解决犯错类别网络连接故障:整个系统由于网络环境的因素,导致不能正常通信。系统连接故障由于系统的问题,或者是人为的操作故障导致各个子系统无法正常联系。ETL系统问题由于人为的制造无效字符、无效数据到临时数据库,导入数据仓库时发生的故障。系统崩溃由于人为的错误、外界因素、系统自身的不完整性等导致数据库系统、应用服务器/WEB服务器发生致命的错误,而影响整个数据仓库系统的正常运营。犯错解决自动报警技术,系统定期检测网络系统和自身系统,一旦发生自身能检测到的错误则发出报警,报警的方式有图象提醒,声音提醒、日记提醒;按备份方案进行系统备份,系统犯错或崩溃后迅速将系统恢复;各个系统保存系统运营日记,保存错误信息,方便解决问题;疑难问题可以从Oracle公司获得征询帮助。备份与恢复建立完善的备份制度明确说明天天的备份以什么方式、使用什么备份介质进行,是系统备份方案的具体实行细则。在制订完毕后,应严格按照制度进行平常备份,否则将无法达成备份方案的目的。数据备份方式备份:备份系统中所有的数据。全备份所需时间最长,但恢复时间最短,操作最方便,当系统中数据量不大时,采用全备份最可靠。量备份:只备份上次完全备份以后增长的数据。分备份:只备份上次完全备份以后有变化的数据。按需备份:根据临时需要有选择地进行数据备份。数据恢复方式劫难恢复:劫难恢复措施在整个备份制度中占有相称重要的地位。由于它关系到系统在经历劫难后能否迅速恢复。劫难恢复操作通常可以分为两类。第一类是全盘恢复,第二类是个别文献恢复。全盘恢复:全盘恢复一般应用在服务器发生意外劫难导致数据所有丢失、系统崩溃或是有计划的系统升级、系统重组等,也称为系统恢复。个别文献恢复:个别文献恢复也许要比全盘恢复常见得多,运用网络备份系统的恢复功能,我们很容易恢复受损的个别文献。运营设计一方面运营数据库服务器,建立后台数据环境;运营应用服务器,提供用户程序访问数据的公共通道;运营WEB服务器,提供浏览器用户程序服务环境;运营(B/S或C/S)客户端程序,完毕数据操作与维护。相关工具选择数年来,系统花大力气建立了数据库,使系统走向信息化道路。目前,已有越来越多的关键性数据存入了数据库。数据仓库的数据量是巨大的,其中数据仓库系统中数据导入工作占整个数据仓库维护工作量的80%以上。据调查,现有省局每年大约产生1000M左右的数据,其中700M左右的数据需要进入数据仓库,要把这700M数据从1000M中分离,且导入数据仓库,这些工作没有高效的工具是无法实现的。由于至少需要存放2023以上的数据才干满足分析规定,这样数据仓库中的数据随时间倍增,数据在短时间内势必达成50G以上。数据仓库需要建立在一个环境之上,由各种功能强大的工具汇集而成。针对省政府数据仓库,从其自身特点出发我们重要选择市面上成熟、具有通用性、对我们项目开发有利的产品。对市面上没有相关通用性的产品,则要有针对性开发。运用现有成熟系统开发数据仓库系统,保障系统稳定性,使系统具有良好的开放型,缩短开发周期,及早见到成效。特别是在数据仓库、应用服务器、WEB服务器选择方面显得尤为重要。在数据仓库最终应用上,决策支持和数据挖掘工具的选择也非常重要,毕竟要在短时间内完毕许多相关算法是非常不容易的,我们可以有选择的使用其他成熟的分析型工具,然后在其他分析工具中集成自己开发的一部分与相关的分析型算法。其数据展现中图形展示改造现有免费源代码,移植到数据仓库中来。数据库选择数据仓库是整个数据仓库系统的核心,如何选择数据仓库、选择如何的数据仓库是我们的第一任务。各个大的数据库厂商都提出了自己的数据仓库系统解决方案,也有自己的数据仓库产品。最终我们选择了Oracle9i为数据仓库,选择的理由是:(具体介绍参见附录:Oracle性能评估报告)我国行业一直使用Oracle作为其数据库系统;Oracle公司的数据库在全球占有率最高;Oracle9i是Oracle公司最新产品,全面支持internet,集成了最新数据仓库技术;Oracle公司应用工具齐全,选择Oracle9i可以运用Oracle公司现有工具,缩短数据仓库系统开发周期,并且保证系统间见的无缝连接。WEB服务器和应用服务器几乎所有的web服务器的内核都是Apache,也许它有些过于庞大、历史悠久,但是其有优秀的性能和大量用户群。Apache源代码是公开的,可以自由使用,它已经成为Web服务器的事实测试标准。Apache以"补丁服务器"而闻名,Apache的初期开发是通过对NCSA的http代码添加补丁程序来进行的。Apache被看做是"补丁服务器"还由于它的模块化特性,该特性实现了Apache的灵活性和可扩展性,并且开发者可以运用该特性很容易地添加第三方功能模块,通过模块开发人员可以添加任何功能,模块是很多内容管理系统的功能基础,如Midgard,Zope等。Apache并不是最快的Web服务器,但具有优秀的功能和稳定性,在很多负载很大的站点中运营非常正常。在使用Webstone进行性能测试中,Apache的吞吐量位居第一,并且犯错最少,在测试中虽然Apache的可扩展性不是最强,但是仍然是提供了如此多特性的服务器中速度最快的。Oracle公司的InternetApplicationServer集成了ApacheWEB服务器,也可以单独使用数据库建模工具我们选择用CA公司的ERWIN位数据建模工具。ERWIN曾多次获得大奖,使用方便、功能强大。ERwin可以方便地构造实体和联系,表达实体间的各种约束关系,并根据模板创建相应的存储过程、包、触发器、角色等,还可编写相应的PB扩展属性,如编辑样式、显示风格、有效性验证规则等。ERwin可以实现将已建好的ER模型到数据库物理设计的转换,即可在多种数据库服务器(如Oracle,SqlServer,Watcom等)上自动生成库结构,提高了数据库的开发效率。分析型工具根据数据仓库的定义和用途,它面向的用户是中高层领导,重要执行决策和趋势分析类应用。但是目前的存储和检索系统与用户对高层次信息的需求之间存在着巨大的鸿沟,原有的DBTOOL对此是无能为力的。解决之道唯有功能强大的分析工具。用户从数据仓库采掘信息时也许有多种不同的方式,但大体可以提成两种模式,即验证型(Verification)和发掘型(Discovery)。验证型重要具有以下工具:可视化工具,可视化工具以图形化的方式展示数据,以便充足运用人类的视觉能力,更方便地发掘数据间的潜在关系。通过可视化工具,人们可以进一步到数据的结构中,了解数据的复杂性和动态性。多维分析工具,联机分析(OLAP),通过OLAP服务器,将来源于关系型数据库的数据转换和抽取为一种新型的数据:多维数据,以反映用户所能理解的公司的真实的维。多维数据的每一个维代表着对数据的一个特定的观测视角,如时间、地区、业务等。发掘型发掘型工具就是在用户不知道会有什么结果的情况下给用户提供一些分析结果,通过可视化工具展现数据,使复杂的数据关系简朴化。发掘型分析工具重要是数据挖掘。数据挖掘一般有以下算法:人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式辨认。决策树:代表着决策集的树形结构。遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。近邻算法:将数据集合中每一个记录进行分类的方法。规则推导:从意义上对数据中的“假如-那么”规则进行寻找和推导。OLAP工具介绍目前对OLAP工具并没有统一的分类标准。大体上,我们可以把OLAP工具提成多维数据库工具(multidimensionaldatabase,简称MOLAP)和关系型OLAP工具(relationalOLAP,简称ROLAP)两大类。多维数据库工具的数据存储不采用传统关系模型所使用的记录、表等方式,而采用矩阵(也许是多维的矩阵)的方式来存储数据。因此需要建设物理存在的多维数据库,由于访问MOLAP的多维数据库时,不再是SQL语句了,因此必须采用新的数据接口。如NCR,SAS,ORACLE公司的产品。ROLAP工具使用关系型数据库来进行多维分析,数据库中的关系表采用数据仓库思想建设。它只需要在本来的数据库中重组关系表,采用数据仓库的思想形成逻辑上的多维,查询速度提高依靠数据整理和概要表、聚合表。ROLAP既可以是与其前台有数据接口也可以直接通过SQL语句访问后台的数据仓库。与多维数据库工具相比,关系型的OLAP工具在数据库层次上有标准的关系模型,有标准的数据访问方式(SQL)及其编程接口,工具与数据库的可互联性比较好。如SYBASE,SQLSERVER,INFORMIX公司的产品。NCR的Teradata是高端数据仓库市场最有力的竞争者,重要运营在NCRWorldMarkSMP硬件的Unix操作系统平台上,提供交互分析、标准报告和多维度分析。为了开拓数据集市(DataMart)市场1998年,该公司也提供了基于WindowsNT的Teradata。总的来看NCR的产品性能很好,但是,NCR产品的价格相对较高,中小公司用户难以接受。SAS/MDDB是SAS用于在线分析的多维数据库服务器;SAS/AF提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);SAS/ITSV(ITServiceVision)是IT服务的性能评估和管理的软件,这些IT服务涉及计算机系统、网络系统、Web服务器和电话系统等。总的来说,SAS系统的优点是功能强、性能高、专长突出,缺陷是系统比较复杂,软件投资较高,并且每年都需交纳License费。ORACLE公司OLAP介绍通过使用OracleExpressObjects、OracleExpressAnalyzer和OracleDiscoverer,公司可以迅速建立和实行数据仓库应用。预制的OLAP应用,即OracleFinancialAnalyzer,OracleFinancialController和OracleSalesAnalyzer,则进一步减少了实行时间和费用。Oracle及其解决方案合作伙伴提供的预置OLAP应用,在财务合并和预算编制这样的领域以及在电信业这样的行业,都能带来立竿见影的效果。无论公司自行开发还是购买用于公司或者工作组OLAP应用,Oracle的Express工具和应用都提供解决方案。支持Web应用的OracleExpressServer是一个先进的计算引擎和数据高速缓存,可以集成来自独立系统的数据,这些系统也许是关系型的、传统的或者外部的。它使用多维模型,多维模型最能反映用户对其业务的思考方法。多维模型将电子表格的行和列扩展三维或者更多的维。用户可以很自然地把类别数据(维)看作是一个数组的列(edges)。维可以是时间、产品、产品系列、地区,用户分析的对象可以是像单位销售额这样的综合数据。对于多维模型的查询是很迅速的。这些查询是对数组中的某一部分的算术计算。因此,这个数组支持最大、最复杂的OLAP应用。OracleExpressServer不仅支持多维数据模型,并且具有分析、预测、建模,以及对数据进行假设分析(what-if)的能力。该服务器具有用于数学、财务、和时间序列管理等方面的内置功能。ExpressServer可以存储和管理多维数组,或者通过一种只需很少、甚至不需索引的复杂的多维高速缓存方案,提供直接面向关系数据的分析。该服务器具有伸缩性、强健性和基于应用的特性,支持多个用户访问,并且为大型数据库实现数据完整性控制。同时,Oracle的开放策略允许实行公司OLAP的公司自由选择所需的关系型数据库、开发工具和用户界面,其中涉及用户化的Windows前端、电子表格和WWW,从而获得最大限度的灵活性。OracleExpressAnalyzer是通用的、面向最终用户的报告和分析工具,它采用面向对象技术,在OracleExpressAnalyzer中能运营任何OracleExpressObjects应用。事实上,OracleExpressAnalyzer的用户可以扩展和发布在OracleExpressObjects中开发的应用。ExpressObjects和ExpressAnalyzer的集成使得信息系统人员和用户群体在建立和共享应用和对象方面拥有广泛的选择余地。开发环境数据仓库系统是一个跨平台、综合的大型应用系统。综合用户习惯与系统效率等方面的考虑,整个数据仓库系统的各子系统将分别运营在不同的操作平台下,这些子系统密切合作,形成一个紧密结合、高效的整体。硬件环境基于高速网络环境。服务器采用高档小型机。客户端为高性能客户端。操作系统服务系统运营于UNIX操作系统。UNIX以其较小的内核、较高的运营效率著名,获得了服务器上主流操作系统的地位。全球著名的硬件产商都有与自身服务器紧密结合的UNIX操作系统(如IBM的AIX和SUN公司的Solaries,HP的HP_UX),能充足发挥系统的最大性能。客户端系统运营在Windows操作系统下。全世界90%的PC用的是Windows操作系统,广大用户已经习惯了Windows操作系统的界面、风格。局几乎所有PC都是运营在Windows系统下的,数据仓库系统的客户端系统(涉及系统管理、ETL工具客户端等)运营在Windows系统下能满足用户需要,缩短系统投入使用的培训时间。开发语言JAVA语言最先由网景公司运用在WEB上,是最佳的跨平台开发语言,是当前B/S模式的首选开发语言;C语言最先在UNIX系统下使用,是一种执行效率非常高的高级开发语言,C++的出现使C语言包含了面向对象概念,C++语言也得到了日益广泛的应用,是C/S模式的首选开发语言。数据库系统数据库系统采用Oracle9i,Oracle9i是Oracle公司对数据仓库支持最佳的数据库系统,它的复合索引,物化视图等技术可以使数据的查询效率有很大提高。中间件系统中间件系统涉及应用服务器、WEB服务器和自主开发的业务逻辑服务系统等。应用服务器需要解决大量的数据信息,业务逻辑,效率规定高,系统资源占用大,需要在UNIX系统下运营。WEB服务器直接面向大量的用户群,解决用户的请求,多种方式展示查询结果,灵活的查询方式,动态生成页面。Oracle公司的WEB服务器与应用服务器是完全集成的,我们选择与Oracle9i配套的具有强大数据仓库功能的IAS作为省政府数据仓库的应用服务器和WEN服务器,Oracle公司的IAS(InternetApplicationServer)由于同属Oracle公司的产品,可以和Oracle9i数据库无缝连接,保证系统效率,此外Oracle9i全面支持J2EE体系结构,比同类型的产品,例如WebSphere快2-4倍。自主开发的中间件系统采用品有良好平台移植性的开发语言JAVA来开发。应用系统1、系统管理工具的运营环境是Windows系统,采用C++作为开发语言。元数据管理工具是直接面对有一定技术基础的维护人员,需要有高度的专业性、高效性、灵活性。选用C++作为开发语言,有针对性的开发C/S模式的系统,高效的管理数据库,并且使数据仓库具有一定的开放性。2、ETL数据抽取工具运营环境是Windows系统,采用C++作为开发语言。通过客户服务器模式从各个处室抽取数据,直接面对用户,界面和谐,有选择性的从各处室的系统中抽取数据,因此要运用C++开发高效率的、有针对性的系统。用JAVA开发ETL数据加载工具,直接运营在UNIX系统下,直接从中间数据库向数据仓库加载数据。联机分析(决策支持、数据挖掘系统)是基于应用服务器之上的应用,采用的开发语言是基于JAVA。报表系统基于WEB页面,采用JAVA开发。系统调试和测试目的通过测试,发现湖南省记录局省政府数据仓库系统的存在的问题,验证其是否满足总体需求分析和总体设计书,提供改善意见和修改报告,保证“湖南省记录局省政府数据仓库”顺利实现。基本规定测试计划对测试的每一阶段都有测试人员分工、责任范围、测试时间表、进度安排以及与其它系统有关的配套测试工作安排。测试说明测试说明包含一个完整的、文档化的、用于每个组件测试特定的测试用例集,并给出具体的测试脚本。测试环境建立为保证测试不影响正常的开发工作,需建立专门用于省政府数据仓库系统测试的测试环境。要保证测试环境的对的性和可靠性。测试报告每一阶段的测试都要给出符合规范的测试报告(参见公司《测试报告书写规范》)应遵循的原则测试贯穿于整过项目开发周期中的所有过程。除项目测试其自己设计的程序外,有专门独立与于项目组的测试部对数据仓库系统进行测试;测试用例既要有拟定的输入,也要有拟定的输出;测试用例既要有合理的输入,也要有不合理的输入;测试既要检查系统是否实现应有的功能,也要检查是否包含不应当具有的功能;所有测试用例应当作为软件组成部分之一保存并交付;在程序中错误的概率与在该程序段中已经发现的错误数成正比。测试方法静态分析(staticanalysis):不运营被测程序而对其进行分析。单元测试(unittesting):对可以单独测试的软件部分即单元所进行的测试。集成测试(integratedtesting):对模块之间的互相接口关系的测试,一般有增式和非增式两种方式,即一次将所有模块集成起来还是逐步集成。系统测试(systemtesting):按照功能需求验证系统是否满足所规定的功能。内部测试:由开发人员组织完毕的测试活动,具体涉及静态分析、单元测试、集成测试和构造测试。外部测试:由测试人员组织完毕的测试活动,具体涉及系统测试和交付测试。结构测试(structuraltesting):基于程序的测试方法,通常也被称为白盒测试。功能测试(functionaltesting):基于需求说明/设计说明书的测试方法,通常也被称为黑盒测试或行为测试。在具体实行中我们将根据实际情况在不同的阶段重点采用不同的测试方法。测试重点数据抽取时的对的性,效率测试。存储过程,触发器的功能测试和算法的静态分析。大量用户同时访问时数据库服务器的性能。5个以上部门同时用ETL装载数据时仓库的性能测试。指标口径发生变化,对数据进行调整时,系统效率和稳定性测试。指标数据调整后,数据仓库系统展现的结果的对的性测试。用户权限设立是否对的。各阶段的设计文档资料与系统是否一致且资料符合公司规范。项目进度项目资源计划项目组项目组由公司组建,由16人组成的开发小组,重要工作是对数据仓库系统进行需求调查与分析、设计、开发、测试。省政府局数据仓库领导小组办公室省政府局数据仓库领导小组办公室由省局组建,重要工作配合项目组进行需求调查、协调工作。项目工期计划项目工期为2023年9月26日——2023年3月14日时间进度计划本系统的开发过程中,我们按开发主题控制开发进度,一方面完毕数据仓库系统的需求调查、总体设计与两会系统的开发工作,紧接着进行第一期主题和第二期主题的开发。数据仓库系统需求调查与两会系统数据仓库需求调查与两会系统开发同时进行,在此期间完毕的重要工作有数据仓库系统需求调查、两会系统需求调查、两会系统编码、测试、数据仓库总体设计,计划开始时间为2023年9月26日,完毕时间为2023年1月15日。第一期开发主题第一期主题开发的重要任务是人口普查、公司名录库、字典查询、工业经济、农业经济的开发工作。计划开始时间为2023年1月15日,完毕时间为2023年7月台15日。第二期开发主题在完毕第一期主题开发任务后,进行第二期主题的开发,重要涉及固定产投资与建筑业、贸易经济、国民经济、城市社会经济、经济景气。计划开始时间为2023年7月16日,计划竣工时间为2023年3月14日。工工作量时分派计划总工作量:(61+140+174)*16/30=200人月注:涉及系统设计和开发工作量系统开发工作量:144人月各部分计划工时计划工作量如下:子系统名称计划工作量备注需求调查与设计320人日16*20两会信息征询服务系统448人日11*5+32*14+11*2数据库系统40人日10*4中间数据库设计20人日10*2数据仓库设计20人日10*2ETL系统552人日69*8指标数据抽取子系统226人日69*4指标数据装载子系统226人日69*4系统管理258.75人日69*3.75ETL管理子系统86.25人日69*1.25数据仓库管理子系统172.5人日69*2.5数据展现2700人日135*8OLAP决策分析子系统540人日135*4数据挖掘子系统540人日135*4报表解决子系统540人日135*4图形展示子系统540人日135*4数据导出子系统540人日135*4小结数据仓库充足发挥系统作为社会“数据库、信息库、思想库、智囊库”的作用,直接向党政领导、社会各界提供“快、精、准”的信息服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。 数据仓库设计具有以下特点:1、适应行业的特点 我国制度在不断发展和完善中,使得以主题储存的数据在不同时期需要进行适当调整才干合用于决策分析,且分析热点也会随着社会及经济的发展发生变更,这对数据仓库技术提出了更高的规定,为更好地适应这一特点,数据仓库系统设计着重考虑以下方面:a、根据实际需求,主题指标数据在一定范围内可调整,专业事实数据存放在数据仓库中,具有不可修改性;调整后的数据存放在主题事实表,供用户进行进一步解决;b、多维数据结构设计;c、主题所含指标根据实际需求可以进行调整2、C/S与B/S相结合 现有数据仓库系统重要以C/S为主,在数据仓库设计中,我们从系统可靠性、可维护性、用户使用的简洁性、易用性及安全性、高效性等多方面考虑,采用C/S与B/S相结合方式。 B/S的优点: A、解决浏览数据客户端安装、更新、维护的问题,方便面向全社会开放。 B、更符合用户的操作习惯。 C、提高客户端安全性、避免误操作。 C/S的优点: A、运营的高效性。 B、成熟的系统模式、功能强大。 C、能非常灵活的开发有针对性的系统。3、分散与集中相结合 局现状:数据量大、数据分散存放、各处室数据彼此独立性强。 数据仓库采用集中与分散相结合,各处室分散维护各自数据、数据仓库集中管理。4、数据抽取与加载分开 现有ETL工具的数据抽取、加载过程同时进行,ETL工具完全集成。局特点:各处室数据独立性强、报告时间不统一、误操作的也许性较大。数据仓库ETL工具的设计将数据抽取、加载过程分开,解决局现有的问题。参考文献省政府数据仓库需求分析报告《数据仓库技术与联机分析解决》王珊1998年6月《Oracle8数据仓库分析、构建实用指南》美MichaelJ.Corey,MichaelAbbey,IanAbramson,BenTaub著陈越,郭渊博,张红旗等译2023年1月第一版机械工业出版社《数据仓库技术简介》周永銮2023年7月(网络文献)经济50年省年鉴《“两会”系统整体设计报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论