




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国民经济和社会发展核心数据库建设模式探讨数据仓库在统计领域的应用杨靖怡 包志军 周红缨浦东新区发展计划局信息中心摘要:近年来,随着计算机数据处理技术在统计行业的广泛应用,产生了大量分散在各个统计单位的数据。数据仓库技术的产生和发展,为这些大量的烦杂而分散的数据资源提供了有效的理论和解决方法指导。本文分析了浦东新区统计数据的现状,提出了核心数据库的建设目标和功能,是在现存数据系统上进行有效的抽取、综合、继承和挖掘,产生最有价值的信息,为政府和社会提供有效的决策支持。本文重点提出了浦东新区国民经济和社会发展核心数据库的建设模型。要遵循“总体规划,分步实施”的方针,分成三个阶段来实施。最后提出了建立核心数据库的若干保障机制,及其对促进新区国民经济和社会发展所产生的重大意义。1前言在社会信息化加速发展的大背景下,现代管理模式强调以信息资源管理为中心。对于各类管理信息系统在管理运作中产生、存储与集成的大规模数据,仅仅进行简单的统计报表、检索查询等浅层面处理已远远不能满足需要。如何对急剧增长的数据集合进行实时和深层分析,将深潜其中的有用信息提取升华;如何按管理控制的需要有效地组织众多相关部门的数据支持决策,是信息管理面临的新课题。数据仓库、数据挖掘和知识发现等都是近些年发展起来的信息处理技术,是新技术环境下开发利用信息资源的有力工具。数据仓库(Data Warehouse)的提出是二十世纪90年代,它首先被用于金融、电信、保险等主要传统数据处理密集型行业,国外许多大型的数据仓库先后建立于1996和1997年。如今在国外数据仓库方面的发展非常迅速,呈雷霆万钧之势,在技术和应用上也趋向成熟。与国外相比,我国在这方面起步较晚,因而尚存差距,但是通过鉴借国外的经验教训,并且随着基础设施和联机事务处理系统的逐步完善,我国的数据仓库技术正在蓬勃兴起,并将逐步缩短与国外的差距。目前,数据仓库在国内的应用领域日益广泛,越来越多的企业开始意识到它的重要性,并逐渐采用数据仓库来提高管理能力和决策分析能力,在实际应用中将发挥着巨大的作用。在统计领域,近年来由于计算机数据处理技术的广泛应用,因而产生了大量分散在各个统计部门的国民经济和社会发展数据。面对大量繁杂而分散的数据资源,如何安全有效地管理和重组数据,提炼出综合数据信息,以供政府部门和社会各界利用,成为目前我国统计领域所面临的一个比较难于解决而又亟待解决的问题。数据仓库技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。2现状与需求2.1统计数据现状分析(1)数据格式多种多样,一致性较差,并存在数据冗余目前浦东新区各个统计专业所使用的系统主要有两种:一种是由市统计局下发的系统;另一种是自主开发的系统。产生的数据格式均不相同,且各个系统相对独立。在系统单独使用的情况下,一般都没有问题,但要将这些不同专业或不同时期的数据集中起来加以综合利用,就可能出现数据不齐全、不一致或重复的现象。例如,不同专业系统对同一项数据的缺省值的处理方式可能不一样,有的专业系统以无效值NULL来代表,而有的专业系统则以空格代表;又如,一家企业从私营公司变为股份制公司,虽然名称变了,但业务上还是一家公司,在不同时期的数据中,就可能以不同的名字出现。(2)数据来源多,但存放相对分散,缺乏统一管理浦东新区的统计数据不仅来源于各统计调查所,还来源于直报企业和其他相关部门,但这些统计数据一般分别存放在各个统计专业的FoxPro数据库中,而且大多只保存了近期数据,缺乏集中存放和管理不同专业、不同时期统计数据的有效手段,因此不利于统计数据的进一步加工利用。(3)统计业务涉及到各行各业和众多企业,指标多、数据量大目前,除了能将这些数据汇总成为统计报表 、统计年鉴、月度手册、市情手册或经济卡片之外,还缺乏对专业统计数据进行各种深层次分析、综合、提炼、挖掘和展现的应用软件,因此很难对丰富的统计数据资源进行二次开发利用,最终用户可利用的分析、预测数据不多,能辅助决策的有效信息就更少。(4)偏重于上报统计报表,忽视了政府宏观决策支持和企业微观决策支持在计划经济时期,统计部门的主要职能是为了上级统计机关报送统计报表;在市场经济时期,统计部门不仅要为上级统计机关报送统计报表,而且还要更多地为辅助新区政府宏观决策和企业微观决策及时提供各种信息和情报。2.2新时期对统计信息的需求在世界走向信息化的今天,尤其是随着Internet的飞速发展,信息的产生、更新、传播、利用的节奏大大加快,快速获取信息,通过分析把信息变成有价值的情报,成为一个单位提高竞争力的重要手段,有关国民经济和社会发展的统计信息资源也随之成为社会需求的热点。为了对复杂的动态环境作出及时响应,现代管理要求在大量的统计数据中找出有价值的信息和情报作为决策时的参考依据。在决策过程中,一旦需要,决策人员可以很快得到方方面面详尽的信息和情报支持,包括历史的、当前的和未来的各种信息。支持对分布在不同地点的数据或信息进行操作,包括内部的,外部的或远程的数据及信息。支持对不同类型和模式的数据或信息进行操作,要求图文并茂。包括结构化、半结构化和非结构化的信息类型及文本、数字、声音、图形图象、视频、动画、地图GIS等数据格式。中国即将加入WTO,面对市场的挑战和机遇,企业更需科学化的决策支持。因而越来越多的社会用户希望统计信息资源能够实现充分共享与快速交流,尤其是企业的微观决策需要统计信息的支持。2.3核心数据库的开发建设是“十五”期间浦东统计信息建设的重点之一浦东新区是一个改革开放的前沿地区,其信息化工作显得尤为重要。为了配合国家统计信息工程和上海市信息化“十五”规划,实现上海信息港建设目标,以科学、规范的统计指标体系和统计标准体系为基础,充分利用现代计算机技术,网络技术,数据仓库技术和数据挖掘工具,构筑数据库模型,建立一体化统计信息采集、处理、存储、服务系统,建立政府“电子统计”,努力推进新区统计信息化进程。3.目标和功能核心数据库的建设不同于传统的关系型数据库,是基于数据仓库的统计信息应用系统,是在现存数据系统上进行的开发,它着眼于有效的抽取、综合、继承和挖掘已有数据资源,以及最有价值的信息,为政府和社会提供有效的决策支持。采用数据仓库的好处可概括如下:可统一各种数据存储格式,保证全部数据的准确性、一致性、完整性和共享性;可集中存储和管理各专业不同时期的统计数据,提高检索速度,便于统计数据资源的综合利用;可根据决策需要对各种统计数据进行组织和分析处理而又不会降低业务系统的运行性能;可充分利用现有和历史的大量统计数据资源进行二次开发,从中提取有价值的信息;决策者可以查询到他们需要的、一致的、形象直观的分析预算信息,以辅助其决策分析。3.1核心数据库的建设目标基于数据仓库的核心数据库需要实现数据抽取、清洗、转换和装载自动化,统一数据格式,充分利用各种数据资源;建立适应统计信息应用系统要求的数据仓库结构体系,集中存储和管理决策所需数据,保证数据仓库内数据的完整性、一致性和可用性;建立综合信息服务平台,为政府部门提供决策信息查询服务,为社会用户提供统计信息发布服务;为统计专业分析人员提供统计数据的综合应用系统,完成统计数据的组织管理、分析预测和综合查询等工作。3.2核心数据库的建设功能基于数据仓库的核心数据库主要包括数据仓库体系结构的规划和设计、源数据的抽取和装载、目标数据的组织和管理、统计分析预测、统计信息查询、统计信息发布等统计信息应用系统。目标数据的组织工作主要包括:根据建立数据仓库和用户信息的需要,按照确定的主题、粒度、指标范围组织分割数据;建立数据视图、索引或数据模型,优化系统配置,提高查询和分析处理性能;对于重要的综合性统计数据,按照指标的口径范围和行政区划的变化进行调整等。组织与管理的数据范围包括:常规统计数据,如:统计年报、季报、月报数据;各种普查数据;抽样调查和专项调查数据;相关单位提供数据;外部公布数据摘录;分析预测数据;地理信息数据;其他数据等。统计分析预测主要有多维分析、数据挖掘和经济计量分析、数理统计分析等数学模型。经济计量分析包括时间序列、线性分析等分析方法;数据挖掘包括决策树、人工神经元网络、粗糙集、贝叶斯和关联规则等方法;数理统计分析包括回归分析、方差分析、相关分析、判别分析、聚类分析等。4. 模型设计4.1设计思想针对新区统计信息的基础和建设该数据库的投入资金大、周期长等特点,应该遵循总体规划,分步实施的方针。第一阶段:建立基础数据库。统计各专业产生的数据目前仍分散存放在不同的单机上,彼此相对独立。建立基础数据库不仅是为了集中存放和管理这些原始数据,实现数据共享,而且也是为数据仓库的建立打下基础。因为数据仓库是以大量的传统数据库为数据源获取原始数据,再根据决策目标加工、整合、转换为新的存储格式存入数据仓库的内部数据库中。数据仓库的建立并不是要取代传统数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是依赖于传统数据库管理系统来管理其中的数据。第二阶段:建立数据仓库。数据仓库必须遵循:(1)系统扩充性好能够支持不同的数据源装载,数据仓库存储不同类型的数据,根据用户需求能够分阶段的实现更多的应用功能;能够根据系统的运行瓶颈调整硬件和软件的结构,局部结构的改变和扩充不影响系统整体的运行。(2)完善的数据管理由于数据源之间存在数据类型和数据描述的不一致,及数据的不完整性等现象,需要系统对数据源采取有效地过滤、转换手段,使之成为有效的、一致的形式便于在其上进行全局应用;同时随着时间的推移,数据仓库中的数据量不断增大,必须根据其特点采用适当的方法进行组织和管理。(3)能够实现高性能的复杂分析使用数据进行各种复杂分析,如多维分析长期趋势分析和数据挖掘等。(4)完善的最终用户界面如果没有各种分析工具,数据仓库的存在是没有意义的,系统必须提供各种灵活完整的分析应用工具。第三阶段:数据仓库在统计信息上的应用。(1)统计分析预测系统;(2)统计信息查询、咨询服务系统;(3)统计信息发布系统;(4)宏观管理决策支持系统。4.2设计方案基于数据仓库的核心数据库体系结构可分为数据源、数据抽取转换和转载、中心数据仓库、结构化数据集市和数据访问数据分析。它们之间相互作用,共同构成了数据仓库信息环境。数据源主要是存储在基础数据库中的国民经济和社会发展统计数据,基础数据库可采用关系型数据库;数据抽取转换和转载通过对系统的建模后,采用元数据管理按照一定的规则将数据源中的数据转载到中心数据仓库中;中心数据仓库根据信息分析需求重新定义和组织各专业处理系统中的数据;数据集市是数据仓库中某一个主题的体现;用户终端工具通过应用服务器等中间层对数据仓库和数据集市中的信息进行访问和分析,用户界面为定制的Web界面,同时可以打印报表,可以满足用户的所有需求,从对数据仓库中数据的简单查询,到复杂的分析、预测和建模。4.3关键技术(1)数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。(2)数据的存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个GB甚至到TB的数据已是一件平常的事情。(3)数据的表现数据表现是数据仓库的门面。它们主要集中在多维分析、数理统计和数据挖掘方面。多维分析是数据仓库的重要表现形式,由于MOLAP系统是专用的,因此,关于多维分析领域的工具和产品大多是ROLAP工具。这些产品近两年来更加注重提供基于Web的前端联机分析界面,而不仅仅是网上数据的发布。数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系。而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人,但在实现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能够获得可观的效益。4.4开发工具(1)Warehouse BuilderOracle数据仓库设计和建立工具Oracle Warehouse Builder(简称OWB)将从前各自分离的产品提供的功能集成到一个公共的环境。这些功能包括:数据模型构造和设计、数据提取、移动和装载(ETT)、元数据管理、分析工具的整合以及数据仓库的管理。OWB提供了一个框架将数据仓库的各个部分包括关系数据库服务器、多维数据库服务器和前端分析工具相结合,从而产生了一个紧密集成、全面的数据仓库。(2)Oracle ExpressOracle的联机分析处理(OLAP)工具Oracle Express系列OLAP产品为企业提供了将数据转化为信息的通用的数据分析平台。(3)Oracle Express服务器Oracle Express工具和应用的强大功能来自Oracle Express Server,这是一个先进的计算引擎和数据高速缓存。Oracle Express Server的多维数据模型拥有分析、预测、建模,以及对数据进行如果会怎么样(what-if)询问等功能。(4)Oracle DiscovererOracle即席查询分析工具用户对存储在数据仓库中的大量数据的分析要求依赖于很多的因素,包括从需要访问的数据的数量,到所进行的查询的复杂程度等。这就要求数据仓库前端的数据查询分析系统能够满足多种多样需求。许多的用户希望使用具有图形用户界面的工具软件,它们能够提供对数据仓库中数据的交互查询,生成图形及表格式的报告的功能。由于这类联机分析处理(OLAP)工具直接基于数据仓库关系型数据库进行分析,通常称这类工具为ROLAP工具。Oracle Discoverer就是帮助用户将数据转化为信息的ROLAP工具。(5)Data Mining OptionOracle
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45490-2025绿色金融术语
- 呼吸科护理创新小发明
- 厦门城市职业学院《生药学实验》2023-2024学年第一学期期末试卷
- 湖南省邵阳县重点名校2025届初三全真数学试题模拟试卷(17)含解析
- 内蒙古财经大学《纺织品检验学》2023-2024学年第二学期期末试卷
- 锡林郭勒职业学院《法语视听说》2023-2024学年第二学期期末试卷
- 天津市和平区第二十中学2024-2025学年第二学期教学质量检测试题初三数学试题(二模)含解析
- 塔里木职业技术学院《营养健康与社会》2023-2024学年第二学期期末试卷
- 临安市2024-2025学年五年级数学第二学期期末调研试题含答案
- 平凉职业技术学院《建筑力学2》2023-2024学年第二学期期末试卷
- 药事管理法律法规相关知识培训
- 地毯织造技艺(北京宫毯织造技艺)
- 第4章-选区激光熔化工艺及材料课件
- 2023届高考写作指导:“寻找温暖”与“成为灯火”课件
- 2022年上海市工业技术学校招聘考试真题
- 长期护理保险技能比赛理论试题库300题(含各题型)
- 二重积分的概念与性质演示文稿
- 医院双重预防机制建设工作完成情况
- 大学生劳动教育通论知到章节答案智慧树2023年大连海洋大学
- 2003高教社杯全国大学生数学建模竞赛B题竞赛参考答案
- AB股公司章程(同股不同权)
评论
0/150
提交评论