(管理科学与工程专业论文)统计元数据信息系统的研究与设计.pdf_第1页
(管理科学与工程专业论文)统计元数据信息系统的研究与设计.pdf_第2页
(管理科学与工程专业论文)统计元数据信息系统的研究与设计.pdf_第3页
(管理科学与工程专业论文)统计元数据信息系统的研究与设计.pdf_第4页
(管理科学与工程专业论文)统计元数据信息系统的研究与设计.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 中国统计行业信息化建设已初具规模,各省市统计部门基本上都 配备了适合自身情况的统计业务处理软件。这些系统从统计业务角度 考虑具有很强的耦合性,但从系统开发角度上看,这些系统之间缺乏必 要联系。这样往往导致系统之间的复杂度加大,不利于信息平台的规 划和建设。实现信息系统平台的关键任务之一则是实现现有各应用系 统之间的无缝集成。 为了解决原有统计系统的各种弊端,减少由于这些弊端所造成的 各种人力、物力资源的浪费以及工作的诸多不便,我们需要在原有的 基础上设计一个基于元数据管理的统计信息系统,对数据进行统一自 动的管理,实现数据共享;借助大型数据库的优良性能,进一步提高 数据的管理能力和数据安全性。通过对现状和存在问题的分析,青岛 市统计业务综合处理系统的总目标是:加强统计基础工作,建设科学、 规范的统计标准体系,以现代化的计算机网络、通信技术及新兴的信 息技术为手段,从元数据管理入手,实现统计信息采集的网络化,数 据处理业务流程的规范化,统计信息存储管理的标准化,统计分析与 决策的科学化,信息发布的自动化。 本文讨论了元数据以及统计元数据库实现的部分内容。在实践过 程中,我们不断的体会到元数据在信息处理自动化、扩展统计数据库 功能和信息管理等方面显示的巨大潜力,同时认识到了元数据在统计 元数据库中的必然性、可行性。 关键词:元数据、统计、统计标准、数据库、信息系统 a b s t r a c t a b s t r a c t t h ep r o f e s s i o ni n f o r m a t i o no fc h i n e s es t a t i s t i c sh a sa l r e a d yb e e ni na s c a l e e a c h c i t y s t a t i s t i c s0 f f i c ea r ei n k e e p i n gw i t hs t a t i s t i c s b u s i n e s s p r o c e s ss o f t w a r e f r o ms t a t i s t i c st h eb u s i n e s sa n g l e ,t h e s es y s t e m sa r en o t c o n c e n t r a t e d f r o mt h ed e v e l o p m e n to fs y s t e m ,t h e s es y s t e m s1 a c kt h e n e c e s s a r yc o n t a c t t h i su s u a l l yc a u s e st h ec o m p l e xo fs y s t e m s ,a n db e c o m e s t h eo b s t a c l ei nt h eu t i l i z a t i o no fi n f o r r n a t i o na u t o m a t i o n o n eo ft h ek e y m i s s i o ni st or e a l i z et h ec o n j u n c t i o nw i t h o u ta n yb l i n ds i d e s t os o l v et h ep r o b l e m st h a ta p p e a ri nt h eo r i g i n a ls y s t e m ,t or e d u c et h e w a s t ew h i c hc a u s e db vt h ed i s a d v a n t a g eo f m a n p o w e r a n dm a t e r i a lr e s o u r c e s , w en e e dt od e s i g no n ei n f o r m a t i o ns y s t e mb a s e do nm e t a d a t am a n a g e m e n t w eu s ei tt ou n i f yd a t aa u t o m a t i c a l l ya n dr e a l i z et h ed a t as h a r e ,p r o m o t e f u r t h e rt h em a n a g e m e n ta n ds e c u r i t yo ft h ed a t a t h ea i mo ft h et s i n g d a o s t a t i s t i c sb u s i n e s sp r o c e s ss y s t e mi st h a te n h a n c i n gt h eb a s ew o r k ,b u i l d i n g s c i e n t i f i ca n dn o r m e ds t a n d a r df r a m e ,r e a l i z i n gt h en e t w o r ko fs t a t i s t i c s i n f o r m a t i o nc o l l e c t i o nw i t hc o m p u t e ra n dn e wn e t w o r kt e l e c o mt e c h n o l o g y , a n dr e a l i z i n gt h ea u t o m a t i o no fi n f o r m a t i o na n n o u n c e m e n t a 】lo f t h e s em u s t b eb a s e do nm e t a d a t a t h i st e x td i s c u s s e dm e t a d a t aa n dp a r t so fc o n t e n t st h a tas t a t i s t i c s d a t a b a s er e a l i z e s i nt h ep r a c t i c ep r o c e s s ,w er e a l i z et h ep o w e r f u lf u n c t i o no f m e t a d a t ac o n t i n u o u s l yi ni n f o r m a t i o nh a n d l i n ga u t o m a t i o n ,e x p a n s i o no f s t a t i s t i c sd a t a b a s ef u n c t i o na n di n f o r m a t i o nm a n a g e m e n ta n ds oo n a tt h e s a m et i m e ,w ek n e wt h ei n e v i t a b i l i t ya n dp o s s i b i l i t yo fm e t a d a t a a ts t a t i s t i c s d a t a b a s e k e y w o r d s :m e t a d a t a ,s t a t i s t i c s ,s t a t i s t i c s s t a n d a r d ,d a t a b a s e i n f o r m a t i o ns y s t e m 2 独创性声明 y 5 8 5 8 7 6 本人声明,所呈交的学位论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽本人所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得北方交通大学或其他教学机构的学位或证书而使用过的材 料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了明 确说明并表示了谢意。 本人签名 :望进 日期:j 衅年;一月:日 乖:一! ;j 、。,矧巷 匆、0 皇,? 帮 引言 1 引言 1 1 目的 人们通常把“统计”想象为简单的算术计算,实际并非如此简单。 一般来说,统计这个词具有三个方面的含义:统计工作、统计资料和统计 学。这三者之间存在着密切的联系,统计资料是统计工作的成果,统计学 来源于统计工作。随着信息技术的发展,统计信息交流建设也越来越快, 为了提高统计交流的效率和准确性,本文提出了建立基于元数据管理的统 计信息系统,其主要目的是为了给统计员提供完备的统计资料,也可以说 是对统计工作方法的一种补充。 元数据是一利,关于数据的数据,可以说是一种全新的模式。它被定 义为:描述关于数据的内容、质量、状况和其他特性的信息。元数据这一 术语随计算机程序的产生而产生。元数据最初仅仅是代码和文件文档中的 内嵌注释。这种元数据的目的是为了使程序员更容易地执行代码维护工 作。时至今日,计算机软件的发展已经超越了原有的数字计算功能,而且 已经涉及整个经济社会的方方面面。大型软件平台系统的开发,要求元数 据管理能够提供面向整个平台的元数据服务。此时,元数据不仅包括针对 程序的注释,而且包括了用户业务定义与处理、数据含义和规范化、系统 配置、文档存储与查询在内的多元化元数据。元数据在平台系统中是相当 重要的,它不仅仅是其定义为“关于数据的数据”所说的那么简单,从某 种意义上说元数据相当于整个平台的数据地图。随着元数据应用范围的扩 大,元数据在各个行业所起到的作用也将越来越明显。 随着统计部门信息化建设的不断深入,面向统计业务的各类应用系 统不断完善,如:数据报送系统、报表处理系统、数据分析系统等。这些 系统就其设计初衷而言是面向某种或某类统计业务的需求,系统的功能重 点在于完成统计业务工作。而这些统计业务基础数据的存储和管理一直采 用程序进行,因此只有当时应用程序的开发者与使用者了解这些数据的内 容、格式和存储访问方式,几年过后,由于统计人员的更替,将没有人知 道以前的这些数据所代表的含义,统计数据完全失去了统计的意义,我国 北京交通大学硕士学位论文 以前的统计数据就存在此问题。为了保证统计数据的长期性和有效性,同 时促进统计信息化应用水平的提高,我们有必要建立基于元数据的统计信 息系统。 另一方面,中国统计行业信息化建设已初具规模,各省市统计部门 基本上都配备了适合自身情况的统计业务处理软件。某些经济发展比较快 的地区还开发了基于统计业务的地理信息系统( g i s ) 和基于数据仓库技 术的辅助决策系统( d s s ) 。这些系统从统计业务角度考虑具有很强的耦合 性,但从系统开发角度上看,这些系统之间缺乏必要联系。在两个系统需 要相互通信时,往往采取定义专用接口的方法。这样往往导致系统之间的 复杂度加大,不利于信息平台的规划和建设。实现信息系统平台的关键任 务之一则是实现现有各应用系统之间的无缝集成。元数据管理系统则能够 在整个数据的生命循环中,确保所有的数据都是完全的、一致的和正确的, 以满足使用者的需要和支持通用软件的使用需求。 本文依据国际上通用的元数据管理标准与中国统计行业实际情况相 结合,遵循“构建统一信息系统平台”的指导思想,依托部门及地方的资 源与力量,通过系统集成和示范应用,重点解决统计元数据标准制订、元 数据模型定义、元数据库结构设计、元数据与统计现有系统之间的挂接、 元数据扩展性等关键技术的研究,探索适合我国国情的统计元数据库体系 结构和应用,为我国统计信息化的推广应用奠定坚实的基础,推动国际前 沿新技术与国内传统统计行业的结合以及统计信息化建设的进程。 统计信息系统的建设对宏观经济及社会生活产生着重大的影响。发达 国家迅速发展的标准化信息平台己对我国经济发展和社会生活构成了严 峻的挑战,我国在加入w t o 之后,这种挑战会变得更加现实。如何发展我 国的统计标准化信息平台,迎接新的挑战,推动统计行业快速、健康有序 的发展,已成为亟待解决的关键课题,也是实施本项目的中心目的。 1 2 意义 a 元数据库的应用是统计信息系统和国际化接轨的推动力 我国加入w t o 后,包括统计行业在内的各行各业都面临国际竞争的 压力。要保证足够的国际竞争力,就必须实现国际化接轨。基于国际统 2 引言 标准模型的统计元数据库不仅能够保证目标元数据库系统的可用性, 而且能够直接推动统计信息系统国际化的进程。 b 元数据库的应用是实现统计信息平台系统的有效途径 统计信息平台系统要求将现有统计应用系统进行整合,以提高其数 据准确性、一致性、系统可扩展性和数据共享程度。元数据库中存放的 不仅包括对统计业务流程的定义,还包括对统计数据含义、格式、存放 位置、存取方式等信息的定义。这些信息是实现信息平台系统必不可少 的重要数据。利用元数据库对它们进行统一管理可以确保构建信息平台 系统过程中各应用系统的无缝联接。因此元数据库的应用是实现统计信 息平台系统的有效途径。 c 元数据库的应用有利于形成统计信息化建设“一盘棋”的思路 以往信息化建设的重点在于从某些特定的功能着眼,开发针对这些特 定功能的软件。元数据库系统的构建打破了面向功能开发软件的格局,树 立了整个系统“一盘棋”的概念,不仅强调软件的功能,更重要的强调各 系统之间的联系和扩展性,也有效的保护了原有投资。因此元数据库的应 用有利于形成统计信息化建设“一盘棋”的思路。 1 3 文章主要内容及思路安排 文章对元数据的一般理论、数据库的一般原理、统计机构的基本职 责和业务等进行了介绍,讲述了统计行业元数据的发展趋势,借鉴国外统 计元数据标准的建设经验结合我国国情建立了我国统计元数据管理标准, 提出了构建统计元数据信息系统的设想和基本方案。 第1 章引言。指出文章的选题背景、选题目的和意义。阐明了进行 统计元数据研究的必要性和构建统计元数据信息系统的必要性。 第2 章元数据理论及数据库的基本原理。这一章主要是理论说明部 分,介绍了现有元数据的定义、统计元数据的相关理论,同时讲述了数据 库的基本原理和面向对象开发的思想方法,为全文的后半部分奠定了理论 基础。 第3 章国内外统计元数据库现状及发展趋势分析。讲述了我国统计 北京交通大学硕士学位论文 行业信息化建设的现状,分析了统计元数据库的发展趋势,为统计元数据 库的设计提供了基础。 第4 章统计元信息系统的分析与设计。本章为全文的核心部分。本 章首先讲述了统计工作中的一些名词术语、介绍了统计业务流程和各个功 能模块,提出了我国统计元数据的整体结构,制定了我国统计元数据的分 类和管理标准,最后提出了统计元数据库的结构设计思路。 第5 章统计元信息系统的实现。讲述了统计元信息系统设计的开发 环境、整体思路、系统的实现过程,进一步证明了文章所提出思想方法的 可行性、合理性与科学性。 第6 章结束语。总结了文章的主要思想和研究思路。揭示了统计 元数据思想引入的应用价值和指导意义。 4 元数据理论及数据库的基本原理 2 元数据理论及数据库的基本原理 2 1 元数据理论 2 1 1 元数据定义 m e t a d a t a ( 或称元数据) 是描述信息资源或业务数据等对象的数据, 即是用于提供某种资源的有关信息的结构数据( s t r u c t u r e dd a t a ) ,或者 说是描述其它数据的数据( d a t aa b o u to t h e rd a t a ) 。元数据的使用目 的在于:识别资源,评价资源,追踪资源在使用过程中的变化,实现简单 高效地管理大量网络化数据,实现信息资源的有效发现、查找、体化组 织和对使用资源进行有效管理的功能。 人们用元数据这个术语来描述不同的事情。元数据在字典中的定义 是:“关于数据的数据”。从某种意义上说,这个定义是简单且准确的。在 政府的统计机构中,统计元数据是关于统计数据的数据,即统计的元数据 是有关统计数据的描述性信息。有很多与元数据相关的术语,如元信息或 元文本,为了区别这些术语,我们给出了下面的定义。元信息是通常与存 储的基本数据相分离的所有传统的文档,该信息可能是打印的数据文本, 但只有数据的生产者知道它们的存在。元文本是联机未格式化的信息单 元,这些信息单元具有表格中的表头、引用项或脚注的原始数据。而元数 据通常是格式化的结构化描述元素,与数据紧密相关,传统的变量及值都 是这种类型的信息。元数据是理解和领悟数据的工具,它提供数字的含义。 最基本的层次是,元数据使解释数据成为可能,例如,数字5 6 在没有元 数据的情况下是没有任何意义的。元数据也是解释和使用元数据、进行推 论及获得新知识的工具。它帮助信息搜索者找到数据并判断它是否适合于 手头的问题即元数据的适用性。元数据帮助设计者发展新的、改进的过程, 使执行者达到过程规范。它的主要作用是共享和简化,它对于数据的解释 是必要的,从被解释过的数据中得出的新知识可以增进生产( 低成本或高 质量) 或创造才智,理解和推论一些现实世界中的现象。 元数据一经建立,便可共享;它的结构和完整性依赖于信息资源的价 北京交通大学硕士学位论文 值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境: 任何种格式都不可能完全满足不同团体的不同需要。元数据首先是一种 编码体系,它是用来描述数字化信息资源的,其最为重要的特征和功能是 为数字化信息资源建立一种机器可理解的框架。 元数据满足两个基本需求:在数据处理的过程中它指引统计人员,告 诉使用者所使用的数据的意思。这都说明它们是必不可少的。的确,从统 计学产生的那天起,统计元数据就已经存在了。但是,从九十年代开始, 人们才开始关注元数据,以高度的自动化处理和整体发布系统作为主要组 成的先进的信息技术对更加规范、熟练地处理元数据提出了更高的要求。 最初的焦点集中于提供综合的很详细、明确的资料去补充数据。这样的资 料主要使最终使用者清楚数据是关于什么的以及它们是如何产生的。在这 种方法中,控制运行过程没有链入可操作的元数据用以指导统计人员。通 常的元数据控制过程,主要指人们如何操作它们,而元数据引用的结果也 是由人做出的,也就是说,这些元数据主要是由人产生的。由于这些原因, 人们的确会怀疑元数据的质量,特别是跟踪在处理环境、理论和概念中的 变化。所以,统计过程必须在驱动元数据的控制之下进行,元数据影响着 数据的描述和处理数据的过程。一般可通过直接或间接的两种方法来实现 这种控制,间接驱动通过指示统计员如何处理这一过程,而直接驱动则指 软件可以在无人干涉下运行这一过程。工具是具有元数据意识的,利用它 们输入元数据和数据,同时输出相应的元数据和数据。具有数据元意识的 工具可以从数据组中分辨出元数据,也可以从元数据的定义中获得数据。 为保证我们数据结果的正确性,元数据与工具的使用都必须彼此适应和支 持。图2 1 就表明了工具、元数据、数据和过程之间的关系,实线代表直 接关系,虚线代表间接关系。 图2 - 1 中工具与过程的关系应特别注意。工具与过程既有直接的又有 间接的关系,这表明过程既有普通所有权又有特殊所有权。普通所有权在 所有这一过程中都是相同的,而特殊所有权则根据情况的不同而不同。例 如:我们考虑的抽取样品过程,它们都是将整体作为输入,再选出一个样 品作为输出,这些就是样品抽样过程中的普通所有权。而抽取的样品会由 元数据理论及数据库的基本原理 图2 1 元数据、数据、工具与过程的关系 于实际抽取群体洋品的规格和样品的方法不同而有所不同,这些是特殊所 有杈, 图2 - 2 元数据意识工具之间的关系 冒2 - 2 表明了在元数据各个部分中元数据意识工具之间的关系。该工 具计划实行了个通用的过程。每一次过程的结果都是份晚明书。元数 据描述的过程被分为一般过程元数据和特殊过程元数据。在根据统计溉念 和芎;王设汁专门为统计服务的工具时为了将统计设计者从具体程序设计 的负担1 解脱出来,我们需要利用数据元驱动过程工具。如果元数据的内 容与工具的性能有系统的联系陛能会触发不同的工具,则元数据是积极 北京交通大学硕士学位论文 的。积极元数据与消极元数据的区别触及到了元数据策略的核心。积极元 数据与它们涉及的数据技术性相联,相应的元数据的变化会导致相应的自 然数据的变化,元数据不变,数据的结构也不会变,相对应的消极元数据 会突然改变,而数据则没有相应的变化。元数据策略的目标就是在整个数 据的生命循环中,确保所有数据在细节上的描述都是完全的、一致的和正 确的,以满足使用者的需要和支持通用软件的使用。对于元数据,这种总 的描述可通过三个特殊的目标进行详细拟定。其中每一个目标代表目的的 一个层次。忠实性是三个目标中的第一个,确保元数据对数据有一个j 下确 地描述,特别是提供给使用者的报告,元数据必须正确地描述数据以及产 生这些数据的过程。一致性是第二个目标,确保提供最终使用者驱动过程 的元数据和报告元数据不发生偏差,结果如过程设计者定义的那样,彼此 相容,与精心考虑的概念和方法相一致。标准性是元数据的第三个目标, 为了确保在设计中详细定义的元数据符合通用标准。三个目标是环环相扣 的,每一个目标表达了对元数据和数据关系的要求,这是第二个目标的前 提,第二个目标表达了在统计过程中不同阶段的元数据间的关系。最后, 一致性是作为标准元数据的先决条件,因为单独地非标准化输入元数据与 输出元数据是无用的。三个目标相互补充。 元数据体系在整个数据库系统中是一个十分重要的功能结构,它是数 据库系统的管理和控制层,它可以被看作是一个数据地图,指引数据库的 数据存取。在数据库的信息发现、信息检索和信息组织诸方面,元数据都 起着十分重要的作用。元数据在数据库中的主要作用是为分布式数据发现 和检索奠定基础。 2 1 2 统计元数据 统计元数据是关于统计数据的描述信息或文档,有利于生命周期内 统计数据的共享、查询和理解。它们对统计人员及最终使用者都是必不可 少的,统计元数据涉及到统计管理信息系统的各个方面。有迹象表明,统 计元数据将成为统计机构的信息系统的核心。使用统计元数据进行管理的 目的是建立一个统计元数据库,通过i n t e r n e t i n t r a n e t 访问, 实现数 元数据理论及数据库的基本原理 据发布、调查设计和处理工具的自动化。 统计元数据如同统计数据的描述一样,术语“数据”总是由数字、 值组成的,即对象数据及值的上下文。这种信息可能是不同的种类,如相 关的定义、数据生产处理的知识、结果的特殊解释或者有关存储与数据访 问的信息。这种类型的信息能够出现在统计数据的生命周期的各个阶段。 当数据产生在一个封闭的环境中,而且数据只适用于该环境时,数据的所 有信息对用户及生产者都是可使用的,但是,这种理想的情况在实际生活 中几乎是不可能出现的,数据的信息与他人及其它系统的联系是必须的。 在这种意义下,我们能够定义统计元数据为一个统计系统与系统外的用户 及与其它系统联系的必要管理信息。 在同常生活中,图书馆分类 片中的信息提供了图书的分类、作者 的姓名、编号、存放位置等一系列图书的元数据信息。如果将分类卡片撤 掉,虽然图书还在,但要查找一本图书是一件非常困难的事情。在我国的 统计机构中,由于以往软件系统没有提供元数据信息,所产生的数据已经 失去了意义。即虽然十年前的数据仍然存放在磁带机或光盘片中,但处理 这些数据的程序已经无法运行或当时处理这些数据的人员已经离开所从 事的工作岗位,其中的数据来源、单位、名称及处理方法等元数据信息实 际上已经丢失。这些统计数据已经失去了存在的意义,变成了“裸数据”。 因此,统计元数据是所有类型统计数据的必要信息,它既是统计对象与统 计数据的一个结构化描述,也是对统计系统中统计对象处理的描述。它是 确保统计系统内部或其它统计系统内部数据的正确使用或数据重用的一 个必不可少的工具。 统计元数据的使用者有两类:进行统计的人和使用统计的人。对于 统计者,我们指的是数据收集过程中的设计者、数据的收集者及数据的 评估者:使用者包括政府的领导人、政府的数据分析者及社会大众。使 用者和统计者对元数据的理解是不同的,而且,一些使用者同时也是统 计者,大部分的统计者都是使用者。有着多重任务的人经常需要不同的 元数据组来完成他们的任务。统计元数据的使用将使共享、查询及理解 在数据生命期上的统计数据变得很容易。因为用户对于元数据的使用目 北京交通大学硕士学位论文 的是不同的,定义一组元数据的定义也根据不同的用户及用途而有所不 同。另一方面,调查设计者从可选择的数据收集中评估数据质量,一个 设计者或评估者对于元数据的认识受限于他定义他所认为的相关元数据 的能力,因此,统计者需要整理大量的元数据,包括有关元数据的元数 据,以保证统计数据的准确性。 统计元数据体系构建了统计数据库的逻辑框架和基本模型,它决定 了统计数据库的功能特征、运行模式和系统运行的总体性能。统计数据库 的运作,无论是存取过程还是检索过程,都是以元数据为基础实现的。 统计元数据管理的意图在于构建带有i n t e r n e t i n t r a n e t 访问接口 的元数据库,该元数据库用于支持i n t e r n e t 数据分发、自动调查表设计 和处理工具。元数据库包含用于设计、处理、分析的信息以及关于全部调 查和统计部门行为的数据。元数据库使得定位查找所有可利用的、用来描 述单一调查或某些特殊调查的信息成为可能。统计元数据管理在整个统计 信息系统中将起到承上启下的作用,具体体现在以下几个方面: ( 1 ) 元数据的收集和整理是进行数据集成所必需的环节。 一方面,从各个数据源中抽取的统计数据要按照一定的模式存入数 据集合中,这些数据源与数据集合中数据的对应关系及转换规则都要存储 在元数据知识库中。这样有利于数据的查询和基于这些数据的信息系统的 建立。 ( 2 ) 元数据定义的语义层可以帮助最终用户理解数据集合中数据的 含义。 最终用户不可能如数据库系统管理员或开发人员那样熟悉数据库技 术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据库中数据 的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数 据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。 ( 3 ) 元数据是保证数据质量的关键。 统计数据库建立好以后,使用者在使用的时候,常常会产生对数据 的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的, 使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者 元数据理论及数据库的基本原理 对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这 样他们自然会对数据具有信心:当然也可便捷地发现数据所存在的质量问 题。 ( 4 ) 元数据可以支持需求变化 随着信息技术的发展和统计有关部门职能的变化,统计部门的需求也 在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软 件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需 求变化的,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可 以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依 赖特定的开发人员,从而提高系统的可扩展性。 在统计过程中,元数据应用在不同的时期和地方,它们起到不同的作 用。元数据要么描述事情的状态,要么描述收集数据的过程。状态元数据 描述了一个数据组,而过程元数据则描述一个数据组如何转变为另一个数 据组。但状态元数据通常定义统计数据的概念,过程元数据主要指方法, 也就是说,对状态元数据和过程元数据的区分反映了概念与方法的两重 性。这种区别主要体现在统计要领的层次上,不应与i t 术语中数据描述 与程序代码的区别相混淆。关于过程元数据是指对过程的模型化和描述, 元数据既可被作为统计的过程输入,又可用作这个过程的文件进行输出, 前者驱动过程,后者则报告过程的结果,所以我们将用驱动元和报告元数 据来区分两者。报告元数据是统计过程的结果,它们在过程运行当中或之 后产生,而驱动则需要一个过程来驱动,即它们要么在设计阶段,要么在 实际处理中产生;前者通常是经过考虑的、明确的和标准的,而后者通常 会更“自然”和宽松的定义。 2 2 数据库基本原理及面向对象开发思想 数据库是长期存在于计算机内的、有组织的、可共享的数据集合。 数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度、 较高的数据独立性和易于扩展性,并可为各种用户共享使用。正是由于数 据库的这些特点,作为信息系统核心和基础的数据库技术得到了广泛的应 北京交通大学硕士学位论文 用,并成为衡量信息化程度的重要标志。 2 2 1 数据库的特点 数据结构化是数据库与早期数据管理系统的根本区别。在数据库中, 数据不再针对某一应用,而是面向全组织、具有整体的结构化。不仅数据 是结构化的,而且存取数据的方式也很灵活,可以存取数据库中的一个数 据项、一条记录或一组纪录。 数据的共享性高,冗余度低,易扩充。在数据库系统中,从整体角度 看待和描述数据,数据不再面向某个应用,而是面向整个系统,因此数据 库可以被多个用户、多个应用共同使用。数据共享一方面大大减少数据冗 余,节省存取空间,另一方面,可以容易的增加新的应用,使系统弹性大, 易于扩充,适应多种要求。 数据独立性高,数据独立性即包括数据的物理独立性和数据的逻辑独 立性。物理独立性指用户的应用程序与存储在磁盘上的数据库中数据是相 互独立的。逻辑独立性是指用户的应用程序与数据库中逻辑结构是相互独 立的,也就是说,数据的逻辑结构改变了,用户程序也可以不改变。 数据由数据库系统( d a t a b a s em a n a g e m e n ts y s t e m ) 统一管理和控 制。数据库的共享是并发的( c u r r e n c y ) 共享,即多个用户可以同时存取数 据库中的数据,甚至可以同时存取数据库中的同一个数据。所以,d b m s 提供数据的安全性( s e c u r i t y ) 保护、完整性( i n t e g r i t y ) 检查、并发 控制、数据恢复( r e c o v e r y ) 等几个方面的数据控制功能。 2 2 2 面向对象数据库系统 数据库管理系统( 简称数据库系统) 是一个拥有企业结构化、可计算 数据的系统。根据数据模型的不同,数据库系统可以分为层次数据库系统、 网状数据库系统、关系数据库系统、面向对象数据库系统等。由于在统计 元数据库设计中用到了面向对象数据库系统的设计方法,所以这里只对面 向对象数据库系统进行简述。 面向对象数据库系统是一个持久的、可共享的对象库的存储和管理 者:而一个对象库是由面向对象数据模型所定义的对象的集合。它的核心 元数据理论及数据库的基本原理 一_ _ _ _ h _ 一 概念有: 1 ) 对象与对象标识。现实世界的任一实体都被统一的模型化为一个 对象( o b j e c t ) ,每个对象有一个唯一标识( o b j e c ti d e n t i f i e r ) 。 2 ) 封装。每一个对象是其状态与行为的封装。状态是该对象一系列 属性值的集合,而行为是在对象状态上操作( 方法) 的集合。 3 ) 类。共享同样属性和方法集的所有对象构成一个对象类( 简称类) , 一个对象是某一类的实例。 4 ) 类结构( 层次) 。面向对象数据库模式的一组类形成的有限的层次 结构。 5 ) 消息。由于对象是封装的,对象与外界的通信一般只能通过显示 的消息传递,即消息从外部传递给对象、存取和调用对象中的属性和方法, 在内部执行所要求的操作,操作结构仍以消息形式返回。 概括地说,面向对象方法的基本思想是,从现实世界中客观存在的 事物( 即对象) 出发来构造软件系统,并在系统构造中尽可能运用人类的 自然思维方式。从问题域中客观存在的事物出发来构造软件系统,用对象 作为对这些事物的抽象表示,并以此作为系统的基本构成单位。事物的静 态特征( 即可以用一些数据来表达的特征) 用对象的属性表示,事物的动 态特征( 即事物的行为) 用对象的服务表示。对象的属性与服务结合为一 体,成为一个独立的实体,对外屏蔽其内部细节( 称作封装) 。对事物进 行分类,把具有相同属性和相同服务的对象归为一类,类是这些对象的抽 象描述,每个对象是它的类的一个实例。通过在不同程度上运用抽象的原 则( 较多或较少地忽略事物之间的差异) ,可以得到较一般的类和较特殊 的类。特殊类继承一般类的属性和服务,面向对象方法支持对这种继承关 系的描述与实现,从而简化系统的构造过程及其文档。复杂的对象可以用 简单的对象作为其构成部分( 称为聚合) 。对象之间通过消息进行通信, 以实现对象之间的动态联系。通过关联表达对象之间的静态关系。 开发一个软件是为了解决某些问题。这些问题所涉及的业务范围称 作该软件的问题域。面向对象方法强调直接以问题域( 现实世界) 中的事 物为中心来思考问题、认识问题,并根据这些事物的本质特征,把它们抽 北京交通大学硕士学位论文 象地表现为软件系统中的对象,作为系统的基本构成单位,而不是用一些 与现实世界中的事物相差较远、并且没有对应关系的其它概念来构造系 统。这可以便系统直接地映射问题域,保持问题域中事物及其相互关系的 本来面貌。另外,软件开发方法不应该是一种超脱人类日常思维方式的、 与人类在长期进化过程中形成的各种行之有效的思想方法迥然不同的思 想体系。与以往的结构化开发方法等相比,面向对象方法更加强调运用人 类在日常的逻辑思维中经常采用的思想方法与原则,例如抽象、分类、继 承、聚合、封装等等。这使得软件开发者能更有效地思考问题,并以其他 人也能看得懂的方式把自己的认识表达出来。 总括以上几点可以看到,在用面向对象方法开发的系统中,以类的 形式进行描述并通过对类的引用而创建的对象是系统的基本构成单位。这 些对象对应着问题域中的各个事物,他们内部的属性与服务刻画了事物的 静态特征和动态特征。对象类之间的继承关系、聚合关系、消息和关联如 实地表达了问题域中事物之间实际存在的各种关系。因此,无论是系统的 构成成分,还是通过这些成分之间的关系而体现的系统结构,都可直接地 映射问题域。 作为新一代数据系统,尽管许多学者认为其尚未成熟,但它已明显与 传统数据库系统相区别:克服了前两代数据库系统中的面向机器算法的数 据模型、数据类型的简单固定等局限,努力与多种学科技术进行有机结合, 满足数据库系统应用拓展到超大型数据检索、数据仓库、联机数据分析、 数据挖掘以及大吞吐量的o l t p 等诸多应用领域,以及处理超文本、图形 图像、c a d 等复杂对象和工程、地理等领域中的非格式化、非经典数据的 要求。新一代数据库的这些特点非常适合于统计元数据库建立的要求,所 以在统计信息系统的数据库建设中,使用和借鉴新一代数据库的特点,有 助于更好地为统计信息化建设服务。 国内外统计元数据库现状及发展趋势 3 国内外统计元数据库现状及发展趋势分析 3 1 统计行业信息化建设现状 统计信息是我国经济、科技、社会信息的主体,是国家宏观管理和决 策的重要依据,是国家的基本信息资源。目前,统计数据大量分散在各个 统计专业中,面对大量繁杂而分散的数据资源,如何安全有效地管理和重 组数据,提炼出综合统一的数据信息,以供政府部门和社会各界利用,成 为目前各级统计机关所面临的一个急于解决丽又比较难于解决的问题。 迄今为止,统计系统的网络建设已经具备了一定的规模,为统设汁、 统一部署统计工作,为统一数据处理和数据管理标准,为统计信息化建设 创造了较好的网络环境。统计系统已经建成了以基层统计报表为基础,层 层上报,具有较完整统计信息的数据库体系,能够为政府宏观调控和决策, 为社会企事业单位和个人提供高效支持与优质服务的网络统计信息数据 库系统。 但是,现有系统存在明显的问题:统计基础工作严重滞后。由于多 年来一直未建立起统计分类及统计指标体系、编码体系,统计调查方法体 系及统计报表制度等方面的统计基本标准;缺乏统计数据处理和管理所必 需的基本约定及系统运行的基本依据:缺乏套充分利用现代化信息技术 ( 包括网络技术、数据库技术、通信技术等) ,集统计报表处理、统计信 息加工、统计信息存贮管理、统计分析、统计预测、信息发布于一身的高 集成度的应用系统的支持;从而导致统计资料分散、数据格式千变万化; 统计信息处理与管理手段落后,难以保证统计数据处理和管理的准确性、 致性、完整性、可比性、共享性:信息资源得不到有效的开发利用,统 计资源浪费现象严重。随着经济的迅速发展和新需求的不断涌现,统计行 业的业务系统的发展速度显得相对有些滞后了,由此产生了一些问题主要 包括以下几点: a 、统计信息的数据格式多样,存在冗余,缺乏统一的管理 各个部门使用的数据库系统和数据格式均不相同,且各个系统相对独 立。在系统单独运行时,一般都没有问题,但要将不同部门或不同时期的 北京交通大学硕士学位论文 数据进行综合利用,就可能出现数据不齐全、不一致或重复的现象。统计 数据不仅来源于统计局内部的各个专业处室,而且还有很多来自直报企业 和其他相关部门或外部单位的报送。这些数据一般分散存放在各个统计专 业处室的数据库中,而且大多只保存近期数据,数据之间存在冗余,缺乏 不同专业不同时期统计数据的集中存放和管理,不利于统计数据的进一步 加工利用。 b 、数据资源丰富,但开发利用不充分 统计业务涉及到各行各业和众多企业,指标很多,数据量很大,各 级统计局除了能将这些数据汇总成为统计报表、统计年鉴、市情手册或经 济卡片之外,未能充分利用丰富的信息资源,缺乏对专业统计数据进行各 种深层次分析、综合、提炼、挖掘和展现的应用软件,最终用户可利用的 分析、预测数据不多,能辅助决策的有效信息就更少。 c 、忽视了政府决策支持和企业决策支持 统计局的信息资源应用偏重于上报统计报表,在计划经济时期,统计 局的职能主要是为上级统计机关报送统计报表;在市场经济时期,统计局 不仅要为上级统计机关报送统计报表,而且还要更多地为辅助本级政府宏 观决策和企业宏观决策及时提供各种信息和情报,因此统计局尚需考虑在 今后的软件设计过程中增加为政府和企业进行决策支持的功能。 由于现统计局业务系统所存在的问题,迫使我们要想办法去找出一种 好的解决方案去有效地解决上述问题,本文引入了元数据管理统计业务系 统数据库的思想,实践证明了这套方案的实施为信息化建设更好的服务于 统计行业提供了有力的技术支持。 3 2 统计元数据库相关应用现状 在发达国家,统计元数据库系统的应用比较广泛,通过元数据库来构 建信息处理平台正慢慢成为潮流,面中国在这方面才刚刚起步。有关机构 估计,在未来的十年内,元数据库的发展速度将是惊人的,在美国1 9 9 6 年仅有不足2 0 的企业采用元数据库技术,到2 0 0 5 年,这个数字将达到 9 j 以上。 国内外统计元数据库现状及发展趋势 由于统计工作在经济及社会发展中的重要作用,为了能够创造性地 和及时有效地把握住元数据库的迅速发展机会,世界各国政府纷纷采取措 施保障和促进本国统计元数据库技术的发展。一些国家提出了面向统计行 业的元数据框架,制定了相关的政策、法规和发展战略。o e c d 、( 经济合 作和发展组织) a p e c 、( 亚太经合组织) w i p o 、( 世界知识产权组织) 以及 u n ( 联合国) 等国际组织都专门成立了工作组,提出了一些报告,制定了 相关的政策法规。如美国人口普查中心( b o c ) 开发的元数据库系统- c m r 、 澳大利亚中央统计局开发的元数据系统一s b o m a 等等。 我国统计元数据库的构建工作始于2 0 0 0 年。2 0 0 0 年8 月国家统计局 采用数据公布通用系统( g d d s ) 和数据公布特殊标准( s d d s ) 标志着我国 统计行业启动元数据系统的建设。经过近2 年的建设,全国多数省市在开 发信息系统时都考虑将元数据纳入系统建设之中,但时至今日国内成型的 元数据库系统产品领域还是空白。因此开发成品统计元数据库系统对于推 进统计信息化建设,节约信息化建设费用具有重要意义。 据统计,2 0 0 2 年全国统计行业用于信息化建设的费用将近2 0 0 亿元, 其中用于元数据建设的费用占总费用的4 0 以上。据估计,如果能够开发 出符合国际标准的成品化统计元数据库系统,每年直接能够节约投资近 1 0 0 亿元。 特别应该指出的是,我国加入世贸组织后,统计行业将直接面向市 场,并且必须以国际标准提供统计产品。这两项都对我国统计行业形成了 巨大的压力,所以要提前做些准备。 3 3 统计元数据库的发展趋势 目前统计元数据库的发展以提高系统灵活性、加强统计信息管理为 方向,表现出强劲的发展势头,并呈现出以下趋势: a 、含盖的统计信息面拓广 统计元数据库中所包含的信息已超越了对数据的说明,进而包括指 标体系、报表描述、汇总规则、审核规则以及统计数据处理流程信息的说 明,以及数据规范、记录格式、机器地址、存取安全、数据库模型和存取 北京交通大学硕士学位论文 过程等信息。 b 、面向统计信息平台系统 统计元数据库在发展的过程中,越来越将自身的定位放在面向统计 信息平台系统上。从上述元数据库所包含的内容来看,统计元数据库的最 终作用在于面向整体统计信息平台,提供所需的信息支持。 c 、基于w e b 的元数据库 i n t e r n e t 技术的发展,使得通过互联网进行数据存取成为一种新的 数据获取方式。统计元数据库在发展过程中,也将i n t e r n e t 作为1 一种信 息发布接口,即用户可以通过i n t e r n e t 获取元数据库中的信息。 d 、针对统计管理的元数据库 统计元数据库在发展过程中,很多国家提出了通过增加可灵活配置 的处理模块,将统计管理思想纳入元数据库进行统一管理的想法,用户可 以通过元数据库提供的配置模块对统计处理流程进行调整。 近年来,电子政务系统的建设使得信息化基本上覆盖了整个政府机 关。办公自动化软件、电子邮件、网上政务处理等系统的应用使电子化成 为机关处理日常事物的主要手段。这些都为统计信息化建设提供了良好的 外部环境。 经过几年的建设,统计信息化已经初见成效。包括业务处理系统、 数据仓库系统、g i s 系统在内的统计应用已经基本完成。这些应用系统完 成了某些方面的统计需求,同时确定了统计工作规范,在处理业务的同时 也产生了大量的数据。这就为统计元数据系统的构建提供了良好的“原材 料”。 2 0 0 1 年国家统计局在统计信息化建设中明确要求,各地市统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论