(计算机软件与理论专业论文)基于数据仓库技术的高校图书馆建设研究.pdf_第1页
(计算机软件与理论专业论文)基于数据仓库技术的高校图书馆建设研究.pdf_第2页
(计算机软件与理论专业论文)基于数据仓库技术的高校图书馆建设研究.pdf_第3页
(计算机软件与理论专业论文)基于数据仓库技术的高校图书馆建设研究.pdf_第4页
(计算机软件与理论专业论文)基于数据仓库技术的高校图书馆建设研究.pdf_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息技术、多媒体技术以及网络与通信技术的飞速发展,图书馆在经过传统图 书馆阶段、自动化阶段之后已经步入数字化建设阶段。近几年高校规模的不断壮大更是 为图书馆的发展提供了机遇,高校图书馆在服务方式、馆藏结构及服务功能方面都发生 了很大改变。数据仓库技术的应用更是加速了现代高校图书馆的数字化建设步伐,但是 目前我国高校图书馆的数据仓库都是基于自身的图书管理系统建立起来的,没有很好地 整合校园里的其它资源,存在一定的局限性。 为了更好地发展高校图书馆的现代化建设,本文在分析和研究数据仓库技术的发展 状况及其基本理论知识的基础之上,将数据仓库技术运用到现代高校图书馆的数字化建 设当中。以吉林师范大学图书馆管理系统和教务管理系统的数据库为主要数据源,从图 书管理系统中抽取读者信息数据、文献信息数据,并从教务管理系统中抽取学生信息数 据和课程信息数据,建立起以文献借阅为主题的图书馆数据仓库。通过对数据仓库中相 关数据的分析预测读者的借阅需求,在读者下次访问时为读者提供个性化服务。 关键词:数据仓库;维度建模;高校图书馆 a b s t r a c t a l o n g 、析t i lt h ei n f o r m a t i o nt e c h n o l o g y , t h em u l t i m e d i at e c h n o l o g y , t h en e t w o r ka n d c o m m u n i c a t i o n ss w i f td e v e l o p m e n t ,t h el i b r a r ya f t e rp a s s i n gt h r o u g ht h et r a d i t i o n a ll i b r a r y s t a g e ,t h ea u t o m a t e ds t a g ea l r e a d ym a r c h e di n t ot h ed i g i t i z a t i o nc o n s t r u c t i o np h a s e i nr e c e n t y e a r st h eu n i v e r s i t ys c a l ee x p a n d e di su n c e a s i n g l yh a sp r o v i d e dt h eo p p o r t u n i t yf o rt h el i b r a r y d e v e l o p m e n t ,t h eu n i v e r s i t yl i b r a r yi nt h es e r v i c em o d e ,t h ec o l l e c t i o ns t r u c t u r ea n dt h e s e r v i c ef u n c t i o na s p e c th a sh a dt h ev e r yb i gc h a n g e t h ed a t aw a r e h o u s et e c h n o l o g y s a p p l i c a t i o nh a sa c c e l e r a t e dt h em o d e mu n i v e r s i t yl i b r a r yd i g i t i z a t i o nc o n s t r u c t i o np r o c e s s ,b u t t h ep r e s e n to u rc o u n t r yu n i v e r s i t yl i b r a r y sd a t aw a r e h o u s ei se s t a b l i s h e sb a s e do no w n b o o k sm a n a g e m e n ts y s t e mm a n a g e m e n ts y s t e m ,d o e sn o th a v ew e l li nc o n f o r m i t yc a m p u s o t h e rr e s o u r c e s ,h a sc e r t a i n1 i m i t a t i o n i no r d e rt ob e t t e rd e v e l o p m e n to ft h em o d e m i z a t i o no fu n i v e r s i t yl i b r a r i e s ,t h i sa r t i c l e a n a l y z e sa n ds t u d i e si nt e c h n o l o g y ,d a t aw a r e h o u s ed e v e l o p m e n ta n d t h eb a s i ct h e o r e t i c a l k n o w l e d g eb a s e do nd a t aw a r e h o u s et e c h n o l o g yt om o d e md i g i t a lc o l l e g el i b r a r y c o n s t r u c t i o n t a k et h ej i l i nn o r m a lu n i v e r s i t yl i b r a r ym a n a g e m e n ts y s t e ma n dt h ee d u c a t i o n a l a d m i n i s t r a t i o nm a n a g e m e n ts y s t e mm a n a g e m e n ts y s t e m sd a t a b a s e 笛t h em a i nd a t ap o o l , e x t r a c t st h er e a d e rm e s s a g ed a t a , t h el i t e r a t u r em e s s a g ed a t af r o mt h eb o o k sm a n a g e m e n t s y s t e mm a n a g e m e n ts y s t e m ,a n de x t r a c t st h es t u d e n tm e s s a g ed a t aa n dt h ec u r r i c u l u m m e s s a g ed a t af r o mt h ee d u c a t i o n a la d m i n i s t r a t i o nm a n a g e m e n ts y s t e mm a n a g e m e n ts y s t e m , t h ee s t a b l i s h m e n tt a k el i t e r a t u r eb o r r o w i n ga st h es u b j e c tl i b r a r yd a t aw a r e h o u s e t h r o u g ht o t h ed a t aw a r e h o u s ei nc o r r e l a t i o nd a t a sa n a l y s i sf o r e c a s tr e a d e r sb o r r o w i n gd e m a n d , w h e n r e a d e rn e x tt i m ev i s i tp r o v i d e st h ep e r s o n a l i z e ds e r v i c ef o rt h er e a d e r k e yw o r d :d a t aw a r e h o u s e ;d i m e n s i o n a lm o d e l i n g ;u n i v e r s i t yl i b r a r y n 独创性声明 本人郑重卢明:所提交的学位论文是本人在导师指导。卜独立进行研究i :作所取 得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文 中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授 学位论文作者签名避 日 期:邋:丝西 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 引言 随着计算机技术的飞速发展以及人们对信息需求的不断提高,以往的数据库管理系 统已经无法满足对较大规模决策支持数据的分析。因此在2 0 世纪9 0 年代初一种适用于 决策支持系统的数据组织与管理技术应运而生,这种不仅被理论界和学术界视为数据库 技术重大发展并且也被企业界看作能够为其带来巨大效益的技术就是数据仓库技术。发 展到现在数据仓库已经和数据挖掘以及联机分析处理三者有效的结合,并被认为是一种 新型的决策支持系统。虽然在很多领域都已经出现了相关产品,但就目前我国的高校图 书馆来说数据仓库技术的应用还有很大的发展空间。 图书馆在社会发展过程中一直扮演着传播知识的重要角色,但是由于图书馆和读者 之间的互动不足,馆藏资源只有少数被有效地利用,使图书馆的服务处于被动的地位, 造成了资源的严重浪费。虽然现代高校图书馆经过多年的建设发展已经取得了长足的进 步,但馆藏资源利用率低的问题依然存在。“教师是一所学校的头脑,图书馆是一所学 校的心脏”欧美图书馆学研究者对图书馆的比喻显示出图书馆在高等教育中的重要性。 高校图书馆不同于其它类型的图书馆,其主要目的在于支持教学研究,提高学校的整体 研究与发展能力。面对现在多元服务的现状,传统的图书馆自动化系统或者图书馆信息 系统已经不能完全胜任对图书馆的有效管理、正确决策、优质高效等方面的服务。为解 决上述等问题,高校图书馆在建设过程中需要有效的数据整合与分析技术。 东北师范大学硕士学位论文 第一章绪论 1 1 研究背景 在我国图书馆界使用计算机的二十多年时间里图书馆的发展经历了两次大的变迁。 一是微型计算机的出现,使图书馆计算机的应用得到普及;二是国际互联网的推广,它 使图书馆由封闭服务走向开放,如今图书馆的借阅方式已经从闭架的目录检索服务发展 到了开架借阅服务。高校的图书馆主要服务对象是其所属学校的学术社群即全校学生及 教职员工,为不断缩小新时代读者需求与图书馆服务之间的差距,现代高校图书馆应该 不断尝试提升自己的个性化服务和导航作用。 国外发达国家的高校图书馆对读者服务方面要领先于国内高校的发展水平。例如罗 各斯大学图书馆致力于寻找采购电子资源与传统资源如书籍等之间最适当的平衡;哈佛 大学图书馆在其网站首页列出推荐的学术论文及内容介绍;马赛诸赛大学的杜博图书馆 能够在读者需要的时候随时提供服务,并且针对自己的新馆藏提供符合读者时间表的全 方位服务。 国内很多高校图书馆虽然也在不断的学习先进的服务理念和方式,但由于种种条件 的限制目前大部分图书馆的服务水平和方式仍需要相当大的改进。高校图书馆各种措施 的制定和实施都需要对文献的利用情况及读者群的特性进行有效地分析,才能制定出科 学的服务方式。将数据仓库的相关技术运用到图书馆的建设中,根据读者的借阅信息数 据挖掘出读者的借阅行为与馆藏资源的联系,了解读者的兴趣爱好,确定个性化服务的 内容,将服务方式由被动服务转化为主动服务,这是现代高校图书馆发展的必然方向。 1 2 研究目标及现实意义 1 2 1 研究目标 本文旨在将数据仓库技术运用到图书馆的现代化建设中,以吉林师范大学图书馆管 理系统中的读者信息数据、文献借阅数据以及吉林师范大学教务管理系统中的学生成绩 数据、教师信息数据为基础数据来源进行分析,建立以文献借阅为主题的图书馆数据仓 库,从中发现学生的课业成绩与借阅的文献、教师的授课情况与借阅的文献之间存在的 关联,为教师和学生两类读者开展相应的个性化服务,提高文献的有效利用率。 1 2 2 现实意义 通过数据仓库技术在图书馆建设中的应用,将与文献借阅相关的读者群数据集成并 综合,全面地对读者的借阅行为进行评估和分析,从而得到不同读者的需求特点,预测 读者未来的需求方向,图书馆管理人员利用分析得到的数据辅助各种决策的制定,不断 2 东北9 币范大学硕士学位论文 改进图书馆的管理和服务理念,增强图书馆的特色及个性化服务。有效地缓解图书馆工 作与读者实际需求脱节的现象,满足读者对图书馆提出的更高的要求,为全校师生带去 更多的方便,使学校图书馆的建设能够朝着更加完善的方向发展。 1 3 本文的组织结构 建设以文献借阅为主题的图书馆数据仓库首先要对读者信息和馆藏文献信息分析, 将读者划分为学生和教师两大类;并从教务管理系统中抽取学生成绩信息和教师授课信 息,分析出学生的课业成绩与其借阅文献之间以及教师的授课情况与其借阅文献的潜在 关系。按照这个思路,本文的组织结构如下: 第一章绪论部分主要介绍本文的研究背景、研究目标、研究的现实意义,并且简要 介绍本文的组织结构。 第二章主要介绍数据仓库的基本知识,如数据仓库的概念和特征、数据仓库的基本 功能以及构建数据仓库的基本模式;并且简要介绍本文所涉及到的与数据仓库相关的基 本知识。 第三章将要通过介绍高校图书馆的馆藏数据的特点以及读者群与文献借阅之间关 系的分析提出在高校图书馆建设中应用数据仓库技术的可行性;并且介绍图书馆数据仓 库的三层维度建模方法及优化问题的处理。 第四章是本文的主要组成部分即以文献借阅为主题的图书馆数据仓库模型的设计。 本章将要进行数据仓库的逻辑层建模和物理层建模。 第五章将分别从馆藏文献、学生读者和教师读者以及课程信息三个方面分析出馆藏 资源的利用情况与读者相关信息之间的潜在联系,阐述数据仓库在图书馆的管理者制定 决策时的作用。 第六章的总结与展望将要对本文进行宏观的整理分析,在总结本文的同时找出不足 的地方并且提出对将来继续研究的展望。 东北师范大学硕士学位论文 第二章数据仓库基本知识介绍及相关理论 2 1 数据仓库基本知识 2 1 1 数据仓库的概念 数据仓库( d a t aw a r e h o u s e ,d w ) 概念的提出始于2 0 世纪8 0 年代中期,“数据仓库 之父”w i l l j a mh i n m o n 在建立数据仓库一书中定义到“数据仓库是企业管理和决 rj 1 策中面向主题的、集成的、与时间相关的、不可修改的数据集合 ”。也就是说首先 数据仓库是用于支持决策面向分析型数据处理的,它不同于企业现有的操作型数据库; 其次,数据仓库是对多个异构的数据源有效地集成,然后按照主题进行重组,并且包含 历史数据,存放在数据仓库中的数据一般不再修改。由此可以看出数据仓库最根本的特 点是物理地存放数据,并且这些数据并不是最新的、专有的,而是来源于其它数据库的。 数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础 上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作 性的任务。 自从2 0 世纪8 0 年代中期,w h i n m o n 提出数据仓库这个概念以来,数据仓库技术已 经有了很大的发展。随着数据库技术的应用和发展,数据的累积越来越多,对历史数据 进行分析以提供决策依据的需求越来越大,数据仓库的应用需求也随之增大,构建高效 的数据仓库对信息产业的发展有着重要的作用。 2 1 2 数据仓库的特征 r t 1 根据数据仓库的概念可以总结出数据仓库具有以下四个特征u “: ( 1 ) 面向主题性 传统的操作型数据库的数据组织面向事物处理任务,各个业务系统之间相互分离。 而数据仓库中的数据是按照一定的主题进行组织,以便为按主题进行决策的过程提供信 息。 ( 2 ) 集成性 面向事务处理的操作型数据库之间相互对立且往往是异构的。而数据仓库中的数据 是在对原有分散的数据库数据进行抽取、清理的基础上再经过系统加工、汇总和整理得 到的,消除了源数据中的不一致性,从而保证了数据仓库中的信息是关于整个企业的一 致的全局信息。 ( 3 ) 相对稳定性 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。而数据仓库的 数据主要作为决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数 4 东北师范大学硕士学位论文 据仓库以后将被长期保留。在数据仓库中一般很少有大量地查询、修改和删除的操作, 通常只需要定期地加载、刷新。 ( 4 ) 时间相关性 对于用户来说,数据仓库的数据一般不进行更新,也就是说数据仓库的用户进行分 析处理时是不进行数据更新操作的。但在从数据集成并导入数据仓库到最终被删除的数 据生存周期中,数据仓库的数据是与时间相关的。这一特征具体表现在以下三个方面: 数据仓库随时间变化不断增加新的数据内容: 数据仓库随时间变化不断删除无用的数据。这里需要说明的是数据仓库的数据 存储时限要远远长于操作环境中数据的时限,以适应决策分析的要求; 数据仓库中包含的大量综合数据很多是跟时间有密切关系的。例如数据经常按 照时间段进行综合或者每隔一定的时间段进行抽样。 2 2 数据仓库的数据组织 数据仓库中数据的通常采用分级的方式进行组织。数据一般包含早期细节数据、当 前细节数据、轻度综合数据、高度综合数据1 明。各系统元数据经过e t l 处理整合后,成 为当前细节数据,当前细节数据根据需求进一步的综合,从而变成轻度综合数据乃至高 度综合数据。数据仓库的数据组织结构如图2 - 1 。 日日日日日日 高度综合数据 轻度综合数据 当前细节数据 早期细节数据 图2 - 1 数据仓库的数据组织结构 ( 1 ) 早期细节数据:主要用于数据对比、回归、汇总、预测等,供决策分析、建 模之用。这类数据随时间增加,数据量大但使用频度低。 ( 2 ) 当前细节数据:该层存储当前最新的细节数据,在一定时刻这些数据会转移 到历史数据层去。由于这里存储的是当前最新数据,所以它对了解当前情况具有重要作 5 东北师范大学硕士学位论文 用。 ( 3 ) 轻度综合数据:轻度综合层数据来源于底层,它综合、总结不同阶段、不同 层次的底层数据。该层的存储内容已经是有序化程度较低的信息,但这些信息只是一些 简单的汇总,尚不能形成高级的决策信息。 ( 4 ) 高度综合数据:高度综合数据层的内容为高度有序化的信息,而非简单的数 据。它是对底层数据进行专业分析,如回归、统计性分析、运筹分析、预测分析等,得 到最深层次的信息。这一层的数据高度聚合,是一种准决策数据。 2 3 数据仓库的体系结构 数据仓库系统对原始数据进行抽取、转换、过滤、清洗和加载,并对数据仓库中 存储的数据进行更新、管理和使用,用以支持数据仓库的应用或管理决策。数据仓库系 统通常包含数据源、数据抽取转换和加载、数据存储与管理、0 l a p 服务器和前端数据访 问和分析工具五部分组成。 内部 敌 。几1 _ 1 数据、 南疆 # e 1 ) 分幸j j :llu l 用 源 、 删 ,阡耐 v、 抽 , 取 f刁 i 报挺l - l 【旷 - 卜 、 转 ,l 数榭仓州 服务 l p ,l 外部 换 l 弋 啪i :ll。r 一 户 一b 一_ 数据一 和 删l 一 效捌挖捅;l l qj 源 7 加 坡 数槲抽墩, 数据源 数撕仓库0 l a p 暇务: : 数删访问和分析 转换f l l 朋i 段 图2 - 2 数据仓库的体系结构 数据源是数据仓库系统的基础,通常包括内部数据和外部数据。数据抽取、转换和 加载工具从数据源中抽取数据,对数据进行校验和整理,并根据数据仓库的设计要求对 数据进行重新组织和) j n t _ 后将数据加载到数据仓库中。0 l a p 服务器对分析需要的数据进 行有效集成,按多维模型予以组织以便进行多角度、多层次的分析。前端数据访问和分 析工具供业务人员和决策人员访问目标数据库中的数据,并做深入分析以实现决策支持 系统的各种要求。 2 4 数据仓库的建模方法 2 4 1 实体关系建模 实体关系建模也称为第三范式建模,即为大多数传统的数据库系统的建模方 法。范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式 6 东北师范大学硕士学位论文 进行无损分解,这个过程也称为规范化。通常在数据库的模型设计中一般采用第三范式 1 8 0 2 4 2 维度建模 数据仓库的模型设计可以分为自上而下从需求出发与自下而上从底层数据出发两 种方式。维度建模是以另一个视角来观察企业的数据,以分析主题为基本框架来组织数 据,这种方法融合了自上而下和自下而上两种设计方法的思想。维度建模的主要构件是 事实表和维度表。事实表中保存企业的数据,而维度表是观察企业数据的角度,是事实 表的入口点。维度表可以看作是用户来分析数据的窗口,维度表中包含事实数据表 中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据 表数据,以便为分析者提供有用的信息。 维度建模是一种逻辑设计技术,该技术试图采用某种直观的标准框架结构来表现数 据,并且允许进行高性能存取。因为与实体关系建模方法相比较,维度建模方法能 产生可预知、可理解的数据仓库设计,后者能被用户使用和消化,并且能够执行高性能 的查询。易理解性和性能是数据仓库中两个必不可少的需求。与实体关系建模方法 不同的是当新数据被载入到数据仓库中或者必须修改各种数据源之间的关系时,若采用 维度建模方法,则不需要重新构造数据库或者重写查询。此外维度建模还有易于扩展的 优点。 2 4 3 三层维度建模“ 三级规范化维度建模过程分为概念层建模、逻辑层建模与物理层建模三个阶段。将 数据驱动与需求驱动相结合,从需求出发开始设计的同时也在设计过程中参考操作型数 据库中的数据结构,形成适合图书馆实际情况的逻辑模型。实体关系图作为概念模型设 计的重要工具是确定数据仓库总线结构的依据,也是数据仓库总线矩阵的前期文档。三 级规范化维度建模的整个设计过程如图2 - 3 。 图2 - 3 三级维度建模方法 7 概念层建模 逻辑层建模 物理层建模 东北师范大学硕士学位论文 ( 1 ) 概念层建模 数据仓库的概念层建模是在分析业务需求的基础上结合数据分析结果,确定数据仓 库的主题,从而建立主题之间的联系。由于主题是比较抽象的实体,所以确定数据仓库 的主题需要技术专家、业务专家和企业信息主管共同配合,才能对业务问题进行提炼, 建立满足企业需求的概念模型。三级维度建模方法的不同之处在于概念层建模得到的是 实体关系图,而不是信息包图。数据仓库的概念模型最终形式是实体之间的联系。这是 因为实体关系图更善于找准业务主题,而信息包图所提供的分层及选择度量值与公共维 度的作用在维层次设计及一致性事实、一致性维度中可以得到同样的效果。 ( 2 ) 逻辑层建模 目前数据仓库的多维数据逻辑模型有星型模型、雪花模型和星座模型。最常见的是 星型模型,其中数据仓库包括一个大的包含大量数据和不含冗余的中心表即事实表,以 及一组小的附属表即维度表。星型模型是一种多维的数据关系,满足面向主题的数据仓 库设计者的需要,它由一个事实表和一组维度表组成,每个维表都有一个主键,所有的 这些维的主键组合成事实表的主键。事实表的非主属性称为事实,它们一般都是数据或 其它可以进行计算的数据,而维表大多是文字、时间等数据。建立“星型模型后,就 可以在关系数据库中模拟数据的多维查询。即:通过维度表的主健,对事实表和每个维 度表做连接操作,这样一次查询就可以得到数据的值以及对数据的多维描述。 关系表 目 图2 - 4 星型模型 星型结构 本文决定使用星型模型主要有两方面的原因。首先,它能提高查询的效率,采用星 型模型设计的数据仓库的优点是由于数据的组织己经预处理过,主要数据都在庞大的事 实表中,所以只要扫描事实表就可以查询,不必把多个庞大的表联接起来查询,访问效 率较高;其次,对于非计算机专业的用户而言星型模型比较直观,很容易组合出各种查 询,适合数据仓库使用者进行分析操作。 ( 3 ) 物理层建模 进行数据仓库的物理模型设计是为提高数据仓库的性能。数据仓库的物理模型设计 一般分为如下四个步骤: 定义数据表的命名标准:在定义物理实体、关系和字段之前,首先应该明确命 8 东北师范大学硕士学位论文 名约定,包括数据类型、约束条件、索引等; 确定数据组织:包括数据的存放位置,初始数据仓库的大小、增量大小,还包 括数据表的主键、外键,列的个数、列名等; 确定数据容量和更新频率:要对每一个数据仓库实体进行容量和更新频率的评 估,容量包括实体预期的行和模式增加的数量; 确定实体特征:完全识别实体包括键标属性、值的有效范围、完整性约束条件、 类型和长度等。 2 5 数据仓库维度建模的优化 在进行维度建模时经常要用到事实表和维度表这两个概念。事实是将要分析的目标 数据,这些数据由应用系统每r 生成,数量庞大;维度表表示的是事实信息的属性,它 的内容一般变化不大,数量也相对较小。 设计数据仓库系统维度模型时常常需要进行不规范化处理,这是因为随着系统数据 量的不断增长,进行多表连接时间的逐渐增加变得令人难以忍受。维度建模设计选择取 决于多种因素,通过分析可以得出数据仓库系统中对数据库引擎最大的挑战是多表连 接、表的累计、数据排序、大量数据的扫描。根据这些因素对维度模型进行选择和优化, 确定以下的设计策略: ( 1 ) 避免多表连接 在设计模型时对表进行合并,即所谓的预连接,可以采用数据冗余量提高系统速度 的设计方法。 ( 2 ) 避免对表中数据计算 在模型中增加有关小计数据的项,这样利用数据的冗余来减少因计算所消耗掉的时 间,减少了系统的整体响应时间。 ( 3 ) 避免数据的排序 采用对数据事先按规律排序的方法,这样可以减少大量用于排序的时间。 ( 4 ) 避免对大表的扫描 通过使用树索引、位图索引等大量的索引提高对大表扫描的响应度。虽然增加了系 统的复杂程度,但通过避免对大数据量表的扫描,可以大大提高系统的响应速度。 2 6 相关知识介绍 2 6 1 联机分析处理( o l a p ) 联机分析处理是一种用于对大容量数据汇总与分析的技术,使用户能够以更快、更 易于使用的交互方式从数据中获得信息。o l a p 一般是数据仓库应用的前端工具,同时 还可以和数据挖掘工具、统计分析工具配合使用,增强决策分析功能。此外,联系分析 处理的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结 合、相互补充的关系。 9 东北师范大学硕士学位论文 2 6 2 数据挖掘 数据挖掘是指从数据库及数据仓库中抽取隐含的、先前未知的并有潜在价值的信息 的过程。它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史及 当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,为决策者提 供强有利的支持。数据挖掘的过程包括数据预处理、数据变换、数据挖掘、模式评价及 知识表示,事实上数据挖掘是一个周而复始的过程,即从一个主题中产生的想法往往需 要进一步分析从而产生新的主题,而新的主题又可以产生更新的主题。 数据挖掘的方法分为描述性分析和预测性分析两大类卜“。描述性分析包含关联分 析、序列分析、聚类分析和滤除分析等,通过描述性分析了解系统数据实际存在的特性 从而为预测做好准备;预测性分析在此基础上得到最终需要的结果以便为决策者提供直 接的决策依据,预测性分析包括分类型预测和统计回归型预测。 2 6 3 数据仓库、联机分析和数据挖掘的关系 数据仓库、联系分析处理( o l a p ) 和数据挖掘虽然是三种相互独立的技术,但是它们 却紧密地结合在一起,共同为决策者提供支持服务。可以说数据仓库是基础,联系分析 处理和数据挖掘是建立在数据仓库之上的两种分析工具。 1 0 东北师范大学硕士学位论文 第三章高校图书馆建设中应用数据仓库技术的可行性 3 1 高校图书馆的馆藏数据特点 公共图书馆的读者层次比较丰富,因此各类藏书量较为平均,高校图书馆的藏书结 构与其有着明显的区别,主要体现在以下几个方面: ( 1 ) 资源海量性 随着高校的不断发展壮大,图书馆的馆藏资源范围也更加广泛、全面,而伴随读者 数量的不断增加图书馆的借阅数据、馆藏数据也以惊人的速度增长。 ( 2 ) 数据关联性 高校图书馆的读者层次相对稳定,馆藏资源与读者的需要更加紧密。从图书馆图书 管理系统中所积累的大量借阅记录中可以看出,不同的读者同时借阅多种图书或者同种 图书在不同时间被不同的读者借阅都存在某种程度的相关性。 ( 3 ) 信息潜在性 高校图书馆不仅藏有最近的图书资料,同时也拥有非常丰富的历史资料。从大量的 数据信息中可以挖掘出读者曾经的借阅行为,从而分析出读者现在及未来的借阅需求。 3 2 高校图书馆读者群与文献借阅的分析 高校图书馆的服务模式可以用图3 - 1 简单明了的表达出来。 图3 - 1 图书馆服务模式 目前大多数高校图书馆的服务方式主要是为上门读者提供“借、阅、还 以及咨询 服务的被动服务方式,随着高校图书馆的不断发展针对读者借阅行为的个性化主动服务 方式将是未来高校图书馆发展的必然趋势。 本文研究涉及的数据均来源于吉林师范大学的图书管理系统和教务管理系统。在教 务管理系统中提取的是学生成绩信息数据和课程信息数据,在图书馆管理系统中提取的 是读者信息数据和文献借阅数据。图书管理系统在读者借阅文献时产生了相关的借阅记 录数据,而文献被借阅时的记录也包含了读者的相关信息,这些信息和教务管理系统中 的某些信息是重叠的,通过这些重叠的信息不仅可以找出学生的课程成绩与其借阅文献 之间的潜在联系,也可以分析出教师所授课程与其借阅文献之间的相关性,图书馆的决 策者可以根据这些信息制定相应的管理策略。 l l 东北师范大学硕士学位论文 3 3 应用数据仓库技术的可行性 现代高校图书馆的信息服务和信息技术是高度集成、飞速发展的,因此如何针对图 书馆管理人员和读者特定的信息需要对图书馆馆藏资源进行采集、加工、存储和有效利 用是高校图书馆发展过程中必须解决的重要问题。通过对数据仓库技术的分析不难看 出,数据仓库强大的信息处理能力和内在的稳定性等特点能够帮助高校图书馆实现发展 过程的需要。这可以从下面几点中具体看出来: ( 1 ) 数据仓库面向主题的信息组织使“知识提供成为可能。这是因为在图书馆 的事物处理方面数据仓库技术面向主题的信息组织能使信息内容成为更容易被人们所 理解的语义。 ( 2 ) 数据仓库的集成能力可以很好地解决数据异构的问题,使数据标准化、有序 化,过滤掉无效的信息。 ( 3 ) 数据仓库内在的稳定性能够避免在无意识的情况下对关键数据的修改和删除, 为图书馆的海量数字资源提供了必要的安全保障。 ( 4 ) 数据仓库所具有的反映历史的特性能够使图书馆更为广泛且有效地实现资源 供给。对以往数据进行长期保存并分析,使决策者可以预测馆藏资源未来的使用趋势, 为决策制定提供支持。 综上所述,数据仓库作为一个完整的体系排除了以往多个系统间产生的异构,有效 地避免了各种中间件开发所带来的不稳定性。可以说数据仓库能够提供给高校图书馆一 个系统的信息资源解决方案,因此将数据仓库技术运用到现代高校图书馆的建设中是可 行的,也是必要的。 1 2 东北师范大学硕士学位论文 第四章高校图书t 宦数据仓库的设计 本章将要进行基于文献借阅主题的图书馆数据仓库模型设计,其理论设计过程如图 4 - 1 所示。 图4 - 1 图书馆数据仓库理论设计流程图 4 1 图书馆数据仓库的概念模型设计 数据仓库是按主题来进行数据组织的,面向主题的数据组织方式就是在较高层次上 对分析数据的一个完整且一致的描述,能够完整统一地刻画各个分析对象所涉及的各项 数据,以及各项数据之间的联系,所确定的主题应具有独立性和完备性。 本论文要研究的是吉林师范大学图书馆的文献借阅情况与读者借阅行为及相关信 息的潜在联系,根据这一线索可以确定本论文所要研究的具体方面主要可以分为两个大 的基本方面即读者的相关行为与文献借阅情况。其中将读者划分为教师和学生两大类, 这是因为本文将要提取的是教务管理系统中的学生成绩数据和教师课程数据,并且分析 学生的成绩与其借阅文献之间、教师所授课程与其借阅文献之间的潜在联系。 通过以上分析得出本文建立图书馆数据仓库的概念模型设计结果如下: 所需要的数据应该包括:文献信息数据、读者信息数据、学生成绩信息数据、 东北师范大学硕士学位论文 课程信息数据。 定义关键的性能指标是文献借阅。 定义维度:读者信息维,文献信息维,学生成绩维,课程信息维。 定义各个维度的类别:类别提供一个维的详细信息。读者信息维包括证件号、 姓名、读者类型、单位等;文献信息维包括题名、责任者、出版社、索书号、条码号等; 学生成绩维包括证件号、姓名、课程名称、成绩等;课程信息维包括课程代码、课程名 称、上课时间、授课教师、考试时间等。 4 2 图书馆数据仓库的逻辑层建模 4 2 1 数据源分析 分析操作型数据源是数据仓库的依赖所在,也是进行数据仓库设计的必要准备和先 行步骤。分析源数据库系统并特别注意它对数据仓库有影响的数据项,源系统的一些表 可以用做数据仓库维表的原型,源系统的一些报表也可以当作设计联机分析的重要参 照。 数据源分析不仅包括数据量分析还涉及到数据的质量分析。数据质量分析关系到数 据抽取转换加载的正常进行,也是确保数据仓库中数据质量的有效前提,所以根据要求 列举了以下数据质量的评价指标如图4 2 所示: 数据质量评估指标指标含义评估内容 所有的数据都应该是正确和核实数据,保证数据是有意义 数据正确性准确的,也即数据库中的实体的,能反映事物的真实情况 必须与对应的现实世界中的 对象一致 同一个实体的一些属性可能检查同一实体在不同数据库 在多个实体可能在不同的系 表中的表现形式是否一致 数据一致性 统中出现,那么这些表所描述 的同一实体的同一属性的表 达形式必须是一致的 数据必须完整,不能有缺失的检查数据的缺火值情况,去掉 数据完整性情况,即验证数据库实体的每数据库表中的空字段,对少量 个属性都有明确的值、不存在的空缺值进行数据清理 “空”或“未知”的属性 满足域和数据有效范围定义,检查数据的取值是否在有效 数据有效性即实体属性的值要在用户定的数据取值范围内,如有则修 义的有效范围之内 正处理 图4 - 2 数据源的数据质量分析 本文所需的与文献和读者相关的数据来自于吉林师范大学图书馆目前使用的汇文 文献信息服务系统中的编目子系统和流通子系统。有关学生成绩和课程信息的数据来自 1 4 东北师范大学硕士学位论文 于吉林师范大学教务处的吉林师范大学教务网络管理系统中的学生成绩管理子系统和 课程管理子系统。 4 2 2 维度表的设计 维表在汇总、插入分析和扩展分析中很有用,同时维表说明事实表。维表可以借鉴 源系统数据集,在此基础上作具体分析以保证从各个子系统得到的数据形式一致。维度 表是进入事实表的入口,由一个主关键字和一系列的属性组成。主关键字与事实表对应 的外关键字相连。属性是查询约束条件与报表标签生成的基本来源,其质量直接影响到 用户数据分析的能力,因此定义维度属性是一项非常重要的工作。维表在设计时要注意 建立维表主键应尽量使用整数型的代理关键字,因为从长远来看会更有帮助为反映历史 变化,共享维度表是指多个主题同时关联的维度表,在图书馆数据仓库的设计中包括读 者信息维度表,文献信息维度表,学生成绩维度表,教师授课信息维度表。 ( 1 ) 读者信息维度表 读者信息维度表包括读者的基本信息即证件号、姓名、所属学院、读者类型,读者 信息维度表的设计及数据实例如图4 - 3 所示: 读者信息维度 证件号 姓名 读者类型 所属学院 读者信息数据 f 0 8 5 0 2 6 王力 本科生 物理学院 图4 - 3 读者信息维度表及数据实例 ( 2 ) 文献信息维度表 文献信息维度表需要包括文献的基本信息即题名、责任者、出版社、索书号条码号, 文献信息维度表的设计及数据实例如图4 - 4 所示: 文献信息维度 索书号 题名 责任者 出版社 条码号 文献信息数据 t p 3 1 9 3 1 模糊专家系统 李凡著 华中理: 火学出版社 0 0 2 1 8 3 4 图4 - 4 文献信息维度表及数据实例 ( 3 ) 学生成绩维度表 学生成绩维度表包括学生的基本信息即证件号、姓名、专业,还包括学生所学的课 程名称、课程成绩。学生成绩维度表的设计及数据实例如图4 - 5 所示: 1 5 东北师范大学硕士学位论文 学生成绩维度 证件号 姓名 专业 课程名称 课程成绩 学生成绩数据 f 0 8 5 0 2 6 王力 应用物理 基础物理 8 5 图4 - 5 学生成绩维度表及数据实例 ( 4 ) 课程维度表 课程安排维度表需要包括课程的基本信息即课程代码、课程名称,还需要包括上课 时间、授课教师、考试时间等。课程安排维度表的设计及数据实例如图4 6 所示: 课程安排维度 课程代码 课程名称 上课时间 授课教师 考试时间 课程数据 f 0 0 l 基础物理 第1 学期 张华 2 0 0 9 - 0 l 一1 5 图4 - 6 教师授课信息维度表及数据实例 4 2 3 事实表的设计 事实表是维度模型的基本表,事实表在设计之初首先要明确哪些是重要的度量,像 文献的条码号、读者的证件号、课程代码、课程名称等。好的事实表设计应使数据易于 添加,除了事实度量的字段数据项外其余的字段应是数字键并与维表相链接。有关文字 的描述说明数据应放到相关的维表当中去。事实表除了主键之外还包含外接关键字来连 接到维度表的主关键字。所以事实表包含两部分,一部分定义了主键,另一部分包含了 数据仓库的数值指标。事实表是多维建模的核心,它是由各个维度表所确定的分析空间 的点。如图4 - 7 所示是文献借阅的事实表。 1 6 东北师范大学硕士学位论文 图4 7 文献借阅事实表 4 2 4 文献借阅主题的星型模型 从前面分析的过程可以看出与文献借阅主题相关的维表有读者信息维度表、文献信 息维度表、学生成绩维度表以及课程信息维度表,确定事实表和各维表之后形成文献借 阅主题的星形逻辑模型如图4 8 所示。在多维数据模型中,最常见的模型范例是星型模 式,可以为数据仓库提供优越的数据检索能力,通过各个维度索引,方便查询。图中显 示中间事实表为文献借阅的相关情况,与之相连的各个维表示相关的维度量化信息。这 种设计使得分析人员可以很灵活地利用一些分析手段,如切片、旋转、下钻等来观察事 实数据的变化和趋势,从而以极高的灵活性来分析数据。 1 7 东北师范大学硕士学位论文 读者信息维 文献信息维 证件号i d 索二 5 号 姓名 题名 读者类型 责任者 所属学院 出版社 条码号l d 文献借阅事实表 索二 s 号 题名 条码号i d 借阅时间 证件号i d 姓名 读者类型 所属学院 专业i d 学生成绩维课程维 课程代码i d 证件号 课程名称 课程代码i d 姓名 考试时间 课程名称 专业i d 课程成绩 上课时间 课程名称 授课教师 课程成绩考试时间 图4 - 8 文献借阅主题的星型模型 4 3 图书馆数据仓库的物理层建模 r c l 数据仓库的物理模型就是逻辑模型在数据仓库中的实现模式“。主要解决如何组织 和存储数据以满足系统处理的要求,如处理速度、响应时间和存储容量等问题。建立物 理模型是一个从逻辑模型向更加具体的依赖于数据库平台的物理形式转化的过程,如实 体到表、记录到行、属性到列、关系n 乡 i - 键、惟一标识符到主键的转化过程等。具体包 括逻辑模型中各种实体表的具体化,确定数据的存储结构,确定索引策略,确定数据存 放位置,确定存储分配等等。在进行物理模型设计实现时,要全面了解所选用的数据库 管理系统,特别是存储结构和存取方法,了解数据环境、数据的使用频度、使用方式、 数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。 4 3 1 数据的存储结构 图书馆数据仓库设计的初衷就是保持数据的一致性,而且随着数据仓库从开始、发 1 8 东北师范大学硕士学位论文 展到成熟必然伴随着数据表的扩大和数掘量的增长,因此在数据的存储结构设计之初应 首先重视数据库对象命名标准和物理文件的命名和位置标准。例如确定同一对象在其物 理表达中使用相同的名称、尽量使用逻辑名称和物理名称相同的字段、在设计时假定认 为对数据库大小写敏感等。 4 3 2 粒度与分割 划分粒度是数据仓库设计过程中最重要的问题之一,所谓粒度是指数据仓库中数据 单的详细程度和级别。在数据仓库环境中主要是分析型处理,粒度的划分就直接影响数 据仓库中数据量的以及所适合的查询类型。一般将数据粒度划分为详细数据、轻度数据、 高度总结三级或更多级粒度。不同粒度级别的数据用于不同类型的分析处理。 数据分割是数据仓库设计的另一项重要内容,是提高数据仓库性能的一项重要技 术。数据的分割是指把逻辑上统一整体的数据分割成较小的、可以独立管理的物理单元 进行存储,便于重构、重组和恢复,提高创建索引和顺序扫描的效率。 数据仓库中的数据分割分为水平分割、垂直分割和混合分割等形式。利用分割带来 的益处是,查询时只需要对解决该查询时必须的分割进行存取即可,能轻松快捷地从表 中添加或删除整个分割。图书馆数据仓库只需保存活动的、可存取的近期数据,从而可 以大大减轻该数据仓库的维护负担。 4 4 数据e t l 过程需要注意的问题 由于建立数据仓库时的主要数据都是由完整的数据库中转出来的数据,例如读者基 本信息库、文献借阅数据库,并不需要重新处理。但是在数据转换的关系或是人工输入 的失误使得数据的格式错误,因此对于数据的正确性和数据的格式需求进行处理。另外 经过转换或运算可以从有些本身没有太大意义的数据获得某系概念结构,便于找出更多 数据特性与概念层之间的关系。 在数据仓库建设过程中,e t l 是数据仓库基础的一步,并且是非常复杂的一个步骤。 数据的e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论