




已阅读5页,还剩64页未读, 继续免费阅读
(管理科学与工程专业论文)基于数据仓库与数据挖掘的图书借阅管理数据研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学高校教师硕士学位论文 摘要 2 l 世纪,是一个信息爆炸的时代,面对浩如烟海的信息世界,怎样才能为读 者提供更好的服务便成为图书馆人的追求。目前国内使用的图书馆文献信息管理 系统大多只能处理日常事务,面对数以万计的历史借阅数据,却缺乏快速查询与 分析能力,使得数据库中的数据得不到充分利用,严重落后于形势需求。 本论文将数据仓库和数据挖掘技术应用于图书借阅信息系统,旨在解决原有 系统所存在的数据处理效率低、可靠性差,难以将数据转化为信息等问题。通过 数据分析和数据挖掘,不仅可以了解读者访问图书馆的目的、特征和趋势,了解 读者的兴趣和需求,而且能为图书馆购买图书和管理决策提供及时、准确、可靠 的信息依据。 论文以江苏大学图书馆2 0 0 3 年至2 0 0 7 年的图书借阅信息管理数据为例, 从应用的角度,以数据仓库技术为基础,利用o l a p 分析和数据挖掘进行知识发 现。论文研究主题分以下几个方面: 1 图书借阅数据分析:分析图书的借阅特性,读者感兴趣图书,挖掘图书 的有效使用期限,为图书采购提供合理化建议。 2 大学生读者在校4 年中,图书借阅的变化特点。 3 核心出版社挖掘分析,为采购工作提供科学合理的分析报告及预测信息。 4 时间序列分析:利用时间序列分析,找出每天、每周、每年中读者使用 图书馆的时间规律性。 关键字:数据仓库,数据挖掘,多维数据集,联机分析处理,信息服务,图书馆 a b s t r a c t t h e2 1 瓢c e n t u r yi st h ee r ao fi n f o r m a t i o ne x p l o s i o n h o wt op r o v i d e b e t t e rs e r v i c et or e a d e r si nt h ec a s eo fe n d l e s si n f o r m a t i o ni st h e p u r s u a n c eo f1 i b r a r i a n t h ec u r r e n t d o m e s t i c1 i b r a r yl i t e r a t u r e i n f o r m a t i o nm a n a g e m e n ts y s t e mo n l yc a nd e a lw i t hr o u t i n ew o r k ,b u tl a c k o fa b ili t yt od oq u i c ks e a r c ha n da n a l y s i so ft h o u s a n d so fh i s t o r i c a l b o r r o w i n gi n f o r m a t i o n :t h i si sf a rb e h i n do ft h ec u r r e n tr e q u i r e m e n t t h i s t h e s i sa p p l i e st h et e c h n i q u e so ft h ed a t aw a r e h o u s ea n dd a t a m i n i n gt ot h eli b r a r yi n f o r m a t i o nm a n a g e m e n ts y s t e m ,a i m i n gt or e s o l v e s o m ep r o b l e m st h a tc a u s e db yo r i g i n a ls y s t e m ,s u c ha si n e f f i c i e n c y ,l o w c r e d i b i l i t y ,d i f f i c u l t i e si nc o n v e r t i n gd a t ai n t oi n f o r m a t i o n ,e t c b a s e d o nt h ed a t aa n a l y s i sa n dd a t am i n i n g ,w ec a nn o to n l yu n d e r s t a n dt h e p u r p o s e ,t h ec h a r a c t e r i s t i c ,t h et r e n d s ,t h ei n t e r e s ta n dt h er e q u i r e m e n t o ft h er e a d e r sw h op a t r o n i z et h eli b r a r y :w ec a na ls op r o v i d ei m m e d i a t e , a c c u r a t ea n dr e li a b l ei n f o r m a ti o nf o rt h eb o o kp u r c h a s ea n dm a n a g e m e n t d e c is i o n t h i s t h e s i st a k e st h eb o r r o w i n gi n f o r m a t i o no fj i a n g s uu n i v e r s i t y l i b r a r yf r o m2 0 0 3t o2 0 0 7a se x a m p l e ,f r o ma p p l i c a t i o na n g l e ,b a s e do n t h et e c h n i q u e so fd a t aw a r e h o u s e ,t a k ea d v a n t a g eo fo l a pa n a l y s i sa n dd a t a m i n i n g ,t om a k e t h ei n f o r m a t i o ne x p l o r a t i o n t h i st h e s i si n c l u d e s f o l l o w i n gs u b j e c t s : 1 t h ea n a l y s i so ft h eb o o k s b o r r o w i n gd a t a :t h eb o r r o w i n g c h a r a c t e r i s t i c ,t h er e a d e r s p r e f e r r e db o o k s ,t h e b o o k s e f f e c t i v e u s i n g1 i f e ,t op r o v i d er e a s o n a b l es u g g e s t i o n f o rb o o k sp u r c h a s i n g 2 t h eb o r r o w i n gt r e n do fau n i v e r s i t ys t u d e n tf r o mf i r s ty e a rt o f o u r t hy e a r 3 t h ea n a l y s i st ot h em a i np u b l i s h i n gh o u s e ,t op r o v i d eas c i e n t i f i c a n dr e a s o n a b l er e p o r ta n df o r e c a s t 4 t i m es e q u e n c ea n a l y s i s ,t of i n dt h et i m e1 a wo fr e a d e r sc o m i n gt o t h e1ib r a r ye v e r yd a y ,e v e r yw e e k ,a n de v e r yy e a r k e yw o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,m u l t id i m e n s i o n a ld a t as e t s ,o n l i n e a n a l y t i c a lp r o c e s s i n g ( o l a p ) ,i n f o r m a t i o ns e r v i c e ,l i b r a r y i i 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查n 矛i :i 借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密 学位论文作者签名: 1 年占月占日 弘啦 谚 习日 名 p 签 了 磁 月 i y r , 捌 匕日 , 指哆 独创性! 声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位一:弘奄 喻泖j 年多月z 日 江苏大学高校教师硕士学位论文 1 1 课题研究背景 第1 章绪论 计算机网络与数据库技术的迅速发展和广泛应用,使得各行各业的管理工作 进入了一个崭新的时代。广大基层管理人员摆脱了繁重的制表业务和数据处理工 作,管理工作进一步规范化,各种在线事务处理信息系统的建立,对日常业务处 理提供了有效支特。然而,面对当今瞬息万变、竞争日趋激烈的社会,各级管理 人员迫切需要根据组织的现状和历史数据做出判断和决策,他们希望能够从组织 的信息系统中获取有效的、一致的决策支持信息,做出正确有效的判断和抉择。 概括地说,数据处理的重点应该从传统的业务处理扩展到在线分析处理,并从中 得到面向各种主题的统计信息和决策支持信息。 作为人类文化收集与传承的图书馆,同样面临着巨大的压力,图书馆自动化 从8 0 年代发展至今已历经三代 1 】,以计算机化管理为特征的第一代自动化系统、 网络化管理为特征的第二代自动化管理系统和现在正在形成的以数字图书馆服 务为特征的第三代图书馆自动化系统。许多图书馆积累了相当多的数据,然而, 面对数以万计的数据,国内现有的管理系统在分析处理方面不能令人满意,很难 实现功能分析。究其原因,主要有以下几个方面:图书信息是非结构化的,在业 务系统中通过将这些信息结构化并以关系数据库格式存放于不同子系统中,从这 些数据中获得统计分析数据的难度大;历史数据访问困难;难以实现跨部门查询; 统计查询严重影响业务操作速度。本课题研究针对图书借阅数据和与借阅数据相 关的系列数据表,如哪些图书的需求量大? 哪些出版社出版的图书最受欢迎? 读 者借阅图书的时间规律性? 特别是高校大学生四年学习生涯里在图书借阅方面有 什么变化等。 数据仓库和数据挖掘技术就是针对上述问题而产生的一种技术解决方案【2 】, 它是基于大规模数据库的决策支持系统环境的核心。数据仓库是面向主题的、集 成的、不可更新的、随时间不断变化的数据集合,用以支持经营管理中的决策制 定过程;而数据挖掘是从大量的数据中提取出隐含的、以前不为人所知的、可信 而有效的知识。它能够对数据进行再分析,以期获得更加深入的了解。它具有预 江苏大学高校教师硕士学位论文 测功能,可通过已有数据预测未来。数据仓库与数据挖掘技术相结合,与现代的 管理决策方法相结合,就能使数据仓库在组织的经营管理决策中发挥巨大的作 用。针对以上问题,本文拟构建一个独立于业务系统之外、基于数据仓库的图书 馆联机分析应用环境,深入挖掘并分析图书馆借阅数据,从而了解读者访问图书 馆的目的和趋势,了解读者的兴趣和爱好,增强图书馆管理能力和管理水平,提 高图书资源的利用率和图书馆的服务质量。 1 2 国内外研究现状 欧美图书馆学家常常这样说“教师是一所学校的头脑,图书馆是一所学校的 心脏”来比喻图书馆在大学教育中的重要性,希望通过图书馆的性能来丰富大学 的学术活动。大学图书馆的工作性质是为教学与科研服务,因此如何提升图书馆 服务水平对学校知名度和继续教育发展有着关键性影响。面对现在多元服务的现 状,传统图书馆自动化系统技术或者图书馆信息系统技术,对图书馆的有效管理、 正确决策、优质高效服务等,己经不能完全胜任。 早在1 9 7 9 年美国匹兹堡大学的调查报告图书馆f p t r e e 广义增量挖掘关 联规则中指出【3 1 ,图书馆的馆藏资源只有少数被有效利用,为了使读者快速、 有效、完整地满足其信息需求,各图书馆必须善于应用挖掘技术以有效帮助读者 使用馆藏资源。2 0 0 3 年美国学者诺依曼与赫耶尔一舒尔茨【4 】挖掘图书馆自动化系 统中的图书借阅记录和读者查询记录,建立了一个以读者信息为向导的个性化图 书推荐网站,提高了图书馆的服务水准。美国另一学者w u c h 利用图书馆图书 流通记录,发掘读者借阅需求,作为年度图书经费预算的分配参考依据。随着图 书馆对数据仓库与数据挖掘技术的日趋重视和不断深入,2 0 0 3 年,s c o t t 与 s t a n t o n 提出书目挖掘学,定义利用数据仓储与数据挖掘技术及书目计量 ( b i b li m e t r i c ) i t 5 】具于图书馆服务所产生的数据的应用,开创了图书馆管理与 服务信息的新领域。美国许多大学图书馆人员还联合本校计算机系的一些骨干力 量,开展了一些实际应用,比如美国科学家s w e a s o n 运用知识发现法【6 】,创建了 a r r o w s m i t h 软件系统,用于对m e d l i n e 、b i o s i s 、e m b a s e 等数据库中的文献资 料进行处理,并且在医学科学研究中取得了巨大的成效。 在我国,数据仓库和数据挖掘技术在很多领域内都有着广泛的应用,尤其是 江苏大学高校教师硕士学位论文 在银行、电信、保险、交通、零售等商业领域,解决的典型商业问题包括数据库 营销、客户群体划分、交叉销售等市场行为分析、客户流失性分析、欺诈发现等 等。数据挖掘甚至在竞技体育中被用于分析对手的行为,并从中找出克敌制胜的 办法。另外,数据挖掘还在非盈利组织的管理方面有着广泛的应用,比如在政府 人事管理、远程教育、财政税务方面,在生物学、人文学、医学、故障诊断与控 制、信息检索等领域的应用。 图书馆在数据仓库与数据挖掘方面也进行了探讨,2 0 0 3 年出现了数据仓库应 用于图书馆的探讨性论文,2 0 0 4 年应用性论文逐步增加,主要应用于图书馆使用 者行为分析、图书馆采购政策分析、图书推荐服务、数字图书馆等。女n 2 0 0 4 年李 玮平在图书馆论坛期刊上发表的基于数据挖掘的图书馆读者需求分析f 7 】主 要讲述利用图书馆借阅数据及调查结果,形成一个关于读者需求的数据仓库,挖 掘出读者需求的规则和模式,并进行模糊推理,指导藏书建设。2 0 0 3 年李盼池老 师在现代情报发表的基于核聚类算法的高校图书借阅信息分类方法【8 】将一 种基于模式识别中核聚类算法的自动分类和统计分析方法应用到高校图书馆中 对图书进行聚类,得出聚类结果,指导图书馆采购部门及时补充图书,以满足读 者对图书的需求。2 0 0 5 年司徒浩臻老师在现代情报技术发表的数据挖掘技术 在图书馆信息服务中的应用f 9 】贝j 用数据挖掘中的关联分析技术对高校图书馆借 阅记录进行分析,给出了挖掘算法,提出了推荐服务模型,利用挖掘出来的规则 提供推荐服务。数据挖掘技术因其在海量信息资源中的智能表现,能为数字图书 馆的个性化服务建设提供不可或缺的技术支撑,如王凯在利用w e b 挖掘技术实 现个性化推送服务 4 4 】一文中说“图书馆有必要根据用户的特定需求,将其所需 要的个性信息进行组织并自动推送到其个性化的桌面,实现真正意义上的主动、 交互、个性服务。” 虽然近两年关于数据挖掘在图书馆的应用研究越来越多,但总的来说,国内 数据挖掘在图书馆中的运用研究还处于起步阶段,研究也很不成熟,没有形成整 体力量。国内全面介绍数据挖掘应用到图书馆中的著作至今还没有,这说明数据 挖掘在图书馆方面的研究还很稀缺。 本文借鉴数据仓库和数据挖掘在银行、电信、保险、交通、零售等行业的成 功经验,结合作者管理图书馆文献信息系统多年的工作积累,提出一个基于数据 江苏大学高校教师硕士学位论文 仓库与数据挖掘技术在图书馆应用的设想,其核心思想就是以图书馆借阅数据为 基础,引入通用的,功能极强的s q l s e r v e r 关系数据库,利用d t s 数据转换功能 构建数据仓库,a n a l y s i ss e r v i c e s 工具分析与挖掘数据,针对读者特征和借阅 状况,挖掘分析自动化系统中记录的流通数据,分析发现读者的阅读习性和兴趣, 对图书馆多项工作定性定量分析研究。 1 3 论文研究探讨领域 1 3 1 研究对象 本论文研究对象为江苏大学图书馆,一为方便研究,二望研究结果能为领导 管理决策提供支持。 1 3 2 研究所用数据 本研究所用挖掘数据为江苏大学图书馆自动化系统中读者的借阅记录库、馆 藏记录库、读者信息库、出版社库等,由于图书馆每年的借阅量平均约7 0 万人 次,为方便挖掘工作的开展,本文研究选用2 0 0 3 年至2 0 0 7 年的借阅数据。 1 3 3 研究探讨主题 本研究应用数据挖掘技术,以借阅记录库、馆藏记录库、读者信息库为基础, 探索图书馆读者的社群特性,并运用数据挖掘成果来提升图书馆的服务水平,期 望图书馆扮演更积极的角色,主动发现读者需求,推测其潜在的需要。 1 3 4 研究方法 本文采用数据仓库和数据挖掘技术对大学图书馆的读者管理、图书馆管理、 工作服务等方面进行研究。主要采用了定性研究与定量研究、文献研究与实证研 究相结合的方法。文章第二、三部分是以文献研究为主,对数据仓库、数据挖掘 进行了理论综述。第四部分在文献研究的基础上,对大学图书馆数据挖掘模型进 行分析设计,分别建立了大学图书馆的物理模型和逻辑模型,第五部分利用定性、 定量方法对江苏大学图书馆借阅数据进行了实证分析。 4 江苏大学高校教师硕士学位论文 1 4 论文组织结构 本文结合数据仓库、o l a p 、以及数据挖掘等先进技术,介绍了数据仓库、联 机分析、数据挖掘的相关概念,阐述了数据仓库的创建过程,然后利用数据挖掘 工具对图书借阅相关数据进行挖掘与分析。 第一章:绪论 介绍数据挖掘研究的背景和应用意义 介绍课题提出的背景和意义,阐述本课题目前国内外研究现状,说明论文的 主要工作及论文的结构安排。 第二章:数据仓库技术的应用 本章介绍了数据仓库的基本概念、体系结构、数据模型及构建过程。 第三章:o l a p 和数据挖掘数据分析技术 本章介绍了o l a p 和数据挖掘的基本概念、功能以及数据挖掘的数学模型和 算法。 第四章:图书借阅信息数据仓库的构建 以本校图书馆借阅数据为数据源,利用s o ls e r v e r 2 0 0 0 数据转换服务( d t s ) 完成从数据源到数据仓库的构建。 第五章:数据挖掘技术在图书借阅信息管理中的应用 应用数据挖掘算法模型和o l a p 分析功能对图书借阅信息数据仓库进行知识 发现与规则生成,并给出决策建议。 第六章:结束语 总结本研究工作取得的成绩和研究工作中遇到问题的解决办法,并对后续研 究方向提出自己的看法。 江苏大学高校教师硕士学位论文 整个研究过程如图1 - 1 所示: i i确定研究动机与目的 上 i 相关技术探讨与研究 上 l 确定数据来源及要挖掘分析的项目 上 l 相关数据整理,建立数据仓库 0 l o l a p 分析 i 0 l 实施数据挖掘 0 1 分析挖掘结果 上 结论与展望 图1 - 1 论文研究过程图 6 江苏大学高校教师硕士学位论文 第2 章数据仓库技术概述 2 1 数据仓库的定义 我们现在称之为“数据仓库”的这一技术,最早出现于2 0 世纪8 0 年代初 w h i n m o n 的研究,并存在于其“记录系统 、“本原数据”、“决策支持系统”等 研究专题中。在数据仓库的发展过程中,许多人对此做出了贡献。其中,d e v l i n 和m u r p h y 在1 9 9 8 年发表了关于数据仓库论述的文章。而w 。h i n m o n 在1 9 9 3 年 所写的论著 b u il d i n gt h ed a t aw a r e h o u s e d i o 】则首先系统地阐述了关于数据 仓库的思想、理论,为数据仓库的发展奠定了历史基石。 数据仓库的概念是w h i n m o n 在其b u il d i n gt h ed a t aw a r e h o u s e d 一书 中提出的,目前它被认为是解决信息技术在发展中一方面拥有大量数据,另一方 面有用信息却很缺乏这种不正常现象的综合解决方案。w h i n m o n 曾对数据仓 库做了这样的描述:“数据仓库是9 0 年代信息技术架构的新焦点,它提供集成化 和历史化的数据;它集成种类不同的应用系统;数据仓库从事务发展和历史的角 度来组织和存储数据集合,以提供信息化和分析处理之用。”w 1 4 1 n m o n 在 ( b u i l d i n gt h ed a t aw a r e h o u s e d 文中将数据仓库定义为“一个面向主题的、 集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程( a d a t aw a r e h o u s ei sa s u b j e c t e d o r i e n t e d ,i n t e g r a t e d ,t i m e v a r i a n t ,a n d n o n v o l a t i l ec o l l e c t i o no fd a t ai n s u p p o r to fm a n a g e m e n t sd e c i s i o nm a k i n g p r o c e s s ) ”。由于w h i n m o n 本人在数据仓库发展中的作用,他对数据仓库的上 述描述不断被其他文献引用,相对地成了一种权威的定义。 这个简短而又全面的定义指出了数据仓库的主要特征。四个关键词,面向 主题的、集成的、时变的、非易失性的,将数据仓库与其他数据存储系统( 如关 系数据库、事务处理系统等) 相区别。下面让我们进一步看看这些关键特征。 2 2 数据仓库的特征 从w i l l i a mh i n m o n 关于数据仓库的定义中可以发现,数据仓库具有这样一 些重要的特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数 江苏大学高校教师硕士学位论文 据的集合性和支持决策作用】。 2 2 1 面向主题性( s u b j e c t e d o ri e n t e d ) 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归 类并进行分析利用的抽象,在逻辑意义上它是对应企业中某一宏观分析领域所涉 及的分析对象。面向主体的数据组织方式,就是在较高层次上对分析对象的数据 的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各 项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而 言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。 面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据 都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策 者,这些人所面对的都是一些比较抽象的、层次较高的管理分析对象。例如:企 业中的客户、产品、供应商往往都可以作为主题看待。从信息管理的角度看,数 据仓库就是在一个较高的管理层次上对信息系统中的数据按照某一具体的管理 对象进行综合、归类所形成的分析对象。而从数据组织的角度看,主题就是一些 数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述不 仅涉及到数据自身。而且还涉及到数据之问的联系。 数据仓库的创建、使用都是围绕着主题实现的。因此,我们必须了解如何按 照决策分析来抽取主题;所抽取的主题应该包含哪些数据内容;这些数据内容应 该如何组织。在主题抽取时,必须按照决策分析的对象进行。例如,在企业销售 管理中的主题就是“产品 和“客户”。 2 2 2 数据集成性( i n t e g r a t e d ) 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽 取、筛选、清理、综合等集成工作,使数据仓库中的数据具有集成性。 数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取,而是 从业务处理发生直接联系的业务处理系统那里获取。这些业务处理系统中的数据 往往与业务处理联系在一起,只是业务为同常处理服务,而不是为决策分析服务。 这样,数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据 江苏大学高校教师硕士学位论文 直接加载到数据仓库中,而是需要进行一系列的数据预处理。即数据的抽取、筛 选、清理、和综合等集成工作。也就是说,先要从源数据库中挑选出数据仓库所 需要的数据,然后将这些来自不同数据库中的数据按照标准进行统一,将源数据 中的如同名异义、异名同义、单位不统一现象消除掉。 2 2 3 数据的时变性“i m e - v a ria n t ) 数据仓库的时变性,就是数据应该随着时间的推移而发生变化。尽管数据仓 库中的数据并不像业务数据库那样反映业务处理的实时状况,但是数据也不能长 期不变,如果依据1 0 年前的数据进行决策分析,那决策分析所带来的后果是十 分严重的。因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数 据追加到数据仓库中去,也就是说在数据仓库中不断生成主题的新快照,以满足 决策分析的需要。数据新快照生成的问隔,有的是每天一次,有的是每周一次, 可以根据快照的生成速度和决策分析的需要而定。 数据仓库的时变性,不仅反映在数据的追加方面,而且还反映在数据的删除 上。数据仓库的数据有存储期限,一旦超过了这个期限,过期数据就要被删除, 但是数据仓库中的数据存储时限( ( 5 一l o 年) 要远远长于操作型环境中的数据存 储时限( 6 0 9 0 天) 。 数据仓库中数据的时变性还表现在概括数据的变化上。数据仓库中的概括数 据是与时间有关的,概括数据需要按照时间进行综合,按照时间进行抽取。因此, 在数据仓库中,概括数据必须随着时间的变化而重新进行概括处理。为满足数据 仓库中数据的时变性需要所进行的操作一般称为数据仓库刷新。 2 2 4 数据的非易失性( n o n v o i a t i e ) 数据仓库的数据非易失性是指数据仓库中的数据不进行更新处理,一旦数 据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多表 示过去某一时刻的数据,主要用于查询、分析,不像业务数据系统中的数据库那 样,要经常进行修改、添加,除非数据仓库中的数据是错误的。数据仓库的操作 除了查询以外,还可以定期进行数据仓库的加载,即追加数据源中新发生的数据, 数据在追加以后,一般不再修改,因此数据仓库可以通过使用索引、预先计算等 9 江苏大学高校教师硕士学位论文 数据处理方式提高数据仓库的查询效率。 2 2 5 数据的集合性 数据仓库的集合性意味着数据仓库必须按照主题,以某种数据集合的形式存 储起来。目前数据仓库所采用的数据集合方式主要是以多维数据库方式进行存储 的多维模式、以关系数据库方式进行存储的关系模式或以两者相结合的方式进行 存储的混合模式。数据的集合性意味着在数据仓库中必须围绕主题全面收集有关 数据,形成该主题的数据集合。全面正确的数据集合有利于对该主题的分析。例 如,在超市的客户主题中就必须将客户的基本数据、客户购买数据等与客户主题 有关的数据形成数据集合。 数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、中层的管 理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决策 分析,提高管理决策的质量。 企业各级管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所 特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据中发现众多的商机。数 据仓库为管理者利用数据进行管理决策分析提供了极大的便利。 2 3 操作型数据库系统与数据仓库 由自i 述可知,数据仓库中的数据面向分析处理而组织;而传统的数据库系统 面向以事务处理为主的日常操作型应用,不能满足决策支持系统的分析要求。承 担日常操作性任务的事务处理和分析处理具有极不相同的性质,因而两者对数据 也有着不同的要求。 操作型数据库系统与分析型数据仓库之间的区别坨1 如表2 1 所示。 1 0 江苏大学高校教师硕士学位论文 表2 - 1操作型数据库系统写分析型数据仓库之间的区别 特性操作型数据库系统分析型数据仓库 系统目的 支持日常操作支持管理需求,获取信息 使用人员工作人员、数据管理员经理、管理人员、分析员 数据内容当前内容历史数据、派生数据 数据特点细节的综合的或提炼的 数据组织面向应用面向主题 存取类型增加、更改、查询、删除查询、聚集 数据稳定性动态的相对稳定 操作需求特点操作需求事先可以知道操作需求事先不知道 数据库设计基于e r 图基于星形模式、雪花模式 存取频率比较高相对较低 响应时间小于l 3 秒几秒几分钟 操作型数据库系统在社会中已经普通应用,例如财务系统、销售系统、供应 系统、工资发放系统等,这些系统支持的都是同常业务工作。在数据库设计方法 上采用的主要是实体一关系图( e r 图) 。 在我国分析型数据仓库的应用已经起步,这是我国经济快速发展、市场竞争 日趋激烈的必然结果。建立数据仓库系统的目的在于有效地获取有用的信息,用 于制定战略进行经营决策,而不是用于日常业务操作。系统的使用人员为单位的 领导、其他行政管理人员和分析专家。他们具有很强的管理、分析和决策能力, 需要及时准确的信息为他们的决策做支持。决策者们不可能也不应该查看所有的 细节数据,因此数据仓库提供的是综合的、经过提炼的信息,并且要保存历史数 据以分析未来的发展趋势。在数据的组织上,根据分析的领域主题来组织数 据,并且保持其相对稳定性。决策人员对信息的需求是不固定的,每一次操作涉 及的数据量很大,不可能是一张发票、或一张入库单( 例如:可能是根据5 年销 售情况预测未来销售趋势) ,但访问系统的次数相对较低,且主要是查询操作, 因此存取频率低,响应时间要求也不高。 江苏大学高校教师硕士学位论文 4 数据仓库结构 2 4 1 数据仓库的概念结构 从数据仓库的概念结构【l3 】看,应该包含数据源、数据准备区、数据仓库数据 库、数据集市知识挖掘库以及各种管理工具和应用工具( 见图2 1 ) 。数据仓库 在刨建以后,首先要从数据源中抽取所需要的数据到数据准备区,在数据准备区 中经过数据的净化处理。再加载到数据仓库数据库中,最后根据用户的需求将数 据仓布到数据集市知识挖掘库中。当用户使用数据仓库时,可以通过o l a p 等数 据仓库应用工具向数据集市知识挖掘库或数据仓库进行决策查询分析或知识挖 掘。 图2 一i数据仓库的概念结构 24 2 数据仓库的总体层次结构 在数据仓库的设计中可以根据数据仓库的参照结构构建合适的数据仓库。数 据仓库的参照结构由不同的层次组成,这些层次包含了数据仓库基本功能层、数 据仓库管理层和数据仓库环境支持层,如图2 - 2 所示。 数据仓库基本功能层 数据仓库管理层 数据仓库环境支持层 图2 - 2 数据仓库总体框架结构 江苏大学高校教师硕士学位论文 数据仓库的基本功能包括:数据抽取、数据筛选和清理、清理后的数据加载、 设立数据集市、完成数据仓库的查询、决策分析和知识挖掘等。 数据仓库的管理层分成数据管理和元数据管理两部分,主要负责对数据仓库 中的数据抽取、清理、加载、更新与刷新等操作进行管理。只有正确进行这些操 作,才能源源不断地为数据仓库提供新的数据源,才能使数据仓库的使用者能够 利用数据仓库进行决策分析和知识挖掘。 数据仓库环境支持层包括数据传输和数据仓库基础两部分,这两部分对于数 据仓库的创建和使用是必不可少的,没有这两个数据仓库的支持环境,数据仓库 的创建和使用是无法实现的。 这里所列出的数据仓库总体结构框架并不是每一个层次和功能结构都需要 在数据仓库创建中生成。其中,数据源功能块、数据传输、数据仓库的基础结构 基本上可以采用组织中原有的信息管理系统或在原系统的基础上略作修改即可 满足需要、数据仓库的创建主要是完成数据仓库的结构、数据集市知识挖掘库 的结构、存取与使用功能块、数据管理与元数据管理的设计和实现。 2 4 3 数据仓库的数据模型 在创建数据仓库之时,需要使用各种数据模型对数据仓库进行描述,数据仓 库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。由 于面向分析系统的数据仓库与面向事务处理的数据库的应用需求不同,则所采用 的建模方法也不同,数据仓库建模的重要特点是面向主题的,是用户使用数据仓 库进行决策分析时所关心的重点方面,每一个主题对应一个分析领域。模型有很 好的适应性,易于修改,当用户的需求发生改变时,仅对模型做出相应的变化就 行。 模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及 其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数 据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念 模型到逻辑模型,从逻辑模型到物理模型的转换过程。 数据仓库的数据概念模型是数据的多维视图,它直接影响到前端工具、数据 存储的设计和联机分析处理的查询引擎。当前,数据仓库常用的逻辑建模工具是 江苏大学高校教师硕士学位论文 以维度建模来表示现实世界的分析的内容和标准。在构建多维数据库模型时常应 用“事实”、“维 、“粒度 1 1 4 1 一:个概念。 事实表( f a c t s ) :用来存储数据和维关键字,是用户最关心的内容,数量庞 大。如图书业务系统中图书信息表就是一个事实表。 维( d i m e n s i o n ) :维是事实信息的属性,属于分析的内容,他们一般变化不 大,数量相对较小。值得注意的是维和主题之间有可能会相互转换,这取决于用 户考虑问题的角度。如借书日期、还书日期就是借还书信息事实表表中的维。 粒度( g r a n u l a “t y ) :粒度是维划分的单位,如借书时间还可细化到某个时 间的级别,也可按天计,但一般没有变化或变化很小。 星型模型: 星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个 集成系统,为用户提供分析服务对象。 核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连 接起来,各个维度表都连接到中央事实表。事实表中的每条元组都包含有指向各 个维表的外键。维表中记录的是这一维的描述信息,用作约束条件,一般是一些 文字描述信息。事实表中还包含一些数字属性,称为度量,实现一些统计运算等。 维表记录了维的层次关系。 图2 3 星型模型的结构图 其优点:1 结构简单,有良好的连接路径,减少了查询多表的复杂连接操作, 提高了查询的性能,且在整个数据仓库开发过程中易于修改和增补。2 符合决策 支持分析人员的思维方式,易于理解和使用。 。 缺点:存在数据冗余,多维操作速度慢。 雪花模型: 1 4 江苏大学高校教师硕士学位论文 雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别 表,雪花模型对星型模型的维度表进行了规范化处理,体现了维的不同粒度的划 分。使用雪花模型进一步增加了查询的范围。 优点:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性 能。 缺点:设计较为复杂,用户使用难度稍有增加。 图2 4 雪花模型的结构图 多维数据模型: 数据仓库和o l a p 工具基于多维数据模型。该模型将数据看作数据立方体的 形式,允许以多维对数据建模和观察,由维和事实定义。维是关于一个组织想要 记录的透视或实体。每一个维都有一个表与之相关联,该表称为维表,它进一步 描述维。多维数据模型围绕中心主题组织。该主题用事实表表示。事实是数值度 量的,把它们看作数量,是因为人们想根据它们分析维之间的关系。事实表包括 事实的名称或度量,以及每个相关维表的关键字。 2 5 数据仓库模型的物理实施 面: 数据仓库奄建模以后,将进行物理实施 3 2 1 。其实施过程主要涉及以下几个方 江苏大学高校教师硕士学位论文 2 5 1数据抽取 集。 根据数据仓库的数据模型对数据源和抽取规则进行设计,实施具体的数据收 2 5 2 数据转换处理 实现外部数据源和数据仓库之间的数据转换,具体可包括:数据类型或格式 的转换、属性转换,保持数据表达的一致性。 2 5 3 数据丢失处理 研究某些记录的某些字段的数据丢失或不完全情况下,应该采取的技术手 段和弥补措施。具体包括专家手动生成丢失值、常量自动替换丢失值、采用预测 模型生成丢失值三种方法,可选取其中某些方法来实现丢失值的增补。 2 5 4 异常点分析 在大型数据库中,通常存在着不遵循数据模型的普遍行为的样本,这些样 本和其他部分的数据有很大的不同或不一致,把这样的样本称之为异常点,如某 人的年龄为2 0 0 或交易时间为2 0 1 0 年等等。异常点可能是由测量误差造成的, 也可能是数据固有的可变性的结果。所以需要对异常点进行检测并把它从数据集 中潜在地除去。 一维样本异常点检测的方法是应用统计学。假定样本值的分布己知,必须 找出基本的统计参数,如均值和方差,在这些值和异常点期望( 预测) 数目的基础 上,建立方差函数的闭值,所有阈值之外的样本都是可能的异常点。该方法的缺 点是数据分布是预先假设的,而在大多数现实世界案例中,事件分布是未知的。 基于距离的异常点检测方法可以应用于多维样本,从而克服了统计方法中的 某些局限性。 2 6 数据仓库开发工具的选择 目前已经有许多数据仓库开发工具供应商可以提供各种构建数据仓库的工 1 6 江苏大学高校教师硕士学位论文 具。但是有些数据仓库开发工具还要结合第三供应商工具才能完成整个数据仓库 的构建,有的只能在某些特定环境下发挥效用。市场主流数据仓库产品分别是 b u s i n e s so b j e c t s 、o r a c l e 、s y b a s e 、s a s 和m i c r o s o f t 等。由于每个行业都有 自己的运行特点,都有自己特定的历史数据,因此,在建立数据仓库时,必须紧 密结合本行业的特点和业务发展需求,参考产品提供商的技术特点和他们的成功 案例,认真比较后再做出恰当的选择。下面对各厂商产品和解决方案的特点做一 下简单的介绍和比较。 o r a c l e 2 8 】 o r a c l e 公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具 和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓 库管理能力,多种分区方式,较强的与o l a p 工具的交互能力,及快速和便捷的 数据移动机制等特性。o r a c l e l o g 数据库嵌入了数据挖掘功能,如分类、预示和 关联等。o w b 提供一个图形映射环境,在该环境中用户可以数据流图的形式对映 射的各个方面进行建模。这些映射包括参与的源表和目标表,以及所有其他应用 于提取、转换和加载( e t l ) 过程的操作。o w b 可以在一个完整的步骤中执行e t l 操作,从而使仓库部署变得快速、简单。但o r a c l e 管理专业性强,其前端工具 易用性较差,在处理复杂的数据转换需较多地依赖第三方产品。 s y b a s e 2 9 】 s y b a s e 公司推出的w a r e h o u s es t u d i o 。是一个针对数据仓库应用的集成化 的解决方案,包括设计组件( w a r e h o u s ea r c h i t e c t ) 、元数据管理软件( w a r e h o u s e c o n t r o lc e n t e r ) 和一个可选的用于集成的组件( p o w e rs t a g e ) 数据管理软件 ( a d a p t i v es e r v e ri q ) 和提供一些具有可视化功能的分析软件( b u s i n e s s o b j e c t 、c o g n o s 、b r i o 、m i c r os t r a t e g y 和e n g li s hw i z a r d ) 。s y b a s e 公司提 供的数据仓库解决方案以能够支持多种关系型数据库而受到业界推崇。它能够同 时处理几十个即席查询,其b i t w i s c 技术和垂直数据存储技术使系统只访问特 定的少量数据,使得查询速度比传统的关系型数据库管理系统快1 0 0 倍。s y b a s e 的i n d u s t r yw a r e h o u s es t u d i o 包括相应行业所需的商业智能应用软件和数据 分析模型,可以针对不同行业进行业绩分析、促销活动分析、用户群分析、销售 分析和收益分析等,具有数据仓库设计、元数据管理等功能、支持广泛的应用软 1 7 江苏大学高校教师硕士学位论文 件和报表,并提供w a r e h o u s es t u d i o 的设计工具、w a r e h o u s ec o n t r o lc e n t e r 等工具,使企业能够进一步扩充。s y b a s e 提供具有世界顶尖水平的e t l 工具 p o w e r m a r t ,能够方便地集成通用数据库系统、主机系统、e r p 系统和w e b 上的 各种数据源,完成向s y b a s e 数据仓库的快速加载。 m ic r o s o f t 3 0 】 , m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 已经在性能和扩展性方面确立了世界 领先的地位,是一套完全的数据库和数据分析解决方案,使用户可以快速创建下 一代的可扩展电子商务和数据仓库解决方案。m i c r o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023八年级数学上册 第13章 全等三角形13.3等腰三角形 2等腰三角形的判定教学设计 (新版)华东师大版
- DNA分子的结构和复制课件
- 合同协议-快速卷帘门购销合同6篇
- 九年级历史下册 第六单元 走向和平发展的世界 第20课 联合国与世界贸易组织教学设计 新人教版
- 一年级品德与社会上册 3 我的一天《我很整洁》教学设计 新人教版
- 九年级化学下册 第七章 第二节 常见的酸和碱教学设计 (新版)沪教版
- 主题三:红色之美 第8课《 人民的光荣-朱德》(教学设计)川教版四年级上册综合实践活动
- 6《古对今》第二课时 教学设计-2024-2025学年语文一年级下册统编版
- 1 《用身体说话》(教学设计)-2023-2024学年四年级下册综合实践活动长春版
- 1 茶香四溢第2课时(教案)-2023-2024学年浙美版(2012)美术四年级下册
- 2025-2030垃圾发电产业市场深度分析及前景趋势与投资研究报告
- 中小学综合实践活动课程指导纲要:让学生更好地了解活动的意义和价值
- 物理-安徽省安庆市2024-2025学年高三下学期第二次模拟考试试卷(安庆二模)试题和答案
- 律师尽职调查工作方案
- 2024年杭州市粮食收储有限公司招聘考试真题
- 血液净化中心的感染预防与控制
- 2025山东省财金投资集团有限公司招聘19人笔试参考题库附带答案详解
- 铝合金搅拌摩擦沉积增材制造工艺的研究进展
- 2025年浙能集团应届生招聘818人笔试参考题库附带答案详解
- 幼儿园安全教育课件
- 某公司接待管理手册 (一)
评论
0/150
提交评论