(计算机应用技术专业论文)数据挖掘在图书馆读者管理中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在图书馆读者管理中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在图书馆读者管理中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在图书馆读者管理中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在图书馆读者管理中的应用.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在图书馆流通中,每天都产生大量的数据,怎样合理地利用这些信息为图 书馆管理服务,是我们迫切需要研究的课题。目前的图书馆管理系统无法发现 这些数据中存在的关系和规则,无法预测读者的信息需求,缺乏挖掘数据背后 隐藏的知识的手段,读者很难找到所需要的信息资源。数据挖掘技术的兴起, 为图书馆工作提供了很好的技术支持和决策管理支持。利用数据挖掘的方法, 揭示这些数据背后所隐藏的关系。对图书馆的借阅历史记录进行数据挖掘和分 析,为图书馆的资源建设及图书的学科结构等提供依据,使图书馆的被动服务 变为主动服务,从而提高图书馆的服务质量。 本文研究的内容是把数据挖掘技术应用于图书馆读者管理。以“宝德学院 图书馆自动化管理系统中的历史借阅记录、读者信息及馆藏数据作为基本数 据源,采用m i c r o s o f ts q ls e r v e r2 0 0 5 作为数据挖掘工具,运用挖掘技术发现 读者借阅特点。具体包括以下几个方面: 1 、探讨了数据挖掘技术及其在图书馆中的应用。 2 、对图书馆读者管理主题相关的图书馆数据库中的数据表进行数据预处 理,以便于进行数据挖掘。 3 、将读者借阅量作为数据源,运用决策树算法对读者的借阅量等级进行分 类和预测。将读者借阅图书记录作为数据源,运用聚类算法划分读者群,分析 其特征。将读者信息、借阅量和借阅图书作为数据源,运用关联分析挖掘读者 的阅读兴趣。将图书日流通量和月流通量作为数据源,运用时间序列算法对流 通量进行预测。 4 、对以上四种算法的挖掘结果进行分析,将结论应用于图书馆读者管理; 并讨论进一步工作。 关键词:数据挖掘图书馆读者管理决策树聚类关联分析 1 a b s t r a c t a b s t r a c t i nt h el i b r a r y sc i r c u l a t i o n , t h ed a i l yp r o d u c el a r g ea m o u n t so fd a t aa n dh o wr a t i o n a l u s eo ft h e s ev a l u a b l ei n f o r m a t i o nf o rt h el i b r a r ym a n a g e m e n ts e r v i c e s ,w eu r g e n t l y n e e dt os t u d yt h es u b j e c t t h ec u r r e n tl i b r a r ym a n a g e m e n ts y s t e mw a su n a b l et of i n d s u c hd a t ai nt h er e l a t i o n sa n dr u l e sc a nn o tp r e d i c tt h ei n f o r m a t i o nn e e d so fr e a d e r s , t h el a c ko fd a t am i n i n gh i d d e nb e h i n dt h em e r n 8o fk n o w l e d g e ,i ti sd i f f i c u l tt of i n d r e a d e r st h ei n f o r m a t i o nm 盯n e e dr e s o u r c e s t h ed a t am i n i n gt e c h n o l o g yi st o p r o v i d e9 0 0 dt e c h n i c a ls u p p o r ta n dm a n a g e m e n td e c i s i o n - m a k i n gs u p p o r tf o rt h e l i b r a r y u s i n go fd a t am i n i n gm e t h o d s ,r e v e a l e db yt h ed a t ah i d d e nb e h i n dt h e r e l a t i o n s h i p l e n d i n gl i b r a r yo nt h eh i s t o r yo fd a t am i n i n ga n da n a l y s i s ,t h e r e s o u r c e sf o rt h el i b r a r yb u i l d i n ga n dt h es t r u c t u r eo ft h eb o o kp r o v i d eab a s i sf o r d i s c i p l i n e ,s ot h a tl i b r a r ys e r v i c e si n t ot h ep a s s i v ea c t i v es e r v i c e ,t h e r e b ye n h a n c i n g t h eq u a l i t yo fs e r v i c e sl i b r a r i e s t m sp a p e ri st h ed a t am i n i n gt e c h n o l o g i e si nr e a d e rm a n a g e m e n t i n ”b o u s t e a d c o l l e g e l i b r a r ya u t o m a t i o nm a n a g e m e n ts y s t e m ,t h eh i s t o r yo fc i r c u l a t i o n , r e a d e r s i n f o r m a t i o na n dl i b r a r yc o l l e c t i o na sas o u r c eo fb a s i cd a t a , u s i n gm i c r o s o f t s q l s e r v e r2 0 0 5a sad a t am i n i n gt o o l s ,e x p l o r i n gr e a d e r s u s eo fc h a r a c t e r i s t i c s t h e p a p e ri n c l u d ea sf o l l o w i n g : 1 t oe x p l o r et h ed a t am i n i n gt e c h n o l o g ya n di t sa p p l i c a t i o ni nal i b r a r y 2 i nl i b r a r yd a t a b a s e ,p r e p r o c e s st h ed a t ar e l a t e dt or e a d e rm a n a g e m e n ti nl i b r a r y i st of a c i l i t a t ed a t am i n i n g 3 r e a d e r sl o a nv o l u m e sa sad a t as o u r c e , a p p l i c a t i o no ft h ed e c i s i o nt r e e a l g o r i t h mt oc l a s s i f i c a t i o na n dp r e d i c t i o nt h eg r a d eo fr e a d e r s l o a n r e a d e r s l o a n b o o k sr e c o r d sa sad a t as o u r c e , a p p l i c a t i o nc l u s t e r i n ga l g o r i t h mo fr e a d e r s ,o fi t s c h a r a c t e r i s t i c s a st h ed a t as o u r c e so fr e a d e r s i n f o r m a t i o n ,l o a nv o l u m e sa n dt h e b o o k s ,u s ec o r r e l a t i o na n a l y s i so fr e a d e r si n t e r e s t e di nm i n i n g u s i n gt i m e s e r i e s a l g o r i t h mi st op r e d i c t t h ec i r c u l a t i o n 4 f o u ro ft h ea b o v em i n i n ga l g o r i t h m st oa n a l y z et h er e s u l t s ,c o n c l u s i o n sw i l lb e i i a b s t r a c t u s e di nl i b r a r ym a n a g e m e n t ,a n dd i s c u s s e df u r t h e rw o r k k e yw o r d s :d a t am i n i n g ;r e a d e rm a n a g e m e n ti nl i b r a r y ;c l u s t e r , d e c i s i o nt r e e ; a s s o c i a t i o na n a l y z e i i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提 供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国 家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名: 年月 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进 行研究工作所取得的成果。除文中已经注明引用的内容外,本学位 论文的研究成果不包含任何他人创作的、已公开发表或者没有公开 发表的作品的内容口对本论文所涉及的研究工作做出贡献的其他个 人和集体,均已在文中以明确方式标明。本学位论文原创性声明的 法律责任由本人承担。 学位论文作者签名: 年月日 第一章引言 第一章引言 第一节问题的提出 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,包括企业使 用的财务软件、e r p 系统、c r m 系统和w e b 日志等,使得现有数据库积累的 数据越来越多,数据的存储和使用与数据的大量收集、快速增长不匹配。同时 通讯技术和计算机网络技术的迅速发展,使得大量的信息广泛传播,这些信息 在给人们带来方便的同时也带来了许多问题,最严重的问题就是“数据爆炸但 知识贫乏的问题。在缺乏强有力的工具的情况下,庞大的数据已经远远的超 出了人的理解和概括的能力。面对海量的信息,人们开始考虑如何才能不被信 息淹没,而是从中及时发现有用的知识,提高信息利用率,数据挖掘技术应运 而生。数据挖掘技术已在商业、交通、生物信息、网络应用等领域得到应用。 目前各高校都采用数据库技术对图书馆进行管理,其主要目的是为了方便 图书馆对图书的采购、编目及对图书流通进行快速而有效的管理。图书馆要能 够更符合读者的需求,就要主动发掘读者的需求,主动为读者提供所需要的信 息。在图书馆的流通中,每天都产生大量的数据,怎样合理地利用这些有价值 的信息为图书馆管理服务,是我们迫切需要研究的课题。但目前的图书馆管理 系统无法发现这些数据中存在的关系和规则,无法预测读者的信息需求,缺乏 挖掘数据背后隐藏的知识的手段,读者也很难找到所需要的信息资源。数据挖 掘技术的兴起,可为图书馆工作提供很好的技术支持和决策管理支持。利用数 据挖掘的方法,揭示这些数据背后所隐藏的关系。对图书馆的借阅历史记录进 行数据挖掘和分析,为图书馆的资源建设、图书的学科结构及读者管理等提供 依据,使图书馆的被动服务变为主动服务,从而提高图书馆的服务质量。 本文研究的内容是把数据挖掘技术应用于图书馆读者管理,使用合适的挖 掘技术对图书馆自动化管理系统中的用户借阅数据进行挖掘,为图书馆读者管 理提供有价值的决策支持。 第一章引言 第二节国内外研究现状 1 2 1 数据挖掘研究现状 1 9 8 9 年8 月,在第十一届国际联合人工智能学术会议上首次提出了基于数 据库中发现知识( k n o w l e a g ed i s c o v e r y i nd a t a b a s ek d d ) 技术。在19 9 5 年美 国计算机学会( a c m ) 上提出了数据挖掘( d a t am i n i n gd m ) 概念,即通过从 数据库中抽取隐含的、未知的、具有潜在使用价值的信息的过程。由于数据挖 掘是k d d 过程中最为关键的步骤,因此,在实际应用中对数据挖掘和k d d 两 个术语的应用往往不加区别。 a c ms i g k d d ( a c m s p e c i a li n t e r e s tg r o u p o nk n o w l e d g ed i s c o v e r yi nd a t a a n dd a t am i n i n g ) 乜1 是最具影响的数据挖掘年会,从1 9 8 9 年至2 0 0 8 年,共举行 了八次会议。会议为学术研究、工业和政府的创新者提供论坛分享他们的成果 和经验,包括简报、文件、口头介绍、海报、演讲、教程、小组讨论以及“k d d 杯 比赛。s i g k d d 鼓励基础研究,进行术语、评估和方法学的标准化研究和 跨学科研究等。k d n u g g e t s c o r r l 是数据挖掘的知名网站,它包含数据挖掘的资料、 产品、课程、会议、常见问题解答和出版物等。注册用户可通过订阅邮件获取 数据挖掘相关的新闻。 随着数据挖掘技术的发展,研究重点也逐渐从发现方法转向系统应用,注 重多种发现策略和技术的集成,以及多种学科之间的相互渗透,并行计算、计 算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列 为专题和专刊讨论。目前数据挖掘的热点包括w e b 挖掘,生物信息和基因挖掘, 非结构化数据挖掘包括文本数据、以及未来的图形、声音等多媒体数据挖掘。 与国外研究相比,国内开始研究的时间较晚。1 9 9 3 年国家自然科学基金首 次支持该领域的研究项目。国内的许多科研单位和高等院校竞相开展知识发现 的基础理论及其应用研究。如中国科学院虚拟经济与数据科学研究中心的数据 挖掘基础研究项目d 】,包括数据挖掘与智能知识管理理论与应用、最优化与数 据挖掘课题、多目标非线性规划数据挖掘方法及应用课题;应用研究项目有中 国人民银行证信中心“个人信用评分系统 开发项目、中国工商银行“工商银 行个人客户数据挖掘分析 合作研究项目及网易公司数据挖掘项目( 该项目已 于2 0 0 6 年5 月完成) ;国际合作项目与澳大利亚b h pb i l l h i t o n 公司的数据挖 2 第一章引言 掘研究项目,石油勘探中的数据发掘。还有包括清华大学、中科院计算技术研 究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对 模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据 立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中 科院数学研究所、吉林大学等单位开展了对关联规则挖掘算法的优化和改造; 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的 知识发现以及w c b 数据挖掘h 1 。 1 2 2 数据挖掘在图书馆应用的研究现状 数据挖掘应用在图书馆管理中是最近几年发展起来的,数字图书馆是图书 馆模式的一个发展趋势。 如联机计算机图书馆中心( o n l i n ec o m p u t e rl i b r a r yc e n t e ro c l c ) 创立于 1 9 6 7 年,是一个不以盈利为目的、提供计算机图书馆服务的会员制的研究组织, 其宗旨是为广大的用户发展对全世界各种信息的应用以及减低获取信息的成 本。目前已有超过6 0 ,0 0 0 个图书馆,在1 1 2 个国家和地区都在使用o c l c 的 服务来查询、采集、出借和保存图书馆资料以及为它们编目。o c l c 在数据挖 掘研究瞄3 有两方面,一方面基于大量数据,增强读者体验,另一方面为图书馆 管理提供收集分析服务,包括各地出版物的收集、读者分层、数字验证等。 传统的图书馆的评估技术着重于频率和流通总量上,而这些统计数字背后 隐藏的信息是了解读者群如何利用图书馆服务的关键。目前,数据挖掘技术在 图书馆的主要应用有图书馆使用者行为分析、自动化馆藏发展机制、经费使用 现状分析与预测,图书馆采购政策分析等,但这些研究很有限且零散嘲。 n i c h o l s o n 和s t a n t o n 于2 0 0 3 年提出“书目挖掘口伽,利用数据挖掘和书目 计量工具应用图书馆服务,开创了图书馆管理与服务的新的研究领域,图书馆 的决策者可以利用书目挖掘过程,为不同需求的读者群量身订制服务。对于图 书馆数据挖掘的来源,受限于图书馆相关资料的收集,不够全面,那些非图书 馆数据系统的数据,如读者个人资料等也会影响到读者的使用行为,因此书目 挖掘不仅依靠图书馆自动化系统的借阅记录与馆藏资料,还要引进涵盖范围更 广泛的可能的资料,以求得更完善的结果,提高图书馆的服务水平。 书目挖掘处理过程包括: 3 第一章引言 1 确定焦点范围 此范围可能是图书馆某一特定问题或一般决策所需。直接数据挖掘是以某 一问题为焦点;非直接数据挖掘是反复利用多种工具找出对图书馆员有用的模 式。 2 确定内、外部数据资料来源 内部资料来源是指已存在于图书馆系统的数据资料,如读者借阅资料:外 部资料来源是指非图书馆系统的数据,如读者爱好。 3 收集、清理和转换数据,集成到数据仓库 数据仓库来源于多个不同的系统,经过清理和转换后才能集成到数据仓库 中。通过s q l 语言,从原始数据库的提取所需要的数据,再产生数据仓库,此 步骤是耗时且不断循环的。 4 选择合适的分析工具 5 挖掘数据 包括有两方面工作:描述和预测。描述性挖掘的目标就是分析过去至今的 资料,发现不同的模型特征;预测性挖掘就是利用已挖掘出的知识解释未知或 说明现有的。 6 结果分析和应用 由图书馆馆员用未使用过的资料测试验证结果,并观察其随时间的变化以 调整原来模式。 国内已有的一些关于数据挖掘在图书馆的研究和应用中,利用关联分析挖 掘读者借阅兴趣,为读者提供新书推荐服务较多。 第三节本课题研究的内容和方法 1 3 1 研究内容及解决的问题 通过对图书馆图书流通记录的挖掘,进行三方面分析。 1 3 1 1 读者分类研究 分类模式用于提取能代表群体的特征属性。在数据挖掘中,通过对已知类 别的个体进行归纳,找出各类的特征属性,即分类模式。读者分类研究包括读 4 第一章引言 者的分类、读者的属性和特征分析等。高校图书馆可以对读者群体按照年龄、 年级、专业等因素进行分类,把读者进行群体细分。通过这种手段,可以更清 楚地了解用户和他们的特点,分析不同的群体借阅图书的类别,从而有针对性 地提供不同的服务,以提高图书馆的服务质量。这样既可以指导图书馆的图书 采购,又可以向学校的学科课程设置提供建设性的科学依据。 1 3 1 2 读者借阅高峰低谷期的分析 运用时间序列挖掘方法,通过流通数据库挖掘出流通量的变化规律,分析 读者借阅图书的高峰期和低谷期,借此可以科学安排流通部门的全年和每天的 工作,在人力资源、图书资源有限的情况下,为读者提供更多更优质的服务, 为流通部门日常工作的安排提供科学的参考数据。例如,对于全年的高峰期, 可以集中精力致力于读者的流通服务;在低谷期,除了日常借阅流通服务外, 可以安排一些图书整理、读者培训和业务学习之类的工作。 1 3 1 3 读者兴趣分析 关联规则是描述数据库中数据项之间所存在的关系规则,即根据一个事务 中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联 或相互关系。对于高校图书馆管理者来说,可以对读者感兴趣的图书进行关联 分析,找出用户感兴趣的图书中隐含的某些关联性,从而合理购买、借出图书, 为他们提供更加个性化的服务,提供相关的研究资料。 在读者所借阅图书的管理中,利用关联规则,可以在图书馆流通历史记录 中找出有多大比例的读者借阅了图书a 的同时又借阅了图书b 。如果这个比例 比较高,说明图书a 和b 之间有很强的关联规则,就可以向未来的借阅者推荐 和他借的有关的书,同时也节省了读者搜索的时间。挖掘出来的规则可为图书 订购工作提供科学的依据,如订购图书a 类数量要和b 类的图书数量相匹配等。 1 3 2 论文研究方法 本文采用如下方法进行研究: 1 通过广泛收集国p 勺# l - 各种有关此课题的研究,了解相关研究的发展动态。 2 理论研究和案例分析法相结合,结合理论研究内容,选择典型案例进行深入 的分析,如根据用户使用记录进行挖掘,对读者进行分类、关联分析等。 5 第一章引言 3 采用综合、归纳等研究方法。 1 3 3 论文的结构 本文共分六章。 第一章主要阐述本文课题的研究意义、数据挖掘技术研究现状及本研究的 主要内容和研究方法。第二章叙述了数据挖掘的概念,包括定义、功能和相关 技术;数据挖掘过程;数据挖掘应用领域及相关产品。第三章叙述数据挖掘技 术在图书馆中的应用及其作用。第四章叙述数据挖掘预处理的方法和过程,并 针对学校图书馆数据库进行数据预处理。第五章叙述应用m i c r o s o f ts q ls e r v e r 2 0 0 5 作为挖掘工具,对图书馆数据进行分类、聚类、关联规则和时序分析,挖 掘读者行为模式。第六章总结全文并提出下一步研究方向。 6 第二章数据挖掘 第二章数据挖掘技术 2 1 1 数据挖掘的定义 第一节数据挖掘概述 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程。 2 1 2 数据挖掘的功能 数据挖掘功能呻1 用于指定数据挖掘任务中要找的模式类型。一般地,数据 挖掘任务分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性, 预测性挖掘任务在当前数据上进行推断,以进行预测。 2 1 2 1 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有 对象的共性。 2 1 2 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联分析就是发现关联规则,这 些规则揭示了在给定的数据集中属性值频繁出现的条件。关联分析的目的是找 出数据库中隐藏的关联网。广泛用于“购物篮或事务数据分析。 2 1 2 3 分类和预测 分类找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号 7 第二章数据挖掘 未知的对象类。导出模型是基于对训练数据集( 即类标号已知的数据对象) 的 分析。分类预测分类的( 离散的、无序的) 标号,预测建立连续值函数模型。 2 1 2 4 聚类分析 数据根据最大化类内的相似性和最小化类间相似性的原则进行自然地聚类 或分组,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象 很不相似。 2 1 2 5 演变分析 描述数据行为随时间变化的对象的规律或趋势,包括时间序列数据分析、 序列或周期模式匹配和基于类似性的数据分析。 2 1 2 6 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。 2 1 3 数据挖掘的相关技术 2 1 3 1 数据挖掘和数据仓库 数据仓库的发展是促进数据挖掘越来越热的原因之一。w i l l i a mh i n m o n 在 1 9 9 3 年发表的“b u i l d i n gt h ed a t ew a r e h o u s e 中首先系统阐述了关于数据仓库 的思想和理论。他将数据仓库( d a t a w a r e h o u s ed w ) 定义为:“一个面向主题 的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过 程。数据仓库与数据库不同国1 。首先,数据仓库用于支持决策,面向分析型数 据处理,它不同于现有的操作型数据库;其次,数据仓库是对多个异构的数据 源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据 仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以特性: 1 面向主题性 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念, 8 第二章数据挖掘 是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操 作型信息系统相关。 2 数据集成性 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相 互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数 据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中 的不一致性。 3 数据的时变性 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据 仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一 旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中 一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载和刷 新。 4 数据的非易失性 数据仓库中的数据不进行更新,而是一旦数据进入数据仓库以后,就会保 持一个相当长的时间。因为数据仓库中的数据大多表示过去某一时刻的数据, 主要用于查询、分析j 不同于业务数据库系统实时修改、添加数据。 建立一个数据仓库,把各个不同源的数据统一在一起,解决数据冲突问题, 然后把所有的数据导入到一个数据仓库。大部分情况下,数据挖掘都要先把数 据从数据仓库导入到数据挖掘库或数据集市中。但数据仓库不是必需的,可以 把一个或几个事务数据库导入到一个数据库中,就把它当作数据集市,然后进 行数据挖掘。 2 1 3 2 数据挖掘和联机分析处理 数据仓库的三种应用:信息处理、分析处理和数据挖掘。分析处理支持基 本的联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n go l a p ) 操作,包括切片和切块、 下钻、上卷和转轴。一般地,它在汇总的和细节的历史数据上操作。与信息处 理相比,联机分析处理的主要优势是它支持数据仓库的多维数据分析。 o l a p 和数据挖掘的功能是不相交的。o l a p 是数据汇总聚集工具,它帮 助简化数据分析;而数据挖掘自动地发现隐藏中大量数据中隐含模式和有用知 识。o l a p 工具的目标是简化和支持交互数据分析;而数据挖掘的目标是尽可 9 第二章数据挖掘 能自动处理。 2 1 3 3 数据挖掘,机器学习和统计学 数据挖掘的三个支柱技术是统计学、机器学习和数据库技术。 数据挖掘的一个基本的过程是分析相关属性及其值。数百年的统计理论仍 然适用的今天。大部分数据挖掘算法或多或少的使用统计技术,如贝叶斯和聚 类。机器学习的很多新概念可以应用于数据挖掘,最常见的是决策树和神经网 络。 2 1 3 4 软硬件发展对数据挖掘的影响 使数据挖掘成为可能的关键一点是计算机性能价格比的巨大进步。基于并 行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。 第二节数据挖掘过程 数据挖掘过程包括以下几个步骤,如图2 1 。 1 数据收集:根据数据挖掘主题,从数据库中提取与主题相关的数据。 2 数据清理和转换:数据清理是从数据集中除去噪声和不一致数据。数据转换 对多种数据的格式和值进行变换,包括数据类型的转换、连续值转换成离散值、 数据分组、聚合等。 3 数据挖掘:根据数据挖掘目标选择挖掘算法,创建挖掘模型,设置参数,处 理模型。 4 模型评估:根据对挖掘结果的度量,评估提供知识的准确性和可用性等。 上述的每个处理阶段,会提供处理工具完成相应的工作。在对挖掘的知识 进行评估后,根据结果可以决定是否重新进行某些处理过程,在处理的任意阶 段都可以回溯到以前的阶段进行再处理。 5 应用知识:将挖掘结果整理加以应用。 1 0 第一章数据挖掘 图2 l 数据挖掘过程 第三节数据挖掘技术的应用 231 数据挖掘技术的应用领域 数据挖掘在很多领域内有着广泛的应用。在金融、保险、电信、零售等商 业领域解决的典型问题包括市场分析与管理、客户关系管理、客户群划分、 交叉销售、客户流失性分析、欺诈发现、风险分析、质量控制等。在生物信息 领域,如分析d n a 序列、生物信息学和生物数据分析。在网络安全维护中要 实时训练算法来检测网络入侵。在万维网上进行文本挖掘,包括新闻组、电子 邮件和文档,w 。b 挖掘等。在信息检索领域内,如图书馆管理上应用是最近几 年开始,如前所述书目挖掘。 2 32 数据挖掘工具和产品 s a s s a s 为用户提供与图形流的环境,建立模型它具有一套流行的数据挖掘 算法,包括决策树、神经网络、回归、关联和偏差分析等,它也支持文本挖掘。 s p s s s p s s 有很多数据挖掘产品,包括s p s s 的基础和决策树。1 9 9 8 年s p s s 的 第二章数据挖掘 收购了一家英国公司,它继承c l e m e n t i n e 数据挖掘方案。c l e m e n f i n e 第一个引 入数据挖掘技术流概念,允许用户在同一工作流程环境中进行数据清理,数据 转换,训练模型。 i b m i n t e l l i g e n tm i n e r 是i b m 德国子公司开发的一个数据挖掘产品。包含一组算 法和可视化工具。它可以用预测模型标记语言( p r e d i c t i v em o d e l i n gm a r k u p l a n g u a g ep m m l ) 导出挖掘模型,它由数据挖掘组( d a t am i n i n gg r o u p d m g ) 定义的。p m m l 文件是可扩展标记语言( x m l ) 文件包含描述模型 的模式和统计训练数据集。这些文件可以载入d b 2 数据库,达到预测的目的。 m i c r o s o f t 微软是主要的数据库供应商,包括关系数据库挖掘。s q ls e r v e r2 0 0 0 中, 包含两个专利的数据挖掘算法:微软决策树和微软聚类。除了这些算法,最重 要的数据挖掘功能是执行o l ed b 。o l ed b 是一个s q l 式的数据挖掘语言。 o r a c l e 2 0 0 0 年o r a c l e9 i ,包含一组基于关联和贝叶斯数据挖掘算法。o r a c l e10 9 包含更多的数据挖掘工具和算法。j a v a 数据挖掘程序包为o r a c l e 提供了数据挖 掘应用程序设计接口。 a n g o s s a n g o s s k n o w l e d g e s t d u i o 是一个数据挖掘工具,提供建立决策树,聚类 分析和一些预测模型,为用户提供从不同角度挖掘和理解他们的数据。它包括 强大的数据可视化工具,支持和解释预测结果,其算法也可以插入到s q ls e r v e r 平台。 k x e n k x e n 是一个设在法国的数据挖掘软件供应商。它包含的一些数据挖掘算 法,包括支持向量机、回归、时间序列、分割等,它还为o l a p 的立方体提供 了数据挖掘解决方案,开发了一个e x c e l 加载宏,允许用户在e x c e l 环境下做数 据挖掘。 第四节本研究使用的数据挖掘工具和算法 本研究主题为学校图书馆读者分类研究、读者阅读兴趣分析和读者借阅高 峰低谷期分析,因此采用决策树、聚类分析、关联规则和时间序列分析算法。 1 2 第二章数据挖掘 应用m i c r o s o f ts q ls e r v e r2 0 0 5 作为数据挖掘工具,使用m i c r o s o f td e c i s i o n t r e e s ( 决策树) 、m i c r o s o f tc l u s t e r i n g ( 聚类) 、m i c r o s o f ta s s o c i a t i o nr u l e s ( 关 联规则) 和m i c r o s o f tt i m es e r i e s ( 时间序列) 算法n 叫。 微软决策树算法支持分类和回归,而且能够预测模型。利用该算法可以预 测离散值和连续值属性。建立一个模型,算法检验数据集中每个输入属性对预 测属性的影响,为输入属性与预测属性关系最强的创建了一系列分支,称为节 点。将节点添加到模型中,形成树状结构。该模型持续增长,直到没有其余的 属性再创建新分支。该模型旨在为预测属性找到一个非比例分配的属性集合。 微软聚类算法使用迭代技术为数据集中的记录按其类似的特点进行分组。 利用聚类,可以挖掘出那些只通过观察而不易发现的已存在的数据关系。此外, 聚类模型也可产生预测。 微软时间序列算法在o l a p 和关系数据源中,可创建模型用来预测随着时 间变化的连续变量。利用该算法,可以选择预测一个或多个变量,但它们必须 连续。 微软关联分析算法是专门解决“市场篮 问题的。该算法将每个属性一值 对作为一项。每个事务有一个项集,包含多个项。该算法通过扫描数据集寻找 在事务中多次出现的项集。支持度参数定义了事务中包含的项必须出现的概率。 算法还寻找项集间的规则,置信度参数决定了规则产生的最小概率。 1 3 第三章数据挖掘技术在图书馆中的应用 第三章数据挖掘技术在图书馆中的应用 第一节数据挖掘技术在图书馆的应用 高校图书馆作为学术性、科研性、服务性机构,在高等教育中承担着重要 角色,需要应用分类模式、聚类模式、回归分析、时间序列、关联规则、序列 模式、w e b 挖掘等技术手段对信息进行深加工,为图书馆读者管理提供决策支 持n 1 1 。 1 应用于读者的分类研究 分类模式用于提取能代表群体的特征属性。在数据挖掘中,通过对已知类 别的个体进行归纳,找出各类的特征属性,即分类模式。 读者分类研究包括读者的分类、读者的属性和特征分析、读者满意度分析、 学科交叉分析及学科发展方向预测等。高校图书馆可以对读者群体按照年龄、 学历、职业、地域等因素进行分类,把读者进行群体细分。通过这种手段,可 以更清楚地了解用户,了解他们的特点,分析不同的群体借阅量,从而有针对 性地提供不同的服务,以提高图书馆的服务质量。这样既可以指导自己的图书 采购和期刊、报纸订阅,又可以向学校的学科课程设置提供建设性的科学依据。 2 应用于读者相似性和差异性分析 聚类模式是把数据划分到不同的组中,使得组之间的差别尽可能大,组内 的差别尽可能小。与分类模型不同的是,聚类模型从未知开始,既不知道具体 的分类标准,又不知道会有些什么类,只是按照给定的聚类参数( 如距离等) 进行分解、合并。 在高校图书馆的读者管理中,可以通过聚类分析,把读者按照相似性和差 异性分为几个类别,聚类模式挖掘可应用到读者群体的聚类、读者属性和特征 分析等工作环节。 3 回归分析应用于读者需求分析 回归分析方法是用属性的历史数据预测未来趋势,回归分析方法反映的是 事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测 变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的 1 4 第三章数据挖掘技术在图书馆中的应用 趋势特征、数据序列的预测以及数据间的相关关系等。在最简单的情况下,可 以用标准统计方法,如线性回归等。但现实中往往非线性问题居多,如股票价 格的涨跌、机械系统故障的发生等,由于受许多因素的影响,问题变得非常复 杂。回归模型的任务就是找出对这些变化的准确描述。 回归分析方法可以应用于图书馆读者需求分析,结合数据挖掘、数据仓库 和联机分析处理技术,图书馆管理者能够充分对图书馆数据仓库中的海量数据 进行分析,并根据分析结果找出读者需求中出现的各种问题( 如管理不善、观 念滞后、文献信息资源匮乏、图书期刊资料采购失误、拒借率高、文献流失率 高等内部因素引起的图书馆服务平衡体系遭到重大破坏、对图书馆的生存发展 构成严重威胁信息) ,以便能及时做出正确的决策,调整战略,以适应不断变 化的读者需求。 4 应用于读者借阅高峰低谷期的分析 时间序列模式是根据数据随时问变化的趋势预测将来的值,所采用的方法 一般是在连续的时间流中截取个时间窗口,窗口内的数据作为一个数据单元, 然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的集合。时间序 列的数据库内某个字段的值是时变的,例如股票价格每天的涨跌、浏览网页的 次序等。 、 运用时间序列挖掘方法,可以从图书馆流通数据库中挖掘出流通量的周期 性规律,分析读者借出图书流通的高峰期和低谷期,借此可以科学安排流通部 门的全年和每天的工作,在人力资源、图书资源有限的情况下,为读者提供更 多更优质的服务,为流通部门日常工作的安排提供科学的参考数据。 5 在读者管理中的应用 关联规则是描述数据库中数据项之间所存在的关系规则,即根据一个事务 中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联 或相互关系。 对于高校图书馆管理者来说,可以对读者感兴趣的图书进行关联分析,找 出用户感兴趣的图书,期刊杂志中隐含的某些关联性,从而合理购买,借出图 书,为他们提供更加个性化的服务,提供相关的研究资料。关联规则在高校图 书馆中主要有两个方面的应用:一个是用于读者所借阅图书的管理,另一个是 用于读者关系管理。 在读者所借阅图书的管理中,利用关联规则,可以在图书馆流通历史记录 1 5 第三章数据挖掘技术在图书馆中的应用 中找出有多大比例的读者借阅了图书a 的同时又借阅了图书b 。如果这个比例 比较高,说明图书a 和b 之间有强大的关联规则,就可以向未来的借阅者推荐 和他借的有关的书,同时也节省了读者搜索的时间。挖掘出来的规则可为图书 订购工作提供科学的依据,如订购图书a 类数量要和b 类的图书数量相匹配等。 在读者关系管理中,通过对图书馆读者数据库里的大量数据进行挖掘,可 以从大量的记录中发现有趣的关联关系,找出影响图书馆服务效果的关键因素, 为图书馆定位、跟踪和定题服务主题的确立,重点读者服务群体的寻求、细分 与保持,学校重点学科建设和研究课题的确立,研究课题风险评估和前景预测 等决策支持提供参考依据。 6 在读者借阅序列数据库中的应用 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但 序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形 如在某一段时间内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即 序列“a b c 出现的频度较高。 在高校图书馆读者管理中,序列模式分析是在给定流通数据库中找出读者 序列,每个序列是按照时间排列的一组读者借阅集,挖掘序列函数作用在这个 读者序列数据库上,返回该数据库中出现的高频序列,这样我们就可以在图书 馆流通历史记录中找出,读者在借阅图书a 后多长时间内借阅了图书b ,在多 长时间内又借阅了图书c ,从而为读者推荐他们将要借阅的图书,提高图书馆 的服务质量。 7 为读者提供个性化服务 w e b 数据挖掘是数据挖掘技术在网络信息处理中的应用。它是从w c b 资源 中抽取有用信息或知识的过程,是对w e b 资源中蕴涵的、未知的、有潜在应用 价值的模式的提取。w e b 数据挖掘可分为内容挖掘、访问信息挖掘和结构挖掘 等。所挖掘的对象为服务器日志数据、w e b 页面、w e b 页面超链接关系及其他 信息。 由自动化系统图书馆转向数字图书馆是图书馆模式的发展方向。w e b 数据 挖掘是数字图书馆应用的一个重要方面。利用w e b 数据挖掘技术,根据读者以 前借阅的资料,甚至经常访问的网页进行分析、挖掘,可赋予每个用户一个i d 号,保存用户档案,对用户的注册信息及每一次浏览事务进行挖掘,找出用户 的浏览模式和兴趣模式,预测用户需求意向,确定个性化服务内容。w e b 数据 1 6 第三章数据挖掘技术在图书馆中的应用 挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方 向发展。图书馆员能够按照各个用户的要求或习惯,为用户提供更多、更好的 高质量个性化服务。 第二节数据挖掘在读者管理中的作用 1 研究读者群体的特征和关系具体地说,可以对读者群体按照年龄,学历,职 业,地域等因素进行分类,也可以进行聚类,把读者进行群体细分,这类似于 营销中的市场细分。通过这种手段,我们可以更清楚的了解用户,了解他们的 特点,他们的关系,从而了解他们的需求。 2 提高图书馆对读者的吸引力通过了解用户的特点,可以对读者服务进行一系 列的改善,提高读者的满意度。例如可以根据挖掘出来的一些预测结果,采取 一些特殊的手段,吸引用户,对一些特殊的用户进行特殊的服务。 3 提高馆藏的借阅率。可以统计出读者的借阅频率,书籍流通趋势和周期,通 过更合理的规划安排,是图书馆的节约率更高。例如可以对图书馆的书籍进行 流通频率的分类,更多的购进读者需要的书籍,给借阅需求高的用户更多的借 阅机会。 4 提升读者的忠诚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论