免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图书管理论文关于图书管理中的数据挖掘系统设计论文范文参考资料 【摘 要】本文探讨了如何在现有图书数据库管理系统基础上,利用数据挖掘技术和软件技术实现对图书馆各种历史数据的深度分析,以期发现图书、读者及管理者之间的某种联系或规律,为优化馆藏分布,提高图书利用率,提升服务效率等提供参考依据。 【关键词】图书管理 数据库 数据挖掘 依托数据库技术的现代图书管理体系已经成为当前图书管理的主流,数字化的信息采集与存储极大地提高了图书管理的效率,如何深度利用这些数字化信息为图书管理带来更高的效率及决策支撑成为近年来图书管理领域研究的热门,但是由于目前大部分图书馆已经拥有了自己的管理系统,而放弃现有系统进行改造需要投入大量的人力物力,并不可取。因此,本文旨在探讨一种利用现有图书管理系统的数据资源实现深度挖掘分析的可行策略,从而在较少投入的情况下实现对系统效率的提升。 特征分析是数据挖掘最基本的分析,是通过分析获取数据库中某类数据的一般特征或者汇总。一般情况下,各种类别的基本数据可以通过数据库的查询来获取,然后通过一定的策略,如归纳技术,对这些数据进行泛化或者特征化,最后通过一定的方式将这些数据特征输出,如饼状图、柱状图、曲线、数据表等,形成直观的表现。 关联分析就是寻找数据库中各数据项之间存在的关联规则。关联分析通过关联规则挖掘实现,关联规则一般定义为,对于需要分析的各种项集合,实际数据中一定存在某些事务集合,用事务集中同时包含两项或多项的概率来表示某关联规则的支持度,用包含某项的事务集中同时包含其他项的概率来表示置信度,若设定一定的支持度阈值和置信度阈值,则可判定两项或多项的关联规则。 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。在进行数据分类之前,首先需要建立一个模型,来描述一个数据类或者概念集,例如对于图书管理数据,可以用时间周期和借阅量来描述一个热门书籍的概念集,然后以借阅数据库作为训练数据集,通过查询分析获取该概念集的分类规则、判定树或者数学描述公式等分类判据,通过该分类判据可以判断某类书籍是否属于热门书籍。预测则是通过描述历史数据某种属性的变化曲线或者趋势,然后评估或者预测该属性的可能值或者区间,例如我们针对某类书籍的借阅历史数据,利用回归分析描述借阅量随时间的变化曲线,然后通过对回归曲线的拟合分析,可以预测未来某个时间段的借阅量。 聚类分析就是将物理或抽象对象的组合分组成为由类似对象组成的多个类的过程。由聚类生成的类是一组数据对象的组合,同一类中的对象尽可能相似,而不同类中的对象尽可能相异。聚类不同于分类之处在于,聚类分析事先并不知道可能存在各类数据的特性,而分类分析需要提前确定各数据类的特性。例如在实际图书管理应用中,需要根据读者的阅览量来对读者分类,但是由于各个图书馆的总体借阅数据大相径庭,因此无法预先划定多少浏览量才属于活跃读者,何种为不活跃读者,因此可以对原始数据进行聚类分析,将读者聚类成三类,分别代表活跃、一般和不活跃读者。 为实现在现有图书管理系统上的数据挖掘分析,需要设计相应的软件系统。软件系统需要解决数据采集、挖掘算法设计、挖掘结果分析和界面设计等理由,总体框架如图1所示。 图1所示系统包含两个数据库,其中原始数据库为已有图书管理系统数据库,该数据库中存放着各种图书管理及借阅信息,是本系统分析必须使用的原始数据;分析汇总数据库是本系统所使用的数据库,该数据库存放着与原始数据库操作读取、挖掘分析计算、挖掘结果相关的各种数据。两个数据库互相独立,本系统所有操作均不转变原始数据库的结构及数据,需要存储的数据均存放于分析汇总数据库。 考虑到不同的图书管理系统可能采取不同的数据库引擎,因此本系统专门设计了自发现数据读取、原始数据筛选与提取以及原始数据库语义解释三个单元模块来匹配不同的原始数据库引擎及结构。首次使用本系统时,用户首先需要确定原始数据库引擎及数据库名,然后将该信息输入数据库操作与显示单元,经原始数据筛选与提取设定条件后,由自发现数据读取单元读取原始数据库结构,该结构反馈回数据库操作与显示单元后,由用户将原始数据库结构进行语义解释,该解释可能包括原始数据库各表作用,表中个字段作用等,对应的解释数据存储至分析汇总数据库。在以后各挖掘分析算法需要提取原始数据库中的数据时,则通过原始数据库语义解释单元将上述结构解释数据翻译成原始数据库对应表及字段,从而实现本系统与原始数据库的数据无缝连接。 完成本系统与原始数据库之间的无缝连接后,图书管理人员可以通过用户界面实现对两个数据库的操作显示、挖掘算法的选择及初始条件设定、挖掘结果显示等功能。 数据库操作与显示单元对两个数据库进行各种常规操作,包括查询、修改、增添、显示等功能。 挖掘算法选择不同的挖掘分析算法,选择好算法后会根据算法需求设定初始条件,如数据类别、时间周期、数据个数、挖掘条件等,然后根据这些条件从原始数据库中提取对应数据作为算法输入,经算法计算后输出至结果分析单元形成可供图书管理人员直接使用的数据、图表、文字等信息,这些信息一方面可以存储在分析汇总数据库,一方面可以通过结果显示单元显示到用户界面上。所有的挖掘算法均由计算机软件实现,如分析前的数据预处理的相关性分析、数据平滑处理等算法,用于特征分析的统计函数(均值、方差、标准差等),用于关联分析的Apriori算法,用于分类的判定树归纳分类、贝叶斯分类等算法,用于预测的回归及拟合等算法,用于聚类分析的K-Means等算法。只需为这些算法设定好输入条件,即可生成输入数据中隐藏的图书管理信息,为图书管理人员提供管理及决策参考。 目前数据挖掘技术在图书管理中的应用还处于起步阶段,本文也只是对数据挖掘的应用及挖掘系统的设计提出了一个总体思路,随着数字图书馆的发展、数据挖掘技术的不断完善、读者对个性化服务的需求增加以及图书管理人员对提高效率的需求,未来的数据挖掘技术必将对图书管理产生积极的影响。当然,要完成本系统,除了需要深入掌握各种数据挖掘算法及理论外,还需要熟练的数据库使用及软件开发经验,并经过大量的编程及调试才能实现所有功能,设计出更符合图书管理领域需求的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育技术培训学习心得体会
- 2024年卫星导航定位系统项目资金申请报告代可行性研究报告
- 幼师国旗下的讲话演讲稿(31篇)
- 金蟒蛇读后感
- 关于安全大讨论个人心得体会800字(3篇)
- 择业与理想演讲稿
- 有关劳动合同
- 高考地理二轮复习综合题专项训练2原因分析类含答案
- 辽宁省朝阳市2024-2025学年高一上学期第二次联考英语(含答案无听力原文及音频)
- 广东省广深珠联考2024-2025学年高三上学期11月期中物理试题(无答案)
- 商业银行旺季营销开门红
- 2024版《保密法》培训课件
- 企业的所得税自查报告5篇
- 2024-2030年输液架行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 海口市国土空间总体规划(2020-2035)(公众版)
- 备战2024年高考英语考试易错点25 语法填空:无提示词之连词(4大陷阱)(解析版)
- 安徽省淮南市2023-2024学年高一上学期第二次月考数学试题
- 产科疼痛管理制度及流程
- 桥本甲状腺炎-90天治疗方案
- 学校班主任培训制度
- MOOC 新时代中国特色社会主义理论与实践-武汉理工大学 中国大学慕课答案
评论
0/150
提交评论