基于数据挖掘的数字档案信息管理研究浅析_第1页
基于数据挖掘的数字档案信息管理研究浅析_第2页
基于数据挖掘的数字档案信息管理研究浅析_第3页
基于数据挖掘的数字档案信息管理研究浅析_第4页
基于数据挖掘的数字档案信息管理研究浅析_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据挖掘的数字档案信息管理研究浅析随着社会主义现代化的开展,计算机技术的进步,信息技术在社会开展的各个领域都扮演着极其重要的角色。查字典范文网为您编辑了“基于数据挖掘的数字档案信息管理研究浅析基于数据挖掘的数字档案信息管理研究浅析在信息化开展的今天,图书馆,特别是大学图书馆不仅要对信息进展简单的数字转换和管理,更要对新兴事物网络进展档案化管理和归档,包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理,成为当今图书管理的必然趋势,这就必须对档案化管理的技术和法律相关问题进展深化阐述和讨论。所谓数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、

2、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些数据可以是构造化的,如关系数据库中的数据,也可以是半构造化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进展数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的穿插学科,是目前国际上数据库和决策支持领域的最前沿的研究

3、方向之一。一、数据挖掘的功能数据挖掘通过预测将来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目的是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。1、关联分析关联分析能寻找到数据库中大量数据的相关联络,常用的一种技术为关联规那么和序列形式。关联规那么是发现一个事物与其他事物间的互相关联性或互相依赖性。2、聚类输入的数据并无任何类型标记,聚类就是按一定的规那么将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差异很大。聚类增强了人们对客观现实的认识,是概念描绘和偏向分析的先决条件。聚类技术主要包括传统的形式识别方法

4、和数学分类学。3、自动预测趋势和行为数据挖掘自动在大型数据库中进展分类和预测,寻找预测性信息,自动地提出描绘重要数据类的模型或预测将来的数据趋势,这样以往需要进展大量手工分析的问题如今可以迅速直接由数据本身得出结论。4、概念描绘对于数据库中庞杂的数据,人们期望以简洁的描绘形式来描绘聚集的数据集。概念描绘就是对某类对象的内涵进展描绘并概括出这类对象的有关特征。概念描绘分为特征性描绘和区别性描绘,前者描绘某类对象的共同特征,后者描绘不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描绘的方法很多,如决策树方法、遗传算法等。5、偏向检测数据库中的数据常有一些异常记录,

5、从数据库中检测这些偏向很有意义。偏向包括很多潜在的知识,如分类中的反常实例、不满足规那么的特例、观测结果与模型预测值的偏向、量值随时间的变化等。偏向检测的根本方法是寻找观测结果与参照值之间有意义的差异。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。二、数据挖掘在建立现代化高校档案馆中的应用1、资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件搜集的信息、档案信息网建立和维护信息。我们从研究大学档案用户的信息需求出发,数据挖掘为大学档案馆全面掌握和准确理解档案用户的信息需求提供了方法。(1) 利用Web访问信息挖掘技术发

6、现其中的关联形式、序列形式和Web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或效劳受欢迎的程度,发现用户访问形式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建立提供了科学根据。(2) 搜集大学档案网web效劳器保存的用户注册信息、访问记录,以及有关用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反响信息等各种数据集合。2、从建立大学档案馆馆藏信息资源出发,数据挖掘为大学档案馆提供了选择一条科学开展道路的重要根据。(1) 利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利

7、用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索恳求中用户恳求失败的数据进展分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。(2) 在大学档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进展挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。3、从做好大学档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对将来工作的预测发挥重要作用。(1) 在提供利用环节中,对用户每次借阅的信息进展关联分析,发现各类档案信息之间的关联规那么或比例

8、关系,这样可以进一步优化馆藏信息。(2) 开展大学档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进展总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为将来档案工作的趋势进展预测。三、数据挖掘在管理类数据中的应用大学档案馆的管理类数据包括:智能监控系统、消防系统、温湿度控制系统、智能密集架、数据管理系统、数据利用系统等在日常工作产生大量的管理类数据。我们得用数据挖掘工具在这类看似无用的数据中提取有价值的知识并运用到大学档案馆工作中,并在大学档案馆的现代化建立中发挥作用。大学档案馆档案工作的重点是为师生效劳,以效劳为中心开展

9、各项工作,如何使用先进的工具,进步效劳的质量是一直困扰我们的难题。数据挖掘为大学档案馆档案工作的智能化、个性化、精品化提供了行之有效的方法。在智能检索系统可调用用户兴趣模型,自动修正检索策略并可依用户兴趣将检索结果迅速聚类和分类,并条理化地排序出来;对于设计院、社科院等科研型档案用户,可借助数据挖掘开展针对性的档案信息挖掘,并将研究成果以概述、成果报告等形式提供给用户。这样不光实现了大学档案的二次开发,也会给用户带来意外的惊喜。网络最初只是科学家与研究人员之间交换文件的软件,把因特网用于教育和研究可以得到政府的补贴。在中国,大学有拨款,图书馆有大学支持,数字图书馆的网络档案馆是不赢利的,产出是教学和科研的长期社会效益。今天,因特网已经越来越商业化了,网络在数字经济中已成为极具潜力的技术投资对象。大学数字图书馆也可以考虑建立以赢利为目的的网络档案库,采用网络商务中的一些商务形式,例如网络广告、旗帜广告、赞助广告、订阅、B2C等。收入可用于大学数字图书馆网络档案馆建立的滚动开展。目前人们对这些处于萌芽中的经济形式认识甚少。管理网络的公共政策制定主体是政府部门,推行电子政务,开发网络资源,促进从文字印刷向网络出版的转移是当前相关政府部门的重要任务。大学的政策、态度和措施对数字图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论