




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 高校图书馆数据清洗问题与策略研究 4 国内高校图书馆数据清洗的建议与对策在利用图书馆数据开展学术研究,进行决策分析,优化图书馆管理和服务的过程中,如何把数据清洗落到实处,让数据真正成为进行研究和决策的可靠证据,是我们必须要探讨的问题。在智慧图书馆系统的数据挖掘分析子系统,资源整合与服务系统,机构科研数据管理系统,以及基于图书馆数据的决策分析和研究实践中,数据清洗必须作为连接数据层与应用层的中间环节。高校图书馆数据清洗现状的改善,需要数据清洗系统、图书馆和相关数据使用者等相关利益方协同努力。4.1 数据清洗系统平台需要优化数据清洗现有的图书馆
2、集成管理系统、发现系统、机构知识库等系统平台中的数据清洗功能不够完善,不能满足进行深度数据挖掘分析,精准服务推送的应用需求,严重影响了用户的使用体验和服务效果。而且,第三方中文数据清洗平台工具较少,且大多数文献数据分析工具不具有数据清洗功能。图书馆集成管理系统、发现系统、机构知识库等系统商,需要充分考虑图书馆的数据管理、服务与分析应用需求,从数据清洗的策略、粒度和算法等方面优化数据清洗模块功能,以进行更加精准的数据挖掘分析和推送服务。另外,在高校图书馆数据分析应用与数据清洗实践当中,除了应用现有的数据清洗平台工具,相关人员还需要开发一些满足实际应用需求的程序或工具,甚至需要针对一些常规化的应用
3、需求开发专门的数据清洗系统,在数据进入应用服务之前进行常规性且规模化的数据清洗。智慧图书馆时代,图书馆数据具有大数据、动态、多类型数据融合的特征。因此,高校图书馆相关应用系统平台数据清洗模块、第三方数据清洗平台工具的设计需要充分考虑这些新趋势,应用大数据技术满足数据清洗规模化需求,应用数据挖掘技术和本体工具进行数据清洗,提供可视化交互清洗界面,便于用户的参与和反馈。同时,考虑到实时动态数据的不断增长,系统的设计也需要考虑在线清洗功能。4.2 高校图书馆必须深入介入数据清洗从高校图书馆数据清洗研究与实践来看,图书馆方面的数据清洗参与度相对较低。图书馆不能完全依赖现有图书馆数据管理服务系统的数据清
4、洗功能,必须参与到图书馆数据管理研究与实践的数据清洗环节。(1)从数据管理者的角度,严格把控数据质量。一方面,从制度上保证数据质量,防止不清洁数据的产生。图书馆需要基于数据生命周期理论管理数据,将数据质量管理和数据清洗引入图书馆数据生命周期的不同阶段,从数据的创建、采集、管理、保存和利用等不同环节控制数据质量。另一方面,对opac书目数据、用户行为数据等实例层数据,以及数字资源整合系统、科研数据管理平台、发现服务系统等模式层数据清洗是高校图书馆数据清洗的重点。图书馆可以利用一些规范数据集,第三方数据清洗平台工具,建立中间数据仓库等措施加强数据清洗工作。(2)与图书馆系统商进行协调沟通,完善数据
5、清洗功能。图书馆需要分析数据错误类型和产生原因,全面掌握数据质量情况,提出明确的数据质量要求和数据清洗需求。在此基础上与系统商进行协调,优化数据清洗策略,改善系统数据清洗功能,进而提高数据质量。(3)积极参与图书馆数据清洗的研究。数据整合、发现与关联服务,以及基于用户历史数据的资源与服务推荐是高校图书馆数据管理与服务的重点方面。图书馆员在参与数据清洗实践的同时,也应该积极开展高校图书馆数据清洗策略、方法、技术实现等方面的研究。(4)面向图书馆数据用户开展数据清洗素养教育。在智慧图书馆时代,对图书馆数据进行管理、挖掘与分析,需要相关人员具备一定的数据清洗素养。面向具有数据应用需求的师生开展数据清
6、洗方面的素养教育,提供数据管理和数据清洗方面的培训,数据清洗软件与工具使用方面的咨询与指导,真实数据集的清洗练习,帮助他们了解数据清洗技术、方法和发展趋势,提高数据清洗技能。熟练使用已有的一些数据清洗软件与工具,能够对一些真实数据集进行清洗是图书馆用户数据清洗素养教育的一个重要方面。4.3 图书馆数据使用者要注重提升数据清洗素养目前在高校图书馆数据的研究与实践中,数据清洗的现状不是很理想,其中一个关键的原因就是相关机构和人员对数据清洗工作没有给予足够重视。因此,基于图书馆数据的研究和实践中必须充分重视数据清洗,特别是相关研究性成果中需要对数据清洗环节进行必要的陈述。数据清洗工作是否到位,数据清
7、洗策略是否合理,这些都是衡量数据分析结果和研究结论科学性与可靠性的重要方面。从图书馆数据使用者的角度,相关机构和人员需要参加数据清洗相关培训或素养教育课程,学习使用数据清洗平台或工具,提升数据清洗理论素养和实战能力。在基于高校图书馆数据的研究和实践工作中,必须具备严谨的数据态度,增强数据清洗意识,规范数据清洗环节,对采集到的数据进行完备性、规范性和正确性等分析,根据研究应用目的和意图确定合理的数据清洗方案,选择合适的数据清洗方法、技术、平台或工具实施数据清洗,保证数据清洗质量,以得到可靠且具有说服力的分析结果或研究结论。需要特别指出的是,数据清洗结束后,对数据修复的有效性和准确率进行验证同样重
8、要。数据清洗,是一个不断迭代的过程,当修复效果不理想或没达到预期目标时,需要不断修正清洗方案,进行多次循环清洗。5 结语数据是一种有价值的资源,正确使用高质量的数据有助于人们做出更好的预测、分析和决策。智慧图书馆时代,高校图书馆拥有丰富的数据,而且会持续不断地增长。随着智慧图书馆的发展,数据挖掘与分析技术的深入应用,基于图书馆数据进行数据挖掘与分析,开展学术研究,驱动决策,优化图书馆管理与服务,为用户提供智能化、精细化、个性化以及主动服务成为一种关键趋势,这些都需要高质量的基础数据做支撑。因此,数据清洗将日益成为高校图书馆数据应用研究与实践的重要方面。参考文献:1school of infor
9、mation science,university of illinois. course full catalogeb/ol. http:/2王曰芬,章成志,张蓓蓓,等.数据清洗研究综述j.现代图书情报技术,2007(12):50-56.3叶鸥,张璟,李军怀.中文数据清洗研究综述j.计算机工程与应用,2012(14):121-129.4ding y,lin h,li r. change semantic constrained online data cleaning method for real-time observationnal data streameb/ol. the inte
10、rnational archives of the photogrammetry,remote sensing and spatial information sciences,2016,xli-b2:177-183. http:/-arch-photogramm-remote-sens-spatial-inf-5song s,zhang a,wan j,et al. screen:stream data cleaning under speed constraintseb/ol. http:/6bloodgood m,strauss b. data cleaning for x
11、ml electronic dictionaries via statistical anomaly detectionc/ol.2016 ieee tenth international conference on semantic computing(icsc),february,2016,laguna hills,ca,usa. http:/7krishnan s,wang j,wu e,et al. activeclean:interactive data cleaning for statistical modelingc/ol. proceedings of the vldb en
12、dowment,2016,9(12):948-959. http:/8石彦华,李蜀瑜.聚类反馈学习的数据清洗研究j.计算机工程与应用,2011(30):127-131.9qu z y,wang y w,wang c. a data cleaning model for electric power big data based on spark frameworkc/ol. advance science and technology letters,2016,121:405-411. http:/10krishnan s,haas d,franklin m j,et al. towards
13、reliable interactive data cleaning:a user survey and recommendationsc/ol. hilda16,june 26,2016,san francisco,ca,usa. http:/11apiletti d,bruno g,ficarra e,et al. data cleaning and semantic improvement in biological databasesj. journal of integrative bioinformatics,2016,3(2):219-229.12王浩,徐宏炳.基于领域本体的数据
14、清洗研究j.计算机工程与设计,2006(22):4274-4276,4280.13jing t w,hong j l. data cleaning utilizing ontology toolj/ol. international journal of grid and distributed computing,2016,9(7):43-52. http://14chu x,morcos j,ilyas i f. katara:a data cleaning system powered by knowledge bases and crowdsourcingeb/ol
15、. https:/15叶晨.基于众包的数据清洗关键技术的研究d.哈尔滨:哈尔滨工业大学,2015.16姜婷婷,王淼,高慧琴.opac系统用户搜索行为日志分析以武汉大学图书馆为例j.图书情报知识,2015(5):46-56.17王继民,李雷明子,孟凡,等.基于用户日志的移动搜索行为分析j.图书情报工作,2013(19):102-106.18曲佳彬.基于聚类分析与关联分析的高校图书馆读者借阅模式实证研究以烟台大学为例j.情报探索,2016(2):105-109.19陈春颖.数据清洗技术在期刊元数据整合中的应用j.图书情报知识,2009(6):87-90.20盛怡瑾,黄政,张学福.面向领域分析的文献数据清洗策略研究j.数字图书馆论坛,2015(12):2-8.21张晋辉,刘清.基于推理机的sci地址字段数据清洗方法设计j.情报科学,2010(5):741-746.22潘玮,牟冬梅,李茵,刘鹏.关键词共现方法识别领域研究热点过程中的数据清洗方法j.图书情报工作,2017(4):1-6.23马晓亭.基于大数据决策分析需求的图书馆大数据清洗系统设计j.现代情报,2016(9):107-111.24许天才,杨新涯,田琳.自主创新为主导的图书馆系统研发探索历程以重庆大学图书馆为例j.图书馆论坛,2017(4):9-17.25喻乒乒,谢琴芳,潘筠.cal
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心理教育家长会教学课件
- 端午节小学生班队会课件
- 2025年自动酸雨采样器及测定仪项目合作计划书
- 心理健康高中课件教学
- 建筑工地看管协议书范本
- 2025年铌酸钾晶体(KNBO3)项目合作计划书
- 空军工程大学网上课件
- 心理健康课件中职生
- 2025版全国性电商平台物流配送服务合同
- 2025房地产认筹协议正本:房地产投资信托基金(REITs)合作协议
- 广东湛江市文化广电旅游体育局下属事业单位招考聘用教练员(同步测试)模拟卷及答案
- 安措费使用计划报审表(施工报-监理审-业主批)
- 智慧市政系统解决方案
- 医疗期规定(表格化)
- 切头飞剪设计(含全套CAD图纸)
- 建设项目主要染物排放总量指标核定技术方法
- GMC核算模型 国际企业管理挑战赛
- RationalDMIS客户培训手册
- 二年级语文看图写话
- Agilent 34970A快速入门指南
- 一次性使用配药用无菌注射针产品技术要求changchuan
评论
0/150
提交评论