



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、图书馆信息服务数据质量管理与评价 摘要数据质量影响用户数据的整合过程与结果、数据库的应用性、商业智能开发以及商业品牌。由信息系统呈现的数据,为满足用户的需求并将其做有效的应用,基础均在于数据的质量。针对数据质量的评估方式、管理架构和评估要素,建构数据质量评价指标体系,为提高数据质量从而改善图书馆信息服务提供参考。关键词数据质量;数据管理;图书馆;信息服务中图分类号G252文献标识码A文章编号10080821(2012)08-006803微软研究院科学家Jim Gray在2007年提出了以数据为基础的科学研究第四范式的概念:科学研究越来越依赖于数据的
2、聚集和分析。随着信息技术的发展,在有限的时间里,快速收集复杂而且大量的资料或数据(data),由数据整合与分析构建信息主体,再汇集足够的信息,发展成为知识,有了知识作为决策参考,采取行动,最后取得效益。然而,由图书馆信息服务系统所呈现的数据,无论是数字型态还是文字型态,为满足使用者的需求并将数据做有效的应用,一切基础均在于数据质量。数据质量会影响人们对组织的看法、用户数据整合过程与结果、数据库的应用性、商业智能开发以及商业品牌。因此,图书馆在为用户提供信息服务时,必考虑的要素即是资料或数据质量。1 数据质量管理数据质量是数据满足明确或隐含需求程度的指标。数据质量是主观性的,由使用者决定数据是否
3、适用,或是否高质量的。数据质量评估可分为两类:一是针对数据产品的收集者、保管者、用户的需求与经验等方面进行评估,称之为主观性评估;一是以任务独立性与任务依赖性两方面进行评估,则称为客观性评估。数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益,主要包括:数据分析(profiling)、数据清洗(cleaning)、数据提升(enha
4、ncement)、数据匹配与整合(match&eonsolidate)、数据监控(monitoring)等内容。1.1 数据分析通过数据分析的过程使数据收集者能够了解数据以及诊断数据的问题,主要是发掘组织中资源的特征和质量。有效的数据分析可以了解机构背后隐藏的真实的数据内容、结构和关系。有许多机构、公司投入相当多的经费作有关用户关系或信息系统,尝试整合各个单位、部门、用户或产品相关的数据。同时,凭借数据分析可以监控数据结构,将所有的信息与相关的数据库做比对,同时还可以提高数据的价值,发现数据是否有不完整、不正确与混淆的地方。1.2 数据清洗为达到数据的高质量化和提升用户满意度、降低机构
5、的危险性,必须通过校正、标准化与验证检测来强化数据的一致性、正确性与可信度,以作为决策的基础,进而构建一个有用、主动的信息系统,提供正确的信息,以提高机构的效率与竞争力。有效的数据质量可对机构环境有较好的认识,并且降低无效的成本投入。1.3 数据整合数据整合的目的是为了创建数据的单一、战略性视野(single,strategic view)。数据整合不良导致无法提供完整的影像给决策者,而会影响一个企业或组织的用户关系管理(consumer relationship management,CRM)、企业资源管理(enterprise resource management,ERM)、数据仓库及商
6、业智能的原始想法。此外,数据整合并非仅是将数据匹配或链接,而是适时将新的数据加入数据库中,并且确认所汇入或合并的新数据属于高质量的数据。通过内外部资源、电子资源、网络资源等资源整合,实现图书馆全部馆藏信息资源组成的发现与获取。1.4 数据提升数据提升是指将内在或外在的数据资源,应用到本身的机构或组织中,以达到数据的宏观性。同时,增加现有数据的价值也是数据提升的方法之一,如增列封面、书摘、书评和社会化书签等。1.5 数据监控借助数据的监控、核查功能,当数据质量出现下降现象时即刻提出警示,从而可以避免信息系统重复做无用功,并且凭借数据监控与核查可随时反应数据的质量。2 数据质量评价维度2.1 准确
7、性数据准确性用于度量数据的正确性与精确度,数据库收录内容的准确性及客观性,是否来源于学术性较强的权威机构,数据资源对学科的覆盖率,评价指标包括涵盖性、完整性、获取收集过程、测量误差、校正和处理。涵盖性:包括对所提供的数据能针对参照母群体有明确的说明,确认且纪录数据来源不足或在事前定义的范围中超出可接受范围,以及数据的架构可与外在及独立数据库比对。查全率标引深度越大、逻辑性越好,查全率也就越高。获取与收集:获取是指数据输入依据有用性数据架构,且符合数据提供者的角度;收集是指不同的数据提供者将数据输入类似数据库中。出版社可视为数据提供者,图书馆将文献数据制作成摘要即是数据采集,将数字化摘要汇集成数
8、据库即为数据收集。完整性:是指数据的精确性和可靠性。它是应防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息而提出的。数据完整性分为4类:实体完整性、域完整性、参照完整性、用户定义的完整性。测量误差:数据发生错误很难用一个简单的评估方法就能找出其复杂的原因。数据错误可区分为测量误差、偏差与一致性3种;所谓测量误差是指数据值与其真实值的差异,即数据效度;偏差即以系统性方式检查所得数据值与真实值的差异程度;数据的一致性则在评估多次的测量下其变异次数,可运用统计方法检测。校正:对不正确或遗失的数据,以特定数值替代的过程。建立适当的校正机制是提高数据质量的保证。 处理
9、:对某一数据库的数据为任何一个特定目的所执行的检视程序或流程的过程。数据处理的过程步骤应包括数据加载、校正、聚类等。数据库的系统、程序、操作与执行对数据质量的影响很大,所有数据处理的过程均要以纪录为基础,由纪录可容易的检视程序的效度,若要做变更,纪录可以让改变执行更为容易,并且数据处理过程有被测试,数据应被储存在安全处。2.2 时效性时效性是指相对当前任务数据是最新数据的程度,用来考察数据的时间特性对应用的满足程度。数据从产生、发展、到消亡,有一个相对的有效期,不同类型的应用对数据的时间特性有不同的要求,数据的提供、加载与分析运用的时间差越小越好,以使数据能够被确切实时呈现。时效性可用数据更新
10、及时、数据更新比例和脏数据比例等关联关系来具体体现,如数据库收录内容的时间跨度、更新频率、等待和响应速度,以及与对应纸本资源相比出版的及时性,评价指标包括数据释出时效性与数据记录时效性。释出时效性:是确认数据时间的重要因素,其测量方式是计算数据释出时间与最后一次的时间点差距,其差距越短表示所释出的数据呈现越接近目标。数据的释出时间对使用者而言有其特定价值意义,包含从数据库中粹出数据的不定期、定期时间点,如年报等。记录时效性:维持高质量的数据记录最重要的一点是,当使用者取用或汇集数据,其数据是具有效用的,同时数据应有相应的时间记录。2.3 可比性数据的可比性是指数据库持续维持与其它数据库的一致性
11、与标准作业方式,如数据内容与报告期限。数据比对有助于数据的诠释、了解与维护,同时,经由类似数据的比对可有效的检测数据的涵括性、编码错误、无反应等。数据可比性的评估有4项指标:数据概念标准、连结性、均等性与史实比对。概念标准:为使数据库的数据能明确的界定,减少混淆现象,应使用相同的数据概念定义,且数据概念标准应时时做审查与修订。数据概念标准应包含其概念属性,如名称、类别、长度以及值域,是否标准化和开放性的系统和数据接口。连结:当在使用数据链路时应有隐私与保密指引,其内容包括数据收集使用一致性的标准,以及数据编码具一致性。逻辑语义以及基于结构化元数据构建,支持递进式的深度检索,直至获取最小、最精准
12、的知识单元,如基于FRBR的关联数据等。均等:是指数据可从一种格式对应到任何一种格式,错误的分类法必须做有明确的分析与调整,并有纪录。历史比对:即将数据应用趋势图、百分比、频次比,或纵向分析做历史资料的比对。2.4 可用性数据可用性是指让使用者在应用时易用、易懂且无障碍。由数据可用性的评估可以确认数据的相关性与诠释程度,同时也可确认数据记录的完整与无障碍,具有可达性、详细说明、可理解三项评估指标。表现在与读者习惯的那些著名的检索站点相似的风格和成熟度,可视化知识地图,更快更强更深的检索,更优化更人性化更可视化的显示个性化交互式的体验。可达性:当数据用于分析或制作报告时应储存于安全的文档中,且为
13、未来参照之用。根据数据使用者的目的与需求,数据可以不同的格式与版本建立。无论印刷/电子、元数据/全文、本地/远程资源,是否一站式获取,争取让用户用更少的点击次数获取更多的相关数据。详细说明:主要是给使用提供者充分的信息,同时亦可了解数据的质量状况是否符合其使用的需求,可以提供数据的收集方法、操作方式以及主要的限制条件等。可理解:数据的结构设计与潜在性限制是其主要影响因素。是否界面友好,检索方法、界面术语容易理解和掌握,易学易用。2.5 相关性若要维持数据的相关性则必须持续的与主要使用者或数据处理者联系,以数据的适应性与价值性作为评价指标。适应性:是指它是否能根据使用者的需要,对现存的或未来信息
14、的位置设定有足够的弹性或明确的界定。因为需求与优先级经常改变,必须有反馈机制,以使数据使用者或拥有者能维持对现存或未来数据的关注与争议,能够将结果集以更精准、更可靠的相关度排序。价值性:指图书馆信息服务对知识及其应用的贡献度,决定于其是否能够满足用户的信息需求,以及是否能够针对其用户提供合适的服务。3 图书馆信息服务数据质量评价以图书馆信息服务数据质量影响因素构建如图1所示的评价指标树,指标树中包括准确性、时效性、可比性、可用性与相关性5个层面;在准确性层面又区分涵盖、过程、完整、测量、校正和处理6项指标;时效性层面中以释出时效性、纪录时效作为指标;可比性层面则以概念标准、均等、连结性与历史比对作为指标;可用性层面以可达性、详细说明、可理解性作为指标;相关性层面以适应性与价值性为指标;还可在各个指标下设计若干项评估项目。请信息统计专家学者对其进行内容效度检测,就评价内容的重要性、适切
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 珠宝首饰设计与D打印技术应用考核试卷
- 消费金融公司的产品线拓展与市场调研考核试卷
- 皮革制品的舒适度测试方法考核试卷
- 电力系统设备绝缘测试与评价考核试卷
- 头部按摩与舒缓技巧考核试卷
- 畜禽繁殖生理与繁殖效率的提升策略考核试卷
- 生物基纤维在户外用品中的应用考核试卷
- 橡胶带的耐臭氧性能评估考核试卷
- 皮革制品的供应链管理与合作伙伴关系考核试卷
- 2025商品房买卖FFZZ合同补充协议文本
- 标准入库授权委托书
- 【消防监督管理】中级专业技术任职资格评审备考题库大全-4简答、论述题部分
- 河南对外经济贸易职业学院教师招聘考试历年真题
- 个人遗体捐赠协议书
- 烟花爆竹考试真题模拟汇编(共758题)
- 政府采购供应商推荐表(附件1)
- 马原第四章资本主义的本质及规律
- 国家职业技能标准 6-30-05-05 挖掘铲运和桩工机械司机(2023年版)
- 22S702 室外排水设施设计与施工-钢筋混凝土化粪池
- 做自己:大学生职业生涯发展智慧树知到答案章节测试2023年哈尔滨工程大学
- 中国核工业集团794矿4.6有害气体中毒事故分析
评论
0/150
提交评论