图书馆信息服务数据质量管理及评价_第1页
图书馆信息服务数据质量管理及评价_第2页
图书馆信息服务数据质量管理及评价_第3页
图书馆信息服务数据质量管理及评价_第4页
图书馆信息服务数据质量管理及评价_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、图书馆信息服务数据质量管理及评价摘要数据质量影响用户数据的整合过程与结果、数据库 的应用性、商业智能开发以及商业品牌。由信息系统呈现的 数据,为满足用户的需求并将其做有效的应用,基础均在于 数据的质量。针对数据质量的评估方式、管理架构和评估要 素,建构数据质量评价指标体系,为提高数据质量从而改善 图书馆信息服务提供参考。关键词数据质量;数据管理;图书馆;信息服务中图分类号1g252文献标识码a文章编号10080821 (2012) 08-006803微软研究院科学家jim gray在2007年提出了以数据为 基础的科学研究第四范式的概念:科学研究越来越依赖于数 据的聚集和分析。随着信息技术的发

2、展,在有限的时间里, 快速收集复杂而且大量的资料或数据(data),由数据整合 与分析构建信息主体,再汇集足够的信息,发展成为知识, 有了知识作为决策参考,采取行动,最后取得效益。然而, 由图书馆信息服务系统所呈现的数据,无论是数字型态还是 文字型态,为满足使用者的需求并将数据做有效的应用,一 切基础均在于数据质量。数据质量会影响人们对组织的看 法、用户数据整合过程与结果、数据库的应用性、商业智能 开发以及商业品牌。因此,图书馆在为用户提供信息服务时, 必考虑的要素即是资料或数据质量。1数据质量管理数据质量是数据满足明确或隐含需求程度的指标。数据 质量是主观性的,由使用者决定数据是否适用,或是

3、否高质 量的。数据质量评估可分为两类:一是针对数据产品的收集 者、保管者、用户的需求与经验等方面进行评估,称之为主 观性评估;一是以任务独立性与任务依赖性两方面进行评 估,则称为客观性评估。数据质量管理是指对数据从计划、获取、存储、共享、 维护、应用、消亡生命周期的每个阶段里可能引发的各类数 据质量问题,进行识别、度量、监控、预警等一系列管理活 动,并通过改善和提高组织的管理水平使得数据质量获得进 一步提高。数据质量管理是循环管理过程,其终极目标是通 过可靠的数据提升数据在使用中的价值,并最终为企业赢得 经济效益,主要包括:数据分析(profiling).数据清洗 (cleaning)数据提升

4、(enhancement),数据匹配与整合 (match&eonsolidate)、数据监控(monitoring)等内容。1. 1数据分析通过数据分析的过程使数据收集者能够了解数据以及 诊断数据的问题,主要是发掘组织中资源的特征和质量。有 效的数据分析可以了解机构背后隐藏的真实的数据内容、结 构和关系。有许多机构、公司投入相当多的经费作有关用户 关系或信息系统,尝试整合各个单位、部门、用户或产品相 关的数据。同时,凭借数据分析可以监控数据结构,将所有 的信息与相关的数据库做比对,同时还可以提高数据的价 值,发现数据是否有不完整、不正确与混淆的地方。1. 2数据清洗为达到数据的高质量化

5、和提升用户满意度、降低机构的 危险性,必须通过校正、标准化与验证检测来强化数据的一 致性、正确性与可信度,以作为决策的基础,进而构建一个 有用、主动的信息系统,提供正确的信息,以提高机构的效 率与竞争力。有效的数据质量可对机构环境有较好的认识, 并且降低无效的成本投入。1. 3数据整合数据整合的目的是为了创建数据的单一、战略性视野(single, strategic view)o数据整合不良导致无法提供 完整的影像给决策者,而会影响一个企业或组织的用户关系 管理 (consumer relationship management, crm)、企业资 源管理(enterprise resourc

6、e management, erm)、数据仓 库及商业智能的原始想法。此外,数据整合并非仅是将数据 匹配或链接,而是适时将新的数据加入数据库中,并且确认 所汇入或合并的新数据属于高质量的数据。通过内外部资 源、电子资源、网络资源等资源整合,实现图书馆全部馆藏 信息资源组成的发现与获取。1.4数据提升数据提升是指将内在或外在的数据资源,应用到本身的 机构或组织中,以达到数据的宏观性。同时,增加现有数据 的价值也是数据提升的方法之一,如增列封面、书摘、书评 和社会化书签等。1.5数据监控借助数据的监控、核查功能,当数据质量出现下降现象 时即刻提出警示,从而可以避免信息系统重复做无用功,并 且凭借数

7、据监控与核查可随时反应数据的质量。2数据质量评价维度2. 1准确性数据准确性用于度量数据的正确性与精确度,数据库收录内容的准确性及客观性,是否来源于学术性较强的权威机 构,数据资源对学科的覆盖率,评价指标包括涵盖性、完整 性、获取收集过程、测量误差、校正和处理。涵盖性:包括对所提供的数据能针对参照母群体有明确的说明,确认且纪录数据来源不足或在事前定义的范围中超 出可接受范围,以及数据的架构可与外在及独立数据库比 对。查全率标引深度越大、逻辑性越好,查全率也就越高。获取与收集:获取是指数据输入依据有用性数据架构,且符合数据提供者的角度;收集是指不同的数据提供者将数 据输入类似数据库中。出版社可视

8、为数据提供者,图书馆将 文献数据制作成摘要即是数据采集,将数字化摘要汇集成数 据库即为数据收集。完整性:是指数据的精确性和可靠性。它是应防止数据 库中存在不符合语义规定的数据和防止因错误信息的输入 输出造成无效操作或错误信息而提出的。数据完整性分为4 类:实体完整性、域完整性、参照完整性、用户定义的完整 性。测量误差:数据发生错误很难用一个简单的评估方法就 能找出其复杂的原因。数据错误可区分为测量误差、偏差与 一致性3种;所谓测量误差是指数据值与其真实值的差异, 即数据效度;偏差即以系统性方式检查所得数据值与真实值 的差异程度;数据的一致性则在评估多次的测量下其变异次 数,可运用统计方法检测。

9、校正:对不正确或遗失的数据,以特定数值替代的过程。 建立适当的校正机制是提高数据质量的保证。处理:对某一数据库的数据为任何一个特定目的所执行的检视程 序或流程的过程。数据处理的过程步骤应包括数据加载、校 正、聚类等。数据库的系统、程序、操作与执行对数据质量 的影响很大,所有数据处理的过程均要以纪录为基础,由纪 录可容易的检视程序的效度,若要做变更,纪录可以让改变 执行更为容易,并且数据处理过程有被测试,数据应被储存 在安全处。2.2时效性时效性是指相对当前任务数据是最新数据的程度,用来 考察数据的时间特性对应用的满足程度。数据从产生、发展、 到消亡,有一个相对的有效期,不同类型的应用对数据的时

10、 间特性有不同的要求,数据的提供、加载与分析运用的时间 差越小越好,以使数据能够被确切实时呈现。时效性可用数 据更新及时、数据更新比例和脏数据比例等关联关系来具体 体现,如数据库收录内容的时间跨度、更新频率、等待和响 应速度,以及与对应纸本资源相比出版的及时性,评价指标 包括数据释出时效性与数据记录时效性。释出时效性:是确认数据时间的重要因素,其测量方式 是计算数据释出时间与最后一次的时间点差距,其差距越短 表示所释出的数据呈现越接近目标。数据的释出时间对使用 者而言有其特定价值意义,包含从数据库中粹出数据的不定 期、定期时间点,如年报等。记录时效性:维持高质量的数据记录最重要的一点是, 当使

11、用者取用或汇集数据,其数据是具有效用的,同时数据 应有相应的时间记录。2.3可比性数据的可比性是指数据库持续维持与其它数据库的一 致性与标准作业方式,如数据内容与报告期限。数据比对有 助于数据的诠释、了解与维护,同时,经由类似数据的比对 可有效的检测数据的涵括性、编码错误、无反应等。数据可 比性的评估有4项指标:数据概念标准、连结性、均等性与 史实比对。概念标准:为使数据库的数据能明确的界定,减少混淆 现象,应使用相同的数据概念定义,且数据概念标准应时时 做审查与修订。数据概念标准应包含其概念属性,如名称、 类别、长度以及值域,是否标准化和开放性的系统和数据接 口。连结:当在使用数据链路时应有

12、隐私与保密指引,其内 容包括数据收集使用一致性的标准,以及数据编码具一致 性。逻辑语义以及基于结构化元数据构建,支持递进式的深 度检索,直至获取最小、最精准的知识单元,如基于frbr 的关联数据等。均等:是指数据可从一种格式对应到任何一种格式,错 误的分类法必须做有明确的分析与调整,并有纪录。历史比对:即将数据应用趋势图、百分比、频次比,或 纵向分析做历史资料的比对。2. 4可用性数据可用性是指让使用者在应用时易用、易懂且无障 碍。由数据可用性的评估可以确认数据的相关性与诠释程 度,同时也可确认数据记录的完整与无障碍,具有可达性、 详细说明、可理解三项评估指标。表现在与读者习惯的那些 著名的检

13、索站点相似的风格和成熟度,可视化知识地图,更 快更强更深的检索,更优化更人性化更可视化的显示个性化 交互式的体验。可达性:当数据用于分析或制作报告时应储存于安全的 文档中,且为未来参照之用。根据数据使用者的目的与需求, 数据可以不同的格式与版本建立。无论印刷/电子、元数据/ 全文、本地/远程资源,是否一站式获取,争取让用户用更 少的点击次数获取更多的相关数据。详细说明:主要是给使用提供者充分的信息,同时亦可 了解数据的质量状况是否符合其使用的需求,可以提供数据 的收集方法、操作方式以及主要的限制条件等。可理解:数据的结构设计与潜在性限制是其主要影响因 素。是否界面友好,检索方法、界面术语容易理

14、解和掌握, 易学易用。2.5相关性若要维持数据的相关性则必须持续的与主要使用者或 数据处理者联系,以数据的适应性与价值性作为评价指标。适应性:是指它是否能根据使用者的需要,对现存的或 未来信息的位置设定有足够的弹性或明确的界定。因为需求 与优先级经常改变,必须有反馈机制,以使数据使用者或拥 有者能维持对现存或未来数据的关注与争议,能够将结果集 以更精准、更可靠的相关度排序。价值性:指图书馆信息服务对知识及其应用的贡献度, 决定于其是否能够满足用户的信息需求,以及是否能够针对 其用户提供合适的服务。3图书馆信息服务数据质量评价以图书馆信息服务数据质量影响因素构建如图1所示的 评价指标树,指标树中包括准确性、时效性、可比性、可用 性与相关性5个层面;在准确性层面又区分涵盖、过程、完 整、测量、校正和处理6项指标;时效性层面中以释出时效 性、纪录时效作为指标;可比性层面则以概念标准、均等、 连结性与历史比对作为指标;可用性层面以可达性、详细说 明、可理解性作为指标;相关性层面以适应性与价值性为指 标;还可在各个指标下设计若干项评估项目。请信息统计专 家学者对其进行内容效度检测,就评价内容的重要性、适切 性与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论