![数据质量评测方法与指标体系_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/ccbfd833-c9ba-46ab-a30c-c85119c9258e/ccbfd833-c9ba-46ab-a30c-c85119c9258e1.gif)
![数据质量评测方法与指标体系_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/ccbfd833-c9ba-46ab-a30c-c85119c9258e/ccbfd833-c9ba-46ab-a30c-c85119c9258e2.gif)
![数据质量评测方法与指标体系_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/ccbfd833-c9ba-46ab-a30c-c85119c9258e/ccbfd833-c9ba-46ab-a30c-c85119c9258e3.gif)
![数据质量评测方法与指标体系_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/ccbfd833-c9ba-46ab-a30c-c85119c9258e/ccbfd833-c9ba-46ab-a30c-c85119c9258e4.gif)
![数据质量评测方法与指标体系_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-5/6/ccbfd833-c9ba-46ab-a30c-c85119c9258e/ccbfd833-c9ba-46ab-a30c-c85119c9258e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、工程编号文档编号中国科学院数据应用环境建设与效劳数据质量评测方法与指标体系征求意见稿中国科学院数据应用环境建设与效劳工程组2021年9月前言本标准是“中国科学院数据应用环境建设与效劳之标准标准建设成果之一.本标准由中国科学院计算机网络信息中央科学数据中央提出并归口.本标准由中国科学院计算机网络信息中央科学数据中央负责起草.目录1范围2标准性引用文件3应用4术语5数据质量评测制度6 数据质量评测原那么6.1 科学性原那么56.2 客观性原那么56.3 系统性原那么56.4 可操作性原那么66.5 针对性原那么66.6 引导性原那么67 数据质量评测一般流程7.1 数据质量需求分析77.2 确定评
2、价对象及范围77.3 选取数据质量维度及评价指标77.4 确定质量测度及其评价方法87.5 运用方法进行评价87.6 结果分析及评级97.7 质量结果及报告98 数据质量评价主体的要求9 数据质量指标体系9.1 数据质量结构109.2 主要数据质量指标119.2.1 根本层129.2.2 准那么层139.2.3 评价指标选取的根本要求169.2.4 评价指标的筛选和权重169.2.5 评测指标的冲突处理原那么1710 数据质量评测方法10.1 定性方法1810.1.1 第三方评测法1910.1.2 用户反响法1910.1.3 专家评议法2010.2 定量方法2010.2.1 访问量统计2010
3、.2.2 计算机辅助检查2110.3 综合方法2110.3.1 层次分析法2110.3.2 缺陷扣分法26数据质量评测方法与指标体系1范围本标准明确了用于中国科学院数据应用环境建设与效劳工程中数据资源质量评测的一般方法与数据质量指标体系的建立方法.本标准所提供的流程、方法和指标可适用于中国科学院数据应用环境建设与效劳工程中建库单位内部的产品质量评价,日常统计监测制度,以及专家委员会领导下的工程质量检查.本标准提供的评测方法与指标体系适用于数据资源包括中间产物,不包括对数据生产与效劳过程的评测.2标准性引用文件以下文件对于本文件的引用是必不可少的.但凡注日期的引用文件,仅所注日期的版本适用于本文
4、件.但凡不注日期的引用文件,其最新版本包括所有的修改单适用于本文件.TRREC061数据应用环境建设与效劳标准标准框架3应用本标准所提供的流程、方法与指标均为通用性内容,意在面向不同规模、不同学科背景和不同数据类型的各类数据库提供适应性,在执行过程中评测方可根据实际情况适当增删评测流程,并决定具体的指标体系和采样方法.4术语本标准所使用之术语遵循?TRREC061数据应用环境建设与效劳标准标准框架?第七局部的约定.5数据质量评测制度为保证科学数据信息资源治理与使用的有效与平安,最大限度保证投资者的利益与建设者的劳动,促进科学数据资源的共享利用,“中国科学院数据应用环境建设与效劳工程要求工程内数
5、据库应建立数据质量评测制度.“中国科学院数据应用环境建设与效劳工程资助建设的数据资源,应在工程结题前到达本标准提出的质量要求,并接受工程质量检查.止匕外,建库单位应当根据具体情况适当开展以本标准为依据的日常数据质量监测统计.6数据质量评测原那么科学数据质量评价应注重以下原那么:6.1 科学性原那么质量评价的结果应能正确反映数据资源的质量状况.主要表达在正确的质量指标选择,以及采用科学合理的评价方法等方面.评价必须有一定的理论作为根底,但又不能够脱离实际.另外,科学性还反映适度的简单,评价不可能穷尽所有因素,也不能过于简单.6.2 客观性原那么评价应是符合实际、客观可信的.评价指标的选择须考虑当
6、前数据资源环境的总体水平,反映出不同学科领域的差异.6.3 系统性原那么由于评价对象的广泛性、复杂性、必须使用假设干指标来衡量,同时指标间可能相互联系、相互制约.但是,在评价中,每个指标又必须是独立的,不互相包容的,需考虑指标的层次性、系统性,防止指标间冲突.6.4 可操作性原那么科学合理的评价体系应该是可行的、操作方便的,指标的设计防止过于繁琐,还要考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性,注意选择能够反映科学数据质量状况的综合指标和具有代表性的指标.6.5 针对性原那么科学数据资源种类繁多,数据积累具有续性,各种资源除了具有与其他资源相同的共性之外,也具有其自身的特殊性.数
7、据质量评价应能充分考虑各类科学数据资源所特有的类型特征并能将其揭示出来,要在指标的权重和分值上予以区分,以表达其针对性的导向作用.6.6 引导性原那么进行科学数据质量评价,目的在于了解科学数据资源的质量情况,为有关的取舍提供判断依据,以帮助用户快速选择有针对性的信息.因此,必须以方便专业人员快捷而有效的选择和获取有价值的信息资源为导向.7数据质量评测一般流程科学数据质量评价过程是评价者将数据质量评价程序应用于目标数据或数据集并最终获取评价对象质量状态的一系列步骤.本标准提出科学数据质量评价的一般流程,具体于一个具体的执行过程中根据数据对象或学科背景有所不同仍可根据具体情况适当增删.科学数据质量
8、评价包括以下一般流程:物据喷就评酬一般流除I数据质总需求分K"l璃定评价对第及泡序,y-tr牲麻初析讣之必应需;平峪招1公'-1a*,Lrrr'二i!-,u-ftm«r-lirrF谛=薜成心甘科裕,出:*rf-,-JfPLH,!FJFFb-W-IL1,.-J*运用方法进行评Ifr*j结果分析及评级*"质量结果及报告数据质量评测过程是一个迭代过程,各个过程的先后顺序仅表达阶段活泼的大致顺序,根据实际执行情况的好坏决定,一些过程可能需要重复执行.7.1 数据质量需求分析对科学数据的数据质量评价是以用户为中央进行的数据质量评价.数据需求是人们在各项实践活
9、动过程中,为解决所遇到的问题而产生的对数据的缺乏感和求足感.数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点,因此,必须首先了解用户针对特定数据资源的需求特征才能建立针对性的评价指标体系.7.2 确定评价对象及范围确定评价对象及其范围,评价对象既可以是数据项也可以是数据集.7.3 选取数据质量维度及评价指标数据质量维度是进行质量活动中客体的具体质量反映,如正确性、准确性等,它是限制和评价数据质量的主要内容,因此,首先,要确定影响质量维度的因素有哪些,如人员素质、设备、设施等,必要时,要将这些质量影响因素在评价报告中进行分别说明.对于有些影响多个质量维度的因素,应在具体情况下根据需要
10、进一步细化其影响因素,或针对进一步细化目标环节在确定质量行为中的影响因素.另外,要选取可测、可用的质量维度作为评价指标准那么项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度.在此阶段要注意指标之间防止冲突,同时也要注意新增评价指标的层次、权重问题,以及与其它同层次指标的冲突问题.对三级评价指标的选择可根据评价对象的类别、评价要求进行量化处理,必要时可进行计量评价法.以当前技术条件无法量化的质量维度可适当使用具有相关性的替代指标.7.4 确定质量测度及其评价方法数据质量评价在确定其对象范围后,应该根据每个评价对象的特点,确定其测
11、度及实现方法,对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法.常用定性方法和定量方法,前者采用权重打分等方法进行,后者依据信息生产各阶段的质量标准一级缺陷判据进行.7.5 运用方法进行评价就是根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程.评价对象的质量应当由多个质量维度和三级评价指标的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考.多个质量维度和三级评价指标的组合能提供更加丰富的信息,故对某数据质量范围限定
12、的信息,应提供多个质量维度和三级评价指标的综合测量.数据质量评测过程中应保证所采用的方法的正确和客观,尽量防止增加质量评价的干扰因素,最大程度的借助计算机及网络技术的自动化处理实现,追求全面客观的反映数据质量的真实情况.特别对于定量的质量维度,要确定科学的定量测量的指标和方法,质量测量应当保证其所涉及的数据边界范围、系统参数等的正确和完备性.7.6 结果分析及评级评测后要对评测结果进行分析:对评价目标与结果进行比照分析,确定是否到达评价指标;对评价的方案的有效性进行分析,确认是不是适宜等.之后,根据评价结果确定对象的质量评价,如需要,可根据评价结果鉴定质量级别.确定评价对象的质量级别是建立在相
13、应的质量分级方案根底上的,该分级方案是根据相应的质量标准或用户的需求确定的,也是判断数据质量成熟度的重要依据.7.7 质量结果及报告质量评价结果和评测报告是所有科学数据质量评价工程及其评测结果的合集.在完整的数据质量评价结果和报告中,应该包括全部上述内容.止匕外,在数据质量评价报告中还应该把据此进行的评价过程的操作做出完整的记录,包括存在的质量级别的内容确定等.数据质量评价主体的要求评价主体是否具有专业的评价知识和科学的方法,对评价结果具有很大的影响.本标准认为,数据质量评价实施方应到达如下要求,评估结果才能被专家委员会认可: 评估组领导者必须是专家委员会认可的专家委员会委员; 评估组至少应有
14、四人; 工程经验:整个小组在被评估学科领域总共至少有10年的工作经验; 治理经验:整个小组总共至少有io年治理经验; 被评估组织过程的相关领域,至少有两位相关专家; 评估小组成员不能是参加评估工程的治理者,其直接治理者或其他利益相关人员.9数据质量指标体系质量维度是指数据满足用户要求和使用目的的根本质量特性,是一个数据约束的类型,如完整性、一致性等.数据质量是一个多维度的概念,可能涉及数据产品及其生产效劳过程的多个方面,本身不可测度.一般而言,对数据质量的熟悉通过将其分解为多个质量维度,并逐个识别实现.数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点.当前普遍的观点认为,数据质量要
15、素受行业领域、数据类型和应用目的等因素的影响极大,不存在面向所有学科领域和资源类型的普适性数据质量指标体系,但针对一个具体行业背景下的特定数据类型,建立一组受到公众认可的质量维度和指标体系并指定其采集方法是完全可行的.值得注意的是,数据质量的总体水平往往与其在质量因素中的短板关系更加密切,而对个别质量维度的测量可能不能正确反映数据资源的质量水平,在质量评价活动中质量指标体系的建立应在保持可行性的前提下尽可能周全.9.1 数据质量结构数据质量的结构特性学术上目前仍无定论,为出于便于治理的需要,本标准根据科学数据以及质量需求的特征,将数据质量评价要素划分为根本层、准那么层和指标层二层.指标层数据质
16、量三层结构准那么层根本层其中:指标层次适用范围根本层该层提出适用于对所有科学数据进行评价的通用指标,通用指标归纳大局部科学数据共有的本质特征,以及普遍的技术特征,是数据质量评价的根本指标准那么层该层根据科学数据的学科内容特性提出适用于特定学科领域范围的质量指标,准那么层是对根本层质量指标面向特定学科领域的细化指标,要求根据领域特点细化质量评价指标并分配权重指标层该层根据科学数据的资源类型不向提出适用于特定数据类型的质量指标,指标层是对准那么层提出质量指标根据资源类型不向提出具体质量评测执行方法,要求根据资源特点指定评价指标评测方法9.2 主要数据质量指标基于上述层次结构,本标准提出一组科学数据
17、质量评价常用指标,供评价方在科学数据质量评价过程中选择使用.鉴于科学数据对象范围的复杂,本标准提仅将根本层质量指标作为要求性内容;而准那么层指标为参考性内容,仅供评价方参考;未对指标层的具体执行方法进行约束.具体的指标选取、权重确定和使用的评价方法由评价方与建库单位在实施检查时依照质量评价流程确定.冯目n丁评精技标7a勤m甘田能一心母评带指址.有W性(丁可柳扑扁.B1悔一丁IffiJat_I指标_可小性一丁3NNH客"InlLj帆杆.指已H1H杵丁评带技标相美性丁砰美指标_正审性_砰m施:_用破性丁甲他k及时性,工评HA指标可*卸性评份值机主要数据质量指标X困Vi指9.2.1根本层根
18、本层对数据质量,根据数据的形式、内容和效用,即语法、语义和语用的不同层面,对其内在结构从形式、内容和效用三个层次来熟悉.质里指标说明形式质量语法层次的数据质量.语法层是最根本的层次,是以数据的形式特征为依据秩序化数据的方法,关于主题之间的数据形式的一致认同性:形式上的数据质量主要基于数据的根本结构要素来反映数据的形式方面的质量特征.考祭处于不同时空环境卜的数据主体之间对数据载体和表达方式二方面来熟悉,如:载体是否可以被数据用户感知和利用、表达数据的符号是否可以被用户识别并准确理解、数据表达是否采用了主体一致认同的结构、格式和标准.内容质量语义层次的数据质量.语义层面向客体事物,关注数据对描述对
19、象事物状态与变化的表述程度,主要通过把握数据的一些内在质量维度来反映数据的内容方面的质量特征,需要遵循客观性原那么、逻辑性原那么和开展性原那么.语义层次的数据质量是基于数据内容熟悉来考察数据对事物状态的表述程度.而反响事物运动状态极其变化的数据是一个集合体,本体论层次的实物信息是其全集,熟悉论层次的数据形成具不同的子集.语义层次的数据质量不仅应考察个体信息对事物状态的表达程度,还应考察数据集合对事物状态的表述程度.对个体信息而言,主要是信息的真实性、准确性和时变性;对于集合数据而言,一般还包括信息的相关性、可比性和顺序性.效用质量语用层次的数据质量.语用层次是以前两者为根底,通过对数据的有用性
20、等来把握.语用层那么面向数据用户,关注数据对用户的效用.需要遵循目的性原那么、实用性原那么和个性化原那么.考察数据产品对数据用户的效用和价值,其数据质量考察数据满足数据用户需求的程度.对于个体数据而言,主要是数据的有用性、重要性、精确度、时限性、有效性;对于集合数据而言还包括数据的完整性、适量性等.9.2.2准那么层不同学科背景下使用的数据质量指标通常各不相同,本小节列出的准那么层指标仅为科学数据质量评价活动中常见的质量指标,不保证其完备与权威,供参考使用,具体于一次评价活动中使用的质量指标仍需根据质量评价工作流程由评价方做出决定.评价方不应因本小节的列举而回避使用本标准以外的其他更加适用于数
21、据资源的质量指标.质里指标说明根本层准那么层可获得性可获得性就是数据资源的结构和形式与自然和社会实践相结合的程度.常用评价因素: 信息的方便获得对信息用户很重要 在数据库中需要很费力才能找到所需数据 所需信息应能很快检索到系统中还有很多所需信息不能自动、快捷查到,查全率不Wj信息检索或查找流程简洁、清楚一性数据的一致性是指同一个数据在同一时刻只有一个值,如果数据没有重复,就不会出现不一致.如果是系统可限制的数据重复,那么系统就会保证在更新增加、删除或修改时的-B性.常用评价因素: 经过加工整理前、后的信息数据经常出现/、匹配、不致 信息集合内各个个体信息之间经常有冲突例如某一指标有多个数值,多
22、个版本;编码相同但信息实体/、同等 普遍存在的相同信息实体使用不同的表达符号或不同的可理解性可理栅总和f娜理解数据资源编码的难易程度常用评价因素: 科学数据内容、格式等清楚易懂 提供的数据非常容易判断出是否符合需要 科学数据描述有太多专业术语难以明白,影响信息使用 对信息描述、分类及编码等的不标准性易造成对信息难以理解 用户对共享数据的技术标准、质量限制标准的了解、熟悉有助于信息理解完整性是指数据库中数据的正确性和相容性.数据库完整性由各种各样的完整性约束来保证,因此可以说数据库完整性设计就是数据库完整性约束的设计.常用评价因素: 信息信M要素尽可能完整对共享信息很重要 科学数据记录格式、条目
23、/、完整 数据库内普遍存在信息要素残缺、不完整的情况 检索到的信息内容完整性应能够满足所需查找要求 目前可检索到的有价值科学数据量仍然不够内容质量准确性准确性也可称为精确性,也有两层含义:一是数据所指内容对数据所指对象的反响、表现是否准确及其准确程度;二是数据形式对数据内容的表述、表达是否准确及其程度.准确性是一个关键的质量维度.文本型数据的准确性可以通过语句复杂度、对象数目和对象值三个参数描述.图像型数据的准确性定义为数据与其源数据在其所表达的根本内容意义上的一致性或接近程度.常用评价因素: 提供的信息准确无误 数据的表述或值很好地反映源信息的真实状态 信息数据的表述不会引起歧义 经过加工整
24、理后的信息数据表述不够准确,与原始h息后较大误差 信息数据的表述或值与实际误差在可接受的范围内正确性正确性是指数据所指内容是否真实反映、表现出了数据所指对象的实际状况及其程度常用评价因素: 提供的信息数据符合信息质量限制标准或标准 采集、传递、加工和整理后的信息数据偏离标准误差大 有专门机构或专业人员审核检查信息的正确性 有必要的程序或反响流程来监测、修改信息的正确性 对目前提供的信息数据的正确性不太满意客观性客观性是指数据米集和生产过程中是否受到主观因素影响以及被影响的程度常用评价因素: 科学数据应符合所述事实 提供的数据应经得起再验证 存在虚假的数据 信息提交前信息内容没经过专家或专业人员
25、的质量审核,造成与事实偏差后效性有效性是指数据对用户需求的满足程度常用评价因素:数据的有效性对其共享使用非常重要能查询到最新的数据 查询到的科学数据满足当前的工作任务 查到的结果比要求的还要好很多 更新的信息与原信息没有区别标识可靠性指数据的“可信赖的或“可信任的程度常用评价因素: 数据来源标注齐全且真实可靠 数据来源标注普遍不齐全 对来源清楚的信息可以放心采用 加工编辑过的数据根本可靠效用质量相关性指数据与用户需求匹配的程度常用评价因素: 查找到的信息与主题不完全一致,但却是其中的某一方面的阐述 查找到的信息集合多数在用户需要的检索主题内 提供的信息主题与用户检索主题意思匹配 查找到的信息数
26、据多数和用户需要信息无关 信息必须要和用户需求目的有相关性有用性指数据的内容与用户需求匹配的程度常用评价因素: 信息能过帮助解决问题 一般经过加工、整理过的信息可用性较好 数据具有增值性 数据是对传统文献科技信息的有用补充背景性指数据资源是否提供背景资料以及背景资料的充分程度背景资料包括元数据,用户使用手册等常用评价因素: 了解信息的背景资料对信息使用很有必要 提供的科学数据有必要的背景资料说明 所查询的数据库有完备的元数据信息说明 所查询的数据库有清洗的信息加工、整理的数据质量说明适量性指查出的数据是否足够用户使用,以及是否远多于用户需求的数量等通常表现为查准率、查全率、冗余等常用评价因素:
27、 检索到的信息有多余的、与要求不符的数据,重复信息很多 信息过量容易对信息吸收造成负荷时间、精力、消耗 查询到的信息越多越好 目前查找的信息量能足够满足要求及时性指数据的更新效劳是否及时常用评价因素: 效劳是否稳定,响应是否及时 用户反响的问题能否及时得到解决 存在过时的数据是否经常更新,更新是否及时查询所花的时间和精力是否好过预期9.2.3评价指标选取的根本要求评价方决定一个学科领域内的科学数据质量指标时,应遵循以下原那么: 指标选取要有系统性,以保证综合评价的全面性和可信度; 指标应意思明确,含义明确,不产生歧义; 选取的指标要有可测性,数据资料收集方便,计算简单,易于掌握.测量方法要长期
28、保持有效;能被客观测量,而且能把数据质量在时间上做一个比拟; 指标之间应进肯能防止明显的包含关系和相互冲突.对隐含的相关关系和相互冲突的指标,在模型中加以适当的消除和取舍; 指标的选择要保持同趋势化,以保证可比性; 指标设置要有重点,抓住主要因素.9.2.4 评价指标的筛选和权重评价指标是总体评价目标的具体表达,是评价目标的具体分解.不同学科背景的指标选择与权重侧重均应因对象不同而有所区别,但每个指标都应从一定的角度或侧面反映评价目标,与评价目标紧密相关,同时指标总体堆目标应具有足够的覆盖面,与评价目标保持高度的一致性.评价指标的选择应与科学数据的主要质量特征根本一致,最注重的应是科学数据的真
29、实性、可达性和实用性方面的指标.对于学科领域数据质量评价指标的分析主要通过专家调查分析法确定: 首先通过统计分析得出适用频次较多的数据质量维度,结合学科领域数据资源的特点,选择假设干个维度进行统一定义; 其次,从工程中对数据质量实际感知程度和理论认为重要程度两方面进行问卷调查,打分采用19等比标度法; 结果处理:将专家打分汇总,分别去除一个最高分和一个最低分后,进行总平均,得到每项指标的权重; 根据实际情况截取权重最高的一定数量指标作为实际使用的评价指标,并根据数据资源的类型决定其测量方法.分析评价指标及其权重使用的专家调查表格式如下:质里指标定义您认为这项指标的重要程度您认为在这方回的表现如
30、何不重要重要差好准确性数据所述状态对源事物状态的表达准确程度123456789123456789正确性数据内容符合事实或被认为正确的道理123456789123456789有用性指数据是否对用户有用123456789123456789,123456789123456789,123456789123456789,123456789123456789,123456789123456789,123456789123456789,123456789123456789,1234567891234567899.2.5 评测指标的冲突处理原那么目前学术研究对数据质量维度指标并无定论,本标准要求的评价指标的分
31、级与分类仅为实施评价活动而人为划分,因而有时会遇到指标间相互冲突的情况,对指标冲突的处理应遵循以下原那么: 评价的有效性和评价的简便性矛盾之间应在满足有效性的根底上,尽可能简化; 指标的精确性和真值表的可信度矛盾之间,评价应尽可能精确,但目前有些指标不能做到很精确时,应保证指标的可信性,可请专家给出定性描述; 指标的系统性和指标的可获得性矛盾之间.由于指标体系要包括各个方面的许多因素,有些指标不易获得和不易测度,不能满足评价所需的全部数据.因此在建立指标体系时,对假设干与评价关系不大的指标,虽然目前尚无法获得数据,仍以建议指标中提出,以保证评价指标体系的科学性和系统性.在评价数据质量时存在准确
32、性和可操作性之间的矛盾问题.从原那么上讲,评价应保证一定的准确性,并具有一定的可操作性以使评价者依据评价指标能在相对统一的尺度上展开评价.但准确性与可操作性往往是矛盾的,并不能同时实现.因此可将评价指标体系考虑不同的要求,划分层次.10数据质量评测方法科学数据质量评价方法主要分为定性和定量方法.定性方法主要依靠评判者的主观判断.定量方法那么为人们提供了一个系统、客观的数量分析方法,结果较为直观、具体.10.1 定性方法定性评价方法一般基于一定的评价准那么与要求,根据评价的目的和用户对象的需求,从定性的角度来对科学数据资源进行描述与评价.确定相关评价准那么或指标体系,建立评价准那么及各赋值标准,
33、通过对评价对象大致评定,给出各评价结果,评价结果有等级制、百分制或其他表示.定性评价标准因专业领域、学术水平和课题研究的任务等差异而因人而异,无法强求一致.定性方法的主体需要对学科背景有较深的了解,内容分析一般应由学科专家或专业人员完成.采用定性评价方法进行评价时,一般先根据评价的目的和效劳对象的需求,依据一定的准那么与要求,确定相关评价标准或指标体系,建立评价标准及各赋值标准,再通过评价者、专家和用户打分或评定,最后统计出各数据库的评价结果.定性方法的缺陷 评价指标体系本身的合理性 评价的滞后性 评价结果的适用性 问卷调查评价结果的可信性10.1.1 第三方评测法第三方主要是相对于治理方、建
34、库单位以及信息用户而言,是由第三方根据特定的信息需求,建立符合特定信息需求的数据质量评价指标体系,根据一定的评价程序或步骤,得出数据质量评价结论.第三方评价方法目前一般采用特定评价方法,其核心在于选择合理和科学的评价指标体系,这决定了定性评价的客观性、公正性、合理性和科学性.第三方评价方法存在的缺陷包括: 第三方评价法的效果取决于评价指标和方法过程选择的客观性、合理性,但评价本身往往具有主观性,从而会影响评价结果的客观性; 存在着科学数据信息的动态性与易变性和第三方评价法的静止性与方法单一性的矛盾,使得数据质量评价工作往往滞后于实际情况的变化; 评价指标一般具有普遍性,没有深入考虑科学数据专业
35、学科领域各个信息资源的特点和特定的信息用户的需求.10.1.2 用户反响法主要是由评价方向用户提供相关的评价指标体系和方法,由用户根据其特定的信息需求从中选择符合其需要的评价指标和方法来评价信息资源.在这种方法中,评价机构仅将其所选择的指标体系和评价指南告知用户,帮助或指导用户进行数据质量评价,而不是代替用户评价.此法一定程度上会增加用户的负担;用户不是专业机构承当资源发现和评价责任,在一定程度上影响了数据质量的深入、准确熟悉,容易产生偏差.10.1.3 专家评议法通常是由给定科学领域的假设干专家组成的评判委员会来评价科学活动或其结果的一个过程.同行评议的优势是,专家替代了科学外行,拥有了对学
36、术问题的决策权.专家评议是科学研究治理中一项非常重要的制度安排.专家评议应该贯彻的原那么是:公开性、公正性、可靠性、效用性和经济性.10.2定量方法定量评价方法是指根据数量分析方法,从客观量化角度对科学数据资源进行的优选与评价.定量方法为人们提供了一个系统、客观的数量分析方法,结果更加直观、具体,是评价科学数据资源的开展方向.但目前科学数据资源进行定量评价的实例较少,一般局限于访问次数、登陆、链接和被链接等情况的探讨.定量评价方法缺陷 量化的标准过于简单和外表化,往往无法对信息进行深层次的剖析和考察; 统计方法本身存在技术上的缺陷; 对学术性的科学数据价值高的数据共享平台不完全适用.10.2.
37、1 访问量统计基于网络用户对数据库的登陆、访问情况,依据网络流量对数据库进行评价,这类似于对传统印刷性出版物发行量的统计.比方定期统计每个数据库的访问量、用户IP地址分布及下载量等,并依此对数据库优劣进行排序.访问量统计的出发点是认为在一段时间内用户访问数据库的数量可间接反映数据库中共享信息的重要性,当然这种方法也存在其局限性,访问量对数据质量的表达并不是完全准确的;而且根据以往的经验,访问量统计更加适用于一些规模、类型相似的面向群众网络资源,如门户网站等,而对于专业性很强的学术类科学资源时往往不容易得到很好的效果10.2.2 计算机辅助检查将一局部重要数据质量指标的评测方法借助计算机程序实现
38、,通过部署运行这些工具直接取得数据资源的质量参数.计算机辅助检查的优点是可以得到数值结果,客观性较强.但目前阶段可以借助计算机进行检查的质量指标还非常有限,适用范围比拟小,而针对不同类型的数据资源时所使用的采集和计算方法通常也会存在差异,并且一些质量指标彼此之间具有一定的相关性,而计算机往往不能发觉这些相关性,计算机辅助检查用于横向比拟时很容易引起诟病.10.3综合方法综合方法将定性和定量两种方法有机地集合起来,从两个角度对科学数据资源质量进行评价.10.3.1 层次分析法该方法的核心是对评价对象进行优劣排序、评价和选择,从而为评价主体提供定量形式的评价依据.AHP法首先将复杂的问题分解成假设
39、干层次,建立阶梯层次结构,然后构成判断矩阵,进行层次单排序一致性检验,最后进行层次总排序和一致性检验,得出结论.层次分析法充分利用人的分析、判断和综合水平,适用于结构较为复杂、评价准那么较多且不易量化的问题,具有高度的简明性、有效性、可靠性和广泛的适用性.但也有其局限性,主要表现在其结果只是针对准那么层中的要素,人的主观判断对结果的影响较大;并且在对综合型数据资源进行评价时,针对不同的主题和学科背景的数据资源,许多方面的性质不具可比性,可移植性较差;同时,层次分析法使用比拟复杂,运用具有一定的滞后性,不适用于频繁进行的数据质量评价活动.层次分析法的根本步骤 将复杂的研究问题概念化,找出研究对象
40、所涉及的主要因素; 分析各因素的关联、隶属关系,构建有序的结题层次结构模型; 对同一层次的各因素对上一层次中某一准那么的相对重要性进行两两比拟,建立判断矩阵; 由判断矩阵计算被比拟因素对上一层该准那么的相对权重,并进行一致性检验; 计算各层次相对与系统总目标合成权重,进行层次总排序.层次分析法使用范例:干部评估确定主要因素对三个干部候选人y1、y2、y3,按选拔干部的五个标准:品德、才能、资历、年龄和群众关系构成层次分析模型TTlit德T评M胖众美系构造成比照拟矩阵比拟第i个元素与第j个元素相对上一层某个因素的重要性时,使用数量化的相对权重aij来描述.设共有n个元素参与比拟,那么再=出力福称
41、为成比照拟矩阵.成比照拟矩阵中aij的取值可按下述标度进行赋值.aij在19及其倒数中间取值 aij=1元素i与元素j对上一层次因素的重要性相同; aij=3元素i比元素j略重要; aij=5元素i比元素j重要; aij=7元素i比元素j重要得多; aij=9元素i比元素j的极其重要; aij=2n元素i与j的重要性介于aij=2n-1与aij=2n+1之间;1 'n,n=1,2,.,9当且仅当aij=n.选拔干部考虑5个条件:品德x1,才能x2,资历x3,年龄x4,群众关系x5决策人用成比照拟法,得到成比照拟阵如下:1l-ni-71-sl-n./f5315117412321作一致性检
42、验从理论上分析得到:如果A是完全一致的成比照拟矩阵,应该有aijajk=aik但实际上在构造成比照拟矩阵时要求满足上述众多等式是不可能的.因此退而要求成比照拟矩阵有一定的一致性,即可以允许成比照拟矩阵存在一定程度的不一致性.检验成比照拟矩阵A一致性的步骤如下: 计算衡量一个成比照矩阵An>1阶方阵不一致程度的指标CI:CI=入(4)n其中入max是矩阵A的最大特征值 从有关资料查出检验成比照拟矩阵A一致性的标准RI:RI称为平均随机一致性指标,它只与矩阵阶数有关. 按下面公式计算成比照拟阵A的随机一致性比率CRCR=*Ri判断方法如下:当CR<0.1时,判定成比照拟阵A具有满意的一
43、致性A,直到,或其不一致程度是可以接受的;否那么就调整成比照拟矩阵到达满意的一致性为止.例中的矩阵经计算得到M闺=5皿Q=查得R|=1.1ZCR=CI0.018京1.12=0.016<0.1说明A不是一致阵,但A具有满意的一致性,A的不一致程度是可接受的此时A的最大特征值对应的特征向量为U=(0.8409,0.4658,0.0951,0.1733,0.1920).这个向量也是问题所需要的.通常要将该向量标准化:使得它的各分量都大于零,各分量之和等于1.该特征向量标准化后变成U=(0.4759,0.2636,0.0538,0.0981,0.1087)Z经过标准化后这个向量称为权向量.这里它
44、反映了决策者选拔干部时,视品德条件最重要,其次是才能,再次是群众关系,年龄因素,最后才是资历.各因素的相对重要性由权向量U的各分量所确定.求A的特征值的方法,可以用MATLAB语句求A的特征值:Y,D=eig(A),Y为成比照拟阵的特征值,D的列为相应特征向量.在实践中,可采用下述方法计算对成比照拟阵A=(a_ij)的最大特征值入max(A刖相应特征向量的近似值.定义TJ=身7%,人£匕£叼'=1%U=(3,蚂-一,与尸可以近似地看作A的对应于最大特征值的特征向量.计 1寸(/0卜1寸3隔可以近似看作A的最大特征值.实践中可以由人来判断矩阵A的一致性.层次总排序及决
45、策现在来完整地解决问题,要从三个候选人y1,y2,y3中选一个总体上最适合上述五个条件的候选人.对止匕,对三个候选人y=y1,y2,y3分别比拟他们的品德(x1),才能(x2),资历(x3),年龄(x4),群众关系(x5).先成比照拟三个候选人的品德,得成比照拟阵x1(Y)=(0.082,0.244,0.674)z儿小(区)=3.002,CJ=0.004=黑<0.11x1U.Oo故B1的不一致程度可接受.x1(YX以直观地视为各候选人在品德方面的得分.类似地,分别比拟三个候选人的才能,资历,年龄,群众关系得成比照拟阵通过计算知,相应的权向量为%o=(0,606,0.265,0J29)z%KF)=(0.429,0429,0143/%*y)=(0.636
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代环保材料在建筑领域的应用前景
- 现代交通工具设计中传统文化的融入方式
- 基坑安全专项方案
- 现代东方风洗浴中心的节能环保装修方案
- 2024年春九年级化学下册 第9单元 溶液 实验活动5 一定溶质质量分数的氯化钠溶液的配制说课稿 (新版)新人教版
- 2023三年级英语下册 Unit 1 Animals on the farm Lesson 3 Fish and Birds说课稿 冀教版(三起)
- 2023二年级数学上册 一 加与减第1课时 谁的得分高配套说课稿 北师大版
- 2025蓄电池产品及零部件检验合同书
- 《5 奇形怪状的热带鱼(图形工具)》说课稿-2023-2024学年清华版(2012)信息技术一年级上册
- 2024秋五年级英语上册 Module 2 Unit 1 What did you buy说课稿 外研版(三起)
- 充电桩知识培训课件
- 2025年七年级下册道德与法治主要知识点
- 2025年交通运输部长江口航道管理局招聘4人历年高频重点提升(共500题)附带答案详解
- 老年髋部骨折患者围术期下肢深静脉血栓基础预防专家共识(2024版)解读
- 汽车电气设备检测与维修中职全套教学课件
- 幼儿园大班数学PPT课件2、3、4的分解与组成
- API682机械密封冲洗方案(中文)课件
- 七年级上册英语完形填空、阅读理解综合训练100题(含参考答案)
- DB35T 1345-2013兰寿系列金鱼养殖技术规范
- 祛痘产品原料配方与消费者祛痘方案选择建议
- 年产一万吨蓖麻项目可行性论证报告
评论
0/150
提交评论