GB-T28043-2019利用实验室间比对进行能力验证的统计方法_第1页
GB-T28043-2019利用实验室间比对进行能力验证的统计方法_第2页
GB-T28043-2019利用实验室间比对进行能力验证的统计方法_第3页
GB-T28043-2019利用实验室间比对进行能力验证的统计方法_第4页
GB-T28043-2019利用实验室间比对进行能力验证的统计方法_第5页
已阅读5页,还剩144页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

代替GB/T28043—2011利用实验室间比对进行能力验证的统计方法2019-12-10发布国家市场监督管理总局国家标准化管理委员会IGB/T28043—2019/ISO13528:2015 V 12规范性引用文件 13术语和定义 14通则 44.1统计方法的通用要求 44.2基本模型 44.3能力评定的通用方法 45能力验证计划的统计设计指南 55.1能力验证计划的统计设计 55.2统计设计的基础 55.3考虑结果的统计分布 65.4参加者数量较少时的考虑因素 65.5报告格式的指导原则 76能力验证样品和结果的初审 86.1能力验证样品的均匀性和稳定性 86.2考虑的不同测量方法 96.3删除错误数据 96.4数据的直观检查 96.5稳健统计方法 96.6离群值检验 7指定值及其标准不确定度的确定 7.1指定值的确定方法 7.2指定值不确定度的确定 7.3由配方法确定 7.4由有证标准样品确定 7.5由单一实验室的结果确定 7.6由专家实验室的公议值确定 7.7由参加者的公议值确定 7.8指定值与独立参照值的比较 8能力评定标准差的确定 8.1确定评定准则的方法 ⅡGB/T28043—2019/ISO13528:20158.2由专家意见确定 8.3由以往能力验证计划的经验确定 8.4由一般模型确定 8.5由测量方法精密度的协同研究得到的重复性和再现性标准差确定 8.6由同一轮能力验证计划所得数据确定 8.7能力评定标准差的监测 9能力评定统计量的计算 9.1能力评定的通用原则 9.2对指定值不确定度的限定 9.3测量误差的估计 9.7E,值 9.8能力验证中参加者不确定度的评定 9.9组合能力评分 10应用图示法描述能力评分 10.1图示法的应用 10.2参加者结果或能力评分的直方图 10.3核密度图 10.4标准化能力评分的条形图 10.5尧敦图 10.6重复性标准差图 10.7分割样品 10.8组合多轮能力验证计划中能力评分的图示法 11定性能力验证计划的设计与分析(包括名义和有序特性) 11.1定性数据的类型 11.2统计设计 11.3定性能力验证计划的指定值 11.4定性能力验证计划的能力评定和评分方法 附录A(规范性附录)符号 附录B(规范性附录)能力验证样品的均匀性和稳定性 附录C(规范性附录)稳健分析 附录D(资料性附录)统计方法附加指南 附录E(资料性附录)示例 参考文献 ⅢGB/T28043—2019/ISO13528:2015本标准按照GB/T1.1—2009给出的规则起草。本标准代替GB/T28043—2011《利用实验室间比对进行能力验证的统计方法》。本标准与GB/T28043—2011相比,主要技术变化如下:——增加了定性能力验证统计方法的内容(见第11章);——增加了计算密集型稳健估计方法的内容(见C.5)。本标准使用翻译法等同采用ISO13528:2015《利用实验室间比对进行能力验证的统计方法》。与本标准中规范性引用的国际文件有一致性对应关系的我国文件如下:——GB/T3358.1—2009统计学词汇及符号第1部分:一般统计术语与用于概率的术语3534-1:2006,IDT)——GB/T3358.2—2009统计学词汇及符号第2部分:应用统计(ISO3534-2:2006,IDT)——GB/T6379.1—2004测量方法与结果的准确度(正确度与精密度)第1部分:总则与定义5725-1:1994,IDT)——GB/TNEQ)15000.2—1994标准样品工作导则(2)标准样品常用术语及定义(ISO指南30:1991,——GB/T27043—2012合格评定能力验证的通用要求(ISO/IEC17043:2010,IDT)本标准做了下列编辑性修改:——将6.5.2末尾“(参见附录D)”更正为“(参见附录C)”;——将式(5)“Umm=√uEm+u]”更正为“ud=√uégm+uj”;——将9.8.2注“参见E.3”更正为“参见E.4”;——将B.2.3第七行“参考文献[33]”更正为“参考文献[32]”;——将表B.1中“gm”更正为“g”;——将B.2.3中“F₂m=(Fg-1.g(m-D,095-1)/m”更正为“Fm=(F-1.g(m-D,095)/m”;中“F-1.g(m-D,095-1”更正为“F-1.g(m-D.a.9s”;中“F₁=X3gs(g-v”更正为“F₁=XSgs(g-p/(g-1)”; GB/T28043—2019/ISO13528:2015——将C.5.4中两处“C.5.3.2”更正为“C.5.2.2”。本标准由全国统计方法应用标准化技术委员会(SAC/TC21)提出并归口。本标准起草单位:中国标准化研究院、中国合格评定国家认可中心、北京海关技术中心、北京工业本标准所代替标准的历次版本发布情况为:——GB/T28043—2011。V0.1能力验证的目的能力验证是通过实验室间比对来确定参加者(可以是实验室、检验机构或其他部门)对与特定监测或测量的能力,也可用于监测实验室的持续能力。ISO/IEC17043中描述了一些特定目的的能力验证,包括:实验室能力评定、识别实验室存在的问题、建立检测或测量方法的有效性和可比性、增强实验室客户的信心、确认实验室声称的不确定度,以及对参加实验室进行培训。能力验证的统计设计和应用的分析技术要适用于声称的目的。0.2能力验证计划中能力评分的基本原理能力验证中有很多可用的评分策略。尽管不同评分策略的计算方式有所差异,但大部分能力验证计划中都会比较参加者结果与指定值的差异,并根据数字准则来判定是否需要关注引起该差异的原因。因此,确定指定值的方法和选择评价参加者结果差异的准则是非常重要的。特别重要的是,指定值和评价差异的准则是否独立于参加者结果,或由参加者结果计算得到。本标准中两种策略均已给出。然而,需要注意第7章和第8章中给出的选择指定值或评价差异准则不是由参加者结果得出时的优缺点。一般说来,选择指定值和评价差异的准则独立于参加者结果是有优势的。特别的,评价相对于指定值偏离的准则(如能力评定标准差或允许的测量误差)要适用于测量结果的最终用途才是有意义的。0.3本标准和ISO/IEC17043本标准对ISO/IEC17043中关于统计设计、能力验证样品验证、结果审核和汇总统计量报告等内容提供了支持。ISO/IEC17043的附录B简要描述了能力验证计划的一般统计方法。本标准是ISO/IEC17043的补充,给出了能力验证统计方法的详细指南。本标准重复了ISO/IEC17043中关于能力验证的定义,并且包含了其中描述能力验证类别和设计范围的注。本标准不能涵盖所有目的、设计、基质和被测量。本标准给出的技术是广泛适用的,特别是新建立的能力验证计划。可以预期对一个特定的能力验证计划其使用的统计技术会随着计划的成熟而不断发展,其中更完善的评分、评价准则、图方法将更好地服务于参加者、认可机构和监管部门的特殊需求。本标准包含了已发布的分析化学实验室能力验证指南,但额外包含了允许其他有效的测量方法和定性鉴定使用的更广范围的程序。本标准的本次修订包含了第一版中大部分的统计方法和指南,增加了之前的参考文献更新和ISO/IEC17043扩展的范围所包含的内容。ISO/IEC17043包含了对个人和检验机构的能力验证,其包含了对定性结果的考虑。本标准中统计技术与其他标准保持一致,特别是ISO5725系列。这些技术也反映了其他标准中的技术内容,同时也与ISO/IEC指南98-3(GUM)和ISO/IEC指南99(VIM)保持一致。1利用实验室间比对进行能力验证的统计方法本标准规定了能力验证提供者在能力验证计划设计和数据分析时所用的统计方法,并对能力验证计划的参加者和认可机构利用所得数据提出了建议。本标准给出的方法可用于证明实验室、检验机构和个人给出的测量结果满足特定要求,其能力是可接受的。本标准适用于能力验证中报告结果为定量结果和定性结果的情形。下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文ISO3534-1统计学词汇及符号第1部分:一般统计术语与用于概率的术语(Statistics—Vo-cabularyandsymbols—Part1:GeneralstatisticaltermsaISO3534-2统计学词汇及符号第2部分:应用统计(Statistics—Vocabularyandsymbols—Part2:Appliedstatistics)ISO5725-1测量方法与结果的准确度(正确度与精密度)第1部分:总则与定义[Accuracy(truenessandprecision)ofmeasurementmethodsandresults—Part1:Generalprinciplesanddefini-tions]ISO/IEC17043:2010合格评定能力验证的通用要求(Conformityassessment—Generalre-quirementsforproficiencytesting)ISO指南30标准样品常用术语和定义(Referencematerials—Selectedtermsanddefinitions)trology—Basicandgeneralconceptsandassociatedterms(VIM)]3术语和定义ISO3534-1、ISO3534-2、ISO5725-1、ISO/IEC17043、ISO指指南99界定的以及下列术语和定义适用于本文件。当以上引用文件的术语和定义有差别时,应以ISO3534-1和ISO3534-2为准。附录A给出了符号。实验室间比对interlaboratorycomparison两个或两个以上实验室在预定条件下对同一或相似的检测对象进行测量或检测的组织、实施和评2能力验证proficiencytesting利用实验室间比对,对照预先设定的准则评价参与者的能力。——定量计划:确定能力验证样品中一个或多个被测量的量;——定性计划:鉴别或描述能力验证样品种一个或多个定性特性;——顺序计划:将检测或测量的一个或多个能力验证样品按顺序分发,并按期返回能力验证提供者;——同步计划:分发能力验证样品,在规定期限内同时进行检测或测量;——单次计划:为单个需求提供能力验证样品;-连续计划:按规定间隔提供能力验证样品;—-抽样:为后续分析提供样品,且能力验证计划中包含抽样程序的评估;——数据解释:对数据组或其他信息进行处理并给出解释(或其他结论)。对能力验证样品的某个特性赋予的值。能力评定标准差standarddeviationforproficiencyassessment用于能力评定的离散性度量。注1:可看作一个假定总体的总体标准差,该假定总体为严格遵照要求进行检测的实验室结果的全体。注2:能力评定标准差只适用于比例尺度和定距尺度的结果。注3:并非所有的能力验证计划都根据结果的分散性进行评价。[ISO/IEC17043:2010,修改——在定义中,删除“,基于可用信息”;添加注1,稍加修改注2、注3]测量结果减去参照值。[ISO/IEC指南99:2007,2.16,修改——删除注]最大允许误差maximumpermissibleerror对给定的测量、测量仪器或测量系统,由规范或规程所允许的,相对于已知参照值的测量误差的极[ISO/IEC指南99:2007,4.26,修改——删除注]由能力验证的指定值和标准差计算的实验室偏倚的标准化度量。注1:z值的常用变换为z',由指定值的不确定度和计算z值之前的能力评定标准差组合得到。注2:有时也称为z比分数。实验室能力的标准化度量,由参加者结果、指定值和测量结果与指定值的合成标准不确定度得到。注:有时也称为ξ比分数。3与允许极限值的比例proportionofallowedlimitscore实验室能力的标准化度量,由参加者结果、指定值和能力验证中的允许测量误差得到。注:对单轮结果,实验室能力可表示为对指定值的偏差(根据能力验证结果产生的需要行动的指示。由实验室间比对的一组结果得到的值。注:公议值通常宜用于描述一轮能力验证计划中参加者结果的均值和方差,但也可以仅用于部分参加者结果,可以样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。注1:离群值可能产生于预期的总体、不同来源的总体、错误的记录或其他错误。注2:一些计划中,用离群值来标记产生行动信号的结果,这并不是本术语的预期用法。即使离群值通常能够产生行动信号,但仍有可能产生行动信号的结果并不是离群值。[ISO5725-1:1994,修改——添加注]接受能力验证样品并提交结果以供能力验证提供者评价的实验室、组织或个人。能力验证样品proficiencytestitem能力验证提供者proficiencytestingprovider对能力验证计划建立和运作中的所有任务承担责任的组织。能力验证计划proficiencytestingscheme具有一种或多种规定特性足够均匀且稳定的材料,已被确定其符合测量过程的预期用途。注1:RM是一个通用术语。注2:特性可以是定量的或定性的(例如:物质或物种的特征属性)。注3:用途可以包括测量系统的校准、测量程序的评估、给其他材料赋值和质量控制。[ISO指南30:2015,修改——删除注4]有证标准样品certifiedreferencematerial;CRM采用计量学上有效程序测定的一种或多种规定特性的标准样品(RM),并附有证书提供规定特性4值及其不确定度和计量溯源性的陈述。注:值的概念包括名义特性或定性属性,该特性的不确定度可以用概率或置信水平来表示。[ISO指南30:2015,修改——删除注2、注3和注4]4通则4.1统计方法的通用要求4.1.1能力验证中使用的统计方法需要适合能力验证计划的目的,符合统计原理。统计方法或统计设计所依据的任何统计假定均应在统计设计或能力验证计划书中予以说明,并证明这些统计假定具有合注:有效的统计方法需要具备合理的理论基础,已知其在预期应用条件下的性能,并取决于各种假定和条件能是否与当前数据充分匹配。4.1.2统计设计和数据分析技术应与能力验证计划的目标相一致。4.1.3能力验证提供者应为参加者提供计算方法的描述、结果的一般解释以及与该解释有关的任何限制性说明。这些内容应在每轮能力验证计划的报告中提供给参加者,或以单独的程序摘要的方式提供给参加者。4.1.4能力验证提供者应确保所有软件得到充分验证。4.2.1对于能力验证计划的定量结果,如果报告某一能力验证样品的单次结果,则使用式(1)给出的基x;=μ+e; (1)x,——参加者i的能力验证结果;e;——参加者i的测量误差,服从某种统计分布。注1:E,的常用模型包括:正态分布ε,~N(0,o²),其均值为0,方差为常数或各实验室均不同;更常见的是“受离群值污染的正态分布”,这个分布是由正态分布和代表错误结果的更广分布一起构成的。注2:以z值和能力评定标准差σ作为能力评定的基础,是在合格实验室的“理想”总体中,实验室间标准差不宜超注3:该模型不同于GB/T6379中的基本模型,这里不包括实验室偏倚项B,。这是因为,仅报告一次观测结果时,无法区分实验室偏倚和残差。然而,如果参加者的结果是从多轮能力验证或多个能力验证样品得到的,宜考虑实验室偏倚。4.3能力评定的通用方法4.3.1能力验证计划中有三种不同的能力评定方法,用来满足能力验证计划的不同目的。这些方法a)通过与预先设定准则比较进行能力评定;b)通过与其他参加者比较进行能力评定;c)通过与声称的测量不确定度比较进行能力评定。4.3.2这些能力评定方法分别对应着不同的确定指定值和能力评定标准差的方法,例如:当指定值是5是事先规定的允许测量误差,且σp=δE/3;同样,在某些情况下,指定值可以是参照值,但σp可以是参加者测量结果的稳健标准差。在5能力验证计划的统计设计指南5.1能力验证计划的统计设计能力验证是对参加者进行能力评定,但并不特别关注偏倚或精密度,尽管可以通过特定的设计对偏倚或精密度进行估计。参加者的能力评定是基于其对能力验证样品测量结果的统计分析,或对能力验证样品的解释得到的。实验室能力通常是以能力评定统计量的形式来表示,利用能力评定统计量可对一系列被测量进行一致的分析,并且能在相同的基础上对不同被测量的能力验证结果进行比较。能力评定统计量通常是测量结果和指定值之间的差异与允许偏差进行比较,或与该差异的测量不确定度进行比较。通过对多轮能力验证计划所得能力评定统计量进行评估,可评估某一实验室是否存在一致的系统性影响(偏倚)或长期存在精密度较差的情况。第5章~第10章针对定量能力验证计划的设计、结果的统计处理以及各种能力评定统计量的计算和解释提供了指南。第11章介绍了定性能力验证计划(包括定序能力验证计划)。5.2统计设计的基础5.2.1根据ISO/IEC17043:2010中的规定“统计设计应以数据特性(定量或定性,包括有序和分类)、统计假设、误差性质以及预期的结果数量为基础,制定符合能力验证计划目标的统计设计”。因此,具有不同目标和不同误差来源的能力验证计划可能采用不同的统计设计。统计设计所考虑的一般目标除以下示例外,还可能存在其他目标:——示例1:若能力验证计划是将参加者的测量结果与预先设定的参照值进行比较,并且参加者的测量结果不超出能力验证计划开始之前所规定的限定值,那么这种能力验证计划的设计需要确定外部定义的参照值的获取方法、限定值的设置方法以及能力评定方法;——示例2:若能力验证计划是将参加者的测量结果与结合了同一轮能力验证计划的结果和在能力验证计划之前规定的限定值的综合结果进行比较,那么这种能力验证计划的设计需要考虑如何根据综合结果确定指定值,并确定限定值设置方法和能力评定方法;——示例3:若能力验证计划是将参加者的测量结果,与结合了来自同一轮能力验证计划的一组结果和由所有参加者结果所得变异确定的限定值的综合结果进行比较,那么这种能力验证计划的设计需要考虑确定指定值和适当的离散性度量方法,以及确定能力评定方法;——示例4:若能力验证计划利用参加者自身的测量不确定度将参加者的测量结果与指定值进行比较,这种能力验证计划的设计需要考虑如何获得指定值及其不确定度,以及如何将参加者的测量不确定度应用于能力评定;——示例5:若能力验证计划的目标是比较不同测量方法的性能,其设计需要考虑相关的汇总统计量及其计算程序。5.2.2能力验证可以使用各种类型的数据,包括定量数据、分类数据和有序数据。在定量数据中,某些结果可能表示为定距尺度或比率尺度。对于某些定量值的测量,也有可能只能获得若干离散和不连续值(比如逐级稀释)。然而,在多数情况下,可使用适用于连续变量的技术对这些结果进行处理。注1:对于定量值,定距尺度的间隔是有意义的,但比例没有意义,比如摄氏温标,但比率尺度的间隔和比例均有意6注2:对于定性值,分类尺度中顺序是无意义的,比如细菌种类的名称。有序尺度强调顺序,但其差值是没有意义5.2.3除了上述用途之外,能力验证计划还可以用于其他用途,参见0.1和ISO/IEC17043。具体能力验证计划的设计应适合声明的所有用途。5.3考虑结果的统计分布5.3.1ISO/IEC17043:2010中规定,对数据的统计分析技术应与统计假设相一致。最常用的服从对称分布(必要时经过转换之后)。另一个常用假设认为,结果分布由来自“有能力的”实验室产生的可靠的数据和可能产生离群值的错误数据组成。通常能力评定的解释基于正态分布假定,但只需合格参加者的结果满足正态分布即可。通常情况下没有必要确认测量结果是正态分布的,但有必要确认其近似对称分布,至少在视觉上呈现为对称的。如果不能确认测量结果对称,能力验证提供者宜使用适用于不对称结果的稳健技术(见附录C)。如果能力验证计划结果的预期分布不够对称(存在离群值的影响),能力验证提供者宜选择考虑数据分布不对称性和对离群值不敏感的数据分析方法,而且,所选择的能力评定方法也应考虑到合格参加者测量结果的预期分布。这可能包括:——适当变换以实现近似对称;——采用抵消不对称的评估方法;——采用包含适当分布假设的评估方法(例如:尽可能符合适当的分布假设,并在必要时舍弃离群值)。示例1:基于稀释的结果,比如定量微生物计数或免疫测定技术,其分布形式通常服从对数正态分布,因此,对数变换可以作为数据分析的第一个步骤。示例2:少量微粒的计数服从泊松分布,因此,可以根据一组参加者的平均计数,使用泊松概率表确定能力评定准则。在某些校准项目中,参加者测量结果可能服从测量程序所描述的某些统计分布(比如指数或波形分布),方案中宜考虑到这些确定的分布。5.3.2根据ISO/IEC17043:2010中4.假设的合理性。该证明可以以诸如观测数据、先前轮次能力验证计划的结果或相关技术文件为依据。注:分布假设的有效性证明要求比其合理性证明要求更加严格。5.4参加者数量较少时的考虑因素5.4.1能力验证计划的设计应考虑到满足设计目标所需要的参加者的最小数量,并说明如果不能达到该最小数量时应使用的替代方法[ISO/IEC17043:2010中b]]。参加者数量很大时的统计方法可能不适用于参加者数量有限的情况。由于从少量参加者测量结果获得的统计数据可能不够可靠,因而可能会依据不适当的对照组对参加者进行评估。注:国际理论化学与应用化学联合会(IUPAC)/国际分析化学溯源性合作组织(CITAC)报告《参加者数量有限时的常用能力验证计划》给出了参加者数量较少时的能力验证计划指南。报告建议基于可靠的独立测量给出指定值,例如:通过使用有证标准样品,由校准机构或国家计量机构独立赋值,或通过称重制备法进行赋值。该报告进一步指出,可不依据一轮能力验证计划获得的参加者测量结果来确定能力评定标准差。5.4.2各种统计方法所需的最小数量参加者取决于下列情况:——使用的统计方法,比如选择的特定的稳健方法或离群值剔除方法;7——参加者对特定能力验证计划的经验;——能力验证提供者对基质、被测量、具体方法和参加者群体的经验信息;——目的是否是确定指定值或标准差,或两者都确定。有关少量参加者进行能力验证的更多技术指南参见附录D的D.1。5.5报告格式的指导原则5.5.1按照ISO/IEC17043:2010中的要求,能力验证提供者要指导参加者使用常规测量方法对能力验证样品进行测量并报告结果,特殊情况除外。在某些情况下,该要求可能会使准确评估参加者测量结果的精密度和正确度或测量程序的优劣变得比较困难。对于一个能力验证计划,能力验证提供者宜采用一致的报告格式,而且,尽可能使用大多数参加者所熟悉的计量单位,选择的报告格式能够最大限度地避免转录错误和其他错误。这可以包括当参加者使用的计量单位不符合能力验证计划要求时能够自动警告。注1:对于一些能力验证计划,其中一个目的是评估参加者使用标准方法的能力,其中可能包括特定计量单位或有效数字位数要求。注2:采用允许参加者直接输入结果的电子报告系统可大幅减少或消除转录错误。5.5.2如果能力验证计划要求对能力验证样品进行重复测量,参加者宜报告所有的重复测量值。这种情况可能发生在,例如:要评估参加者测量能力验证样品结果的精密度时,或测量程序要求分别报告多个观测结果时。在这些情况下,能力验证提供者还需要参加者结果的均值(或其他均值的估计值)和不确定度,以便能力验证提供者进行数据分析。5.5.3当需要报告结果是“小于”或“大于”限定值(比如校准水平或定量限),以及需要将数值结果转换为得分时,能力验证提供者应给出结果处理方法。能力验证提供者应采用能处理删失数据的数据处理方法和评分程序(参见附录E的E.1),或要求参加者报告替代传统测量值的结果或其他补充结果。注1:对于删失数据,评分程序可以选择不予评分。注2:参加者报告超出常规测量范围以外的数值(比如低于参加者的定量限),可以使用数值统计方法,但评分结果可能不反映参加者对客户的常规服务水平。当使用公议统计量时,如果删失数据数量过多,会对稳健方法构成影响,无法进行能力评定。若删失结果的数目足以影响稳健方法,应使用存在删失数据时可以进行无偏估计的统计方法评估结果[21],或不对结果进行能力评定。若对所选择程序的效果存在质疑,能力验证提供者应考虑使用可能适用于该情形下的其他替代方法计算汇总统计量并进行能力评定,并研究其差异。如果预测到或观测到删失结果是诸如“小于”这样的形式,能力验证计划的设计应包括评分规则和/或参加者报告删失值的要求,并且告知参加者。注:E.1给出了删失数据的分析方法示例。该示例给出获得稳健公议统计量的三种方法:删除删失值;保留删失值,5.5.4通常,能力验证计划的设计应确定报告的有效数字位数。当规定有效数字的位数时,应保证舍入误差与预期的参加者间变异相比可以忽略不计。注:在某些情况下,正确报告是参加者能力评定的一部分,而且,有效数字位数和小数点后保留的位数可以有所不同。如果在常规测量条件下,报告的有效数字位数对能力验证提供者进行数据处理存在明显的不利影响(比如测量程序要求的有效数字位数较少),能力验证提供者可以对报告的有效数字位数予以规定。示例:测量程序规定报告精度为0.1g,有可能导致出现较大比例(>50%)的相同结果,并影响稳健均值和标准差的8计算。在这种情况下,能力验证提供者可以要求参加者报告的数据精确到小数点后两位或三位,以获得足够可靠的均值和标准差的估计。如果允许不同参加者使用不同的有效数字位数报告结果,能力验证提供者应考虑计算公议统计量(比如指定值和能力评定标准差)的方法。6能力验证样品和结果的初审6.1能力验证样品的均匀性和稳定性6.1.1能力验证提供者应确保能力验证样品批有足够均匀性和稳定性,适合能力验证计划的目的。能力验证提供者应使用适当标准对能力验证样品的均匀性和稳定性进行评估,确保其不会对能力评定造成不利影响。均匀性和稳定性评估应使用以下一种或多种方法:a)附录B所述的实验研究方法,或能够提供同等的或更高均匀性和稳定性保证的替代实验方法;b)根据先前轮次能力验证计划使用相似能力验证样品的经验,在本轮能力验证中使用相同的方法进行均匀性和稳定性检验;c)评估本轮能力验证计划的参加者数据,确认其与以往轮次能力验证计划是否相一致,确认报告时间或生产程序是否变化,或是否存在由于不均匀性或不稳定性导致的任何意外波动。注1:以上方法的使用需要具体问题具体分析,并使用适当的统计方法和技术理由。在能力验证计划的实施过程中,往往会改变所使用的方法,比如,随着经验的积累,可能降低对能力验证预实验的要求。注2:依赖经验的评估方法(如以上b)所述]仅适用于以下情形:—-生产能力验证样品批的过程不会发生任何可能影响均匀性的改变; 生产能力验证样品批的物料不会发生任何可能影响均匀性的改变; 不存在依据均匀性检验或参加者结果无法判定均匀性的情形;—-定期评估材料均匀性,并考虑材料的预期用途,以确保在生产流程中实现的均匀性仍然符合预期目标。示例:如果先前轮次能力验证计划所使用的能力验证样品,经测试证明其具备充分的均匀性和稳定性,且参加者与先前轮次能力验证计划相同,这种情况下,如果在本轮能力验证计划中的实验室间标准差不大于先前轮次能力验证标准差,即证明本轮能力验证样品具备充分的均匀性和稳定性。6.1.2对于多个参加者使用相同能力验证样品的校准能力验证计划,能力验证提供者应确保本轮能力验证计划中样品的稳定性,或制定适当的程序,以便识别和解释本轮能力验证计划过程中的不稳定性。这包括应考虑到特定能力验证样品和被测量的变化趋势,比如漂移。必要时,应考虑到同一样品多次运输对稳定性的影响。6.1.3通常应检查所有被测量(或特性)的均匀性和稳定性。然而,如果在一轮能力验证计划中部分特性的均匀性和/或稳定性能够说明所有特性的均匀性和/或稳定性,可以仅对这部分特性使用6.1.1中的评估方法。在能力验证样品的处理过程中,所检查的被测量应对能力验证样品加工过程中的不均匀和不稳定来源反应敏感。包括以下重要情形:a)当被测量为比例时,小比例特性可能更难均匀化,因此,对于均匀性检验更为敏感;b)如果对能力验证样品进行加热处理,则选择一个对不均匀加热比较敏感的被测量;c)如果被测特性在能力验证样品的制备过程中可能受到凝结、沉淀或其他时间依赖效应的影响,应依照顺序对该属性进行检查。示例:在涉及土壤有毒金属含量的能力验证计划中,测定的金属含量主要受到湿度影响。需要考虑对湿度的持续监测以保证有毒金属含量的充分稳定性。注:E.2给出了均匀性和稳定性检验示例,推荐使用的统计方法见附录B。96.2考虑的不同测量方法6.2.1若要求所有参加者就同一被测量报告测量值,通常情况下,所有参加者应使用相同的指定值。然而,如果允许参加者自己选择测量方法,那么,每一被测量或特性的单一指定值可能无法适合所有的参加者。比如,当不同测量方法提供的结果不具有可比性时,即可能发生这种情况。在这种情况下,能力验证提供者可以针对每一种测量方法使用不同的指定值。a)使用经过确认的不同测量方法进行医学检测时,不同方法对相同的测试材料会产生不同的反应,也会使用不同的诊断参考范围;b)由操作定义的被测量,比如土壤中的可滤出有毒金属,可以采用不同的标准方法,且其结果不需直接比较,在这种情况下,能力验证计划仅规定被测量,并不规定具体的测量方法。6.2.2在能力验证计划的设计过程(如制定报告具体检测方法的条款)中,以及在进行每一轮能力验证的数据复核时,应考虑对部分参加者使用不同的指定值。6.3删除错误数据用稳健方法或通过检验来识别统计离群值之前,应从数据集内删除明显错误的数据。通常,对这些结果将分别予以处理(比如联系相关参加者)。这种方法可以纠正某些错误,但应依照批准的政策和程序进行处理。注:大多数能力验证数据中会发生明显错误,比如报告结果的单位错误或调换了不同能力验证样品的结果,这些错误只影响后续统计分析的准确性。6.3.2如果对某一结果是否错误存在任何疑问,应将其保留在数据集内,后续另行处理,见6.4~6.6。6.4数据的直观检查6.4.1作为任何数据分析的第一步,能力验证提供者应安排具备充分专业技术和统计知识的人员对数据进行直观检查。以确认结果的预期分布,识别异常值或意外变异的来源。比如,双峰分布可能是由于不同方法、污染样本或描述不清晰的操作指令所导致的结果的混合分布。这种问题宜在继续进行分析或评估之前予以解决。注1:直方图被广泛应用于检查统计数据是否呈单峰或对称分布,以及识别异常离群值(见10.2)。然而,直方图的组距对结果数量和切分点比较敏感,因此可能很难给出准确分布。对于识别可能的双峰或非对称分布,核密度图往往效果更佳(见10.3)。注2:可使用诸如累积分布图或茎叶图等其他检查方法。可用于数据检查的图示法参见E.3和E.4。6.4.2如果不能对所有感兴趣的数据集进行直观检查,则应执行某种适当程序,对数据集内的异常变异予以警示,例如,比较指定值的不确定度和能力评定标准差,或者,与以往的能力验证计划结果比较。6.5稳健统计方法6.5.1稳健统计方法可用于描述一组正态分布结果的中心部分,但不要求识别离群值,在后续分析中也无需剔除。许多稳健统计方法是基于能力验证结果的中位数和四分位距,它们是数据中心和离散性的度量,类似于均值和标准差。一般来说,使用稳健统计方法宜优先于使用预先删除离群值的方法。注:使用如标准差等经典统计量时,需首先删除离群值,这种方法往往会导致对近似正态数据的离散性的低估,而稳健统计量通常可以给出离散性的无偏估计。6.5.2可以使用中位数、中位绝对离差(MADe)和标准化四分位距(nIQR)作为简单估计量。算法A通过winsorisation缩尾法转换原始数据,获得近似正态分布数据的均值和标准差的估计,当预期离群值比例低于20%时,该方法最为有效。当离群值比例较大(>20%)或不能由专家通过可靠方法检查数据分布时,用Q,算法和Q算法(见附录C)估计标准差特别有效。若预期极端值比例超过20%,附录C描述的其他方法也能给出好的估计(见附录C)。注:对于服从近似正态分布的数据,与样本均值和标准差相比,样本中位数、四分位距和绝对离差中位数(绝对中位差)具有更大的方差。其他复杂的稳健方法为服从近似正态分布数据提供了更好的估计。6.5.3能力验证提供者负责给出合适的统计方法。稳健均值和标准差可应用于各种目的,能力评定只是其中之一。稳健均值和标准差也可以作为不同组别参加者或特定统计方法的汇总统计量。注:稳健统计方法详见附录C。E.3和E.4给出附录C稳健统计方法的应用示例。6.6离群值检验6.6.1离群值检验通过数据的直观检查,或与剔除离群值方法结合,来消除离群值对汇总统计量的影响。若采用剔除离群值法,则应证明检验中的假设能够适用于能力验证计划的目的,尤其是很多离群值检验在正态性假设下进行的。注:ISO16269-410]和GB/T6379.2提供了若干适用于实验室间数据离群值识别程序。6.6.2如果稳健统计方法不适用,则允许以高置信水平的离群值检验为基础来剔除离群值,再计算均值和标准差等简单统计量(见6.5.1)。当使用剔除离群值方法时,能力验证提供者应:a)记录剔除离群值的检验过程和置信水平;b)如果连续使用离群值检验,设定剔除离群值比例的上限;c)证明对于能力验证计划的目标,剔除离群值后的均值和方差足够满足能力评定的要求(包括效率和偏倚)。给出了在确定检测方法精密度的实验室间研究中剔除离群值时的置信水平。特别地,GB/T6379.2建议仅在99%的水平下剔除离群值,除非有其他充分理由剔除一个特定的结果。6.6.3如果在能力验证计划中数据处理程序包括剔除离群值,并且,某一结果作为离群值被剔除,仍然应按照适用于所有参加者的标准对相关参加者进行能力评定。注1:通常采用格拉布斯检验法识别报告结果的离群值,参见GB/T6379.2。该方法使用所有参加者的标准差,包括潜在的离群值。因此,如果参加者的能力与前几轮能力验证计划的结果预期一致,并且只有少量离群值(在均值的每一侧存在一个或两个离群值),宜使用该方法。格拉布斯表仅适用于某一规定位置一次检验出一个或两个离群值,而不能无限连续使用。如果连续使用格拉布斯表,则该方法的第一类错误概率可能不适用。注2:如果在一轮能力验证计划中包含重复结果或相同能力验证样品,通常使用科克伦方法进行重复性条件下的离群值检验,参见GB/T6379.2。注3:也可采用稳健方法或非参数方法检验离群值,比如,若计算稳健均值和标准差,则偏离稳健均值达3倍稳健标准差的结果可认为是离群值。7指定值及其标准不确定度的确定7.1指定值的确定方法7.1.17.3~7.7描述了五种确定指定值xg的方法。能力验证提供者负责这些方法的选择。注:7.3~7.6中的方法与GB/T15000.3中的有证标准样品特性值测定方法非常相似。7.1.2只要有可靠的统计学基础,也可以使用其他方法确定指定值及其不确定度,并且在能力验证计划文件中对该方法有详细的描述,并详细告知参加者。无论使用何种方法确定指定值,均应对每轮能力验证计划指定值的有效性进行检验,具体方法见7.8。7.1.3定性指定值的确定方法见11.3。7.1.4指定值的确定方法及其不确定度应在每次报告中告知参加者,或在所有参加者均可获得的能力验证计划协议中给出明确描述。7.2指定值不确定度的确定7.2.1GB/T27418[H]给出了测量不确定度的评定指南。GB/T15000.3给出了根据有证特性值确定指定值不确定度的方法,可广泛应用于能力验证计划的设计中。7.2.2指定值及其不确定度的通用模型如式(2)和式(3)所示。指定值的模型如下:Xm=xchn+Ônom+ôm+Ôah (2)xchur——从定值过程得到的特性值;δnom——由于能力验证样品之间的差异而产生的误差项;δ……——由于运输过程的不稳定性而产生的误差项;δsab——由于能力验证期间的不稳定性而产生的误差项。指定值不确定度的模型如下:u(xμ)=√ueu²+uhsm²+U(m²+uh²………(3)u(xp)——指定值的标准不确定度;uur——由定值引入的标准不确定度;uhom——由于能力验证样品之间的差异而引入的标准不确定度umm——由于能力验证样品的运输过程而引入的标准不确定度;ub——由于能力验证期间的不稳定性而引入的标准不确定度。注1:不同来源的不确定度间的协方差或可忽略来源的不确定度间的协方差可能会导致计算不确定度的不同模型。7.2.3在指定值中可能存在上述表达式未包含的偏倚,应尽可能考虑在能力验证计划的设计过程中。如果对指定值中的偏倚进行了调整,那么在指定值的不确定度评定中应包括该调整的不确定度。7.3.1能力验证样品可由已知不同水平的材料按一定比例混合而成,或是在基质中添加一定比例的某种物质得到。指定值xp根据相应特性的材料用量计算所得。当能力验证样品用该方法制备时,配方法是非常有用的,只需计算特性的比例即可得到指定值。a)基质不受添加成分的影响,或添加物质在基质中的比例是准确已知的;b)所有成分混合均匀(如果有此要求时);c)已识别所有显著误差来源(比如,人们往往意识不到玻璃吸收含汞化合物,实际上含汞化合物水溶液的浓度能因容器材质而改变);d)添加成分和基质之间没有不良反应;e)包含添加材料的能力验证样品在性能上与客户常规测试的样本类似。例如,在自然基质中添加的纯物质往往比自然形成的相同物质更容易萃取。如果考虑到这种情况,能力验证提供者宜保证能力验证样品适合所使用的测试方法。配方法制备的能力验证样品时,如果相对于常以不同形式结合,则最好使用其他方法制备能力验证样品。利用配方法确定指定值是GB/T15000.3中有证标准样品的定值方法之一,即在单一实验室使用基准测量方法确定指定值。单一实验室也可使用其他基准方法确定能力验证的指定值(见7.5)。7.3.2如果通过配方法计算能力验证的指定值,定值引入的标准不确定度(uchar)由适当模型中的不确定度分量合成得到。例如:在化学测量能力验证中,不确定度通常与质量和容积测量以及配方法中所使用材料的纯度有关。应根据式(3)计算指定值的标准不确定度u(xμ)。7.4由有证标准样品确定7.4.1如果能力验证样品是有证标准样品(CRM),则其有证特性值xcrM可作为指定值x。该方法的局限性包括:——为每一个参加者提供一份有证标准样品可能会很昂贵;——为了确保长期稳定,有证标准样品通常经过复杂而严格的加工,这可能会影响能力验证样品的——参加者可能熟悉有证标准样品,因此隐藏该能力验证样品的特征很重要。7.4.2若用有证标准样品作为能力验证样品,指定值的标准不确定度由证书给出。证书信息应包含式7.5由单一实验室的结果确定7.5.1可由单一实验室使用参照方法,比如基准测量方法,来确定指定值。应充分描述和理解所使用的参照方法,提供完整的不确定度说明,并记录适用于能力验证计划的计量溯源性。参照方法应可以替换参加者使用的所有测量方法。指定值应是使用多个能力验证样品或多种测量条件,在多次重复测量的实验中得到的平均值。指定值的不确定度是来源于参照方法和特定实验条件下不确定度的适当估计。7.5.2能力验证样品的指定值xμ,可由单一实验室,使用合适的测量方法,对照高度相似的有证标准样品的有证参照值校准得到。该方法假定有证标准样品适用于参加者使用的所有测量方法。该方法需要在同一个实验室中使用相同的测量方法,并在重复性条件下对能力验证样品和有证标准样品进行一系列测试。当:xμ是能力验证样品的指定值;d;是第i个能力验证样品和第i个有证标准样品平均测量结果之间的差值;a是差值d,的平均值。xpt=xcrM+d依据定值所使用的测量方法的不确定度,确定uchar。该方法可将指定值计量溯源到有证标准样品的有证参照值,并用式(5)计算标准不确定度。ufar=√UcRM²+ua²………(5)E.5中的示例说明了当用能力验证样品与单一有证标准样品的直接比对而得到其指定值时,如何计算不确定度的方法。7.5.3如果在一轮按顺序实施的能力验证计划开始前已指定了一个参照值,然后,使用相同的测量系统对该参照值进行检验,则参照值与检验值之差应小于该差值不确定度的两倍(即结果应有计量兼容性)。这种情况下,能力验证提供者可将测量结果平均值作为指定值,并适当计算其不确定度。如果结果在计量上不兼容,能力验证提供者宜调查产生差异的原因,并采取适当措施,包括使用替代方法确定指定值及其不确定度,或舍弃此轮能力验证采集的数据。7.6由专家实验室的公议值确定7.6.1可通过与专家实验室进行实验室间比对确定指定值,参见GB/T15000.3有关有证标准样品实验室间比对的应用。首先,准备分发给参加者的能力验证样品。然后,随机选取一部分,由一组专家实验室根据相关协议进行测量,该协议应明确能力验证样品的数量、重复测量次数和其他相关条件。各个专家实验室均应报告其测量结果及其标准不确定度。7.6.2如果测量协议只要求专家实验室报告一项结果,不要求提供充分的关于结果的不确定度信息,或报告的结果中有证据表明或存在其他证据表明所报告的不确定度不够可靠,通常应将7.7方法应用于专家实验室结果。如果每个专家实验室报告多项结果(比如,包括重复测量值),能力验证提供者应给出确定指定值及其不确定度的其他可替代方法,该方法应统计有效(见4.1.1),并允许出现离群值或其他偏离结果预期分布的数据。7.6.3当专家实验室报告结果及其不确定度,对结果公议值的估计是个复杂的问题且有多种方法可供其不确定度估计方法等[16]。能力验证提供者应给出相应估计方法:a)包括所报告不确定度估计的有效性核查方法,比如,核查报告的不确定度是否完全反映结果的b)使用适用于所报告不确定度的尺度和可靠性的加权程序,如果所报告的不确定度相似或可靠性较差或未知时,可能包含等权重加权的情况(见7.6.2);c)允许报告的不确定度可能不完全反映观测结果的离散程度,比如,通过增加一个附加项允许存d)允许报告的结果或不确定度可能存在意外的离群值;e)具备良好的理论基础;f)宜证明其性能(比如测试数据或模拟)足够满足能力验证计划目标的要求。7.7.1一轮能力验证计划的指定值xm是根据能力验证计划设定的程序,根据参加者报告结果所做的位置估计(如稳健均值、中位数或算术平均值),见附录C。在计算公议值之前,要使用6.2~6.6中的方法确认参加者的一致性。在某些情况下,能力验证提供者可能希望根据某些预先规定的标准,比如认可状态,或前期实验室表现,选用部分可靠的参加者。使用本方法时应考虑部分参加者的数量。可以使用其他方法替代附录C中的方法,只要该方法具有良好的统计学基础并且已经在报告a)不需要进行额外测量来获得指定值;GB/T28043—2019/ISO13528:2015b)如果被测量是标准化的且由操作步骤定义,该方法可能是非常有效的,因为通常没有更可靠的方法来获取相同结果。a)参加者之间的一致性可能不够充分;b)当普遍使用了错误方法时,公议值可能包括未知偏倚,而且该偏倚不会反映在指定值的标准不确定度中;c)确定指定值的方法偏倚可能导致公议值产生偏倚;d)可能很难确定公议值的计量溯源性;虽然单个实验室的结果总是可以溯源的,但只有在能力验证提供者掌握所有参加者使用的校准标准的全部信息及有效控制该方法其他相关条件时,才能做出清晰的溯源性声明。7.7.2指定值的标准不确定度取决于所使用的程序。如果需要一个完整的通用方法,能力验证提供者应考虑使用重复抽样技术(“自助法”)估计指定值的标准误。有关自助法的详细描述见参考文献[l⁷·18]。7.7.3如果使用C.2、C.3或C.5中的程序,以稳健均值作为指定值,则指定值xμ的标准不确定度可以s'——能力验证结果的稳健标准差(这里的“结果”是指参加者对能力验证样品进行测量获得的全注1:在该模型中,依据参加者结果确定指定值和稳健标准差,可认为指定值的不确定度来源于非均匀性、运输过程和不稳定性带来的影响。注2:对于来自正态分布的一个大样本(p>10),系数1.25是中位数的标准差和算术平均值的标准差之比(即中位数的估计效率)。如果有更复杂的稳健统计方法的效率显著好于中位数方法,则校正系数小于1.25。然而,由于结果通常并非严格服从正态分布,而是包含未知比例的来自不同分布的结果(“污染的结果”),因此,推荐使用该系数。考虑到结果可能被污染,系数1.25是一个保守的(较高)估计。能力验证提供者也可以根据经验以及所使用的稳健统计程序,决定使用一个较小的系数或不同的公式。注3:E.3给出了由参加者结果得到指定值的示例。7.8指定值与独立参照值的比较7.8.1如果使用7.7中的方法确定指定值(xμ),并且可以获得一个可靠独立估计值(表示为xre),例如根据相关经验或参照值获得,此时应比较公议值xp与可靠独立估计值xf。如果使用7.3~7.6中的方法确定指定值,在每一轮能力验证计划之后,应比较本轮结果的稳健均值x*与指定值。计算差值xan=(x(-xμ)或(x’-xμ),其标准不确定度估计为:uan=√u²(x)+u²(xp)……(7)u(xgt)——参照值的不确定度;u(xp)——指定值的不确定度。注:E.7给出了比较参照值与公议值的示例。7.8.2如果差值大于标准不确定度的两倍,则应查找原因。可能的原因如下:——参照测量方法存在偏倚;GB/T28043—2019/ISO13528:——参加者测量结果存在共同偏倚;——使用7.3中的配方法时,未能意识其局限性;——使用7.5或7.6的方法时专家实验室的结果存在偏倚;——参照值和指定值不能溯源到相同的计量基准。7.8.3根据差值产生的原因,能力验证提供者应确定是否对结果进行评估,而且(对于连续能力验证计划)应确认是否修改后续能力验证计划的设计。如果差值较大,足以影响能力评定,或足以表明参加者使用的测量方法中存在重要偏倚,在本轮报告中应注明该差值。在这种情况下,未来能力验证计划的设8能力评定标准差的确定8.1确定评定准则的方法8.1.1适用于所有目标的能力评定基本方法,是将能力验证样品的结果(x;)与指定值(xp)进行比较。基于能力评定的目的,将差值与测量误差允许值进行比较,这种比较一般通过标准化能力评定统计量(例如z、z'、ξ、E)进行,见9.4~9.7。也可以比较差值与9.3中定义的准则(ô,D或D%)。一种替代的评定方法是比较差值与参加者结果的不确定度以及指定值的不确定度(E。和ζ)。8.1.2如果根据监管要求或目标适用性原则已给出标准差,则可以直接作为σm。如果要求或目标给出的是最大允许测量误差,则用该值除以行动限可以得到σμ。当与D或D%一起使用时,规定的最大允许误差可以直接作为δ:。该方法应用于连续能力验证计划的优势包括:a)在从某一轮到下一轮的能力验证计划,在目标适用性方面,能力评定统计量具有一致的解释;b)由报告结果估计离散程度时,能力评定统计量不受其波动影响。示例:如果监管标准给出了最大允许误差,且3.0是由z值进行评定的行动限,则以规定的标准除以3.0来确定σm。8.1.3如果能力评定准则基于本轮或以往能力验证计划的公议值,则(能力评定标准差)倾向于使用参加者结果标准差的稳健估计。此时,使用z值等能力评定统计量和能力评定标准差(σμ)进行能力评定8.2.1能力评定的最大允许误差或标准差可以由监管机构、认可机构或能力验证提供者的技术专家设定其认为对于参加者合理的能力评定水平的对应值。8.2.2规定的能力评定最大允许误差,可转换为标准差,即以最大允许误差除以用于规定行动信号(或8.3由以往能力验证计划的经验确定8.3.1如果有以往的能力验证计划是对可比较(相似)特性的相同被测量进行测量,而且参加者使用兼容的测量程序,则可根据经验确定能力评定标准差(oμ)和最大允许误差(δg)。当专家没有就适用性目标达成共识时,这是一种有用的方法。该方法的优势如下:——能力评定将基于合理的能力评定预期;——在不同轮次能力验证计划中,评定标准不会因随机波动或参加者总体的变化而改变; 当某一检测或校准领域存在两个或两个以上认可的能力验证提供者时,评定标准不会在不同的能力验证提供者之间改变。8.3.2对以往能力验证计划的核查应考虑合格参加者可达到的能力,而且既不受新参加者影响,也不GB/T28043—2019/ISO13528:2015受随机变化的影响,如较小规模计划,或某特定轮次计划特有因素所导致的变化。可对以往能力验证计划结果的一致性进行主观核查,也可根据平均值或被测量值的回归模型进行客观核查。回归方程可能为直线或曲线[31]。建立回归模型时,应考虑标准差和相对标准差,选择在适当的被测量水平范围内更一致者。通过该方式也可获得合适的最大允许误差。8.3.3当能力评定准则基于以往能力验证计划的公议统计量时,应使用标准差的稳健估计值。注2:E.8给出了根据以往能力验证计划的经验得到估计值的示例。8.4由一般模型确定8.4.1能力评定标准差可由测量方法再现性的一般模型得出。这种方法的优点是所有被测量具有客观性和一致性,且以经验为基础。依据所使用的模型,可认为是目标适用性原则的一种特殊情况。8.4.2根据一般模型选择的任何预期标准差应合理。如果获得行动信号或警戒信号的参加者比例太大或太小,能力验证提供者应确保这与能力验证计划的目标相一致。8.4.3对于一般模型评定方法,通常优先考虑特殊测量问题。因此,在使用一般模型之前,应研究使用示例:霍维茨曲线式中:注1:霍维茨模型是经验模型,基于由许多参数的长期协同试验的观测结果。如果协同试验未出现严重问题,σg是多个实验室间的波动性的预期上限。因此,在能力验证计划中,σR可能不适合为能力评定的标准。注2:E.9给出由改良的霍维茨模型来推导结果的示例。8.5由测量方法精密度的协同研究得到的重复性和再现性标准差确定8.5.1当能力验证计划中使用已标准化的测量方法,且该方法的重复性(o,)和再现性(og)可获得时,能力评定标准差(op₁)可以按式(9))计算:Oμ=√Gk-o?(1-1/m)……(9)m——在一轮能力验证计划中各参加者的重复测量次数。注:该式来自GB/T6379.2的基本随机效应模型。8.5.2当重复性标准差和再现性标准差依赖于测试结果的平均值时,它们之间的函数关系宜用GB/T6379.2中的方法确定,然后利用这些关系对能力验证的指定值计算重复性标准差和再现性标准差。8.5.3只有当协同研究在GB/T6379.2条件或等效程序的要求下进行时,上述方法方能有效。注:E.10给出了示例。8.6由同一轮能力验证计划所得数据确定8.6.1在该方法中,能力评定标准差σ由同一轮能力验证计划参加者报告的结果得出。当使用这种方法时,使用能力评定统计量通常是最方便的,例如z值。通常应使用附录C中的方法,计算所有参加者定,然而为了比较被测量,仍然可使用允许偏差百分比PA作为标准化的能力评定统计量(见9.3.6)。8.6.2使用参加者测量结果可能会导致不适当的能力评定准则。能力验证提供者应确保所使用的σm与目标匹配。若稳健标准差很小,能力验证提供者应规定σg最小值的临界值。该临界值的选择应保证,在最极端情形下时,能力评定评分x<3.0。示例:在涉及织物的能力验证计划中,一个被测量是每厘米的线数。在某轮能力验证中,稳健标准差可能很小(<1线/cm),小于4线/cm的误差被认为不显著。能力验证提供者决定以稳健标准差作为σm,且当σm<1.3线/cm,采警戒或行动信号)的临界值。该临界值的选择应保证与不符合目标要求的结果将会收到行动信号。在某些情况下,当对称区间包括不满足目标要求的结果时,能力验证提供者可规定能够评定为“可接受”(无警戒或行动信号)结果的区间上限或下限。8.6.3这种方法的主要优点是简单易行,而且由于在很多情况下得到成功应用而易被接受。(某些情况下)这可能是唯一可行的方法。a)由于σμ的值可能在每轮能力验证计划都会有显著的变化,因而利用z值来寻找几轮计划中可能的趋势时会有一定困难。b)如果在能力验证计划中参加者的数量较少,或结果来自不同测量方法,标准差可能不可靠。例如,若p=20,从一轮能力验证计划到下一轮,正态分布数据的标准差可能在其真值的±30%范围内变化。c)使用由数据得到的分散性度量,可能导致固定比例的可接受的能力评分。普遍能力较差的参加者无法通过能力评分体现,而普遍能力较好的参加者也会得到较差的能力评分。d)不能提供对结果的最终用途适用性的有用解释。8.7能力评定标准差的监测8.7.1为了检验参加者能力,并评估能力验证计划对参加者的益处,能力验证提供者应用程序来监测实验室间的一致性,以跟踪其能力的变化并确保统计程序的合理性。8.7.2应使用附录C中的稳健方法,利用各轮能力验证计划获得的结果,计算测量方法的再现性标准差(以及重复性标准差,如有可能)。如果使用8.2~8.4中的方法,应将这些估计值按空间顺序或时间顺序描点绘图,如有可能,图中也应标出通过GB/T6379.2中的精密度实验获得的重复性标准差和再现性标准差和/或σp。8.7.3能力验证提供者应检查这些图表。如果图表显示,从某一轮的能力验证计划获得的精密度比由以往的数据或经验预期值大两倍或以上,则能力验证提供者应调查该轮能力验证计划中数据一致性较差的原因。相似地,出现更好或更差精密度值趋势时,也应调查其原因。GB/T28043—2019/ISO13528:20159能力评定统计量的计算9.1能力评定的通用原则9.1.1用于能力评定的统计量应符合能力验证计划的目标。注:当参加者和其他利益相关方充分理解能力评定统计量及其来源时,能力评定统计量最为有用。9.1.2不同被测量水平和不同轮次能力验证计划的能力评分应方便比较。9.1.3应对参加者结果进行复核,并确认与能力验证计划的设计所用假设一致,以获得有意义的能力评定统计量。例如,没有证据表明能力验证样品变质,或参加者总体分布混杂,或有严重违背数据性质的统计假设。9.1.4一般情况下,产生行动信号的数量不宜设置为固定比例。9.2对指定值不确定度的限定9.2.1当指定值的标准不确定度u(xμ)远大于能力验证中使用的能力评定标准差时,会存在一种风险,即某些实验室将会因为指定值不准确而收到行动信号或警戒信号,而不是因为实验室内部的任何原因。因此,应确定指定值的标准不确定度,并通报参加者(见ISO/IEC17043:2010中的4.4.5和4.8.2)。如果符合以下准则,则可认为指定值的不确定度可以忽略不计,不需要在该轮能力验证结果中予以解释。注:当|z|≥3.0产成一个行动信号时,0.3o等于0.1δ:。9.2.2如果不符合该准则,则能力验证提供者应考虑采取以下措施,确保其符合能力验证计划的能力a)选择其他确定指定值的方法,使其不确定度满足式(10);b)在能力验证计划结果的解释中使用指定值的不确定度(见9.5的z'值,或9.6的ζ值,或9.7的E,值);c)如果指定值来源于参加者结果,并且参加者中可识别子总体之间的差异导致较大的不确定度,应分别报告适用于每一个子总体(例如,使用不同测量方法的参加者)的指定值和不确定度;注:IUPAC《数据协调议定书》32]描述了根据基于特定带宽的核密度图,检验双峰性的具体程序。d)告知参加者,指定值的不确定度不可忽略,可能影响评定。如果a)~d)皆未应用,则应告知参加者,不能确定可靠的指定值,也不能提供能力评定统计量。注:本节中的方法参见E.3和E.4。9.3测量误差的估计9.3.1设x;表示在一轮能力验证计划中由参加者i报告的能力验证样品特性的测量结果(或重复测量的均值)。则参加者能力的一个简单度量可表示为x,与指定值x之差:当认为指定值是一个约定值或参照值,则D;可解释为结果的测量误差。差值D;可以用与指定值相同的计量单位来表示,或表示为百分相对差:D₁%=100(x;-xp)/xμ%……………(12)9.3.2D或D%通常与基于目标适用性原则设定的δ比较,或与以往能力验证计划的经验比较,该δE是最大允许测量误差。如果-δg<D<δg,则认为能力评定是“可接受的”(或“无信号”)(根据δg的表GB/T28043—2019/ISO13528:20159.3.3如果σm根据目标适用性原则或以往能力验证计划结果确定,则δg与z值所使用的σm密切相关(见9.4)。这种关系由z值的评定准则来确定。例如,若x≥3产生一个行动信号,则δg=30m,或等价地σm=δg/3。δE经常应用于医学方面的能力验证与测量方法和产品的能力评定规范中。9.3.4D作为能力评定统计量和δ:作为能力评定准则的优势在于,这些统计量与测量误差直接相关,因而参加者对它们有直观的理解。D%的优势在于,可以直观理解,它是标准化的被测量水平,并且它与产生误差的常见原因(例如,错误校准或稀释导致的偏倚)相关。9.3.5其劣势在于,在许多国家或测量领域的能力验证中未得到常规应用;而且D不是标准化数据,在具有多个分析项或目标适用性准则随被测量水平变化的能力验证计划中,仅能检测是否有行动信号。9.3.6为了比较不同被测量水平,目标适用性准则可随被测量水平变化;或为了组合多轮能力验证计划结果或多个被测量,D和D%可转换为标准化能力评定统计量,表示相对于被测量能力标准的差异。PA=(D;/δ)×100%……(13)9.4.1能力验证结果x,的z值可以计算为:opx——能力评定标准差。9.4.2z值的传统解释如下(见ISO/IEC17043:2010中的B.4.1.1):——当2.0<|z|<3.0时,给出警戒信号;——当|z|≥3.0时,结果不可接受(或给出行动信号)。参加者宜根据警戒信号对其测量程序进行检查,以防止新生问题或复发问题的出现。xp和标准差为Op的正态分布(必要时需经过变换)。那么z值将服从均值为0,标准差为1.0的正态分布。此时,预期只有大约0.3%的值会超出-3.0≤z≤3.0的范围,只有大约5%的值会超出-2.0≤z≤2.0的范围。因为z值超出±3.0的概率非常低,如果不是真正存在问题,行动信号不太可能偶然出现,所以当给出一个行动信号时,很可能存在引发异常的可辨别原因。GB/T28043—2019/ISO13528:20159.4.3能力验证提供者应基于结果的有效数字位数,确定适用于所报告的≈值、指定值和能力评定标准差的适当圆整规则。并应向参加者提供圆整规则的有关信息。9.4.4如果能力验证计划涉及非常大量的参加者,并且参加者结果的标准差作为σμ,能力验证提供者可能希望使用实际结果或x值来检验分布的正态性。在另一种极端情况下,即只有少量参加者时,可能不会给出行动信号。在这种情况下,结合多轮的能力评定统计量的图示法,可以比单轮能力验证计划结果更有效地显示参加者能力。9.5.1如果关注指定值的不确定度u(xμ),例如u(xμ)>0.30₂时,则可将不确定度加入能力评定统计量的分母中计算。该统计量称为z'值,计算如下(应用9.4中的符号):

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论