人工智能计算机视觉系统测评规范_第1页
人工智能计算机视觉系统测评规范_第2页
人工智能计算机视觉系统测评规范_第3页
人工智能计算机视觉系统测评规范_第4页
人工智能计算机视觉系统测评规范_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1人工智能计算机视觉系统测评规范本文件规定了基于机器学习的计算机视觉系统的测评规范,包括测评指标体系和测评流程。本文件适用于企业、研究机构等对基于机器学习的计算机视觉系统的设计、研发、测试、部署与运维,其他人工智能领域可参考使用。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T25000.10-2016系统与软件工程系统与软件质量要求和评价(SQuaRE)第10部分:系统与软件质量模型T/CESA1026-2018人工智能深度学习算法评估规范ISO22300:2021安全与恢复力术语(Securityandresilience-Vocabulary)3术语和定义T/CESA1026-2018界定的以及下列术语和定义适用于本文件。3.1计算机视觉系统computervisionsystem基于机器学习算法,对数字图像或视频中的目标实现分类、检测、分割任务的计算机应用系统。注:本文件所述计算机视觉系统,不包括非机器学习的系统,且只关3.2图像分类imageclassification根据一定的规则,将图像自动划分到某一个预定义类别。3.3图像分割imagesegmentation将图像分解成若干个各向同性区域。3.4语义分割semanticsegmentation给图像中每个像素赋予一个所属对象类别的标签。将图像分成若干部分,每一部分属于某一类型对3.5实例分割instancesegmentation标记图像中每个像素所属的物体实例。3.6目标检测objectdetection确认图像中是否存在指定类别的对象并确定其位置和大小。3.7混淆矩阵confusionmatrix2每一类事件(对象、物体等)被预测为所有类型事件(对象、物体等)的概率。3.8精度precision被预测为正样本的集合中正样本的比率。3.9召回率recall被正确预测的正样本占全部正样本的比率。3.10F1测度F1score精度和召回率的调和平均值。3.11受试者工作特征曲线receiveroperatingcharacteristiccurve由不同设定条件下的真正率和假正率值画出的响应曲线。3.12真负率truenegativerate被正确预测的负样本占全部负样本的比率。3.13假正率falsepositiverate被错误预测的负样本占全部负样本的比率。3.14错误接受率falseacceptancerate接受不该接受的样本的比率。[来源:ISO22300:2021,3.2.18]3.15错误拒绝率falserejectionrate拒绝不该拒绝的样本的比率。[来源:ISO22300:2021,3.2.19]3.16可解释性interpretability人类能够理解人工智能技术内在工作原理及其作出决策原因的程度。4缩略语下列缩略语适用于本文件。ARM:高级精简指令集机器(AdvancedRISCMachine)AUC:曲线下面积(AreaUnderCurve)CPU:中央处理器(CentralProcessingUnit)FN:假负(FalseNegative)FP:假正(FalsePositive)FWIoU:频率加权交并比(FrequencyWeightedIntersectionoverUnion)GPU:图形处理器(GraphicProcessingUnit)IoU:交并比(IntersectionoverUnion)mAP:整体平均准确率(MeanAveragePrecision)MIoU:平均交并比(MeanIntersectionoverUnion)MIPS:无内部互锁流水级的微处理器(MicroprocessorwithoutInterlockedPipedStagesarchitecture)3MPA:平均像素准确率(MeanPixelAccuracy)NPU:神经网络处理器(Neural-networkProcessingUnit)PA:像素准确率(PixelAccuracy)ROC:受试者操作特性曲线(ReceiverOperatingCharacteristic)TP:真正(TruePositive)TN:真负(TrueNegative)5计算机视觉系统的基本框架本文件所述的计算机视觉系统,主要是指连接在图像采集系统之后,对输入的图像或视频进行处理的应用系统,分为预处理模块和模型两部分,其基本框架如图1所示。其中,预处理模块对图像或视频输入做一些必要的处理(如图像裁剪、图像分辨率调整、图像色彩和光照的转换等模型对预处理后的图像或视频进行推断,模型的参数值由训练数据训练所得。图1基于机器学习的计算机视觉系统基本框架6计算机视觉系统测评指标6.1概述本文件给出了一套计算机视觉系统的测评指标体系,如图2所示,包含10个一级指标和47个二级指标。在实施测评过程中,应根据系统的质量目标选取相应指标。4图2计算机视觉系统测评指标体系6.2计算机视觉系统的功能有效性用户可以根据实际的应用场景选择相关的基本指标,用于评估计算机视觉系统实现的功能是否满足要求。根据视觉系统的任务不同,功能有效性的评估应包括但不限于下列内容:a)图像分类任务的评估指标:51)混淆矩阵:在二分类任务中,混淆矩阵是通过样本的标签和模型分类结果组成的2×2矩阵,其中,左上角为真正样本数(真实值和模型预测值同时为正,TP),左下角为假正样本数(真实值为负,而模型预测值为正,FP),右上角为假负样本数(真实值为正,而模型预测值为负,FN右下角为真负样本数(真实值和模型预测值同时为负,TN表1二分类混淆矩阵在多分类任务中,混淆矩阵的每一列代表了预测类别,每一列的总数等于预测为该类别数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数等于该类别数据实例的数目;第i行第j列的数值表示第i类数据被预测为第j类的数目,见表2。表2多分类混淆矩阵aaaaaaaaa2)准确率:对于给定的数据集,正确分类的样本数占全部样本数的比率。3)精度:对于给定的数据集,被预测为正样本的集合中正样本的比率。4)召回率:对于给定的数据集,被正确预测的正样本占全部正样本的比率5)真负率:对于给定的数据集,被正确预测的负样本占全部负样本的比率。6)错误接受率:也称假正率,对于给定数据集,被错误预测的负样本占全部负样本的比率。7)错误拒绝率:对于给定的数据集,预测错误的正例样本占所有实际为正例样本的比率。8)F1测度:精度和召回率的调和平均值。9)多分类任务下的指标计算:在n分类任务中,根据表2的多分类混淆矩阵得到了所有种类的预测值分布情况,并基于这些数据计算多分类任务的准确率、精度、召回率、F1测度等指标,在此基础上,进一步采用宏平均和微平均来评价整个多分类任务的功能有效性。宏平均:对每一个类别分别计算统计指标值,即把每个类别视作二分类情况进行统计,然后再对所有类的结果取算术平均值。如:宏准确率=微平均:把所有类别的真正、真负、假正、假负类相加,计算类别预测的统计指标。如:610)ROC曲线:ROC的横轴是假正率,代表所有被错误预测的负样本占全部负样本的比率。ROC的纵轴是召回率,代表所有正样本中预测正确的概率。每次选取一个不同的正负判定阈值,就可以得到一组假正率和召回率,即ROC曲线上的一点。将正负判定阈值从0到1取不同的值时,可以得到一系列(假正率,召回率)点。将这些点连接起来,就得到了ROC曲线。ROC曲线的对角线坐标对应于随机猜测,而坐标点(0,1)也即是左上角坐标对应理想模型。曲线越接近左上角代表模型的效果越好。ROC曲线如图3所示:11)AUC:即为ROC曲线下面积,AUC越接近于1,分类性能越好。b)目标检测任务的评估指标:注:分类任务的指标也适用于目标检测任务。1)交并比:用来评价目标框和预测框之间重合度。计算公式如下所示,其中Bp代表预测的矩形框区域、Bgt代表标注的矩形框区域。2)整体平均准确率:对于每一个类别,首先按照置信度(如IoU值大小)把每个预测结果进行排序,再取不同置信度阈值,把每个预测结果分为真正、假正、真负和假负类,从而获得在该阈值下的精度和召回率值。画出该类别以精度为纵轴,召回率为横轴所绘制的P-R曲线,该类别的平均准确率就是此P-R曲线下的面积。以上过程遍历所有的类别之后,对所有类别的平均准确率求平均,即可得到模型整体的平均准确率mAP。c)图像分割任务的评估指标:假设共有k+1类(语义分割与实例分割均可将目标分类,为L0,...,Lk,包括对象、类别、空类或者是背景pij表示属于第i类被分到第j类的像素数量。则图像分割的评估指标有:1)像素准确率(PA):正确分类的像素数量与所有像素数量的比值。2)平均像素准确率(MPA):按类计算正确分类像素的与该类像素数量的比值,再由类总数取平均。3)平均交并比(MIoU按类计算第i类像素集合与被预测为第i类的像素集合的交集与其并集的重合比例,再将所有类取平均。74)频率加权交并比(FWIoU是对MIoU的改进,对每个类别按照重要性进行加权,重要性来自于其出现的频率。6.3计算机视觉系统的性能用户可以根据实际的应用场景选择相关的基本指标,用于评估计算机视觉系统的性能是否满足要求,应包括但不限于下列内容:a)系统推断时间:计算机视觉系统对给定的n个数据样本进行推断并获得结果所需要的平均时间、最短时间和最长时间。b)系统运行占用的系统资源:包括系统运行时占用的系统CPU、GPU、NPU、内存、显存等。c)模型的算力需求:对于给定模型,执行推断所需要的算力。d)模型的存储需求:对于给定模型,存储模型所需要的存储空间。e)模型压缩性能:针对不同的压缩比例(如90%,80%,70%,60%),比较模型在压缩后与压缩前的预测性能。f)系统业务吞吐量:单位时间内系统处理的图像或视频的数据量。6.4计算机视觉系统的兼容性用于评估计算机视觉系统对不同图像、视频格式的兼容性,应包括下列内容:a)系统对不同图像、视频格式的兼容性:评估模型能否根据用户需求处理不同格式的图像或视频。b)系统对不同分辨率的兼容性:评估模型能否根据用户需求处理不同分辨率的图像或视频。c)计算机视觉系统对操作系统的兼容性:评估计算机视觉系统能否根据用户需求兼容不同操作系统,或兼容同一类型操作系统的不同版本。d)计算机视觉系统对其他软件的兼容性:评估视觉系统能够根据客户需求兼容同一操作系统下其他软件。6.5计算机视觉系统的维护性用于评估计算机视觉系统能够被运维人员修改的有效性和效率以及自身的可恢复性,应包括下列内a)模型的迭代更新频率:评估模型迭代更新的时间周期及模型训练时间。b)模型迭代的质量变化:评估模型迭代后系统的功能有效性、性能、鲁棒性等变化趋势。c)系统的可恢复性:评估计算机视觉系统发生故障时,恢复功能所需要的时间。d)计算机视觉系统宜支持系统配置、监控告警、日志等管理功能。6.6计算机视觉系统的可移植性用于评估计算机视觉系统能够从一种运行环境迁移到另一种运行环境的有效性和效率,应包括下列a)系统对硬件设备的可移植性:评估视觉系统是否拥有跨硬件架构的移植能力,即系统是否支持在基于至少2种或多种架构处理器的设备上运行,且运行性能保持一致,如X86、X86-64、ARM、MIPS等。b)系统对人工智能框架的可移植性:评估视觉系统是否拥有跨人工智能框架之间的移植能力,即是否支持在至少2种或多种人工智能框架之间相互转换,且运行性能保持一致,如Tensorflow,PyTorch,PaddlePaddle等。86.7训练数据集的质量评估训练数据集的质量,应包括下列内容:a)训练数据集规模:通常用样本数量来衡量。b)训练数据集标注质量:指数据集标注信息是否准确、完备并符合要求。c)训练数据集均衡性:指数据集包含的各种类别的样本数量分布的偏差程度。d)训练数据集的多样性:指数据集包括不同光照条件、不同分辨率、不同角度等情形的多样性。6.8对抗性样本的影响评估对抗性样本对计算机视觉系统的影响,应包括下列内容:a)对抗性样本生成测试:用不同方法生成对抗样本,评估系统的脆弱性。生成方法包括:1)白盒方式生成的样本:指目标模型已知的情况下,利用梯度下降等方式生成对抗性样本;2)黑盒方式生成的样本:指目标模型未知的情况下,利用一个替代模型进行模型估计,针对替代模型使用白盒方式生成对抗性样本;b)对抗性样本的物理可行性:评估生成的对抗性样本在现实中的可实现性,能否通过打印、贴纸等方式实现对抗性样本的攻击;能否应对角度、尺度光照等变换;能否在压缩算法、拍摄设备等因素造成的模糊下实施攻击。c)系统对对抗性样本的防御性,包括:1)评估系统是否进行过对抗训练。2)对于黑盒攻击,评估生成一个对抗性样本的平均查询次数。3)系统防御对抗性样本的成功率:统计一定数量对抗性样本对系统攻击的失败率。6.9对应用场景数据的鲁棒性评估应用场景数据对系统的影响,应考虑下列内容:a)干扰数据对系统的影响:评估异常的输入数据对系统准确率的影响,包括模糊的图像或视频、部分遮挡的图像或视频、光照不足或过强的图像或视频、有噪声的图像或视频。结合实际场景,考虑天气和气候变化下,不同场景中的干扰数据,如雨雾,雪霜,风沙,粉尘等影响视觉能见度的场景。评估异常输入数据集的预测准确率、精度、召回率、真负率、F1测度等指标。b)数据集分布对系统的影响:统计真实环境下输入数据集的正负例分布或各类别样本分布,评估不同数据集分布情况下系统预测的准确率、精度、召回率、真负率、F1测度等指标。c)业务不相关数据对系统的影响:当输入数据并非系统业务相关数据(比如不属于分类模型中任何一类的数据),评估系统能否对其作合适的处理(比如识别为“其他”类)。6.10计算机视觉系统的可解释性评估人类能够理解视觉系统的输出决策原因的程度。根据人类能够理解系统决策原因的程度,将计算机视觉系统的可解释性分为强、弱、无三个级别:a)强可解释性:可通过数学证明来说明视觉模型做出决策的原因,并给出推理和决策的路径。b)弱可解释性:可通过计算机视觉系统的输入输出、视觉系统中的部分参数值、提取的特征值或这些数值的可视化来说明视觉系统做出决策的原因。c)无可解释性:无法了解计算机视觉系统做出决策的原因。6.11计算机视觉系统的安全性除GB/T25000.10-2016中规定的软件系统的信息安全性要求之外,评估计算机视觉系统的安全性,还应包括下列内容:a)机密性:通过对被测系统的持续访问推测出视觉模型的参数,与原模型的相似度。b)隐私性:1)训练数据中脱敏数据占比。92)系统预测结果中含个人信息数量和种类。3)系统的最大查询次数上限。c)输入防御:1)系统有无对恶意输入样本的检测机制,如检测输入样本和正常数据间的差异、输入样本的分布特征、输入样本的历史等。2)系统有无对输入样本作防御性预处理,如对输入样本进行变形转化、加噪、去噪、自动编码等。7计算机视觉系统测评流程计算机视觉系统的测评流程如图4所示。图4计算机视觉系统测评流程7.1确定计算机视觉系统质量目标应运用以下步骤确定计算机视觉系统的质量目标:a)场景分析分析计算机视觉系统的应用场景、运行环境与使用流程,既要考虑系统正常使用的情况,也要考虑可预见的异常情况。b)风险分析根据计算机视觉系统的不同应用场景,通过多种途径开展有关计算机视觉系统失效的风险识别,如系统失效模式分析、场景模拟、历史运行数据分析、专家委员会评审等技术。可考虑的风险包括但不限1)由于计算机视觉系统的失效导致对人类生命、健康、财产或自然环境等的威胁;2)对计算机视觉系统的攻击带来的安全隐患;3)计算机视觉系统对个人隐私数据的侵犯和泄露的风险;4)潜在的道德和法律的风险。c)确定系统质量目标根据系统的应用场景和风险,确定计算机视觉系统的质量目标,包括:1)确定系统功能有效性、性能、兼容性、维护性、可移植性、训练数据集的质量、对抗样本的影响、对应用场景数据的鲁棒性、可解释性、安全性的指标要求。2)确定测评指标评价的准则。7.2构建测试数据集按照实际业务的情况构建覆盖多种视觉影像的测试数据集用以开展测试。对测试数据集的要求包括但不限于:a)测试数据集标注质量:数据集标注信息准确、完备并符合要求。b)测试数据集的多样性:测试数据集应体现真实应用场景,类别覆盖全面,且包括不同光照条件、不同分辨率、不同角度等情形的样本。c)测试数据集与训练数据集的互斥性:测试数据集中不应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论