2024人工智能 深度学习算法评估_第1页
2024人工智能 深度学习算法评估_第2页
2024人工智能 深度学习算法评估_第3页
2024人工智能 深度学习算法评估_第4页
2024人工智能 深度学习算法评估_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能深度学习算法评估目  次前言 III引言 IV范围 1规范性引用文件 1术语和定义 1评估指标体系 2评估指标构成 2基础性能 2效率 3可解释性 3鲁棒性 4安全性 5公平性 6深度学习算法的评估等级 6评估流程 7概述 7评估准备 8评估执行 9分析评估结果 10附录A(资料性) 12附录B(资料性) 15参考文献 18引  言深度学习算法评估的意义和作用主要体现在以下几个方面:1、算法性能的度量和比较:评估深度学习算法的性能是算法研发和优化过程中不可缺少的一环。通过对比不同算法的性能,可以了解各种算法的优劣,为算法的改进提供依据。同时,对于相同算法,通过对比不同参数设置或不同数据集上的表现,可以评估算法在不同场景下的适应性。2、算法问题的诊断:深度学习算法的评估结果可以用于诊断算法存在的问题。如果算法在某些方3、算法的应用前景预测:深度学习算法的应用前景预测是算法评估的一个重要方面。通过评估深IVPAGEPAGE11PAGEPAGE10人工智能深度学习算法评估范围本文件确立了人工智能深度学习算法的评估指标体系,描述了评估方法等内容。规范性引用文件(包括所有的修改单适用于本文件。GB/T41864-2022信息技术计算机视觉术语GB/T41867-2022信息技术人工智能术语ISO/IEC25059:2023软件工程系统和软件质量要求与评估(SQuaRE)人工智能系统的质量模型(Softwareengineering—SystemsandsoftwareQualityRequirementsandEvaluation—QualitymodelforAIsystems)术语和定义GB/T41864、GB/T41867、ISO/IEC25059:2023界定的以及下列术语和定义适用于本文件。3.1深度学习deeplearning通过训练具有许多隐藏层的神经网络来创建丰富层次表示的方法。注:深度学习是机器学习的一个子集。[GB/T41867-2022,3.2.27]3.2深度学习模型deeplearningmodel一种包含多个层次神经网络结构的机器学习模型。3.3深度学习算法deeplearningalgorithm使用深度神经网络结构进行学习和推理、以完成特定功能的代码片段。3.4测试数据testdata评价数据evaluationdata用于评估最终机器学习模型性能的数据。[GB/T41867-20223.2.3]3.5精度precision预测类别为正样本的集合中真实类别为正样本的比率。注:精度一般每一类分别计算。[GB/T41864-20223.9.8]3.6召回率recall被正确预测的正样本占全部正样本的比率。注1:召回率和精度一般具有反比关系:一方升高时另一方趋向于降低。注2:也称为真阳性率。[GB/T41864-20223.9.20]3.7准确率accuracy预测正确的样本数占总样本数的比率。3.8对抗样本adversarialexamples在数据集中添加细微干扰形成的输入样本,能以较高概率诱导深度学习算法给出错误的输出,甚至是给出特定结果。评估指标体系评估指标构成61图1深度学习算法评估指标体系基础性能基于不同深度学习算法的任务和输出,采用不同的评估指标去衡量基础性能。评估指标基础性能的评估应包括但不限于下列指标:准确率:预测正确的样本数占总样本数的比率。精度:预测类别为正样本的集合中真实类别为正样本的比率。c)召回率:被正确预测的正样本占全部正样本的比率。错误率:对于给定的数据集,预测错误的样本占总样本的比率。F1值:精度和召回率的调和平均数,衡量二分类模型精度的一种指标,兼顾了分类模型的精度和召回率。KL散度:两个概率分布间的差异的非对称性度量,它比较了真实分布和理论(拟合)分布之间的差异。ROC曲线:受试者工作特性曲线,由不同设定条件下的真正率和假正率值画出的响应曲线,是反映敏感性和特异性连续变量的综合指标。PRC曲线:精度召回率曲线,是一种同时显示不同阈值下深度学习算法精度和召回率的图形化方法。一般x轴表示召回率,y轴表示精度。CRC曲线:累积响应曲线,也称为增益曲线或增益图,是显示跨多个阈值的总数据中真阳性率和阳性预测百分比的图形方法。附录A给出了深度学习算法针对不同任务选取的基础性能指标示例。效率概述深度学习算法的效率通常指的是算法在达到给定性能目标时所消耗的资源与时间的多少。评估指标效率的评估应包括但不限于下列指标:平均处理时长:用于定义和评价在相同测试环境下,深度学习算法模型处理相同任务的时间消耗。在测试阶段,它包含算法模型单训练轮次执行时间、多训练轮次执行时间、达到特定精度执行时间等测试元。平均资源开销:用于定义和评价在相同测试环境下,深度学习算法模型处理相同任务消耗的资源量大小。在测试阶段,它包含算法执行时的算力消耗、存储消耗、带宽消耗等测试元。可解释性深度学习算法可解释性用于评估算法对于结果的解释和理解能力。评估指标可解释性的评估应包括但不限于下列内容:解释一致性:针对局部替代模型的可解释测试方法,要求待解释的深度学习算法决策结果与其通过可解释性方法输出结果具有一致性,即输出结果一致性,这是深度学习算法具有可解解释一致性可以使用输出结果一致性进行评估。输出结果一致性是指通过计算输出结果的异众比率[1]来表明数据的一致性,其计算公式如下:vr=

Σfi−fnΣfi其中,vr表示异众比率,Σfi为变量值的总频数;fn为众数组的频数,n表示数组的数量。解释有效性:要求解释能准确地反映出深度学习算法的决策逻辑。有效的解释应包含深度学习算法预测时所依据信息。[2]又称R2R2值越接近于1,回归拟合效果越好,一般认为超过80%的模型拟合度比较高,其计算公式如下:Σn yi−yi2R2=1−i=1 i=1Σn i−¯2i=1用yi¯^i解释因果性:要求生成的解释与待解释深度学习算法预测之间具有因果关系。因果关系是指解释中包含的特征是预测结果的原因。与预测结果有因果性的解释越多,则其解释性越好。解释因果性可以使用特征贡献分数进行评估。特征贡献分数[3]是指用来解释的重要性靠前的k个样本特征分数和与全部特征分数和的比值,其计算公式如下:fsthre

=ΣfthhkΣfi其中,fsthre为特征贡献分数,Σfthhk为用来解释的重要性靠前的前k个特征分数之和,Σfi为全部特征分数和。解释充分性:要求解释能够覆盖深度学习算法的整体功能。充分的解释应充分且精准覆盖样本空间。解释充分性可以使用离散系数来评估。离散系数[4]是指数据的标准差与平均数的比值,用来比较不同类别数据的离散程度,其计算公式如下:vvs ¯其中,sa¯鲁棒性概述鲁棒性是在面对非对抗增广的样本时,深度学习算法仍能保持与实验环境中测试性能相当的能力。评估指标鲁棒性的评估应包括但不限于下列内容:Phri。in标Phri。in标Phert该r。inPFD=其中,PFD表示模型的性能波动率,Phri。in标量表示模型在原始测试数据集上的性能指标,Phert该rNR=Σwi×PFDii=1其中,R表示模型鲁棒性,wi表示第i种扰动的权重,N表示共有N种扰动方法,PFDi表示模型在第i种扰动下的性能波动率。注:这里的性能选取的是基础性能中的评估指标。对于不同任务选取的性能指标不同,例如mAP扰动稳定性:描述模型在经历非对抗扰动后出现性能退化的样本与其对应的原始样本之间的最小距离。该指标量化了模型在面对扰动时所能容忍的最大变化,值越大表明模型在面对扰动时具有较强的抵御能力,从而为模型的鲁棒性提供了度量。具体计算公式如下:ϴ ϴ x∈X其中,PSDϴ表示模型的扰动稳定性,X表示数据集,x表示样本实例,distɸ表示在ɸ类型的扰动下样本与扰动样本的距离函数。具体实现方式如下:distɸ(xh=

x−∞

,iff'hGyh,htherwise其中,f(x'h表示通过ɸ类型扰动生成的样本x'的判定结果,y表示真实标签。对于多种扰动,模型的鲁棒性可以通过如下公式量化:R=min(mindistɸ(xhhx∈X其中,R表示模型鲁棒性,ϴ表示扰动集合。安全性概述

ɸ∈ϴ深度学习算法的安全性用于评估算法对于对抗样本的防范能力。评估指标安全性的评估应包括下列内容:攻击成功率:描述在经过攻击方法构建的新测试数据集中,模型预测失败的样本数与总样本数之间的比率。该指标量化了在外部攻击下模型的安全性,值越小表明模型在面对攻击时具有较高的抵抗能力,从而为模型的抵御攻击能力提供了度量。具体计算公式如下:ASR=N标dvN标量量其中,ASR表示攻击成功率,N标量量表示样本总数,N标dv表示预测失败的样本数。Σx∈Dð(xhDΣx∈Dð(xhDMSD=其中,MSDD0平均攻击查询次数:用来衡量生成对抗样本所需的平均模型查询次数。在这种情况下,攻击者试图通过在输入样本中引入微小的扰动来欺骗模型,使其产生错误的预测或分类结果。较少的查询次数意味着模型更容易受到攻击。攻击隐蔽性:是指对抗攻击生成的对抗样本与原始样本之间的平均相似程度。在攻击隐蔽性方面,攻击者的目标是生成的对抗样本尽可能与原始样本保持相似,以至于人类观察者难以察觉到其存在。攻击隐蔽性越高,意味着对抗攻击可以更有效地欺骗模型。公平性概述深度学习算法的公平性用于评估算法对于不同群体的处理是否有歧视和输出质量的差异。评估指标公平性的评估应包括下列内容:敏感属性独立程度:衡量算法对不同敏感属性群体进行特定预测的比例之间的最大差异。这一指标旨在衡量在算法预测中,受保护属性的可能影响程度。理想情况下,一个公平的算法应该使得对于所有受保护属性群体的预测分布尽可能相同,即敏感属性对算法预测的影响很小。SAID的较低值表明模型预测对不同群体更加一致,体现了较高的公平性。具体计算公式如下:t该nt该n^=量|A=th该nt(A=标ht该n^=量|A=th该nt(Ah标,标∈A,量∈LSh^th该nt·表示计数函数。模型决策分离程度:衡量在真实类别为特定值时,模型在不同敏感属性群体之间做出错误预测的概率的差异。该指标关注模型在特定真实类别下的错误决策,并比较这些错误在不同敏感属性群体之间的分布是否均衡。具体计算公式如下:MDS=标

量G量t该n^=量|A=标,Y=量h−Σ量G量t该n^=量|A=标,Y=量h标,标∈A,量∈L

th该nt(A

th该nt(A=标h其中,MDS表示模型决策分离程度,Y表示真实值,量'G量。模型决策充分程度:衡量在模型预测标签为特定值时,模型在不同敏感属性群体之间正确预测该标签的概率的差异。该指标关注在模型预测为特定类别时的正确决策,并比较这些正确预测在不同敏感属性群体之间的分布是否均衡。具体计算公式如下:t该n(Yt该n(Y=量|A=标^=th该nt(A=标ht该n(Y=量|A=标^=th该nt(A=标h标,标∈A,量∈L其中,MDSF表示模型决策充分程度。深度学习算法的评估等级深度学习算法的评估结果分为优越级、进阶级、条件级、受限级四个等级。针对每一个算法失效,应基于确定的理由来预估潜在危险的严重性等级。深度学习算法失效的危险严重性等级如下:(表1深度学习算法的等级目标等级目标等级目标说明优越级外部环境发生扰动或面对不友好的输入,不依赖利益相关方的管理和配置,能采取有效措施,按照预期完成工作,不影响算法结果。进阶级外部环境发生扰动或面对不友好的输入,通过利益相关方的配置及管理,待评估算法能按照预期完成工作,不影响算法结果。条件级在友好的外部环境及输入下,待评估算法可以按照预期完成工作;外部环境发生扰动或面对不友好的输入,通过利益相关方的配置与管理,待评估算法能按预期完成工作,不对算法结果造成重大影响。受限级在友好的外部环境及输入下,待评估算法能按照预期完成工作;当外部环境发生扰动或面对不友好的输入,待评估算法不能按照预期完成工作,可能对算法结果造成重大影响。评估流程深度学习算法的评估流程如图2所示,包括评估准备、评估执行、分析评估等三大步骤。评估执行包括运行评估任务、获取并计算测试指标等子步骤;分析评估包括算法质量评估(单次、多次、多轮评估)、算法质量综合评估等子步骤。图2深度学习算法的评估流程评估准备测试数据集质量审查被测方应按质量要求提供测试数据集。测试数据集的质量审查应满足以下要求:对数据的完整性进行审查,评估数据是否存在缺失值、异常值或未标记的数据点。对数据的准确性进行审查,与数据采集、标注等环节的实际情况进行比对验证,或通过领域专家的评估进行验证,评估数据的时间戳、标签或其他标识是否有误。对数据的一致性进行审查,评估数据是否具备相同的格式。对数据的重复性进行审查,评估数据是否存在重复记录或者冗余特征。对数据的偏差进行审查,评估数据是否存在数据分布和标签分布不均的情况。对数据的可用性进行审查,评估数据是否具备参考文档以及数据是否受法律或者隐私限制。当测试数据集质量通过审查,则进入“选择质量特性”步骤;否则,结束本次评估。选择质量特性和评估指标选择评估指标包括质量特性选择、评估指标选择两个部分。质量特性选择包括基础性能、效率、可解释性、鲁棒性、安全性、公平性6个选项;评估指标选择是指在每个质量特性下,选择若干个评估指标。(的深度学习算法选取的评估指标要求不同,因此在面向算法的评估过程中应确定与之对应的评估指标要求。附录A给出了深度学习算法的评估指标的选取规则。构建评估模型构建评估模型是指设置评估指标通过的基准分值,以及评估指标的权重等。a)确定评估指标通过的基准分值指标基准分值的设定应划分为四个等级,用于将算法性能分类为不同等级。例如,对于“准确率”的指标可以划分为四个等级,即:优越级:准确率大于等于99%;进阶级:准确率在95%到99%之间;条件级:准确率在90%到95%之间;受限级:准确率低于90%。b)设置评估指标的权重评估指标的权重为百分比小数,精度为小数点后两位,所有的权重之和应等于1。默认每个选取的评估指标的权重一样,即100%/(选取的评估指标数量)。当获得的商的小数部分大于2前面所有评估指标权重和)]。质量特性的权重可以通过相同方法进行设置。c)得到本轮评估的等级阈值通过评估指标设定的基准分值和权重,计算可得每个质量特性的等级阈值。进一步的,通过对质量特性的加权求和,计算得到本轮算法评估的等级阈值。评估执行运行评估任务运行一次评估任务包括算法测试环境部署、被测算法加载、被测算法测试执行等三个部分。(如服务器(被测算法加载:读取或解析被测算法的文件(如程序包或数据包);被测算法测试执行:使用选定的被测数据集运行算法文件。评估指标的获取和计算深度学习算法评估测试数据集与相关质量特性及评估指标的关联性如图3所示。图3深度学习算法评估测试数据集与相关评估指标的关联性非对抗样本生成的输出包含增广样本及其标签,用于鲁棒性等质量特性及其评估指标的计算;对抗样本生成的输出包含对抗样本,用于安全性等质量特性及其评估指标的计算。分析评估结果算法质量评估算法质量评估包括单次算法质量评估、多次算法质量评估、多轮算法质量评估几个部分。单次算法质量评估:是指使用一个测试数据集执行一次算法测试过程;多次算法质量评估:是指使用多个测试数据集,每个测试数据集执行一次算法测试过程;算法质量综合评估评估结果等级的判定准则应满足以下要求:计算每个评估指标的结果;通过对比评估指标的基准分值(见4.8),计算得到选定的评估指标的评估得分;对于选定的评估特性的评估得分加权求和计算,权重为评估模型中设定的评估指标权重(见5.2.3b),得到每个质量特性的评估得分;进一步的,对比每个质量特性的评估得分与评估模型中质量特性的等级阈值(见5.2.3c),判定每个质量特性归属于哪个评估等级;对于质量特性的评估得分加权求和,计算得到深度学习算法的总得分;将深度学习算法的总得分与算法评估的等级阈值(见5.2.3c)做对比,判定该深度学习算法归属于哪个评估等级。附录B给出了深度学习算法评估实施案例。PAGEPAGE12附录A(资料性)深度学习算法评估指标选取要求和阈值要求表A.1表A.1评估指标选取要求和阈值要求算法类型评估等级评估指标适用场景基础性能效率鲁棒性安全性可解释性公平性平均处理时长平均资源开销性能波动率扰动稳定性攻击成功率模型窃取程度攻击隐蔽性解释一致性解释有效性解释因果性解释充分性模型决策充分程度图像分类优越级进阶级条件级受限级语音识别优越级进阶级条件级受限级文本识别优越级进阶级条件级受限级……注:不同算法类型的基础性能质量特性将由不同评估指标组成,具体评估时应面向待评估深度学习算法类型选取对应的基础性能指标进行评估。如,图像分类选取准确率、召回率、F1分数等;语音识别选取字错误率、句错误率、字匹配率等;文本识别选取字符识别准确率、字符识别召回率等。13PAGEPAGE14PAGEPAGE15表A.2给出了根据深度学习算法不同任务类型,选择不同的基础性能评估指标的示例。表A.2基础性能评估指标的选取示例测试数据集类型深度学习算法的任务类型基础性能的评估指标图像分类(二分类)F1分数、准确率、精确率、召回率、G-mean、特异度、误诊率、错误率等分类(多分类)F1F1F1召回率、F1分数等目标检测(单类/多类)IOU、mAP、AP明细、置信度等目标跟踪(单类/多类)IOU、MOTA、MOTP、IDP1、IDP、IDR、主要跟踪目标数量、MTMLPTIDSW、碎片总数、mAP、AP行人重识别(可见光)mAP、处理效率平均时长、召回率(Top1/Top5/Top10)视频目标检测(单类/多类)IOU、mAP、AP明细、置信度目标跟踪(单类/多类)IOU、MOTA、MOTP、IDP1、IDP、IDR、主要跟踪目标数量、MTMLPTIDSW、碎片总数、mAP、AP文本情感分析F1分数、准确率、精确率、召回率、G-mean、特异度、误诊率、错误率命名实体识别F1F1F1召回率、F1分数语音语音识别平均词错误率、平均词信息丢失率、平均匹配错误率、平均字符错误率、平均词信息保留结构化数据分类F1分数、准确率、精确率、召回率、G-mean、特异度、误诊率、错误率附录B(资料性)深度学习算法评估实施案例附录B给出了深度学习算法评估实施案例。深度学习算法说明评估准备测试数据集质量审查测试数据集为红外图像数据集。选择质量特性和评估指标质量特性选择基础性能和可解释性;其中,基础性能的评估指标选择F1分数、准确率、精确率、召回率、错误率等;可解释性的评估指标选择解释一致性、解释有效性、解释因果性、解释充分性等。构建评估模型表B.1基础性能的评估指标评估指标评估结果评估得分测试结果等级说明F1分数优越级≥0.99,进阶级≥0.9,条件级≥0.8,受限级<0.8准确率优越级≥99%,进阶级≥90%,条件级≥80%,受限级<80%精确率优越级≥99%,进阶级≥90%,条件级≥80%,受限级<80%召回率优越级≥99%,进阶级≥90%,条件级≥80%,受限级<80%错误率优越级≤10%,进阶级≤20%,条件级≤30%,受限级>30%总评优越级[75,100],进阶级[50,75),条件级[25,50),受限级[0,25)权重设置:基础性能=20%F1分数+20%准确率+20%精确率+20%召回率+20%错误率。表B.2可解释性的评估指标评估指标评估结果评估得分测试结果等级说明解释一致性优越级≥0.99,进阶级≥0.9,条件级≥0.8,受限级<0.8解释有效性优越级≥99%,进阶级≥90%,条件级≥80%,受限级<80%解释因果性优越级≥99%,进阶级≥90%,条件级≥80%,受限级<80%解释充分性优越级≥99%,进阶级≥90%,条件级≥80%,受限级<80%总评优越级[75,100],进阶级[50,75),条件级[25,5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论