《人工智能安全导论》 课件 第三章 对抗攻击与防御_第1页
《人工智能安全导论》 课件 第三章 对抗攻击与防御_第2页
《人工智能安全导论》 课件 第三章 对抗攻击与防御_第3页
《人工智能安全导论》 课件 第三章 对抗攻击与防御_第4页
《人工智能安全导论》 课件 第三章 对抗攻击与防御_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对抗攻击与防御《人工智能安全导论》北京工业大学目录01020405对抗样本概述对抗样本攻击方法对抗样本防御方法对抗样本攻击与防御示例03对抗样本检测方法对抗样本概述对抗样本定义

攻击者的知识攻击者获得目标模型的部分信息,如部分架构、参数值或分类结果的概率值,利用这些信息推测模型内部逻辑并设计攻击策略。灰盒攻击在现实世界中更为常见,攻击者可通过合法或非法手段获取部分信息来实施攻击。02灰盒攻击攻击者对目标模型信息一无所知,只能通过模型输出的分类结果来尝试生成对抗样本。这种攻击方式更接近现实场景,但实施难度较大。03黑盒攻击攻击者拥有目标模型的全部信息,包括模型架构、参数、梯度信息及数据集等,能够设计精准的对抗样本。白盒攻击在研究和评估模型鲁棒性方面具有重要意义,但实际应用中获取完整信息较为困难。01白盒攻击攻击者的目标与能力攻击者设计特定输入,使模型做出错误判断,但不指定错误类别,只需预测结果与真实标签不一致即可。攻击者不仅使模型产生错误判断,还指定一个具体的错误类别作为预测目标,使模型将原始样本误判为特定类别。无目标攻击有目标攻击范数约束攻击者构造的对抗样本需满足一定的范数约束,如L0、L2和L∞范数。不同的范数约束限制了攻击者对输入数据的修改方式。L2范数限制了解在空间中的范围。L∞范数限制了每个维度上的最大变动量。攻击者的目标攻击者的能力对抗样本攻击方法白盒攻击快速梯度符号法(FGSM)FGSM是一种一步攻击算法,通过计算输入样本在目标模型上的梯度,找到最快扰动方向,使模型损失函数最大化。FGSM简单高效,但假设模型损失函数是线性的,对于非线性模型可能存在攻击效果不足的问题。投影梯度下降法(PGD)PGD通过多次小步迭代改进FGSM,每次迭代计算当前对抗样本的梯度并添加小扰动,同时将扰动投影回约束范围内。PGD能够在扰动范围的超球体内找到使损失函数值最大的点,攻击效果优于FGSM,但计算成本较高。C&WC&W方法兼顾高攻击准确率和低对抗扰动,通过拉格朗日乘子法将约束条件添加到目标函数中,求解最优对抗扰动。在效率和隐蔽性上表现优异,能够有效应对防御蒸馏等防御措施,对模型的鲁棒性提出了更高挑战。基于梯度的白盒攻击基于优化的白盒攻击黑盒攻击零阶优化攻击(ZOO)

从对抗样本区域中随机选取一个样本作为初始图像,然后保持其仍在对抗区域内的前提下,沿着对抗性和非对抗性区域之间的边界执行随机扰动,逐步缩小它与原图之间的距离。在无目标攻击中,可以生成一张不属于原分类的随机噪声图片作为初始图像;在目标攻击中,可以直接选取一张属于目标分类的图片作为初始图像。基于梯度估计的黑盒攻击基于边界的黑盒攻击基于边界的黑盒攻击灰盒攻击单像素攻击利用查询灰盒模型得到分类概率是否增加来在整体样本空间中暴力搜索最优扰动方向和扰动大小。通过穷举改变所有像素点来发动攻击效率太低。采用基于差分进化(DifferentialEvolution,DE)的算法。构建一定数量的扰动,每个扰动包含扰动位置和扰动的大小且一个扰动仅修改一个像素。选择一定数量的扰动作为初始扰动,再从这些初始扰动生成新的相同数量的子扰动。在每一次迭代后,对比每一个子扰动与其相对应的初始扰动查询目标模型的得分,胜者进入下一轮迭代过程。在得到的所有扰动中,找到最好的扰动。单像素攻击(优化)对抗样本检测方法基于特征学习的对抗样本检测通过比较深度模型对原始输入和实施特征压缩后的输入的预测结果来检测对抗样本。主要包括色深压缩和特征平滑算法。核心思想色深是描述色彩的深度的术语,它表示像素点能够表示的颜色范围的大小,通常使用位数来衡量。色深压缩通过减少图像的色深来消除对抗样本中的异常像素点,使压缩后的预测结果发生变化。例如,将8位色深压缩到1位,特征空间将减小,对抗样本的扰动变得不明显,从而实现对抗样本的检测。色深压缩算法空间平滑技术用像素点邻域灰度值的中值代替该像素点的灰度值,消除孤立的噪声点。包含多种变体:如局部平滑和非局部平滑。例如,中值平滑方法通过移动小窗找到像素点的中值并替代中间像素点的值,处理后的图像与原始图像输入模型,若预测结果差异较大,则可能为对抗样本。空间平滑算法基于分布统计的对抗样本检测利用对抗样本和原始样本在网络处理后产生的概率分布形状上的差异来检测对抗样本。核心思想分类网络的softmax输出向量能够很好地展现样本的数字特征分布。在多数情况下,正常样本与对抗样本的softmax输出向量存在显著的区别。正常样本的softmax输出向量通常表现出较高的分散性,即概率分布远离均匀分布,并且在向量中有一个显著的最大概率值。基于分布统计的对抗样本检测方法利用softmax输出向量的分散程度,即其与均匀分布的KL散度(Kullback–LeiblerDivergence)来检测样本是否具有对抗性。softmax分布检测算法基于中间输出的对抗样本检测正常样本与对抗样本在通过深度神经网络时,其得到的中间输出状态之间存在显著差异。使用对抗检测网络(AdversarialDetectionNetwork,AD)的原始深度模型结构来增强深度学习模型是基于中间输出的对抗样本检测的代表算法。核心思想输入数据首先经过一系列卷积层处理,随后被送入ResNet架构中。在ResNet的每一步输出中,都蕴含了丰富的特征信息,这些输出点都可以被利用来训练检测器,即图中的AD(AdversarialDetector)模块。每个AD模块都是一个二分类深度模型,其核心任务是预测输入的样本是否为对抗样本。当有新样本输入到增强后的深度模型中时,如果所有二分类深度模型AD都判断出其为正常样本则认为其为正常样本,否则为对抗样本。对抗检测网络(AdversarialDetectionNetwork,AD)对抗样本防御方法基于对抗训练的对抗防御方法核心思想:在模型训练过程中引入对抗样本,让模型在训练阶段学会识别并抵御对抗样本,增强对潜在攻击的防御能力。对抗训练是一个最小值–最大值的优化博弈过程,最大化过程生成有效对抗样本,最小化过程利用最大化过程生成的对抗样本训练模型。包括增量训练、延时对抗训练以及归类训练。01对抗训练原理02防御者首先使用正常数据训练得到一个基本模型,然后生成对抗样本并进行增量训练,使模型在正常数据和对抗样本上都能取得较好的效果。增量训练方法能够在不影响模型在正常数据上的性能的情况下,提高模型对对抗样本的防御能力。增量训练03对于迭代训练的模型,防御者在前轮中仅使用正常数据训练,后续轮次中引入对抗样本进行训练,使模型在具备基础能力的情况下更好地适应对抗样本的扰动。延时对抗训练方法既提升了模型在正常数据上的性能,又增强了其对抗攻击的防御能力,是一种有效的对抗训练策略。延时对抗训练04防御者利用原始训练集训练一个模型,生成对抗样本并归为一个新类别,形成一个新的训练数据集,重新训练得到更鲁棒的模型。归类训练通过不断增加对抗样本的类别,使模型逐步适应各种对抗攻击,从而提高模型的鲁棒性和安全性。归类训练基于特征去噪的对抗防御方法将待处理图像输入到ComCNN模块,将图像从原始的24位像素压缩为12位,转换为紧凑的压缩图像。将压缩后的图像输入到RecCNN模块,该模块负责高质量地从压缩后的图像中重建原始图像.后续预测模型将基于重建图像进行预测。基于图像压缩的对抗性防御方法(ComDefend)利用对抗样本的局部结构中相邻位置特征具有较强的相关性来减少噪声(过滤人为构造的扰动),同时保留全局信息和局部的主要信息。特征去噪的防御原理基于输入变换的对抗防御方法RRP算法通过随机变换输入图像的尺寸和填充像素,破坏模型的梯度信息,增加构造对抗样本的难度。在输入模型之前,RRP对图像进行随机变换尺寸和填充操作,使攻击者无法准确估计和利用模型的梯度,从而有效防止对抗攻击。随机调整大小和填充算法(RRP)输入变换方法利用深度神经网络对输入数据的不变性特性,通过随机变换输入数据,改变模型推理结果对原始输入的梯度,使攻击者难以生成有效的对抗样本。输入变换的防御原理基于防御蒸馏的对抗防御方法带有温度的softmax通过引入温度参数T来平滑softmax的输出概率分布,使模型输出更加平滑,对扰动更加不敏感。当温度T大于1时,softmax的输出会变得“平滑”,通过减小不同输入之间的差异,从而降低模型对小扰动的敏感性。带有温度的softmax函数防御蒸馏通过从原始模型中提取知识来训练一个新的蒸馏模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论