




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
后门攻击与防御《人工智能安全导论》北京工业大学后门攻击的背景深度神经网络(DNN)广泛应用于关键任务,如人脸识别、自动驾驶等,其安全性日益重要训练流程复杂,包含数据收集、预处理、模型训练等多个环节,攻击面广后门攻击在训练阶段植入触发器,使模型在正常样本上表现正常,受触发时输出被操控攻击方式多样:数据中毒、迁移学习、模型参数篡改、恶意模块注入等深度模型复杂性与黑盒特性使得后门检测与防御更加困难后门攻击的基本概念后门攻击定义:在训练阶段嵌入“隐藏触发器”,使模型在特定输入触发时产生错误预测。正常样本下行为正常,触发器激活后模型被操控后门攻击目标:模型在干净样本上表现良好(高BA)模型在触发样本上输出攻击者指定标签(高ASR)良性准确率(BA)&攻击成功率(ASR):评估后门攻击隐蔽性与有效性的指标后门攻击的威胁模型攻击者能力:仅可投毒训练数据,无法更改模型结构或训练过程。仅能在推理阶段查询模型,无内部信息攻击者的目标:有效性:触发器激活→模型预测错误隐蔽性:中毒率低、触发器不显眼可持续性:绕过常规防御机制攻击过程:添加触发器→构造中毒样本→错误标注→模型学习后门关联图像后门攻击BadNets:通过数据中毒注入可见触发器,诱导模型学会“触发器→目标标签”的映射攻击流程:①添加触发器②修改标签为目标类别→构造中毒数据③使用混合数据训练模型→后门嵌入④推理阶段:带触发器的图像均被误分类为目标类别基于触发器优化的后门攻击背景动因:后门检测方法常基于潜在表示差异,如激活聚类、谱签名等强后门攻击需隐藏潜在空间中的“指纹”核心思想:将后门攻击视为双层优化问题:优化触发器以生成更隐蔽且有效的中毒样本目标:触发器应促使神经元强激活,并引导样本越过决策边界挑战与问题:泛化能力差,易对特定模型结构过拟合当前研究尝试通过模型集成与交替优化缓解此问题面向触发器隐蔽性的后门攻击问题背景:传统后门触发器为固定图案,易被检测和还原隐形后门攻击:样本特定触发器,难以复原,绕过现有防御优势与意义:更强隐蔽性:无明显像素差异更强对抗性:突破防御假设,抗检测能力强攻击流程:①编码器生成样本特定触发器②构造中毒训练集,训练模型③测试阶段:良性样本→正常预测,带隐形触发器→被攻击“干净标签”条件下的后门攻击核心特点:保留训练标签不变,仅修改图像→更加隐蔽可绕过标签检测和数据过滤防御挑战与趋势:隐蔽性↑,攻击效率↓如何权衡隐蔽性与有效性是关键研究问题主要方法:利用对抗扰动或生成模型改变目标类图像优化特征空间距离,使后门信息嵌入图像纹理可拓展到视频领域,通过通用扰动+PGD优化生成干净标签中毒样本其他后门攻击方法基于中毒的后门攻击:语义后门攻击:利用图像语义特征作为触发器,无需显式修改图像内容物理后门攻击:使用现实物体(如眼镜、贴纸)作为触发器,对真实世界系统发起攻击黑盒后门攻击:在无训练集访问权限下,通过生成替代样本实现后门注入非中毒型后门攻击:面向权重的攻击:直接修改模型参数,如比特翻转(TBT)或对抗性权重扰动(AWP)结构修改攻击:通过添加或替换模型结构中的模块嵌入后门图像后门防御图像后门防御必要性:保护模型安全性:防止模型被恶意利用,确保模型在各种输入下的鲁棒性和可靠性维护数据隐私:避免攻击者通过后门攻击获取敏感信息,保护用户数据的隐私保障应用安全:在自动驾驶、安防监控、医疗诊断等关键领域,防止因后门攻击导致的严重后果图像后门防御方法:基于数据预处理的防御方法基于触发器生成的防御方法基于模型诊断的防御方法基于投毒抑制的防御方法基于训练样本过滤的防御方法基于测试样本过滤的防御方法基于数据预处理的防御方法CutMix技术:一种数据增强技术,常用于丰富训练集样本通过混合图像样本增强数据,降低后门攻击威胁,提高模型对于干扰和变化的鲁棒性原理:将其中一张图像样本随机裁剪出一个矩形区域,然后将该矩形区域部分覆盖到另一张图像样本的对应位置之上,从而生成新的训练样本基于数据预处理的防御方法Februss技术:移除训练图像样本中潜在的后门标记触发器痕迹并进行图像恢复,从而对分类任务的训练图像样本进行过滤,缓解了后门攻击的威胁采用可视化工具GradCAM(Gradient-WeightClassActivationMapping,梯度加权类激活映射)定位了触发器所在的位置,来消除后门触发器基于触发器生成的防御方法NeuralCleanse技术:检测并消除后门触发器。逆向生成潜在的后门标记,检测并抑制后门攻击执行步骤:判断模型是否被感染使用逆向优化算法,尝试生成可能的后门标记,评估生成的后门标记是否能够触发模型的异常行为生成潜在的后门标记通过优化算法,生成可能的后门触发器模式,使用损失函数衡量生成的后门标记与模型预测的差异移除后门标记的影响通过调整模型参数或过滤特定输入,抑制后门攻击,并重新训练模型,提高其鲁棒性和安全性基于模型诊断的防御方法ULPs技术:ULPs使用可优化的输入图像集合探测可疑模型,检测并防御后门模型核心思想:通过一组可优化的输入图像集合,结合二元分类器,判断模型是否被后门攻击感染训练纯净模型和中毒模型:准备干净的训练数据集和被注入后门的训练数据集,分别训练得到纯净模型和中毒模型基于模型诊断的防御方法生成ULPs输入图像集合:使用优化算法生成一组具有代表性的输入图像模型诊断:将生成的ULPs输入图像集合分别输入到纯净模型和中毒模型中收集模型的输出结果,构建特征向量训练二元分类器:使用收集到的特征向量和对应的模型标签(纯净或中毒),训练二元分类器,分类器的目标是能够准确区分纯净模型和中毒模型模型检测:对于待检测的模型,使用相同的ULPs输入图像集合获取其输出结果,构建特征向量并输入到训练好的二元分类器中,判断模型是否被感染基于投毒抑制的防御方法DP-SGD:在模型训练过程中,使用噪声对梯度计算和参数更新进行保护差分隐私概念介绍:差分隐私是对数据加噪的隐私保护方法,提供严格的隐私保障,使攻击者无法分辨数据的真实性。敏感度计算:衡量数据集的敏感度,确定噪声的添加量隐私预算(ε):控制隐私保护强度的参数,ε越小,加入的噪声强度越大,隐私保护越强方法实现:在每一轮模型训练的迭代中,对小批量数据计算梯度,并对梯度进行裁剪和加噪更新模型参数,同时保护数据隐私基于训练样本过滤的防御方法SpectralSignatures:利用分类器学习到的数据表征,放大对分类至关重要的信号,从而检测并过滤存在后门的数据核心思想:通过奇异值分解(SVD)分析数据特征,识别异常样本实现步骤:数据准备与模型训练数据表征提取奇异值分解(SVD)频谱特征分析与异常检测样本过滤与模型重新训练基于测试样本过滤的防御方法STRIP:利用分类器学习到的数据表征,检测并过滤存在后门的数据执行步骤输入图像复制与扰动:输入图像样本进行多次复制,对每一份复制的图像进行不同的扰动操作新图像生成与分类:将扰动后的图像与原始图像按一定比例混合,生成新的图像预测结果分析与过滤:根据熵值判断输入样本是否为中毒样本,过滤掉潜在的恶意样本后门攻击防御总结后门攻击防御方法方法名称优点缺点基于数据预处理CutMix提高模型泛化能力,降低后门攻击成功率增加训练数据量和计算成本基于数据预处理Februss直接消除后门触发器的影响需要设计有效的预处理操作基于触发器生成NeuralCleanse能够检测并抑制后门攻击计算复杂度较高基于模型诊断ULPs有效检测后门模型需要大量的计算资源基于投毒抑制DP-SGD保护数据隐私,抑制中毒样本降低模型准确性基于训练样本过滤SpectralSignatures能够识别并过滤异常样本对数据分布假设较强基于测试样本过滤STRIP在推理阶段防御后门攻击可能影响正常样本的预测后门攻击和其他方法的关系后门攻击和对抗性攻击:后门攻击和数据中毒攻击:维度后门攻击对抗性攻击控制阶段训练阶段(数据/模型)推理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五货物贸易居间合同正规范例
- 个人担保借款合同大全
- 忠诚协议书范文
- 道路建设安全管理制度
- 钢构车间设备管理制度
- 银行未达账项管理制度
- 运营计划统计管理制度
- 规范项目资产管理制度
- 公司小车队管理制度
- 食品公司赠品管理制度
- 《发作性睡病》课件
- 人教PEP版(一起)(2024)一年级上册英语全册教案(单元整体教学设计)
- 家乡美食论文开题报告
- DB11T 219-2021 养老机构服务质量星级划分与评定
- GB/T 44577-2024商用电动洗碗机性能测试方法
- 干部家庭社会关系登记表
- 《管理学原理》期末考试复习题库(含答案)
- 护理三基考核试卷及答案9套
- 2024年上半年教师资格证《高中音乐》真题及答案
- 2024年商用密码应用安全性评估从业人员考核试题库-中(多选题)
- 写字楼商业楼宇招商租赁制度流程规范五个案例合集
评论
0/150
提交评论