版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
姜育刚,马兴军,吴祖煊AI
Model
Copyright
ProtectionRecap:
week
11FederatedLearningPrivacyinFederatedLearningRobustnessinFederatedLearningChallengesandFutureResearchThisWeekModel
Extraction:
AttacksModel
Extraction:
DefensesAI模型是宝贵的财产BERTGoogle$160万大规模、高性能的AI模型训练耗费巨大数据资源计算资源人力资源模型窃取动机巨大的商业价值尽量保持模型性能不希望被发现宝贵的AI模型模型窃取为其所用模型窃取方式输入输出模型微调模型剪枝模型窃取攻击StealingmachinelearningmodelsviapredictionAPIs,
USENIXSecurity,
2016;
Practicalblack-boxattacksagainstmachinelearning,
ASIACCS,
2017;
Knockoffnets:Stealingfunctionalityofblack-boxmodels,
CVPR,
2019;
Maze:Data-free
modelstealing
attackusingzeroth-ordergradientestimation,
CVPR,
2021;版权保护的目标准确识别出窃取模型(copy)尽可能高效、鲁棒Copy,Right?模型版权识别尽可能保持模型性能不希望被发现(notcopy)版权保护的两个阶段The
same
model?一致性验证=B
is
derived
from
A?ABAB模型溯源This
is
what
we
are
doing.This
is
what
we
should
do.模型水印技术@fvl传统图像水印:将所有者信息嵌入媒体TMLTMLTMLTMLTMLTML@fvl@fvlSpectrum不同方法的表现和鲁棒性存在一定差异模型水印技术水印信息载体发生变化:模型参数AI模型的实用性需求(Fidelity):水印不能破坏模型功能Yes参数矩阵能不能直接将一行参数改成自己定义的特殊签名?模型水印技术–白盒水印Uchida,Yusuke,etal.Embeddingwatermarksintodeepneuralnetworks.
ACMICMR,
2017模型水印技术–白盒水印Step1.水印嵌入Step2.水印提取Uchida,Yusuke,etal.Embeddingwatermarksintodeepneuralnetworks.
ACMICMR,
2017在训练过程中,添加参数惩罚项,结合嵌入矩阵将信息(钥匙)嵌入到模型参数中。WatermarkedModel
模型水印技术–白盒水印水印嵌入的目标损失函数:Uchida,Yusuke,etal.Embeddingwatermarksintodeepneuralnetworks.
ACMICMR,
2017在训练过程中,添加参数惩罚项,结合嵌入矩阵将信息(钥匙)嵌入到模型参数中。
模型水印技术–白盒水印DarvishRouhani
et
al."Deepsigns:Anend-to-endwatermarkingframeworkforownershipprotectionofdeepneuralnetworks."
ASPLOS.2019.同时依赖数据和模型对模型性能影响小自动寻找low激活区域进行嵌入对微调和重写鲁棒向激活图pdf(概率密度分布)中嵌入N比特激活空间水印:DeepSigns模型水印技术–白盒水印激活空间水印:DeepSignsDarvishRouhani
et
al."Deepsigns:Anend-to-endwatermarkingframeworkforownershipprotectionofdeepneuralnetworks."
ASPLOS.2019.向激活图pdf(概率密度分布)中嵌入N比特选取多个key,每个都来自于一个高斯分布将key通过正则化训练入模型需要部分训练数据引导神经网络某一层Mixed
Gaussian一个类别对应一个高斯模型水印技术–白盒水印LixinFanetal.“Rethinkingdeepneuralnetworkownershipverification:Embeddingpassportstodefeatambiguityattacks”.NeurIPS,2019.
Zhang,Jie,etal.“Passport-awarenormalizationfordeepmodelprotection.”NeurIPS2020.
Fan,Lixin,etal."DeepIPR:Deepneuralnetworkownershipverificationwithpassports."
IEEETransactionsonPatternAnalysisandMachineIntelligence
44.10(2022):6122-6139.解决混淆攻击问题:DeepIPR、Passport
Aware
Normalization模型水印技术–白盒水印Ong,DingSheng,etal.“Protectingintellectualpropertyofgenerativeadversarialnetworksfromambiguityattacks.”
CVPR,2021.数据+参数(黑白盒兼顾)参数部分只关注归一化层白盒部分使用sign损失嵌入水印对移除和混淆攻击都鲁棒生成模型水印:IPR-GAN归一化层模型水印技术–
白盒水印方法总结Table
credit
to
Yifan
Yan.总结现有9种模型水印方法模型水印技术–黑盒水印Zhang,Jialong,etal.Protectingintellectualpropertyofdeepneuralnetworkswithwatermarking.
ACMAsiaCCS,2018黑盒:水印的验证不需要模型参数数据引导,需要确保模型可以完全记住水印数据是一种后门攻击基于后门的模型水印模型水印技术–黑盒水印Step1.水印嵌入Step2.水印提取Zhang,Jialong,etal.Protectingintellectualpropertyofdeepneuralnetworkswithwatermarking.
ACMAsiaCCS,2018让模型学习”水印-类别”特定映射,AISP图案将作为模型所有权验证的钥匙。AISP正常样本类别:'car'WatermarkedModel后门样本类别:
'airplane'AAIGAAIG训练验证SuspectModel利用钥匙进行所有权验证,计算输出'airplane'的比例TSA(TriggerSetAccuracy)AISP基于后门的模型水印模型水印技术–黑盒水印Adi,etal.“Turningyourweaknessintoastrength:Watermarkingdeepneuralnetworksbybackdooring.”
USENIXSecurity,
2018.基于后门的模型水印正常学习后门学习触发图像示例触发图像=key模型水印的优缺点
能够将身份(例如签名和徽标)嵌入模型中,提供准确的所有权验证图像水印清除模型水印清除水印检测水印清除需要介入训练过程,会带来新的安全隐患,且可能会影响模型性能水印提取面临各种挑战(水印损坏、被刻意擦除等)Ontherobustnessofbackdoor-based
watermarking
in
deepneuralnetworks,
IH&MMSec,
2021水印的天敌:模型窃取水印技术对模型微调和迁移防御效果较好,但是难以应对模型窃取嵌入的水印信息在窃取过程中会被留在原模型中功能性窃取并不会窃取水印水印信息在模型窃取中完全丢失模型窃取是水印的天敌TSA(TriggerSetAccuracy)模型指纹Cao
et
al.
IPGuard:Protectingintellectualpropertyofdeepneuralnetworksviafingerprintingtheclassificationboundary,
AsiaCCS,
2021Lukas,
Zhang
and
Kerschbaum.
DeepNeuralNetworkFingerprintingbyConferrableAdversarialExamples,
ICLR,
2021IPGuard:使用边界上的数据点去生成指纹ConferrableEnsembleMethod(CEM)使用可授予对抗样本来生成边界指纹模型指纹DeepJudge思想:作为第三方视角,测试希望能更加全面的衡量可疑模型和源模型的相似度,将此作为证据链进行最终模型所有权的判断哪些线索有价值:如何定义测试指标来衡量模型之间的相似性?怎么准确找线索:如何有效地生成测试用例来放大相似度?以测试的方式:1)精心构建一组测试用例;2)测试并量化两个模型在测试用例上的行为相似度动机:衍生模型(copy)一定会在很多方面跟源模型相似DeepJudge由三部分组成:一组预先生成的测试用例一组用于测试的多层次距离指标基于阈值/投票的判断机制框架总览放大线索的测试用例线索收集最终决策机制
神经网络模型组成0.990.01Cat(0.48)Dog(0.52)DeepJudge可在两种设置下进行:白盒:可以完全访问可疑模型𝓢的内部(即中间层输出)和最终概率向量。黑盒:只能查询可疑模型𝓢以获得概率向量或预测标签。不同层次测试指标黑盒白盒鲁棒性模型属性可用于表征两个模型之间的相似性,我们定义了鲁棒性距离(RobD)来衡量两个模型之间的对抗鲁棒性差异。
动机:模型的鲁棒性与模型通过其独特的优化过程学习到的决策边界密切相关,可以被视为模型的一种“指纹”
我们使用神经元的输出状态来捕捉两个模型之间的差异,并定义了两个神经元级别的指标:神经输出距离NOD和神经激活距离NAD。动机:模型中每个神经元输出遵循自己的统计分布,不同模型的神经元输出应该有所不同
Def4.NAD(NeuronActivationDistance):NADmeasuresthedifferenceinactivationstatus(‘activated’vs.‘notactivated’)betweentheneuronsoftwomodels:
神经元输出和激活状态网络层激活分布神经层级别的指标提供了两个模型之间中间层输出差异的完整视图Def5.LOD(LayerOutputDistance)Def6.LAD(LayerActivationDistance)
测试用例生成为了充分利用好提出的测试指标,我们需要放大窃取模型与源模型之间的相似性,同时最小化非窃取模型(独立训练)和源模型的相似性。测试用例应根据不同设置(即黑盒与白盒)分别生成。黑盒场景:使用对抗样本作为测试集𝒯微调和剪枝的模型都是从源模型得到的衍生模型,应该与源模型保持类似的决策边界虽然模型窃取是从头开始训练新的模型,但会逐渐模仿源者模型的决策行为(边界),模型提取得越好,副本与源模型越相似,并且越容易被测出来黑盒测试用例:对抗样本not
copycopyorig在正常样本上加上微小的扰动,使模型的决策发生变化,但输入的实际意义并未发生变化。对抗样本看上过去一样,吃着口味不同~白盒:给定一个种子输入和一个指定层,我们为每个神经元生成一个测试用例。其中,神经元激活的极端情况是我们感兴趣的。白盒测试用例:合成样本DeepJudge的判断分两步:阈值和投票。投票:根据每个测试指标给嫌疑模型投票,如果它与源模型的距离低于该指标的阈值,则给它一个肯定票。
测量指标的度量值(模型距离)越低,可疑模型就越有可能是源模型的副本。如果可疑模型获得更多肯定票,则将其识别为肯定窃取模型。
RobD
JSD
NOD
NAD
LOD
LADYes,itisacopy!Copy,Right?最终决策机制实验设置数据集和要保护的模型嫌疑模型我们总共实验了:11种模型攻击方法,3种基线方法,4个数据集,超过300个不同的深度学习模型测试种子Positive嫌疑微调最后一层(FT-LL)微调所有层(FT-AL)重置最后一层后重训练(RT-AL)模型剪枝P-r%(20%-60%)迁移学习模型窃取Negative嫌疑独立训练,不同随机初始化(Neg-1)训练在其余50%数据上(Neg-2)
DeepJudge在黑盒设置下的有效性面对:模型微调&模型剪枝红色:copy绿色:not
copy面对:模型微调&模型剪枝红色:copy绿色:not
copy
DeepJudge在白盒设置下的有效性结合可视化雷达图面积=copy置信度黑盒设置下:窃取(copy)模型和非窃取(notcopy)模型在DeepJudge下的差距更加显著
白盒设置下:和白盒水印有相似的表现,其中NAD指标在5种攻击策略上占据优势
DeepJudge
vs模型水印TSA:TriggerSetAccuracyMR:Matching
RateZhang,etal.Protectingintellectualpropertyofdeepneuralnetworkswithwatermarking.
AsiaCCS,
2018Cao
et
al.
IPGuard:Protectingintellectualpropertyofdeepneuralnetworksviafingerprintingtheclassificationboundary,
AsiaCCS,
2021Uchida
et
al.
Embeddingwatermarksintodeepneuralnetworks,
ICMR,
2017BER:Bit
Error
Rate[47]:
DNNWatermarking[2]:
IPGuard[40]:
Uchida
et
al.
EmdeddingWatermarking
在模型窃取过程中,模型间RobD和JSD距离越来越小模型窃取逐渐变成你的模样~Yuan
et
al.
ESattack:Modelstealingagainstdeepneuralnetworkswithoutdatahurdles.Orekondy
et
al.
Knockoffnets:Stealingfunctionalityofblack-boxmodels,
CVPR,
2019Papernot
et
al.
Practicalblack-boxattacksagainstmachinelearning,
Aisa
CCS,
2017红色:copy绿色:not
copy测试指标和测试用例均暴露的情况对抗微调:将测试用例𝒯混合到干净的数据中,并对窃取的模型进行微调
仅
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宴会策划与布置合同
- 铝合金型材销售合同
- 五金件采购合同经典范本
- 冻肉销售合同范本
- 监理合同的履行监管
- 石粉购销协议合同
- 分布式技术合作合同
- 智能硬件开发协议
- 就业协议与劳动合同区分与理解
- 健身房灯箱广告投放合同
- 第三单元 资产阶级民主革命与中华民国的建立 教学设计 2024-2025学年部编版八年级历史上学期
- 英汉笔译智慧树知到答案2024年温州大学
- 2024年全国职业院校技能大赛高职组(智能节水系统设计与安装赛项)考试题库-下(多选、判断题)
- 2024信息咨询服务合同
- 2024新教科版一年级科学上册第二单元《我们自己》全部课件
- 2024至2030年中国岩土工程市场深度分析及发展趋势研究报告
- 双碳综合能源平台方案建设
- 2024年秋一年级上册8升国旗 公开课一等奖创新教学设计(表格式2课时)
- 【课件】纪念与象征-空间中的实体艺术+课件-高中美术人美版(2019)美术鉴赏
- DL∕T 5372-2017 水电水利工程金属结构与机电设备安装安全技术规程
- 2024年广西应急厅事业单位笔试真题
评论
0/150
提交评论