版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
随着大数据技术日益发展,数据泄露、数据非法访问、数据篡改等数据安全问题越来越受到世界各国的关注,对用户数据的隐私和安全日益严格的管理将是世界趋势。联邦学习(FederatedLearning,FL)是一种分布式机器学习策略,通过学习从多个分散的边缘客户端所掌握的训练数据来生成全局模型,有效解决了“数据孤岛”问题。随着联邦学习技术的发展,联邦学习在保护用户训练数据、实现数据“可用不可见”的基础上,获得了性能上较大的提高,并越发接近数据集中式学习的性能。训练高精度的联邦学习模型需要大规模、高质量的数据支撑,而高质量数据的数据采集、数据清洗和数据标注等预处理工作需要投入高昂的人力、物力,且由于联邦学习中各方数据难以直接获取,联合建模需要多方协调配合,因此联邦学习任务本身需要较高的商业成本。因此,隐私保护是联邦学习系统尤为重要的一个话题。隐私攻击是联邦学习系统面临的一个主要威胁,恶意攻击者窃取用户原数据或训练好的模型参数等隐私信息,发起隐私攻击,将会危害联邦学习模型的机密性(Confidentiality)。联邦学习一经提出,便备受关注。国内外已有大量针对联邦学习中隐私保护技术的性能、安全隐患及其缺点的研究。早在2018年,Rahman便指出了联邦学习中对全局更新贡献较大的参与成员,以及近似推理了原始训练数据。指出了在联邦学习更新过程中,能够从产生的梯度信息近似推理并重构出客户端的原始训练数据。在不干涉本地训练过程的前提下,运用成员推断攻击,并通过篡改其在通信过程中传输的梯度,减弱了全局模型的效能。本文主要针对联邦学习可能面临的安全和隐私威胁进行分析,着重阐述隐私安全问题,总结了一些防御措施。在这些防御措施中,本文重点对差分隐私进行介绍,分析其隐私安全性能,以期进一步减小联邦学习系统中的隐私风险。此外,还利用基于拉普拉斯机制
的差分隐私算法设计了一个联邦学习的隐私保护方法,并通过实验分析了该方法对模型性能的影响。1联邦学习概述联邦学习是一种分布式机器学习算法,但在学习过程中,各个参与方不会共享自身的训练数据,每个联邦学习利用多个计算节点进行联合训练,旨在提高性能、保护隐私信息,并使其可以扩展到更大规模的训练数据和更大规模的模型。联邦学习打破了“数据孤岛”,实现了数据隐私保护和共享分析的平衡,即“数据可用不可见”的数据应用模式。1.1联邦学习的定义联邦学习中的角色主要包括客户端(参与方)和服务器。假设有k个客户端参与了联邦学习,第i个客户端为所拥有的训练数据集为本地模型为联邦学习的目标是从所有训练数据组成的数据集中训练出一个全局模型目前联邦学习系统中常用的聚合策略包括联邦平均(FederatedAveraging,FedAvg)和联邦随机梯度下降(FederatedStochasticGradientDescent,FedSGD)等。然而,不同于直接利用数据集D本身来训练一个中心化模型在联邦学习中,第i个客户端不能访问数据集假设模型的效果为V,则联邦学习系统的优化目标为:式中:为某种范数或距离度量。一般地,基本的联邦学习系统至少包括初始化(分发全局模型)、本地更新和全局聚合3个步骤。1.2联邦学习的分类联邦学习系统中,每个参与方只拥有其本地的训练数据集并且这些数据集在样本空间和特征空间上有不同程度的重合,造成了联邦学习系统进行学习的依据不同。根据学习依据,联邦学习系统分为横向联邦学习、纵向联邦学习和联邦迁移学习3类。横向联邦学习按照样本空间对数据集进行划分,并取出特征相同而样本不同的部分来进行训练。纵向联邦学习与横向联邦学习相反,是根据特征分布来进行学习的。联邦迁移学习适用于参与方的数据集中特征空间和样本空间重叠都很少的情况。联邦迁移学习中,不对数据进行切分,而是利用迁移学习的方法来解决数据及标签不足的问题。2联邦学习面临的隐私威胁尽管联邦学习系统中各个参与方的训练过程是独立进行的,且没有原始训练数据的传输,可以保证一定的隐私安全,但这并非绝对安全的。恶意的参与方可以从更新信息中推理出较为活跃的成员信息,甚至可以重构训练数据。2.1联邦学习中的隐私威胁联邦学习中的参与方往往容易受到模型提取攻击
和模型逆向攻击这两大类攻击。联邦学习系统中一般假定服务器端是非恶意的,但这样的假设不能防范“诚实但好奇”(HonestbutCurious)的服务器,这类服务器端虽然确实完成了应有的聚合任务,不会对模型性能发起攻击造成破坏,也不会破坏模型的可用性,但是会尝试窃取参与方本地数据集中的数据,破坏参与方数据的机密性,威胁数据参与方的隐私安全。2.2模型提取攻击在模型提取攻击中,攻击者试图窃取模型的参数、超参数等,破坏了模型的机密性。一般而言,模型提取攻击中,攻击者试图构建一个与原模型相似的替代模型。因为攻击者缺少对模型结构的了解,所以此类攻击一般为黑盒攻击。首先,攻击者利用一组数据对被提取的模型发起查询操作,并获得查询结果由此构造出一个训练数据集其次,攻击者将利用数据集D来训练替代模型,直到替代模型的效果达到了攻击者的预期。模型提取攻击的基本原理如图1所示。图1模型提取攻击的基本原理在实际应用过程中,联邦学习模型的训练代价与成本都是较高的,而模型提取攻击使得攻击者能够以极低的训练代价获得一个与原始模型性能相近的替代模型,严重损害了联邦学习参与方的隐私安全和商业利益。2.3模型逆向攻击在模型逆向攻击中,攻击者一般试图通过在训练完毕的模型中不断地查询,获得一些统计信息,进而推理出用户的隐私信息。根据攻击者推理的信息,可以将模型逆向攻击分为属性推理攻击(PropertyInferenceAttack,PIA)和成员推理攻击(MemberInferenceAttack,MIA)。在属性推理攻击中,攻击者的目标在于判断参与方的训练数据集中是否含有某个特征。在成员推理攻击中,攻击者的目标在于判断某一条数据记录是否包含在参与方的训练数据集中。除上述推理攻击,近几年一些基于生成对抗网络(GenerateAdversarialNetwor,GAN)的推理攻击也成为一种较常见的逆向攻击的手段。3防御隐私威胁的措施联邦学习的隐私防护工作需要从参与方和服务器两大主体分别进行。从原理上来看,多数联邦学习隐私安全的方法都是基于密码学的。基于密码学的联邦学习隐私安全方法主要包括安全多方计算、同态加密等,主要用于模型训练阶段的隐私保护,可以防御一些模型逆向攻击。这些方法可以用来防御恶意的或“诚实但好奇”的参与方和服务器端,且在传输信息被截获的条件下,仍然能从密码方面保障安全。这些保护措施的安全性主要体现在密码学算法的安全性,同时需考虑密码学算法的时空效率。另外有一些不基于密码学的隐私安全方法,例如差分隐私(DifferentialPrivacy,DP),主要用于模型训练完毕后的隐私保护,其可以通过加噪的方法防御一些模型提取攻击和推理攻击。这些保护措施的安全性的高低主要体现在能否使得明文信息能够推理出尽量少的敏感信息。4差分隐私方法概述4.1差分隐私的基本定义在介绍差分隐私的定义之前,首先介绍邻近数据集(AdjacentDataset)的定义。设有两个数据集D与D',若它们的对称差中元素的数量满足则称D与D'互为邻近数据集。差分隐私在提出的初期,主要应用于数据库安全保护。设f为一个查询函数,即一个映射,可以是求和、求平均、求最值或其他查询操作,则攻击者多试图通过比较的差异来推理出数据库中的敏感信息。一个推理攻击的示例如图2所示。图2推理攻击示例对于邻近数据集D与D',设有一随机算法M,为该算法所有可能的输出,对于任意都有:则称随机算法M满足差分隐私。式中:e为自然对数的底数;为隐私预算。当隐私预算的值越小,随机算法M在D和D´上获得相同的输出结果的概率也就越接近,所以当用户对数据集进行查询的时候,无法通过输出结果区分这条数据是来自邻近数据集中的D还是D',即无法察觉到这个数据集中微小的变化。反之,的值越大,隐私保护效果也就越弱。因此,可以得出,过大的隐私预算会导致无法达到预期的隐私保护效果,过小的隐私预算虽然能达到隐私效果,但加噪力度太大容易导致查询结果完全无法使用。若随机算法对于D与D'满足:其中,则称随机算法M满足差分隐私。是一个松弛项,表示差分隐私可以接受一定程度的不满足。4.2差分隐私的敏感度分析为了获知对于特定的随机算法函数M,需要添加多少噪声才能满足差分隐私,并且需要获知该算法在当前数据集中删除一条数据引起的查询结果的最大改变量。差分隐私算法有两种敏感度,分别是全局敏感度(GlobalSensitivity)和局部敏感度(LocalSensitivity)。4.2.1全局敏感度设一映射其输出为d维实向量,则全局敏感度定义如下:全局敏感度为一个范数定义的表达式,由函数本身决定,而和D与D'无关。当全局敏感度较小时,只需要添加较小的噪声,就能使函数M满足差分隐私。4.2.2局部敏感度由于全局敏感度较大时,需要添加强度足够大的噪声才能保证隐私安全,这可能导致数据不可用,因此定义了局部敏感度,则f在数据集D上的局部敏感度具体为:可以发现局部敏感度与全局敏感度的关系如下:局部敏感度通常比全局敏感度要小很多,并且局部敏感度取决于映射f本身与原始数据集D,然而,局部敏感度在一定程度上体现了数据集的分布特征,因此只用局部敏感度来确定噪声强度大小,仍然容易造成隐私泄露。4.3差分隐私的实现方法在具体实现差分隐私时,需要根据不同的随机算法采取不同的实现机制。常见的机制包括指数机制(ExponentialMechanism)和拉普拉斯机制(LaplaceMechanism)等。4.3.1拉普拉斯机制拉普拉斯机制是向确定的查询结果中加入服从拉普拉斯分布的噪声。此分布有两个参数,包括尺度参数λ和位置参数μ,其分布密度函数为:将该分布记作如向查询结果中添加尺度参数的服从拉普拉斯分布的噪声n能够形成一个随机算法M,即则可以证明随机算法M提供了差分隐私保护。其中,指的是f的敏感度。一般来说,拉普拉斯机制适合数值型结果的保护。4.3.2指数机制在许多应用场合,查询结果都是非数值的,例如一个实体对象。设r为随机算法的输出,为一个用来评估输出优劣性的可用性函数,为的敏感度。可以证明,如随机算法M能够以正比于的概率输出r,则算法M能够提供差分隐私保护。5利用差分隐私保护联邦学习系统安全在安全保护领域的隐私保护机器学习(PrivacyPreservingMachineLearning,PPML)技术中,主要有两种攻击者:一种是“诚实但好奇”的攻击者,这种攻击者会诚实地遵守协议,但会试图从接收到的信息中获取更多输出结果以外的信息内容;另一种是恶意的攻击者,这种攻击者不遵守规定的协议,会试图发起任意的攻击行为。本文采用拉普拉斯机制来实现差分隐私,提出了一种差分隐私方法,并简要分析了方法的合理性。5.1联邦学习服务器对隐私安全的保障为了满足以上隐私保护的目的和要求,本文在协调方发送给各个参与方的全局模型上实施差分隐私保护。在本文的联邦学习系统中,聚合算法采用联邦平均法,其表达式为:式中:t为全局模型更新的轮次为第t轮次和第t+1轮次更新的全局模型参数;η为全局模型更新λ的学习率;n为客户端的数量;m为当轮被选择参与本轮全局模型更新的客户端数量;为在第t+1迭代轮次中被选中的第i个参与方在本地数据训练后的本地模型;为第t+1迭代轮次中被选中的第i个参与方在本地数据训练的更新梯度。因此,当“诚实但好奇”的参与方或是恶意的参与方对模型发起成员推理攻击,威胁参与方隐私安全和数据安全时,所要查询的就是协调方发送给各个参与方的全局更新模型所以可以得知查询函数为:式中:为本轮全局模型更新选中的参与方的集合;为了防止服务器发出的全局更新被攻击者推理出敏感信息,服务器将在聚合时对模型梯度添加噪声。这里采用的是拉普拉斯机制。服务器端的聚合方法如下:其中,查询函数敏感度的一个边界为:式中:为参与方集合的用户邻近数据集,即集合与集合
相比,有且仅有一个参与方不同;为第k个参与方更新梯度的范数。由式(10)可知,因为为常数,故只要有界,查询敏感度也会有界。假如那么查询敏感度因此,在该方法中需要将参与训练的参与方更新的梯度裁剪至C以内。裁剪方式可以表述为:式(11)中,当时,式子中的分母会取到1,裁剪出来的梯度与裁剪前的梯度相同,满足裁剪边界当时,分母的值会取到于是裁剪后的度的值就为也同样满足裁剪边界因此,该裁剪方法是合理的。因为查询敏感度有一个上界因此,据3.3节所述,可以向查询函数f中添加一个拉普拉斯分布的噪声I为一个与f的输出维度相同的度量参数,S为查询函数的敏感度边界,对于选定的该梯度裁剪算法结合拉普拉斯机制能够做到差分隐私。5.2联邦学习参与方对隐私安全的保障对于一个非恶意的服务器而言,如4.1节所述,其隐私保护的主要目的是防御恶意的参与方或外部攻击者实施推理攻击。同样地,作为一个联邦学习参与方,也需要防范一些非善意的参与方或服务器试图破坏隐私安全的行为。因此,参与方在上传其梯度更新时,也将对梯度进行一些诸如梯度裁剪的处理,以保护其隐私安全。对于参与方而言,通过对裁剪梯度,可以做到本地差分隐私(LocalDifferentialPrivacy,LDP)。在这种方式之下,参与方对自己上传至协调方的梯度进行扰动,对梯度进行裁剪再上传至协调方可以在协调方不受到信任的时候能够有效地对本地数据进行保护,将已混淆的数据发布至不受信任的协调方可以有效地保护参与方用户的隐私安全和数据安全。同样地,据3.3节所述,下列算法能够做到差分隐私。参与方所完成的任务是训练本地模型并上传更新梯度,上传更新的算法如下:5.3实验分析据5.1节与5.2节所述,算法1和算法2在理论上能够做到差分隐私。下文将分析差分隐私对联邦学习性能的影响度,这里采用的实验数据集为CIFAR-10,采用的图片分类模型为卷积神经网络(ConvolutionalNeuralNetwork,CNN)的ResNet-18网络结构。5.3.1收敛效率与准确率分析本节分别对比了联邦聚合算法FedAvg和FedSGD在加入差分隐私前后的性能。将联邦平均算法FedAvg的参数设置为:全局模型迭代轮次(epochs)E=100,参与方总数N=10,每轮选择参与训练的参与方数量n=3,参与训练的用户方本地训练轮次e=3。联邦梯度下降算法FedSGD参数设置为:全局模型迭代轮次E=100,参与方总人数N=10,每轮选择参与训练的参与用户数量n=10,参与训练的用户方本地训练轮次e=1。基于拉普拉斯噪声的差分隐私算法的参数设置为:拉普拉斯噪声的标准差参与方上传的梯度的裁剪阈值c=1。实验结果如图3所示。由图3可知,图中所示训练方法的模型准确率都随训练轮次的增加而逐渐增加,最后都稳定在75%左右,且两种聚合算法FedAvg和FedSGD的收敛速度和准确率无明显区别。同时发现,添加了差分隐私的两种联邦平均算法与不添加差分隐私的原始算法的收敛速度与准确率也无明显差距。这说明,差分隐私一般不会显著影响模型的收敛性能。图3联邦聚合算法FedAvg和FedSGD在加入差分隐私前后的性能对比5.3.2差分隐私参数的变化影响分析本节分析的参数是隐私预算,这里通过调整拉普拉斯噪声的标准差σ来控制隐私预算,所用的聚合算法是FedAvg,其参数设置为:全局模型迭代轮次E=100,参与方总数N=10,每轮选择参与训练的参与用户数量n=3,参与训练的用户方本地训练轮次e=3,参与方上传的梯度的裁剪阈值c=1。对添加拉普拉斯噪声的大小按一定间距设置,并进行对比。实验结果如图4所示。从图中可以看出,在同样的迭代轮次中,随着添加的拉普拉斯噪声标准差逐渐增大,即随着隐私预算的减小,训练模型的准确率有明显的降低。若要使联邦学习训练模型达到同样的准确率和性能大小,需要训练更多的轮次才可达到这样的效果。结合图3可以发现,虽然差分隐私措施对于模型的收敛性可能无显著影响,但收敛后的最优效果可能随着隐私预算的减小而出现显著损失。5.3.3裁剪阈值的变化影响分析本节对裁剪阈值的变化进行分析,所
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 眼部化妆笔项目营销计划书
- 可回收材料分类机产品供应链分析
- 二手车交易的物流服务行业相关项目经营管理报告
- 医院餐饮供应服务行业市场调研分析报告
- 织布机机器商业机会挖掘与战略布局策略研究报告
- 建筑智能外墙行业市场调研分析报告
- 办公文具产品供应链分析
- 女用阳伞太阳伞产业链招商引资的调研报告
- 游标卡尺产品供应链分析
- 体育赛事志愿者管理行业营销策略方案
- 《心系国防 强国有我》 课件-2024-2025学年高一上学期开学第一课国防教育主题班会
- (正式版)SHT 3224-2024 石油化工雨水监控及事故排水储存设施设计规范
- 劳务派遣 投标方案(技术方案)
- 小学六年级数学100道题解分数方程
- 入团志愿书(2016版本)(可编辑打印标准A4) (1)
- 运动竞赛学课件PPT.ppt
- 高中小说阅读教学策略
- 高三思政选修3逻辑与思维_第七课《学会归纳与类比推理》教材内容分析
- 相控阵检测工艺规程
- 单线循环吊椅式客运索道的设计--工程索道课程设计说明书
- VBA类模块完全教程
评论
0/150
提交评论