![基于安全计算的隐私计算技术研究_第1页](http://file4.renrendoc.com/view/06ff1655e1cb1b1f18bb02f728dcf9b8/06ff1655e1cb1b1f18bb02f728dcf9b81.gif)
![基于安全计算的隐私计算技术研究_第2页](http://file4.renrendoc.com/view/06ff1655e1cb1b1f18bb02f728dcf9b8/06ff1655e1cb1b1f18bb02f728dcf9b82.gif)
![基于安全计算的隐私计算技术研究_第3页](http://file4.renrendoc.com/view/06ff1655e1cb1b1f18bb02f728dcf9b8/06ff1655e1cb1b1f18bb02f728dcf9b83.gif)
![基于安全计算的隐私计算技术研究_第4页](http://file4.renrendoc.com/view/06ff1655e1cb1b1f18bb02f728dcf9b8/06ff1655e1cb1b1f18bb02f728dcf9b84.gif)
![基于安全计算的隐私计算技术研究_第5页](http://file4.renrendoc.com/view/06ff1655e1cb1b1f18bb02f728dcf9b8/06ff1655e1cb1b1f18bb02f728dcf9b85.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于安全计算的隐私计算技术研究
0隐私计算的应用及展望随着计算机科学技术的发展,数字经济已成为推动未来疫情时期需求的重要因素。据中国信息通信研究院发布的《中国数字经济发展白皮书(2021年)》显示本文从隐私计算的基本概念和技术出发,浅析隐私计算的核心技术,并基于隐私计算实践———PrivTorrent密流安全计算平台,以匿名查询和联合营销为例介绍隐私计算技术的行业典型应用,最后分析和研究隐私计算面临的挑战及跨异构平台互联互通问题,为业界正在推进的异构隐私计算平台互通标准制定提供参考。1隐私计算的应用数据价值的发挥在于数据融合。现有的多方数据协作方式存在低效、融合成本高、风险高、数据留存等诸多问题。同时,《网络安全法》《个人信息保护法》《数据安全法》等法律法规的出台或加速立法,也使得传统的数据融合模式无法持续。如何在保障各方数据隐私安全的前提下,以“可用而不可见”的方式实现有效的数据价值融合,已成为数据行业迫切需要解决的关键问题。以多方安全计算(SecureMulti-PartyComputation,MPC)和联邦学习(FederatedLearning,FL)为核心的隐私计算(PrivacyPreservingComputing)技术可以在保护数据本身不对外泄露的基础上实现多方参与的计算任务,解决数据流通中兼顾“可用性”与“隐私性”的难题,进而为数据孤岛间价值流通搭建合规桥梁。概括来说,多方安全计算是在分布式环境下由多个参与方通过合作或者借助一个不完全可信的第三方(如云服务器),利用各自拥有的私有数据,完成某个功能函数的合作计算的过程。该计算过程要求不泄露任何参与方的私有信息,以解决在分布式环境中多方参与者之间的安全计算为目的当前,多方安全计算无论是在理论和实际落地中都取得了长足的进步,特别是随着数据安全问题的凸显,将基于多方安全计算及其典型应用的联邦学习技术提出的隐私计算的概念应用到数据跨域分享中,已成为解决数据在动态使用和融合中的安全隐私问题的唯一可行技术手段。利用隐私计算技术替代传统数据融合方式,正在诸如联合风控、联合营销、智能医疗、智慧政务等各个场景中助力数据价值提升。鉴于隐私计算技术在数据安全领域的巨大潜力,工业界和学术界的众多研究机构已跻身这一赛道,共同推进隐私计算技术的更新与行业的发展。作为一门新兴技术,隐私计算在落地中依然面临诸多挑战,例如如何平衡安全性与效率,如何制定相关的行业技术规范等。特别是由于缺乏统一标准以及技术实现差异,不同的隐私计算平台之间难以互联互通,这些都是行业内亟待解决的问题。2基于前沿密码学的期前计算基于多方安全计算的隐私计算模式以多个参与方在不释放任何隐私信息的情况下共同完成计算任务为目的,利用前沿密码学技术实现不依赖于可信中心的密文状态数据的直接计算。在计算过程中,数据无需转移、无需解密、无需集中,也无泄露风险,并具有数学可证明“密文态计算”的安全性与准确性。2.1其他接收者秘密分享协议针对多方安全计算的工作很多,包括安全模型的建立、协议设计、算法实现、应用落地等。研究维度涵盖了安全两方计算与安全多方计算、半诚实模型和恶意模型等。从目前产业界方案落地的角度,关于秘密分享、不经意传输、隐私求交集、多方排序以及点积协议的研究应用尤为广泛。秘密分享(SecretSharing,SS)作为一种基础的安全多方计算协议,是构建很多隐私计算协议的底层模块之一。最简单的算术秘密分享的基本思想就是数据切片,此外包括Shamir秘密分享和门限秘密分享等也有许多实现与应用。不经意传输(ObiviousTransfer,OT)协议或健忘(茫然)传输协议是一种部分秘密泄露协议。传统的二选一(One-out-of-Two)OT协议的基本流程是:发送者拥有两个消息,协议结束后,接收者获得其中一个消息,且不能得到关于另一个消息的任何信息,同时发送者也不清楚接收者收到的是哪个消息。利用二选一OT协议还可以实现OT扩展协议,如IKNP协议隐私求交集(PrivateSetIntersection,PSI)是多方安全计算研究的重要领域,不仅可以应用在诸如隐私保护相似文档检测、隐私保护的近邻检测、社交网络关系发现等场景,也可以用于进行联邦建模前的ID对齐等任务。PSI协议要求参与各方在不暴露自身数据集合的前提下计算数据交集。PSI协议可以分为基于公钥加密的PSI、基于混淆电路GC的PSI和基于OT协议的PSI秘密比较协议要求双方各输入一个数值,在不泄露各自数据的前提下比较两个数的大小点积问题可以描述为:如何在Alice不暴露向量X={x_1,x_2,…,x_n}、Bob不暴露Y={y_1,y_2,…,y_n}的前提下协同计算u=XY+v,并仅令Alice获得结果u。显然,当v=0时,最终结果就是一般的XY内积值。引入随机值v的目的在于防止Alice得到XY的确切值,这样在某些上层协议的构建中,Bob可以选择随时去除v来恢复正确的协议结果。2.2联邦学习模式传统的多方机器学习需要各参与方将数据上传到高算力的服务器上集中训练,这种方式会产生诸如数据流向不可控以及数据泄露等问题。McMahan于2016年首次提出了联邦学习的概念一般来说,联邦学习技术具有以下几个特征:各方数据保留在本地不出库;各方获得共享的机器学习模型;联邦学习所得模型的精度与集中式机器学习相似;联邦学习模型训练精度与各方提供的数据质量成正比。根据联邦学习中参与训练的数据特征信息的不同,可以将联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习通信效率的改进包括3个层面:算法优化,如针对非平衡数据集的训练优化、加快模型收敛速度、海量数据的适配问题等;数据传输空间占用,降低通信负载,常用的方法是数据压缩,策略有两种,即梯度压缩和全局模型压缩隐私计算最核心的目的就是保证参与方的数据隐私性。在联邦学习领域,实现隐私安全的主要方法有差分隐私、多方安全计算和同态加密。相比于加密技术,差分隐私主要引入了随机化与噪声扰动,其优势是计算效率较高,与传统的明文运算执行时长接近。然而,差分隐私在一定程度上会影响模型的可用性,降低模型的预测准确性。激励机制是联邦学习中的一个重要挑战:首先,如果引入中心服务器,则相应地存在单点故障、密钥托管、中心信任等问题;如果联合各方共同参与计算,那么需要完善的激励回报策略使得各方自愿参与任务执行并消耗算力。区块链技术具有不可篡改、可验证的特点,可以为联邦学习提供所需的信任与激励机制。将联邦学习与区块链技术结合构建闭环学习系统,利用联邦学习为建模参与方提供数据安全跨域共享能力;基于区块链为计算任务提供安全存储、信任管理、激励机制等功能,可以进一步促进可信合规的数据共享。3数据安全技术树立现状,主要解决数据的回近年来,各种个人、企业隐私数据泄露,或数据持有方对数据的不当使用事件层出不穷。数据隐私违规问题已成为数据行业的高频爆雷点,各个国家和地区已加紧立法,对数据的采集、授权、转移、保存、使用等进行全面的规范化,相关监管措施日益严苛。拥有大量数据的企业面临着很大的矛盾,一方面,利用多方数据融合可以有效提升数据价值,给企业带来更大效益;另一方面,传统的数据归集模式由于其成本高、风险高、数据留存等将面临迫切的合规风险。同时,保护数据本身的安全、数据背后所代表的用户个人隐私等对于维护企业利益也至关重要。目前,主流的数据安全技术仍然是围绕数据访问控制的“静态”隐私保护方法。无论是数据防泄露技术,还是近来所热议的“零信任”安全架构等解决方案,都是通过对数据按照隐私和敏感性进行分级分类,采用对明文数据的使用进行全流程细粒度的审计、追溯、权限管理等策略。虽然这些技术可以使得单个数据源的管理进一步可控,但是无法解决数据在动态使用和分享中的安全问题。基于多方安全计算的隐私计算技术则是以“动态”隐私保护的方法,融合在数据的使用、处理过程之中,并保障数据源、计算过程和计算结果不会泄露原始明文数据本身信息。利用多方安全计算(协议),隐私计算有效地解决了多方数据(可计算的)安全融合。这里的多方,既可以是多个拥有数据的企业,也可以是算法中特征方和标签方,且各方不一定完全互信。因此,隐私计算真正实现了数据的“可用不可见”,在金融、电信、医疗、政务等数据融通场景具有广阔的应用前景。本文以PrivTorrent密流安全计算平台为例(见图1),论述隐私计算在金融、智能营销中的典型应用。3.1隐私查询在身份核验中的应用随着市场应用需求增加,身份核验成为金融机构的强需求。运营商身份核验数据已成为银行业务数字化和信息化的基础设施,但随着国家层面《网络安全法》的出台以及《个人信息保护法》《数据安全法》的推进立法,包括银行在内的各企业对用户或自有数据的保护意识日益增强。在传统的数据流转过程中,虽然银行侧采用了MD5/SHA256等进行了哈希处理,但仍存在数据泄露的风险。如何在不暴露银行客户信息的基础上完成数据核验是当前银行所关注的重要问题。作为隐私计算的一种关键技术,隐私查询可以在保证不泄露查询方查询关键词隐私信息的情况下,为查询方提供相应的检索结果;此外,查询方也无法获知数据方除结果外的其他敏感数据信息,从而为业务双方提供双向的隐私保护。基于隐私查询的身份核验整体流程为:首先查询方基于隐私加密组件将客户敏感的三要素信息进行加密干扰,同时对数据方(如运营商侧)的原始数据进行预处理以构建加密索引;之后基于三要素密文混淆后向数据方发起查询请求,并基于密码协议执行交互运算,运营商等数据方仅能定位为候选子集,并返回子集的查询结果,而无法准确获知查询方具体的查询对象;最后,查询方通过隐私加密组件恢复目标数据并完成三要素匹配返回客户。在这一过程中,查询方除获知待查询的三要素匹配情况外无法获得数据方其他敏感信息。通过密流安全计算平台提供的隐私查询技术实现身份核验方案,可以保证查询方(如银行)在完成客户身份核验的前提下,无需暴露客户信息,增强了业务合规性;而在数据方侧,用户的三要素信息被缓存的可能性降低,增强了业务安全性。基于隐私查询的身份核验解决方案可以在保证用户信息安全的前提下,赋能银行业务的数字和信息化,促进数据价值的流通和放大。3.2智能营销案例联邦学习是多方安全计算技术与机器学习的结合,也是隐私计算重要的组成部分,其核心是实现在机器学习的过程中各参与方可借助其他方数据进行联合建模,而无需共享数据资源即可进行数据联合训练,输出共享的机器学习模型。电信5GPLUS用户权益推广系统是联邦学习在智能营销中的典型应用案例。本应用案例从大数据精准营销的角度进行电信5GPLUS权益用户推广,以实现目标客户群筛选和意向客户高效触达,系统架构如图2所示。运营商作为标签拥有方,在推广过程中,由其提供一定时间范围内购买5GPLUS用户的标签信息,以及提供用户行为、兴趣等特征进行模型训练。底层通过对交互的标签、特征、梯度等数据进行诸如同态加密、秘密分享等密码学处理,可以在保证密文接收方或外部第三方多项式时间内无法恢复明文的基础上直接基于密文进行计算并获得正确的计算结果。训练完成后,将新的时间范围内的用户购买行为输入给模型,查看评分在指定阈值的覆盖度,以此检验另一方数据与购买行为的关联度。此外,基于联邦学习的建模方式也可以以先用后买的模式解决假数据的问题,不仅为后续各参与方达成商务合作意向奠定基础,也在保障合规性的基础上提升5G权益用户推广效果。4显而兴起,从“显而兴起”到“显而兴起”多方安全计算技术在学术界已研究多年,但隐私计算在行业内还是随着近年来数据安全问题的凸显而真正兴起。作为一门新兴技术,在应用落地过程中必然面临各种挑战,包括从观念上如何普及隐私计算的协作模式,以及从行规上如何完善相关标准,而从技术的角度,如何平衡安全性和性能使之满足业务需求,如何在多方使用不同的隐私计算平台时实现互联互通,都是亟待解决的问题。4.1异构平台的顶层设计要求随着隐私计算技术逐渐被行业认可,越来越多的厂商投身于隐私计算平台的研发中。由于整体技术系统处于发展初期,仍缺乏相关的行业技术标准,异构的隐私计算平台间难以互联互通,极大阻碍了隐私计算技术的能力释放,制约了数据价值的进一步提升。异构隐私计算平台对接的难点除了各公司技术实现方式不同外,核心问题在于缺乏统一的标准,主要包括底层不同的通信协议、身份认证机制、密码算法及其安全强度;算法层中安全多方计算与联邦学习方案设计与实现方式的差异;以及应用层接口调用、任务调度方式等。因此,技术人员需从架构、算法、资源与任务管理调度等各方面进行统筹考虑,实现从节点发现、身份认证、资源输入、资源授权、任务发起、任务执行、结果输出的跨平台全流程协同,最终达到在异构平台之上的联合任务执行。目前,隐私计算的行业各方都在积极地探索高效的解决方案,以打破异构平台对接壁垒、促进各企业机构间合作、助力隐私计算技术的行业应用落地并提升数据价值。中国信息通信研究院围绕隐私计算跨平台互联互通标准的制定,已组织隐私计算联盟、大数据技术标准推进委员会TC601各成员单位进行了相关工作的研究探讨。4.2隐私计算模式PrivTorrent密流安全计算平台已实现包括隐私查询、可信数据分析、联邦学习、可信执行环境等多类型隐私计算模式。此次与FATE隐私计算平台的异构对接,主要围绕MPC算法中的安全求交集和联邦学习算法中的逻辑回归进行构建,分别基于轻量化中间件和区块链构建了可行解决方案,以期以对各平台最小改动的代价满足“低耦合、可复制、易扩展”的异构互通基本需求(见图3)。4.2.1基于中间件的任务互融互通如果将隐私计算平台从下到上划分为基础层、数据层、算法层和应用层,那么对于异构平台的互联互通,需要针对各个层面分别进行对齐考虑(见图4)。(1)对于基础层,应主要考虑通信协议的统一;此外,任务调度/任务状态也应同步。(2)对于数据层,应保证各方数据加密机制、安全参数等一致,统一加解密和交换顺序标准。(3)对于算法层,重点应保证算法协议的统一。(4)对于应用层,需使各方算法应用参数设置相同。在PrivTorrent密流安全计算平台与FATE系统对接过程中,完成了上述4个层面的全面协同。PrivTorrent密流安全计算平台支持包括RSA、SM2在内的多种安全求交算法,以及“有”或“无”协调方的逻辑回归算法,进一步促进了与FATE算法层的打通。利用轻量化中间件以及消息队列实现的任务事件转发与任务状态的同步,贯穿于隐私计算任务的各个交互阶段。在部署模式上,中间件可以部署在异构互通平台的任何一侧,也可以部署在其他可信节点上,且对原生异构平台不存在改动。概括来说,PrivTorrent密流安全计算平台实现的中间件的主要功能包括三个方面。算法数据报文重构:尽管算法的协议流程一致,不同的隐私计算平台对算法报文的设计也不同,因此中间件必须能够对报文进行重构转换,适配不同的隐私计算平台。任务事件转发:任务事件转发功能需要支持成功识别其他平台的节点的功能,即实现数据的跨平台路由。任务状态同步:跨平台任务协同的一个关键点在于同步任务状态,由于不同平台对计算任务的处理方式不同,状态划分也有区别,中间件在重构任务事件的同时,需要有效地支持跨平台的任务状态转化。中间件的使用可在异构隐私计算平台间建立互通桥梁,且基于中间件的互通方式,可将对各平台原生框架的改动量降到最小,便于扩展为多种隐私计算平台的对接,具有较好的通用性。基于中间件的隐私求交PSI互通支持从FATE侧或密流侧分别发起任务,只需修改中间件的配置文件即可。可以看出,从开始的Host与Guest的公钥同步,到中间过程的数据段的同步,均可以利用中间件将数据转化为对方平台所需要的格式。也即在统一算法协议流程的前提下,除了成功地识别并将相应的任务事件路由至异构平台节点外,中间件还负责报文数据内容与格式的转化。与PSI任务相同,基于中间件的异构对接并不限定任务的发起方,即任何一方均可以按照自己平台原生的方式发起任务。因此,从节点自身的角度来看,中间件完全透明,节点如同与部署同样隐私计算平台的节点进行任务交互状态一致。4.2.2隐私计算节点不同产品的异构平台互通,涉及到诸多标准的统一。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,具有防篡改、追踪溯源、公开透明的特性。而智能合约则是基于链上可信的不可篡改的数据执行模式,可自动化执行预先定义好的规则和逻辑。在实践中间件的异构对接方案外,还基于区块链技术,融合智能合约机制构建更加灵活的异构平台互通策略。基于区块链的解决方案具有以下优势。(1)通过区块链技术的智能合约机制,有效实现链上交互标准的统一。(2)通过对区块链的访问,达到底层通信的统一。(3)通过对智能合约的访问,将不同的报文内容按照过程数据、任务状态和执行结果进行分类,基于智能合约轻量级的数据结构,可较快地完成数据层、算法层和应用层的对接。(4)结合区块链的特性,可对链上完成的计算任务进行审计溯源。计算节点在逻辑上可以按照角色分为发起方、数据方、算法方和结果方。多个隐私计算参与方的计算节点则组成了隐私计算网络。多方在约定计算场景、数据集后可由发起方作为任务的需求方发起任务,数据方收到任务后按约定的计算协议协同计算。与此同时,提供分布式账本功能的区块链节点构成了区块链网络,作为提供区块链服务能力的参与方,提供链上合约执行、数据存储、验证及多方共识服务,基础框架如图5、图6所示。隐私计算节点通过调用区块链节点智能合约的SDK,完成对智能合约接口的调用和事件的监听。数据方将自有数据资源接入隐私计算节点,隐私计算节点将数据格式、创建时间、数据描述等非隐私属性信息进行上链,并通过智能合约对数据属性信息进行更新和授权,使参与方可以查看和使用数据资源,方案整体流程如下。(1)发起方作为任务的需求方启动计算任务,通过智能合约下发任务。(2)参与方监听到任务事件后进行协同计算,按照算法的计算逻辑执行,并将执行过程的数据通过智能合约下发,各参与方通过监听合约事件和调用合约接口进行协同计算。(3)结果方(不同角色可以是相同节点)通过智能合约汇总计算的执行状态和中间结果,完成本次计算任务。在基于区块链的方案中,智能合约扮演核心角色(见图7),其主要功能如下。(1)支持任务的创建和停止。在任务创建过程中支持对参与方数据集的选择、算法选择及其参数设置;在计算的过程中对过程事件按照算法数据、状态数据和结果数据等进行区分。(2)支持隐私计算多任务并行执行,通过设定优先级对任务进行统一管理和调度。(3)支持隐私任务状态监控,在任务异常时进行中断或者通过指示位设置主动中断。(4)支持对数据选择和协同计算的全流程权限控制,各参与方在智能合约中以公钥地址作为身份标识,通过白名单限制进行数据的使用授权,对没有授权的用户无法选择对应的数据源创建任务;发起任务后,通过授权的参与方可以上传计算过程中需要交互的数据;任务结束后,任务的结果仅允许结果方汇总,非结果方无法直接查看和反推计算结果。基于区块链技术的联邦学习异构平台互通方案,在降低工作量的同时又具有可扩展性:对新的隐私计算平台的加入可以利用现有的智能合约SDK完成上链操作,仅需要更新智能合约的计算协议部分。此外,基于智能合约机制,链上交互标准统一、基础设施完善,能够较快完成跨平台互通。结合区块链的特性,可以有效实现隐私计算任务的链上审计和溯源。4.3通过“区块链+”技术实现征信链跨界协同治理在目前的征信系统中,信用评价多采用“孤岛”模式,数据分散在不同的征信机构或数据商中,各方往往仅基于自有数据进行信用建模,互相缺少互联互通,数据利用率低,模型精准度不足。若要发挥数据的最大价值,基于丰富的各方数据以实现精准的信用评价,必须进行有效的数据融合。为了提升数据利用率并保证隐私安全,利用联邦学习等隐私计算技术,在多方数据明文不出本地的情况下,使参与方借助其他方数据联合建模并输出共享的信用评价模型,对于最大化数据价值,实现精准的信用评估具有重要意义。同时,融合区块链技术,利用区块链的不可篡改、可验证、可追溯等特性,将区块链作为价值传递媒介,可为隐私计算提供授权、监管、溯源能力。因此,围绕“隐私计算”+“区块链”打造安全可信的闭环征信链系统,可以有效地促进区域信用一体化建设。由于隐私计算平台众多且具有异构性,当征信链系统中各个金融机构、征信机构部署不同的隐私计算平台时,如何互联互通就成为制约征信链生态构建的瓶颈。利用本文提出的基于中间件或区块链的跨平台互通方案,可以有效地解决隐私计算在征信链场景应用时的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《无套利分析方法》课件
- 《起搏器的程控随访》课件
- 《核型与带型分析》课件
- 《零售巨头沃尔玛》课件
- 《试验设计原理》课件
- 企业标准体系实施指南-我国企业管理的现状分析
- 2025年郑州道路运输从业资格证
- 心理护理干预对老年慢性心力衰竭合并糖尿病患者认知功能障碍的影响
- 周会展望与回顾模板
- 探索抗癌新篇章
- (2024年)剪映入门教程课件
- 《宠物饲养》课程标准
- 快餐品牌全案推广方案
- IT总监年终述职报告
- 环境卫生整治推进行动实施方案
- 口腔医院感染预防与控制1
- 2024年同等学力英语真题解析
- 2023年中考英语二轮复习:动词的时态(附答案解析)
- 绪论中国文化概论张岱年
- 发生输液反应时的应急预案及处理方法课件
- 中国旅游地理(高职)全套教学课件
评论
0/150
提交评论