数据安全 课件 专题6-数据隐私保护技术_第1页
数据安全 课件 专题6-数据隐私保护技术_第2页
数据安全 课件 专题6-数据隐私保护技术_第3页
数据安全 课件 专题6-数据隐私保护技术_第4页
数据安全 课件 专题6-数据隐私保护技术_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据安全》【第六章数据隐私保护技术】本章要点【第六章数据隐私保护技术】目的与要求:了解隐私保护的基础知识;了解几种常见的隐私保护技术,包括基于限制发布的技术、基于数据加密的技术、基于数据失真的技术等;了解大数据隐私保护相关的内容以及区块链技术与AI数据脱敏在隐私保护中的应用。

重点与难点:隐私保护的基础知识(重点)基于限制发布的技术(重点)基于数据加密的技术(难点)基于数据失真的技术(难点)区块链技术(难点)AI数据脱敏(难点)本章要点

6.1案例6.2隐私保护的基础知识6.3基于限制发布的技术6.4基于数据加密的技术6.5基于数据失真的技术6.6区块链技术6.7AI数据脱敏【第六章数据隐私保护技术】案例【

案例1:数据匿名化--K-anonymity】案例描述:在医疗数据发布之前,为了防止用户隐私泄露,委员会对数据进行了匿名化处理,即删除了所有的敏感信息,如姓名、身份证号和家庭住址等。然而,来自X国W大学的密码专家M成功破解了这份匿名化处理后的医疗数据,能够确定具体某一个人的医疗记录。匿名医疗数据虽然删除了所有的敏感信息,但仍然保留了三个关键字段:性别、出生日期和邮编。密码专家M同时有一份公开的X国民主投票人名单(被攻击者也在其中),包括投票人的姓名、性别、出生年月、住址和邮编等个人信息。他将两份数据进行匹配,发现匿名医疗数据中与被攻击者生日相同的人有限,而其中与被攻击者性别和邮编都相同的人更是少之又少。由此,密码专家M就能确定被攻击者的医疗记录。密码专家M进一步研究发现,80%以上的X国公民拥有唯一的性别、出生日期和邮编三元组信息,同时发布事实上几乎等同于直接公开。进行2-K匿名化处理原始医疗数据,每一条记录对应一个唯一的病人,其中{"姓名"}为标识符属性,{"肤色","年龄","性别","邮编"}为准标识符属性,{"疾病"}为敏感属性。K-匿名实现了同一等价类内记录之间无法区分(敏感属性值除外)。匿名化后的表中的每个序列值在表中至少出现k次(k>1)案例案例解析链式攻击1某些数据集存在其自身的安全性,即孤立情况下不会泄露任何隐私信息,但是当恶意攻击者利用其他存在属性重叠的数据集进行链接操作,便可能唯一识别出特定的个体,从而获取该个体的隐私信息。【

案例1:数据匿名化--K-anonymity】将医疗信息和选民信息结合在一起,能够发现两个数据集的共有属性(性别、生日、邮编等),这样恶意攻击者通过链接攻击能够轻易确定选举人的医疗信息情况,因此该类攻击手段会造成极其严重的隐私泄露。案例案例解析公共属性分类2标识符(Keyattributes)一般是个体的唯一标示,比如说姓名、地址、电话等等,这些内容需要在公开数据的时候删掉。【

案例1:数据匿名化--K-anonymity】准标识符(Quasi-identifier)敏感属性(Sensitiveattributes)类似邮编、年龄、生日、性别等不是唯一的,但是能帮助研究人员关联相关数据的标示。敏感数据,比如说疾病、购买偏好、薪水等等,这些数据是研究人员最关心的,所以一般都直接公开。案例案例解析k-匿名(k-anonymity)3k-anonymity的目的是保证公开的数据中包含的个人信息至少k-1条不能通过其他个人信息确定出来。也就是公开数据中的任意Quasi-identifier信息,相同的组合都需要出现至少k次。假设一个公开的数据进行了2-anonymity保护。如果攻击者想确认一个人(小A)的敏感信息(购买偏好),通过查询他的年龄、邮编和性别,攻击者会发现数据里至少有两个人是有相同的年龄、邮编和性别。这样攻击者就没办法区分这两条数据到底哪个是小A了,从而也就保证了小A的隐私不会被泄露。k=2k-anonymity攻击者无法知道某个人是否在公开的数据中;给定一个人,攻击者无法确认他是否有某项敏感属性;攻击者无法确认某条数据对应的是哪个。【

案例1:数据匿名化--K-anonymity】能保证以下三点案例【

案例2:数据匿名化--L-diversity】案例描述:X国研究人员在案例1的K-匿名基础上引入多样化的概念,采取L-多样性(L-diversity)原则。L-diversity保证每一个等价类的敏感属性至少有L个不同的值,L-diversity使得攻击者最多以1/L的概率确认某个体的敏感信息。简单来说,在公开的数据中,对于那些准标识符(Quasi-identifier)相同的数据中,敏感属性必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。案例案例解析同质攻击1当通过链接攻击仍然无法唯一确认个体,但是却存在个体对应的多条记录拥有同一个敏感隐私信息,从而造成隐私的泄露,称这一过程为同质攻击。【

案例2:数据匿名化--L-diversity】背景知识攻击2如果攻击者掌握了某个体的某些具体信息,通过链接攻击后即使只能得到某个体对应的多条信息记录,并且记录间的敏感属性也完全不同或不相似,但攻击者却能够根据所掌握的背景知识,从多条信息记录中找出唯一对应的信息记录,从而获取到该个体的隐私信息。案例L-diversity的定义3L-多样化主要指的是在公开的数据中,对于那些包含相同数据的准标识符的数据,敏感数据必须具有多样化。案例解析有10条相同的类型的数据,其中8条的购买偏好是电子产品,其他2条分别是图书和家用电器。那么在这个例子中,公开的数据就满足3-diversity的属性。【

案例2:数据匿名化--L-diversity】l基于概率的L-多样化(probabilisticl-diversity):在一个类型中出现频率最高的值的概率不大于1/L。l基于墒的L-多样化

(entropyl-diversity):在一个类型中敏感数据分布的墒至少是

log(l)。l递归

(c,l)-diversity(recursive(c,l)-diversity):简单来说就是保证最经常出现的值的出现频率不要太高。案例L-diversity的局限性4敏感属性的性质决定即使保证了一定概率的多样性也很容易泄露隐私。案例解析例如,医院公开的艾滋病数据中,敏感属性是“艾滋病阳性”(出现概率是1%)和“艾滋病阴性”(出现概率是99%),这两种值的敏感性不同,造成的结果也不同。(1)有些情况下L-diversity是没有意义的:比如说艾滋病数据的例子中仅含有两种不同的值,保证2-diversity也是没有意义的。(2)L-diversity很难达成:例如,想在10000条数据中保证2-diversity,那么可能最多需要10000*0.01=100个相同的类型。(3)偏斜性攻击(SkewnessAttack):假如要保证在同一类型的数据中出现“艾滋病阳性”和出现“艾滋病阴性”的概率是相同的,我们虽然保证了diversity,但是泄露隐私的可能性会变大。因为l-diversity并没有考虑敏感属性的总体的分布。【

案例2:数据匿名化--L-diversity】通过小六的信息从公开数据中关联到了两条信息,通过这两条信息能得出两个结论。第一,小六的工资相对较低;第二,小六喜欢买电子电器相关的产品。案例【

案例3:数据匿名化--T-closeness】案例解析案例2最后一个问题就引出了T-closeness的概念,T-closeness是为了保证在相同的准标识符Quasi-identifier类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近(close),不超过阈值t。如果刚才的那个数据保证了T-closeness属性,那么通过小六的信息查询出来的结果中,工资的分布就和整体的分布类似,进而很难推断出小六工资的高低。如果保证了K-anonymity,L-diversity和T-closeness,隐私就不会泄露了么?保证了2-anonymity,2-diversity,t-closeness(分布近似),工资和购买偏好是敏感属性。攻击者通过小六的个人信息找到了四条数据,同时知道小六有很多书,这样就能很容易在四条数据中找到小六的那一条,从而造成隐私泄露。

知识点【隐私保护】【第六章数据隐私保护技术】隐私保护相关的各类场景说明知识点【隐私保护】【第六章数据隐私保护技术】数据隐私保护方法分析知识点【数据脱敏技术】【第六章数据隐私保护技术】数据脱敏是通过脱敏规则对某些敏感信息进行数据的变形,实现对个人数据的隐私保护。使用标准的加密算法,使加密后得数据完全失去业务属性,这种方法属于低层次脱敏,算法开销大,适用于机密性要求高、不需要保持业务属性的场景。基于数据失真的技术加密方法最常用的是随机干扰、乱序等,是不可逆算法,通过这种算法可以生成“看起来很真实的假数据”,以此来达到对个人数据的保护,该方法适用于群体信息统计或需要保持业务属性的场景。这种方法兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。可逆的置换算法知识点【基于限制发布的技术】【第六章数据隐私保护技术】收集和共享个人数据引发了个人隐私的担忧。针对这个问题,目前的解决方法主要采用基于限制发布的技术,包括匿名化处理和公布不完全的数据集。数据匿名化算法可以实现根据具体情况有条件地发布部分数据,或者数据的部分属性内容,包括差分隐私(Differentialprivacy)、K匿名(K-anonymity)、L多样化(L-diversity)、同态加密(Homomorphicencryption)等。k-anonymityExplicitidentifier:表示个体的唯一标示,比如姓名(如小红、小明)等具有唯一标示型的内容,在公开数据的时候需要对这些内容进行删除。Quasi-identifiers:包括邮编、年龄、性别等非唯一,但是可以帮助研究人员对相关数据进行关联的标示。Sensitiveattributes:表示敏感但并不能直接得到用户信息的数据,比如用户购买偏好(如电子产品,护肤品)等,这些数据是研究人员最关心的,但并不能通过其直接得到用户的信息,所以一般都直接公开。K匿名化方法主要有两种操作策略。第一种是将某些敏感数据对应的数据列删除,用星号(*)代替。另外一种方法是用概括的方法对信息进行整合,使之无法区分,比如把年龄修改为所在的年龄段。知识点L-diversity【例6-1】一个简单的隐私泄露案例。小王去电影院看电影,在买票前,某影片的售卖票数是100张,而小红买票后,该影片的售卖票数变成了101,那么就有很大的概率推测小王看的电影与小红是同一部。这样就会导致小王的隐私遭到了泄露。【基于限制发布的技术】【第六章数据隐私保护技术】L多样化主要指的是在公开的数据中,对于那些包含相同数据的Quasi-identifiers(非唯一性标示)数据,敏感数据必须具有多样化。需要保证相同类型数据中至少有L

种内容不同的敏感属性,这样才能保证确保用户信息不能通过背景知识或其他方法推断得出。知识点differentialprivacy差分隐私差分隐私主要用于防止差异攻击。简单来说,差分隐私是一种确保在同一组数据中查询100条信息的结果和查询99条信息结果相同的方法。因为查询得到的结果相对一致,因此攻击者无法仅仅比较差异来进行差异攻击。【基于限制发布的技术】【第六章数据隐私保护技术】假设有一个表A,在对它做一定的扰动后得到A1,而后在去掉表A中的某一行构成表B,在对表B做一个扰动得到B1,如果在数学意义上,表A1和表B1完全相同,这样就可以做到隐私保护了。知识点【基于数据加密的技术】【第六章数据隐私保护技术】(SecurityMulti-PartyComputation,SMC)众多分布环境下基于隐私保护的数据挖掘应用都可以抽象为无信任第三方(trustedthirdparty)参与的安全多方计算(SecurityMulti-PartyComputation,SMC)问题。分布式匿名化安全多方计算匿名化即是隐藏数据或数据来源。因为对大多数应用而言,首先需要对原始数据进行处理以保证敏感信息的安全;然后再在此基础上,进行数据挖掘、发布等操作。由于多数SMC基于“准诚信模型”假设之上,因此应用范围有限。SCAMD(SecureCentralizedAnalysisofMulti-partyData)协议在去除该假设基础上,引入准诚信第三方实现当站点都是恶意时进行安全多方计算即怎样使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果。两个站点S1和S2,它们拥有的数据分别为{ID,A11,A12,…,A1n1},{ID,A21,A22,…,A2n2}。其中Aij为Si拥有数据的第j个属性。利用可交换加密在通信过程中隐藏原始信息,再构建完整的匿名表判断是否满足k-匿名条件来实现。以在垂直划分的数据环境下实现两方的分布式k-匿名为例。知识点【基于数据加密的技术】【第六章数据隐私保护技术】在分布式环境下,关联规则挖掘的关键是计算项集的全局计数,加密技术能保证在计算项集计数的同时,不会泄露隐私信息。分布式聚类分布式关联规则挖掘基于隐私保护的分布式聚类的关键是安全地计算数据间的距离(1)Naïve聚类模型。各个站点将数据用加密方式安全地传递给信任第三方,由信任第三方进行聚类后返回结果。(2)多次聚类模型。首先各个站点对本地数据进行聚类并发布结果,再通过对各个站点发布的结果进行二次处理,实现分布式聚类。知识点【基于数据失真的技术】【第六章数据隐私保护技术】数据失真技术通过扰动(perturbation)原始数据来实现隐私保护。它要使扰动后的数据同时满足:(1)攻击者不能发现真实的原始数据。攻击者通过发布的失真数据不能重构出真实的原始数据。(2)失真后的数据仍然保持某些性质不变。利用失真数据得出的某些信息等同于从原始数据上得出的信息。这就保证了基于失真数据的某些应用的可行性。随机化数据随机化即是对原始数据加入随机噪声,然后发布扰动后数据的方法1.随机扰动2.随机化应答随机扰动过程重构过程数据所有者对原始数据扰动后发布,使攻击者不能以高于预定阈值的概率得出原始数据是否包含某些真实信息或伪信息。虽然发布的数据不再真实,但在数据量比较大的情况下,统计信息和汇聚(aggregate)信息仍然可以较为精确地被估算出。知识点【基于数据失真的技术】【第六章数据隐私保护技术】阻塞与凝聚它将原始数据记录分成组,每一组内存储着由k条记录产生的统计信息,包括每个属性的均值、协方差等。这样,只要是采用凝聚技术处理的数据,都可以用通用的重构算法进行处理,并且重构后的记录并不会披露原始记录的隐私,因为同一组内的k条记录是两两不可区分的。1.凝聚技术2.阻塞技术阻塞技术采用的是不发布某些特定数据的方法,因为某些应用更希望基于真实数据进行研究。阻塞技术具体反应到数据表中,即是将某些特定的值用一个不确定符号代替。例如通过引入除{0,1}外的代表不确定值的符号“?”可以实现对布尔关联规则的隐藏。由于某些值被“?”代替,那么对某些项集的计数则为一个不确定的值,位于一个最小估计值和最大估计值范围内。数据采集过程中对隐私的侵犯1用户在上网过程中的每一次点击,录入行为都会在云端服务器上留下相应的记录,特别是在现今移动互联网智能手机大发展的背景下,我们每时每刻都与网络连通,同时我们也每时每刻都在被网络所记录,这些记录被储存就形成了庞大的数据库。知识点【大数据隐私威胁】【第六章数据隐私保护技术】数据存储过程中对隐私的侵犯2互联网运营服务商往往把他们所采集的数据放到云端服务器上,并运用大量的信息技术对这些数据进行保护。账户劫持、攻击、身份伪造、认证失效、密匙丢失等都可能威胁用户数据安全。数据使用过程中对隐私的侵犯3联网运营服务商采集用户行为数据的目的是为了其自身利益,因此基于对这些数据分析使用在一定程度上也会侵犯用户的权益。知识点【大数据隐私威胁】【第六章数据隐私保护技术】数据销毁过程中对隐私的侵犯4由于数字化信息低成本易复制的特点,导致大数据一旦产生很难通过单纯的删除操作彻底销毁,它对用户隐私的侵犯将是一个长期的过程。一是数据收集缺乏针对性,容易导致广泛、不合理、过度收集信息数据,常常通过覆盖面很广的信息收集和分析后才能找出其中有价值的信息,在此过程中很难避免不触碰到一些隐私数据。二是信息数据多种多样,如智能终端、智能手环、物联网、位置导航等个人端产生的海量信息,这些开放、分散的数据实时接入网络,管理员很难像传统互联网管理一样逐一对其编辑和管理,进行实时跟踪保护。三是开源的开发环境、频繁的迭代升级、轻量化的快速部署和规模复制、分布式和非关系型数据存储,容易使企业在源头上忽视信息安全问题。四是在数据进行分析利用后,往往将大量的看似无价值、碎片化的信息数据随意丢弃,容易导致被其他企业甚至不法分子进行广泛收集和合成分析后变成其所用的高价值数据。五是大数据集群保障了快速的处理特点,但其自我组织性和自由开放性使用户与多个数据节点同时通信互联,容易导致数据节点被渗透、被攻击,甚至产生数据泄露事件。知识点【大数据独特的隐私问题】【第六章数据隐私保护技术】大数据具备数据体量大、数据类型繁多、价值密度低和处理速度快四大特点知识点【大数据安全对策措施】【第六章数据隐私保护技术】大数据安全对策措施:加强信息保护,要完善现有法律法规加强信息保护,要加大对信息源头的监管加强信息保护,要提高公众的自我保护意识知识点【区块链】【第六章数据隐私保护技术】区块链与隐私保护区块链具有去中心化、信息不可篡改、数据公开透明等基本特点以及共识机制、智能合约、非对称加密三大保障机制。区块链技术可利用去中心化存储策略,将安全信息存放到网络节点中,同时将流程管理信息以云端开放的方式分而治

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论