大数据隐私保护技术之脱敏技术_第1页
大数据隐私保护技术之脱敏技术_第2页
大数据隐私保护技术之脱敏技术_第3页
大数据隐私保护技术之脱敏技术_第4页
大数据隐私保护技术之脱敏技术_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据隐私保护技术之脱敏技术标准化文件发布号:(9456EUATWKMWUBWUNNINNUL-DDQTY-KII大数据隐私保护技术之脱敏技术数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对 称加密、数据脱墩、同态加密、访问控制、安全审计和备份恢复等。他们对数 据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。:FreeBuf |2016-11-22 09:40收蔽分享前言这儿天学校开始选毕业设计,选到了数据脱敬系统设计的题11,在阅读了该方 面的相关论文之后,感觉对大数据安全有了不少新的理解。介绍随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时

2、也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敬感信息不被泄露。数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对 称加密、数据脱敬、同态加密、访问控制、安全审讣和备份恢复等。他们对数 据的保护各自有各自的特点和作用,今天我主要说数据脱敬这一防护手段。许多组织在他们例行拷贝敬感数据或者常规生产数据到非生产环境中时会不经 意的泄露信息。例如:1大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升 级,更新和修复。2在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需 要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏

3、。3.零售商将各个销售点的销售数据与市场调查员分事,从而分析顾客们的购物 模式。4药物或者医疗组织向调查员分事病人的数据来评佔诊断效果和药物疗效。结果他们拷贝到非生产环境中的数据就变成了黑客们的LI标,非常容易被窃取 或者泄露,从而造成难以挽回的损失。数据脱敬就是对某些敏感信息通过脱敬规则进行数据的变形,实现敬感隐私数 据的可靠保护。在涉及客户安全数据或者一些商业性敬感数据的情况下,在不 违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手 机号、卡号、客户号等个人信息都需要进行数据脱敬。数据脱敏系统设计的难点许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敬感信息从非生

4、 产环境中移除看起来很容易,但是在很多方面还是很有挑战的。首先遇到的问题就是如何识别敬感数据,墩感数据的定义是什么有哪些依赖应 用程序是十分复杂并且完整的。知道敬感信息在哪并且知道哪些数据参考了这 些墩感数据是非常困难的。敬感信息字段的名称、敬感级别、字段类型、字段长度、赋值规范等内容在这 一过程中明确,用于下面脱敏策略制定的依据。一旦敬感信息被确认,在保持应用程序完整性的同时进行脱敬的方法就是最重 要的了。简单地修改数值可能会中断正在测试,开发或升级的应用程序。例如 遮挡客户地址的一部分,可能会使应用程序变得不可用,开发或测试变得不可 靠。脱敬的过程就是一个在安全性和可用性之间平衡的过程。安

5、全性是0%的系统 中,数据不需要进行脱敬,数据库中都是原来的数据,可用性当然是100%;安 全性是100%的系统中,大概所有的数据全都存一个相同的常量才能实现。所以需要选择或设计一种既能满足第三方的要求,乂能保证安全性的算法就变 得特别重要了。选定了敬感数据和要施加的算法,剩下的就是如何实现了,在什么过程中进行 脱敏呢难题的解决方案1如何识别敏感数据现在有两种方式来识别墩感数据。第一种是通过人工指定,比如通过正则来指 定敬感数据的格式,Oracle公司开发的Oracle Data Masking Pack中就使用了这 一种方法来指定。Create Sensitive Column TypeCR

6、fiTT_CAR£)JMUM88laedit ord nunter GOkm. Samples; 5199123-123 1234,37-123456.78Wm 123456780-1234S67SeatehCobmnName CRB)n.CARD. *;CARDNUNBER. ;CCN. *;CRa>IT CARD.-CRSJnCAAD.;ARDJ4JMBER.«;CO4.B;CRH>TrCARD严CommentCoUnnDMa "(0(4).叽4)铲(郁羽)祜U9(W2)(6011»RfM就。?网«圧血Search Type Q

7、 Or And第二种方式就是自动识别了,在文献2中,作者给出了基于数据特征学习以及 自然语言处理等技术进行敬感数据识别的自动识别方案(没有具体的实现,只提出 了模型)。具体的实现在gay hub上找了一个java实现的工程,chlorine-finder,看了下源码 具体原理是通过提询预置的规则来识别一些常见的敬感数据,比如信用卡号, SSN,手机号,电子邮箱,IP地址,住址等.2使用怎样的数据脱敏算法在比较常见的数据脱敬系统中,算法的选择一般是通过手1:指定,像Oracal的 数据脱敬包中就预设了关于信用卡的数据选择什么算法进行处理,关于电话的 数据怎么处理,用户也可以进行自定义的配置。i

8、FlMetDectTiOf*DmovodaBe >0bg C<d rwearteCri Cr«dt Jdg宀CMWT.aWkMW*U bloA <x*CMS &KOv CWcardMMrCvC Ovdt 5CMtkwOTOT.CMDw»77jroni5« 10 Mon uRM MMCM 0( OOCMrMWmmart rwenOWK GreM CWOlflrMWCMDn.CUCDjCMER5SM00M»lS&32tObAo sZKke QenexgvH «wrterioCmntOcetCrtfMrarHwnKi

9、CXMttvCRffifT.CMOJCMtRa 10 bftan sm warenei03C II II A(crvrnn ww«tfCHmntf>*MrKe MrtievOmtkW90CUC mjrjvo-1 Kon tr«Qur CRKtan Sco kvuranic* Mecn*脱敬方法现在有很多种,比如k匿名,L多样性,数据抑制,数据扰动,差分 隐私等。k匿名:匿名化原则是为了解决链接攻击所造成的隐私泄露问题而提出的。链接攻击是 这样的,一般企业因为某些原因公开的数据都会进行简单的处理,比如删除姓 名这一列,但是如果攻击者通过对发布的数据和其他渠道获得的信息进

10、行链接 操作,就可以推理出隐私数据。Ethnicity/ NameVisit date/RacAAddressDiagnosis (Birth)DateProcedureregistedMedicationZip/PartyTotal charge/affiliationMedical DataVoter List图1链接攻击示例k-匿名是数据发布时保护私有信息的一种重要方法。k-匿名技术是1998年山 Samarati和Sweeney提出的,它要求发布的数据中存在至少为k的在准标识符上 不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人 隐私,k-匿名通过参数k指定用户

11、可承受的最大信息泄露风险。但容易遭受同质性攻击和背景知识攻击。L多样性L多样性是在k-匿名的基础上提出的,外加了一个条件就是同一等价类中的记 录至少有L个“较好表现”的值,使得隐私泄露风险不超过1/L, ”较好表现“的意 思有多种设计,比如这儿个值不同,或者信息燔至少为logL等等.但容易收到相似性攻击。数据抑制数据抑制乂称为隐匿,是指用最一般化的值取代原始属性值,在k-匿名化中, 若无法满足k-匿名要求,则一般釆取抑制操作,被抑制的值要不从数据表中删 除,要不相应属性值用“ *”表示。1. »>s = ”CREDITCARD”>>> s-4:.rjust(l

12、en(s), H*,),*CARD,数据扰动数据扰动是通过对数据的扰动变形使数据变得模糊来隐藏敬感的数据或规则, 即将数据库D变形为一个新的数据库D以供研究者或企业查询使用,这样诸 如个人信息等敬感的信息就不会被泄露。通常,D,会和D很相似,从D,中可 以挖掘出和D相同的信息。这种方法通过修改原始数据,使得敬感性信息不能 与初始的对象联系起来或使得敬感性信息不复存在,但数据对分析依然有效。Python中可以使用faker库来进行数据的模拟和伪造。1. from faker import Factory2.2. fake = Factory.create()4.3. fake.country_c

13、ode()# 'GE'fake.city_name()# 溃阳 'fake.street_address()# '督路 I 座'fake.address()# '辉市哈路 b 座 176955'fake.state()# '南溪区'fake.longitude()# Decimal( -163.645749')fake.geo_coordinate(center=None, radius=0.001 )# Deci mal('90.252375')fake.city_suffix()# '市

14、'fake.latitude。# Decimalf- 4.0682855,)fake.postcode()# '353686'fake.building_number()# 'o 座 'fake.countryO# '维尔京群 *fake.street_name()#,姜路,相关技术有:一般化与删除,随机化,数据重构,数据净化,阻碍,抽样等。差分隐私差分隐私应该是现在比较火的一种隐私保护技术了,是基于数据失真的隐私保 护技术,釆用添加噪声的技术使敬感数据失真但同时保持某些数据或数据属性 不变,要求保证处理后的数据仍然可以保持某些统讣方面的性质,以便进行数 据挖掘等操作。差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出 结果,因此即使在最坏情况下,攻击者已知除一条记录之外的所有墩感数据, 仍可以保证这一条记录的敏感信息不会被泄露。想要体验的同学可以去Havard的Differential Privacy实验室,他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论