《数据安全法》时代浅谈数据脱敏_第1页
《数据安全法》时代浅谈数据脱敏_第2页
《数据安全法》时代浅谈数据脱敏_第3页
《数据安全法》时代浅谈数据脱敏_第4页
《数据安全法》时代浅谈数据脱敏_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据安全法》时代浅谈数据脱敏

使用数据脱敏技术,可以有效地减少敏感数据在采集、传输、使用等环节中

的暴露,降低敏感数据泄露的风险,尽可能降低数据泄露造成的危害。

2021年6月10日,《数据安全法》正式颁布,于2021年9月1日正式

施行,作为我国数据安全领域的首部基础法律,也是国家安全领域的一部重要

法律,标志着我国以数据安全保障数据开发利用和产业发展全面进入法治化轨

道。

一、背景由来

随着大数据时代的发展,数据信息已经成为了企业运行的重要资产。不同

企业之间相互共享数据、分析数据,进而开展相关业务。然而,一些企业在对

数据进行分析处理时,并没有对数据进行安全保护,导致数据存在泄露等风

险。安全研究中心PonemonInstitute和IBMSecurity联合发布的《2019

年数据泄露成本报告》中指出,超过100万条记录的泄露预计会给企业带来4

200万美元的损失。在这样的背景下,数据泄露可能造成的潜在危害,驱使国

家、行业、企业等各层面愈发重视数据安全问题。2021年6月10日,十三届

全国人大常委会第二十九次会议通过并正式发布的《数据安全法》,明确指出

数据安全需要通过必要措施,确保数据处于有效保护和合法利用的状态,以及

具备保障持续安全状态的能力。

作为数据安全中重要的一环,数据脱敏也逐渐被人们所关注。数据脱敏技

术是一种可以通过数据变形方式对于敏感数据进行处理,从而降低数据敏感程

度的一种数据处理技术。使用数据脱敏技术,可以有效地减少敏感数据在采

集、传输、使用等环节中的暴露,降低敏感数据泄露的风险,尽可能降低数据

泄露造成的危害。

二、脱敏技术

数据库安全>®。数据安全治理M@Q文档安全

加密传输加密传输整

输分类分级

数据全生命周期管控性

角色授权和

数据加密数据加密

场景安全采集、传输、加工抗

存储、使用、销毁抵

储运营优化

数据脱敏数据脱敏赖

区块链备份恢复数据水印数据溯源数据确权

安全发布数据产权

2.1隐私数据脱敏技术

通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,

每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类

型:

序类型性质例子

1可识别列可确切定位某个人的列身份证号,地址以

及姓名等

2半识别列单列并不能定位个人,但是多列信息可邮编号,生日及性

用来潜在的识别某个人别等

3用户敏感信息列包含用户敏感信息交易数额,疾病以

及收入等

4其他不包含用户敏_

感信息的列

2.2隐私数据风险泄漏模型

目前在隐私数据脱敏领域,有几个不同的模型可以用来从不同角度衡量数

据可能存在的隐私数据泄漏风险。

2.2.1K-Anonymity

隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者

无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个

人。攻击者可能通过其他方式获得特定个人的半标识列属性值,并与大数据平

台数据进行匹配,从而得到特定个人的敏感信息。

如表1所示,如果攻击者知道某用户的邮编和年龄,就可以得到该用户的

疾病敏感信息。

ZIPCodeAgeDisease

4767729HeartDisease

4760222HeartDisease

4767827HeartDisease

4790543Flu

4790952HeartDisease

4790647Cancer

4760530HeartDisease

4767336Cancer

4660732Cancer

表1原始信息

为避免这种情况的发生,通常需要对半标识列进行脱敏处理,如数据泛化

等。数据泛化是指将半标识列的数据替换为语义一致但更通用的数据,以上述

数据为例,对邮编和年龄泛化后的数据如表2所示。

ZIPCodeAgeDisease

476*2*HeanDisease

476*2*HeartDisease

476*2*HeartDisease

4790♦>40Flu

4790*>40HeartDisease

4790*>40Cancer

476*3*HeartDisease

476*3*Cancer

466*3*Cancer

表23-Anonymity病人信息

经过泛化后,有多条记录的半标识列属性值相同,所有半标识列属性值相

同的行的集合被称为相等集。如表2中1,2,3行是一个相等集,4,5,6行

也是一个相等集。

K-Anonymity定义如下:

K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不小于k,

即至少有k-1条纪录半标识列属性值与该条纪录相同。

表2中的数据是一个3-Anonymity的数据集。

作为一个衡量隐私数据泄露风险的指标,K-Anonymity可用于衡量个人标识泄

露的风险,理论上来说,对于K-Anonymity数据集,对于任意纪录,攻击者

只有1/k的概率将该纪录与具体用户关联。

2.2.2L-Diversity

L-Diversity可用于保护个人标识泄漏的风险,但是无法保护属性泄漏的风

险。对于K-Anonymity的数据集,攻击者可能通过同质属性攻击与背景知识

攻击两种方式攻击用户的属性信息。

1.同质属性攻击。对于表2半标识列泛化后的数据集,假如攻击者知道Bob

邮编为47677,年龄为29,则Bob一定对应于前面三条记录,从而可以确定

Bob有心脏病。

2.背景知识攻击。对于表2半标识列泛化后的数据集,假如攻击者知道Alice

邮编为47673,年龄为36,则Alice一定对应于后面三条记录,如果攻击者知

道Alice患有心脏病的几率很小,则能判断Alice很有可能患有癌症。

L-Diversity定义如下:

如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个"合适"

值,则称该相等集是满足L-Diversity。

基于表2的数据通过插入干扰记录,一个3-anonymity2-Diversity的数据集

如表3表7F:

ZIPCodeAgeDisease

476*2*HeartDisease

476*2*HeartDisease

476*2*HeartDisease

476*2*Flu

4790*>40Flu

4790*>40HeartDisease

4790*>40Cancer

476*3*HeartDisease

476*3*Cancer

466*3*Cancer

表33-Anonymity2-Diversity病人信息

相对于K-Anonymity标准,符合L-Deversity标准的数据集显著降低了

属性数据泄露的风险。对于满足L-Diversity的数据集,理论上,攻击者最多只

有1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。

2.2.3T-Closeness

直观来说,隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡

量。

假设攻击者在访问数据集之前已知的个人信息为B0,然后假设攻击者访问

所有半标识列都已移除的数据集,Q为数据集敏感数据的分布信息,根据Q,

攻击者更新后的个人信息为最后攻击者访问脱敏后的数据集,由于知道用

Blo

户的半标识列的信息,攻击者可以将某用户与某相等集联系在一起,通过该相

等集的敏感数据分布信息攻击者更新后的个人信息为

P,B2O

L-Diversity约束是通过约束P的diversity属性,尽量减少B0和B2之间

的信息量差距,差距越小,说明隐私信息泄露越少。T-Closeness约束则期望

减少B1和B2之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相

等集分布信息之间得到更多的个人隐私信息。

T-Closeness的定义:如果一个相等类的敏感数据的分布与敏感数据的全

局分布之间的距离小于T,则称该相等类满足T-Closeness约束。如果数据集

中的所有相等类都满足T-Closeness,则称该数据集满足T-Closeness。

T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联

系,减弱了半标识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的

分布信息进行属性泄露攻击的可能性。不过同时也肯定导致了一定程度的信息

丢失,所以管理者通过T值的大小平衡数据可用性与用户隐私保护。

2.3常见数据脱敏算法

K-Anonymity,L-Diversity和T-Closeness均依赖对半标识列进行数据变形处

理,使得攻击者无法直接进行属性泄露攻击,常见的数据变形处理方式如表

4:

名称描述示例

将数据替换成一个常量,常用作不需要该500—>0

Hiding

敏感字段时.635—>0

将数据映射为一个hash值(不一定是一一

Jim,Green—>4563934453

Hashing映射),常用作将不定长数据映射成定长

Tom,Cluz—>4334565433

的hash值。

将数据映射为唯一值,允许根据映射值找Smith—>Clemetz

Permutation

回原始值,支持正确的聚合或连接操作。Jones—>Spefde

为数量值增加一个固定的偏移量,隐藏数253—>1253

Shift

值部分特征.254—>1254

500—>25000

Enumeration将数据映射为新值,同时保持数据顺序.

400—>20000

Truncation将数据尾部截断,只保留前半部分。

Prefix-10.199.90.105—>10.199.32.12

保持IP前n位不变,混淆其余部分.

preserving10.199.90.106—>10.199.56.192

23454323—>234-23

Mask数据长度不变,但只保留部分数据信息.

14562334—>145—34

28—>20

Floor数据或是日期取整2013052012:30:45—>20130520

12:00:00

表4常用数据变形操作

此外,K-Anonymity,L-Diversity和T-Closeness约束可能还需要生成

干扰数据,敏感数据干扰项的生成策略与方法也是保证K-Anonymity,L-Dive

rsity和T-Closeness的重要条件,在这里篇幅有限,就不过多介绍。

三、主要应用

数据采集数据存储

数据使用数据销毁

数据采集

数据采集方

数据传编

数据使用

数据使用方

数据加工数据加工

随着互联网、云计算等信息技术与通信技术的迅猛发展,社会逐步进入了

数据时代。海量数据在各种信息系统上被存储和处理,其中包含大量有价值的

敏感数据。目前,大量敏感数据都存储在政府、企业或机构的数据平台中,基

于当前的法律法规,数据在进行采集、传输、交换和共享的过程中要采用必要

的手段防止数据泄露,保证数据安全。数据脱敏技术的应用目的主要包括两方

面:一是以保护敏感数据安全、实现合法合规为主要目的;二是在达到第一目

标的前提下,尽可能地保证数据可用性以及可挖掘价值。

数据脱敏技术通常应用在涉及到个人隐私数据存储和应用的部分行业领

域,因此广泛应用于政务、金融、电信、医疗、能源、互联网等行业领域。在

政务行业中,工商、公安、税务、社保等政府部门及公共事业部门,采集的公

民个人信息及企业敏感信息,需要针对数据采集、传输、应用、归档等全生命

周期进行数据脱敏并同步实施其他数据安全防护手段。在金融和电信行业中,

由于金融客户的个人账户信息、交易记录等信息以及运营商内部存储大量的客

户信息均属于敏感信息,对数据库杳询返回的结果进行敏感数据遮盖,防止数

据泄露。在医疗和能源行业,医院系统中存储大量患者隐私信息以及电力行业

内部不同部门甚至是跨组织、跨区域间的电力数据共享场景越来越普遍,对敏

感数据进行脱敏,既能满足国家对数据隐私保护的基准要求,又能对用户隐私

数据的有效保护,维护和提升医疗和能源行业领域的形象和公信力。在互联网

行业,用户行为数据更是成为企业指导业务增收的重要资源,用户行为分析、

个性化推荐、精准营销等应用方向成为多数互联网企业的通用服务手段,相应

地分析挖掘应用不可避免。

未来,越来越多的行业将采集数据,利用大数据技术提高产业效率,从而

推动产业升级。数据量将进一步汇聚,规模将以指数级增长,数据脱敏技术的

应用场景将扩展到国民经济的各个领域,随着需求的增长和多样化,数据脱敏

技术也将得到长足的发展。

四、发展趋势

《中华人民共和国密码法》

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论