数据脱敏技术解决方案_第1页
数据脱敏技术解决方案_第2页
数据脱敏技术解决方案_第3页
数据脱敏技术解决方案_第4页
数据脱敏技术解决方案_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据脱敏技术方案

2017-1-15

更改履历

更改的

版本号修改编号更改时间更改简要描述更改人批准人

图表和章节号

目录

1.概述................................................................................4

1.1.编写目的.......................................................................4

1.2.数据脱敏的定义.................................................................4

1.3.电网数据脱敏需求...............................................................5

2.脱敏方案............................................................................6

2.1.脱敏算法.......................................................................7

2.1.1.K-Anonymity(K-匿名).....................................................7

2.1.2.L-Diversity...............................................................................................................................8

2.1.3.T-Closeness...........................................................................................................................10

2.2.脱敏规则......................................................................14

3.电网应用场景.......................................................错误!未定义书签。

3.1.云平台功能设计.................................................错误!未定义书签。

3.2.大数据平台功能设计............................................错误!未定义书签。

1.概述

LL编写目的

本文档描述了数据脱敏的研究成果和方法论。旨在为具有数据脱敏需求的开发人员

和项目提供参考和借鉴。

1.2.数据脱敏的定义

敏感数据一般指不当使用或未经授权被人接触或修改会不利于国家利益或不利于

个人依法享有的个人隐私权的所有信息。工业和信息化部编制的《信息安全技术公共

及商用服务信息系统个人信息保护指南》明确要求,处理个人信息应当具有特定、明确

和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意,应当在达

成个人信息使用目的之后删除个人信息。这项标准最显著的特点是将个人信息分为个人

一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。对于个人一般信息的

处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和

利用。但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必须

首先获得个人信息主体明确的授权。这项标准还正式提出了处理个人信息时应当遵循的

八项基本原则,即目的明确、最少够用、公开告知、个人同意、质量保证、安全保障、

诚信履行和责任明确,划分了收集、加工、转移、删除四个环节,并针对每一个环节提

出了落实八项基本原则的具体要求。

数据脱敏(DataMasking),又称数据漂白、数据去隐私化或数据变形。百度百科对

数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数

据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地

使用脱敏后的真实数据集。

敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、电话号

码、银行账号、邮箱地址、所属城市、邮编、密码类(如账户查询密码、取款密码、

登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的

巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战-个人隐私信息的保护。

个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,

也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,

也将是数据脱敏必须解决的难题。

1.3.数据脱敏需求

随着国家电网数据应用的不断深入,有许多应用需要和外部系统对接,数据需要对

外提供服务才能体现出它的价值,大数据时代是数据融合的时代,如何在数据融合的过

程中,保证数据在开发、测试、生产、应用等各个环节的安全,成为信息安全部门的重

要任务。

国家电网数据脱敏需求包括:通过数据抽取、数据漂白、数据混淆等处理过程,用

来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数

据处理过程满足国家电网的敏感数据防护的政策规定。

具体脱敏需求包括:

>防止生产库中的敏感数据泄漏

通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再

提供给第三方使用,防止生产库中的敏感数据泄漏。

>保证测试、开发、应用阶段的数据关联性

通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、

完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)。

以提升测试、开发、应用环节的数据真实性和可用性。

>保证数据维护和数据共享的安全

对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的

差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访

问者的不同访问策略,满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感

数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。

>保证隐私数据管理的政策合规性

数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行,脱敏规

则符合国家电网的数据管理要求。

2.脱敏方案

2.1.脱敏流程

数据脱敏的流程一般分为:敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任

务执行四大步骤,结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据

脱敏效果。

2.1.1.敏感数据发现

敏感数据的发现分为人工发现和自动发现两种。对于国家电网相对固定的业务数

据,可以采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据一般数

据结构和数据长度不会有变化,大部分为数值型和固定长度的字符。比如:单位代码、

户号、户名、用电地址等标识列,针对这些数据可以通过人工指定脱敏规则和不同的数

据访问策略,保证敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特征,

借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别

可以减少工作量和防止遗漏。一般采用自动发现为主,结合人工发现和审核,来完成敏

感数据的发现和定义,最终形成完善的敏感数据字典。

2.1.2.敏感数据梳理

在敏感数据发现的基础上,完成敏感数据列、敏感数据关系的调整,以保证数据的

关联关系。通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法,针

对不同的数据类型进行数据掩码扰乱。

2.1.3.脱敏方案制定

对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。脱

敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以

制定最优方案。

2.1.4.脱敏任务执行

脱敏任务的停止、启动、暂停等操作,支持任务并行处理,支持脱敏任务的中断续延等。

2.2.脱敏算法

2.2.1.脱敏算法特征

通常根据不同数据特征选择不同的脱敏算法,对常见数据如姓名、证件号、银行账

户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注

册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法通常包括屏蔽、变

形、替换、随机、格式保留加密(FPE)和强加密算法(如AES)o

脱敏算法具有如下特性:

>同义替换

使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱

敏后仍然为住址。

>部分数据遮蔽

将原数据中部分或全部内容,用“*”或“#”等字符进行替换,遮盖部分或全部原文。

>混合屏蔽

将相关的列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系,

例如,城市、省、邮编在屏蔽后保持一致。

>确定性屏蔽

确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值(如,客户号、身份证号码、

银行卡号)在所有数据库中屏蔽为同一个值。

>可逆脱敏

确保脱敏后的数据可还原,便于将第三方分析机构和内部分析团队基于脱敏后数据上的

分析的结果还原为业务数据。

2.2.2.K-Anonymity(K-匿名)

算法描述:

要求对于任意一行记录,其所属的相等集内记录数量不小于k,即至少有kT条记

录半标识列属性值与该条记录相同。

理论上来说,对于K-Anonymity数据集,对于任意记录,攻击者只有1/k的概率

将该记录与具体用户关联。

算法步骤:

A先移除标识列

>泛化半标识列

算法优缺点:

>优点:

可以用于保护个人标识泄漏的风险。

>缺点:

容易受到链接式攻击,无法保护属性泄露的风险。对于K-Anonymity的数据集,攻击

者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

对移除标识列的数据根据半标识列进行分组,每组最少有k条记录,每组中至少有k-1

条记录的半标识列的值与该记录相同。

ZIPCodeAgeDisease

4767729HeartDisease

47602476**222*HeartDisease

4767827HeartDisease

4790513--------------------Flu

47909479**52>40HeartDisease

4790647Cancer

4760530HeartDisease

47673363*Cancer

4660732Cancer

2.2.3.L-Diversity

算法描述:

>如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个“合

适”值,则称该相等集是满足L-Deversity。如果数据集中所有相等集都满足

L-Deversity,则称该数据集满足L-Deversity。

>相对于K-Anonymity标准,符合L-Deversity标准的数据集显著降低了属

性数据泄漏的风险。对于满足L-Derversity的数据集,理论上,攻击者最多只有

1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。

>通过插入干扰数据构造符合L-Diversity的数据集。

在K-Anonymity的基础上,每个数据集中,其敏感信息列有L个不同的值,攻击者只

有1/L的几率获得正确的敏感信息。

ZIPCodeAgeDisease

476♦2WHeartDisease

476*2*HeartDisease1

476*2WHeartDisease

.Flu12

476*2*

4790*>40Flu1

4790*>40HeartDisease2

4790*>40Cancer3

476w3*HeartDisease1

476*3*Cancer

2

466*3*

2.2.4.T-Closeness

直观的来说,隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡量.假设攻击者

在访问数据集之前已知的个人信息为B0,然后假设攻击者访问所有半标识列都已移除的数

据集,Q为麒集敏^^的分布信息,根据Q,攻击者更新后的个人信息为B1.赧攻击

者访问脱敏后的数据集,由于知道用户的半标识列的信息,攻击者可以将某用户与某相等

集除在T,3a该相等集的敏^«分布信息P,攻击者更新后的个人信息为B2.

L-Diversity^J束是通过约束P的diversity属性,尽量减少B0和B2之间的信息量差距,差距

越小,说明隐私信息泄露越少.T-Closeness约束则期望减少B1和B2之间的信息量差距,

减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更名的企续私信息.T

-Closeness的定义如下:呆相寺果史新旧七

访问前已知B0敏感数据集Q▲

如果f相等类的敏感数据的分布与敏感数据的全局分布之间的距浦、于T,则称该相等类

满足T-Closenes粕束.如:;集中的所有相等类都满足T-Qoserfess,则称该数据集满

足T-Qoseness更新后个人信息访问脱敏后的数据集

B1—通过半标识列信息将用户与某相等集

可取得半标识列信息息南间的联系,猴寻了半标识列

T-Closeness约束限定了半标识列属性与敏感信,

属性与特定敏端息的嘛,减少攻击息的分布信蒯行属性■攻击的可

能性.不过同时也肯定导致了一定侬的信息丢失,所以WWWil过T值的大小和犍可

田忤与用户降私保护一

算法描述:

L-Diversity是通过约束P的diversity属性,尽量减少B0和B2之间的信息量差

距,差距越小,说明隐私信息泄漏越少。

T-Closeness约束则期望减少Bl和B2之间的信息量差距,减少攻击者从敏感数据的

全局分布信息和相等集分布信息之间得到更多的个人隐私信息。

如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相

等类满足T-Closeness约束。如果数据集中的所有相等类都满足T-Closeness,则称

该数据集满足T-Closeness.

T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标

识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻

击的可能性。不过同时也肯定导致了一定程度的信息丢失,所以管理者通过T值的大小

平衡数据可用性与用户隐私保护。

2.2.5.算法用例

2.2.5.1原始数据

我们以用采用户数据为例:

ORG_NO(单C0NS_N0(户C0NS_NAMEELEC_ADDR(用电地ELEC_TYPLINE_IDTRADV0LT_C0CONTRA

位代码)号)(户名)址)E_CODEE_C0DECT_CAP

(用电类DE

型)

33408300113520128944Z省X县供Z省H市X县S镇塔40219520004710AC00101315

0电公司上行政村张家湾自0

然村

33408300113520093806Z省奇碟汽Z省H市X县S镇五10019520003720AC001011880

0车零部件里渡行政村五里渡0

有限公司新村自然村

33408300113520113877华能长兴Z省H市X县S镇三10019520001710AC001021240

0光伏发电里亭行政村亭子头0

有限责任自然村杰夫厂区

公司

33408300113520091731X县S镇钱Z省H市X县S镇钱10019520001540AC0010180

0庄村村民庄行政村刘小湾自0

委员会然村

33408300113520091731X县S镇钱Z省H市X县S镇钱40319520002540AC0010280

0庄村村民庄行政村刘小湾自0

委员会然村

33408300113520189655Z省物产汽Z省H市X县S镇赵10019520001610AC00102630

0车安全科村村行政村赵村庙0

技有限公自然村

"J

33408300113520161668华能长兴Z省H市X县S镇三40219520004410AC001012500

0光伏发电里亭村行政村亭子0

有限责任头自然村

公T

33408300113520025635长兴泗安Z省H市*县$镇塔40319520002500AC0010180

0严义明蔬上村行政村塔上大0

菜种植园湾自然村

33408300113520128944Z省X县供Z省H市X县S镇塔40219520004710AC00101315

0电公司上行政村张家湾自0

然村

2.2.5.2K-Anonymity(k=2)

ELEC_TYPTRADE_CODV0LT_C0DCONTRACT_CA

ORG_NOC0NS_N0ELEC_ADDRE_CODELINE.IDEEP

Z省H市X县S1952000

3340830011035201*镇4020>4000AC00101315

Z省H市X县S1952000

3340830011035201*镇4020>4000AC001012500

Z省H市X县S1952000

3340830011035200*镇1000>3000AC001011880

Z省H市X县S1952000

3340830011035200*钳1000>3000AC0010180

Z省H市X县S1952000

3340830011035200*镇4030>2000AC0010280

Z省H市X县S1952000

3340830011035200*镇4030>2000AC0010280

Z省H市X县S1952000

3340830011035201*镇1000>1000AC001021240

Z省H市X县S1952000

3340830011035201*镇1000>1000AC00102630

2.2.5.3L-Diversity(L=2)

ELECTYPTRADE_C0DV0LT.C0DCONTRACTCA

ORG_NOC0NS_N0ELEC_ADDRE_C0DELINE_IDEEP

Z省H市X县S1952000

3340830011035201*镇4020>4000AC00101315

Z省H市X县S1952000

3340830011035201*镇4020>4000AC001012500

Z省H市X县S1952000

3340830011035200*镇1000>3000AC001011880

Z省H市X县S1952000

3340830011035200*镇1000>3000AC0010180

Z省H市X县S1952000

3340830011035200*镇4030>2000AC0010280

Z省H市X县S1952000

3340830011035200*镇4030>2000AC0010280

Z省H市X县S1952000

3340830011035200*镇4030>2000AC00102120

Z省H市X县S1952000

3340830011035201*慎1000>1000AC001021240

2.3.脱敏规则

脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类。

可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此

类脱敏规则主要指各类加解密算法规则。

不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分

为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符

串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很

真实的假数据”。

常用的脱敏规则主要有:

编号名称描述示例

将数据替换成一个

500->0

1Hiding(隐匿)常量,常用作不需要

630->0

该敏感字段时

将数据映射为一个

hash值(不一定是

Jim,Green。456684923

2Hashing(hash映射)一一映射),常用作

TomCluz->859375984

将不定长数据应设z

成定长的hash值

将数据映射为唯一

值,允许根据映射值

Permutation(唯一值Smith->Clemetz

3找回原始值,支持正

映射)Jones->Spefde

确的聚合或连接操

将数量值增加一个

253->1253

4Shift(偏移)固定的偏移量,隐藏

254->1254

数值部分特征

Enumeration(排序映将数据映射为新值,500->25000

5

射)同时保持数据顺序400->20000

将数据尾部阶段,>021

6Truncation(截断)

保留前半部>010

10.199.90.105->10.199.32.12

Prefix-preserving(局部保持IP前n位不变,

710.199.90.106->10.199.56.19

混淆)混淆其余部分

2

数据长度不变,但只2345323->234-23

8Mask(掩码)

保留部分数据信息14562334->145-34

28->20

9Floor(偏移取整)数据或是日期取整2013052012:30:45

->2013052012:00:00

2.4.脱敏环境

数据脱敏的环境一般按照生产环境和非生产环境(开发、测试、外包、数据分析等)

进行划分,根据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏(staticdata

masking)和动态数据脱敏(dynamicdatamasking),静态数据脱敏(SDM)与动态数

据脱敏(DDM)主要的区别是:是否在使用敏感数据当时进行脱敏。

静态数据脱敏(SDM)一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再

在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关

联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。

动态数据脱敏(DDM)一般用在生产环境,在访问敏感数据当时进行脱敏,一般用来解决

在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。

3.数据脱敏方式

按照数据处理方式的不同,可以将数据脱敏分为静态数据脱敏和动态数据脱敏两大类。

3.1.静态数据脱敏

静态数据脱敏指将数据文件进行去敏感、去隐私化的处理同时保证数据之间的关联

关系。外发给第三方公司进行开发测试或是数据分析。得到的分析结果后能够将分析出

的数据进行回溯。

该脱敏方式适用于项目开发单位需要获取完整的数据才能保证数据分析工作的顺

利完成,对于数据提供方,又不希望敏感数据泄漏出去,在这种情况下,就需要对数据

进行可回溯的脱敏方式,保证发送出去的数据不包含敏感信息,当项目开发单位开发完

成后,将分析系统或结果数据回溯成真实的结果数据。这样既保证了开发过程中的数据

共享和结果一致性,又保证了真实数据不会在开发过程中泄漏。

静态数据的脱敏非常适合数据拥有者在和多个外部开发团队的数据融合和数据共

享中使用,保证开发、测试环节不会泄漏数据。

3.2.动态数据脱敏

动态数据脱敏指用户在前端应用处调取后台数据库中敏感数据时,进行数据脱敏,

再反馈至前台呈现。可在通讯层面上,通过代理部署方式,对业务系统数据库中敏感数

据进行透明的、实时的脱敏。通常依据用户的角色、职责和其他IT定义身份特征,动

态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,可确保不同级别的

用户按照其身份特征恰如其分的访问敏感数据,并且不需要对生产数据库中的数据进行

任何改变。动态数据脱敏同样支持同义替换、部分遮蔽、混合脱敏、确定性脱敏及可逆

脱敏,通常可根据不同用户身份特征,指定对应的数据脱敏算法。

授权用户非授权用户A非授权用户B

^(3脱敏值

6225-7500-0231-8731-XXXX-XXXX-87314467-2231-2391-8873

6228-4800-4438-9018-XXXX-XXXX-90186471-3981-3902-1290

按用户身份进彳声您数据脱敬

数据库中的真值

6225-7500-0231-8731

6228-4800-4438-9018

通过动态脱敏功能,能够帮助国家电网公司快速、低风险、平稳的提供生产数据库

的实时隐私保护。典型的应用场景体现在:

1:保护生产环境

对于国家电网大型复杂系统环境下,为了给客户提供高水平的服务,有时意味着开发人

员、数据库管理员、设计人员、专业顾问和其他系统需要不受限制的访问生产数据,以

便迅速解决重大问题和快速响应。由此造成了对客户信息、电话、地址等隐私信息的违

规访问途径。动态数据脱敏可以有效解决这一风险,并且不会丧失快速响应的能力。

2:降低外包风险

对于大型复杂系统,往往依赖大量的外包IT人员和开发单位来开展和维护业务,

这些外包人员能够通过应用程序,报表和开发、运维工具访问生产数据,这意味着隐私

数据完全暴露在不可控的环境中;动态数据脱敏可以对不同用户和应用的访问进行实时

的隐私数据屏蔽,帮助国家电网有效保护重要数据资产的访问。

3:保护通用帐户风险

数据库维护人员常常会使用强度很弱的通用密码,便于开发人员和DBA访问和监控

生产数据库,便利的同时也为获取关键隐私数据开了方便之门。通过提供过敏后的数据

掩码,一方面可以防止来自非生产环境的登录,并且可以根据规则向不同的登录用户和

系统提供经过脱敏的数据。

4.大数据的数据脱敏技术

大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部

门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的

隐私和敏感信息,如用电记录、用电用户支付信息、国家机密信息等,这些数据存在可

能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据

的安全,但是这并不能完全从技术上保证数据的安全。严格的来说,任何有权限访问用

户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。另

一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据

的访问约束大大限制的充分挖掘数据价值的范围。数据脱敏通过对数据进行脱敏,在保

证数据可用性的同时,也在一定范围

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论