数据脱敏方案_第1页
数据脱敏方案_第2页
数据脱敏方案_第3页
数据脱敏方案_第4页
数据脱敏方案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

--本页仅作为文档封面,使用时请直接删除即可--

--内页能够根据需求调节适宜字体及大小本页仅作为文档封面,使用时请直接删除即可--

--内页能够根据需求调节适宜字体及大小--数据脱敏方案V1.1(总20页) 大数据脱敏方案-1-15更改履历版本号修改编号更改时间更改的图表和章节号更改简要描述更改人同意人

目录1.概述 4.编写目的 4.数据脱敏的定义 4.电网数据脱敏需求 42.脱敏方案 5.脱敏算法 5K-Anonymity(K-匿名) 5L-Diversity 5T-Closeness 5.脱敏规则 53.电网应用场景 6.云平台功效设计 7.大数据平台功效设计 7

概述编写目的本文档描述了数据脱敏的研究成果和办法论。旨在为含有数据脱敏需求的开发人员和项目提供参考和借鉴。数据脱敏的定义敏感数据普通指不当使用或未经授权被人接触或修改会不利于国家利益或不利于个人依法享有的个人隐私权的全部信息。工业和信息化部编制的《信息安全技术公共及商用服务信息系统个人信息保护指南》明确规定,解决个人信息应当含有特定、明确和合理的目的,应当在个人信息主体知情的状况下获得个人信息主体的同意,应当在达成个人信息使用目的之后删除个人信息。这项原则最显着的特点是将个人信息分为个人普通信息和个人敏感信息,并提出了默许同意和明示同意的概念。对于个人普通信息的解决能够建立在默许同意的基础上,只要个人信息主体没有明确表达反对,便可收集和运用。但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和运用之前,必须首先获得个人信息主体明确的授权。这项原则还正式提出了解决个人信息时应当遵照的八项基本原则,即目的明确、最少够用、公开告知、个人同意、质量确保、安全保障、诚信推行和责任明确,划分了收集、加工、转移、删除四个环节,并针对每一种环节提出了贯彻八项基本原则的具体规定。数据脱敏(DataMasking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就能够在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属都市、邮编、密码类(如账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。随着大数据时代的到来,大数据商业价值的挖掘,顾客的精拟定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战–个人隐私信息的保护。个人信息与个人行为(例如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题。数据脱敏需求随着国家电网数据应用的不停进一步,有许多应用需要和外部系统对接,数据需要对外提供服务才干体现出它的价值,大数据时代是数据融合的时代,如何在数据融合的过程中,确保数据在开发、测试、生产、应用等各个环节的安全,成为信息安全部门的重要任务。国家电网数据脱敏需求涉及:通过数据抽取、数据漂白、数据混淆等解决过程,用来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数据解决过程满足国家电网的敏感数据防护的政策规定。具体脱敏需求涉及:避免生产库中的敏感数据泄漏通过对生产库中的身份、地址、顾客卡号、手机号等敏感信息进行混淆、打乱后再提供应第三方使用,避免生产库中的敏感数据泄漏。确保测试、开发、应用阶段的数据关联性通过脱敏方略和算法,确保脱敏数据有效性(保持原有数据类型和业务格式不变)、完整性(确保长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)。以提高测试、开发、应用环节的数据真实性和可用性。确保数据维护和数据共享的安全对数据库访问者的顾客名、IP、工具类型、时间等进行监控,控制数据访问成果的差别化,数据成果能够划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者的不同访问方略,满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感数据、业务系统能够访问真实数据、分析系统能够访问脱敏后的数据。确保隐私数据管理的政策合规性数据的脱敏和数据解决必须在国家电网的有关政策规定允许的状况下进行,脱敏规则符合国家电网的数据管理规定。脱敏方案脱敏流程数据脱敏的流程普通分为:敏感数据发现、敏感数据梳理、脱敏方案制订、脱敏任务执行四大环节,结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达成最佳的数据脱敏效果。敏感数据发现敏感数据的发现分为人工发现和自动发现两种。对于国家电网相对固定的业务数据,能够采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据普通数据构造和数据长度不会有变化,大部分为数值型和固定长度的字符。例如:单位代码、户号、户名、用电地址等标记列,针对这些数据能够通过人工指定脱敏规则和不同的数据访问方略,确保敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特性,借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别能够减少工作量和避免遗漏。普通采用自动发现为主,结合人工发现和审核,来完毕敏感数据的发现和定义,最后形成完善的敏感数据字典。敏感数据梳理在敏感数据发现的基础上,完毕敏感数据列、敏感数据关系的调节,以确保数据的关联关系。通过屏蔽、变形、替代、随机、格式保存加密、强加密等数据脱敏算法,针对不同的数据类型进行数据掩码扰乱。脱敏方案制订对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配备专门的脱敏方略。脱敏方案的制订重要依靠脱敏方略和脱敏算法的复用来实现,通过配备和扩展脱密算法以制订最优方案。脱敏任务执行脱敏任务的停止、启动、暂停等操作,支持任务并行解决,支持脱敏任务的中断续延等。脱敏算法脱敏算法特性普通根据不同数据特性选择不同的脱敏算法,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、公司名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法普通涉及屏蔽、变形、替代、随机、格式保存加密(FPE)和强加密算法(如AES)。脱敏算法含有以下特性:同义替代使用相似含义的数据替代原有的敏感数据,如姓名脱敏后仍然为故意义的姓名,住址脱敏后仍然为住址。部分数据遮蔽将原数据中部分或全部内容,用“*”或“#”等字符进行替代,遮盖部分或全部原文。混合屏蔽将有关的列作为一种组进行屏蔽,以确保这些有关列中被屏蔽的数据保持同样的关系,例如,都市、省、邮编在屏蔽后保持一致。拟定性屏蔽确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值(如,客户号、身份证号码、银行卡号)在全部数据库中屏蔽为同一种值。可逆脱敏确保脱敏后的数据可还原,便于将第三方分析机构和内部分析团体基于脱敏后数据上的分析的成果还原为业务数据。K-Anonymity(K-匿名)算法描述:规定对于任意一行统计,其所属的相等集内统计数量不不大于k,即最少有k-1条统计半标记列属性值与该条统计相似。理论上来说,对于K-Anonymity数据集,对于任意统计,攻击者只有1/k的概率将该统计与具体顾客关联。算法环节:先移除标记列泛化半标记列算法优缺点:优点:能够用于保护个人标记泄漏的风险。缺点:容易受到链接式攻击,无法保护属性泄露的风险。对于K-Anonymity的数据集,攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击顾客的属性信息。对移除标记列的数据根据半标记列进行分组,每组最少有k条统计,每组中最少有k-1条统计的半标记列的值与该统计相似。L-Diversity算法描述:如果对于任意相等集内全部统计对应的敏感数据的集合,包含L个“适宜”值,则称该相等集是满足L-Deversity。如果数据集中全部相等集都满足L-Deversity,则称该数据集满足L-Deversity。相对于K-Anonymity原则,符合L-Deversity原则的数据集显着减少了属性数据泄漏的风险。对于满足L-Derversity的数据集,理论上,攻击者最多只有1/L的概率能够属性泄露攻击,将特定顾客与其敏感信息关联起来。通过插入干扰数据构造符合L-Diversity的数据集。在K-Anonymity的基础上,每个数据集中,其敏感信息列有L个不同的值,攻击者只有1/L的几率获得对的的敏感信息。T-Closeness算法描述:L-Diversity是通过约束P的diversity属性,尽量减少B0和B2之间的信息量差距,差距越小,阐明隐私信息泄漏越少。T-Closeness约束则盼望减少B1和B2之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。如果一种相等类的敏感数据的分布与敏感数据的全局分布之间的距离不大于T,则称该相等类满足T-Closeness约束。如果数据集中的全部相等类都满足T-Closeness,则称该数据集满足T-Closeness.T-Closeness约束限定了半标记列属性与敏感信息的全局分布之间的联系,削弱了半标记列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。但是同时也必定造成了一定程度的信息丢失,因此管理者通过T值的大小平衡数据可用性与顾客隐私保护。算法用例原始数据我们以用采顾客数据为例:ORG_NO(单位代码)CONS_NO(户号)CONS_NAME(户名)ELEC_ADDR(用电地址)ELEC_TYPE_CODE(用电类型)LINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP11044浙江长兴县供电公司浙江省湖州市长兴县泗安镇塔上行政村张家湾自然村4024710AC0010131511006浙江奇碟汽车零部件有限公司浙江省湖州市长兴县泗安镇五里渡行政村五里渡新村自然村1003720AC00101188011077华能长兴光伏发电有限责任公司浙江省湖州市长兴县泗安镇三里亭行政村亭子头自然村杰夫厂区1001710AC00102124011031长兴县泗安镇钱庄村村民委员会浙江省湖州市长兴县泗安镇钱庄行政村刘小湾自然村1001540AC001018011031长兴县泗安镇钱庄村村民委员会浙江省湖州市长兴县泗安镇钱庄行政村刘小湾自然村4032540AC001028011055浙江物产汽车安全科技有限公司浙江省湖州市长兴县泗安镇赵村村行政村赵村庙自然村1001610AC0010263011068华能长兴光伏发电有限责任公司浙江省湖州市长兴县泗安镇三里亭村行政村亭子头自然村4024410AC00101250011035长兴泗安严义明蔬菜种植园浙江省湖州市长兴县泗安镇塔上村行政村塔上大湾自然村4032500AC001018011044浙江长兴县供电公司浙江省湖州市长兴县泗安镇塔上行政村张家湾自然村4024710AC00101315K-Anonymity(k=2)ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP11035201*浙江省湖州市长兴县泗安镇402>4000AC0010131511035201*浙江省湖州市长兴县泗安镇402>4000AC00101250011035200*浙江省湖州市长兴县泗安镇100>3000AC00101188011035200*浙江省湖州市长兴县泗安镇100>3000AC001018011035200*浙江省湖州市长兴县泗安镇403>AC001028011035200*浙江省湖州市长兴县泗安镇403>AC001028011035201*浙江省湖州市长兴县泗安镇100>1000AC00102124011035201*浙江省湖州市长兴县泗安镇100>1000AC00102630L-Diversity(L=2)ORG_NOCONS_NOELEC_ADDRELEC_TYPE_CODELINE_IDTRADE_CODEVOLT_CODECONTRACT_CAP11035201*浙江省湖州市长兴县泗安镇402>4000AC0010131511035201*浙江省湖州市长兴县泗安镇402>4000AC00101250011035200*浙江省湖州市长兴县泗安镇100>3000AC00101188011035200*浙江省湖州市长兴县泗安镇100>3000AC001018011035200*浙江省湖州市长兴县泗安镇403>AC001028011035200*浙江省湖州市长兴县泗安镇403>AC001028011035200*浙江省湖州市长兴县泗安镇403>AC0010212011035201*浙江省湖州市长兴县泗安镇100>1000AC001021240脱敏规则脱敏规则,普通的脱敏规则分类为可恢复与不可恢复两类。可恢复类,指脱敏后的数据能够通过一定的方式,能够恢复成原来的敏感数据,这类脱敏规则重要指各类加解密算法规则。不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。普通可分为替代算法和生成算法两大类。替代算法即将需要脱敏的部分使用定义好的字符或字符串替代,生成类算法则更复杂某些,规定脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。惯用的脱敏规则重要有:编号名称描述示例1Hiding(隐匿)将数据替代成一种常量,惯用作不需要该敏感字段时500->0630->02Hashing(hash映射)将数据映射为一种hash值(不一定是一一映射),惯用作将不定长数据应设成定长的hash值Jim,Green->3Tom,Cluz->43Permutation(唯一值映射)将数据映射为唯一值,允许根据映射值找回原始值,支持对的的聚合或连接操作Smith->ClemetzJones->Spefde4Shift(偏移)将数量值增加一种固定的偏移量,隐藏数值部分特性253->1253254->12545Enumeration(排序映射)将数据映射为新值,同时保持数据次序500->25000400->06Truncation(截断)将数据尾部阶段,只保存前半部分02>0210>0107Prefix-preserving(局部混淆)保持IP前n位不变,混淆其它部分->->8Mask(掩码)数据长度不变,但只保存部分数据信息2345323->234—23->145—349Floor(偏移取整)数据或是日期取整28->2012:30:45->12:00:00脱敏环境数据脱敏的环境普通按照生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分,根据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏(staticdatamasking)和动态数据脱敏(dynamicdatamasking),静态数据脱敏(SDM)与动态数据脱敏(DDM)重要的区别是:与否在使用敏感数据当时进行脱敏。静态数据脱敏(SDM)普通用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,普通用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。动态数据脱敏(DDM)普通用在生产环境,在访问敏感数据当时进行脱敏,普通用来解决在生产环境需要根据不同状况对同一敏感数据读取时需要进行不同级别脱敏的问题。数据脱敏方式按照数据解决方式的不同,能够将数据脱敏分为静态数据脱敏和动态数据脱敏两大类。静态数据脱敏静态数据脱敏指将数据文献进行去敏感、去隐私化的解决同时确保数据之间的关联关系。外发给第三方公司进行开发测试或是数据分析。得到的分析成果后能够将分析出的数据进行回溯。该脱敏方式合用于项目开发单位需要获取完整的数据才干确保数据分析工作的顺利完毕,对于数据提供方,又不但愿敏感数据泄漏出去,在这种状况下,就需要对数据进行可回溯的脱敏方式,确保发送出去的数据不包含敏感信息,当项目开发单位开发完毕后,将分析系统或成果数据回溯成真实的成果数据。这样既确保了开发过程中的数据共享和成果一致性,又确保了真实数据不会在开发过程中泄漏。静态数据的脱敏非常适合数据拥有者在和多个外部开发团体的数据融合和数据共享中使用,确保开发、测试环节不会泄漏数据。动态数据脱敏动态数据脱敏指顾客在前端应用处调取后台数据库中敏感数据时,进行数据脱敏,再反馈至前台呈现。可在通讯层面上,通过代理布署方式,对业务系统数据库中敏感数据进行透明的、实时的脱敏。普通根据顾客的角色、职责和其它IT定义身份特性,动态的对生产数据库返回的数据进行专门的屏蔽、加密、隐藏和审计,可确保不同级别的顾客按照其身份特性恰如其分的访问敏感数据,并且不需要对生产数据库中的数据进行任何变化。动态数据脱敏同样支持同义替代、部分遮蔽、混合脱敏、拟定性脱敏及可逆脱敏,普通可根据不同顾客身份特性,指定对应的数据脱敏算法。通过动态脱敏功效,能够协助国家电网公司快速、低风险、平稳的提供生产数据库的实时隐私保护。典型的应用场景体现在:1:保护生产环境对于国家电网大型复杂系统环境下,为了给客户提供高水平的服务,有时意味着开发人员、数据库管理员、设计人员、专业顾问和其它系统需要不受限制的访问生产数据,方便快速解决重大问题和快速响应。由此造成了对客户信息、电话、地址等隐私信息的违规访问途径。动态数据脱敏能够有效解决这一风险,并且不会丧失快速响应的能力。2:减少外包风险对于大型复杂系统,往往依赖大量的外包IT人员和开发单位来开展和维护业务,这些外包人员能够通过应用程序,报表和开发、运维工具访问生产数据,这意味着隐私数据完全暴露在不可控的环境中;动态数据脱敏能够对不同顾客和应用的访问进行实时的隐私数据屏蔽,协助国家电网有效保护重要数据资产的访问。3:保护通用帐户风险数据库维护人员经常会使用强度很弱的通用密码,便于开发人员和DBA访问和监控生产数据库,便利的同时也为获取核心隐私数据开了方便之门。通过提供过敏后的数据掩码,首先能够避免来自非生产环境的登录,并且能够根据规则向不同的登录顾客和系统提供通过脱敏的数据。大数据的数据脱敏技术大数据平台通过将全部数据整合起来,充足分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能涉及诸多顾客的隐私和敏感信息,如用电统计、用电顾客支付信息、国家机密信息等,这些数据存在可能泄漏的风险。大数据平台普通通过顾客认证,权限管理以及数据加密等技术确保数据的安全,但是这并不能完全从技术上确保数据的安全。严格的来说,任何有权限访问顾客数据的人员,如ETL工程师或是数据分析人员等,都有可能造成数据泄漏的风险。另首先,没有访问顾客数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大限制的充足挖掘数据价值的范畴。数据脱敏通过对数据进行脱敏,在确保数据可用性的同时,也在一定范畴内确保恶意攻击者无法将数据与具体顾客关联到一起,从而确保顾客数据的隐私性。数据脱敏方案作为大数据平台整体数据安全解决方案的重要构成部分,是构建安全可靠的大数据平台必不可少的功效特性。顾客隐私数据保护与挖掘顾客数据价值是两个互相冲突的矛盾体,彻底的数据脱敏,需要抹去全部的顾客标记信息,使得数据潜在的分析价值大大减少。另首先,完全保存顾客隐私数据信息,可最大化数据的分析价值,同时造成顾客隐私泄露的风险无法控制。因此大数据脱敏平台的设计目的并不是实现工具算法用来完全抹去全部的顾客标记信息,而是涉及以下几个目的:数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。另首先,基于数据脱敏的理论基础,建立顾客隐私数据泄露风险的衡量模型,可定性定量的精确衡量数据可能发生泄露的风险。可管理。结合大数据平台的顾客认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽量保护顾客隐私数据,减少数据泄露风险的前提下,最大化保存数据分析挖掘的价值。可审计。对数据的访问要确保可回溯,可审计,当发生数据泄露时,要确保能够通过审计日志找到对应的泄露人员。大数据平台的数据来源比较广泛,根据现在流行的数据采集技术,能够分为流式数据和批量数据两种。流式数据脱密流式数据是指不停产生、实时计算、动态增加且规定及时响应的数据,它含有海量和实时性等特点,普通将实时或准实时的数据解决技术归为流式数据解决技术。涉及:ApacheStorm、SparkStreaming等。基于Storm的流式数据脱敏Storm是一种分布式的,可靠的,容错的数据流解决系统。Storm集群的输入流由一种被称作spout的组件管理,spout把数据传递给bolt,?bolt要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论