数据脱敏技术研究及展望_第1页
数据脱敏技术研究及展望_第2页
数据脱敏技术研究及展望_第3页
数据脱敏技术研究及展望_第4页
数据脱敏技术研究及展望_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

随着物联网、人工智能、5G等信息技术的快速发展和不断应用,大数据时代已悄然到来,全球各行业领域的数据储量和数据产业规模正呈现爆发式增长的态势。IDC预测,2018—2025年,全球数据量将从33ZB猛增至175ZB,而根据工业和信息化部相关预测,2021—2025年,我国的大数据产业规模将从1.3万亿元突破至3万亿元,数据已然成为推动经济社会发展最重要的基础生产要素之一。数据价值持续释放的同时,数据安全问题受关注度也在不断攀升,Risk

BasedSecurity报告显示,2021年全球公开披露的数据泄露事件高达4145起,共导致约227亿条数据被泄露,其中影响较大的泄露事件包括:5.53亿Facebook用户的全名、出生日期、电话号码等敏感数据被泄露;7亿多条LinkedIn用户的全名、性别、电子邮件、电话号码、行业信息等敏感数据在RaidForums上被黑客出售等。数据泄露事件的日益增加给个人生活、企业利益以及国家安全造成了不同程度的威胁,因此,如何确保数据安全已成为当前数据产业发展中需要解决的首要问题。而目前,针对数据安全问题的传统解决方案大都聚焦于数据加密处理、数据访问控制等,其目的是通过严格控制数据应用范围来降低数据被泄露的风险,这明显不能满足当前数据互联互通已成为发展趋势的需求。因此,如何在保证数据安全的前提下,最大限度地进行数据价值的挖掘使用,已成为大数据时代最受关注的问题之一。近年来,数据脱敏技术作为解决平衡数据安全和数据共享问题的重要技术手段,逐渐进入人们的视野,并被广泛应用于大数据产业发展中,其因较好地平衡了数据的安全性和可用性,已成为业界研究的热点

。1数据脱敏概述1.1数据脱敏定义敏感数据

是指泄露以后可能会给个人生活、企业利益以及国家安全带来严重威胁和损害的数据,敏感数据不但包括个人隐私数据,例如姓名、手机号码、身份证号码、工作单位、银行账号、电子邮箱、家庭成员、社会关系、医疗信息、教育经历等;还包括社会机构的隐私数据,例如企事业单位的组织架构、核心技术、经营情况、员工薪酬等。数据脱敏又称数据漂白、数据变形或数据去隐私化,是指在保留数据原始特征的情况下,根据给定的脱敏规则和策略对敏感数据进行变换,从而去除数据中的敏感信息,以保护敏感数据避免未经授权而被非法访问、获取,同时又可以根据需要对敏感数据进行相关处理,使得敏感数据依旧可以被使用。数据脱敏在保证敏感数据安全性的同时保证了数据的有效性和可用性,既避免了敏感数据被泄露的风险,也较好地解决了敏感数据在非安全、非可信环境中的使用问题

。1.2数据脱敏分类根据面向的应用场景不同以及技术实现方式不同,数据脱敏技术可以分为静态数据脱敏和动态数据脱敏。1.2.1静态数据脱敏静态数据脱敏一般适用于在开发、测试、数据分析、培训等非生产环境应用场景中对非实时访问数据进行脱敏,为了避免泄露风险,数据必须先脱敏后使用。静态数据脱敏的目标在于根据设置好的数据脱敏规则和策略,对大批量的数据集进行统一脱敏处理,脱敏操作不会破坏数据的内在关联关系和统计特征等有价值的信息,在满足非生产环境应用场景对数据使用需求的同时,又能保证数据提供方最大限度地降低数据的敏感程度,确保数据在使用过程中不会发生敏感信息泄露。静态数据脱敏如图1所示。图1静态数据脱敏1.2.2动态数据脱敏动态数据脱敏一般适用于敏感数据需要对外提供访问服务的生产环境应用场景中。动态数据脱敏的目标在于根据设置好的数据脱敏规则和策略,对外部在线申请访问的敏感数据进行实时的脱敏处理,并能即时反馈数据脱敏后的处理结果,其数据脱敏规则和策略需要根据不同情况下对于相同敏感数据的访问做不同的脱敏处理。例如,根据访问的用户对象不同,需要设置不同的脱敏规则和策略,从而使得不同用户对象根据不同的脱敏方案进行相应的敏感数据访问。动态数据脱敏可以实时调整数据脱敏规则和策略。动态数据脱敏如图2所示。1.2.3两种脱敏方式比较为了更加全面、直观地展现静态数据脱敏和动态数据脱敏之间的差异,本文从应用场景、脱敏状况、部署方式、优缺点等方面对两种脱敏方式进行简要比较,如表1所示。表1静态数据脱敏与动态数据脱敏比较由比较结果可以看出,在应用场景方面,静态数据脱敏应用于开发、测试、数据分析、培训等非生产环境场景中,而动态数据脱敏应用于需要对外提供访问服务的生产环境场景中。在脱敏状况方面,静态数据脱敏对非实时访问数据进行脱敏,而动态数据脱敏则在使用敏感数据时才进行脱敏。在部署方式方面,静态数据脱敏包括单服务器部署和成对服务器部署,而动态数据脱敏包括主动服务模式和代理部署两种方式。静态数据脱敏的优点包括:数据脱敏后不会破坏数据的内在关联关系和统计特征等有价值的信息,且数据信息损失很小,其脱敏效果比动态数据脱敏好;但其缺点也很明显,由于需要对大批量的数据集进行统一脱敏处理,计算开销较大,处理效率不高,而且在进行脱敏操作时容易暴露所有待脱敏的数据。动态数据脱敏的优势在于:可以根据用户的不同角色、不同权限设置不同的脱敏级别,以达到对脱敏数据的分级保护。由于动态数据脱敏对所有数据采取按需脱敏的策略,一定程度上提高了需求方获取脱敏后数据的时效性。另外,动态数据脱敏还支持对数据的动态更新。其缺点则包括:对系统的鲁棒性要求较高,脱敏算法实现难度较高,脱敏效果不及静态数据脱敏。因此,根据上述两种脱敏方式的比较可以得出结论:静态数据脱敏技术和动态数据脱敏技术都存在各自的优缺点,两种脱敏方式各有其适用的应用场景,因此在实际使用中,应结合各自的技术特点和应用场景需求进行选择。2数据脱敏需求在大数据时代,为了满足各种社会生产发展需求,我们需要从海量数据中获取有用信息,因此需要对各类数据进行开发、测试、交换、共享等高效融合、挖掘,以创造出更高的数据使用价值。但是当前数据安全需求与合规监管要求对数据挖掘提出了更高的要求,而数据脱敏技术则相应需要满足以下方面需求:(1)能够精确识别数据中的重要敏感信息。数据脱敏过程中的首要关键环节是能够对大数据中的重要敏感信息进行精确识别和匹配,因此,需要根据数据的分类、分级策略,创建针对大数据中的重要信息、核心信息、敏感信息、个人信息等多维度信息的特征库模型,通过正则表达式、深度学习等方式对脱敏过程中数据的各类重要敏感信息进行精确识别和匹配。(2)数据脱敏性能需满足大数据处理需求。大数据时代的数据脱敏需要面对的是海量的数据,传统的数据脱敏工具已无法完成如此体量数据的收集、筛选、脱敏、投递等操作,这就对数据脱敏的性能提出了更高的要求。因此,需要通过机器学习、集群化部署等方式进行多任务并行处理,以实现数据处理能力的提升,从而满足大数据场景下数据脱敏的批量、快速处理需求。(3)需保证数据脱敏后在各环节的关联性。数据脱敏规则和策略的制定需要确保数据脱敏后在应用场景诸如开发、测试、交换、共享等各应用阶段的数据关联性和业务语义不变,例如,数据脱敏后,原始数据的定义不能出现歧义;原始数据的类型、格式、长度等要素不能发生变化;原始数据之间的各种关联关系不能发生变化。从而更好地保证数据脱敏后在各应用环节的可用性。(4)需做到对数据脱敏操作全流程监管。为确保数据脱敏操作过程的安全可靠,需要对数据脱敏操作进行系统化、规范化的全流程监管,以实现操作过程的安全、可控。例如,需对脱敏数据的敏感内容进行审计;对数据脱敏后的内容与开展业务所需的内容进行匹配;针对不同的外部访问对象使用不同的脱敏规则和策略,并对其访问操作进行全程监控,以确保访问数据的安全性。3数据脱敏算法数据脱敏技术的目的是通过一定的方法对敏感数据进行处理以降低敏感数据的敏感程度或者使得敏感数据不再包含敏感信息内容,从而使敏感数据经脱敏后在保证其可用性、关联性的前提下,达到数据失真的目的。脱敏算法的选择和应用是数据脱敏技术的核心问题,我们应根据不同的场景、不同的数据类型、不同的数据特征以及不同的脱敏需求等,选择不同的脱敏算法。传统的脱敏算法包括:替换、仿真、加密、遮掩、混淆、偏移、均值化等。此外,为了提高数据集整体的隐私安全性,有效降低数据的敏感程度,实现高可靠的敏感信息保护能力,还存在更为复杂的数据匿名化算法,包括K-匿名(K-Anonymity)、L-多样性(L-Diversity)、T-相近(T-Closeness)等。3.1传统脱敏算法3.1.1替换替换是指使用具有相似业务特征的伪装数据对原始数据中的敏感数据进行替代,使得原始数据中的相关字段失去原有语义,从而破坏其可读性。为了确保数据的安全性,替换所使用的数据一般具有不可逆性。替换包括映射替换、随机替换和参数替换。映射替换使用替换码表对原始数据中的敏感数据进行整体替换;随机替换使用随机字符对原始数据中的敏感数据进行部分替换;参数替换通过将敏感数据作为参数输入,经过一定规则的函数变换以获得脱敏后的数据。替换算法虽然是最为常用的脱敏算法之一,但该算法会导致脱敏后的数据失去其业务属性,不利于数据的后续使用。以表2数据为例,使用数据替换方式将表格中所有性别整体替换为“XX”,脱敏后数据效果如表3所示。3.1.2仿真仿真是仿照原始数据中的敏感数据内容生成符合敏感数据原始内容语义和格式的新数据,通过相同语义的新数据替换原来的敏感数据,以保证脱敏后的数据能够保持业务数据之间的关联关系,从而使得脱敏后的数据具有较好的可用性[13]。以表2数据为例,将表格中所有姓名仿真脱敏后仍为有意义的姓名,脱敏后的数据效果如表3所示。3.1.3加密加密是指通过使用诸如MD5、Hash、AES等密码学算法对敏感数据进行加密操作,加密处理后的数据与敏感数据的原始内容在逻辑规则和格式上保持一致,外部未经授权的用户只能访问到无实际意义的密文数据,在特定需求场景下,系统也可以给相关需求方提供解密能力以恢复敏感数据的原始内容。以表2数据为例,将表格中所有身份证号按照某种加密算法进行加密脱敏,脱敏后数据效果如表3所示。3.1.4遮掩遮掩是指通过使用诸如“*”“﹖”“﹟”等特殊符号对敏感数据中的部分内容进行掩饰,使得敏感数据只选择公开部分原始内容[17]。该算法在实现数据脱敏、达到保护敏感数据真实信息的同时,较好地保持了敏感数据原始内容的格式,是目前使用较为广泛的脱敏算法。以表2数据为例,将表格中所有身份证号的前6位保留不变,其余部分使用“*”进行遮掩,脱敏后的数据效果如表3所示。3.1.5混淆混淆是指通过对敏感数据内容在指定条件下进行打乱重排和重新分布,从而破坏与其他字段数据的关联关系,使得混淆后的数据不再具有原始内容的语义。混淆算法可以保持敏感数据原始内容的组成格式,例如将数字混淆为数字、字母混淆为字母、符号混淆为符号,一般不会影响数据统计特性等业务数据信息。以表2数据为例,将表格中手机号的前3位网络识别号保留不变,对其余部分进行无规则打乱,脱敏后的数据效果如表3所示。3.1.6偏移偏移主要是通过对敏感数据内容进行随机移位来改变数据内容,偏移算法一般适用于数值型数据。例如,我们可以将个人相关敏感时间数据统一偏移一定的数字以实现数据脱敏的目的,不过该算法在诸如背景关联等特定条件下也存在被破解的风险,因此在实际应用中一般是结合其他算法共同使用。以表2数据为例,将表格中所有到账时间进行偏移操作,脱敏后的数据效果如表3所示。表2原始数据表A表3传统脱敏算法的脱敏效果3.1.7均值化均值化一般针对数值型的敏感数据,首先对指定范围的敏感数据进行求和,然后计算出其平均值,最后将脱敏后的数据随机分布在均值附近,以保持数据的总和不发生变化,该算法在一定程度上保证了数据的统计特性。以表2数据为例,将表格中所有工资数据进行平均值处理,工资总数不变,脱敏后的各工资数据值在均值9320.15附近,脱敏后的数据效果如表3所示。3.2数据匿名化算法3.2.1K-匿名K-匿名(K-Anonymity)最早由Samarati和Sweeney于1998年提出,其基本思想是如果在一组公开的数据集中,任何一条记录都不能与其他至少k-1条记录进行直接区分,则称该条记录满足K-Anonymity。在该数据集中,每种敏感数据的属性组合需要同时出现在k条记录中

,无法被区分的k条记录被称为一个等价类。K-匿名虽然可以对敏感数据进行匿名化处理,但没有对敏感数据的属性进行任何保护,这就容易导致数据遭受背景知识攻击和同质攻击等。以表4原始数据表B为例,表中“ID号”和“姓名”为标识符属性,“性别”“年龄”“身高”为准标识符属性,“疾病”为敏感属性。为防止病人病历信息的泄露,在匿名化后的表格中,将不再发布“ID号”和“姓名”字段值,“性别”字段的部分值用“*”代替,匿名化后的“性别”“年龄”“身高”3个属性具有2-匿名性,即任何一行字段在这三列上的值的组合都至少出现了2次,详细结果如表5所示。表4原始数据表B表52-匿名表3.2.2L-多样性L-多样性(L-Diversity)是指如果对于任意相等数据集(等价类)内所有记录对应的敏感数据属性集合,至少包含L个“良好表示”(Well-Represented)值,则称该等价类满足L-Diversity,如果数据集中所有等价类都满足L-Diversity,则称该数据集满足L-Diversity。L-多样性是对K-匿名在敏感数据属性方面的一种改进,相较K-匿名,L-多样性使得未经授权的外部用户最多只有1/L的概率能够获取敏感数据中的敏感信息内容,显著降低了敏感数据被泄露的风险。以表6原始数据表C为例,L-多样性后的结果如表7所示,表中有3个等价类,每个等价类中至少包含3个不同的敏感属性值,因此这部分公开的数据就满足3-多样性属性。表6原始数据表C表73-多样性匿名表3.2.3T-相近T-相近(T-Closeness)在L-多样性的基础上进行了改进强化,增加了对数据敏感属性值分布的约束,其要求每一个等价类中敏感属性值的分布与整个数据表中敏感属性值的分布之间的差异不超过给定的参数t,即该等价类满足t-Closeness,从而使得每个等价类中敏感属性值的统计分布与整个数据表中敏感属性值的总体分布“相近”,即该数据表满足t-Closeness。在这3种匿名化算法中,K-匿名可以抵御链接攻击,但无法解决同质攻击问题;L-多样性虽然可以抵御同质攻击,但却不能解决偏斜攻击和相似性攻击;T-相近则可以有效解决偏斜攻击和相似性攻击,实现敏感数据的隐私保护需求。4数据脱敏展望近年来,数据脱敏技术已逐渐应用于社会生产的各相关领域,数据脱敏技术在一定程度上有效地保护了各类敏感数据隐私信息的外泄。与此同时,数据脱敏技术本身也经历了从只适用于非生产环境的静态数据脱敏到可以适用于生产环境的动态数据脱敏的应用场景的演进,而随着信息化技术的不断深入发展,文本、图片、音视频、XML、HTML以及各类报表等非结构化数据将会成为数据脱敏技术未来研究的重要目标对象。因此,随着未来社会生产中数据脱敏场景需求的日益多样化和复杂化,数据脱敏技术仍面临着不断优化和提升的需求,未来数据脱敏技术的发展趋势将可能包括以下几个方面。4.1数据脱敏的更合规化当前随着数据泄露事件的频发以及《数据安全法》《个人信息保护法》等数据法律法规的相继出台,使得各领域企业不得不将数据使用的合规性作为首要考虑的问题。数据脱敏技术本身在能够有效保护敏感数据隐私信息泄露的同时,也面临着如何使用才能更合法合规这一现实问题,这也决定了数据脱敏技术将来能否全面普及应用。未来在数据脱敏技术的使用过程中,可以考虑将政策监管要求、企业业务需求同数据脱敏技术算法策略的选择相结合,在符合国家政策法规的前提下,最大限度地帮助企业实现能够满足业务需求的数据脱敏处理,这将是数据脱敏技术后续研究的重要方向。4.2数据脱敏的高性能化随着各行业领域的数据储量和数据产业规模的爆发式增长,数据脱敏技术在实际操作过程中所需面临的处理敏感数据的规模也呈指数级地提升,当前数据脱敏技术尚达不到处理不断增长的海量数据的要求。此外,由于未来社会生产对数据使用实时性的需求愈发迫切,数据脱敏技术即使能够满足应对大规模数据处理的需求,但其是否能够实时、高效地完成针对大规模数据的快速脱敏处理,做到“即脱即用”,也将成为迫切需求。因此,能满足大规模数据处理和快速响应的高性能需求将成为未来数据脱敏技术另一重要发展方向。4.3数据脱敏的非结构化当前数据脱敏技术主要针对数据库等有数据结构的结构化数据

,相较结构化数据,文本、图片、音视频、XML、HTML以及各类报表等非结构化数据在当前社会生产中的应用程度已越来越高,各领域企业对涉及用户敏感信息的非结构化数据的挖掘和使用也越加频繁,原先针对结构化数据的数据脱敏技术已无法满足非结构化数据的脱敏需求。因此,针对非结构化数据的脱敏技术研究将成为未来新的探索方向。4.4数据脱敏的高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论