2023数据脱敏规程数据清洗、去标识化、匿名化_第1页
2023数据脱敏规程数据清洗、去标识化、匿名化_第2页
2023数据脱敏规程数据清洗、去标识化、匿名化_第3页
2023数据脱敏规程数据清洗、去标识化、匿名化_第4页
2023数据脱敏规程数据清洗、去标识化、匿名化_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据脱敏规程数据清洗、去标识化、匿名化2023.11目录一、处理目标及相互关系 1(一)数据清洗是数据可用的保障 1(二)去标识化是数据脱敏的关键 1(三)匿名化是去标识化的强化 2二、数据处理原则 4(一)合法合规 4(二)安全优先 4(三)平衡效用 4(四)技管结合 4(五)有效溯源 5三、数据清洗规程 5(一)处理目的 5(二)处理流程 6(三)常见技术方法 9四、数据去标识化规程 12(一)处理目的 12(二)处理流程 13(三)常见技术方法 18五、数据匿名化规程 21(一)处理目的 21(二)处理流程 21(三)常见技术方法 25六、数据处理环境要求 29(一)管理制度要求 29(二)技术能力要求 30(三)人员能力要求 30(四)过程控制要求 30(五)事故管理要求 31附件一:常见直接标识符和准标识符示例 32附件二:常见标识符的去标识化或匿名化参考 36附件三:部分数据处理技术方法应用建议 40参考资料 43表目录表1 数据清洗、去标识化、匿名化处理的技术特点和差异 3PAGEPAGE37一、处理目标及相互关系(一)数据清洗是数据可用的保障(二)去标识化是数据脱敏的关键数据去标识化与在先的标识形成过程分属数据处理的不同阶段(三)匿名化是去标识化的强化100%表1数据清洗、去标识化、匿名化处理的技术特点和差异加工后数据改造程度(相对原始数据)数据有用性(针对个体记录)数据安全性(脱敏程度)清洗后数据低高低(单独可识别)去标识化数据中中中(不借助额外信息不可识别)匿名化数据高低高(借助额外信息也难以复原的不可识别)来源:中国信息通信研究院二、数据处理原则(一)合法合规(二)安全优先(三)平衡效用(四)技管结合组织应综合利用技术和管理两方面措施实现数据处理的最佳效(五)有效溯源三、数据清洗规程(一)处理目的规范性准确性完整性清洗后的数据应保证数据的连续性、完整性,源数据应在源头或备份表中能找到,数据在字段、记录内容或数据集内不应有重复值。一致性可溯源性(二)处理流程抽取清洗对象定义清洗规则根据清洗的必要性,分析对应数据资源的特点和清洗复杂程度,标识错误数据重复数据:数据中出现多条相同记录,或多条记录反映同一内容,数据修正处理“()”。数据转换检验评估清洗结果数据清洗后及时评价输出结果是否符合事先设定清洗规则和规(三)常见技术方法残缺数据处理不同指标的计算结果填充:即通过数据项与数据项之间的逻辑联K-偏差(异常)数据处理对存在不符合逻辑约束要求、相互间存在冲突的数据进行处理,理简单逻辑错误的数据。重复数据处理其他错误数据处理四、数据去标识化规程(一)处理目的组织实施数据去标识化,应当确保经过处理的数据达到以下效果:标识不可识别控制被识别风险将去标识化后的数据可能被未经授权的主体再次识别的风险控兼顾数据效用目标(二)处理流程确定去标识化对象于外部和内部的多方面因素的考量确定需要进行去标识处理的数据范围。51GB/T35273—2020根据数据采集时是否存在对数据来源方等作出了去标识化的相制定去标识化目标识别相关标识符组织通过总结可能涉及直接标识符和准标识符的数据格式和规在必要场景下,组织通过人工发现和确定数据集中的直接标识符对标识符进行处理()验证数据处理结果标识化数据的安全性。评估被识别风险GB/T42460-20234高风险(4级:能直接识别主体或敏感属性的数据,即包含直接标识符的数据;较高风险(3级:仅消除直接标识符的数据,即删除了直接标识符,但仍包含准标识符的数据;可控风险(2级:息主体或特定标识内容;低风险(1级,不再保留个体颗粒度的聚(三)常见技术方法GB/T37964-2019数据抽样技术数据抽样是通过选取数据集中有代表性的子集来对原始数据集加解密技术得到的计算结果等价于基于原始明文数据直接进行相同计算所得到假名化技术抑制遮盖技术抑制遮盖技术即对需要进行处理的标识符或数据项进行删除或(*”或“来替换原五、数据匿名化规程(一)处理目的促使标识难以复原数据匿名化处理是数据去标识化后应用相关技术使相关标识符符合风险可接受水平支持统计、训练用途(二)处理流程确定匿名化对象(试行GB/T35273-2020设定匿名化目标先行去标识化处理实施匿名化处理一是考虑所采用的匿名化技术进行处理后数据是否仍满足预期评估匿名化效果GB/T42460-2023K匿名模型的重标识风险计算方案k-k-K-1表示记录是唯一的。k-匿名值需要结合实际场景、处理目标和安全等k-定期追踪复原风险组织应当定期追踪内外部相关主体对匿名化处理数据的使用情(三)常见技术方法GB/T37964-2019聚合统计技术聚合统计技术指将数据集从记录列表转换为汇总值或相关统计18-80属性将某一条数据记录(女,北京,1.63m,59.8kg,1990年9月1日)关联到特定个人。泛化技术107710,概率0.3用高于或低于所设定的临界值的描述替换某一特定数据记录在该属10010随机化技术+/-3数据合成技术隐私计算技术隐私计算技术是指在保护数据本身不对外泄露的前提下实现数合建模和AI协作,加速隐私计算在不同场景的应用与落地。根据参六、数据处理环境要求(一)管理制度要求(二)技术能力要求(三)人员能力要求(四)过程控制要求(五)事故管理要求附件一:常见直接标识符和准标识符示例(一)直接标识符示例类型序号常见直接标识符个人数据1类型序号常见直接标识符个人数据1姓名2公民身份号码3护照号4工作学习编号,包括工号、学号等5电话号码6传真号码7银行账户8驾照号9车牌号10社会保障号码11健康卡号码12病历号码13网络账号、昵称等14网络身份标识号(ID)15个人移动终端设备标识符16详细住址17电子邮件地址18个人行踪轨迹数据清洗、去标识化、匿名化业务规程(试行)19生物识别码,包括指纹和声纹等识别码20全脸图片图像及其他任何可比对的图像企业数据1组织机构名称2营业执照编号3统一社会信用代码4法定代表人姓名5税务登记证号6社会保险登记证号码7统计登记证号码8银行账户信息9组织许可证号10企业注册地址11网络和系统账号信息12网站标识码,互联网协议(IP)地址号13网络通用资源定位符(URL)14合同编号15商业发票编号物联网数据1设备标识符和序列号2设备位置信息3设备使用记录4设备故障或警报记录5商品条码6货运设备识别码7集装箱识别代码8医疗器械唯一标识(UDI)9数字版权唯一标识符(DCI)10气象数字对象标识符(MOID)(二)准标识符示例类型序号常见准标识符个人数据1类型序号常见准标识符个人数据1性别2出生日期或年龄3事件日期(例如入院、手术、出院、访问相关日期)4地理范围(例如邮政编码、建筑名称、地区)5血型、身高、体重等体征6疫苗接种状态、病史等健康状况7国籍、籍贯8族裔血统、民族9宗教信仰10语言11职务、工作单位、部门等职业信息12婚姻状况13受教育水平14学习、工作年限15收入状况企业数据1组织设立时间2组织信用评级3资产设备情况4员工情况5客户分布6产品类型数据清洗、去标识化、匿名化业务规程(试行)7供应链渠道8营收情况9系统日志10工艺参数物联网数据1传感节点标识信息2环境参数信息(温度、湿度、气压、风速、光线等)3设备规格信息4设备健康状态5生产日期6检验日期附件二:常见标识符的去标识化或匿名化参考标识符去标识化或匿名化方法参考姓名名化时根据按照顺序或随机选择一个人名代替原名。如使用字符,并保持可逆特性。如使用密码和字符编码技术,使用“标识符去标识化或匿名化方法参考姓名名化时根据按照顺序或随机选择一个人名代替原名。如使用字符,并保持可逆特性。如使用密码和字符编码技术,使用“SKJzf”代替“ob抑制遮盖。直接删除姓名或使用统一的“×”来表示。如所有的姓名都使用“***”代替。泛化编码。使用概括、抽象的符号来表示,如使用“张先生”随机化替代。使用随机生成的汉字来表示,如使用随机生成的“辰筹猎”来取代“张三丰”。身份证号加解密技术。采用密码或其他变换技术,将身份证号转变成另外的字符,并保持可逆特性。如使用密码和字符编码技术,使用“S398”代替44052977774188001010014部分抑制遮盖。屏蔽身份证号中的一部分,以保护个人信息。440524*********0014”“8788788880524188**997979***0014”代替。上述方法可分别用在需保密出生日期、保密出生日期但允许对数据按时代统计分析等场景。如所有的身份证号都使用“******************”代替。数据合成。采用重新产生的数据替代原身份证号,如使用数据集中的记录顺序号替代原身份证号,或随机产生符合身份证号编码规则的新身份证号代替原始值。电话号码加解密技术。采用密码或其他变换技术,将电话号码转变成另外的字符,并保持可逆特性。如使用密码和字符编码技术,使用“0124435898299799555555”代替“888888888999988888部分抑制遮盖。如“88888888888代替。如所有的电话号码都使用“******”代替。随机化替代。使用随机生成的一串数字来表示,如使用随机生成的“23465339999340”来取代“188889999988888企业合同编号机数字屏蔽,使用“LD-RL-**-2020****-**”替代。聚合统计。采用相关统计值代表原始数据记录,反映合同签订情况。如对企业2020年签订的设备采购类合同进行统计,转化为2020年某业务部门签订北京区域的采购合同18项。地址部分抑制遮盖。屏蔽地址中的一部分,以保护地址信息。如使用“江西省XX市XX县”来代替"江西省吉安市安福县”全部抑制遮盖。直接删除姓名或使用统一的“*”来表示。如所有的地址都使用“**********”代替。泛化编码。使用概括、抽象的符号来表示,如“江西省吉安市安福县”使用“南方某地”或“J省”来代替。数据合成。采用重新产生的数据替代原地址数据。如使用“黑龙江省鸡西市特铁县北京路23号”代替“江西省吉安市安福县安平路1号”。环境参数信息部分抑制遮盖。对室外传感器设备采集的温度、风速信息予以屏蔽,只显示湿度、气压、光线等信息,使其无法辨识是哪一特定位置传感器采集的环境参数。为其设置一定阈值,如温度>30℃70%。聚合统计。采用相关统计值代表原始数据记录。如将某地过去30风力≥85天。日期部分抑制遮盖。对日期中的一部分做屏蔽,如1880年某月1日代替1880年1月1日。如所有的数值都使用“某年某月某日”代替。泛化编码。使用概括、抽象的日期来表示,如使用1880年代替1880年1月1日。随机化-数据置换。使用数据集中其他记录的相应数值代替本(其他属性数据位置不变中。这种方法有利于保持数据集的统计特性。-(噪声添加18801132188022日。1972年8月12日”代替“1880年1月1日”。数值型标识符部分抑制遮盖。使用数值的高位部分代替原有数值,如百分制考试成绩全部使用去掉个位数、保留十位数的数值代替。全部抑制遮盖。直接删除数值或使用统一的“*”来表示。如所有的数值都使用“*****”代替。4个人,分别是蓝色、绿色和浅褐色的眼睛"来代替"1个人是蓝色眼睛,2个人是绿色的眼睛,1个人是浅褐色的眼睛"泛化-顶层和底层编码。大于或小于一个特定值的处理成某个7070以保障满足此条件的人数多于20000人。随机化-数据置换。使用数据集中其他记录的相应数值代替本(其他属性数据位置不变这种方法可以保持数据集的统计特性不变。-(噪声添加机数,将其加到原始数值上并代替原始数值。如对于身高1.720.1.61m。数据合成。采用重新产生的数据替代原始数据,数据产生方法可以采用确定性方法或随机性方法。如使用“19”岁年龄代替“45”岁年龄。辅助产品销售。附件三:部分数据处理技术方法应用建议技术方法技术特点适用场景应用限制应用现状同态加密技术方法技术特点适用场景应用限制应用现状同态加密对原始数据进行加密,使得加密数据和原始数据进行相同处理时,结果相同。可在不解密情况下对密文进行计算和分析医疗数据模私数据求交集和检索等计算消耗和性能要求较较高技术应用理用化程度还需提高抑制遮盖直接删除或采用字符掩码屏蔽隐私数据或部分字段,并保证底层数据无法访问或编辑,可以保持数据的真实性主要适用于用于数值与非数值数据属性容易导致信抑制会影响数据效用执行相对容与其他技术结合提升抗风险能力聚合统计将个体的数据转化为求和、平均、最大值与最小值等统计值,产生的结果能够代表原始数据集的所有记录,但不会披露任何个体记录适用于连续数据的整体报告或分析,且不需要反映每一单独数据记录的特征对个体特征的分析受限,可能会降低数据的有用性;对原始数据样本量有一定要求适用场景有限,多见于整体数据披露,需结合应用目选择具体统计方法泛化降低数据所选属性的颗粒度、精度,对数据进行更概括、抽象的描述,可以保护数据的真实性多用于数值被概括处理且仍对预期目的有用的数据需注意泛化范围的选取,过大可能过度破坏数据精确度,过小面临较大重新识别风险泛化技术实数据可直接用电子表格常数据处理中较常用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论