团体标准《广东省健康医疗数据脱敏技术规范》_第1页
团体标准《广东省健康医疗数据脱敏技术规范》_第2页
团体标准《广东省健康医疗数据脱敏技术规范》_第3页
团体标准《广东省健康医疗数据脱敏技术规范》_第4页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、L 80团体标准T/GZBC XXXXXX广东省健康医疗数据脱敏技术规范Technical specification for desensitization of medical dataXXXX- XX- XX发布XXXX- XX- XX实施广州市标准化促进会发布T/GZBC XX XXXX目次前言.II引言.I II1范围.12规范性引用文件 .13术语和定义 .14数据脱敏原则与方法 .24.1脱敏原则 .24.2脱敏方法 .35医疗敏感数据定义 .35.1敏感数据分类 .35.2个人敏感信息定义 .36健康医疗数据脱敏策略 .66.1数据可用性定级 .66.2数据保密性定级 .66.

2、3数据脱敏策略 .67 审计及追踪溯源 .7附录 A (规范性附录)数据脱敏方法 . .8附录 B (规范性附录)数据脱敏场景应用 . .10参考文献 .11IT/GZBC XX XXXX前言本标准按照 GB/T 1.1 2009给出的规则起草。本标准由广东省健康医疗大数据标准工作组提出并归口。本标准起草单位 :暨南大学附属第一医院 、东莞市卫生统计信息中心 、广州医博信息技术有限公司 、南方医科大学第三附属医院、中山大学附属第一医院、南方医科大学珠江医院、连州市人民医院、广东网安科技有限公司、北京安华金和科技有限公司、杭州美创科技有限公司、北京天融信安全技术有限公司、广州云图数据技术有限公司

3、、中电数据服务有限公司。本标准主要起草人:吴庆斌、熊劲光、张志强、张家庆、林琳、张巍、邓意恒、陈桂君、魏书山、杨海峰、黄熙、张武、黄晓涛、韩思蒙、陆慧菁、高峰、陈涛、李永强、查正清、邓意恒、吴丽萍。本标准为首次发布。IIT/GZBC XX XXXX引言医学是数据密集型行业,无论是公共卫生、临床服务、医学研究都离不开数据循证的支撑。健康医疗大数据的安全和发展是相辅相成的,安全是发展的前提,发展是安全的保障。对于健康医疗大数据的安全和个人健康医疗数据相关的隐私保护,应予以高度重视。 患者个人隐私数据泄露及非法“统方”等数据安全隐患 已成为国家和媒体关注的重要社会焦点问题。加强健康医疗数据的脱敏和去

4、标识化处理,是健康医疗大数据的安全应用和发展必不可少的重要一环。数据脱敏的主要目标是按照脱敏规则通过变形、转换等方式降低数据敏感程度,在数据的采集、传输、使用等环节最小化敏感数据的暴露。在降低数据敏感程度的基础上,数据脱敏技术会最大限度地保持脱敏后数据的可用性,使脱敏后的数据依旧能够满足关联分析、机器学习、即时查询等需求。IIIT/GZBC XX XXXX广东省健康医疗数据脱敏技术规范1 范围本标准规定了广东健康医疗数据脱敏的术语定义、原则、方法、策略、审计及追踪溯源等技术要求。本标准适用于指导健康医疗数据控制者对健康医疗数据进行安全保护,也可供健康医疗机构、相关主管部门以及第三方评估机构等组

5、织开展健康医疗数据的安全监督管理与评估等工作时参考。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 35273 2017 信息安全技术个人信息安全规范DB 52/T 1126 2016 政府数据数据脱敏工作指南3 术语和定义GB/T 35273 2017、 DB 52/T 1126 2016界定的经济下列术语适用于本文件。3.1个人健康医疗数据能够单独或者与其他信息结合识别特定自然人或者反映特定自然人生理或心理健康相关信息,涉及个人过去、 现在或将来的身体或精

6、神健康状况 、接受的医疗保健服务和与医疗保健服务相关的支付信息等。注:个人健康医疗数据可能包括:a) 提供健康医疗服务时登记的个人信息;b) 出于健康医疗目的,例如治疗、支付或保健护理等,分配给个人的唯一标识号码或符号等;c) 在向个人提供健康医疗服务过程中收集的有关个人的任何信息,例如既往病史、社会史、家族史、症状和生活方式等各类病历记载的信息,也包括基因信息以及测序的信息;d)来自身体部位或身体物质,例如组织、体液、血、尿、便、气体、生物大分子、 DNA、 RNA等检查或检验的结果信息;e) 可穿戴设备采集的与个人健康相关的信息,并且该种信息:1) 本身或者明显为健康医疗相关信息;2) 或

7、是由传感器采集的,并且可以单独或者与其他数据结合用来对可穿戴设备的用户的健康状况或者疾病风险进行判断的信息;3) 或是可穿戴设备采集的信息并且为对用户的健康状况或者疾病风险进行判断后的结论;4) 或是通过可穿戴设备相连的 APP或者系统进行传送的,并非可穿戴设备使用者另行提供的;f) 接受的健康医疗服务相关信息,例如检验检查医嘱、诊断、操作、药物、医疗效果等;g) 为个人提供健康医疗服务的服务者身份信息;1T/GZBC XX XXXXh) 关于个人的支付或医保相关信息。3.2健康医疗数据包括个人健康医疗数据以及由个人健康医疗数据加工处理之后得到的健康医疗相关信息数据。3.3个人健康医疗数据主体

8、个人健康医疗数据所标识的个人。3.4健康医疗数据控制者决定健康医疗数据处理目的、方式等的组织或个人,包括提供健康医疗服务的组织、医保机构或公司、政府机构、健康医疗科学研究机构等,其以电子形式传输或处理健康医疗数据。3.5数据脱敏从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程。DB 52/T 1126-2016,定义 2.13.6个人敏感信息一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。GB/T 35273-2017,定义 3.24 数据脱敏

9、原则与方法4.1脱敏原则4.1.1有效性有效性应符合 DB 52/T 11262016,3.1.1.1 中数据脱敏有效性原则的规定。4.1.2真实性真实性应符合 DB 52/T 11262016, 3.1.1.2中数据脱敏真实性原则的规定。4.1.3高效性高效性应符合 DB 52/T 1126 2016,3.1.3中数据脱敏高效性原则的规定 。4.1.4稳定性稳定性应符合 DB 52/T 1126 2016,3.1.4中数据脱敏稳定性原则的规定。2T/GZBC XX XXXX可配置性可配置性应符合DB 52/T 1126 中数据脱敏可配置性原则的规定。安全性具备安全审计机制,一旦发生泄密事件可

10、用于问题排查及数据追溯分析。4.2脱敏方法根据应用场景和实现机制,数据脱敏方法可分为静态数据脱敏和动态数据脱敏。a) 静态数据脱敏旨在通过类似ETL 技术的处理方式,按照脱敏规则一次性完成大批量数据的变形转换处理 。动态数据脱敏旨在通过类似网络代理的中间件技术,按照脱敏规则对于外部申请访问的数据进行即时处理并返回脱敏后结果;b)数据脱敏方法及应用场景应符合附录A 和附录 B 要求。5 医疗敏感数据定义5.1敏感数据分类医疗敏感数据分类见表1。表 1 敏感数据分类数据类型范围个人属性数据1)人口统计信息,包括姓名、年龄、性别、民族、国籍、职业、住址、工作单位、家庭成员信息等;2)个人身份信息,包

11、括姓名、身份证、工作证、居住证、社保卡、可识别个人的影像图像等;3)个人通讯信息,包括个人电话号码、邮箱、账号及关联信息等;4)个人生物识别信息,包括基因、指纹、声纹、掌纹、耳廓、虹膜、面部特征等;5)个人信用记录信息,包括个人信用档案、个人信用评分、个人信用报告等。健康状况数据既往病史(包含传染病史)、社会史、家族史、过敏史、症状、健康体检数据、可穿戴设备采集的健康相关信息、生活方式等。医疗应用数据医嘱单、检验报告、诊断结果、用药信息、病程记录、诊治记录、用药记录、手术记录、护理记录、住院记录、医疗效果等。医疗资金和支1)医疗交易信息包括支付信息、消费金额、交易记录等;付数据2)保险信息包括

12、保险账号、保险状态、保险金额等。卫生资源数据医院基本数据、医院运营数据、医院公卫数据等。公共卫生信息传染病疫情信息、疾病监测信息、疾病预防信息、出生死亡信息等。5.2个人敏感信息定义个人敏感信息的定义见表2。3T/GZBC XX XXXX表 2个人敏感信息个人敏感信息分类数据元标识符数据元名称DE02.01.039.00本人姓名DEO2.01.040.00性别代码DE02.01.005.01出生日期DE02.01.010.00本人电话号码DE02.01.003.00常住地址户籍标志DE02.01.009.01详细户籍地址 - 省(自治州、直辖市)DE02.01.009.02详细户籍地址 - 市

13、(地区、州)个人基本资料DE02.01.009.03详细户籍地址 - 县(区)DE02.01.009.04详细户籍地址 - 乡(镇、街道办事处)DE02.01.009.05详细户籍地址 - 村(街、路、弄等)DE02.01.009.06详细户籍地址 - 门牌号码DE02.01.047.00户籍地址邮政编码DE02.01.009.01详细现住地址 - 省(自治州、直辖市)DE02.01.009.02详细现住地址 - 市(地区、州)DE02.01.009.03详细现住地址 - 县(区)DE02.01.009.04详细现住地址 - 乡(镇、街道办事处)个人基本资料DE02.01.009.05详细现住

14、地址 - 村(街、路、弄等)DE02.01.009.06详细现住地址 - 门牌号码DE02.01.047.00现住地址邮政编码DE02.01.025.00民族个人基本资料DE02.01.015.00国籍DE02.01.012.00电子邮箱地址家庭关系DE02.01.031.00身份证件类别代码DE02.01.030.00身份证件号码身份证信息个人身份信息军官证信息护照信息驾驶证信息社保卡信息居住证信息DE04.50.001.00/DE04.50.010.00ABO血型代码 /Rh 血型代码个人基因信息个人生物识别信息指纹声纹4T/GZBC XX XXXX表 2个人敏感信息(续)个人敏感信息分类

15、数据元标识符数据元名称掌纹个人生物识别信息耳廓虹膜面部特征网络身份标识信息个人信息主体账号和密码用户个人数字证书药物食物过敏DE02.10.023.00药物过敏史标志信息DE05.01.022.00药物过敏源DE02.101.021.00既往患病种类代码以往病史DE05.01.035.00既往患病确诊日期DE02.10.026.00疾病史(含外伤)DE02.10.033.00既往疾病诊断名称代码传染病史DE05.01.012.00传染病名称代码手术及麻醉记DE02.10.062.00手术史标志DE02.10.061.00手术史录DE06.00.095.00手术(操作)日期时间外伤史DE02.1

16、0.069.00外伤史标志DE02.10.068.00外伤名称个人外伤史DE02.10.067.00外伤发生日期时间健DE06.00.106.00输血史标志康输血史DE06.00.107.00输血原因生DE06.00.105.00输血日期时间理DE02.10.095.50家族性疾病名称代码信家族病史DE02.10.024.00患者与本人关系代码息DE02.10.026.00遗传性疾病史个人身体健康DE05.10.006.00残疾情况代码DE02.10.050.00免疫接种情况代码状况相关信息DE08.50.004.00免疫接种疫苗名称代码DE02.10.031.00既往观察项目名称DE02.1

17、0.030.00既往观察项目代码名称诊治相关记录DE02.10.029.00既往观察项目代码DE02.10.027.00既往观察方法名称DE02.10.028.00既往观察结果护理记录用药记录诊治相关记录挂号记录就诊医疗机构个人教育工作信息DE08.10.007.00工作单位名称5T/GZBC XX XXXX表 2个人敏感信息(续)个人敏感信息分类数据元标识符数据元名称个人教育工作信息DE02.01.001.00参加工作日期个DE07.00.007.00医疗费用支付方式代码DE02.01.045.00医疗保险类别名称人交易和消费记DE02.01.044.00医疗保险类别代码财录医疗费用金额产流

18、水记录信银行账号息存款信息DE02.01.039.00联系人姓名DE02.01.010.00联系人电话号码其他信息DE02.01.010.00本人电话号码DE02.01.018.00婚姻状况代码精准定位信息6 健康医疗数据脱敏策略6.1数据可用性定级数据可用性,即执行数据脱敏的同时尽可能保留数据的使用价值,最小化数据失真程度,满足一些基本或复杂的数据分析与挖掘。针对数据应用的不同场景,可将数据可用性定级分为“高”、“低”两级:a) 数据可用性“高”即脱敏后数据满足数据应用要求且数据失真程度较低;b) 数据可用性“低”即脱敏后数据满足数据应用要求且数据失真程度较高。6.2数据保密性定级针对医疗机

19、构敏感健康医疗数据泄露造成的社会危害性严重程度将数据保密性定级分为“高”、“低”两级:a)个人健康医疗数据本身具有一定敏感性,但数据持有者无法通过技术手段处理实现个人医疗健康数据主体身份之特定化,即使该类数据泄露,也无法对该特定个人医疗健康数据主体的个人隐私与人格尊严造成实际损害或威胁,则此类数据的数据保密性定级为“低”。b)参照关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释中关于个人敏感信息设置的 50 条以上、 500 条以上、 5000 条以上的入罪标准以及数量未达到入罪标准,但按相应比例合计达到有关数量标准的敏感数据,因此类数据泄露造成事件影响属于“情节严重”或“情节特别严重”

20、的相关数据保密性定级为“高”。6.3数据脱敏策略各医疗机构在设定具体场景下数据脱敏策略时应充分考虑数据脱敏后数据自身可用性及数据保密性寻求两者间的平衡。数据脱敏策略的选择可参考表3。数据脱敏的目标包括:6T/GZBC XX XXXXa) 避免攻击者识别出原始个人信息主体;b) 控制重标识的风险,确保重标识风险不会增加;c) 在控制重标识风险的前提下,确保脱敏后的数据集尽量满足其预期目的;d) 选择合适的数据处理方式保证信息攻击成本不足以支撑攻击动机。表 3 数据脱敏策略数据保密性数据高低脱敏策略数据可用性宜使用:泛化技术、随机干扰、重排、置宜使用:同态加密高换、屏蔽、替代不宜使用:遮挡、替代不

21、宜使用:数值变换、空值插入宜使用:对称加密算法(3EDS、AES、SM1、宜使用:统计技术、随机化技术、泛化技低SM4)、替代、空值插入、数值变换术、数据截断、空值插入、遮挡不宜使用:遮挡不宜使用:加密技术7 审计及追踪溯源在数据脱敏的各个阶段需加入安全审计机制,严格、详细记录数据处理过程中的相关信息,形成完整数据处理记录 ,用于后续问题排查与数据追踪分析,一旦发生泄密事件可追溯到是在哪个数据处理环节发生的。7T/GZBC XX XXXX附录 A(规范性附录)数据脱敏方法数据脱敏方法详见表A.1。表 A.1数据脱敏方法介绍序号数据脱敏方法类别数据脱敏方法子类简要描述1数据抽样针对大样本的数据集

22、进行抽样后进行去标识化预处理,增加识别出特定个人信息主体的不确定性,提升去标识化技术有效性统计技术数据聚合作为一系列统计技术(如求和、计数、平均、最大值2数据聚合与最小值) 的集合,应用于微数据中的属性时,产生的结果能够代表原始数据集中的所有记录3确定性加密确定性加密是一种非随机对称加密。在去标识化过程中应用时,确定性加密用加密结果替代微数据中的标识符值4保序加密保序加密是一种非随机对称加密。用作去标识化技术时 ,保序加密可用加密值替代微数据中的标识符值同态加密提供了一种对加密数据进行处理的功能,对经过同态加密的数据处理得到一个输出,将这一输出进行解密 ,其结果5同态加密与同一方法处理未加密的

23、原始数据得到的输出结果一致。同态加密是一种随机加密 ,当作为去标识化技术的一部分加以采密码技术用时,对加密数据进行处理,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果6保留格式加密保留格式加密要求密文与明文具有相同的格式,保留格式加密可用加密值替代微数据中的标识符值同态秘密共享可将一个秘密拆分为“若干份额”,可利用拆分7同态秘密共享后秘密信息的特定子集来重构原始的秘密,如果对用于重构秘密的所有份额执行相同的数学运算,则其结果等价于在原始秘密上执行相应数学运算的结果。8屏蔽屏蔽技术包括从数据集中删除所有直接标识符,并尽可能剥离数据集中所有记录的部分或全部剩余标识符局部抑制技术是

24、一种去标识化技术,即从所选记录中删除特定9抑制技术局部抑制属性值,该特定属性值与其它标识符结合使用可能识别出相关个人信息主体10记录抑制记录抑制是一种从数据集中删除整个记录或一些记录的去标识化技术11假名化技术独立于标识符的假独立于标识符的假名创建技术不依赖于被替代的属性原始名值,而是独立生成,典型方法为用随机值代替属性原始值8T/GZBC XX XXXX表 A.1 (续)序号数据脱敏方法类别数据脱敏方法子类简要描述基于密码技术的标基于密码技术的标识符派生假名创建技术通过对属性值采用加12假名化技术密或散列等密码技术生成假名,这一过程也称为对数据集中的识符派生假名属性进行“密钥编码”13取整取

25、整涉及到为所选的属性选定一个取整基数,然后将每个值向上或向下取整至最接近取整基数的倍数14泛化技术截取直接舍弃不需要的信息,仅保留部分关键信息15顶层与底层编码顶层与底层编码技术使用表示顶层(或底层)的阈值替换高于(或低于)该阈值的值16噪声添加通过添加随机值、“随机噪声”到所选的连续属性值中来修改数据集,同时尽可能保持该属性在数据集中的原始统计特性17随机化技术置换在不修改属性值的情况下对数据集记录中所选属性的值进行重新排序的一种技术18微聚集用某种算法方式计算出来的平均值代替连续属性所有值的去标识化技术指用伪装数据完全替换源数据中的敏感数据,一般替换用的数据都有不可逆性 ,以保证安全。替代

26、是最常用的数据脱敏方法,具体操作上有常数替代(所有敏感数据都替换为唯一的常数值)、查表替代(从中间表中随机或按照特定算法选择数据进行19替代替代)、参数化替代(以敏感数据作为输入,通过特定函数形成新的替代数据)等。具体选择的替代算法取决于效率、业务需求等因素间的平衡。替代方法能够彻底的脱敏单类数据,但往往也会使相关字段失去业务含义,对于查表替代而言,中间表的设计非常关键。指对数值和日期类型的源数据,通过随机函数进行可控的调整(例如对于数值类型数据随机增减 20%;对于日期数据,随机20数值变换增减 200天),以 便在保持原始数据相关统计特征的同时,完成对具体数值的伪装。数值变化通过调整变动幅

27、度可以有效控制目标数据的统计特征和真实度,是常用的脱敏方法21遮挡指对敏感数据的部分内容用掩饰符号(如“X、 * ”)进行统一替换,从而使得敏感数据保持部分内容公开22空值插入将敏感数据设置为 NULL值23数据合成技术以人工方式产生微数据的方法,用以表示预定义的统计数据模型24差分隐私模型差分隐私是对数据发布时数据集中的隐私损失进行量化的数学模型25K-匿名模型K- 匿名模型是在发布数据时保护个人信息安全的一种模型9T/GZBC XX XXXX附 录B(规范性附录)数据脱敏场景应用数据脱敏场景应用见表 B.1。表 B.1数据脱敏场景应用场景场景说明确定脱敏策略执行脱敏操作互联网医互联网医院由互联网进行远程访问,会涉及到与结合本文 6.3 内容,宜选用互联网医院与院内业务系院诊疗实体医疗机构的业务系统数据交换,包含患者历数据加密技术实现对相关统间数据交互传输宜采用史疾病诊断信息、检验检查信息等敏感数据。互健康数据的保护,从传输、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论