



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 面向半结构化医疗数据隐私保护关键技术研究 王换换吴响魏裕阳【摘 要】隐私保护是实现大数据价值的首要步骤和关键环节。目前,结构化数据隐私保护方法丰富,而医疗数据中常见的半结构化数据缺乏可靠的隐私保护模型及完善的平台支撑。针对这一问题,本文将从数据结构转化的角度入手,深入探索半结构化医疗数据的隐私保护方法及平台构建。【
2、关键词】隐私保护;半结构化;信息抽取1 研究意义医疗数据被充分共享的前提是保证数据的隐私安全。半结构化医疗数据是医疗大数据的重要组成部分,占有举足轻重的地位。医疗过程中形成的半结构化信息隐私内容多样,从中折射、反映、蕴含的资讯及信息具有巨大的应用价值,对于医学研究、政府统计或是其他个人、机构的科研有重要意义。然而,由于半结构化数据的复杂性、灵活性以及其自描述形式,现存的隐私保护技术满足不了半结构化医疗数据的隐私保护需求。目前,数据共享中的隐私保护技术主要基于三类模型:k-匿名模型1-2、l-多样性匿名模型3-4和t-closeness匿名模型。但大多数隐私保护技术都是针对结构化数据,对半结构化
3、医疗数据共享的隐私保护并不理想。而综合考虑技术、成本等问题,对半结构化医疗数据的隐私保护,应首先考虑使用成熟的结构化数据隐私保护方法,其关键是将半结构化医疗数据转化结构化数据。半结构化医疗数据的隐私保护问题要综合考虑到数据的异构性、复杂性、高维性等问题,明确中文医学信息数据特点造成半结构化信息抽取困难的问题,充分利用国内外半结构化数据抽取技术及结构化数据集信息的指导作用,将结构特征与词法、语义、表现形式等其他特征相结合,建立专门针对中文半结构化医疗数据特点的智能化信息处理模型及系统。此外,考虑到结构化后的医疗数据具有高维度、高复杂度的特点,需要更加高效的计算技术,自动并行化是解决这一问题的有效
4、途径之一。spark 是由伯克利大学开发的通用分布式内存计算平台,而弹性分布式数据集(resilient distributed dataset,rdd)是spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式操作分布式数据集的抽象实现,适合优化需要多次迭代操作的机器学习类算法。因此,半结构化医疗数据的隐私保护过程完成能够使用spark并行计算,进行高效地资源分配。2 研究内容本文主要解决半结构化医疗数据共享中的信息抽取、隐私保护、并行化等关键技术问题,在保证半结构化医疗数据共享后隐私安全的情况下,提高半结构化数据的可用性,为临床决策、科研提供数据资源的支持,构建面向半
5、结构化医疗数据共享的baas隐私保护平台。(1)面向半結构化医疗数据的信息抽取技术及医学术语知识库的构建建立服务于机器学习算法的中文医学术语知识库是信息抽取技术的基础,利用统计学方法学习标记好的语料库、获取规则、建立类似umls的中文医学术语知识库。标注少量医学病历作为统计学方法的训练集;探索适当的可用于医学问题识别的统计学算法;构建一个可以表明人物及其相应医学问题的信息表示方案;各部分研究间的关系可以构成一个信息抽取系统。(2)隐私保护算法的自动并行化技术引入spark技术,spark 使用基于内存计算的并行化计算模型弹性分布式数据集(resilient distributed datase
6、ts,rdd),提供强大的分布式内存并行计算引擎,支持快速迭代计算,将机器学习应用到常规并行化策略上,能够进一步提升训练速度。首先采用合理智能算法以及不同训练集对各个k-匿名算法进行测试训练,检测不同算法较为费时部分;其次测试该部分能否进行分布式计算法;最后spark平台进行分布式运算会涉及到通信开销,智能算法训练各k-匿名算法,给定各算法进行分布式所需要的数据集阈值。对k-匿名算法设计采用了并行化局部优化的迭代计算模式,有效提高匿名效率。(3)构建面向半结构化医疗数据的分布式隐私保护baas平台构建面向结构化医疗数据的分布式隐私保护baas平台,该平台应具备上载结构化数据集和半结构化数据集、
7、连接数据库、医学数据信息抽取模块、隐私保护模块、提供k-匿名算法的rest-api。平台内含自建中文临床子语言语法规则及医学术语知识库,为信息抽取的精确性提供知识储备及技术支持。隐私保护模块能够按需求进行全域k-匿名或局域k-匿名的选择、具体实现k-匿名算法的选择、隐私保护模型的选择,同时该模块具有是否使用分布式计算的选项。3 研究方法首先建立医学术语知识库及命名实体规则库,对半结构化医疗数据进行信息抽取,测试抽取信息的准确性。对抽取后的结构化数据匿名,测试k-匿名算法的功能及其使用范围。挖掘匿名前后数据所包含的信息,对比挖掘结果,对匿名后的数据集进行信息损失量的度量,给出k-匿名算法的评估标
8、准。为节省处理数据的时间,准确找到各算法适合的分布式计算模块,在k-匿名算法功能测试后,使用训练集对各k-匿名算法的代码模块进行训练,分析每个程序段的运行时间,探寻各个方法的运行时间、次数等统计信息,并采用深度贪婪算法迭代统计含子程序的代码段的运行时间,找出算法最耗时模块,对该模块进行分布式处理,使其单线程计算变为并发式计算。使用gate程序对半结构化程序进行信息抽取,gate的抽取信息的准确性高达97.58%,处理速度为31.5kb/s,完全可以满足现有情况下的信息抽取要求。选择匿名模型及匿名算法,利用匿名算法处理抽取后的结构化数据,完成匿名。如果选择的匿名算法匿名后的数据集不符合要求,则重
9、新选择匿名算法进行匿名数据集,直到匿名后的数据集满足隐私保护和数据可用性的双重要求。同时,在匿名化之前,根据已训练出的参数进行分布式需求判断,如果分布式较为节省时间则采用分布式计算,如果因为分布式处理的通信开销造成时间浪费,则采用单线程处理数据。4 实施方案与研究步骤第一步:关键词提取,分词处理是识别半结构化医疗数据的第一步(1)自主收集和制作中文词表;(2)编写针对中文特性的规则。该方法不但可以准确地抽取出个人信息,而且因其包含的icd-10词库可以把半结构化数据中包含的疾病、诊断、健康状况信息转化为结构化数据,方便对半结构化数据的挖掘,进一步提高了半结构化数据的价值。第二步:半结构化医疗数
10、据隐私保护处理针对提取出的个人信息,例如住址、年龄、提问等信息,本文将采用k-匿名模型对其进行匿名化處理。考虑到k-匿名是把精确数据模糊化,因此,该方法匿名的数据集会产生一定的信息损失,对此本文采用il评估方法对匿名表进行信息损失量的判断。为了更好的进行隐私保护,在k-匿名模型的基础上引入l-diversity模型、t-closeness模型对其进行匿名化操作。第三步:spark分布式并行化算法处理技术k-匿名算法是需要多次对数据操作即多次访问i/o端口,故可以通过减少k-匿名时的i/o操作较少匿名化时间,本文采用spark平台,把数据存储在内存中,避免不断从硬盘读取数据,节省访问i/o端口的
11、通讯时间。考虑到spark计算本身具有通信开销,当数据量较小时,使用spark分布式进行k-匿名算法可能会形成时间上的浪费。因此,本文使用不同大小的训练集、不同属性大小的训练集和不同泛化规则的训练集不断进行训练,找出来各k-匿名算法使用spark平台可以减少时间阈值5。在阈值之内的数据集,将会建议采用单线程计算以节省时间和资源,大于此阈值的数据集,将会合理的给出分布式计算意见。第四步:构建面向半结构化数据的分布式隐私保护baas平台构建后端即服务baas平台,通过web service技术构建rest api,为开发者提供接口。在服务器端提供对底层系统的抽象,以实现对底层通用数据处理引擎的支持
12、,并提供上传结构化数据集和半结构化数据集、连接数据库、医学数据信息抽取模块、隐私保护模块、k-匿名算法等编程语言接口(api),从而满足开发者的需求。【参考文献】1samarati p,sweeney l.protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.sri computer science laboratory technical report sri-csl-98-04,1998.2samarati p.protecting respondentsidentities in microdata releasej.ieee trans knowl data eng,2001,13:1010-1027.3machanavajjhala a,kifer d,gehrke j,and venkitasubramaniam m.1-diversity:privacy beyond k-anonymity.acm trans knowl discov. data 1.1.2007.4li n h,li t c,venkatasubramanian s.t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临汾市大宁县2024-2025学年数学三下期末经典模拟试题含解析
- 辽宁省新宾县联考2024-2025学年初三四模英语试题试卷含答案
- 西藏省重点中学2025年中考语文试题5月冲刺题含解析
- 江西应用工程职业学院《医疗器械注册与质量管理》2023-2024学年第一学期期末试卷
- 吉林工程技术师范学院《医学昆虫学》2023-2024学年第一学期期末试卷
- 江西2025年数学三下期末达标检测模拟试题含解析
- 四川西南航空职业学院《家具展示设计》2023-2024学年第二学期期末试卷
- 昆山登云科技职业学院《冶金学术基础英语》2023-2024学年第一学期期末试卷
- 郑州旅游职业学院《通信工程专业导论》2023-2024学年第一学期期末试卷
- 开封大学《学前儿童社会活动设计与指导》2023-2024学年第二学期期末试卷
- 《民航重大安全隐患判定标准(2024 年修订版)》知识培训
- 国家安全你我有责-2025全民国家安全教育日主题宣教课件
- 楼梯 栏杆 栏板(一)22J403-1
- 合同工期延期补充协议书
- 幼儿园绘本故事《三只小猪盖房子》教学课件全文
- JBT 7387-2014 工业过程控制系统用电动控制阀
- 2024年河南省水务规划设计研究有限公司人才招聘笔试参考题库附带答案详解
- 【基于STM32智能门锁系统的设计10000字(论文)】
- 音调控制电路模拟部分
- 会计制度设计教案
- 灯具产品合格证
评论
0/150
提交评论