




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
C U2C U24卫生健康行业隐私计算应用与实践002·NSFOCUS隐私计算在科教卫生领域应用白皮书随着数字经济的蓬勃发展,数据已经成为新时代的重要生产要素,并成为国家基础性战略资源。在我国新基建全面展开、大规模实施的有力推动下,基础设施的不断完善,促进了我国数字经济的持续快速发展,其中2021年续多年位居世界第二。2021年,我国数字经济市场规模已经扩大为45.8万亿元,年均复合数字经济之所以有如此的活力与动力,就在于数字经济是一种与传统的农业经济和工业经济完全不同的经济形态。在这种新的经济形态下,数据成了驱动经济运行的关键性生产要素。在数字经济的发展过程中,数据起着核心和关键作用,对土地、劳动力、资本、技术等习近平总书记指出,要“发挥数据的基础资源作用和创新引擎作用”,“构建以数据2019年,党的十九届四中全会首次明确数据可作为生产要素按贡献参与分配,提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报与其他生产要素不同,数据这一生产要素只有通过跨领域、跨行业、跨地域的机构间数享),激活数据要素的价值,从中央到地方,均相继出台了相关政策和条例,鼓励数据依法003中央充分发挥我国海量数据、广阔市场空间和丰富应优势,充分释放数据要素价值,激活数据要素潜能,以推动数据技术产品、应用范式、商业模式和体制机制协加快政务数据开放共享和开发利用,深化推进“一网通整合健康可穿戴设备、互联网医疗、医疗保险等多源异制度和标准规范,深入开展数据资源调查,推动数据资《数字交通“十四五”进一步完善交通运输信息资源共享机制和交换渠道,实探索推进数据互联互通。强化道路客运电子客票服务网络安全、数据安全和个人信息保护,确保系统安全平稳完善公共数据开放共享机制。建立健全高效的公共数据充分发挥政务数据共享协调机制作用,强化全国一体化政务服务平台的数据共享枢纽功能,提升数据共享的稳坚持共享共用,释放价值红利。合理降低市场主体获取不断强化数据能力建设,有序推进跨机构、跨地域、跨行业数据规范共享有力,全面深入金融与民生领域数据省市明确公共数据平台一体化建设规范,要求省公共数据主管部门会同省有关部门,统筹建设一体化智能化公共数据平台,实现公共数据跨层级、跨地域、跨系统、跨部门、跨业务有效流通和共享利用,促进省域整体推动长三角区域数据合作,建设全国一体化大数据中心体系长三角国家枢纽节点,通过长三角数据共享来促进004省市加快培育数据要素市场,推动构建数据收集、加工、共享、开放、交易、应用等数据要素市场体系,促进数据推动建立公共数据区域一体化标准体系,推进公共数据资源供需对接和共享应用,促进数据要素市场一体化发县级以上人民政府应当推进现代信息技术在政务服务领加强数据资源开发利用。探索破解“信息孤岛”“数据烟囱”,建立健全公共数据共享协调推进机制,对公共重庆与四川省共同开展川渝地区数据标准化体系建设,按照区域数据共享需要,共同建立数据基础性标准和规大数据主管部门应当加强对公共数据全生命周期管理,统筹推进各类数据资源汇聚利用,加速数据流通,激发数据活力,提高数据资源价值创造水平,挖掘和释放数推进行业数据价值挖掘,释放公共数据价值,助力数字综合试验区“十四五”探索建立跨区域数据流通、算力协同机制,促进形成国局实施数据要素大开发行动,加快公共数据高质量归集和共享开放。推进数据流通交易,优化提升贵阳大数据交加强与省外数字经济合作,促进基础设施共建共享,数据资源依法有序流动、合法有效利用,数字产业协在临港新片区内探索制定低风险跨境流动数据目录,促进数据跨境安全有序流动。支持临港新片区推进国际数据产业发展,培育发展数据经纪、数据运营、数据质量005随着数字化转型的不断推进与深入,数据安全与隐私问题越来越严峻,现代化的数据安全与隐私保护立法已成为全球趋势。各个国家已经深刻认识到了数据的重要性,并开始通过立法手段加强保护数据安全,如欧盟的《通用数据保护条例》(GDPR国内的《中华人它是我国首部较为全面规范网络空间安全管理方面问题的基础性法律,不仅包括网络运行安求意见稿)》和《个人信息出境安全评估办法(征求意见稿)》等法规;同年10月1号网首次在我国法律中明确且具体提出“隐私权”的概念,并确立隐私权范围和个人信息保护一2020年7月,我国对外发布《中华人民共和国数据安全法(草案)》,并于2021年6确立了数据分级分类保护、数据安全风险评估、应急处置机制和安全审查的重要制度,明确据安全法》更加强调总体国家安全观,对国家利益、公共利益和个人、组织合法权益方面给006关重要的意义,同时促进以数据为关键要素的数字经济健康发展;从企业层面来安全法》和《个人信息保护法》是企业数据活动必须遵循的“行为规范”,是重要的法规监共享相关的政策和条例中,均有数据安全部分的描述,另外,表2中还补充了其他与数据安行业规章和标准。尤其是2021年11月国家互联网信息办公数据安全管理条例(征求意见稿)》,对《数据安全法》和《个人信息保护法》的法律条款数据汇聚融合时,涉及第三方机构合作的,要采用在保障数据安全的前提下,稳妥推动数据资源开发利用,发挥数据生产要素作用,保障数据依法依规健全覆盖数据收集、传输存储、使用处理、开放共享等全生命周期的数据安全保障制度。规范数据开互联网医疗健康信息安全数据管理:互联网医疗健康信息安全管理明确数据在采集、存储、传输、应鼓励汽车数据依法合理有效利用,倡导汽车数据处理者在开展汽车数据处理活动中坚持脱敏处理原规范数据开发利用和共享使用。明确数据共享和开发利用的安全管理和责任要求,对数据合作方数据安全保护能力进行审核评估,对数据共享使用情况工业和信息化领域数据处理者委托他人处理重要数据和核心数据的,应当对被委托方的数据安全保护国家建立健全数据交易管理制度,明确数据交易机构设立、运行标准,规范数据流通交易行为,确保007加强第三方数据合作安全评估,交由第三方处理数利用数据挖掘、关联分析等技术手段开展加工处理各医疗卫生机构发布、共享数据时应当评估可能带从以上法律法规中的相关条文可以看出,在涉及数据流通及共享使用问题上,均有明确建设进行顶层设计,明确了统筹制定信息化标准规范体系的要求和内涵,要求在信息标准与数据交换技术规范的基础上实现数据交换与共享了《教育部机关及直属事业单位教育数据管理办法》,推进数据规范管理、互联互通和共享列技术和功能标准规范,探索资源共享新机制”、“完善教育数据标准规范,促进政务数据育部等七部门印发了《关于加强教育系统数据安全工作的通知》,明确提出“要建立教育系2022年1月12日,《“十四五”数字经济发展规划》提出“深入推进智慧教育”,强调推进教育新型基础设施建设,深入推进智慧教育示范区建设,推动“互联网+教育”持续008·NSFOCUS隐私计算在科教卫生领域应用白皮书略行动”,建设国家智慧教育公共服务平台,加快推进教育数字转型与智能升级。文件中对由此,如何在当前教育信息化快速建设中进行数据共享建设,保证教育数据顺利、高效根据教育部发布的2021[6]年全国教育事业统计主要结果,全国共有各级各类学校52.93的科研成果、学术资料、师生身份信息等数据被搜集、存储、汇聚,其中大量信息用于行业科研合作、数据交换和共享,成为支撑业务运营发展的重要资产。与此同时,随着学校及科研院所业务系统数据的互联互通,相关科研成果、课程资料、重要实验数据、学生个人信息个人信息泄露而被骗走上大学的费用9900元,后因郁结2018年8月,浙江省1000万学籍数据在暗网上被售卖2018年1月,一名黑客发文称1400万名俄罗斯大学毕业生信息泄露,即十分之一俄罗斯人的信息泄露,这些信息包括姓名、出生日期、个人账户的保险号码、纳税人识别号码、子邮件元数据;2019年8月,某高校50余名学生个人信息泄露,泄漏的信息被一家企业所大学生回家,而新冠疫情暴发后,包含该学生在内的1000多名武汉个人信息表格转遍了全2022年,某教育软件被曝数据库用户数据泄露且在境外平台被公开售卖,泄露数据量高达1亿7273万条,泄漏数据涉及学校名、姓名、手机号、学号、性别、邮箱、密码等个人009当今世界已经步入了信息化时代,卫生健康行业也正在快速推进信息化的进程,据艾国医疗信息化市场空间将达到1245亿元[11]。医疗数据作为一项重要的资产,是医疗卫生领域重要的生产要素,也是反映国民幸福指数的根本依据[12]。我们通过利用数学、计算机等学科的技术,可以将数据转化为宝贵的医疗信息,从而帮助医院、药企等机构提供更好2021-2025年中国区域信息化市场空间12451400124512009517398005814664664002002021年2022年2023年2024年2025年然而在利用医疗数据提供更好医疗服务的同时,数据安全与隐私问题也日益严峻。据美国HIPPAJournal的报告显示,2020年全美上报的医疗记录数据泄露事件数量是2015年的2倍以上、2010年的3倍以上,2009至2020年间,全美共有超过2.68亿份医疗记录遭010·NSFOCUS隐私计算在科教卫生领域应用白皮书研究发现,2019年全球约有590台医学影像归档和通信系统服务器存在安全隐患,其中大约有2430万条患者记录和4亿个放射图像直接暴露在了公网之上,这些患者数据包括患者姓名、检查原因、出生日期、主治医师、治疗医院等个人隐私信息[14]。2019年6月4日,LabCorp向美国证券交易委员会提交了一份文件,称其包含770万名患者的数据库被黑客侵入。这个数据库存储了患者的姓名、生日、地址、电话号码以及所欠或支付的金额,且大约近些年来,我国卫生健康行业医疗数据的安全问题也屡见不鲜。在2018年7月,武汉警方通报抓获了一个贩卖医疗客户信息的黑客组织,该黑客组织窃取并非法售卖了我国多省价格非法出售慧影医疗技术公司AI(ArtificialIntelligence,人工智能)检测新冠病毒技术的数据在流动与使用过程中如何实现安全保护与监管,本身就具有不小的挑战性。传统的数据安全保护,主要通过制定合理的管理措施,并结合加密存储、用户访问控制、用户行为审计等技术,严格限制数据的存储、访问和使用方式。优点是技术成熟度高,应用门槛低,缺点主要针对单个企业/组织内部的数据使用安全,很少考虑不同企业/机构之间的数据安而在当今大数据与人工智能时代,数据本身就是重要的生产要素,单一企业/组织采集的数据由于维度或数据量的不足,很难完全满足数据的统计和计算需求,这就需要联合多个数据拥有方一起共享数据资源,进行数据处理,实现数据价值的最大化。但在此过程中,同企业对于数据开放的安全性、合规性、权益分配等方面的考量,阻碍了数据的互联互通与价值实现。因而市场面临“数据需要开放,却又难以开放”的困境。解决这一矛盾需要扎实的安全技术支撑。这种新型的数据安全需求,导致了如何在保证各机构/企业/个人数据私密性的前提下,实现多方数据的联合查询、统计、建模、预测、分析,成为了数据处理领的矛盾提供了重要思路与解决方案,并且在实践过程中不断得到政府和企业的认可。表3展011试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境,提高数据流通)(通过隐私计算等数据安全技术的研究与应用促进数据积极应用多方安全计算、联邦学习、差分隐私、联盟链等技术,探索建立跨主体数据安全共享隐私计算平台,在保障原始数据不出域前提下规范开展数据共享应用,确保数据交互安全、使用合规、范围可控,实创新应用区块链、隐私计算等新技术,推进政务数据的算法式安全共享,推进国家数据共享交换平台与国家公共数据开放平台的协同联动,深化公共资源交易加强安全技术运用,探索借助区块链、隐私计算等新探索运用区块链、新兴密码技术、隐私计算等手段提支持深圳市设立数据交易市场或依托现有交易场所开展数据交易。探索运用区块链、隐私计算等新技术强鼓励各级平台应用隐私计算、联合建模等方式深化金经济行动计划(2022―2025建设福建大数据交易中心,加快培育数据要素市场。强化数据资源共享与大数据应用,积极探索大数据、人工智能、区块链、物联网、隐私计算等新技术在审评审批、监管检查、执法取证、全链条追溯等各类场推进数据归集扩面提效,充分对接国家平台,探索利用联邦学习、多方安全计算等新型技术,实现税务、探索利用身份认证授权、数据沙箱、安全多方计算等技术手段,实现数据“可用不可见”,逐步建立数据012·NSFOCUS隐私计算在科教卫生领域应用白皮书针对部分重点试点场景,探索隐私计算的公共数据开隐私计算等新技术,在确保数据安全的前提下,为人动计划(2022―2025年)》加强隐私计算、数据脱敏、密码、区块链等技术和产加强隐私计算、数据流转分析等关键技术攻关。加强数据质量评估、隐私计算等产品研发。推进安全多方计算、联邦学习、全同态加密等数据开发利用支撑技在技术迅速发展与政策推动的双重因素下,中国隐私计算技术提供商快速发展,根据国计算市场规模突破8.6亿元大关。互联网企业、隐私计块链公司、安全公司纷纷入局,各类企业依托在技术、数据资源方面不同的基因优势,不断在安全保障、性能算力、互联互通等方面做出技术突破。基于隐私计算进行合规与数据开放014·NSFOCUS隐私计算在科教卫生领域应用白皮书私保护的前提下,实现数据价值挖掘的技术体系。隐私计算通过安全多方计算、联邦学习、可信执行环境等技术构建特定的技术方案,在保护数据隐私的基础上实现多方数据共享,实从技术角度讲,隐私计算不是单一的技术,隐私计算属于融合了密码学、人工智能、数据科学和集成电路等多个领域学科的综合性技术。从应用角度看,隐私计算领域主要关注数萌芽期1981197819791982198119781979不经意传输Michael0不经意传输Michael0.Rabin同态加密思想Rivest秘密分享shamir&Blakley姚期智探索期1999198719951986199919871995混淆电路姚期智隐私检索chor半同态加密混淆电路姚期智隐私检索chor半同态加密paillierMichaelO.Rabin2009全同态加密Gentry20162017横向联邦学习MCMahan横向联邦学习MCMahanMohassel成长期2018联邦学习(纵向/迁移)杨强20202021secureMulti-partyLearning韩伟力swarmLearningwarnat-Herresthal快速成长期隐私计算的发展历程(如图2)是以现代密码学为主线,协同计算机体系结构等学科融合发展的渐进过程,其发展历程大致可分为萌芽期、探索期、成长2019年,隐私计算被Gartner列为处于技术萌芽期的关键技术;2020年,隐私计算又015辅助技术硬件路线硬件加速隐私保护隐私计算领域辅助技术硬件路线硬件加速隐私保护隐私计算领域隐私计算领域技术路线全景图如图3所示,其中隐私计算主要技术路线分三类,第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;第三类是以可信执行环境为代表的基于可信硬件的隐算法算法路线横向横向联邦学习参与方间的模型信息交换过程增加安全设计,使得构建的全局模型既能确保用户隐私和数据除了以上三大主要核心技术外,隐私计算领域还会应用差分隐私、同态加密、区块链、016·NSFOCUS隐私计算在科教卫生领域应用白皮书2.2.1.1联邦学习简介联邦学习是一种具有隐私和敏感数据保护能力的分布式机器学习技术。在联邦学习技术的应用中,有两个及以上的参与方,各个参与方之间不直接共享原始数据,而是通过安全的终端协同分布式机器学习和涉及的用户隐私问题。作为一种新兴的技术,它有机融合了机器随着全球隐私法规监管的强化,以及数据利用需求旺盛,自从联邦学习概念提出以来,在学术界和工业界获得了广泛的关注,它被认为是当前解决数据利用、数据安全合规性(隐私保护)之间的矛盾最有效的技术途径之一。经过研究与发展,目前它不仅可应用于原有的B2C(BusinesstoCustomer)场景—如用户移动设备的隐私数据采集与协同训练,还推广到了B2B(BusinesstoBusiness)场景—企业组织间的敏感数据共享与机器学习。2.2.1.2联邦学习分类随着研究的不断深入,出现了多种的联邦学习算法。从算法框架与数据集来划分,它可学习(VerticalFederater横向联邦学习:在HFL算法框架中,各个参与方使用的数据集样本的维度大部分是重进行横向“累加”,通过“虚拟的”样本扩展(通过安全算法协议)提高训练数据样本规模纵向联邦学习:VFL算法框架中参与方的数据集情况正好与HFL相反,其多方的协作训练过程中相当于将各方收集的数据样本按照同ID进行纵向的“连接”,通过“虚拟的”样017以及样本维度仅有少部分重叠,且只有少部分的标注数,该协作训练过程中利用迁移学习能在这三种联邦学习框架中,通过安全协议和分布式机器学习设计,可实现线性回归、逻但用户群体不同的场景;而纵向联邦学习适合于多家企业业务不同,但用户群体有大部分重联邦学习的核心思想是在保证参与方的“数据不出本地域”情形下,实现多方的数据共享与联合建模。“数据不出本地域”的设计机制实现参与方的隐私保护的需求。其主要通过以下过程实现:首先,联邦学习首先将本地中原始数据进行特征化、参数化过程保证了原始018·NSFOCUS隐私计算在科教卫生领域应用白皮书数据第一层面的“不可见”;然后,对其处理后的结果通过差分隐私、同态加密或安全多方再将加密或扰动处理后的结果发送给服务器进行模型聚合和学习,使得参数和中间结果不可2.2.2.1安全多方计算简介也就是为人熟知的百万富翁问题[22]:两个争强好胜的富翁Alice和Bob在街头相遇,如何在不暴露各自财富的前提下比较出谁更富有。安全多方计算是一种通用的密码原语,它在不泄露参与方原始输入数据的前提下,允许分布式参与方合作计算任意函数,输出准确的计算结果。因此,安全多方计算技术刚好能够满足上述的新型数据安全业务中的数据安全安全多方计算可形式化地描述为,n个计算参与方分别持有数据x1,x2,…,xn,协议的目的是利用各方的秘密数据计算一个预先达成的共识函数y1,y2,…yn=f(x1,x2,…,xn),此时任意一方安全多方计算模式下,不需要可信第三方收集所有参与节点的原始明文数据,只需要各的数据,保证其他参与节点拿到数据后,也无法反推原始明文数据,确保了各参与方数据的安全多方计算技术体系如图5所示,最底层为支撑技术层,由各种密码学原语构成,为上一层的各类安全多方计算算法层提供密码学安全保证;中间层为安全多方计算算法层,由安全多方计算专用算法和通用算法构成,为最上层的各行业提供基础安全多方计算平台或安全多方计算算子,各行业根据自身特殊需求,挑选合适的安全多方计算算法实现不同的数据019安全多方计算技术体系中,最重要的支撑技术有不经意传输(ObliviousTransfer,混淆电路:所有的可计算问题都可以转换为逻辑电路,于是就有了加法电路、比较电路和乘法电路等等。混淆电路的实现基础是不经意传输协议和逻辑电路。参与方之一作为混淆电路生成方,通过对电路进行加密置乱来掩盖己方电路的输入和电路的结构;另一参与方作为混淆电路接收方,利用不经意传输协议实现掩盖己方输入,并逐个解密接收的混淆电路中的每个门,获得最终正确结果。混淆电路计算的过程中不会对外泄露计算的原始数据和中间同态加密:同态加密是一种允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致的加密算法。根据同态加密能力,将同态加密分为半同态加密(细分020·NSFOCUS隐私计算在科教卫生领域应用白皮书而全同态加密由于研究困难,目前各算法方案效率都很低,尚未进行工业应用,目前走在工秘密分享:秘密分享的思想是将秘密以适当的方式拆分,拆分后的每一个份额由不同的2.2.2.2安全多方计算分类根据支持的计算任务,安全多方计算技术路线可分为通用型安全多方计算和专用型安全通用型安全多方计算:通用路线安全多方计算算法一般由混淆电路或秘密分享实现,具有完备性,理论上可支持任何计算任务。目前比较知名的基于混淆电路实现的通用安全多方●专用型安全多方计算:专用型安全多方计算是指为解决特定问题所构造出的特殊安全技术实现[28],前提条件是用户必须知道检索的数据在服务器上的数据库中是第几条021●联合建模分析:数据驱动AI建模,一般来说,模型效果与训练数据的特征维度与样AI建模。那么,多方联合AI建模,破除“数据孤岛”实现数据的融合与共享,通过虽然专用型安全多方计算与通用型安全多方计算相比效率更高,但同样存在一些缺点,如只能支持单一计算逻辑,场景无法通用;另外专用算法设计需要领域专家针对特定问题精其基本思想是:在硬件中为敏感数据单独分配一块隔离的内存,所有敏感数据的计算均在这块内存中进行,并且除了经过授权的接口外,硬件中的其他部分不能访问这块隔离的内存中的信息,以此来实现敏感数据的隐私计算。TEE可简单理解为一种通过软硬件方法,在中央处理器中构建一个安全区域,保证其内部加载的程序和数据在机密性和完整性上得到保护的目前不同厂商对于TEE的定义有很多种形式,针对不同的安全性需求和平台,TEE的定义也不尽相同,但在所有TEE的定义中都会包含两个最关键的点:独立执行环境和安全存储。针对TEE技术,各个硬件厂商都给出了各自的解决方案,目前市场上常见的有Intel022·NSFOCUS隐私计算在科教卫生领域应用白皮书SGX是对因特尔体系的一个扩展,用于增强软件的安全性。这种方式并不是识别和隔离平台上的所有恶意软件,而是将合法软件的安全操作封装在一个enclave中,保护其不受恶意软件的攻击,特权或者非特权的软件都无法访问enclave,也就是说,一旦软件和数据位InteISGX应用程序不可信代码不可信代码可信代码3调用可信代码2创建Enclave6普通执行调用入口特权系统,虚拟机管理器,BIOS,系统管理模式1.应用程序被构建为可信部分和不可信部分2·应用程序运行,并在可信内存中创建enclave3.调用可信代码,在enclave中继续执行4·在enclave中以明文形式处理所有数据并禁止外部程序访问enclave中的数据5.可信代码返回enclave中的数据处理结果,enclave中的数据仍然保存在可信内存中6.应用程序恢复到普通执行模式继续执行不可信代码图6是一个IntelSGX程序的通常形态,可以看到,程序本身就区分为受信任和不受信任两部分,当应用程序需要保护数据时,通过调用SGXSDK来将执行权转入SGX,对于在SGX中执行的程序和数据,外部是不可以访问的。利用IntelSGX技术,客户可以创建023存储器加密功能与现有的AMD-V虚拟化架构集成,支持加密的虚拟机。每个加密虚拟机都有自己专属的加密密钥,该密钥由CPU内特殊的硬件安全组件AMD-SP(AMDSecureProcessor,AMD安全处理器)负责生成和管理。其他加密/普通虚拟机或虚拟机管理器不能访问/获取AMD-SP产生的密钥,只能访问加密后的数据,使得虚拟机之间、虚拟机与虚拟机管理器之间具有强隔离性。加密虚拟机不仅可以帮助保护它们免受物理威胁,还可以保来支持enclave的申请及数据的输入输出,这就需要对已有数据分析/计算程序进行重构,统的数据分析/计算程序无需做任何改动,即可直接迁移到基于SEV启动起来的加密Linux024应用1应用2应用2·NSFOCUS隐私计算在科教卫生领域应用白皮书应用1应用2应用2ARMTrustZone的体系架构引入了一种新模式:安全监控模式。如图8所模式下运行时,CPU处于安全世界中,可以访问设●EL3:TrustZonemonELOEL1EL2EL3安全世界非安全世界安全世界可信应用可信应用安全世界内没有EL2的专用指令进行的。执行此指令时,CPU将进入监控模式,并可以访问所有硬件,包括受理器的控制下运行多个加密的虚拟机,每个加密的虚拟机和虚拟机管理器都与一个加密密钥025CSV虚拟机2CSV虚拟机1CSV虚拟机2CSV虚拟机1相关联,在运行时会使用各自的密钥加解密内存数据。如果其他加密/普通虚拟机或虚拟机管理器访问该数据,只能看到加密形式的数据,这为虚拟机之间、虚拟机与虚拟机管理器之CSV虚拟机3处理器加密引擎加密数据3加密数据3内存加密数据1加密数据2实现了相关加密算法的国产加密算法替换。另外,通过不断的技术迭代,海光在CSV2上增加了虚拟机状态加密机制,CSV3上进一步提供了虚拟机内存隔离支持[31]。因此,海光的2.2.3.5机密容器构建出新的软件架构,其设计目的是为运行在不受用户控制的云计算基础设施上的敏感数据和应用提供安全可信的计算环境。此处机密容器中的“容器”是一个概念性的术语,是指执026可信侧远程证明服务证明密钥代理服务加密传输镜像解密密钥宿主机(kubernetes节点)SEV虚拟机证明代理kubernetespodkata可信侧远程证明服务证明密钥代理服务加密传输镜像解密密钥宿主机(kubernetes节点)SEV虚拟机证明代理kubernetespodkata-agent拉镜像服务解密、运行容器以用户使用Kubernetes部署机密容器为例,用户先对承载了自身业务的容器镜像进行加密,生成一个受保护的容器镜像,并将该镜像存放在镜像仓库中。在部署该受保护的容器无法获取TEE解密后的容器镜像、无法访问容器文件系统,可有效机密容器有两种典型架构,分别为Pod级机密容器和进程级机密容器。Pod级机密容器实现轻量级TEEPod,将整个Pod及其中的容器运行在可信执行环境中。使用Kuber027宿主机(kubernetes节点)enclave镜像服务证明代理加密传输镜像解密密钥存储解密后的镜像拉取镜像加文件系统仓库enclave间密钥交换enclave间密钥交换读取镜像运行容器enclave程序encave程序kubernetespod宿主机(kubernetes节点)enclave镜像服务证明代理加密传输镜像解密密钥存储解密后的镜像拉取镜像加文件系统仓库enclave间密钥交换enclave间密钥交换读取镜像运行容器enclave程序encave程序kubernetespod2.2.4.1差分隐私在数据采集、传输以及聚合计算后发布统计级别的计算报告等场景下,恶意攻击者依然有可能在特定条件下利用相应的背景知识,通过“差分攻击”等方式对自然人个体粒度的个人信息进行攻击和窃取。此时可以利用差分隐私(DifferentialPr在查询结果中加入噪声,比如Laplace类型的噪声,使得查询结果在一定范围内失真,使得攻击者难以利用相关背景知识识别查询结果的差异性,进而避免个体粒度的个人信息遭到窃早期差分隐私应用场景中,数据存储在数据库中,通过提供具有差分隐私功能的查询接口给查询者使用,通常称其为中心化的差分隐私模型(CentralizedDifferentialPrivacy,CDP)。随着研究的进展,出现了另一种模式—本地差分隐私(LocalDifferentialPrivacy,028·NSFOCUS隐私计算在科教卫生领域应用白皮书差分隐私算法,采集输出的数据经过特殊的处理,因此服务器也无法获得用户侧的真实隐私一个采集端的数据都加入了噪声。虽然服务器侧无法获得每一个用户侧的真实数据,但采集从本质上讲,差分隐私是通过一定程度地降低数据的精确性,换取了数据安全性和隐私2.2.4.2零知识证明信息的情况下,使验证者相信某个论断是正确的。零知识证明是一种两方或多方的协议,两方或多方通过一系列信息交换完成生成证明和验证。在实际应用中,零知识证明能够实现证明者向验证者证明并使其相信自己知道或拥有某一信息,而证明过程不会向验证者泄露任何关于被证明消息的消息。零知识证明可以是交互式的(证明者说服特定的验证者,但需要对每个单独的验证者重复此过程也可以是非交互式的,证明者生成一个证明,任何人都可完备性(Completeness如果证明者对证明给出诚实的回答,则验证者):零知识性(Zero-knowledge):证明者不会对验证者透露任何关键数据,而只是间接证当前零知识证明主要应用于区块链领域,解决常见的区块链网络中因透明性所带来的地址和资产额度等消息泄露,零知识证明可以验证计算而不会暴露有关输入和计算本身的任何隐私计算的各个子项技术各有不同属性与侧重点,其技术特点、优劣势及安全性等指标029参与方基于交换软硬件方法构建的安交换加密的参数,在数据不出本地方式下针对数据库查询分布与模型发布,通过混淆个体实现隐两方或多方通过一系列信息交换完成生成原始数据以密文原始数据以密文形式原始数据的梯度等信息出域,是否加密取原始数据的统计信原始数据的验证信息在密文上进行在TEE隔离环境内对数据进行解密和明是否以密文形式进行在验证信息的密文上取决于具体算取决于具体算法,整加密信息带来的数据无须出域,通信取决于具体算法,整高中中高查询分布式、计算AI/机器学习身份验证、财产证明在实际应用过程中,产业界较为常见的应用方式是将安全多方计算、联邦学习、可信任执行环境等主要技术进行拼合,以满足匿踪查询、联合筛选、联合建模、集合运算、联合统安全模型定义了敌手的攻击能力,隐私计算协议的安全性只有在特定的安全模型下讨论就可以认为该隐私计算协议是在此模型下安全的。根据所定义敌手的攻击能力,学术界常用诚实的、正确的执行隐私计算协议,不会对发送、接收到的共享数据进行篡改等操作,但是会利用各种手段搜集尽可能多的信息,包括发送方的信息、协议信息、交互数据等,然后对收到数据进行各种探测,尝试将其恢复为原始明文数据。此类安全模型下的隐私计算协议虽030·NSFOCUS隐私计算在科教卫生领域应用白皮书恶意攻击模型:在恶意攻击模型(MaliciousSecuritymodel)下,攻击者会尝试利用各种手段攻击隐私计算协议,如对己方发送数据进行造假,故意使接收方无法获得正确的计算结果;如联合建模时故意共享低质量数据或部分数据,使得建模结果无法使用;故意攻击隐私计算协议、断网等操作,造成隐私计算协议执行中断等。此类安全模型下的隐私计算协议安全性高,但是与半诚实安全模型相比,恶意攻击模型下的隐私计算协议通信开销及计算开模型的安全性和恶意攻击模型的执行效率而提出的,该模型定义的攻击者可能会有一些恶意行为,而且即使表现出了恶意行为,也仅能被其他参与方以一定的概率识别出来。在此类模型中,恶意攻击者须权衡作恶被发现后带来的损失以及收益,一旦损失大于收益,则攻击者当前隐私技术在工业界进行落地应用时,为了保障系统运行效率,在一定程度上牺牲了模型安全性,采用的是半诚实攻击模型,即假定参与方均会诚实地在训练过程中贡献自己的数据。由于各参与方无法查看其他参与方原始明文数据,因此在整个运算过程中可能出现恶在联邦学习中此类行为又被称为投毒攻击,具体描述为:攻击者在输入模型的数据中加入大量质量很差甚至错误的数据,扰乱数据集中数据的分布,从而破坏模型,进而导致模型在预测阶段做出错误的判断,虽然错误分类不会直接侵犯联邦学习参与者的隐私数据,但会尽管联邦学习不直接进行数据交换,相比传统的机器学习具有更高的隐私保障,但本身并没有提供全面充分的隐私保护,依然面临着信息泄漏的威胁。因为参与者可以根据上传的参数推测出其他参与者的训练数据,因此联邦学习中的隐私风险主要来自不同类别的推理攻击,主要包括成员推理攻击、无意的数据泄漏&推理重建、基于GANs(Generative0312.4.2.1成员推理攻击该攻击给机器学习带来了严重的隐私威胁。如图12所示,原始的数据集训练的模型在应用平台上运行,攻击者冒充用户去访问目标模型,获得一定的信息和敌手知识来构建攻击模型部分泄漏!▼W攻击(FWW猫)训练集?▼W攻击者利用中央服务器无意的数据泄漏漏洞,获取客户端的更新的数据或梯度信息,并通过推理攻击成功重建其他客户端的数据。这是一个相似的攻击,对于给定的训练模型,判断其训练集上是否包含特定属性的数据点,该属性不一定和训练任务相关。例如使用LFW联邦学习客户端当中存在一些利用本地的旧数据作为训练模型的贡献,由于联邦学习中仅参数的更新很难评估每个客户端的贡献和信誉。该攻击利用了学习过程的实时性,并允许对手训练一个通用的对抗网络(GAN以生成隐私的目标训练集的原型样本,推理的图像与原),2.4.2.4模型窃取攻击模型窃取攻击是指尝试恢复模型或训练中使用的数据的信息。这样的攻击是一个很重要032·NSFOCUS隐私计算在科教卫生领域应用白皮书比如金融交易、医疗信息、用户交易信息等等。模型窃取攻击主要有两种形式:模型重建和模型重建:模型重建的关键是攻击者能够通过探测公有API和限制自己的模型来重建一成员泄漏:黑客可以通过建立影子模型的方式来决定用哪些记录来训练模型。这样的攻2.4.3.1可信执行环境硬件设计缺陷TEE硬件设备的设计和生产过程中也难免有安全缺陷。由于这一技术相对较新,所以前期攻击者对其关注度也不高。但随着隐私保护的业务需求日渐人心,诸多业务方案问世,自2017开始,相关安全缺陷陆续报出。在国际漏洞数据库CVE(Commo2.4.3.2可信执行环境软件安全漏洞硬件没有缺陷,如果与其配套的软件组件出现安全漏洞,或者配置数据未能及时的更新(如已知被破解TEE硬件设备黑名单),也会严重地影响TEE的安全性。如在2014年Black2.4.3.3可信执行环境侧信道安全漏洞TEE为数据机密性提供一定级别的保证。然而,这种保证依赖于一些假设,其中一个关键假设是,所有者(或有权访问系统的任何其他实体)不能使用可利用的旁路来推断有关数据或执行的信息。在过去的几年里,学术研究人员已经确定并展示了034隐私计算软件平台隐私计算一体机赋能赋能▲监管目 卫健委监管监管·NSFOCUS隐私计算在科教卫生领域应用白皮书隐私计算软件平台隐私计算一体机赋能赋能▲监管目 卫健委监管监管在保证数据安全及符合《数据安全法》和《个人信息保护法》等法律的前提下,合理使用隐私计算技术可以加速数据的流转和使用,高效、安全地实现数据的价值。隐私计算实际隐私计算平台服务商业务软件提供商隐私计算用户药企医学科研机构医保局监管机构隐私计算平台服务商负责提供支持隐私计算技术应用的平台软件或灌入软件的硬软件一体机。目前,隐私计算已在医疗、交通、金融等真实场景中落地,相关产品相继出现,为各行业发展数字经济带来新的契机、注入新的动能。但是,目前许多落地产品存在功能不齐全、实施较困难、效率低、成本高等问题,这些问题也大大减缓了隐私计算在各行各业实际落地的进展。展望未来,一个功能齐全、易兼容、易实施的隐私计算平台是隐私计算平台服务商发展的必经之路。隐私计算用户通常包括两大类,分别是:“仅提供数据的隐私计算用户”和“结合业务035在纵向联邦学习的场景之中往往需要多维度多行业的数据信息,如在建立人类传染病传播模型之中,往往需要个人互联网、移动通信等相关信息来满足纵向联邦学习建模的需求,从而获得更精准的传染病传播模型,在该类场景之中则需要运营商或者互联网企业提供个人此类企业通常称为“仅提供数据的隐私计算用户”。对于这类用户来说,隐私计算技术可以让其合法、安全地实现数据营收,从而大大提高数据方面的业务收入。该类用户在隐私计算生态体系获得营收的同时,也应承担相应的责任与义务,对于该类用户来说,最重要的是如何合法、安全地提供其用在隐私计算上的相关数据。从现实情况来看,该类用户往往会为了实现更多营收从而降低其提供数据的门槛,最终可能导致个人信息的泄露以及其他相关的数据安全问题。在隐私计算生态体系中,监管机构应当制定相关的制度约束该类用户的不当行从实际情况来看该类用户一般不具备网络信息、信息安全、数据安全、隐私计算等相关的知识储备。如在卫生健康行业,该类用户通常为医院、药企、医疗科研机构等,隐私计算平台服务商和业务软件提供商应提供针对性的隐私计算使用指导方案,帮助该类用户更好地使用隐私计算来提高自身业务水平。同时,该类用户在实际使用隐私计算过程之中可能有不合规的行为,如:模型投毒等,监管机构应制定相关的制度约束该类用户的不当行为,同时隐私计算平台服务商也应对适当不合规行为从技术上进行制止,如:通过相应的联邦学习算法实一般来说,隐私计算技术实际的应用需要业务软件提供商和隐私计算平台服务商互相配合、协同合作。如在卫生健康行业隐私计算生态体系之中,医院已经有了相关信息化平台来辅助临床诊断,后续结合隐私计算技术来促进临床诊断时,需要业务软件提供商和隐私计算在隐私计算生态体系之中,业务软件提供商通过与隐私计算平台服务商协同合作,提供基于隐私计算的业务实现方案,从而更好地帮助隐私计算用户完成其自身相关的业务,同时业务软件提供商也会大大提高自身的营收。业务软件提供商在隐私计算生态体系获得营收的同时,也应承担相应的责任与义务,其中最为重要的便是安全性问题,业务软件提供商由于036·NSFOCUS隐私计算在科教卫生领域应用白皮书在隐私计算生态体系中,监管机构是最为重要的一个角色但同时也是最容易被忽略的一个角色,通常而言隐私计算生态体系中的监管机构为行政管理的相关部门,如在卫生健康行在隐私计算生态体系中,监管机构应制定相关明确的条例引导“仅提供数据的隐私计算用户”合法、安全地提供数据;监管机构还应及时阻止、发现隐私计算用户在实际使用隐私计算的过程之中可能出现的不合规行为,如:模型投毒等;监管机构同时应及时发现、修复业务软件提供商开发的系统中存在的漏洞、错误配置等相关的安全问题。总之,一个良好的隐私计算生态体系需要一定的制度去约束各参与方的行为,只有这样才能让生态体系良性发隐私计算生态体系中的每个参与方都有各自的工作任务,良好的生态体系会使得每个参与方实现自己的价值,反之不合理的生态体系则会危害到体系中多个参与方的利益,从而影响生态体系持续稳定的发展。因此,在隐私计算生态体系中需要明确每个参与方的责任与义务,制定合理的生态体系运营机制,共同促进生态体系健康稳定的发展,合法、安全地实现隐私计算技术实现上有三种思路:以密码学为核心的同态加密、安全多方计算;融合隐私保护的分布式联合建模;依托可信硬件的实现。不同厂商使用通用或特定硬件,集成一种场景侧重不同,少有同时支持联邦学习、安全多方计算、机密计算的一体化隐私计算平台。如图14所示,隐私计算平台自上而下分为业务层、应用层、接口层、计算组件层、资源编排层、基础设施层。用户通过应用层(web界面)参与隐私计算,应用层提供了任务智慧医疗智慧校园联合风控数据保险箱可信软件租赁安全数据租赁接口层授权管理API日志管理API数据管理API加密盘管理API镜像管理AP用户管理API资源编排层智慧医疗智慧校园联合风控数据保险箱可信软件租赁安全数据租赁接口层授权管理API日志管理API数据管理API加密盘管理API镜像管理AP用户管理API资源编排层管理、区块链与日志管理、数据管理、镜像管理、用户管理等常用功能模块;应用层调用接口层的接口实现交互,同时接口层也可作为对外接口,与隐私计算其他参与方进行交互;针对不同的隐私计算任务,接口层调用计算组件层的不同算法完成计算;平台的部署、生命周期的维护则是通过资源编排层来实现的,分布式计算、存储系统为大数据提供支持,Kata-Containers、Kubernetes为(机密)云原生化提供支持;基础设施层提供了算法、存储、可机密软件漏扫任务管理任务管理联邦学习任务机密计算任务安全多方计算任务审计日志链上查询区块链管理数据发布与授权加密盘挂载数据联合特征工程用户管理去中心化身份节点授权任务授权区块链与日志管理用户管理授权管理数据管理任务管理API国密适配国密适配联邦学习横向联邦学习纵向联邦学习加密镜像机密容器机密计算分布式存储系统分布式计算系统业务层:隐私计算平台可对接各行业,例如智慧医疗、智慧校园等;绿盟创新研发“数据保险箱”、“机密软件漏扫”、“可信数据租赁”等隐私计算平台应用,为数据自用、数应用层:展示层为隐私计算全流程提供可视化操作界面,降低隐私计算使用门槛,为数据上传、数据授权、联邦学习任务运行监控等操作提供用户友好的界面,允许一键建模、灵活调整参数等操作,借助区块链技术,隐私计算平台实现了审计日志区块链存证和去中心化037038·NSFOCUS隐私计算在科教卫生领域应用白皮书机密计算层内置了常见的横纵向联邦学习算法,并实现了国密适配、通用安全多方计算、隐私求交、匿踪查询等安全多方计算算法,可根据业务场景随时新增算法,支持算法热部署。Containers、Kubernetes,实现机密容器的云原生部署及编排;隐私技术平台拥抱云原生,Tensorflow/Pytorch作为AI引擎协助建模;Eggroll、Spar务运行;RollSite作为通信引擎协助联邦间通讯;Mysql、HDFS作为存储系统存储隐私计算039迁移学习、聚类算法等常用主流算法,可供用户直接快速调用;支持横纵向等常见联邦建模方式,满足用户进行跨机构、跨行业间的联合建模需求;内置基于可信执行环境的联邦学习RSA、DH、椭圆曲线等主流加密算法进行实现,确保各参与方仅查询方向服务提供方进行查询时,隐藏保护查询条件和查询结果。隐私计算平台还支持通用机密计算:隐私计算平台支持用户程序以容器化的形式运行在可信环境中,原有机密计算程序无需修改,可直接运行于TEE环境;支持程序多任务并发运行和数据共享;支持PB量级的数据分析和计算,数据规模不受内存大小限制;支持计算结果的可证明性,在计算完机密容器形式部署:支持以机密容器形式部署隐私计算平台,镜像、内存都被加密,确保隐私计算平台程序的完整性和机密性。支持用户以低成本方式参与、体验隐私计算平台,作为隐私计算参与方,用户无须购买传统硬件设备和隐私计算平台,仅需在隐私计算平台供数据保险箱:隐私计算平台内置数据保险箱,基于可信硬件与可信执行环境技术,为数软件租赁等常见任务,具有如下优势:1)安全性高:基于软硬件一体的保护机制,数据保险箱保证攻击者即使能够直接获得存放数据的硬件,也无法窃取运行在硬件中的数据;保证了一线操作工对数据的可用不可取,保障了数据出域状态下的安全性;2)使用便捷:基于040·NSFOCUS隐私计算在科教卫生领域应用白皮书TEE相关技术,原有应用只需小幅调整即可运行在数据保险箱内,同时应用的使用逻辑不发生改变;保证了使用、迁移与开发的便捷性;3)性能卓越:基于特殊的可信硬件设计,使安全增强:针对隐私计算平台底层密码算法进行代码审计,并对部分密码算法的代码实现进行安全增强,同时实现计算组件层的国密算法适配;针对联邦学习中存在的投毒攻击、隐私泄露等安全风险,增加相应的检测及防御能力;基于可信执行环境,增加并实现隐私计1登录隐私计算平台…1登录隐私计算平台 3查询已授权的数据 5创建任务,请求授权数据源方是否同意计算任务数据源方是否同意计算任务同意授权6同意授权6同意授权7启动任务拒绝授权6拒绝授权6拒绝授权7终止任务041计算任务进行授权。应用方和数据提供方首先登录隐私计算平台,上传数据,数据提供方上向数据提供方发起隐私计算任务请求。在收到隐私计算任务请求后,数据提供方检查任务信息,可选择同意授权或拒绝授权。如果数据提供方同意授权,应用方启动联邦学习、安全多043医疗健康数据更好地高效流转及开放共享已经成为了卫生健康行业信息化发展的趋势,但这种趋势也会增大数据的安全风险。那么如何在保证数据安全、合法的前提下实现数据的高效流转?在此背景下,隐私计算作为在数据融合应用过程中保证数据安全合规的关键技术从理论上来看,隐私计算可以有效地缓解医疗健康数据安全问题,从而更好、更快地推进卫生健康行业信息化的发展。但从实际情况来看,隐私计算如何贴近卫生健康行业不同真为了更好更快地利用隐私计算技术实现数据的开放、共享与利用落地、更好更快地推进卫生健康行业信息化的发展,我们对隐私计算在卫生健康行业的应用与安全进行了全面的探索与实践。本章将探讨隐私计算在智慧医疗、医学科研、新药研发、医疗保险共四个方面的智慧医疗指的是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现智慧医疗在智能诊疗、远程手术、智能电子病历、智慧机器人、移动医护等领域已有了多个根据我们的调研,隐私计算在智慧医疗领域主要有3个应用场景,分别是:智能医学影4.1.1.1智能医学影像分析随着现代医学发展,传统医学影像管理方法已无法适应现代医学影像管理的要求,无胶片化影像科和数字化医院已经成为现代化医疗发展的必然趋势。但目前传统医院正在面临患者多、影像设备多、读片医生少等问题。对于医生而言,每一位患者都需要人工翻阅数百张影像图片,耗时耗力,且每个医生的经验、知识水平并不相同。目前来看部分厂商正尝试利例因此仍无法对多种类型多种器官病灶进行精准的特征描述,也无法对疾病进行精准的044·NSFOCUS隐私计算在科教卫生领域应用白皮书通过利用隐私计算的技术,可以安全有效利用影像学数据进行多中心数据协作,提高训4.1.1.2智能电子病历电子病历是信息技术和网络技术在医疗领域的必然产物,是医院病历现代化管理的必然趋势,其在临床的初步应用,极大地提高了医院的工作效率和医疗质量。但目前大部分医院面临着电子病历数据不开放共享的现实问题,因此医生临床诊断的准确率和效率无法得到质通过利用隐私计算的技术,可以实现区域内医疗信息的安全共享(如:远程病患信息的传输和共享),在隐私计算平台之中可以给医生提供患者各种疾病发生的概率(如传染病预4.1.1.3智能辅助诊断上述的智能医学影响分析和智能电子病历有着一个共同的重要作用—辅助医生进行临知识、临床案例和患者病情,辅助医生分析病历,制定准确有效治疗方案的工具,具备减少医疗差错、提高医疗效率、控制医疗费用支出等优势。但目前CDSS普遍存在不同医院数据不共享,信息跨级调用难等问题,因此并不能构建完整、专业的医疗知识库,从而无法高效共同完成模型的建立,实现“数据可用不可见”的效果,实质上发挥各个医院的数据价值。通过隐私计算,CDSS可以从技术层面上彻底解决数据不共享,信息跨级调用难等问题,从在近代以来,医学科研高速前进、不断发展。但医学科研一直面临着一大难题—医疗数据难获取。医疗研究单位由于数据安全、数据隐私等问题,一般不会直接共享自己的医疗045数据;同时医院就诊病人的信息也不会直接提供给科研部门。解决医疗数据孤岛,是促进医通过利用隐私计算的技术,可以实现多个医学科研单位及医院数据的安全共享。国外联邦学习在医学科研的实际应用已经逐步展开。近年来,我国高度重视罕见病病例诊疗信息登记等相关工作,罕见病相关的政策也陆续发布。建立一个从罕见病诊疗登记、数据挖掘研究分析、科研价值和诊疗方案输出为一体的隐私计算解决方案,将极大程度满足医务工作者、政府职能部门、研究人员工作和科研的需求。对于全基因组关联分析(GWAS)等这类依赖大样本量的研究,通过隐私计算,也可以解决单一机构样本量不足,导致研究结果可信度下新药研发领域有一个广为人知的“双十定律”:研发一款新药平历时10年之久。随着人工智能的发展,数据对于药物设计、发现、临床验证等各个环节的重要性日益凸显。不过与全行业相比,任何一家制药企业、研发机构所拥有的数据量都十分隐私计算可以打破数据孤岛、高效利用数据的同时保证数据的安全。合理地利用隐私计算将大大缩短药物研发的时间,提高研发效率的同时降低研发的成本(辅助新药研发,进行家药企分别为:安进、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、杨森制药、默克、诺随着我国人口老龄化的加速,我国医疗费用的开销也在迅速增加,医保风控一直是一个热门的研讨话题。医保风控极具挑战的核心因素在于医保数据,而医保数据目前存在质量参差不齐以及数据难共享计算的难题。从现实情况来看,我国骗保事件层出不穷,国家医保局也明确表示将重拳打击欺诈骗保行为,对欺诈骗保行为发现一起、查处一起,确保医疗基金046·NSFOCUS隐私计算在科教卫生领域应用白皮书面对医疗保险带来的挑战,隐私计算技术可以成为有效的技术解,合理地使用隐私计算技术也将大大有助于医保风控。通过隐私计算,医保局可以合法、安全地使用更多维度的医疗数据信息,从而全方面、全维度地丰富医保风控模型,更加准确地发现并预警欺诈骗保等卫生健康行业信息化建设正蓬勃发展,上文探讨了隐私计算在智慧医疗、医学科研、新药研发、医疗保险共四个方面的应用,通过使用隐私计算的技术,可以实现数据的“可用不可见”,更加有效地整合医疗数据资源,消除“信息孤岛”现象,实现不同机构之间数据的安全共享。本节中的主体内容由苏州市卫生计生统计信息中心副主任鞠鑫协助提供,下文将也是国内成年人残疾的首要原因,据估算国内脑卒中患者约1300万人,总体脑卒中终生发病风险为39.3%[41],因脑卒中造成的社会经济损失超千亿。部分研究指出,通过早期干预改变可控的危险因素能够预防一半的脑卒中[42]。受老龄化影响,江苏地区脑卒中标化患病率呈近年来,得益于更强的危险因素复杂关系分析能力与不平衡数据处理能力,基于机器学习的脑卒中预测算法被证明效果优于传统分析方案[43]。同时,研究者们注意到,在不同的数据规模下,同一机器学习算法会得到显著不同的卒中预测性能。受病例样本少、病人队列分布不均的客观限制,单医疗机构仅使用本地病例数据得到的预测模型准确性与泛化性较差;同时,受合规性要求,卫生健康数据不便出域,因而限制了机器学习方案的进一步提升。在保护病人隐私数据安全的同时,如何利用现有的病例数据优化预测模型,对提高地区医疗水事实上,安全多方计算技术在机器学习训练过程中涉及的通信开销较高,实践中无法在有效时间内完成联合训练;而TEE技术涉及较新硬件,047授权管理API联邦学习医院A任务、审批元信息据●选择模型●●●元任务管理API横向联邦学习加密模型/参数通信授权管理API联邦学习医院A任务、审批元信息据●选择模型●●●元任务管理API横向联邦学习加密模型/参数通信降低了通信的开销。因此在兼顾安全效率和部署现状的基础上,本案例中通过联邦学习技术(即图13中的隐私计算监管机构)。由地区卫健委牵头并提供隐私计算平台,安全地利用地区各医院病例数据,基于横向联邦学习技术完成脑卒中预测模型的联合训练。其总体部署卫健委在所有参与方侧部署隐私计算平台,由各参与医院自行接入其本地数据并协商模型;各参与方隐私计算平台发起联合任务并确保通信过程不泄露原始任务,其中卫健委作为协调方确保隐私计算过程的安全性;隐私计算平台中集成联盟链相关技术,保障计算过程的隐私计算平台B区块链存证服务区块链存证服务隐私计算平台048 上报评估②清洗数据②清洗建模隐私计算平台·NSFOCUS隐私计算在科教卫生领域应用白皮书 上报评估②清洗数据②清洗建模隐私计算平台①确定病例模板数据②②导入隐私②②导入隐私计算平台存证③横向联邦建模第二步:各参与医院按照模板格式清洗本院数据,将标准格式的病例数据接入卫健委提第三步:医院侧发起横向联邦学习任务;各参与医院将使用的数据元信息、联邦学习任务的参数信息进行上报存证并等待审批;卫健委审批通过后,对实际计算中的关键通信数据进行存证;在联邦学习完成后,医院与卫健委侧都得到联合训练完成的预测模型,卫健委可049通过联邦学习相关算法,医院侧只需传输本地计算得到的参数而非原始病例数据,同时最终诊断模型能够同时受益于各家医院的病例数据,为打破医疗孤岛、充分发挥医疗数据价通过地区卫健委牵头提供医院隐私计算平台和科研合作方案,能在卫生健康数据隐私保护与监管可控的前提下,充分利用散落在地区不同医疗机构内的脑卒中病例数据,提升地区医疗机构对脑卒中的模型诊断能力。实践中显示,相比于单医疗机构仅使用自身数据训练,联合建模的诊断精度提升了约4%―23%。此外,医疗跨机构临床数据合作在实践中具有通用有别于其它行业,医疗方案需要在正式使用前需通过充分病例的实际检验。以机器学习技术为基础的新兴医疗方案往往无法规避技术本身带来的过拟合问题,部分医学研究曾因此我们在实践中注意到,某地疾控中心联同某软件开发商使用自身收集的传染病相关数据通过机器学习技术得到了一个较成熟的诊断模型,其希望使用地区卫健委处更丰富的医院诊疗与住院数据对模型的实际效果进行测试与验证,然而出于对数据出域风险的顾虑,无论是模型方案的公开还是验证数据的出域都是不可接受的,如何在医疗模型与病例数据均不明文由于涉及跨域数据的机器学习模型前馈等更精细化的计算任务,联邦学习技术不适合于050用于模型评估的数据①公钥传输隐私计算平台隐私计算平台②密文病例数据传输任务管理API任务管理AP②密文前馈结果传输通用安全多方计算通用安全多方计算①病例数据格式商议·NSFOCUS隐私计算在科教卫生领域应用白皮书用于模型评估的数据①公钥传输隐私计算平台隐私计算平台②密文病例数据传输任务管理API任务管理AP②密文前馈结果传输通用安全多方计算通用安全多方计算①病例数据格式商议第一步:疾控中心与卫健委都部署隐私计算平台,并明确模型所使用的病例样本的特征格式;卫健委借助隐私计算平台生成同态加密所需的公私钥,并将公钥发送给疾控中心;疾第二步:卫健委与疾控使用隐私计算平台完成模型的密文前馈;主要流程为,卫健委侧使用公钥加密病例数据,将密文数据传输,疾控中心侧在密文状态下完成模型的前馈,通过第三步:卫健委侧使用私钥解密计算结果,并通过病例数据对应的真实标签完成结果的待评估模型通过基于安全多方计算技术的可证安全算法,本方案中卫健委只需密文数据出域,而疾控中心处可在密文状态下完成对模型的前馈计算,最终确保了病例数据与诊断模型均无需公开的基础下完成诊断模型的评估,既为安全使用其它机构的医疗数据进行方案验证提供了新本案例通过使用通用安全多方计算技术推进智慧医疗发展,卫健委不必担心本地病例数据出域造成安全性隐患,而疾控中心作为医疗模型验证者可以容易地使用其它机构的病例数051据对未正式启用的模型进行评估,进而避免同源数据有偏带来的模型健壮性隐患,最终提升医疗模型质量、降低医疗风险。实践中显示,通过高速的内网专线,在几天时间内即可完成十数万条标准化病例的密文模型评估。由安全多方计算的可证安全特性,卫健委等机构可进一步标准化其数据形式,以密文计算的方式为安全评估现有或新医疗软件的实际性能提供通4.4案例3:患者人脸“数据保险箱”随着机器学习技术的进步,人脸识别技术被广泛使用;为便利患者,很多大型医院也引入了相关产品。通常在录入患者人脸,并与公安数据比对验证完成后,医院将相应人脸特征现阶段大部分医院的安全机制对恶意的攻击者(如试图倒卖患者信息的内部员工)的抵御能力很低,风险极大。如2022年10月,部分公民私人信息因某医院公众号系2022年8月,国家卫健委等三部门印发的《关于印发医疗卫生机构网络安全管理办法的通知》中指出“各医疗卫生机构应采取安全措施存储和传输人脸识别数据,包括但不限于加密存储和传输人脸识别数据,采用物理或逻辑隔离方式分别存储人脸识别和个人身份信息为避免患者人脸信息泄露带来的合规风险,如何在让患者能够享受人脸验证带来的便利本案例的难点在于,患者人脸数据的攻击者不止有外部的攻击者,恶意的内部人员也有窃取数据以非法牟利的动机;同时,患者在人脸识别时对延迟的忍耐度低。此时,基于可信击者在接触到后台程序与人脸特征所存放的数据库后,一方面其可用各类白盒攻击方法对比对程序植入后门,破坏原有人脸识别过程的安全性与准确性;另一方面其能够直接窃取或篡052数据库窃取、篡改等访问数据库比对结果比对程序定期核查无法进入机密容器·NSFOCUS隐私计算在科教卫生领域应用白皮书数据库窃取、篡改等访问数据库比对结果比对程序定期核查无法进入机密容器二进制逆向、对抗样本等用户界面安全传输注册/识别患者人脸↑注册/识别迁移到机密容器的隐私计算平台上,在基本无需调整软件的基础上,使原有的比对程序与数安全传输比对结果访问数据库患者人脸注册/识别比对程序用户界面安全传输比对结果访问数据库患者人脸注册/识别比对程序053在部署机密容器完成后,比对程序与数据库在内存与存储中始终处于密文状态。当恶意的攻击者试图窃取比对程序或数据库时,由于其缺少私钥无法登录进机密容器内系统,即使可直接接触到运行机密容器的物理设备,其也无法通过二进制逆向或其它攻击方式从存储设备中获取有效信息。通过机密容器对系统的加固,可保障数据只能按照预先设计的计算方法最后,地区卫健委等管理机构由于掌握有机密容器的相关私钥,仍可定期对机密容器中的比对程序做定期的日志审计核查。通过上述软硬件机制的合作,本方案显著增强了医院侧本方案基于机密容器为患者人脸数据提供了一份“数据保险箱”;基于机密容器的不可篡改性,保障人脸比对程序正确执行;通过内存与磁盘的加密机制,保证内外部的攻击者即保障医疗数据合规、加强数据存储安全提供了新思路。容易注意到,医疗领域内广泛存在着需要保护的高敏感信息,通过可信设备替换普通硬件、可信执行环境替换传统运行环境,能055近年来,各地区、各部门积极响应国务院加快推进政务信息系统整合共享的号召,促进跨地区、跨部门、跨层级政务数据互认共享。教育数据繁杂且碎片化地散落在各部门,既浪费软硬件资源,也不利于各维度信息的相互关联。在此背景下,教育数据共享建设既能满足教育数据管理和各类应用需求,也可为政务信息系统整合工作助力,数据共享的需求被提高但是要注意到,数据共享过程中会产生更多新的场景,共享后的数据可能接触更多的组隐私计算技术可以实现数据的“可用、不可见”目的,可以在原始数据不出域的前提下实现多方数据联合分析计算功能,使得数据本身不对外泄露,从而解决了参与方对敏感数据在教育信息化全面建设的背景下,学校教育部门、教学部门、行政部门和校园管理部门常需要跨部门使用数据。例如,为严格控制校园进出人员,学校保卫科需要学生和人事管理部门的数据;为管理学生信息,学生工作处需要教务处和团委提供的数据;为管理教师科研项目经费使用情况,科研处需要财务处提供的数据等。但是各个部门的数据均为单独收集管理、维护,并且所收集数据大多包含师生的个人敏感信息,如果各部门将数据直接进行明文通过利用隐私计算技术,可以在保证校园各部门敏感数据资源不外泄的前提下更充分地使用已有数据资源,可以减少资料收集、数据采集等重复的劳动时间和费用,将精力重点放在部门业务流程的优化上,更有利于教职工、学生和家长在信息管理系统中实现各类事务的随着教育信息化的不断推进以及智慧校园和校园云平台的初步建设,各级教育单位在教师课堂教学、学生学习活动、校园数字化运行等方面积累了海量数据。这些数据通常是由不056·NSFOCUS隐私计算在科教卫生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 龙游婚礼策划培训
- 黑龙江省哈尔滨师范大学青冈实验中学校2024-2025学年高二下学期开学考试地理试题(解析版)
- 大学生创业计划书与路演
- 自然拼读法在初中一年级英语词汇教学中的应用研究
- 政教处工作总结1
- 每日复习安排2024年特许金融分析师考试试题及答案
- 餐饮电话预订流程
- 丰富的CFA考试试题及答案库
- CFA考试风险管理实务与试题及答案
- 2024年特许金融分析师职业发展规划与试题及答案
- 专题07力、运动和-5年(2020-2024)中考1年模拟物理真题分类汇编(天津专用)(带答案解析)
- (一模)淄博市及滨州市2024-2025学年度高三模拟考试语文试卷(含答案)
- 2025年云南省中考语文试题解读及复习备考指导(深度课件)
- 陕西省安康市2024-2025学年高三下学期第二次质量考试(二模)地理试题(含答案)
- 2025年宁波城市职业技术学院单招职业技能测试题库新版
- 人工智能基础 课件 10.3 制作数字人
- 重庆礼嘉智慧公园极客社区项目总体规划国际竞赛投标方案
- 爆破安全规程
- 《马克思主义基本原理》考试题库及答案(400题)
- 小班语言活动《莴苣姑娘》课件
- 2024年浙江经济职业技术学院高职单招语文历年参考题库含答案解析
评论
0/150
提交评论