人工智能数据安全风险与治理_第1页
人工智能数据安全风险与治理_第2页
人工智能数据安全风险与治理_第3页
人工智能数据安全风险与治理_第4页
人工智能数据安全风险与治理_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CONTENTS1、人工智能技术发展与数据需求042、人工智能数据安全风险052.1人工智能与数据隐私062.2人工智能与数据质量112.3人工智能与数据保护143、国内外应对与举措183.1政策法规183.2技术发展203.3当前存在的差距254、人工智能数据安全治理274.1治理目标274.2治理框架284.3治理措施295、国内外优秀实践案例375.1英特尔推出HE-Transformer用于处理加密隐私数据375.2谷歌推出TensorFlowPrivacy用于提升AI中的隐私保护385.3谷歌推出TensorFlowFederatedlearning在用户设备上进行模型训练395.4Apple利用差分隐私技术保护用户设备数据安全405.5IBM开发AIFairness360开源工具包检测数据偏见415.6英伟达利用合成数据训练深度神经网络415.7阿里巴巴运用机器流量防控体系对抗数据投毒攻击425.8微众银行开发商用级开源项目FederatedAITechnologyEnabler435.9IFAA通过安全隔离技术实现生物特征信息安全435.10观安信息数据安全解决方案助力智能客服系统敏感数据防护446、结语45附录1国内外人工智能数据保护相关倡议46附录2国内外人工智能数据安全相关的标准及指南4803041、人工智能技术发展与数据需求2006年,随着深度学习模型的提出,人工智能引入了层次化学习的概念,通过构建较简单的知识来学习更深、更复杂的知识,真正意义上实现了自我训练的机器学习。深度学习可从大数据中发现复杂模式,具有强大的推理能力和极高的灵活性,由此揭开了崭新人工智能时代的序幕。在人工智能第三波发展热潮中,深度学习逐渐实现了在机器视觉、语音识别、自然语言理解等多个领域的普遍应用,也催生了强化学习、迁移学习、生成式对抗网络等新型算法和技术方向1。然而,当前阶段以机器学习为代表的人工智能技术需要海量数据作为支撑,数据越多,训练得到的算法模型效果越好,模型的泛化能力越强。因此,现阶段的人工智能技术对数据的依赖性极强。同时,数据与人工智能是相互依存的关系,人工智能为数据提供智能分析的手段,数据为人工智能提供输入和学习资料。由此,将导致在人工智能的发展进程中,数据安全将是一个极其关键的议题,对人工智能的安全、健康、快速发展非常重要。智能赋能网络空间安全:模式与实践》2、人工智能数据安全风险人工智能导致的数据安全风险由两方面因素促成。一方面,人工智能技术和各种智能化硬件带来的生产和生活场景的智能化变革导致数据呈现井喷式增长,数据的采集终端越来越多,传输速度越来越快,整个人类社会每时每刻都在产生着海量数据,这使数据安全风险陡然增加。同时,数据作为机器学习等人工智能技术的根基,在持续推动智能化技术的快速成熟与迭代,将带来更广泛的人工智能应用,而更广泛的应用又将采集和形成更大的数据资源库。另一方面,随着人工智能技术的发展,对数据的分析和挖掘能力也在迅速增强,这将导致给个人隐私、社会安全以及国家安全带来风险。图1人工智能与数据的关系0506人工智能中的数据安全挑战包括三个方面,分别为数据隐私问题、数据质量问题和数据保护问题。数据隐私问题指在人工智能的开发、测试、运行过程中存在的隐私侵犯问题,这一类问题当前是人工智能应用需要解决的关键问题之一;数据质量问题主要指用于人工智能的训练数据集以及采集的现场数据潜在存在的质量问题,以及可能导致的后果,这是人工智能特有的一类数据安全问题;数据保护问题主要指人工智能开发及应用企业对持有数据的安全保护问题,涉及数据采集、传输、存储、使用、流转等全生命周期,以及人工智能开发和应用等各个环节。图2人工智能中的数据安全风险构成2.1人工智能与数据隐私人工智能开发和应用的不同环节有不同的数据种类,其中存在隐私问题的数据包括:训练和测试数据、(训练成)的模型参数、应用系统实际输入数据(现场数据)、应用系统实际分析结果数据等。每类数据存在的隐私风险各不相同。2.1.1训练、测试数据采集与隐私深度学习需要大量训练数据作为学习资料,同时需要构建测试数据集用于AI系统的性能测试。当前,数据获取成为企业发展人工智能技术的重要瓶颈之一,也是企业竞相争夺的重要资源。目前,在数据获取的方法和途径方面出现了众多可能侵犯用户隐私的事件,引发了公众对个人数据被非法滥用的普遍担忧。典型案例1:以人脸识别为例,美国学术研究人员通常通过谷歌图片搜索、图片分享网站Flickr的授权(CreativeCommonslicense)、公共Instagram帐户或者其他一些途径获取大量的图片,以供训练或测试人脸识别算法2。授权的协议显示这些图片数据仅用于学术研究。然而,随着微软、IBM、Facebook和谷歌等公司将自己的未来押在人工智能上,人脸识别正越来越多地走出实验室,进入大型企业的领域。大量个人照片被用于商业领域,将引发隐私冲突。例如,2019年3月,IBM被爆出使用互联网上的照片作为人脸识别的“养料”,其中包含了图片分享网站Flickr上近100万张照片,但未获得用户许可,因此引发了国外媒体的高度关注和用户对隐私的广典型案例2:另一个典型案例是英国皇家自由信托基金会因在2016年将160万患者数据共享给谷歌的AI子公司DeepMind而遭到英国信息专员办公室(ICO)的调查,共享的数据主要用于一个智能医疗移动应用程序Streams的开发和测试,因未事先征得患者同意,这一数据共享行为被ICO裁定为违反了英国的数据保护法4。2.1.2现场数据采集与隐私在无人驾驶、智能家居、智慧城市等人工智能应用场景中,采集终端可能会过度采集用户敏感信息,违背个人信息安全规范中数据采集的最少必须原则,侵犯用户的合法权益。2Ifyourimageisonline,itmightbetrainingfacial-recognitionAI/2019/04/19/tech/ai-facial-recognition/index.html3IBMdidn'tinformpeoplewhenitusedtheirFlickrphotosforfacialrecognitiontraining/2019/3/12/18262646/ibm-didnt-inform-people-when-it-used-their-flickr-photos-for-facial-recognition-training4RoyalFreebreachedUKdatalawin1.6mpatientdealwithGoogle'sDeepMind/technology/2017/jul/03/google-deepmind-16m-patient-royal-free-deal-data-protection-act0708典型案例1:亚马逊公司近期被曝出雇佣了数千名员工,聆听使用其智能音箱Echo的用户家中和办公室捕捉到的录音,以帮助改进Alexa语音助手。智能音箱、智能电视、手机语音助手等智能硬件的“偷听”能力也因此引发公众的普遍担忧。典型案例2:当前在安防、身份核验以及各类零售商店广泛应用的人脸识别系统,也在随时随地抓取公众人脸信息,带来了关于隐私问题的诸多争更复杂的是,尽管对特定个人进行身份识别可能不是人工智能做出决策所必需的,但在很多场景下人工智能可能仍然会采集个人数据。典型案例3:在自动驾驶场景中,为了避免撞到行人,自动驾驶车辆上的传感器会收集足够的行人数据来识别他们,但识别特定的个人并不是系统做出决策所必需的,人工智能只需要确定目标是否是行人即可,但在这种情况下,行人的身份数据仍然被抓取了5。5CenterForInformationPolicyLeadership,ArtificialIntelligenceandDataProtectioninTension/uploads/5/7/1/0/57104281/cipl_ai_first_report_-_artificial_intelligence_and_data_protection_in_te....pdf2.1.3现场数据用于产品改进对于许多智能产品和服务商而言,收集用户数据的其中一个重要目的是优化产品性能和用户体验,使其更加智能。例如上述亚马逊智能音箱的例子就是一个典型案例,再如智能手机、Windows操作系统、办公软件也在普遍收集用户数据,用于改进产品的智能水平。此类行为虽然是为了为用户提供更加成熟的产品和服务,但若在用户不知情的情况下收集数据,则会对用户的隐私构成威胁。2.1.4数据分析挖掘与隐私随着企业普遍意识到数据的可利用价值,对用户的数据分析和挖掘变得无处不在,数据成为企业竞相争夺的重要资源。同时,人工智能和大数据技术的快速发展使得对数据的分析和挖掘能力也越来越强。典型案例1:在众所周知的“Facebook数据泄露”丑闻中,剑桥分析公司将来自Facebook上数千万用户的数据,用于在2016年美国总统大选中针对目标受众进行政治广告投放。剑桥分析公司使用的机器学习模型可以基于种族、年龄、性别等人口特征来建立影响选民的方法。典型案例2:当前的人工智能技术已经可以做到分析人的情绪、性格,甚至性取向等特征6。著名咨询机构Gartner曾预测,到2022年,用户的个人设备将比他的家人更加了解其情绪状态7。6TheAIThatPredictsYourSexualOrientationSimplyByLookingAtYourFace/sites/bernardmarr/2017/09/28/the-ai-that-predicts-your-sexual-orientation-simply-by-looking-at-your-face/#32068c9434567GartnerSaysArtificialIntelligenceIsaGameChangerforPersonalDevices/en/newsroom/press-releases/2018-01-08-gartner-says-artificial-intelligence-is-a-game-changer-for-personal-devices09同时,随着数据分析和用户画像技术的快速发展,个性化服务变得越来越普遍。然而,个性化服务建立在对用户数据的分析之上,出于对隐私的担忧,消费者对个性化服务的态度正快速发生转化,由之前的接受变为越来越排斥8。同时,认为“拥有更多用户数据的公司能够提供更好、更个性化的产品和服务”的用户也越来越少。这一趋势表明,隐私问题已成为技术发展的严重阻碍。此外,人工智能技术可以通过数据关联分析和模式识别从非个人数据或匿名化的数据中识别出特定的个人9。一方面,人工智能扩大了收集数据的类型和需求,例如,从手机、汽车和其他设备的传感器可以收集大量和类型多样的数据。另一方面,人工智能提供了越来越先进的计算能力来处理这些收集的数据。通过将分散的、无意义的数据点组合在一起组成扩展数据集,可以实现对特定个体的识别。神经网络等人工智能算法可以记住训练数据集的细节信息10,攻击者可以利用逆向攻击方法,通过分析系统的输入输出和其他外部信息,推测系统模型的参数及训练数据中的隐私信息11。其中对模型参数的窃取将对企业知识产权构成安全威胁,对训练数据隐私信息的窃取将对个人隐私构成安全威胁。8RSADataPrivacy&SecuritySurvey2019:TheGrowingDataDisconnectBetweenConsumersandBusinesses9RethinkingDataPrivacy:TheImpactofMachineLearning/luminovo/data-privacy-in-machine-learning-a-technical-deep-dive-f7f0365b1d6010Privacy-PreservingMachineLearning2018:AYearinReview/dropoutlabs/privacy-preserving-machine-learning-2018-a-year-in-review-b6345a95ae0fI典型案例1:美国斯蒂文斯理工学院的研究人员12证明任何以隐私保护为目的开发的联合深度学习方法(collaborativedeeplearning)也是易于被攻破的。他们开发了一种攻击手段,利用学习过程的实时性,攻击者可以训练一个生成式对抗网络(GAN),生成目标训练集的原型样本,从而获取原数据集中的隐私数据。典型案例2:卡内基梅隆大学的研究人员13发现了一种逆向攻击手段,针对人脸识别模型,可以通过一些人脸图片的标识符重构训练数据集中的人脸照片,从而造成隐私泄露。2.2人工智能与数据质量高质量的数据是人工智能发展的前提和基础。据埃森哲研究发现14,在运用人工智能技术面临的一系列挑战中,数据质量被企业列为最突出的挑战,其次是数据安量都是极其关键的要素。2.2.1训练数据质量训练数据集的质量将对人工智能系统的可靠性和安全性起到至关重要的作用,其中存在的问题包括15:1.数据集的规模不足:目前训练数据的获取是企业开发AI系统遇到的重要瓶颈之一,在机器学习算法中,监督学习模型的性能很大程度上依赖于可用的训练数据的规模,训练数据不足将导致AI系统的可靠性和安全性出现问题。2.数据集的多样性和均衡性不足:训练数据与真实数据的分布不一致将严重影响AI系统的性能,并引入一定程度的偏见,甚至在某些场景下产生安全性问题。12DeepModelsUndertheGAN:InformationLeakagefromCollaborativeDeepLearning,BrilandHitaj,GiuseppeAteniese,FernandoPerez-Cruz.13ModelInversionAttacksthatExploitConfidenceInformationandBasicCountermeasures,MattFredrikson,SomeshJha,ThomasRistenpart14AIturnsordinaryproductsintoindustrygame-changers/us-en/insights/industry-x-0/ai-transforms-products15《人工智能深度学习算法评估规范》典型案例1:由算法正义联盟发起的一项针对几款主流人脸识别分析服务(来自IBM、微软、旷视科技等公司)的测试表明16,这些算法针对白肤色男性的识别率非常高,而针对黑肤色女性的识别率则要低很多,例如IBM和旷视科技的算法针对黑人女性的错误率都高达35%。这种偏见部分是由于训练数据中黑肤色人种的代表性不足造成的。典型案例2:谷歌翻译被批评存在性别歧视,因为它会根据内容自动划分语言的性别,例如在将土耳其短语“obirdoktor”和“obirhemşire”翻译成英语时,谷歌翻译的返回结果分别为“他是一名医生”和“她是一个护士”。但“o”在土耳其语中仅是一个中性的第三人称代词1“医生是男性,护士是女性”的假设反映了文化偏见和医学界性别的不平衡。谷歌翻译记录了训练算法的数据中存在的人类文化偏见,最终导致翻译系统也存在性别歧8。典型案例3:Beauty.ai是一场完全由AI算法当裁判的国际选美比赛,在2016年的第一届比赛中,AI共选出了44位选美冠军,其中黄色人种和黑色人种分别只有6名和1名,其余的37张面孔都是白种人。Beauty.ai的CEO表示,出现这种结果的原因是训练数据中缺乏足够的种族多样性19。3.数据集的标注质量低:训练数据集的标注质量(例如准确性和一致性)会严重影响AI系统的性能。当数据标注质量较低时,机器学习模型的学习过程会非常困难。16Photoalgorithmsidwhitemenfine—blackwomen,notsomuch/story/photo-algorithms-id-white-men-fineblack-women-not-so-much/17Whywe'llneedmorethandatadiversitytoavoidprejudicedAI/@QuantumBlack/why-well-need-more-than-data-diversity-to-avoid-prejudiced-ai-20b7744e18ee18WhyAIneedstolearntounderstandwhatwe'renotsaying/agenda/2018/05/voice-control-why-ai-must-resist-our-bad-habit-of-stereotyping-human-speech19Alackofdiversityislikeworkingwithbiaseddatainmachinelearning/blog/?p=2041-lack-diversity-like-working-biased-data-machine-learning4.数据集遭投毒攻击:训练数据集可能被人为添加恶意数据,导致数据集被污染,进而影响AI系统的可靠性和安全性。训练出的模型参数看似正确高效,但对特定现场数据将做出错误判断,连续引发误导性决策且难以在使用中被察觉和验证,在高度依赖人工智能的场景中将有可能造成重大损失。典型案例1:例如在恶意代码识别算法建模阶段,攻击者向训练数据集中注入恶意数据,影响训练得到的模型,使得恶意代码无法被模型所识别,达到成功绕过安全防护系统的目的。2.2.2现场数据质量现场数据的质量也会对人工智能的安全运行产生重要影响,例如现场数据被篡改产生对抗性样本,将影响算法决策的输出。若在实时性较高的场景(如自动驾驶)中,当数据在进入人工智能核心模块之前受到定向干扰将会导致即时错误判断,可能产生灾难性后果。典型案例1:攻击者对交通标志做人类无法察觉的修饰,使得自动驾驶的传感器对其识别发生错误,影响驾驶安全。典型案例2:伯克利人工智能研究人员NicholasCarlini和DavidWagner发明了一种针对语音识别AI的新型攻击方法,只需增加一些细微的噪音,就可以欺骗语音识别系统产生任何攻击者想要的输出,从而实现身份盗用、欺骗认证系统等非法行为220《智能音箱安全风险浅析与发展建议》,龚文全,2019-03-202.3人工智能与数据保护人工智能的开发和运行过程中不仅涉及个人数据,还包括企业数据、工业数据、商业秘密、知识产权以及涉及社会安全、国家安全的多种重要数据,这些数据的安全保护当前同样面临重大风险。在人工智能开发和应用场景中,我们所要关注的数据安全保护问题并不仅仅是“人工智能模块”本身,而是包含人工智能模块的整个应用系统的数据安全问题,以及人工智能产业链上下游中的数据安全问题,包括数据采集、传输、存储、使用以及流通等数据生命周期的各个环节。图3人工智能中的数据生命周期安全风险2.3.1数据采集安全风险在人工智能场景中数据采集环节的安全风险主要涉及合规管控问题,例如训练数据、测试数据、现场数据的采集行为的合规性。2.3.2数据传输安全风险数据传输环节存在数据泄露、数据遭篡改等安全风险。典型案例1:在智能音箱场景中,用户的语音请求转换成数字信号后需将其传回到云端,根据需求调用相关应用程序服务后再将反馈的信息传回智能音箱和移动终端,在传输过程中可能发生数据泄露等风险。典型案例2:在自动驾驶场景中,通过传感器、激光雷达等传感设备采集的数据需通过车内网络(以太网等)进行数据传输,在此过程中,恶意攻击可能会对传输过程中的数据进行篡改,影响车辆行驶安全。典型案例3:在工业场景下,工业机器人的控制参数等数据在传输过程中也可能遭到篡改,造成工业现场人员伤亡、设备损坏等安全风险。2.3.3数据存储安全风险数据存储分为本地现场存储(前端)、后端数据存储和云端存储。在许多人工智能应用场景中,需要在现场对数据进行实时分析和处理,例如自动驾驶、人脸识别安防系统等,也有许多场景会把数据传回云端,在云端进行处理和存储,此外在有些场景下,既有存储在现场和前端的数据,也有存储在云端的数据。当前,无论是在前端还是后端,数据存储的安全管控都面临重大挑战。一方面前端和设备终端的数据存储环境安全性差,安全防护能力弱,给数据存储带来安全风险。另一方面云端数据库安全问题突出,数据泄露风险大。典型案例1:2019年2月,国内人脸识别公司深网视界被曝由于未对内部使用的一个MongoDB数据库做访问限制,并直接暴露在公网上,导致超过250万的公民个人信息数据能够不受任何限制的被所有人访问到。典型案例2:城市中的视频监控AI系统产生的数据量巨大且较为敏感,易遭到恶意攻击造成视频数据泄露。此外设备宕机、断网断电等将造成重要数据丢失,因此在该场景下针对大数据量的容灾备份能力对于数据安全存储极为重要。2.3.4数据使用安全风险在人工智能的开发和应用中,数据预处理、数据标注(人工)、模型训练、模型测试、模型参数部署、实际数据处理等环节都涉及数据的使用(如图3所示),其中存在众多安全问题。例如亚马逊公司曾被爆出,用户家中的智能音箱Echo在未经用户授权的情况下,私自将家人间的聊天记录发送给了联系人列表中的人。再如智能手机、智能音箱、智能汽车等智能设备回传给企业的数据在处理和使用过程中也存在敏感数据泄露问题。此外,数据挖掘分析过程中可能会分析得到危害国家安全、企业安全和个人安全的结果,造成数据价值泄露风险。这些都是人工智能系统在使用数据过程中产生的安全问题。2.3.5数据流通安全风险数据集的采集和标注是人工智能模型训练之前的重要步骤。当前,受人工智能技术热潮的驱动,国内外涌现了众多规模不等的数据采集、标注公司,以及一些众包平台,人工智能企业多通过众包市场的方式实现海量数据的采集和标注。然而,在数据的采集、标注等环节中,数据链条中所涉及的多方主体的数据保护能力参差不齐,当涉及敏感数据的处理和数据在多方主体之间流动时,面临数据泄露等安全风险。此外,数据在流通、共享和开放过程中才能实现价值,各地都在积极推动数据开放和共享,但数据安全是其中面临的重要问题。如何保证数据在流通和共享过程中的安全使用、安全存储、安全销毁将是一大挑战。此外,涉及数据跨境流动的场景也会对国家安全和个人信息保护造成不可控的安全风险。例如在自动驾驶场景下,车辆产生的路况、地图、车主信息等大量数据可能回传境外的汽车制造商,进行处理和再利用,这将给重要数据和敏感数据带来安全风险。3.1政策法规3.1.1倡议层面目前,对于人工智能可能带来的数据安全和隐私风险,已经引起了国际社会的广泛关注和担忧。美、英、日、欧盟等国家和地区的政府机构、相关社会组织及大型科技公司都发出了在人工智能开发和应用中保护个人数据和隐私的倡议(见附录1)。此外,由数据质量导致的AI系统性能、偏见及歧视问题,也成为AI发展中受到重点关注的问题,在国内外各个AI伦理和安全发展倡议中都是首要提及的议题。3.1.2法规层面目前,为应对人工智能新技术新应用快速发展给现有数据安全和个人数据保护法律制度带来的挑战,部分国家和地区已经开始针对某些人工智能特定应用场景 (例如自动驾驶、人脸识别、用户画像等),制定相关法律。场景1:用户画像与自动化决策在欧洲,2018年5月正式实施的欧盟《通用数据保护条例》(简称GDPR)对包括用户画像在内的自动化决策行为进行了规定21,提出数据主体应当有权随时反对企业使用其个人数据对其进行画像等自动化决策。在美国,“Facebook数据泄露事件”爆发后,美国加州于2018年6月通过《2018加州消费者隐私法案》。该法案同GDPR类似,也对包括自动化技术在内的数据处理活动提出了严苛要求。21REGULATION(EU)2016/679OFTHEEUROPEANPARLIAMENTANDOFTHECOUNCILof27April2016ontheprotectionofnaturalpersonswithregardtotheprocessingofpersonaldataandonthefreemovementofsuchdata,andrepealingDirective95/46/EC(GeneralDataProtectionRegulation)场景2:人脸识别比利时政府在2018年7月出台相应法规,禁止私人使用人脸识别或其他基于生物特征的视频分析摄像机,这一举措有效地打击了非警方使用人脸识别摄像机带来的隐私问题。2019年5月,美国旧金山出台法规禁止政府机构使用人脸识别技术。场景3:自动驾驶2017年7月出台的《美国自动驾驶法案》22要求自动驾驶汽车制造商必须制定隐私保护计划,明确对车主和乘客信息的收集、使用、分享和存储的相关做法,包括在收集方式、数据最小化、去识别化以及数据留存等方面的做法。在我国,《网络安全法》规定网络运营者应当按照网络安全等级保护制度的要求,采取数据分类、重要数据备份和加密等措施,防止网络数据泄露或者被窃取、篡改,并对个人信息保护提出了明确要求。此外,《个人信息保护法》、《数据安全法》均已列入国家立法规划,预计将囊括人工智能等新技术新应用中的数据安全问题。2019年5月,国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》对“定向推送”服务做出了明确规定,要求“网络运营者利用用户数据和算法推送新闻信息、商业广告等,应当以明显方式标明‘定推’字样,并为用户提供停止接收定向推送信息的功能。当前,针对人工智能数据质量以及由此导致的AI系统性能、伦理、偏见等问题,国内外法规仍处于空白阶段。22H.R.3388SELFDRIVEAct/115/bills/hr3388/BILLS-115hr3388eh.pdf20在标准指南制定方面,目前国内外尚未有专门针对人工智能数据安全的通用性标准或指南性文件,而是仅在某些特定领域的标准或指南中涉及某些场景的数据安全要求(见附录2),例如英国政府于2017年8月发布的《网联汽车和自动驾驶汽车的网络安全关键原则》23,对数据和个人信息的安全存储、传输、处理和删除提出了明确要求;欧盟网络与信息安全局(ENISA)于2018年发布的《自动代理中的安全和隐私——为网络安全政策制定形成框架》24对人工智能和自动代理 (AutonomousAgents)中存在的数据安全和隐私问题进行了梳理,并提出了对策建议。目前,我国也在某些针对人工智能特定应用场景的标准中明确了数据安全要求,如《信息技术安全技术生物特征识别信息的保护要求》(征求意见稿)、《信息安全技术智能家居安全通用技术要求》(征求意见稿)、《信息安全技术个人信息安全规范》(征求意见稿)等。3.2技术发展除传统的数据安全技术以外,目前,针对人工智能中的数据和隐私安全问题,以及面向人工智能数据的恶意攻击,已有技术层面的解决办法和防御手段,在一定程度上可缓解数据安全风险。3.2.1保护隐私的机器学习技术基于隐私的机器学习技术可以从根本上解决人工智能发展中的隐私问题。目前国际上致力于此类技术研究的行业实验室主要包括VisaResearch、VectorInstitute、GoogleBrain、DeepMind、MicrosoftResearch、IntelAI、ElementAI等,此外,斯坦福大学、麻省理工学院等学术机构也在开展此类技术研究。23Thekeyprinciplesofvehiclecybersecurityforconnectedandautomatedvehicles.uk/government/publications/principles-of-cyber-security-for-connected-and-automated-vehicles/the-key-principles-of-vehicle-cyber-security-for-connected-and-automated-vehicles24TowardsaframeworkforpolicydevelopmentincybersecuritySecurityandprivacyconsiderationsinautonomousagents,ENISA,2018.12基于同态加密的隐私保护技术目前,在利用加密技术有效保护深度学习中的隐私和敏感数据方面已经取得一定的技术进展。例如,同态加密技术允许对加密训练数据进行计算,当应用于机器学习时,它能够让数据所有者在获得数据价值信息的同时不暴露其基础数据,可有效解决训练数据的隐私问题。当前已经可以实现基于加密敏感训练数据集对深度学习模型进行训练,在模型运行过程中,也可以基于加密的输入数据进行决策,同时反馈的结果也是密文,从而有效地保护用户隐私25。英特尔于2018年12月推出的开源版HE-Transformer,即利用同态加密技术,使得机器学习算法能够处理加密隐私数据。但目前该技术在应用过程中面临的挑战是会大大延长计算时间,导致训练过程低效2基于差分隐私的隐私保护技术在许多场景下机器学习涉及基于敏感数据进行学习和训练,例如个人照片、电子邮件等。理想情况下,经过训练的机器学习模型的参数代表的应该是一般模式,而不是关于特定训练示例的事实。为了确保训练数据中的隐私得到有效的保护,可以使用差分隐私技术。差分隐私是一种被广泛认可的隐私保护技术,通过对数据添加干扰噪声的方式保护数据中的隐私信息。当对用户数据进行训练时,差分隐私技术能够提供强大的数学保证,保证模型不会学习或记住任何特定用户的细节。2016年,研究者提出基于差分隐私的深度学习算法,利用随机梯度下降过程中对梯度增加扰动来保护训练敏感数据2但在某些情况下,由于添加了噪声,差分隐私技术可能会导致精度受到影响29.27Deeplearningwithdifferentialprivacy[C]//2016ACMSigsacConferenceonComputerandCommunicationsSecurity.28EvaluationofPrivacy-PreservingTechnologiesforMachineLearning/outlier-ventures-io/evaluation-of-privacy-preserving-technologies-for-machine-learning-8d2e3c87828c2122安全多方计算安全多方计算是密码学的一个子领域,能够支持非公开的分布式计算。它可以解决一组互不信任的参与方之间保护隐私的协同计算问题,安全多方计算要确保输入的独立性、计算的正确性、去中心化等特征,同时不将各输入值泄露给参与计算的其他成员2安全多方计算运用到机器学习中,可有效解决训练过程中的隐私保护问题。使用非公开的多方机器学习(privatemulti-partymachinelearning),不同的参与方可以相互发送加密数据,并在不查看彼此数据的情况下获得各方想要计算的模型3目前该技术应用的挑战也是计算时间较长,并且需要多方通信。联邦学习联邦学习允许基于分散数据对机器学习模型进行训练,以解决隐私保护的问题。在联邦学习中,训练数据分散在每个节点上,然后由一个中央服务器协调各个节点组成的网络。每个节点都基于各自的数据训练一个本地模型,各个节点再将训练得到的模型共享给中央服务器,数据则仍然保留在每个节点,不被共享。这种方式可以有效解决数据被集中带来的隐私和数据安全问题。2017年,谷歌发布了应用于移动设备的联邦学习算法,可以将模型训练引入移动设备中,同时确保所有用于模型训练的用户数据保存在设备上(见5.3)。但目前联邦学习应用在移动设备上还面临通信带宽的挑战,有限的通信带宽会显著延长联邦学习过程的收敛时间329https://blog.csdn.net/fightingeagle/article/details/8153594030PrivacyEnhancingTechnologiesreport-RoyalSociety/-/media/policy/projects/privacy-enhancing-technologies/privacy-enhancing-technologies-report.pdf31FederatedLearning:TheFutureofDistributedMachineLearning/syncedreview/federated-learning-the-future-of-distributed-machine-learning-eec95242d8973.2.2数据偏见检测技术训练数据的不足和偏见会导致AI系统产生偏见。当前,已有许多企业和学术机构开始研究如何检测和解决训练数据中的偏见问题,并已取得了一定成果。例如,麻省理工学院的研究人员32开发了一种算法来减轻训练数据中隐藏的、以及潜在未知的偏见。这种算法将原始学习任务与变分自编码器相融合,以学习训练数据集中的潜在结构,然后自适应地使用所学习到的潜在分布,在训练过程中重新加权特定数据点的重要性。通过无监督的方式学习潜在的数据分布可以帮助发现训练数据中隐藏的偏见,例如训练数据集中代表性不足的数据种类,再通过增加算法采样这些数据的概率来避免偏见被引入AI系统中。研究人员通过该技术有效解决了人脸识别系统中的种族和性别偏见问题。此外,谷歌33、IBM(见5.5)等公司也分别开发了用于检测AI偏见和数据偏见的工具。3.2.3数据生成技术数据增强数据增强技术是指通过多种方式增加训练数据样本的数量以及多样性。例如可以通过旋转原始图像,调整亮度、对比度、饱和度和色调,以及以不同的方式裁剪图片等方式,生成不同的子样本数据,以此方式来扩大数据集的大小。每个通过增强得到的图像都可以被认为是一个“新”图像,因此可以为模型不断提供新的训练样本。应用数据增强技术还可以有助于减轻过拟合3提高模型的准确率。32UncoveringandMitigatingAlgorithmicBiasthroughLearnedLatentStructure/wp-content/papers/main/AIES-19_paper_220.pdf33TheWhat-IfTool:Code-FreeProbingofMachineLearningModels/2018/09/the-what-if-tool-code-free-probing-of.html34DealingwiththeLackofDatainMachineLearning/predict/dealing-with-the-lack-of-data-in-machine-learning-725f2abd2b922324合成数据合成数据是由算法生成的数据,而不是来自真实世界的数据。这些数据可以用来训练机器学习模型,或者作为验证模型的测试数据集。利用合成数据训练模型,再将其应用于真实的加密数据,不仅可以更好地理解训练数据与模型之间的关系,还可以避免隐私数据的使用。合成数据应包含与真实数据相同的模式和统计特征。合成少数类过采样技术(SMOTE)和改进的SMOTE技术是产生合成数据的两种技术。目前,英伟达已开发了一种深度学习模型,用于自动合成训练数据(见5.6)。3.2.4减少数据需求的技术迁移学习迁移学习是指把为一个任务开发的模型作为起始点,重新用于为第二个任务开发模型的过程3这种机器学习方法使用从第一个学习任务中获得的知识来改进该模型在另一个相关任务上的性能。通过重用这些已开发模型的部分模块,可以加快开发和训练模型所需的时间。同时,迁移学习技术还可以减少模型开发所需的训练数据数量。当训练数据不足时,可以考虑采用这种方法来获得所需的模型。小数据当前普遍使用的机器学习算法需要大量数据用于模型训练,并且数据的量越多越好,这带来了数据安全、隐私和偏见问题。目前已有许多研发人员开始研究基于小数据的人工智能算法。这种方式不仅使得人工智能更加智能、决策更加准备、算法更加具有可解释性,同时也能解决数据难获取和数据安全的问题。例如,通过高斯过程构建的概率模型可以基于少量数据模拟人类的推理过程,处理广泛的不确定性,并从经验中学习3谷歌的“ProjectLoon”气球网络计划就在其导航系统中利用高斯过程来预测气球在分层且多变的风向中的去向。这种技术不需要大量的数据进行模式识别,其推理和学习所需的计算是相对简单的,如果出了问题,它的原因也是可追踪的。35AnIntroductiontoTransferLearninginMachineLearning./kansas-city-machine-learning-artificial-intelligen/an-introduction-to-transfer-learning-in-machine-learning-7efd104b602636TheFutureofAIWillBeAboutLessData,NotMore/2019/01/the-future-of-ai-will-be-about-less-data-not-more3.2.5针对数据投毒的防御技术防训练数据集污染针对通过污染训练数据集以达到影响算法决策的攻击类型,目前存在三种技术可以防御此类攻击,包括训练数据过滤、回归分析和集成分析方法3其中训练数据过滤是通过检测和净化的方法实现对训练数据集的控制,防止训练数据集被注入恶意数据;回归分析是基于统计学方法,检测数据集中的噪声和异常值;集成分析是通过采用多个独立模型构建综合AI系统,来减少综合AI系统受数据污染的影响程防对抗样本攻击应对针对现场数据的对抗样本攻击当前可采用的防御方法包括:网络蒸馏、对抗训练、对抗样本检测、输入重构、深度神经网络模型验证等。其中对抗训练技术可通过在模型训练阶段,使用已知的攻击方法生成的对抗样本,对模型进行重训练,改进模型的抗攻击能力;对抗样本检测技术是在模型运行阶段,通过特殊的检测模型对现场数据进行判断,检测现场数据是否包含对抗样本;输入重构技术是指在模型运行阶段,对样本进行重构转化,以抵消对抗样本的影响。3.3当前存在的差距随着人工智能的快速发展,相关数据安全事件的不断曝光虽然已经引发了各方的担忧和关切,并已逐步开始在法规、标准、技术层面提出解决方案,但距离有效解决数据安全问题,仍存在较大差距。具体问题包括:图4当前人工智能数据安全能力差距25261.法规层面:法律存在盲点:例如针对训练数据集的质量问题,当前国内外都缺乏相应的法规予以规范。此外,我国仍未推出《数据安全法》、《个人信息保护法》等数据安全法规,而既有法规无法对人工智能中涉及的数据隐私问题予以全面、有效规制。法律存在不适用性:当前人工智能存在数据需求量大、算法可解释性不足、数据处理不可预测等特点,使得目前的数据保护法律中有许多条款在人工智能场景下具有一定的不适用性,并且不利于人工智能技术的发展。例如GDPR中的数据最小化、知情同意、收集限制、用途明确及使用限制等原则,对人工智能企业来说具有一定的合规挑战32.标准层面:由于人工智能的应用范围及其广泛,几乎可以覆盖到所有的行业,因此,需要针对各个应用场景中的共同问题,制定通用的人工智能数据安全标准,保障训练数据的质量,保护个人和组织数据的安全采集、使用和存储。此外,由于在不同应用场景中,数据的敏感程度、重要程度、以及人工智能的部署方式存在差异,因此需要针对不同应用场景的特异性,在通用标准的原则基础上,制定相应的不同领域的数据安全标准。然而,当前在全球范围内,无论是通用标准,还是细分领域标准,都比较缺乏。3.企业意识:由于人工智能相关技术发展处于早期阶段,且发展迅速,全球范围内无论是大型科技企业,还是初创企业,都在争先恐后地开展人工智能技术的开发和应用研究,甚少有企业关注其中的数据安全问题,除非出现了相关的数据泄露事件或隐私争议性事件。当前,虽然谷歌、苹果、Facebook、微软等科技巨头在外界压力下都开始致力于保护用户数据、消除数据偏见,但绝大多数企业,尤其是初创小型企业,都普遍缺乏对数据安全的关注。此外,由于法律的发展具有一定的滞后性,当前的人工智能发展仍处于野蛮和不受规制的阶段,虽然针对用户数据保护的倡议不断,但企业不存在合规压力,因此数据安全的风险极其严峻。38CenterForInformationPolicyLeadership,ArtificialIntelligenceandDataProtectioninTension/uploads/5/7/1/0/57104281/cipl_ai_first_report_-_artificial_intelligence_and_data_protection_in_te....pdf4.技术层面:当前,基于隐私的机器学习技术,以及针对各种恶意攻击的防御技术和数据保护技术都在快速发展,但仍不能解决全部问题。例如:3.2章节中提及的技术大多处于研究的初期阶段,在应用方面仍存在许多问题和挑战有待解决;当前针对人工智能中的数据安全的风险评估工具、测评工具等都比较缺乏;针对数据投毒等攻击类型的防御方法也无法有效抵御所有的攻击。4、人工智能数据安全治理人工智能中的数据安全治理是一个系统性工程,需要从法规、标准、技术等各个层面寻求应对策略,并需要监管方、政策制定者,人工智能开发商、制造商、服务提供商,以及网络安全企业协作,共同致力于解决数据安全的重大挑战,在人工智能技术发展的当前阶段,同步建立安全治理体系,护航人工智能技术的健康可控发展。4.1治理目标1.实现数据全生命周期安全要以数据全生命周期安全为治理目标,覆盖从数据采集、传输、存储、使用、共享、再利用,到数据删除、销毁的全过程中的安全,防止数据和个人隐私遭泄露、非授权访问、非授权使用以及篡改等。同时,要实现数据预处理、数据标注 (人工)、模型训练、模型测试、模型参数部署、实际数据处理等人工智能开发及应用各个环节的数据安全管控。2.实现数据供应链安全人工智能催生了数据采集、数据处理、数据标注等以数据服务为业务的新兴产业,同时,合作伙伴之间的数据共享、数据交易日益普遍,因此,数据安全治理要以全数据链条中的数据安全为目标,确保数据在不同控制主体之间流通时不被滥用和泄露。27283.实现数据质量有效治理当前人工智能发展阶段,数据质量对算法安全至关重要。要实现对数据规模、数据多样性、数据均衡性、数据标注等质量因素的有效治理,保障高质量数据集应用于人工智能技术和产品的开发过程。4.不阻碍人工智能技术创新当前各国的数据保护法规可能会在某种程度上不适用于人工智能技术的开发、部署和应用。因此,人工智能数据安全治理应以不限制技术创新为前提和目标,在此基础上采取有效方法解决数据安全难题。4.2治理框架为有效应对人工智能带来的数据安全挑战,我们从多个角度出发,提出了人工智能数据安全治理的整体框架,如下图所示。该框架依靠政策与法规为先导,以产业自律+组织管理制度建设为基础,以覆盖数据生命周期的协同化技术保障体系为核心,以关键技术突破为支撑,实现人工智能数据安全治理的上述四项目标,最终促进人工智能产业安全健康发展。图5人工智能数据安全治理总体框架4.3治理措施如上图所示,人工智能数据安全治理需要多方参与,共同协作。各方应做出的努力包括:4.3.1政策制定者1.更新和完善现有法规,加快立法进程:加快《数据安全法》、《个人信息保护法》等法规的立法进程,对数据采集、数据使用、数据交易、数据共享等环节加强监管;在立法过程中充分考虑人工智能等新兴技术中的数据安全问题,以及技术快速发展带来的法律不适用性等挑战;平衡好人工智能发展与数据安全之间的关系,确保不阻碍技术创新;在立法过程中应明确数据保护法的适用范围,避免将资源浪费在保护不影响个人隐私的数据上。2.促进最佳实践、指南、标准的形成政策制定者应促进人工智能企业中数据安全最佳实践的征集、交流和推广,并在此基础上逐步形成相关的安全基线要求、指南、技术规范以及标准。3.促进数据开放和建立公共数据集进一步促进政府数据开放,鼓励公共部门和私营部门以及行业之间的数据共享,通过保护共享的数据来提高整个人工智能环境中数据的隐私性和安全建设面向人工智能的公共数据资源库、标准测试数据集、对抗数据集,供人工智能开发人员使用,以解决训练和测试数据的获取和质量问题。4.加大对技术研发的支持应加大对数据安全和隐私保护技术的支持和投入,鼓励AI企业和学术机构研究致力于保护隐私数据和提高数据质量的技术,例如基于隐私的机器学习技术、基于小数据的人工智能算法、数据偏见检测技术以及数据安全技术等。2905.促进测评能力建设推动人工智能数据安全相关测评标准和技术能力的建设,加强对人工智能产品中数据安全和隐私保护的测评和认证。4.3.2人工智能开发&应用企业人工智能系统开发企业和在业务中部署人工智能系统的组织是应开展人工智能数据安全治理的主体。其中人工智能开发企业需在人工智能产品的设计、开发、测试、部署过程中贯彻数据安全的原则,在训练数据的获取和使用过程中注重数据质量、数据安全和隐私保护。在业务中使用人工智能技术的组织也需通过技术和管理手段建立确保数据全生命周期安全的数据安全能力。1.组织内部数据安全能力建设:图6组织内部人工智能数据安全能力要素1)组织建设设立负责数据安全工作的组织机构和专职人员,进行明确的职责分配。数据安全治理组织机构应负责制定组织内部的数据安全制度规范,负责数据安全风险管理、数据安全策略管理、数据安全合规管理、数据安全标准管理等,并对组织内部的数据安全管理活动进行指导和监督。2)制度规范数据安全制度规范包括数据质量管理规范、数据安全管理规范等。其中数据安全管理规范应包括数据安全采集、数据安全传输、数据安全存储、数据安全共享、数据安全销毁等规范。3)组织文化人工智能开发企业要将数据质量、数据安全和隐私保护融入组织文化建设,要以此为理念开展人工智能产品的设计、开发和测试,人工智能系统应用企业要以此为理念管理好应用过程中产生的数据。4)管理流程要建立组织内部的数据安全管理流程,通过规范化的流程确保制度规范的落5)技术能力运用数据质量检测技术,部署必要的数据安全产品和服务,通过技术手段辅助数据安全制度规范的实施。6)人员意识通过培训等多种方式提升组织内部相关人员的数据安全和隐私保护意识。1322.数据全生命周期安全建设:图7人工智能数据生命周期安全1)AI系统开发人工智能开发企业需通过技术手段将隐私和数据保护的理念和原则融入到AI系统的设计和开发中(PrivacybyDesign),使得AI系统在默认情况下就是尊重和保护用户数据的(PrivacybyDefault)。2)数据采集安全数据采集环节需建立必要的内部监督机制和管理流程,保障训练数据和现场数据采集的合规性。需采用数据资产发现工具统计和梳理组织采集的数据资产,并通过工具自动识别其中包含的敏感数据。需制定组织内部统一的数据质量规范及标准,以及监督和评估流程。需采用技术手段监控采集数据的质量,包括数据的完整性、一致性、准确性等指标。尤其针对训练数据集,要评估数据集的完整性、多样性、数据标注质量、以及数据污染情况等。建立数据采集日志,实现对数据采集过程的可追溯。3)数据传输安全数据传输环节需采用数据加密、签名、安全通道、认证等技术手段保障数据传输过程的安全性,防止数据遭篡改和数据泄露。4)数据存储安全数据存储环节要保障前端、后端以及云端的数据安全存储,并制定和部署严格的访问控制策略,确保数据不被非授权访问。通过加密手段实现对数据库以及数据的加密,并根据不同粒度对数据库进行透明加解密,保证数据安全可用。建立有效的密钥管理机制实现对密钥的安全管理。部署数据安全网关,利用数据标签和用户风险等级对用户进行细粒度动态访问控制,防止数据泄露。通过数据安全审计工具对安全事件、行为事件等日志进行全面监测,及时发现各种安全威胁、异常行为事件。5)数据使用安全数据使用环节需制定数据使用管理规范和数据分析管理规范,保障数据使用和数据分析的合规性和安全性。需运用数据静态脱敏、动态脱敏、个人身份去标识、密文透明处理等技术保障敏感数据使用和数据分析过程中的安全。需建立面向数据使用的访问控制策略,包括数据应用接入的合法性和安全性审核机制。6)数据共享安全数据共享环节需建立必要的数据供应链管控机制和数据交换共享管控机制,并确保数据交换共享的合规性。需运用数据标签、数据交换共享管控等技术手段实现数据供应链安全和数据共享安全。涉及数据跨境传输的组织,需建立组织内部数据跨境流动评估机制,确保数据跨境传输的合规性。3347)数据销毁安全应建立组织内部数据可信销毁监督机制,并借助可信删除等技术手段实现数据的安全销毁和删除。3.关键数据安全能力建设数据质量检测和消除建立数据质量标准,包括训练数据集质量标准和现场采集数据质量标准。严格按照数据质量标准采集和处理相关数据。利用数据偏见检测技术验证训练数据集的质量是否符合要求,利用数据偏见消除技术管控数据质量问题。通过训练样本过滤和对抗样本检测等技术,实现训练数据和现场数据的投毒攻击防御。敏感数据安全管控√敏感数据等级设置:根据用户的访问权限、账号权限、数据权限等将敏感数据按要求划分等级,以便于针对内、外部数据使用者展开权限适配审计,并针对不同等级或不同类型的敏感数据制定不同的保护方案。√敏感数据智能识别与预警:通过结合字典匹配与人工识别方法,精准、高效识别敏感数据等级;严格把控敏感数据访问授权与传输过程,及时识别访问与传输内容中涉及的敏感数据,实时监控,自动预警,提示安全管控员及时查核违规操作。√敏感数据脱敏:通过动态脱敏网关及静态脱敏规则实现对敏感数据的安全访问和使用。对不同敏感等级的数据采用不同的脱敏方法。√敏感数据视图管理:建立具备敏感数据视图、用户操作访问、违规操作、敏感操作等多维度敏感数据视图展示能力的管理平台。通过敏感数据的发现模块,并结合敏感数据标识管理功能,从不同维度展示敏感数据的分布视图。针对数据脱敏管理过程产生相关的数据视图,便于针对脱敏行为进行审计和关联分析,发现潜在操作违规行为。数据安全智能审计√在企业内部构建大数据安全防护体系,有效保障人工智能开发和应用企业的大数据安全。针对大数据平台各层级访问、操作日志,对各类日志进行汇总,为大数据平台敏感数据查询、更新及出入库等操作提供统一审计日志实时展现平台。通过平台审计规则构建知识库对安全日志中的敏感词汇和异常行为进行匹配,提供智能化审计能力,实现对异常操作行为的风险预警,为安全人员提供及时的告警及处理建议。√实现对大数据平台的使用、管理、应用系统接口调用等访问行为,从账号管理、认证管理、授权管理、日志审计四个方面提出访问控制要求。数据共享安全管控√建立完善的数据对外开放访问机制。在敏感数据出入网过程中,通过与敏感等级适配的水印技术,实现敏感数据脱敏与数据追踪溯源要求。4.3.3关键技术支撑人工智能中的数据安全治理需要技术持续不断的发展,以支撑数据安全治理的目标。包括但不限于:1.人工智能相关技术基于隐私的机器学习技术:基于同态加密、差分隐私、安全多方计算的机器学习技术,以及联邦学习等分布式模型训练技术,都可以有效保护用户的数据安全,应加强该类技术的研究与应用,发展以数据保护为前提的人工智能技术。减少数据需求的技术:迁移学习以及基于小数据集的人工智能技术能够有效减少人工智能技术开发对数据量的需求。要加强此类技术的研发,从根本上解决人工智能对海量数据的需求带来的数据安全问题。此外,在小数据技术还不成熟的阶段,采用基于GAN等技术的数据合成以及数据增强技术,可以有效扩大训练数据集的规模和多样性,解决数据难获取和数据安全、隐私问题。536数据偏见检测技术:数据偏见是人工智能中特有的数据安全问题,要加强对数据偏见检测及消除技术的研究,避免数据偏见及其他数据质量问题对人工智能系统产生影响。针对AI数据的攻击防御技术:针对AI系统的恶意攻击可以通过破坏和篡改数据实现影响AI系统的决策功能的目的,例如数据投毒攻击。为确保数据和AI系统的安全性,需加强针对此类攻击的防御和对抗技术的研究,例如对抗训练、对抗样本检测等技术。2.数据安全技术在人工智能数据安全治理中,网络安全企业是非常重要的角色。网络安全企业需加强数据安全技术研发,有效支撑人工智能企业的数据安全能力建设。需重点加强的数据安全技术包括:加密技术、访问控制、个人信息去标识化、数据脱敏、数据标签、数据交换共享管控、数据备份容灾、数据可信删除等。同时,需加强人工智能开发和应用场景中的数据安全风险评估能力,帮助人工智能和应用企业发现数据安全风险点,全面了解可能面临的各类风险。PyTorchTensorFlowONNXCPUPCKKSPyTorchTensorFlowONNXCPUPCKKS5.1英特尔推出HE-Transformer用于处理加密隐私数据2018年12月,英特尔发布开源版HE-Transformer,这是英特尔神经网络编译器nGraph的同态加密(HE)后端,能够处理加密的隐私数据3HE-Transformer基于微软开发的开源SEAL简单加密算法函数库,来实现底层加密功能。HE-transformer可以使开发人员在开源框架(如TensorFlow)上开发神经网络模型,然后轻松地将它们部署到加密数据上进行操作。.......MXNeMXNetnGraphGPUGPUSEALBFV图8HE-Transformer图解(来自Intel官网)当前,设计深度学习同态加密模型需要同时具备深度学习、加密和软件工程方面的专业知识。HE-transformer提供的抽象层(abstractionlayer),能够综合各个领域的技术进步,使用户获益。HE-transformer允许开发人员基于开源框架 (如TensorFlow、MXNet和PyTorch)直接部署经过训练的模型,而无需将模型集成到同态加密库中。研究人员可以利用TensorFlow快速开发新的同态加密深度学习拓扑结构。39HE-TransformerfornGraph:EnablingDeepLearningonEncryptedDatael.ai/he-transformer-for-ngraph-enabling-deep-learning-on-encrypted-data/#gs.lzlvpd7385.2谷歌推出TensorFlowPrivacy用于提升AI中的隐私保护2019年3月,谷歌推出了一个基于机器学习框架TensorFlow的新模TensorFlowPrivacy,可以让开发人员只需添加四到五行代码和通过一些超参数调整就可以为AI模型添加隐私保护功能4运用TensorFlowPrivacy,开发人员不需要具备隐私或数据方面的专业知识,也不需要改变模型架构和训练过程。TensorFlowPrivacy模块基于差分隐私技术,在训练过程中,通过采用改进的随机梯度下降法对模型进行优化,保证模型不会学习或记住任何特定用户的细节,从而实现对隐私训练数据的保护。这种学习方式对每个训练数据示例的效果设置了最大限度的限制,并确保没有任何一个这样的示例本身由于添加了噪声而受到任何影响。图9MNIST训练数据中的一组独特的离群数值 (注:通过TensorFlowPrivacy模块,模型可以基于这些离群值进行学习,同时不会以任何方式记住这些数值。)40IntroducingTensorFlowPrivacy:LearningwithDifferentialPrivacyforTrainingData/tensorflow/introducing-tensorflow-privacy-learning-with-differential-privacy-for-training-data-b143c5e801b65.3谷歌推出TensorFlowFederatedlearning在用户设备上进行模型训练通常标准的机器学习方法需要将训练数据集中到一台机器或数据中心中。针对基于用户与移动设备的交互进行训练的机器学习模型,谷歌于2017年推出了另外一种方法:联邦学习(FederatedLearning)41。联邦学习可以将模型训练引入移动设备中,使移动设备能够以协作的方式学习一个共享的预测模型,同时确保所有用于训练模型的用户数据保存在设备上,从而将训练机器学习的能力与将数据存储在云上的需求解耦开来。目前,联邦学习算法已经被应用在谷歌输入法上。联邦学习的工作原理为(如下图):用户设备下载当前的机器学习模型,通过学习手机上的用户数据来改进模型,然后将模型更改总结成一个更新。通过加密通信将对模型的更新发送到云端,并立即与其他用户发送的模型更新进行平均,以改进共享模型。通过这种方式所有的训练数据都会保存在用户设备上,并且每个用户产生并上传的模型更新也不会存储在云端。图10联邦学习技术图解 (注:手机根据用户的使用情况在本地产生个性化的模型(A);多个用户的更新聚合在一起(B)形成对共享模型的一致更改(C),然后重复这一过程。)41FederatedLearning:CollaborativeMachineLearningwithoutCentralizedTrainingData/2017/04/federated-learning-collaborative.html940联邦学习能够同时实现更智能的模型、更低的延迟和更少的功耗,同时确保用户的隐私。另外,这种方法的另一个直接的好处是:除了提供对共享模型的更新以外,改进后的模型也可以立即在用户的设备上使用,利用用户使用移动设备的方式为个性化体验提供支持。为了实现联邦学习的目标,谷歌在移动设备的模型训练中使用了一个微型版本的TensorFlow。同时谷歌确保模型的训练只在设备空闲、充电和免费无线连接时进行,因此不会影响设备的性能。5.4Apple利用差分隐私技术保护用户设备数据安全Apple非常注重用户的隐私安全。在提升用户体验的同时,Apple通过差分隐私技术,保护用户共享给Apple的信息42。具体而言,Apple分析用户数据之前,利用差分隐私技术为数据添加随机信息,使得Apple无法将这些数据与用户设备进行关联。只有当单个用户的数据与大量其他用户的数据相结合,平均掉随机添加的信息时,相关的模式才会显现。而这些模式,能够帮助Apple深入了解人们如何使用他们的设备,同时避免收集与个人相关的信息。此外,Apple会利用机器学习提升用户体验,并保护用户隐私。Apple在多个方面运用了机器学习技术,包括在照片App中实现图像和场景识别,在键盘中加入文本预测功能等。当前,Apple允许开发者使用其架构,例如CreateML和CoreML,来创造强大的App体验,而且无需将数据从设备上转移出去。这意味着各类App能分析用户情绪、分类场景、翻译文本、识别手写文字、预测文本、标记音乐,以及实现更多功能,但不会危及用户隐私。42Thisishowweprotectyourprivacy./lae/privacy/approach-to-privacy/5.5IBM开发AIFairness360开源工具包检测数据偏见为有效检测和消除机器学习模型和数据集中的偏见,IBM开发了一个开源工具包AIFairness360。这个可扩展的开源工具包可以帮助用户在整个AI应用生命周期中检查、报告和减轻机器学习模型中的歧视和偏见。该工具包包含70多个用于测试偏见的数据集和模型度量指标,以及10个用于减41轻数据集和模型中偏见的算法4344。在10个算法中,有4个算法是用来消除数据集偏见的,包括OptimizedPreprocessing、Reweighing、DisparateImpactRemover和LearningFairRepresentations。其中Reweighing算法通过改变不同训练样本的权重来消除训练数据集中的偏见;OptimizedPreproces

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论