下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《生成式人工智能与数据隐私:入门指南》报告解读随着人工智能(ArtificialIntelligence)算法不断迭代升级,人工智能的相关产品成为现阶段备受各界关注的热点与重点对象。在被赋予强大的学习能力后,人工智能不再局限于只按照事先指定的模板或者规则,进行简单的内容输出和制作,而是可以根据用户提出的相关指令生成灵活且真实的内容,甚至能够实现高质量的内容创作,这类技术也被称为人工智能生成内容(AIGeneratedContent,AIGC),或者基于生成式人工智能服务产生的内容物。[1]这类基于生成式人工智能服务产生应用工具使用大量信息(包括个人信息)来转换和生成各种内容,包括了智能对话、撰写论文、创建图像或视频以及计算机代码等,现有的著名生成式人工智能工具包括:OpenAI利用GPT-3/GPT-4大型语言模型的应用程序ChatGPT、Microsoft的Bing搜索/Copilot产品以及谷歌的Bard。然而,生成式人工智能作为一项新技术应用,在给社会和产业层面带来巨大发展潜力的同时,也对人类与人工智能的交互关系产生重大影响,潜在的数据滥用、算法歧视、隐私侵权技术垄断等法律风险引发了人们对AIGC乃至整个人工智能技术和产业的信任危机,可能会阻碍人工智能技术和产业创新发展,为此,各界对于可能导致这一危机产生的核心问题进行了深入探究。2023年5月,美国国会研究处发布《生成式人工智能和数据隐私:入门指南》报告(以下简称“《报告》”),对生成式人工智能(AIGC)如何使用数据及可能引发的数据隐私风险等问题进行了分析,提出相应对策。该报告主要阐述了AIGC与数据之间的关系,并总结了AIGC使用及获取数据的方式可能引发的相关风险,如对用户个人隐私的侵犯以及知识产权和内容治理等方面可能产生的风险。在应对AIGC相关风险上,报告提出了应通过立法建立相应机制以进行相关类型的风险防范。为了对生成式人工智能的相关问题有更加深入地理解,本文对美国国会研究处发布《生成式人工智能和数据隐私:入门指南》进行解读,报告主要内容如下。1什么是生成式人工智能?自人工智能技术领域开辟以来,诞生了ChatGPT、谷歌Bard和其他相类似的系统,“生成式人工智能(AIGC)”的产品本身及其所产生的相关风险进而也成为美国国会议员的重点关注内容。报告指出,现阶段,人工智能的确切定义在法规和机构指南中各不相同。例如,《2020年国家人工智能倡议法》(L116-283)将人工智能定义为“基于机器的系统,它可以针对一组由人类定义的目标,做出影响真实或虚拟环境的预测、建议或决定。人工智能系统使用机器和基于人类的输入,以(A)感知真实和虚拟环境,(B)通过分析以自动化的方式将这种感知抽象为模型;(C)使用模型推理来制定信息或行动的选项”。总体上可定义为:生成式人工智能是一种可以通过从已有数据中学习模式来生成新内容(如文本、图像和视频)的人工智能。这是一个广义的术语,也包括人工智能和机器学习(ML)的各种技术和技巧。表1现阶段生成式人工智能主流产品及应用类型
生成式人工智能拥有许多类型的数据模型,可以根据输入内容或“提示”内容来产生不同结果。例如,一些模型可以根据文本提示产生图像(如Midjourney、StableDiffusion、DALL-E),而其他模型则能够创造视频(如Gn2或者Meta公司的Make-A-Video)。这些模型可以使用不同的技术和方法,如生成对抗网络(GAN)或生成式预训练训练转化器(GPT)。表2生成式人工智能模型示例
现阶段,一些学者和政策制定者创造了“通用模型”(GPAI)一词,来描述类似于ChatGPT类型的具有各种功能的应用,GPAI类型多功能应用与为特定任务设计的单一目的模型相比,可能有广泛的下游应用,能够衍生出更多层面功能为使用者所应用。此外,许多通用的人工智能应用都建立在大型语言模型(LLMs)之上,这些模型可以识别、预测、翻译、总结和生成语言。这种大型语言模型是生成式人工智能的一个子集,其特点是“大”,产生的部分原因是为训练模型学习语言规则时需要海量数据。2生成式人工智能模型使用数据的方法数据是生成式人工智能模型使用数据的重要要素。报告提到,生成式人工智能模型使用数据的方法则是利用特别大的数据集来进行训练和微调。其中,训练模型是指向模型提供数据来进行学习,通常称为训练数据集。在一个模型被训练成可以从一个数据集中识别模式后,一些模型可以被提供给新的数据,并且仍然可以识别模型或预测结果。微调模型是指在新的数据上训练以前训练过的模型,或以其他方式调整现有模型生成式人工智能模型。例如,OpenAI的ChatGPT是建立在一个大语言模型的基础上,它的训练部分是基于从互联网上获取超过45TB的文本数据进行训练。OpenAI的GPT-3模型则是在从网络上获取的约3,000亿个“词块”(或单词片段)上进行训练的,拥有超过1,750亿个参数,这些参数是影响训练和生成模型属性的变量。同时,大型语言模型还在维基百科的词条和数字化书籍的语料库中进行了训练。然而,一些研究认为这些模型有很大弊端,其依赖于侵犯隐私的方法来收集大量数据,通常未经原始用户、创建者或所有者的同意或补偿。此外,一些模型可能在敏感数据上进行训练,并向用户透露个人信息。谷歌人工智能研究人员指出:“由于这些数据集可能很大(数百千兆字节),即使是在公共数据上训练,由于是从广泛来源中提取,它们有时可能包含敏感数据,包括个人身份信息(PII)——姓名、电话号码、地址。报告还指出,目前学术界和工业界研究发现,一些现有的大语模型可能会从他们的训练数据集中泄露敏感数据或个人信息,有些模型用于商业目的或嵌入到其他下游应用中。例如,公司可以购买订阅版ChatGPT,将其嵌入到各种服务或产品中。以KanAcademy、Duolingo、Snapchat等应用为例的公司及其他公司已与OpenAI合作,在其服务中部署ChatGPT。然而,个人可能并不知道他们的数据被用于训练模型,但这些模型已被货币化并部署到这些服务中应用之中。对于使用个人信息不当的人工智能开发者,一些国家已着手采取相应的治理措施,如意大利数据保护局发布了一项临时禁令,禁止OpenAI使用意大利用户的数据。由于OpenAI未经同意收集、使用和披露个人信息,造成了严重的信息泄露事故,因此政府决定即刻对ChatGPT施加暂时限制,成为全球范围内第一道针对ChatGPT的政府禁令。在开发者同意做出某些改变(例如允许用户根据欧盟《通用数据保护条例》(GDPR)提交删除个人数据的请求)后,恢复了意大利用户对其服务的访问。3人工智能数据的来源关于生成式人工智能利用的数据来源,许多人工智能开发者并不公开其训练数据集的确切细节,但事实上就其而言大多数训练数据都是从公开网页上进行“搜刮”而来的,通过搜索成集后再重新打包出售,或在某些情况下,数据被免费提供给人工智能开发者。一些人工智能开发人员依赖于流行的大型数据集,如“ColossalCleanCrawledCorpus”(C4)和“CommonCrawl”,这些数据集是通过网络爬行(即通过软件系统地浏览公共互联网网站,并从每个可用网站收集信息)积累起来的。同样,人工智能图像生成器通常是在一个名为“LAION”的数据集上进行训练的,该数据集包含了数十亿张从互联网网站上抓取的图像及其文本描述,有些公司还可能使用专有数据集进行培训。生成式人工智能数据集的内容可能包括在互联网网站公开上发布的信息,其中不乏含有PII以及敏感信息和受版权保护的内容,此外,还可能包括错误、色情或潜在有害的公开内容。由于数据可能会在未经创建者同意的情况下被搜刮,一些艺术家、内容创建者和其他人已经开始使用新的人工智能数据集,即“HaveIBeenTrained”等工具来识别和报告个人在此类数据库中的内容。在2023年的一项调查中,《华盛顿邮报》和艾伦人工智能研究所分析了为C4数据集搜刮的网站,包括谷歌、Facebook和OpenAI在内的人工智能开发者都在使用该数据集。调查发现,C4数据集包括具有版权内容的网站以及潜在的敏感信息,如州选民登记记录,这些形式的数据收集也可能引起版权所有权和合理使用的问题,成为了生成式人工智能技术健康发展的症结所在。4与生成式人工智能模型共享的数据的后果从运行角度来看,生成式人工智能存在高频、渐进的个人信息间接泄漏风险。在网络用户运用人工智能型应用软件的过程中,不可避免会与生成式人工智能模型进行数据共享,这就可能存在与生成式人工智能应用程序(如聊天机器人)共享的用户数据会在用户不知情的情况下被误用或滥用。生成式人工智能需要从大量数据中学习和生成模型,并不断改进模型,以提高生成文本的准确性。这就意味着,上一版本中收集的个人数据可能被用于模型训练并在未来版本中进行输出,从而间接导致个人信息泄露。例如,用户在与健康护理聊天机器人对话时可能会透露敏感的健康信息,但并没有意识到他们的信息会被储存并用于重新训练模型或其他商业目的用途。此外,许多现有的聊天机器人都有服务条款也允许公司重新使用收集到的用户数据来“开发和改进他们的服务”。这些可能发生的情形通常与用于披露敏感信息的互动或服务的生成模型紧密相关,如咨询、治疗保健、法律或金融服务。而模型可能会学习到这些信息并在模型输出的结果中泄露这些信息。这种个人信息泄露乃至频发的风险,与生成式人工智能内在运行机理紧密关联,为生成式人工智能所特有,并且一定程度广泛存在于海量用户“人机对话”的过程中。由于生成式人工智能的高度复杂性,其内部机制的运作具有黑盒特性,从而使这种间接泄露及频发境况很难被发现和察觉。[2]因此,作为回应,相关的智能聊天机器人和其他生成式人工智能模型应该需要用户给予肯定的同意,或者明确披露用户数据的收集、使用和存储方式。5相关的政策考虑1、现行数据隐私及相关立法状况截止目前,美国尚未建立一部全面的数据隐私法。尽管国会已经颁布了一些法律,为某些行业和数据的子类别制定了数据要求,但这些法定保护措施并不全面。例如,《格拉姆-里奇-布利利法案》(P,L.106-102)对金融机构使用非公开个人信息进行了规定,而《健康保险可携性和责任法案》(HIPAA,P.L04-191)要求承保实体保护某些健康信息。根据美国现行法律,生成式人工智能可能会牵涉到某些隐私法,这取决于模型的背景、开发者、数据类型和目的。例如,如果一家公司在电子游戏或其他针对儿童的在线服务中提供聊天机器人,该公司可能被要求满足《儿童在线隐私保护法》(COPPA,PL05-277)的某些要求。此外,美国某些州关于隐私、生物识别和人工智能的法律可能对生成式人工智能应用产生影响。在许多情况下,个人信息的收集通常牵涉到某些州的隐私法,这些法律规定个人“有权利知道”企业收集了他们的什么信息;数据是如何使用和共享的;“有权访问和删除”他们的数据或“有权选择退出”数据的转移和销售。然而,这其中不乏一些包括对收集公共数据的法律豁免,可能会引起关于如何以使用及是否适用于生成式人工智能工具从互联网上“刮取”的信息及其相关问题。在没有全面的联邦数据隐私法的情况下,一些个人和团体已经转向其他法律框架(如版权、诽谤、公开权),以解决生成式人工智能和其他人工智能工具的潜在隐私侵犯。例如,一些公司因可能违反州法律中对公开权的相关规定而面临集体诉讼,即该法律保护个人肖像不被擅自用于商业目的。针对上述问题,报告指出国会可以考虑颁布全面的联邦隐私立法,专门处理生成式人工智能工具和相关问题。在构建相关的法律框架时,国会可以借鉴和评估类似的其他州际法律的现有成果以达到治理目的。例如,欧盟(EU)此前拟议的人工智能法案,其内容包括关于数据监管、数据披露和数字文件等相关的各种条款。以及欧盟在对《人工智能法案》的近期讨论中,对通用人工智能系统的类别和基础模型进行了补充,将其用于在大量数据上进行训练的人工智能模型的另一个术语,可适用到各类任务之中。国会也可进行相关考虑,制定相应的条款以规制人工智能工具对隐私权的侵犯。2、拟议的隐私立法美国国会议员提出了各种全面或有针对性的隐私法案,大致可归纳为三种常见机制:1)关于通知和披露要求。目前,大多数生成式人工智能应用在收集和使用用户数据用于训练时没有提供通知或获得个人的同意,国会可以考虑要求开发或部署生成式人工智能系统的公司在收集或使用个人数据之前获得个人的同意,或通知个人他们的数据将被收集并用于某些目的如培训模型。然而对于通知和同意要求的效力目前尚存在异议。2)关于选择退出要求。国会可以考虑要求公司为用户提供选择退出数据收集的选项。值得注意的是,选择退出系统不一定能保护从网络上公开抓取的数据,且个人行使该权利时起来可能会存在困难。3)关于删除和最小化要求。国会也可以考虑要求公司提供机制,让用户从现有的数据集中删除他们的数据或要求个人数据的最大保留期。目前,大多数早期开发的聊天机器人和其他人工智能模型没有为用户提供删除其个人信息的选项。此外,在国会考虑采纳这些建议的通知也应当考虑用户在行使具体隐私权时可能面临的实际挑战,以及公司在遵守某些类型的法律要求和用户要求时可能面临的挑战。3、现有机构授权目前,人工智能和数据隐私有关的法律的执行权已被赋予各个联邦机构。如联邦贸易委员会(FTC),一直在积极应对与处理数据隐私的相关问题,并采取了各种涉及人工智能的措施。联邦贸易委员会将其对“商业中的不公平或欺骗性行为或做法”的广泛授权应用于与数据隐私和数据安全有关的案件。最近几个月,该委员会重申,其权力也适用于新开发的人工智能工具,以强烈打击不公平或欺骗性的做法或不公平的竞争方法。对于人工智能公司的数据收集行为可能引起的竞争问题,在2023年反垄断执法者年度峰会上,联邦贸易委员会Khan主席表示:“由于机器学习依赖于大量的数据,也依赖于大量的存储,我们需要非常警惕,以确保这不只是大公司变得更强和真正压制对手的另一个场所。人工智能模型的开发也可能需要大量的计算和财政资源,这种需求可能会排除新的竞争对手并巩固现有的竞争对手。”报告指出,在评估现有各机构的权限时,国会可以考虑更新或向联邦机构提供额外的具体权限,以解决人工智能和相关隐私问题。此外,国会可以考虑联邦机构可能需要哪些资源来对人工智能和隐私问题进行额外监督。4、对数据窃取的监管目前没有任何联邦法律禁止从互联网上搜索收集公开的数据。《计算机欺诈和滥用法》(CFAA,18US.CS1030)规定,当一个人“未经授权或超过授权访问计算机,从而从任何受保护的计算机中获取.....信息”时,应承担责任。[3]一些法院案例认为,这一禁令不适用于公共网站--这意味着从互联网上刮取可公开访问的数据并不违反CFAA的规定。然而,除生成式人工智能模型在运行过程中可能对隐私造成威胁以外,许多拥有AI技术的公司从互联网上刮取可公开访问的数据时也会产生诸多隐私风险。如面部识别公司ClearviewAI目前已经从网络上搜刮了超过200亿张图片,包括社交媒体的个人照片,这些图片被用于提供给执法部门和其他实体的软件和数据库,一些技术公司也收集了公开的数据,以积累大量的数据储存库。此种数据收集行为可能会引起商业竞争问题,较大规模的公司会阻止竞争对手搜刮数据。但数据的利用具有双面性,除去个人数据被商用化的弊端,数据共享也具有的公益性。许多研究人员、记者和民间社会团体等也依靠搜刮信息来进行符合公共利益的研究。因此,国会应当在考虑通过广泛的立法来限制从互联网上搜刮信息或为信息提供保护的同时考虑对一系列利用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 母婴用品行业营销工作总结
- 2024水电清包工程包含设备安装合同3篇
- 2025版贷款公司最高额保证合同样本3篇
- 2024某互联网公司与某游戏开发公司之间关于游戏代运营合同
- 2025版旅游度假区租赁及旅游资源开发合同3篇
- 《知识管理v》课件
- 2024年退休人员参与市场调研劳务合同范本3篇
- 2024年度赠与商业秘密非竞争协议范本3篇
- 咖啡行业美工设计工作总结
- 《开盘总结》课件
- 中外广告史(第三版) 课件全套 何玉杰 第0-11章 绪论、中国古代广告的发展- 日本广告的发展
- 2024中煤矿山建设集团(国独资)招聘200人高频500题难、易错点模拟试题附带答案详解
- 高中地理选择性必修2(综合检测卷)(附答案)-2022-2023学年高二上学期地理选择性必修2
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- DL∕T 802.2-2017 电力电缆用导管 第2部分:玻璃纤维增强塑料电缆导管
- 锚索张拉记录表
- 全国计算机等级考试二级Python复习备考题库(含答案)
- 每日食品安全检查记录表
- JTG-D40-2011公路水泥混凝土路面设计规范
- 2024年4月自考02799兽医临床医学试题
- 2024年全国高考体育单招考试语文试卷试题(含答案详解)
评论
0/150
提交评论