《生成式人工智能模型训练合规技术规范》(征求意见稿)_第1页
《生成式人工智能模型训练合规技术规范》(征求意见稿)_第2页
《生成式人工智能模型训练合规技术规范》(征求意见稿)_第3页
《生成式人工智能模型训练合规技术规范》(征求意见稿)_第4页
《生成式人工智能模型训练合规技术规范》(征求意见稿)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2本文件规定了生成式人工智能在进行模型训练时应遵守的合规原则,给出了相应的合规要求与规定。本文件适用于指导生成式人工智能进行模型训练。下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T4943.1信息技术设备安全第一部分:通用要求GB/T5271.1-2000信息技术词汇第1部分:基本术语GB/T5271.28-2001信息技术词汇第28部分:人工智能基本概念与专家系统GB/T5271.29-2006信息技术词汇第29部分:人工智能语音识别与合成GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习GB/T29246-2023信息安全技术信息安全管理体系概述和词汇GB/T29490-2023企业知识产权合规管理体系要求GB/T32914-2023信息安全技术网络安全服务能力要求GB/T32916-2023信息安全技术信息安全控制评估指南GB/T35273-2020信息安全技术个人信息安全规范GB/T35770-2022合规管理体系要求GB/T41479-2022信息安全技术网络数据处理安全要求GB/T41867-2022信息技术人工智能术语GB/T42018-2022信息技术人工智能平台计算资源规范GB/T42574-2023信息安全技术个人信息处理中告知和同意的实施指南GB/T42755-2023人工智能面向机器学习的数据标注规程GB/T43269-2023信息安全技术网络安全应急能力评估准则GB/T43557-2023信息安全技术网络安全信息报送指南TC260-PG-20202A移动互联网应用程序(App)收集使用个人信息自评估指南3TC260-003生成式人工智能服务安全基本要求3.1生成式人工智能简称AIGC,具有文本、图片、音频、视频等内容生成能力的人工智能模型及相关技术。3.2模型训练利用训练数据,基于机器学习算法,确定或改进机器学习模型参数的过程。3.3测试数据用于评估最终机器学习模型性能的数据。[来源:GB/T41867-2022,定义3.2.3]3.4数据标注给数据样本指定目标变量和赋值的过程3.5个人信息以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息3.6敏感个人信息一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。3.7告知使个人知晓其个人信息处理活动及其有关规则的行为。个人对其个人信息进行处理自愿、明确作出授权的行为。3.9提供个人信息处理者通过共享、转移等方式将个人信息传输或披露给其他个人信息处理者的行为。3.10训练数据用于训练机器学习模型的输入数据子集。4生成式人工智能数据应用应符合以下合规原则:4.1科技伦理原则:在生成式人工智能数据应用的各个环节中,需注意遵循增进人类福祉、尊重生命权利、坚持公平公正、合理控制风险、保持公开透明的科技伦理原则;4.2内容安全原则:在利用生成式人工智能技术进行内容生成时,应采取有效措施避免生成违背社会主义核心价值观的内容,避免生成具有歧视性的内容,避免生成虚假有害信息等法律、行政法规禁止的内容;4.3人格保护原则:在生成式人工智能数据应用的各个环节中,应注重保护自然人的人格利益,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益等;4.4商业利益原则:在模型开发、服务提供等数据应用环节中,提供者应尊重他人的知识产权、数据权益等,避免实施垄断、不正当竞争等侵犯其他商业主体合法权利的行为;4.5技术发展原则:提供者在服务提供过程中应注意及时收集反馈信息,提高生成内容的准确度与可靠性,不断促进人工智能技术的优化与发展;4.6体系合规原则:提供者应搭建完善的合规管理体系,就生成式人工智能数据应用的各个环节,制定合规管理制度,采用有效的技术方法和其他管理措施,实现数据应用合规管理目标。5.1合规性审查对用于模型训练的数据,提供者应根据获取数据的不同方式以及数据自身的不同类别,建立数据来源和内容合法性的审查机制。5.2收集方式5.2.1直接收集数据提供者可直接从个人信息主体处获取个人信息,或在自身日常生产经营中创造生产新数据、以原始数据为基础加工生产新数据。5.2.2间接收集数据在事先评估合法的前提下,除直接获取数据外,提供者可从其他主体处间接获取数据,5即通过数据交易、数据共享、公共数据授权运营等途径获取数据。提供者应同相对方签订相应的法律协议,谨慎审核相对方的数据来源合法性以及数据可交易性,并要求相对方作出来源合法性、可交易性和可使用性承诺,或出示相关证明等。鼓励提供者通过数据交易所等公开平台获取数据,以提升数据来源的合法合规性。5.3数据类别5.3.1公开数据信息提供者可以使用一些平台上公开可用的数据集,这些数据集通常经过整理和标注,适用于各种机器学习任务;通过人工收集的方式获取数据信息,应注意获取手段的合法合规,不得侵犯他人合法权益;通过网络爬虫工具抓取网页内容或是从应用程序接口(API)中获取数据,应遵守目标网站的网络爬虫排除协议(Robots协议)等声明文件要求,避免采用破解密码、伪造用户代理(UserAgent)、设置代理网际协议地址(IP地址)等技术手段进行违规爬取。应控制数据爬取的流量与频率,避免因爬取行为影响目标网站的正常运行。爬取移动互联网应用程序(App)、小程序等所依赖的网络服务应用程序接口(API)中的数据,应当遵守API的服务授权声明。公开数据附有数据使用许可条件或使用限制的,提供者获取该公开数据后,应遵守相关约定。5.3.2个人数据信息如提供者采集的数据类型中包含个人信息,应遵循相应的法律法规,包括但不限于以下5.3.2.1收集个人信息的合法性要求。对个人信息控制者的要求包括:不得欺诈、诱骗、强迫个人信息主体提供其个人信息;不得隐瞒产品或服务所具有的收集个人信息的功能;不得收集法律法规明令禁止收集的个人信息;不得从非法渠道获取个人信息。5.3.2.2收集个人信息的最小必要性要求。收集个人信息对个人信息控制者的要求包括:收集的个人信息的类型应与实现产品或服务的业务功能有直接关联,直接关联是指没有上述个人信息的参与,产品或服务的功能无法实现;自动采集个人信息的频率应是实现产品或服务的业务功能所必需的最低频率;间接获取个人信息的数量应是实现产品或服务的业务功能所必需的最少数量。65.3.2.3收集个人信息时的授权同意。对个人信息控制者的要求包括:收集个人信息,应向个人信息主体告知收集、使用个人信息的目的、方式和范围等规则,并获得个人信息主体的授权同意;收集个人敏感信息前,应征得个人信息主体的明示同意,并应确保个人信息主体的明示同意是其在完全知情的基础上自主给出的、具体的、清晰明确的意愿表示;收集个人生物识别信息前,应单独向个人信息主体告知收集,使用个人生物识别信息的目的、方式和范围,以及存储时间等规则,并征得个人信息主体的明示同意;收集年满14周岁未成年人的个人信息前,应征得未成年人或其监护人的明示同意;不满14周岁的,应征得其监护人的明示同意;间接获取个人信息时,应要求个人信息提供方说明个人信息来源,并对其个人信息来源的合法性进行确认。应了解个人信息提供方已获得的个人信息处理的授权同意范围,包括使用目的,个人信息主体是否授权同意转让、共享、公开披露、删除等。如开展业务所需进行的个人信息处理活动超出已获得的授权同意范围的,应在处理个人信息前,征得个人信息主体的明示同意,或通过个人信息提供方征得个人信息主体的明示同意。5.3.2.4告知与同意的基本原则。个人信息处理者在实施告知时需考虑以下基本原则:a)公开透明:公布处理个人信息的种类、目的、方式、安全措施等处理规则,不得采取故意遮挡、隐藏等方式诱导个人略过告知内容;b)有效传达:尽可能通过交互式界面、邮件、电话或短信等方式向相关个人进行告c)适时充分:在收集、提供、公开等个人信息处理活动发生之前或同时,对个人进行充分告知;d)真实明确:告知个人信息的处理种类、目的、方式等规则与实际情况一致,且需结合实际业务功能,不使用笼统、宽泛的表述;e)清晰易懂:告知文本符合个人的语言习惯,使用通用且无歧义的语言、数字、图示等。个人信息处理者在取得个人同意时需考虑以下基本原则:a)告知一致:取得同意的范围不超出所告知的内容;b)自主选择:支持个人通过自行操作的方式作出同意,不使用默认勾选的方式取得同意;7c)时机恰当:在个人信息收集行为发生前,且同步传达告知内容时,取得个人同意,以增进个人对业务功能与所收集的个人信息之间关联性的理解:d)避免捆绑:区分产品或服务的业务功能,不采用捆绑方式强迫个人一次性同意多种业务功能可能收集的个人信息或多个处理活动,个人拒绝同意时,不影响与该个人信息无关的业务功能的正常使用。5.3.2.5个人信息的展示限制。涉及通过界面展示个人信息的(如显示屏幕、纸面个人信息控制者宜对需展示的个人信息采取去标识化处理等措施,降低个人信息在展示环节的泄露风险。例如,在个人信息展示时,防止内部非授权人员及个人信息主体之外的其他人员未经授权获取个人信息。5.3.2.6个人信息的使用限制。对个人信息控制者的要求包括:除目的所必需外,使用个人信息时应消除明确身份指向性,避免精确定位到特定个人。例如,为准确评价个人信用状况,可使用直接用户画像,而用于推送商业广告目的时,则宜使用间接用户画像。对所收集的个人信息进行加工处理而产生的信息,能够单独或与其他信息结合识别自然人个人身份,或者反映自然人个人活动情况的,应将其认定为个人信息。对其处理应遵循收集个人信息时获得的授权同意范围。5.3.3知识产权保护获取数据用于模型训练的,应采取以下手段防止对他人知识产权的侵害:对于已超过著作权保护期限进入公有领域的作品,提供者可以采集相关数据投入模型训练,但应避免在生成内容中侵犯著作权人的署名权、修改权与保护作品完整权等著作人身权;对仍在著作权保护期限内的作品,提供者应主动采取措施获取著作权人的授权,明确其作品可用于生成式人工智能的模型训练;建议提供者通过著作权集体管理组织获取著作权人的授权;对于商标权、专利权、商业秘密等其他类型的知识产权,建议提供者根据数据类型和数据来源进行必要甄别,如发现有侵权可能的,应避免采集或取得权利人的授权。86.1数据预处理总体要求网络运营者应识别数据处理中涉及的数据,包括个人信息、重要数据和其他数据,形成数据保护目录,并及时更新。6.1.2分类分级。网络运营者应按照相关国家标准,根据合同规定和业务运营需要,对所识别的数据进行分类分级管理。6.1.3风险防控。网络运营者开展数据处理时,应按照合同约定履行数据安全保护义务,开展数据处理活动应加强风险监测,发现数据安全缺陷、漏洞等风险时,应采取加密、脱敏、备份、访问控制、审计等技术或者其他必要措施,加强数据安全防护,保护数据免受泄露、窃取、修改、损毁、不正当使用等;对重要数据和敏感个人信息进行重点保护,应按照规定对其数据处理活动定期开展风险评估,并向有关主管部门报送风险评估报告。风险评估报告应包括处理的重要数据的种类、数量,开展数据处理活动的情况,面临的数据安全风险及其应对措施等。应建立数据安全管理责任和评价考核制度,制定数据安全保护计划,开展安全风险评估,及时处置安全事件,组织开展教育培训。6.1.4审计追溯。网络运营者应对数据处理的全生存周期进行记录,确保数据处理可审计、可追溯。6.2数据预处理安全技术要求6.2.1通则网络运营者在开展数据处理时应进行影响分析和风险评估,采取必要的措施对识别的风险进行控制,以保障数据安全。6.2.2收集网络运营者为提供服务而必须处理个人信息的,应遵循合法、正当、必要的原则,不应收集与其提供的服务无直接或无合理关联,或超出个人信息主体明示同意期限的个人信息,9且遵守以下要求:6.2.2.1应制定和公开个人信息保护政策并严格遵守,个人信息保护政策应符合GB/T35273-2020中5.5要求;6.2.2.2收集个人信息前,应明示个人信息保护政策,并征得个人信息主体同意;6.2.2.3改变处理个人信息的目的、类型、范围、用途的,应及时告知个人信息主体,修改个人信息保护政策,并重新征得个人信息主体同意,涉及个人信息保护政策变动的应修改个人信息保护政策:6.2.2.4明示所提供产品或服务的类型,以及该产品或服务所必需的个人信息,不应因用户不同意或撤回同意提供该产品或服务所必需个人信息以外的信息,而拒绝提供该产品或服务;6.2.2.5不应仅以改善服务质量、提升用户体验、定向推送信息、研发新产品等为目的,强制要求、误导用户同意收集个人信息;6.2.2.6收集敏感个人信息前,应取得个人信息主体的单独同意,确保单独同意是在完全知情的基础上自主给出的、具体的、清晰明确的意愿表示;6.2.2.7收集不满十四周岁未成年人个人信息前,应取得未成年人的监护人的单独同意;6.2.2.8从个人信息主体以外的其他途径获得个人信息的,应了解个人信息来源、个人信息提供方已获得的个人信息处理授权同意范围,并按照本文件的要求履行安全保护义务。6.2.3存储网络运营者应对数据存储活动采取安全措施,包括:6.2.3.1存储重要数据和个人信息等敏感网络数据,应采取加密、安全存储、访问控制、安全审计等安全措施;6.2.3.2存储重要数据和个人信息,不应超过与重要数据和个人信息主体约定的存储期限或个人信息主体授权同意有效期;6.2.3.3存储个人生物特征识别信息的,应遵守GB/T35273-2020中6.3b)和c)的要求及生物特征识别信息保护等相关国家标准要求。数据接收方存储数据时,应按要求采取安全措施并以合同进行约定。6.2.4使用网络运营者在为用户提供定向推送或信息合成服务时的要求如下:6.2.4.1定向推送及信息合成:a)网络运营者利用个人信息和算法为用户提供定向推送信息服务的,同时应提供非定向推送信息的服务选项;b)在向个人信息主体提供新闻、博客类信息服务的过程中,网络运营者利用算法自动合成文字、图片、音视频等信息,应明确告知用户。6.2.5.2第三方应用管理:网络运营者应对接入或嵌入其产品或服务的第三方应用加强数据安全管理,包括:a)应通过合同等形式,明确双方的数据安全保护责任和义务;b)应监督第三方应用运营者加强数据安全管理,发现第三方应用没有落实安全管理责任的,应及时督促整改,必要时停止接入;c)网络运营者知道或者应知道第三方应用利用其平台侵害用户民事权益,未采取必要措施的,应与第三方应用运营者承担连带责任;d)宜对接入或嵌入的第三方应用开展技术检测,确保其数据处理行为符合双方约定要求,对审计发现超出双方约定的行为及时停止接入。6.2.5加工网络运营者在开展转换、汇聚、分析等数据加工活动的过程中,知道或者应知道可能危害国家安全和公共安全、经济安全和社会稳定的,应立即停止加工活动。6.2.6传输网络运营者应对数据传输活动采取安全措施,包括:传输重要数据和敏感个人信息时,应采用加密、脱敏等安全措施;向数据接收方传输数据时,应按要求采取安全措施并以合同进行约定。6.2.7提供6.2.7.1向他人提供:网络运营者向他人提供数据前,应进行安全影响分析和风险评估,可能危害国家安全、公共安全、经济安全和社会稳定的,不应向他人提供。要求如下:a)向他人提供个人信息,应向个人信息主体告知接收方的名称,联系方式、处理目的、处理方式、个人信息的种类、存储期限,并取得个人信息主体同意;b)共享、转让重要数据,应与数据接收方通过合同等形式明确双方的数据安全保护责任和义务,采取加密、脱敏等措施保障重要数据安全;c)委托第三方开展数据处理活动的,应通过合同等形式明确约定委托处理的目的、期限、处理方式、数据的种类、保护措施、双方的权利和义务,以及第三方返还或删除数据的方式等,要求第三方以合同中约定的形式返还、删除接收和产生的数据,并对数据处理活动进行监督;d)发生收购、兼并、重组、破产时,数据接收方应继续履行相关数据安全保护义务;没有数据接收方的,应删除数据。6.2.7.2数据出境:网络运营者向境外提供个人信息或者重要数据的,应遵循国家相关规定和相关标准的要求,境内用户在境内访问境内网络的,其流量不应路由至境外。6.2.8公开网络运营者利用所掌握的数据资源,公开市场预测、统计等信息时,不应危害国家安全、公共安全、经济安全和社会稳定。6.2.9投诉、举报受理处置网络运营者应建立投诉、举报受理处置制度。收到通过其平台编造、传播虚假信息,发布侵害他人名誉、隐私、知识产权和其他合法权益信息,以及假冒、仿冒、盗用他人名义发布信息的投诉、举报的,自接受投诉举报起,受理时间不超过3天。受理后进行调查取证,对于查实的编造、传播虚假信息,发布侵害他人名誉、隐私、知识产权和其他合法权益信息,以及假冒、仿冒、盗用他人名义发布信息的投诉、举报,依法采取停止传输、消除等处置措施。6.3数据标注合规要求6.3.1标注规则的制定为模型训练的目的需要进行数据标注的,应按法律法规以及数据需求方的要求,依据以下规定制定标注规则:6.3.1.1标注规则应根据数据需求方对模型训练的具体要求制定;6.3.1.2标注规则应清晰、具体、全面、细化,对标注人员具有实际操作性;6.3.1.3标注规则的确定应有利于提高训练数据的准确性,标注过程中如发现冗余数据、错误数据、异常数据等情况应进行及时处理;6.3.1.4标注规则的确定应有利于保持训练数据的客观性,避免因规则设计的主观性导致标注结果发生同客观情况的偏离;6.3.1.5标注规则应进行定期审查和更新,以适应新的法律法规、技术发展和业务需求的变化。6.3.2数据标注质量评估数据标注的全流程实施过程中应包含质量评估的环节,具体操作可依据GB/T42755-2023第6.2和第7.1条规定的流程与方法进行实践。质量评估可采用抽样核验、机器验证、第三方验证等方式进行,根据场景需求及项目特点,建议选择两种以上方式进行数据标注准确度和一致性检查,并根据检查结果及时进行反馈校正。6.4训练数据预处理合规要求6.4.1提高训练数据质量提供者应采取有效措施提高训练数据质量,并从真实性、准确性、客观性、多样性、安全性等角度考虑训练数据以提升数据质量。当各方面要求不能同时满足或可能存在冲突时,提供者应进行谨慎考量,以防止训练数据的不当选择影响生成内容的质量。6.4.2训练数据的真实性提供者应从数量和质量上判断所获取的数据是否具有可靠的来源,是否能够反映真实世界的情况,并通过人工或模型等方式就数据内容的真实性进行核验。6.4.3训练数据的准确性提供者可采用数据去重、去除异常值、纠正错误等数据清洗方法,以提高数据集的准确性和一致性,排除噪声和偏差。6.4.4训练数据的客观性训练数据宜尽可能中立和无偏见,在数据采集与后续处理环节中均应避免人为干扰、选择偏见和其他主观因素的介入。6.4.5训练数据的多样性为提高模型的性能和泛化能力,应充分考虑数据来源、数据类型及样本特征分布的均衡和多样化。为防止生成存在偏见或歧视的内容,应进行充分多样化和具有代表性的数据选择,确保其包含各个民族、信仰、国别、地域、性别、年龄、职业和健康等的充分信息。6.4.6训练数据的安全性为确保训练数据的安全性,应对训练数据的来源进行安全评估和核验。7.1模型训练7.1.1训练步骤模型训练应至少包括预训练与优化训练等两重的训练环节。7.1.2预训练预训练应选择具有合法来源的基础模型,基础模型应经过可靠性、安全性、合法性以及价值观等方面的测评,才可在此基础上进行后续训练。7.1.3优化训练经过预训练后形成的算法模型,还应通过优化训练进一步使用已标注的数据进行后续流程,来优化模型训练的最终结果。7.1.4模型验证在模型训练的不同环节中,均可使用验证数据对模型的参数与设置进行持续优化。验证数据可与训练数据来源于同样的数据集,但在训练过程中应保持相对独立。7.2模型测试在正式为公众提供内容生成服务之前,为保证模型生成的效果,应按照以下要求进行模型测试:7.2.1制定全面完整严格的测试指标体系,以减少幻觉、有害偏见和违法内容的生成;7.2.2引入人工方式或其他模型进行对抗测试,根据结果反馈实现对模型性能的改进优化;7.2.3建立动态调整的指标体系与测试方案,定期评估和调整指标体系,确保测试结果的有效性;7.2.4测试数据的来源应独立于训练数据与验证数据,且应按照同样标准进行预处理;7.2.5确保模型在经过严格测试并核验完成之后才对公众提供内容生成服务;7.2.6模型评价依据、测试指标体系、测试与核验办法及采用的技术手段等,均应明确记录,做到可查询、可溯源。8.1使用者尽责义务的告知提供者应当与注册使用其服务的使用者(下称“使用者”)签订服务协议,在服务协议中明确告知使用者如下事项:8.1.1生成式人工智能服务的基本特点与可能风险;8.1.2使用者使用生成式人工智能服务的基本规范,包括不得利用生成式人工智能服务特性,有意识地获取违反法律法规、违反社会公德或伦理道德的内容;8.1.3使用者负有审慎、尽责使用生成式人工智能服务的义务,在生成内容含有违反法律法规、违反社会公德或伦理道德的内容时,不应将此生成内容对外传播;8.1.4明确告知使用者与生成内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论