2023大模型伦理原则与实践白皮书_第1页
2023大模型伦理原则与实践白皮书_第2页
2023大模型伦理原则与实践白皮书_第3页
2023大模型伦理原则与实践白皮书_第4页
2023大模型伦理原则与实践白皮书_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型伦理原则与实践白皮书PAGEPAGE10目录致大模型从业者的一封信人类普适价值观驱动AI伦理“三对齐” 3【关于商汤】 6【关于本报告】 8一、生成式人工智能浪潮下的范式变革 9二、生成式人工智能风险管理——一项紧迫的议程 11三、生成式人工智能治理原则——基于现实的考量 13四、生成式人工智能治理实践——“商汤日日新SenseNova”治理案例 SenseTrust”工具体系 24六、生成式人工智能治理的发展——避免陷入“失控的竞赛”28一、生成式人工智能浪潮下的范式变革2022年,是人工智能发展历程中极具里程碑意义的一年。以ChatGPT(ArtificialGeneral时代的历史性节点之一。ChatGPTNLP(NLP即自然语言处理AI1ChatGPT这一现象级应用的成功,标志着人工智能正式进入以2.0阶段。2012GeoffreyHinton带领团队凭借卷积神经网络(ConvolutionalNeuralNetworks,CNN)在ImageNet的比赛中获得冠军,标志着机器的视觉识别能力能够超越ChatGPT等预训练大模型应用的成功打地提供了一条可行的路径。2022前的人工智能发展阶段定义为人工智能1.0阶段(A1.0阶段,将20222.0(AI2.0。AI2.0AI1.0图2:人工智能领域的范式变革AI2.0AIAI二、生成式人工智能风险管理——一项紧迫的议程ChatGPT规范人工智能技术发展。图3:ChatGPT之后,全球AI治理步伐加快2023年43(试行(稿,提出涉及科技伦理敏感领域的,应设立科技伦理(审查)委员411(征求意见稿513委员会(PCAST)成立生成式人工智能工作组,以帮助评估关键机遇516CEOSamAltman“AIAI516CNIL20,G7能技术的机会和挑战”,同意对人工智能采取“基于风险”的监管。“AI61662023614人工智能挑战。世界卫生组织(WHO)也呼吁谨慎使用人工智能生成的大型语言模型工具。另一方面,业界积极呼吁加强人工智能监管。20233斯拉首席执行官埃隆·马斯克(ElonMusk、苹果联合创始人史蒂夫·(SteveAIGPT-4AI业发起的商业软件联盟(BSA)公开发文,呼吁在国家隐私立法基础OpenAI·为一项全球共同的紧迫议程三、生成式人工智能治理原则——基于现实的考量AI些具有现实意义的风险挑战也陆续显现,比如:“幻觉”现象,即一本正经的胡说八道,比如生成不真实存点问题。数据投毒风险,即通过对训练数据加入恶意数据的方式,在模型中植入后门,并通过特定输入触发后门,使模型输出错误的结果。混淆攻击风险,即通过输入逻辑混淆的问题,使模型在回答时出现逻辑混乱。诱导攻击风险,即通过情景对话、思维链引导等方式,绕过模型内置安全机制,进而使模型输出危险内容。据集中个人身份识别信息、商业秘密等敏感数据。表示,ChatGPT版权保护、就业替代等社会性风险,例如,AI32AI作工具使其丧失就业机会等。理应当重点关注以下几项原则:图4:生成式人工智能治理的核心原则保障数据质量和隐私安全一是保障数据质量。应通过数据清洗、数据标注、数据增强等方式,确保用于训练生成式人工智能的数据是高质量、全面且准确的。防止虚假信息和不良内容练模型、建立审核团队等方式,对生成的信息进行虚假识别和过滤。尊重版权和知识产权保障系统安全和鲁棒生成式人工智能的应用会涉及处理大量敏感数据和任务,因此,确保人工智能系统的安全和鲁棒至关重要。为此,我们建议采取以下治理措施:一是提升安全性。通过加强访问控制、加密通信、增量学习等方全性。二是提升鲁棒性和可靠性。通过容错机制、增量学习等方式,保证生成式人工智能的稳定性和可靠性,并建立健全监测和告警机制,及时发现和处理风险事件。增强可解释性和透明性构等方式使生成式人工智能的算法和模型更易于理解。合乎道德伦理题,我们建议采取以下治理措施:统的公平和公正性,避免偏见和歧视。加强可问责性版本迭代信息,并持续进行跟踪监测和记录。四、生成式人工智能治理实践——“商汤日日新SenseNova”治理案例2019NLPNLP中文大语言模型的训AI获邀加入新加坡“人工智能验证基金会”(AIoundationAI影响力的AI治理实践标杆;荣获隐私信息管理体系认证全部三项认证,并获评中国人工智能产业发展联盟(AIIA)AI20222023410SenseNova”大模型体系,为行业提供自然语言处理、内容生成、自动化数据标注、SenseNova”大模型体系下,我们打造了商汤自研中文自然语言处理大模型应用“商量enseChatenseMiage影SenseAvatar”AISenseSpace”和“格SenseThings”3D内容生成平台。图5ensea”大模型体系SenseNova在数据层面业务评估、数据采集审批流程、采集合规审批等管理机制,确保数据采集的合规性、正当性和执行上的一致性。在数据预处理环节,我们对收集到的原始数据进行清洗、去含有敏感信息的数据。在数据标注和筛选环节,我们通过自动化工具和人工相结合据中是否包含敏感信息。此外,我们通过构建敏感内容反馈机制,利用内容生成本身特性,通过复用敏感内容的生成条件,丰富敏感鉴别模型的训练样本,持续提升模型性能。在个人信息保护方面ensea”大模型系列应用从设计、编码、测试、交付等阶段均设有个人信息保护的审核节点,对个人信息处理情况进行必要的检查,并严格GB/T35273-2020《信息安全技术个人信息安全规范》进行了全面的自评估对照、为指导并结合产品自身的技术特点及业务实现逻辑,将个人信息保护能力融入产品基本功能并面向最终用户开放。在模型层面SenseNova在商汤自研中文自然语言处理大模型应用“商汤商量SenseChat”的评测过程中,我们重点对其准确性、鲁棒性、安全性和隐私性进行了测试评估。在准确性测试中,我们采用人工打分标注的形式,从整体评价、相关性、可读性、拟人性、专业性等五个指标对文本生成质量的进行评价;并从生成内容事实性错误,生成内容逻辑性错误,生成内容和问题相关性错误等三个方面对文本生成准确性进行评价。在鲁棒性测试中,我们通过同义替换、无关提示、引导性提示等方式,对生成内容的一致性、稳定性进行评价。在安全性测试中,我们通过引导性提示的方式对模型在政治敏感性和伦理敏感性两个方面的表现进行评测。在隐私测试中,我们采用引导性提示诱导模型输出隐私敏感信息。SenseMirage”文生图创作平台的评测过程中,我们重点对其准确性、鲁棒性、安全性和隐私性进行了测试MSCOCOclip-g/14在鲁棒性测试中,我们采用人工评价的方式,对模型在无语义意义的文本以及超长文本情景下的生成图像质量进行评估。方式进行评估。SenseAvatar”AI数字人视频生成平台的评测过程中,我们重点对其准确性、鲁棒性和隐私性进行了测试评估。在准确性测试中,我们主要对关键表情匹配率以及嘴型幅度准确率两项关键指标做了测试评估。其中,关键表情匹配率指在测试音视频中如闭嘴、张嘴、嘟嘴等表情是否能在准确的时间点做出;嘴型幅度准确率指在全部测试音视频时间帧中预测的张嘴上下幅度、左右幅度、嘟嘴幅度是否与GT棒性,对输入画面的鲁棒性,以及对采集工具等设备的鲁棒性四个方面进行评测。在隐私安全性测试中,我们主要对其算法处理安全性,以及数据采集、传输、存储等方面的保密性做了评估。SenseSpace3D内容生成平台的评测过程中,我们重点对其准确性、鲁棒性、安全性进行了测试评估。在果、清晰度和精度进行测试。在鲁棒性测试中,我们主要从场景重建的成功率、不同分辨率图像的重建质量影响、场景护,以及对隐私场景的处理编辑能力。SenseThings”3D内容生成平台的评测过程的逼真性和清晰度两个方向进行了测评。在鲁棒性测试中,我们主要从重建物体成功率进行了测评。在安全性测试中,我们主要考察了模型对政治敏感性和伦理敏感性输入的合理应对能力。enseva”大模型体系整体表现SenseNova”大模型体系的风险边界有了比较清晰的认识,并将相关测试结果反馈于模型强化学习的过程之中,在内容层面告知用户该内容为利用深度合成技术生成或编辑得到的,并通过明确标记的方式有效告知合成内容,其中标识信息包括生成模型的信息、信息服务信息、合成标示;水印技术对生成的文本、图像,代码以及音视频内容进行溯源管理,SenseNova过将传统频域技术以及深度学习技术相结合的水印算法将隐藏信息”工具体系AI2.0回顾人类科技发展AISenseTrust”——商汤可信人AIAI工智能产业生态。具体来看:图6:“SenseTrust”——商汤可信AI基础设施在数据层面enserust数据祛毒工具能够在数据预处理环节对训练数据进行带毒性检测,用数据加密训练方案,可以在保护隐私的前提下完成数据回流。在模型层面SenseTrust的大量商业化模型检测方面获得验证。模型体检内容包括对抗安全、AI防火墙两个部分。鲁棒性训练模块可以在不损失精度的情况下强化模型的安全性和鲁棒性,开发的代码插件,已融入商汤目前的模型开发流程。AI防火墙模块AI防火墙可以有效抵御主流的黑盒攻击和物理攻击方式。AI防火墙和部署的质量模型相结合,在提升安全的同时不引入格外的计算开销。在应用层面,我们在涉及数据保护、数字取证及伪造检测等技术的综合解决方案。zero/few-shot场景下快速响应难例样本和长尾类型,帮助提升鉴伪算法的泛化性。enseustPS、换脸、活化以及各种先进扩散模型(如:StableDiffusion)99%以上,在应对新技术复合伪造方法上(如:通过MidJouney,检测能力也20%以上。同时,我们通过自研基于解耦-重建的伪造检测算法,能够从伪1090类产品20%AIGC相关确权溯源和内容保护问题,AIGC99%(256SenseMirage”、“商汤如影SenseAvatar”等多个产品,以及内容创作、大数据客户。六、生成式人工智能治理的发展——避免陷入“失控的竞赛”20233(FutureofLifeInstitute,FLI)AI实验。公开信一经公布,便引起全球各方广泛关注和激烈讨论,ElonMusk、Bengio、Steve、EmadMostaque等学术和行业领军人FLI20237月7日,全球已有33000余人署名支持该倡议。2016年3eepMind开发的a5GoogleFacebook

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论