百度大模型原生安全构建之路-冯景辉

上传人：1*** IP属地：山西上传时间：2024-10-30 格式：DOCX 页数：71 大小：2.57MB 积分：19.9 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

百度大模型原生安全构建之路你是否也遇到过这样的困扰？ 02大模型安全的演进 04 04关注智能体安全 03开始原生安全之路大模型安全挑战大模型安全面临的全生命周期挑战在构建大模型服务时，百度将大模型全生命周期划分为三个关键阶段：训练阶段、部署阶段、以及业务运营阶段，在各业务阶段面临的安全风险、以及挑战各有不同：大模型业务运营阶段.大模型业务运营阶段.大模型服务在运营阶段，如何保障接口安全、投毒反馈等黑产攻击？如保障提问内容、输出内容安全？大模型部署阶段.大模型部署时如何防止大模型部署阶段.大模型部署时如何防止模型窃取与泄漏？大模型训练阶段.企业自有数据如何在保障数据安全与隐私的前提下，实现大模型的精调、推理、共建？大模型训练阶段的安全挑战训练数据选择与清洗是大模型成败的关键！数据选择准确性，多样性之间如何平衡？语料数据的血缘分析，帮助我们厘清数据归属与知识产权如何对训练数据做质量评估？数据清洗识别与去除价值观不符、偏见歧视等内容训练数据中商标、著作、专利等识别数据未加密导致大量数据泄露某生物技术有限公司存在数据泄露情因外显子数据分析系统”，包含公民信息、技术等信息，涉及泄露数据总量达联网测试阶段，未对相关数据进行加密，未落实安全保护措施。某公司员工罗某因对离职待遇不满，利用在公司工作时获知的公司云服务器账号和密码，私自删除公司存放于云服务器后台的数据，公数据未加密导致大量数据泄露某生物技术有限公司存在数据泄露情因外显子数据分析系统”，包含公民信息、技术等信息，涉及泄露数据总量达联网测试阶段，未对相关数据进行加密，未落实安全保护措施。某公司员工罗某因对离职待遇不满，利用在公司工作时获知的公司云服务器账号和密码，私自删除公司存放于云服务器后台的数据，公司因数据无法恢复向合作方赔付经济损失3万元，并报警处理。数据泄露数据删除数据安全风险数据篡改上海某科技公司犯罪嫌疑人曹某利用自己是软件工程师的优势，篡改余额后，给自己银行卡提取了230余万元。曹某同样的方式再次从公司提现36万元。窃取数据某”利用任职便利，利用公司与银行之间进行专线互联的终端机，数次非法登录该银行个人征信系统，查询并下载保存他人征内部人员恶意窃取售卖数据工作便利将大量交易数据导出并售卖，严重侵犯公民个人信息，该大药房也因未履行数据保护义务造成数据泄露的违数据型是企业的核心资产和竞争力：互联网公开数据、企业自有数据（原始语料数据、标注数据、精调数据）、企业采购数据涉毒涉毒涉黄涉赌价值观涉黄涉赌价值观恶意代码恶意代码涉爆涉恐低俗/辱骂涉爆涉恐低俗/辱骂提示泄漏提示泄漏越狱攻击入（直接）入（直接）指代/主语缺省网页/文档/图像载体（间接）提示注入攻击漏洞示例梯度攻击方法实现GCG（贪婪坐标梯度）多模态引入更大的风险大模型安全的演进之路大模型内容安全的技术选择第一代想法改进再进一步原生安全派安全对齐派原生安全派安全对齐派内容审核派内容审核派多轮对话多轮对话安全对齐代答模型安全对齐代答模型意图理解内容审核安全对齐安全对齐底座模型安全对齐底座模型底座模型底座模型底座模型为什么只做安全对齐不行非价值观问题安全对齐技术在人类价值观问题发挥很好的作用，但是实时性风险，涉政问题需要大量知识及时更新模型的重新训练需要大量时间，然而安全问题随时随刻在发生为什么内容审核技术也不行多轮对话传统内容审核无多轮对话能力，无法解决指代映射情景设定没有LLM理解能力的分类器无法对设定情景进行对抗，只能依赖生成大模型自身的认知模型的不可解释性模型训练的参数量不断扩大，通过人类反馈强化价值观一致性的挑战会越来越大，大模型内生安全与外部安全系统会长期共存，内容安全必须与基础模型自身能力向适应要关注准确率Chat我们在讨论大模型安全时，Chat长文本准确率带场景的输入安全开始原生安全之路原生安全四要素原生安全-数据清洗030404020101完整性完整性评估合规合规脱敏整体整体评估原生安全-百度的解决方案百度大模型内容安全解决方案百度大模型内容安全解决方案大模型大模型内容安全评估平台大模型合规咨询视觉内容分类模型原生安全-安全围栏对抗性防御架构05内容审核04模型输出过滤04模型输出过滤多轮改写必答知识库，代答模型02大模型防火墙02大模型防火墙原生安全-安全围栏数据流繁体中文中英文混合多轮指代其他高级攻击其他输入风险输出风险原生安全-安全对齐有监督精调人类反馈强化学习直接偏好优化安全内容萃取原生安全-持续评估完全符合国标的内容风险检测，应答拒答题库全面评估高级攻击、注入攻击、诱导提示等多种风险持续评估，标注是难题原生安全-安全代答模型如何做到比更安全我们是否需要更强大的模型来做安全围栏的代答模型？RAGRAG与信任域数据与模型尺寸持续运营持续运营ulu弱化指令跟随弱化指令跟随原生安全-要点安全对齐信任域检索安全对齐信任域检索03大模型防火墙持续运营评估大模型防火墙持续运营评估02关注智能体安全智能体安全-必须关注场景安全当我们开始做智能体-我们必须防范黑产滥用我们的技术当我们开始做智能体-我们必须防范黑产滥用我们的技术当我们是广告当我们是广告Agent-我们必须关注广告法、虚假宣传、涉诈风险2当我们是K12教育当我们是K12教育Agent-我们必须关注早恋、吸烟，游戏沉迷3智能体安全-RAG投毒会市RGRGAS作为湖南的省会，海宁在政治和经济生活中有很重要的外部知识库风险往往被忽略，因为知识库通常来源于广泛的网络，攻击者需要了解知识库的生成、检索细节才能实施攻击但是，如果RAG信息来自用户参与的数据建设，就很容易构造攻击企业内的知识库往往是开放的，很多企业大模型通过外挂企业知识库来实现检索增强智能体安全-应用与基础模型的责任边界案例1案例2案例1案例2广告创意风格人像生成广告创意违法犯罪与价值观违法犯罪与价值观基础模基础模型服务名人人像侵权虚假夸大宣传虚假夸大宣传模型模型应用用户侵权商业侵权商业侵权人脸伪造人脸伪造责任边界责任边界大模型应大模型应用分层安全边界大模型应用防火墙应用边界场景安全应用安全用户信任知识库安全应用滥用信息泄露用户权益大模型应用防火墙应用边界场景安全应用安全用户信任知识库安全应用滥用信息泄露用户权益个人供应链安全越狱防护风险分层安全对齐数据清洗内容安全煽动/恶俗/暴力/色情/涉政/涉恐/虚假信息/反社安全对齐数据清洗内容安全煽动/恶俗/暴力/色情/涉政/涉恐/虚假信息/反社会价值观/内容侵权/偏见/歧视/隐私泄漏内容可靠鲁棒性/公平性/可解释性/社会规范输

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

百度大模型原生安全构建之路-冯景辉

文档简介

温馨提示

最新文档

评论

百度大模型原生安全构建之路-冯景辉

文档简介

温馨提示

最新文档

评论

相关文档