保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究

上传人：1*** IP属地：山西上传时间：2024-12-21 格式：DOCX 页数：62 大小：1.21MB 积分：19.9 举报 版权申诉

保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究_第2页

保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究_第3页

保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究_第4页

保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究_第5页

已阅读5页，还剩57页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

全球首个系统性应对人工智能威胁 4 5 5 6 6 234.思考与建议 28 29 29 33具，但这些工具往往缺乏统一的理论框架指导。MIT全和系统工程服务的全球知名的非盈利组织，最近推出了首个全面的人工阅读要点:3.实施大模型对任何组织来说都是一项复杂的系统工程，安全性是不容忽视的关4.有效应对人工智能威胁的核心思想仍然需要围绕TTP的基本原则，其次要采取1.深入理解流向大模型的数据内容。确保理解数据内容的属性，建立一个可过滤敏感/重要数据的安全数据中台，建立公司数据分类分级制度，实现敏感2.采用“闭环”或“专有”模型策略。主流的大模型提供商通常提供专为企私有模型，这些模型仅使用企业自身的数据进行训练。这3.严格控制大模型的数据访问权限。构建一个融合现有安全软件开发生命周期4.建立有效的监控和审计机制。组织应实施一套高效的监控与审计体系，并制定其在各种应用场景中的可靠性和安全性。定期的审5.制定应急响应计划防止数据泄露。制定一个包含实时监控、快速响应、深入分析、数据恢复、透明沟通、法律遵从和持续改进的响应计划。该安全术语概述1ThreatLandscapeforArti234和影响（Impact而每一种攻击战术包括对应5人工智能和大模型技术正在席卷全球。今天，我身边的每个人似乎使用大模型。然而，该技术在极速融入各领域的同时，也带来前所未比如网络攻击面更广、大模型所带来的安全漏洞更独特等，这类新安全或利用人工智能的相关基础设施——人工智能系统对抗性威胁矩阵框架（AdveATT&CK类似，它提供了一个路线图以及宝贵的入理解攻击者如何针对AI和相关系统进行攻击提供了系统性的理论基础。2.ATLAS™业界首个人工智能系统对抗性威胁矩阵尽管目前在安全社区内已经有许多关于人工智能立法和制定负责任人工中&表示直接改编自ATT&CK的攻击战术或技术。击者的目标。如果攻击者能够实现这些目标，他们就离他们的目标更围。例如，如果攻击者只是想从特定计算机窃取信息，则他们可能列表的方式还详细列出了代表性攻击实例，感兴趣的读者可以阅读系统、人员和其他相关信息的情报，以便为后续的攻击活动做在攻击者尝试获取对目标系统的访问权限之前进行，是攻击者范围：此类信息可能包括受害者组织机器学习能力和研究工作可以利用这些信息来帮助攻击者生命周期的其他阶段，例如使用1.搜索受害者的公开研究材料（SearchforVictim'sPublicl攻击者通过分析公开资料了解目标组织如何运用机器学习，进击策略。他们可能研究组织使用的开源模型和专有数系统。攻击者会搜索相关研究人员的发表成果，组织2.搜索公开可用的对抗性漏洞分析（SearchforPubliclyAvailab攻击者在确定目标后，会查找有关常见模型漏洞的研究资料，寻找已有的攻击实现。必要时，他们还可能自己实3.搜索受害者拥有的网站（SearchVictim-own攻击者通过分析受害者的网站来搜集信息，以便定制攻击策略攻击。这些网站可能泄露技术细节、组织结构、员工信息和业4.搜索应用程序存储库（SearchApplica在搜寻目标时，攻击者可能会在各大应用市场中查找含有机器攻击者可能会探测或扫描受害者系统以收集用于定位的信息。进行训练，并且具有相似的性能。然后制作对抗样本，查询模“僵尸网络域生成算法(DGA)检测规避（BotnetDomainGenerationAlgorithm(DGA)DetectionEvasion）ℽ概念：ATT&CK（AdversarialTactics,Techniques,andCommonKnowledge）框架中的"ResourceDevelopment"（资源开发/TA0042）战术是指攻击者在进行网络攻击之前，为了更好地了解目标环境、收集有关目标的信息以的资源而采取的一系列活动。这些活动通常发生在攻击链的早范围：此类资源包括机器学习工件、基础设施、帐户或功能等。些资源来帮助攻击者在整个生命周期寻找机会并实施a.获取公共ML工件(AcquirePublicMLArtifacts)攻击者通过搜索公共资源来识别机器学习工件，如软特别关注与受害者组织相关的资源。这些信息有助于构对抗性数据。获取这些工件可能需要注册或使用AWS密钥等。受害者可以通过访问记录监控谁访问了这些托管在他们基础b.获得能力(ObtainCapabilities)攻击者可能寻找并获取用于其行动的软件能力，这些件工具。在这两种情况下，攻击者可能会修改或定制这些能c.发展能力(DevelopCapabilities)攻击者可能自主开发能力以支持其行动，包括确定需能力。用于支持对机器学习系统攻击的能力并非如，他们可能建立含有对抗性信息的网站或创建带有攻击者获取基础设施以进行操作，包括服务器、域名攻击者可能会污染训练数据并发布到公共位置，这些或现有开源数据集的恶意版本。这些数据可攻击者可能会通过修改数据或其标签来污染机器学习在训练得到的数据中嵌入难以察觉的漏洞。这些嵌入据样本在以后被激活。污染的数据可以通过机器学习攻击者可能会在各种服务中创建账户，以便在目标定返回错误事实。然后，他们成功地将中毒模型上传回最大的可本案例的详细信息可参阅该链接：https://blog.mithrilsecurity.ia-lobotomized-llm-on-hugging-face-to-spread-fa目标系统的首次访问权限的阶段。这个阶段是攻击者范围：对手正试图访问机器学习系统。目标系统可以是网络a.机器学习供应链妥协（MLSupplyChain攻击者可能通过破坏机器学习供应链的独特部分来获某些情况下，攻击者需要额外的访问权限来完全利用攻击者可能获取并利用有效账户的凭据来获得系统初攻击者可以制作对抗性数据，以阻止机器学习模型正术可用于规避使用机器学习的下游任务，例如逃避基于机攻击者可能会利用互联网面向的计算机或程序中的软件、数点，以引发意外或未预期的行为。这些弱点可能是攻击者可能通过恶意提示操纵大型语言模型足点，或绕过模型防御执行特权命令。这些恶意提示攻击者利用生成式人工智能，如大型语言模型和深度打开一个含有攻击性提示的恶意网站时，Bing可以推测这可能指的是攻击者试图访问或窃取机器学习模型的相关括模型的参数、训练数据集、算法细节等。这样的信息对于攻击者价值，因为它们可以用来理解模型的工作原理用这些模型来获取信息、发起攻击以及将数据输入到模型中。访问级从模型内部的完整知识到访问收集数据以供机器学习模型使用的物在攻击过程中可能会使用不同级别的模型访问，从发起攻击攻击者可能利用底层使用机器学习的产品或服务来间c.物理环境访问（PhysicalEnvironmentAccess）量接近实际产品水平。这不仅展示了如何从封闭系统中窃取知识产权，成功获取目标系统的初始访问权限后，执行恶意代码或命令以进统的行为。这一阶段是攻击链中的关键环节，攻击者通常会利用范围：攻击者试图运行嵌入机器学习工件或软件中的恶意代制的代码在本地或远程系统上运行的技术组成。运行恶意代码的技术通常攻击者可能依赖用户执行特定操作来获得代码执行权通过机器学习供应链攻击引入的不安全代码。通过攻击者可能以多种方式滥用这些技术来执行任意命令提示覆盖途径，生成了最终导致攻击者访问应用程序主机系统的环措施允许攻击者在系统重启、用户注销或其他中断后，仍然能范围：对手试图通过机器学习工件或软件来维持自己的立足用来在重新启动、更改凭据和其他可能切断其访问权限的中断时权限的技术。用于持久性的技术通常涉及留下修改过的机器学习工件攻击者可能通过修改数据或标签来污染机器学习模型察觉的漏洞。这些漏洞可通过特定触发的数据样本在将来以通过攻击机器学习供应链引入，或者在敌手获得系统初攻击者可能在机器学习模型中植入后门。植入后门的运行，但在输入数据中引入特定触发器时会产生为攻击者在受害者系统上提供了一个持久性工具实例：攻击者可能篡改机器学习模型使用的数据入隐蔽的后门。这些后门在数据中毒攻击中被嵌入模型，且不一定需要后，通过特定触发器的数据样本激活这些后门。数据中毒可以通过攻击术是指攻击者在已经获得对系统的初级访问权限后，采取的行动权限。这种提升权限的行为使得攻击者能够在目标系统上执行更敌手可能制作恶意提示输入到大型语言模型（LLM导致模型执行非预期行接（间接注入）注入恶意提示，以此来生成有害内敌手可能利用他们对作为更大系统一部分的大型语集成、访问数据源以及执行代码的能力。敌实例：对手可以直接（直接注入）或间接（间接概念：在MITREATT&CK框架中，"DefenseEvasion"（防御规避/TA0005）战术是指攻击者为了绕过安全防御措施而采取的一系列技术。范围：攻击者试图避免被支持机器学习的安全软件检整个攻击过程中用来避免检测的技术。用于防御规避的技术包a.规避机器学习模型（EvadeMLModel）敌手可以制作对抗性数据，以阻止机器学习模型b.LLM提示注入（LLMPromptInjection）敌手可能制作恶意提示输入到大型语言模型（LLM导致模型执行非预期行接（间接注入）注入恶意提示，以此来生成有害内c.LLM越狱（LLMJailbreak）敌手可能使用精心设计的LLM提示注入，使LLM进入一种状态，使其能够自由响应任何用户输入，绕过对LLM设置的任何控制、限制或安全防护。一旦成进行训练，并且具有相似的性能。然后制作对抗样本，查询模型样本，直到可以逃避模型的控制措施。详细信息：“僵尸网络域生成算法(DGA)避（BotnetDomainGenerationAlgorithm(DGA)DetectionEvasion）ℽ执行后续攻击活动。这些凭证可能包括用户名、密码、密钥、范围：对手试图窃取帐户名和密码。凭据访问包括窃取术。用于获取凭据的技术包括键盘记录或凭据转储。使用合法凭证访问系统，使其更难以检测，并提供创建更多帐户以帮敌手可能在被攻陷的系统中搜索并获取不安全存变量、操作系统或应用程序特定的存储库（如注册表提示覆盖途径，生成了最终导致攻击者访问应用程序主机系统的环统、用户和其他关键信息的情报。这些信息有助于攻击者后续的攻击活动如横向移动、权限提升和数范围：对手正试图弄清楚受害者的机器学习环境。发现包括系统和内部网络的知识的技术。这些技术可以帮助对手观敌手可能通过重复向模型查询或在配置文件和模习模型输出空间的本体论，例如模型能够检测的敌手可能通过查询或分析文档来揭示机器学习模c.发现机器学习工件（DiscoverMLArtifacts）敌手可能搜索私有资源以识别系统中存在的机器信息。这些工件可能包括用于训练和部署模型的软件栈、数注册表、软件仓库和模型库。这些信息可用于确定进一步收敌手可能诱使大型语言模型（LLM）泄露其初始指令或能让敌手了解系统的内部运作。提示工程是一个新兴领实例：对手可能诱导大型语言模型（LLMprompt）”。获取“元提示”可以让对手了解系统的内部运能包括文件、数据、凭证等。收集阶段的目的是为了支持后续的范围：对手试图收集与其目标相关的机器学习工件和其他相攻击者可能会搜集机器学习工件，如模型、数据集和攻击者可能利用信息库来挖掘有价值的信息。信息库通常用于促进用户间的协作或信息共享，能够进一步的目标或直接获取目标信息。存储在库攻击者可能会在数据窃取前搜索本地系统资源，如文到密码保护，但由于配置错误，任何用户都可以注册账户。这导致一获得了对私有代码库的访问权限，该代码库包含了桶的密钥（其中包含70,000个视频样本以及应用程序和SlAML.TA0001——机器学习攻击阶段（范围：对手正在利用他们对目标系统的了解敌手可能会获取模型作为受害者组织中使用的目在完全离线的方式下模拟对目标模型的完整访问。敌训练模型，尝试从受害者的推理API复制模型，或使用现有的预训练模型。敌手可能在机器学习模型中植入后门。植入后门行，但在输入数据中引入特定触发器时会产生敌手在受害者系统上提供了一个持久的漏洞。这个c.验证攻击（VerifyAt增强了敌手对其方法的信心，并允许他们在手可能只验证一次攻击，但将其用于运行目可能先在数字环境中验证攻击，随后在物理对抗性数据是特别修改过的输入，用于欺骗机器学敌手期望的效果。这些数据对人类来说通常看起来未被模型的了解，采用不同算法创建这些数据。如果能够直GPT-2可能被用于恶意目的，例如冒容或垃圾邮件，OpenAI采用了分层发布计划。他们最初发布了一了该模型。这表明，在人工智能安全社区做好准备之前，拥有足击者从受害系统中移除敏感数据并将其传输到攻击者控制的位置者在成功渗透目标系统后，为了实现其最终范围：对手试图窃取机器学习工件或有关机器学习系者可能用来从受害者的网络窃取数据的技术。数据可能因其宝贵的知取，或用于未来的操作。从目标网络获取数据的技术通常包括通a.通过对机器学习推理API进行渗敌手可能通过传统的网络手段窃取机器学习工件或敌手可能诱使大型语言模型（LLM）泄露其初始指令或能让敌手了解系统的内部运作。提示工程是一个新兴领敌手可能制作提示，诱使大型语言模型（LLM）功渗透目标系统后，采取的行动以对目标环境造成损范围：对手试图操纵、中断、削弱受害者的信心或破坏其机响包括攻击者通过操纵业务和运营流程来破坏可用性或损害完响的技术可以包括破坏或篡改数据。在某些情况下，业务流程可能可能已被更改以有利于攻击者的目标。攻击者可能会使用这些技术敌手可以制作对抗性数据，这种数据能阻止机器规避依赖机器学习的下游任务，如逃避基于机器学习的病毒/容易过载。敌手可以故意制作需要机器学习系统进行大量无敌手可能向机器学习系统发送大量干扰数据（chaffdata导致检测数量增敌手可能利用对抗性数据输入来降低目标模型的系统的信心。这可能导致受害者组织在尝试敌手可能滥用对受害者系统的访问，利用其资源系统发送垃圾邮件，从而导致检测数量增加。这可能会导致受害间审查和纠正错误的推论。例如，对手可以制作对抗性数据，阻识别数据内容。该技术可用于逃避利用机器学习的下游任务。对手可3.攻击实例机器学习系统正面临越来越多成熟的攻击策略，这些攻击不再局限于实验是开始针对实际的生产系统。这些系统可能使用包含敏感信息的训乏充分监管的情况下做出重要决策。同时，它们的运行缺少详细的概念性验证或实例AML.CSAML.CSAML.CSAML.CSGoogleColab是一项在虚拟机上执行的Notebook服务。Jupyter户还可以通过链接与其他用户共享JupyAML.CS告给联邦当局。2023年5月，该个人因电信诈骗和AML.CSAML.CSAML.CSAML.CSAML.CS效帐户和通过API执行代码-所有这些都与AML.CSAML.CSAML.CSAML.CSProofPudding(CVE-AML.CS模型。在OpenAI发布完整模型之前，AML.CSAML.CSTranslator和对抗性输入成功地导致GoogleTraAML.CS击务系统向所谓的客户发

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究

文档简介

温馨提示

最新文档

评论

保护大模型安全：MITRE ATLAS 全球首个系统性应对人工智能威胁的对抗性框架研究

文档简介

温馨提示

最新文档

评论

相关文档