生成式AI应用程序安全测试和验证标准2024

上传人：策*** IP属地：山西上传时间：2024-08-08 格式：DOCX 页数：111 大小：405.74KB 积分：19.9 举报 版权申诉

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

生成式AI应用程序安全测试和验证标准世界数字技术学院标准世界数字技术标准WDTAAI-STR-01被指定为WDTA规范。本文件是世界数字技术学院(WDTA)的财产，受国际版权法保护。未经WDTA事先书面许可，禁止使用本文档，包括复制、修改、分发或重新发布。WDTA不对本文档中的世界数字技术学院(WDTA)致力于成为全球数字技术创新的开拓者，与作为非政府组织的联合国框架保持一致。WDTA坚持其3s原则-速度，安全，共享-致力于加速数字规范的创建，带头通过合作努力，WDTA致力于推动数字技术的发展，以改善社会计划是WDTA国际计划的核心部分，旨在解决人工智能系统扩散带来的复杂挑战。认识到术在全球范围内的快速扩展和整合，AISTR站在本标准文档提供了一个框架，用于测试和验证生成式AI应用程序的安全性。该框架涵盖了AI应用程序生命周期中的关键领域，包括基本模型选择，检索增强生成设计模式中的嵌入和矢量数据库，提示执行/推理，代理行为，微调，响应处理和AI应用程序运行时安全性。主要目标是确保AI应用程序在其整个生命周期中按照其预期设计安全运行。通过为AI应用程序堆栈的每一层提供一套测试和验证标准和指南，重点关注安全性和合规性，本文档旨在帮助开发人员和组织增强使用llm构建的AI应用程序的安全性和可靠性，减轻潜在的安全风险，提高整体质AISTR计划代表了我们如何处理AI技术的开发和部署的范式转变。倡导人工智能系统中的安全、信任和责任，为更道德、安全和公平的数字未来奠定了基础，在未来，人工智能技术是进步的推动者，而不是不确定性和伤害的来源。生成式AI应用程序安全测试和验证标准是AI主要作者道森广告(OWASP®基础)(OpenAI)(亚马逊)王永霞(腾讯)1生成式AI应用程序安全测试和验证标准生成式AI应用程序安全测试和验证标准文档概述了一个全面的框架，用于测AI应用程序的安全性，特别是那些使用大型语言模型(llm)构建的应用程序。它定义了AI应用程序堆栈各层的测试和验证范围(图1)。将生成的GenAI模型集成到更大的支持AI的系统或下游应用程序中可能会引入安全问题。因此，所有下游AI应用程序都需要安全测试和标准验证，即使基本的GenAI模型在集成到下游应用程序之前已经过虽然本文档作为初始版本，但其在本次迭代中的主要重点是LLM。但是，重要的是要注意范AI安全测试和验证协同工作，以确保AI应用程序安全且按预期运行。在可行的情况下，应在整个开发生命周期中采用稳健的方法，使用诸如快速注入，扫描和红色团队练习之类的技术来主动识别问题。然而，单独的测试有局限性，特别是对于第三方组件，测试可能是不可能的或有限的。在这种情况下，聘请专门审计AI治理、流程和程序的外部专家或组织组件的安全性极为重要。彻底审核AI应用程序以检查所有生命周期部署环境中对下游AI应用程序的彻底检查可确保遵守安全标准，即使在模型级别评估不充分的如此。具有强大测试实践的集成保证方法以及对策略，流程和性能的持续验证，为系统继续自主学习提供了负责任的AI结果的保证。它们共同提供有关系统优缺点的信息，通2本规范涵盖基于基本LLM模型构建的下游应用程序的安全测试，但不详细说明基本LLM模型本身的安全测试一下规范。将来要发布的单独文档将涵盖专门针对基本LLM模型的安全测试基础模型选择:在选择之前，应检查下游AI应用的候选模型。本节介绍验证基本模型的合规性、适当的数据使用和API安全性。该文件提供了指导，以确保所选择的模型符合法律，道德和操作标准，这是确保AI应用程序安全性的关键一步。范围包括开嵌入和矢量数据库:在大多数下游AI应用程序中，这些都是关键组件，用于存储和检索语言数据块。本文档概述了测试数据完整性，质量和匿名化过程的程序，以保护用户隐私并遵守法规。该规范提供了测试矢量数据库的机密性、完整提示和知识检索与检索增强生成(RAG):RAG可以显着提高生成AI应用程序的事实准确性和可靠性，例如大型语言模型。它通过在文本生成期间实时地动态合并从外部源提取的相关的、特定领域的知识来实现这一点。本节将指导有效提示的构建、提示模板的创建和使用以及外部api的集成。它还包括测试矢量数据库的检索过程，确保AI应用程序可以准确地访问和利用相提示执行/推理:文档详细介绍了提示执行/推理层中LLMapi的测试过程，包括对缓存机制和验证过程的测试，以优化性能和准确性。此层还包括用于检查提示和确保llm不被用于执行未经代理行为:这些是高级LLM应用程序功能。该规范概述了对快速解释，内存利用率，知识应用，计划和动作启动的测试。这包括测试集成到AI应用程序中的工具微调:通常会针对特定的下游AI应用程序对GenAI模型进行微调。本节包括数据隐私测试、基本模型选择的重新评估和模型部署，以确保3响应处理:对AI的响应、相关性、毒性和伦理考虑进行事实核查测试，以维护AI交互的可信和AI应用程序运行时安全性:运行时安全性涉及对AI应用程序的持续实时监控。它涵盖数据保护、模型安全、基础设施安全以及审计跟踪合规性。这确保了全面的安全方法，保护总体而言，生成式AI应用程序安全测试和验证标准文档提供了详细和结构化的方法来测试AI应用程序堆栈的每一层，确保AI应用程序的所有方面都经过严格4本文档的目标受众是参与确保生成式AI应用程序的安全性和完整性的专业人员和利益相关AI安全工程师和分析师:主要负责实施和维护规范中概述的安全措施。他们评估AI应用程序的威胁，设计安全架构，并监视系统以预防，检测和响应安全事件。这些工程师还会考虑偏见和人工智能开发人员、mlop和人工智能工程师:他们是构建、维护和自动化人工智能应用程序工作流程的人。他们使用安全规范来理解并将安全最佳实践集成到应合规官和监管专家:负责确保AI应用程序符合不断发展的法律和监管标准的专业人员使用该规数据保护官:确保AI应用程序安全地处理数据，并遵守数据保护法律和政策。安全规范为他们IT和网络管理员:这些管理员负责AI应用程序的底层基础架构。这些专业人员将使用安全规范来保护网络，服务器和其他组件，以防止不良行为者在AI相关风险管理专业人员:评估和管理与人工智能应用相关的风险。安全规范帮助他们识别潜在的安道德审查委员会:负责监督人工智能道德使用的委员会依赖于安全规范，以确保人工智能应用项目经理和产品所有者:这些利益相关者确保AI项目安全高效地交付。安全规范指导他们设置5第三方或外部安全审核员和顾问:由这些专家对AI应用程序的安全状况进行外部审查。他们使最终用户或业务利益相关者:AI应用程序的最终用户或业务利益相关者虽然不直接参与实施安全性，但对这些系统的安全性具有既得利益。了解安全规范可以帮助他们评估AI应用这些小组中的每一个都在确保AI应用程序的安全性方面发挥着关键作用，从开发到部署和操3.规范性引用文件下面列出的参考文献对于应用和理解本文档至关重要。它们提供了对安全和负责任地开发和部●生成式AI安全:理论与实践●拜登关于安全、可靠和值得信赖的人工智能的行政命令●NIST值得信赖和负责任的AINISTAI100-2e●MITRE阿特拉斯™(人工智能系统的对抗性威胁景观)●降低检索增强生成(RAG)LLM64.术语和定义代理行为:LLM应用程序通过诸如内存利用，知识应用，计划和执行基于提示的操作来展示代AI应用程序运行时安全:为在操作期间保护AI应用程序而实施的全面安全措施。它包括数据保人工智能治理:人工智能风险的框架、要求、监督和问责。这些结构可以将风险映射到组织环AI响应处理:处理和评估AI响应的准确性、相关性、无毒性、隐私性、保API安全检查:对与模型接口的API的安全措施进行验证，如身份验证、授权和数据加密，以防基本语言模型:基本模型(有时称为基础模型)是一种大型语言模型，其原始模型构建者已经使用诸如从人类反馈(RLHF)的强化学习等技术对其进行了一般功能的训练和微调。这些基本模型(例如OpenAI的GPT-4，Anthropic的Claude3，Google的Gemini1.5，CohereCommand，AmazonTitan或Meta的开源LLaMA2)为进一步的特定任务定制奠定了坚实的基础。通常，开发人员会调整基本模型输出，以显示广泛的语言能力和对下游应用程序中专业用例的适应性。然后，工程师和公司将这些基本模型作为有效开发和部署针对其精确需求和应用程序量身定制的AI解决方案的起点。基本模型消除了从头开始训练完整模型的需要，提供了封闭和开源的基础模型选择:在考虑AI安全性的情况下选择合适的基础模型。选择涉及评估诸如性能基准，培训数据质量，潜在偏差，安全程序，潜在有害输出，预期用例和法规遵从性要求等因素。可靠的模型来源，透明度，数据/培训方法的审核，跨职能审核流程以及遵守行为准则是在负责任地部署llm时维护安全性，合规性和道德标准7缓存:用于存储AI模型的推断输出的技术，以避免在推理过程中重复计算。由于深度神经网络模型的运行计算成本很高，因此缓存其输出可以在实时请求期间提供更快的响应时间。典型的解决方案包括缓存聊天机器人的问答对，计算机视觉模型的分类或大型语言缓存验证:在将AI应用程序的缓存输出返回给用户之前，检查其准确性、相关性和安全性。这可能涉及置信度检查，语义分析，敏感主题的输入阻止或人工确认。验证与缓存一起使用，以闭源模型:其权重、推理代码和训练数据清单不公开的模型。数据清理和匿名化:从数据中删除不准确和不一致之处，并匿名化个人或敏感信息，以维护隐数据使用检查:确保用于培训和操作模型的数据是适当的，符合道德规范的，并符合数据保护外部API集成:将外部API集成到LLM应用程序中，以增强功能，例如访问微调:针对特定任务或数据集调整基于模型的过程，以提高性能，相关性和对数据隐私的合规LLM(大型语言模型):大型语言模型(LLM)是一种在大型文本语料库上训练的神经网络，通过预测下一个单词或令牌来生成智能文本，从而允许开放式文本生成应用程序，模型合规性检查:评估所选模型是否符合法律、法规和道德标准。这包括数据隐私法和偏差最小化等考虑因素。请记住，合规性会随着时间的推移而改变，不要假设它总是给定的。也不要推断一个供应商对另一个供应商的合规性。模型本身很少经过认证，但它模型注册表:用于存储、版本控制和编目机器学习/AI模型和相关元数据(例如，模型卡)的数据库、存储库或系统。模型花园是注册表的一个精选版本，其中包含提供商的精选模型。它通常需要模型与使用的训练数据和推理数据点8提示构建和模板:为LLM创建有效且安全的提示，并开发模板以标准化和简化提示生成。提示处理:LLM解释并处理提示以生成响应的过程。此过程涉及理解提示，访问相关知识以及RAG，或检索增强生成:检索增强生成AI应用程序的事实准确性，如大型语言模型，通过从矢量数据库中实时提取相关知识来增强它们。在推理期间，检索器模块首先使用生成器的内部状态向量来查询存储外部知识(文本、图像等)的向量数据库。然后，与生成上下文最相关的检索到的向量与内部状态交叉，以产生下一个生成的输出。这个过程动态地使模型的生成更接近现实，纠正错误的假设并减少幻觉内容。这种可扩展的检索基础结构在开放式推理期间为生成器提供了相关外部数据的连续供应。这种检索增强的生成方法抵消了生成器的知识限制和捏造信息的趋势，从而提高了开放域生成AI应用程序中的事实一致矢量数据库:矢量数据库充当地面实况，帮助将知识扩展到训练时间以外的运行时间，并减少生成AI模型中的幻觉。它们允许将大量的真实世界数据(图像、文本、分子结构等)存储为捕获语义概念和特征的矢量表示。然后，这些矢量数据集在推理过程中充当生成模型的参考，以使其输出更接近现实，并避免制造错误的细节(幻觉)。从生成模型输向量匹配提供了一种检测和过滤超分辨率内容的自动化方法。这个数据集条件对于生成AI的安全关键应用至关重要，如药物发现和内容创建。优化的矢量搜索和可扩展性使PGvector，Milvus，Weaviate和Pinecone等数据库非常适合为现实世界中部署的生成AI应用程序启用此类95.AI应用安全和验证标准要确保AI应用程序的安全性和完整性，需要对AI应用程序堆栈中的所有组件进行结构化和严格的测试。全面的测试制度可以验证下游AI应用程序的每个方面(从基础模型选择到运行时安全性)是否按预期安全运行，并且没有漏洞。细致的测试规范设定了明确的要求，方法和预期结果，从而实现了透明的评估。本节提供了AI应用程序体系结构每一层的详细测5.1基本模型选择测试标准基础模型选择是确保AI应用程序安全性和合规性的关键方面。选择涉及对开源和闭源模型的不同考虑，认识到虽然闭源模型可能有更容易获得的合规性文档，但开源模型可能缺乏已建立需要注意的是，基础模型的测试和验证是一个持续的过程，尤其是在上游基础情况下。随着基础模型的发展和更新，重新验证模型以确保它仍然满足所需的安全性和合规性标准至关重要。这种持续的验证过程有助于维护AI应用程序的完整性和可靠性，即使5.1.1模型合规性和上下文测试检查模型合规性涉及每种模型类型的不同方法，并考虑其独特的特要求:基于人工智能的模型，无论是开源还是闭源，都符合法律、监管、安全和道德标准。方法:对于闭源模型，根据相关法律、行业法规和道德准则，对供应商提供的可用合规性文档进行详细审查。为确保合规性，应审查和评估模型的培训数据质量(符合目的作参数和社区反馈。对已关闭模型的权限和访问权限可能会限制此评估。对于所有模型，模型卡1和数据报表等工具2为模型和数据文档提供基准。这可能包括与法律和行业专家进行磋商，以解释缺乏正式文件的领域的合规性。测试一下模型在特定任务上的准确性、相关性、一致性和性能是否满足预定要求。使用预设场景和数据集对模型进行基准测试，以衡量其性能和输出有用于测试的资源，但它们的效用可能会随着时间的推移而变化和降低。对于封闭和开源模型，都有许多公开可用的即时安全测试结果。由于它们使用不同的测试一下数据集，因此这些安全评估工作可能会为同一模型产生不同的结果。尽管如此，咨询多个公开可用的结果可以指出LLM更有可能表现出哪种类型的有害行为。随着新的故障模型和攻击的发现，基准也会随着时间的推移而变化;考虑并报告用于评估模型的此外，识别并列出来自MITREAtlas等来源的已知漏洞(™)3、AV预期结果:基础模型完全满足所有法律、法规、安全和道德要求，无论其来源如何。对于闭源模型，任何不合规的领域都被明确标识，对于开源模型，则会2.检查模型卡中存在每个模型的上下文元数据，训练和微调的血统。模型卡提1./doi/10.1145/3287560.32875962./数据-报表//34https://avidml。组织/5https://airisk.io/6https://incidentdatabase.ai/要求:无论是开源还是闭源，AI模型都要有模型卡，详细说明模型的来源、数据敏感度、训练方法:对所有模型(包括托管模型)的可用模型卡进行详细审查。确保模型卡具有模型沿袭和所有权的详细信息。模型卡应该能够提供用于训练和微调的数据集(如果适用)。对于闭源模型，预期结果:无论其来源如何，基本模型都具有模型应用程序的完整元数据。5.1.2数据使用检查测试方法:对敏感数据和个人数据的用户提示实施数据匿名化或伪匿名化技术。进行定期审核，以确保有效地掩盖个人标识符。此外，请确保存储的提示和输出不超过策略指定的内容。这可以限制存储的内容和存储时间的长度。进行对抗性测试以检查数据是否泄漏，使用方法(例如，预期结果:在不泄露个人身份的情况下处理用户提示，确保隐私并遵守数据保护法。如果需要求:数据的道德和法律使用方法:根据道德标准和法律要求制定数据使用指南。执行常规合规性检查和审核，以监控对这预期结果:来自用户提示、微调训练数据和矢量数据库的数据在道德和法律上使用，没有滥用要求:数据保护法规的遵守方法:获得用户同意，确保数据透明度，并为用户提供对其数据的控制。数据最小化仅收集必要的个人数据，并避免过度收集。通过技术手段最大限度地减少个人数据的使用和存储时间。根据数据的敏感性采取差异化的隐私保护措施。定期对员工进行数据保护法培训，并进行合规性审计。实施响应访问信息请求和被遗忘请预期结果:通过审计结果和用户反馈，完全遵守GDPR或CCPA等数据保护法律。4.使用数据沿袭和元数据的数据起源过直接或间接访问数据集的数据源、数据敏感性、合规方法:对数据卡和数据集进行审查。验证每个数据集，尤其是那集，都有一个数据卡。确保数据卡具有数据集沿袭和维护和管理数据卡。数据卡中的集合和内容将随着数据管理员、所预期结果:无论其来源如何，基本模型都具有模型应用程序的完整元数据。要求:AI应用程序开发人员与基础模型提供商之间的数据使用协议证次级要求:确定缔约方和范围方法:对协议进行审核，以验证各方均已正确识别，并且协议的范围(包括特定的基础模型或预期结果:协议准确地确定了所有各方并概述了范围，对所涉及的模型或数据集的模糊性较子要求:使用权利和限制方法:对协议进行详细分析，以确保明确说明和理解使用权和限制，包括对修改和重新分配的预期结果:对使用权有清晰的理解和文档记录，确保明确定义并遵守许可类型(排他性或非排子要求:数据处理和合规性方法:对处理用户提示、精细图灵训练数据和矢量数据库内容的流程进行回顾。检查数据匿名预期结果:数据处理方法完全符合协议和法律标准，并采用安全和合规的数据管理做法。方法:确认协议清楚地概述了有关基础模型、微调模型、输入数据、微调数据和输出数据的知识产权。检查实践中的合规性。此外，请查看模型提供者授予其用户的任何赔偿条款。通过审预期结果:尊重知识产权，并为使用、修改和重新分配模型输出提供明确的指导方针。任何赔子要求:保密和不披露方法:对保密和保密条款的执行情况进行评估，预期结果:严格遵守保密义务，根据组织关于处理公司机密信息和重大非公开信息的政策保护方法:审查组织处理与AI系统相关的责任和担保的方法。评估组织为理解和实施相关术语，应对潜在的模型故障或数据泄露以及遵守该领域适用的标准和法规而做出预期结果:本组织承诺尽其所能妥善管理负债和履行担保，并制定旨在处理可能出现的任何问题的政策和程序。我们努力遵守相关的行业标准、最佳做法和法律要求，以分配责任和补救失败或违规行为，同时认识到完美的执行可能子要求:终止和续订条款预期结果:定义明确的终止和续约条款，方法:在出现分歧或违约的情况下，检查争议解决条款并评估参与概述过程的准备情况。预期结果:建立有效的争端解决机制，符合协议条款。子要求:适用法律方法:明确规定和理解管辖法律和管辖权，并检查是否与开发或使用AI应用程序的当地法律有子要求:签名方式:经双方授权代表签字确认。5.1.3基础模型推理API安全测试本节概述了用于全面评估客户端应用程序如何与第三方模型推理API集成的特定测试规范。当应用程序与外部API交互时，这些测试至关重要，需要采用与传统API测试不同的方法。本节着重于从客户端应用程序的角度进行测试，这与5.4.1节中概述的由API提供者进行的测试不同。这种区别至关重要，因为我们正在处理将使用第三方推理api的客户端应用程序。为此用为了确保采用全面和结构化的方法来测试与第三方模型推理API集成的客户端应用程序的安全要求:必须对API的所有请求进行身份验证和授权，以确保客户端对请求的资源具有权限和适方法:通过模拟各种身份验证场景，测试一预期结果:客户端必须在请求标头中包含有效的身份验证令牌，通常作为承载令牌。API应使●403如果经过身份验证的客户端没有执行提供清晰简洁的错误消息，以指示特定的授权问题，例如缺要求:必须在所有状态下应用加密:传输中，静止和使用中。数据传输子要求:对通过网络传输的数据使用强大的加密协议，如TLS1.2或更高版本，以确保安全的机密性和完整性。实施完美的前向保密，以保护过去的加密通信免受解密，即使长期密钥受到损害。在传输之前，必须对敏感数据进行加密，以确保在到达目方法:对基本模型推理API端点进行全面的漏洞评估和渗透测试，以评估其抵御潜在攻击的能力。确保其加密配置和加密协议是健壮和不可穿透的。持续监控进出端点的网络流量，验证严格加密标准的执行情况和安全协议的采用情况，例如最新的TLS版本，优先考虑保持完美的前预期结果:使用符合当前加密标准的最新安全协议对所有传输的数据进行安全加密。加密密钥应在每个会话中动态更改，以防止在将来的密钥受到损数据静态子要求:采用多层安全方法对敏感数据进行去标识，包括标记化、匿名化和假名化。应采用强大的加密标准，如AES-256或等效标准，以安全地存储敏感数据，其中去识别敏感数据或个人信息是不可行的。加密密钥应与加密数据分开存储，以增强安全性。必须实施严格的对于令牌化，请评估令牌生成安全性和随机性。评估令牌字典访问安全性。验证所有标记化操作的日志记录/审核。评估令牌数据映射的加密和访问控制。测试一下标记化数据使用中的数对于匿名化，验证不可逆的匿名化和无法重新识别数据。检查匿名数据是否用于预期目的。对具有风格代表性的数据进行风险分析，以进行潜在的重新识别。回顾使用的匿名技术及其有效对于假名化，请确保假名的唯一性、安全性以及与源数据的分离。分析考虑数据相关性的重新数据应在各种情况下得到充分保护，而不会损害其在合法业务流程中的实用性。根据数据敏感性，从匿名数据中重新识别个人的风险应理想地介于0.04%和0.1%之间或更低。只有经过授权的个人才能访问令牌或假名并将其链接到原始数据，并进行从匿名或假名数据中重新识别个人实际上是不可能的，从数据在用子要求:对内存中处理的敏感数据实施加密。应用程序必须使用安全编码实践来防止内存转储和侧信道攻击。应采用最小特权原则来限制在处理过程中对敏感数据的访问。应考虑提供机密计算联盟定义的硬件信任根的机密计算硬方法:通过评估应用程序和系统来验证内存加密的有效性，以确认它们在内存中有效地加密了评估应用程序如何处理内存中的敏感数据，重点是防止通过内存转储泄漏和测试一下是否存在侧信道攻击的漏洞，检查如何处理数据并将其存储在内存中，以识别潜在的根据最小特权原则，审查用户和进程访问权限，以确保它们是最小的和必要的，以降低未经授可信执行环境(tee)提供安全执行环境，在处理期间将敏感数据隔离在受保护的CPU飞地中。证明是机密计算的关键部分，允许从信任根(RoT)预期结果:在处理敏感数据时，确保数据保持加密、假名、匿名和安全。只有必要的用户和进程才能访问正在使用的敏感数据，并且必须严格控制和记录此类访问。机密计算和TEE验证结方法:评估应用程序处理和清理各种潜在攻击向量的能力，包括超出通常用例参数的输入。执行模糊测试，该测试应涵盖API接口的所有功能点，包括各种HTTP方法(例如GET，POST，PUT，DELETE等)。执行渗透和安全漏洞测试，例如SQL注入，跨站点脚本(XSS)，命令注预期结果:应用程序有效地过滤和清理输入，防止注入，不相关的输入和其他数据操作攻击。要求:不暴露敏感信息的安全错误处理和日志记录。方法:信息泄露时，触发错误条件，分析日志。如果可能，在日志存储之前自动删除敏感信要求:通过使用秘密管理方法将API密钥和凭证存储在安全保管库中来安全地管理它们。API密钥和机密必须定期轮换，不得超过180天，或在出现潜在危害迹象时立即轮换。轮换过程必须方法:通过实施安全保管库来存储和检索API密钥和凭证，确保它们不会暴露或泄露。观察并验证安全密钥管理流程，包括但不限于密钥生成、密钥轮换、禁用旧密钥、密钥销毁和处理密钥材料安全。采访负责人员并审查培训材料，以确认相关团队对安全API密钥轮换和机密管理流程的认识和理解。通过尝试使用旧的/已撤销的API密钥和机密访问资源并验证访问是否被适当预期结果:安全地存储API密钥和凭证要求:用于API通信的最新且安全的库和依赖项。方法:进行漏洞扫描，检查是否存在过时和不推荐使用的组件。预期结果:所有组件都是最新的，没有已知漏洞。要求:符合API提供商的安全策略。预期结果:应用程序符合API的所有指定安全准则和协议。方法:为intAPI输入和输出确定用例的正常API行为基线，包括相关性、典型请求率、响应大小和模式。此基线有助于检测异常，尤其是由审核或用例筛选api触发的异常。保留详细的日预期结果:异常情况的快速检测和事件响应计划的有效执行。要求:数据保护法律和隐私设计原则的遵守。方法:应用程序中的审计数据处理惯例和隐私措施。预期效果:应用程序符合相关数据保护法规，有效保护用户隐私。5.2嵌入和矢量数据库对于AI应用程序的嵌入和矢量数据库组件，测试5.2.1数据清理和匿名测试通过验证其清洁度和有效的匿名化来确保用于创建嵌入的数据的完要求:根据用例，确保用于创建嵌入的数据被有效地清理和匿名化，特别是对于面向公众的应方法:通过实施测试来评估数据清理过程的彻底性，确保不相关、冗余或错误的数据被识别并纠正或删除。此外，根据GDPR等隐私标准，测试一下匿名化流程以确认个人或敏感信息被有效地隐藏或删除。这可能涉及审查匿名化算法、技预期结果:嵌入过程中使用的数据干净，相关且无错误。匿名化过程可有效保护个人和敏感信5.2.2Vector数据库安全测试通过实施和验证高级加密、用于数据访问的RBAC、强大的密钥管理、全面的IAM策略和其他要求:对高级加密技术(包括端到端加密)的使用情况进行评方法:对使用中的加密协议和加密标准进行全面评估，分析预期结果:通过采用高级加密方法并在传输，使用和存要求:从创建到停用，检查加密密钥的整个生命周期，以确保遵守安全密钥管理实践。方法:对密钥发放、更新、撤销和销毁过程进行测试一下，评估其稳健性和对密钥管理标准的预期结果:安全的密钥管理生命周期，有效保护需求:针对不同的用户角色和场景，实现和测试一下精细的身份和访问管理(IAM)策略，为不方法:基于场景进行测试，验证每个用户角色只能根据定义预期结果:对访问权限进行精细控制，确保用户只要求:经常进行全面的安全审计，超出标准检查的范围，包括评估是否符合国际标准和行业特方法:深入执行审计、漏洞评估和合规性检查，以确保符合相关安全标准和法规。要求:对零信任安全模型的实现进行评估，在该模型中，信任永方法:在零信任环境中评估矢量数据库的部署，验证是否基于身要求:实时实施和评估监控系统和异常检测算法，以实时识别和方法:通过模拟安全事件并监控其检测和响应，测试一下实时监预期结果:对安全威胁的早期检测和快速响应，要求:提供可靠的灾难恢复和数据备份流程。方法:对灾难恢复和备份系统进行测试一下，使其能够在发生破预期结果:高效可靠的灾难恢复和数据备份流程，方法:对数据访问的RBAC进行全面评估。使用不同的角色访问数据，并确保正确的角色只能5.3使用RAG进行提示和知识检索AI应用程序的“使用RAG(检索增强生成)进行提示和知识检索”阶段的测试规范包含以下组件:5.3.1及时施工测试要求:请确保为RAG模型构建的提示有效且方法:为了清晰、相关和完整，测试一下快速构建过程。这涉及评估各种提示，以确保它们有效地将预期的请求传达给RAG模型，并且模型的响应与提示的意图一致。这些测试可能包括证明此要求可能需要大量资源或需要专业知识，具体取决于下游AI应用程序。因需要一系列方法来证明这一要求。例如，有78和第三方公司的公共存储库可以帮助进行需求演预期结果:构造良好的提示，明确无误，并有效地指导RAG模型提供相关且准确的响应。2.验证RAG模型的输出是否与提供的用要求:确保RAG模型的结果准确且相关7/microsoft/promptbench8/promptfoo/promptfoo方法:为不同的用例测试一下不同的提示，并查看输出在清晰度和相关性方面是否与预期输出证明此要求可能需要大量资源或需要专业知识，具体取决于下游AI应用程序。因需要一系列方法来证明这一要求。例如，有预期结果:GenerativeAI输出可以提供与用例无关的结果。确保输出一致有助于确保输出的可用方法:将模型的响应测试一下到各种精心设计的潜在恶意输入。这涉及模拟可能利用输入处理中的漏洞的场景。测试一下应包括直接和间接即时注射，如OWASPTop10为LLM应用程序记预期结果:模型始终安全地处理精心设计的输入，而不会执行意外操作或显示易受攻击的行方法:在可能泄露敏感或机密信息的情况下评估模型的输出。这包括测试可能通过提示工程，越狱以及各种策略和技术触发此类披露的场景。回顾学术文献和公开的独立测试一下结果，评估信息泄漏。如果没有公开的独立测试，组织应考虑是否可以选要求:采用多层方法，确保聊天机器人保持在其域内。这种方法需要强大的故障安全机制，完方法:通过提供与其指定域无关的有意查询来测试一下聊天机器人，评估其识别和管理此类情况的能力。模拟具有异常和噪声的真实数据场景，确保聊天机器人提供准确可靠的信息。进行A/B测试，将聊天机器人的性能与对照组进行比较，为其在特定领域的有效性提供有价值的见预期结果:聊天机器人展示了识别其领域之外的查询的非凡能力，礼貌地承认它们的无关性或引导对话回到正轨。该系统在模拟的真实世界场景中可靠地提取了准确的特定领域数据，不受不相关或嘈杂信息的影响。在A/B测试期间，聊天机器人的性能超出了预期，特别是在响应质量、用户满意度和指定领域内的相关性方面。它努力坚持实施的故障安全机制，护栏和专门的算法，确保强大和安全的用户体验。用户对聊天机器人的准确和有用的响应表示很高的满意5.3.2提示模板测试提示模板是预定义的结构或准则，用于生成提示，以促进来自模型的特定类型的响应。这些模板旨在通过提供一致且优化的方式来表达查询或命令，从而简化与模型的交互，确保模型尽可能准确地理解用户的意图。提示模板的设计可以显着影响模型响应的有效性和效率，使其对于要求:请确保系统对提示模板的使用符合总体访问控制策略，防止模板被利用来规避安全机制方法:进行系统级测试，以评估提示模板如何被不同角色/用户访问以及如何在系统的安全和访问控制框架的上下文中使用。这涉及验证系统在允许访问特定模板或模板功能之前检查用户权限，尤其是那些可能触发敏感操作或访问特权信息的功能。测试应模拟尝试使用模板的各种用应调查他们是否可以限制的方式使用模板，查看系统在处理模板之前是否预期结果:系统确保与提示模板的所有交互都受到适当的访问控制。用户只能以符合其权限的方式使用模板，而不能使用模板绕过系统级访问限制。拒绝用户访问或使用超出其授权级别的模板的尝试，这表明系统有效实施了与提示模板要求:请确保提示模板具有强大的功能，以防止可能导致意外或不适当输出的误解和误用。模板应清楚地指导用户，减少利用歧义或导致不良系方法:对模板进行彻底的审查和用户测试(涵盖所有相关的用户角色)，以评估其清晰度和误解的可能性。这包括与各种用户一起评估模板，包括那些打算测试一下模板有效性边界的用户。目标是识别并纠正用户可能(有意或无意)利用的任何歧义或弱点，以生成意外，不适当或超出模板预期用途范围的响应。测试还应评估模板对输入格式和内容期望的指导，以确保用户了预期结果:模板有效地指导用户提供与模板预期用途一致的输入，同时将误解或误用的风险降至最低。这些模板的设计和说明明显减轻了对抗性操纵的可能性，确保系统的响应保持在预期和适当的范围内。用户输入和系统输出是高度一致的，反映了模板在以安全和预期的方式指导实现动态访问控制。应用程序必须根据上下文(包括时间、位置、设备类型和网络安全状况)评估用户请求。应用程序必须根据上下文动态调整用户权限，例如限制在工作时间以外对敏感利用基于属性的访问控制(ABAC)。应用程序必须使用ABAC来管理基于各种属性的用户访问，例如用户角色和数据分类。应用程序必须将ABAC与企业身份提供商和外部api集成，确保数据集成和访问验证。应用程序必须安全地与外部系统集成，验证API密钥，并使用作用域访问令牌来限制对授权数据的访问。应用程序必须将从集成平台检索到的访问权限与用户的实现上下文响应过滤。应用程序必须实现基于用户上下文和权限过滤搜索结果的逻辑。应序必须根据用户的角色或上下文动态修改响应，以排除方法:代码审查:审查应用程序代码，以确保存在用于动态访问控制、ABAC实现和数据访问验动态分析:必须使用安全测试工具来动态分析应用程序在运行时的行为。应模拟具有不同上下渗透测试:必须进行渗透测试，以尝试通过各种技术对敏感数据进行未经授权的访问，以验证预期结果:始终确保敏感信息免受未经授权的访问和泄漏。用户应该能够仅访问其特定上下文和角色所需的数据，从而在保持运营效率的同时增强安全性。系统必须适应各种用户环境，动态应用适当的访问控制和过滤器。系统必须遵守相关的数据保护法律和标准，最大限度地降低5.3.3外部API集成测试(函数调用、插件)外部API集成是指将LLM应用程序与外部API连接以扩展其功能并从其他系统访问数据或服务确定外部api和RAG模型之间集成的可靠性和安全性，确保无缝连接、准确的数据交换和强大要求:确保外部api与RAG和LLM模型的可靠和安全集成，包方法:对API连接、数据交换、错误处理和安全性进行测试。这包括测试正确的函数调用，数据传输准确性，强大的错误和异常处理以及对安全协议(例如身份验证和数据加密)的合规预期结果:将外部api与RAG和LLM模型安全地集成，展示可靠和安全的数据交换系统性能或安全性的情况下有效地处理错误。作为客户端或API提供者，请参阅第5.4.1节和第5.3.4从矢量数据库测试中检索要求:从矢量数据库中确保准确有效地检索信息。方法:对检索过程的相关性、准确性和速度进行测试一下。这涉及用各种输入查询矢量数据库，并评估检索到的信息的相关性和正确性。组织还可以评估其他性能预期结果:RAG系统有效地从矢量数据库中检索相关和准确的信息，有助于对提示做出准确和5.4即时执行/推理AI应用程序中“提示执行/推理”阶段的测试规范，主要侧重于LLMapi以及缓存和验证机制，5.41LLM应用程序api测试如果您将LLM应用程序提供商API提供给第三方，则需要求身份验证:OAuth2.0、SAML2.0和OpenIDConnect等身份验证协议的正确实现，以及API密钥和令牌的安全处理。使用基于令牌的身份验证机制(如JSONWeb令牌(JWT))在无状态环方法:通过模拟各种身份验证场景，测试一下协议实现和密钥/令牌管理。如果使用JWT令牌，请通过验证签名，检查颁发者并确保受众与预期收件人匹配来验证要求授权:根据用户的角色和权限实施全面的访问控制，以管理和限制用户操作。这些措施包授权矩阵必须以结构化和机器可读的格式记录，同时易于被人类理解以进行更新。还应采用分层方法设计，以定义授权的各种组合，这些组合应适用于应用程序的不同技术平台和体系结构方法:使用正确分配和实施的权限验证基于角色的访问控制(RBAC)或基于属性的访问控制(ABAC)系统。组织必须创建一组广泛的集成测试，以验证所测试应用程序的授权矩阵的完整性和适用性。这些测试应直接利用形式化矩阵作为其输入。任何测试一下失败实例都必须突出预期结果:访问受控，确保只有授权的API用户/客户端才能根据允许的范围访问或修改数据，要求:对传输中和静态的所有敏感数据采用高级加密，包括使用行业标准加密协议和定期更新预期结果:数据的强大加密，大大降低了未经授权的数据访问和违规的风险。要求:通过验证所有输入数据并使用安全的数据库访问方法，保护API免受SQL、NoSQL和命方法:预准备语句、存储过程和彻底的输入验证。预期结果:注入漏洞的有效缓解，确保数据的完整性和安全性。方法:在整个设计和开发过程中应用“设计安全”原则，进行威胁建模，并集成安全检查点。预期结果:弹性的API架构从设计阶段就将安全风险和漏洞降至最低。要求:系统地配置并定期审核所有安全设置，使所有系方法:使用自动化工具进行配置管理，定期进行安全审计。预期结果:配置良好的API环境，最大限度地降低由于配置错误而导致的漏洞风险。方法:使用漏洞扫描工具定期修补和更新组件。要求:实现强大的身份验证系统，包括多因素身份验证和安全方法:通过部署多因素身份验证，实施安全密码实践，并监控异常身份验证尝试。预期结果:针对未经授权的访问的增强保护。预期结果:软件和数据有保证的完整性和可信性。要求:通过严格验证所有用户提供的输入，尤其是服务器端请求方法:严格执行输入验证和清理程序，重点防范SSRF漏洞。预期结果:SSRF风险的有效缓解，保护5.4.2缓存和验证测试评估缓存机制在提高响应时间方面的效率，以及验证过程在确保LLMs响应的准确性和适当性要求:在提高响应时间和验证过程的健壮性方面验证缓存机制的有效性，以确保响应的准确方法:通过评估缓存系统对重复查询的响应时间的影响来测试一下缓存系统。这包括评估高速缓存命中率、高速缓存中的数据完整性以及高速缓存更新的效率。对于验证测试，请执行检查以确保LLM的响应准确，相关且没有错误或不适当的内容。这可能涉及自动验证检查和手动预期结果:缓存机制可显著提高频繁查询的响应时间，而不会影响数据完整性。验证过程有效地确保LLM响应的准确性和适当性，最大限度地减5.5代理行为人工智能代理是一个复杂的软件系统，它根据预定义的目标或对特定输入的响应自动执行任务。其体系结构的核心是不同的组件，包括提示机制，通过指令或问题激活代理;内存模块，致力于存储过去对话的详细信息，以通知上下文相关的响应;以及一个单独的知识库，代理用于准确理解世界并与世界进行交互的最新信息。此外，战略规划和反思模块包含用于决策的算法，使代理能够通过一组工具评估选项，预测结尽管人工智能代理技术发展迅速，但其开发的通用标准仍未确定，这促进了持续创新的前景。在这个不断发展的领域中，安全的重要性怎么强调都不为过。随着人工智能代理变得越来越复杂，并越来越多地融入日常生活的各个方面，确保其抵御威胁和漏洞的能力至关重要，强调在人工智能代理开发过程中必须采取强有力的安全措施，以保持其运营人工智能应用中的“代理行为”测试规范可以详细描述如下，涵盖了提示、记忆、知识、计5.5.1快速响应测试方法:对AIagent理解和响应各种提示的能力进行测试一下，评估响应的清预期结果:AIagent始终能够正确解释提示，并提要求:请确保AI代理没有采取自主操作，这可能是不允许的。它还要求在采取任何可能导致安方法:通常AI代理具有很高的权限。测试一下AI代理访问和采取可能不允许的自主操作的能力。确保代理没有访问位置、文件或采取可能是敌对的或被对手使用的操作。还要确保人工智能代理在采取行动之前征求人类的批准，如果人类不允许特定的预期结果:人工智能代理在采取任何行动之前不断要求人类批准，并按预期工作。5.5.2内存利用率测试方法:通过评估AI如何将先前学习或提供的信息整合到其响应和动作中，来测试一下AI的记忆预期结果:人工智能展示了对记忆的有效利用，在其响应和决策中准确地回忆和利用相关的过5.5.3知识应用测试为了确定人工智能有效利用其知识库(在大多数情况下，知识库由矢量数据库、图形数据库甚方法:通过呈现需要利用其存储信息的场景或查询来评估AI对其知识库的使用。评估应侧重于预期结果:人工智能有效地应用其知识库，根据其积累的信息提供准确和深入的响应和行动。5.5.4规划能力测试要求:人工智能测试一下计划和执行复杂任务的能力。方法:通过呈现需要行动或决策步骤的任务或场景来评估AI的规划能力。这包括评估人工智能预期结果:人工智能展示了强大的规划能力，为各种场景制定和执行有效的战略或行动计划。5.5.5。动作执行测试要求:有效且适当地验证AI执行操作的能力。方法:在模拟环境中或通过预定义的任务测试一下AI执行操作。重点应该放在AI采取的行动的5.5.6工具利用率测试确认AI在集成和利用可用工具方面的有效性，从而提高其在任务执行和快速响应方面的性能方法:在执行任务或响应提示时，评估AI对各种工具(例如数据库，软件库或硬件设备)的集成和使用。这包括测试AI利用这些工具来提高预期结果:人工智能成功地集成和利用了各种工具，在其响应和行动中展示了增强的性能和能5.5.7过度的机构测试基于场景的测试:开发广泛的测试一下场景，涵盖各种决策情况，包括边缘案例和潜在的道德对抗性测试:采用模糊测试，输入操作和故意尝试“破坏”系统等技术，以识别AI代理决策过程模拟测试:创建真实环境的详细模拟，以测试一下AI代理在现实条件下的决策能力。监视代理访问控制测试:实施并彻底测试一下访问控制机制，以确保只有授权用户才能与AI代理的决策过程进行交互或修改AI代理的决策过程。这包括测试正确的身份验证，授权和审核止未经授权的访问或篡改。基于最小特权原则，只给人工智能代理有限的系统和数据访问权限是至关重要的。这意味着授予代理执行其预期功能所需的最低访问级别，仅此而已。通过限制代理对敏感信息和关键系统的访问，我们可以减轻与受损或故障AI代理相关的潜在风险格测试此有限访问方法，以确保代理不会超出其预期权限或获得对受保护资源的未经授权的访问权限。应定期进行审核和审查，以验证访问控制是否仍然有效，并且随着AI代理Human-in-the-loop测试:让人类专家参与测试过程，对AI代理的决策提供监督、指导和反馈。这种协作有助于确保代理的行为与人类的判断保持一致，并且可持续监控和评估:实施机制，持续监控和评估部署后AI代理的决策过程。根据既定的指标、基人工智能应用中“微调”的测试规范，侧重于数据隐私检查、基础模型选择、模型部署和训练5.6.1数据隐私检查测试为了确保用于微调AI模型的数据严格遵守隐私和数据保护法规，确保道德采购和适当的匿名要求:用于微调的数据应确保尊重隐私并符合相关的数据保护法规。在微调的背景下，对数据收集、处理和存储实践进行全面审查。这包括验证遵守隐私法(如GDPR或HIPAA)，确保在需要时对检查差异隐私(DP)是否用于训练数据隐私:DP是一种在共享有关一组个人的信息时提供隐私的方法，方法是描述组内的模式，同时保留有关特定个人的信息。它是通过对不改变感兴趣的统计数据的单个数据进行任意小的更改来完成的。因此，数据不能用来推断任何个人。如果使/nistpubs/SpecialPublications/NIST.SP.800-226.Ipd.pdf预期结果:微调过程中使用的数据完全符合隐私法规，经过适当的匿名或假名处理，并符合道5.6.2用于微调的基本模型选择测试为了确定所选的基础模型与特定应用和微调要求最佳匹配，如文档第5.1节所述，确保其性能要求:针对特定应用和微调过程，确认所选的基础模型是最合适的。另请参阅本文档中的5.1方法:对基础模型的性能、对目标领域的适用性以及有效整合新数据的能力进行评估。这可以包括针对特定性能指标对模型进行基准测试，并评估其对微调期间引预期结果:选定的基本模型展示了与微调目标的高度兼容性，显示了调优后的显著性能改进和5.6.3用于微调的基本模型存储测试要求:使用适当的访问权限确认任何经过微调的模型都已正确存储。使用正确的模型卡适当地方法:基于模型被微调的数据来评估微调的模型访问。确保对模型的特定敏感度没有权限的用户在使用较高敏感度数据对模型进行微调后无法访问该模型。检查模型卡是否具有正确的模型预期结果:选定的基本模型展示了与微调目标的高度兼容性，显示了调优后的显著性能改进和5.6.4训练数据中毒测试为了确保训练数据的完整性，检测并防止篡改、偏差或损坏方法:检查训练数据的完整性，寻找篡改的迹象，插入偏见，或其他形式的腐败。预期结果:保证训练数据无篡改和偏差，保证模型的完整性和无偏性。5.6.5微调后的模型部署测试要求:确保微调后的模型在生产环境中有效且安全地执行，并且不会暴露机密，敏感或专有数方法:在微调后测试一下部署的模型的性能、可伸缩性和安全性，并适当控制可能诱使模型暴露机密、敏感或专有数据的输入请求。这涉及评估模型的响应准确性，延迟，高负载场景的处预期结果:经过微调的模型在生产中保持高性能和准确性，在变化的负载下有效扩展，并针对AI应用程序中“响应处理”的测试规范，重点是基础或事实检查，相关性检查，毒性检查和道5.7.1接地或事实检查测试方法:进行测试以验证响应的事实准确性。这涉及将AI响应与可靠的数据源或已建立的事实进预期结果:人工智能始终提供事实准确和可验证的响应，展示了强大的现实基础。要求:为用户或其他系统建立和测试一下反馈系统，以报告AI生成内容的问题，促进持续改评估反馈机制在收集用户或系统报告问题方面的有效性。测试一下分评估AI应用程序对反馈的响应能力及其迭代增强5.7.2相关性检查测试方法:通过将AI响应与提示的上下文和内容进行比较来评估AI响应的相关性。这包括评估各种预期结果:AI的响应始终与提示相关，表5.7.3毒性检查测试方法:进行测试，以识别和测量AI响应中是否存在有毒或不恰当的语言。这可以涉及使用预定根据特定的下游AI应用程序，证明此要求可能需要大量资源或需要专业知识。因需要一系列方法来证明这一要求。例如，有公共资源和第三方公司可以帮助进行需求演示。什么是有毒的，令人反感的或不合适的是高度依赖于上下文的，并且会根据特定的下游操作环境而有所不同。评估人员应在测试过程中考预期结果:AI应用程序始终避免生成有毒或不适当的5.7.4道德检查测试确保AI的回应在道德上是合理的，没有有害的偏见或刻板印象，并且不认可不道德的做法，要求:确保AI的回应符合道德准则，不会助长有害的偏见或不道德的观点。方法:对人工智能对道德诚信的反应进行评估，检查偏见、刻板印象或促进不道德行为。这可根据特定的下游AI应用程序，证明此要求可能需要大量资源或需要专业知识。因证明这一要求。例如，有公共资源和第三方公司可以帮助进行需求演示。什么是不道德的是高度依赖于上下文的，并且会根据特定的下游AI应用程序和操作环境而有所不同。评预期结果:人工智能始终如一地提供没有有害偏见和刻板印象的响应，符合道德标准，不促进5.7.5不安全的输出处理测试要求:确保模型输出的安全处理，以防止被利用。5.7.6后门攻击测试要求:针对后门攻击测试一下AI系统的恢复能力，后门攻击涉及恶意训练的模型，这些模型在典型情况下表现正常，但在特定触发条件下表现评估旨在检测和减轻后门攻击的防御措施和AI系统展示了强大的抵御后门攻击的能力，即使在存在潜在触发的情况下也能保持预期的性该系统能够抵御后门攻击或从后门攻击中恢复，而不会损害整5.7.7隐私和版权合规性检查要求:AI系统的响应和输出符合相关隐私法规和版权法评估AI系统对用户数据和个人信息的处理，验证是否符合适用的隐私法规，如GDPR、CCPA测试一下AI系统通过匿名化或保护其响应和输出中的敏感信息来评估AI系统对知识产权的尊重，通过测试其适当地归因于内容的能力，避免抄袭，利用内容来源和真实性联盟(C2PA)标准来验证AI系统中使用的数据的来源，确保符合版权要该系统有效地匿名或保护敏感的用户信息，确人工智能系统尊重知识产权，正确归属内容，避免剽窃，并在其输出中使用受版权保护的材料系统的响应和输出不受侵犯隐私和侵犯版权的影响，从而降低了部署A人工智能系统展示了适应隐私法规和知识产权法更C2PA标准已成功实施，以验证AI系统中使用的数据的来源，从而实现正确5.7.8正常处理未知或不支持的查询要求:AI系统能够优雅地处理未知、不支持或不相关的人工智能系统优雅地处理未知、不支持或不相关的查询，该系统向用户提供清晰且信息丰富的反馈，建议替代查询，5.8AI应用程序运行时安全5.8.1数据保护测试要求:数据的完整性和保密性。术(PET)时，至关重要的是验证PET技术是否正确实现并按预期运行。PET实现的正确验证有助于确保正在处理的数据的机密性和完整性以及隐私保护技术的有效性。如果没有彻底的验证，PET解决方案可能无法提供预期的保护级别，从而有可能将敏感数据或计算暴露给未经授预期结果:静态和传输中的数据完全加密，访问控制可有效防止未经授权的访问，监控系统可5.8.2模型安全测试使用以下测试规范保护经过微调的AI模型免受对抗性攻击要求:在AI模型中实现水印技术，以在模型中嵌入唯一标识符。此标识符应有助于识别模型复方法:通过尝试复制模型并验证是否可以提取嵌入的标识符来测试一下水印过程的有效性。此预期结果:通过水印成功识别模型所有权和来源，阻止了未经授权的复制。模型性能下降(如方法:对用户身份验证过程、基于角色的访问控制进行测试一下，并监控访问日志中是否存在预期结果:访问控制强大，确保只有授权用户才能访问模型，并及时检测和阻止未经授权的尝方法:通过全面测试来验证API端点的安全性，包括通过速率限制来防止大量下载或抓取模型要求:使用代码/参数混淆和加密技术，使模型不易理解，更难复制。方法:对可能允许未经授权访问或下载模型要求:使用入侵检测系统和异常监控工具，以识别可能表明模型盗窃企图的可疑活动。方法:通过模拟入侵尝试并监视警报来测预期结果:可及早发现可疑活动，以便及时应对潜在的安全威胁。要求:对版权、专利和商业秘密等法律保护的遵守情况进行审查和测试一下，这些法律保护为方法:进行法律和合规性检查，以确保遵守知识产权、数据保护法律和任何应用程序AI合规性5.8.3基础设施安全测试方法:系统定期更新和打补丁，进行网络安全评估，评估硬件安全。经常进行漏洞扫描，以识别任何潜在的弱点或不必要的服务。利用强化验证技术来确预期结果:基础设施展示了强大的网络威胁防御能力，并且所有组件都具有最新的安全补丁。5.8.4API安全测试应用程序编程接口(api)必须经过严格的测试，以验证身份验证，授权，速率限制和输入清理方法:用于身份验证、授权、速率限制和输入验证的测试一下。预期结果:针对未经授权的访问和滥用，api表现出强大的弹性，保持数据完整性和系统稳定5.8.5合规性和审计跟踪测试遵守适用的法律和标准对于道德人工智能应用至关重要，需要持续的合规性验证和详细的审计预期结果:应用程序符合法律标准，审计跟踪可准确跟踪系统访问和更改。5.8.6实时监控和异常检测测试方法:从网络、操作系统和应用层实现和测试一下实时监控和异常检测系统。5.8.7配置和状态管理测试为了确保安全基础架构内SaaS应用程序、身份和数据的完整性，通过安全状态管理(SSPM)解决方案进行配置和状态管理测试至关重要。SSPM解决方案可帮助安全团队维护当前的监控和安全更新。通过建立安全基线，这些解决方案促进了对配置设置的监督，并提醒安全团队注意任何偏差，这对于管理配置漂移和识别其他与配置相关的漏洞至关重要。配置漂移-可能由于多种原因而发生的对系统的未经授权的更改-对系统完整性构成风险。手动姿势检查是麻烦且容易出错的。因此，采用具有集成AI和自动化的SSPM解决方案进行连续配置检查非常有益。这些先进的工具可以自动校正配置或发生偏要求:确保SSPM有效监控和维护SaaS应用程序、身份和数据的安全状态，并及时提供配置漂方法:使用AI驱动的自动化实施SSPM解决方案，以进行持续的配置验证和管理。定期评估这预期结果:SSPM解决方案应始终保持基线配置设置，自动检测和纠正配置漂移，并确保IT审核就绪。这些解决方案应提供对SaaS安全状况的全面衡量，并支持随着时间的推移进行风险报5.8.8事件响应计划测试必须建立全面的事件响应计划，并通过模拟事件进行测试，以便及时和有组织地解决安全事件要求:制定有效的事件响应计划。预期结果:快速有效地执行事件响应协议，最大限度地减少影响和恢复时间。5.8.9用户访问管理测试用于限制用户权限的精细访问控制和多因素身份验证系统提供了关键的防线，以防止对AI应预期结果:适当限制访问，并且身份验证机制可靠地防止未经授权的访问。5.8.10依赖项和第三方组件安全测试进行细致的验证，并且还需要定期进行依赖预期结果:所有依赖项均来自受信任的来源，并且没有已知漏洞，并且依赖项检查是一个连续5.8.11强大的测试和验证在人工智能应用程序上模拟复杂的网络攻击，如渗透测试、漏洞扫描和道德黑客攻击，对于揭要求:识别和缓解潜在的安全漏洞。预期结果:针对真实世界的攻击，AI应用程序具有强大的防御能力，并且可以及时识别和解决5.8.12可用性测试为了确保在强烈需求下的可用性和可靠性，人工智能系统必须在推动基础设施负载限制的模拟方法:将模型应用于高负载场景，以评估其性能以及在不中断服务的情况下处理高流量的能5.8.13侦察防护测试保护人工智能应用程序的敏感细节免受外部发现是当务之急。审计和模拟攻击对于发现和解决要求:在运行期间进行模拟和审核，以识别外部实体可能用于收集有关AI应用程序的敏感信息预期结果:识别与信息泄露相关的漏洞，并确认AI应用程序的防御侦察能力。5.8.14持久性缓解测试:为了防止攻击者获得和维护秘密访问以利用人工智能系统，严格的安全测试和补救措施必须不要求:定期扫描并消除可能允许攻击者在运行时保持对A5.8.15权限提升防御测试:防止人工智能系统在运行时未经授权的用户权限提升对于维护访问控制5.8.16防御规避检测测试:为了维护强大的安全标准，人工智能系统必须能够可靠地检测和应对在实时操作期间绕过或禁要求:系统在运行时检测和响应逃避现有安5.8.17发现电阻测试:保护人工智能系统的专有细节和敏感功能需要进行严格的测试，以验证在实时操作期间防止未预期结果:在运行时验证内部系统详细信息是否5.8.18收集保障测试:对保障措施的严格评估必须确认人工智能系统可以防止在实时操作期间未经授权的数据收集和方法:数据收集测试一下保护措施，并评估数据处理实践。预期结果:确保数据收集受到控制，并在运行期间防止未经授权的访问或泄漏。5.9附加测试规范5.9.1供应链漏洞测试要求:对应用供应链中使用的所有第三方组件、库和依赖项进行评估，以识别漏洞或安全弱利用自动漏洞扫描工具来识别供应链中第三方对供应链中的第三方代码执行手动代码审查和分析，以发现自动化工具可能无法检测到的安全预期结果:详细介绍供应链中第三方组件的漏洞和安全弱点的综合报告，以及缓解建议。要求:全面执行软件物料清单分析，以加强安全措施。这需要对集成到供应链中的第三方代码方法:针对供应链中使用的第三方代码，审查来自第三方的静态和动态代码评估结果，并进行SBOM分析，以进行漏洞审查、第三方依赖关系、软件综合分析(SCA)和许可证审查。利用静态代码分析工具自动检测指示第三方代码中的安全漏洞的代码模式。如果发现漏洞，应进行后续SCA和修复后的漏洞评估，以验证已发现的问题预期结果:重点介绍供应链中使用的第三方代码中存在的安全漏洞，以及如何纠正这些问题的要求:在运行时使用动态测试技术来评估供应链中与第测试一下供应链集成中的输入验证问题、访问控制问题和预期结果:在运行时检测到供应链集成中的安全漏要求:利用软件组成分析工具来识别和跟踪供应链中使用的开源组件。根据已知漏洞数据库检查清单，以识别供应链中预期结果:供应链中开源组件的完整清单以要求:进行威胁建模练习，以识别特定于LLM应用程序供应链预期结果:提供对与第三方代码相关的供应链特定安全风险的清晰理解的威胁模型以及解决这些要求:在供应链中验证从供应商或第三方来源收到的软件组实施安全更新机制，如数字签名或校验和，以确保供应链中的第三方组件和更新在传输过验证供应商和第三方来源的身份和安全实践，以预期结果:对第三方组件的真实性和完整性充满信心，并从供应链中的供应商或第三方来源收要求:评估与外部系统和服务集成的安全性，强调LLM应用程序与供应链中第三方实体之间的验证与供应链内第三方实体交换的数据是否预期结果:与供应链中的外部系统和第三方实体进行安全集成，防止数据泄露和未经授权的访要求:开源AI应用程序中的社区信任方法:为开源AI应用程序建立透明和积极的社区审查流程。鼓

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生成式AI应用程序安全测试和验证标准2024

文档简介

温馨提示

最新文档

评论

生成式AI应用程序安全测试和验证标准2024

文档简介

温馨提示

最新文档

评论

相关文档