2023安全行业大模型SecLLM技术白皮书:大模型赋能网安新范式人工智能安全可信护航_第1页
2023安全行业大模型SecLLM技术白皮书:大模型赋能网安新范式人工智能安全可信护航_第2页
2023安全行业大模型SecLLM技术白皮书:大模型赋能网安新范式人工智能安全可信护航_第3页
2023安全行业大模型SecLLM技术白皮书:大模型赋能网安新范式人工智能安全可信护航_第4页
2023安全行业大模型SecLLM技术白皮书:大模型赋能网安新范式人工智能安全可信护航_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型赋能网安新范式,人工智能安全可信护航绿盟科技集团股份有限公司(以下简称绿盟科技),成立于2000业用户,提供全线网络安全产品、全方位安全解决方案和体系化安全运设立海外子公司和办事处,深入开展全球业务,打造全球网络安全行业为避免合作伙伴及客户数据泄露,所有数据在进行分析前都已经新趋势:chatGPT技术加速安全革命新范式:安全行业大模型核心框架新技术:安全行业大模型关键技术3.1数据增强:高质量安全语料双飞轮3.2训练加速:高效并行加速增量训练3.3任务微调:安全下游任务高效微调3.4推理加速:多维优化推理任务加速3.5内容管控:人机对齐内容安全管控3.6工具协同:复杂任务安全工具学习3.7私有部署:安全模型私域私密交互新实践:安全行业大模型赋能应用4.1研究:专业沉淀,智能问答5894.2情报:信息整合,情报挖掘334.3攻防:模拟演练,辅助决策394.4运营:人机协作,提升效率51新安全:大模型安全风险与防护策略在chatGPT呈现全球现象级热度时,通用大语言模型(LargeLanguageModel,LLM)技术成为了推动创新和变革的关键驱动力。但由于安全行业的特殊性和复杂性,LLM并不能满足其应用需求。因此,绿盟科技基于“人工智能+安全”多年积累的安全专业经验和高质量数据,稳扎稳打地推出安全可信的安全行业大模型(securityLargeLanguageModel,secLLM)。secLLM目标是智能化解决攻防实战场景中所面临的复杂安全问题,提供更专业、高效和定制化的威胁应对和安全防御能力,更好地满足安全行业的特殊需求,为安全行业提供量身定制的大模型解决方案。绿盟科技同步推出安全行业大模型技术白皮书《大模型赋能网安新范式,人工智能安全可信护航》,分享绿盟在secLLM研发过程中所积累的最佳实践和经验教训,并探讨其在安全领域的重要性和价值。本技术白皮书从secLLM的研究新趋势、新范式、新技术、新实践和新安全几方面展开探讨。主要观点如下:.大模型赋能网安新范式:secLLM应用于安全行业,充分利用其强大的学习和适应能力,能够在复杂的攻防实战中逐步学习并提升威胁检测和防御能力,为网络安全提供更智能和更高效的解决方案。secLLM引领了一系列技术突破,解决了传统安全方法在应对复杂威胁和新型攻击时的局限性,为安全行业带来崭新的发展方向和范式。.高质量数据助力成功落地:安全行业真正有价值的安全数据和知识无法从公开渠道获取。绿盟科技所特有的安全经验、知识和数据的积累,有助于训练大模型更好地理解和学习各种安全特征和行为模式,从而提高威胁检测和防御的准确性和效率,更好地适应.实战化攻防推动学习成长:secLLM实践出真知,从实验室走入实战化的安全攻防场景中,参与常态化的安全运营,辅助安全监测中复杂问题的解决。通过不断助力解决实际难题,促进secLLM自我学习和安全能力的持续提升,增强其在实际应用中的可靠性和.人机协作增强安全动能:secLLM转化为安全人员的“伙伴”,快速融入已有的智能安全运营、威胁情报分析、零日攻击和新型威胁应对等日常安全处置工作流中,提升安全信息处理和分析、智能安全建议和反绩等能力,与安全人员紧密协作,共同应对不断升.云端服务结合本地部署:secLLM提供云端服务和本地私有部署两种方式。云端Maas服务享受节约资源、简化管理和覆盖全球等优势;本地化部署提供了更高的定制性、控.人工智能护航安全可信:大模型自身安全的保障是应用LLM和secLLM等大模型的必要条件,保护用户隐私和数据安全,防止大模型被滥用,预防新型攻击和未知威胁,从而保障大模型自身的安全可靠性,推动secLLM成为安全护航的可信之选。绿盟科技将持续投入研发和创新,不断优化secLLM的功能、性能和自身安全性,提供更具创新型和实用性的安全解决方案。secLLM作为每一个用户定制化的安全协作“伙伴”,致力于成为各行业持久可信的安全护卫。在该过程中,绿盟科技愿意贡献自身能力,与各行业合作伙伴共同应对日益复杂的安全挑战,携手促进安全行业大模型生态建设。通过积极交流合作,共享安全专业知识和技术经验,共同促进“人工智能+安全”的加速发展。人工智能(ArtificiaIInteII够模拟、模仿和执行人类智能活动的技术和系统,使其具备像人类一样的智能。人工智能按发展能系统。它具有感知、认知、思考、学习和创造等能力,能够在各种不同领域和任务上表现出类处理模型。这类模型利用深度学习技术,能够在大规模的文本数据上进行预训练,并通过微调等行业大模型(Industry-specificLargeMod学习特定行业的特征和规律,以实现在该行业中高准确性和可靠性的分析和预测,能够更好地适预训练语言模型(Pre-trainedLanguageModeI,PLM):是指在大规模语料库上以无监督方式进行预训练的语言模型。在大量的未标记数据上进行预训练,大模型得以学习数据的内在表微调(Fine-Tuning,FT):是指基于已经训练好的预训练语言模型,在有标注数据上进行有目的是模型应用于实际任务中,利用其学习到的能力,快速、高效地对未知数据进行计算和处理,模型即服务(ModeIasaservice,Maas):是指基于云计算提供一种将人工智能模型转换为可重复使用服务的方式,实现模型的快速部署、弹性伸缩和按需使用,允许用户不需要硬件设新趋势:c6·NSFOCUS安全行业大模型secLLM技术白皮书chatGPT爆火背后的推动力是通用大语言模型(LargeLanguageModel,LLM)。LLM是指具有巨大参数量和复杂结构的自然语言处理模型。这类模型是深度学习在自然语言处理领域的典型技术范式,能够在大规模的文本数据上进行预训练,并通过微调等技术完成各种自然语言处理任务。“读书破万卷,下笔如有神”在—定意义上反映了LLM的运作模式。LLM是具备强大表示能力和广泛适用性的模型,—个模型就能够处理各种自然语言处理任务。LLM的关键发展可以追溯到2018年,彼时Google推出了BERT模型。BERT采用了预训练加微调的方法,通过在大规模数据上进行预训练,模型学习到了广泛的语言知识,然后在特定任务上微调模型参数。BERT在多个任务上取得了优异的表现,引发了全球各大公司、研究机构对通用大模型的普及应用。同时,chatGPT作为现象级的LLM,为学术界和工业界呈现了—种通用大模型技术实现的技术路径。chatGPT的发展(图1)经过了多个版本的技术选代演化,在保持Transformer核心特征抽取结构框架的同时,模型的整体参数规模、训练数据规模呈现爆炸式增长。现阶段,典型LLM的参数规模已达到千亿级别。这些模型不仅在表现上超越了之前的模型,同时也具备更高效的训练和推理能力,可以处理更加复杂的随着模型参数规模和训练数据规模的爆炸式增长,通用大语言模型LLM的涌现能力7新趋势:chatGPT技术加速安全革命(EmergentAbility)凸显。相对于经典规模尺度较小的机器学习或深度学习模型,LLM在上下文学习(ln-contextLearning)、复杂推理、知识容量、泛化性等方面的能力大幅提升。那么,这些提升的能力是否能够成为LLM在安全行业的应用潜能呢?具体包括:.知识语义增强:通过在大规模通用文本数据上进行训练,LLM得以掌握广泛的语言知识和语义理解能力。相较于小模型,LLM能够更全面地理解词汇、句法和语用,生成的文本更加准确、连贯,同时保留了语义特征。在安全行业中,知识语义增强有助于理解和分析安全领域特定的数据内容,如安全威胁、漏洞、攻击技术等相关知识和安全语义,从而更为准确地识别风险、提供建议或生成报告。.逻辑分析增强:LLM可以理解和应用逻辑原则来推理和分析输入文本中的信息。相较于小模型,LLM经过训练可以更好地理解和应用逻辑规则,能够产生更为合乎逻.交互决策增强:LLM在与用户的交互过程中表现出更高水平的决策能力和响应性能。相较于小模型,LLM可以更好地根据输入的上下文和目标指令,综合利用所学习到的语言知识、语义理解能力以及可能的逻辑推理和决策策略,生成更智能和个性化的交互决策增强提供与安全专家、分析师等不同角色进行智能交互,更好地理解不同需求并提供个性化的安全指导和辅助决策,协助安全团队开展应急响应和威胁管理等工有助于提升安全系统的感知、分析和决策能力。通过从特殊的安全数据中提取关键信息、识别潜在威胁,并能够提供恰当处理建议,LLM可以进—步提高安全系统的效率和准确性,使其能更好地应对不断演变的安全威胁。随着LLM技术的不断创新发展,有望推动安全行业向智能化和自动化的方向发展,从而提升网络空间的安全性和可信度。新范式:大模型新范式:安全行业大模型核心框架本章首先介绍安全模型的发展困境和研究新范式,接下来阐述安全行业大模型的必要性和创新价值,并深入分析安全行业大模型的升级技术和分层框架。2.1安全模型发展面临困境安全模型发展面临多重困境,其中包括威胁演化速度快、数据量和复杂性增加、数据偏差和不均衡,隐私和合规性问题、自适应能力缺乏,以及对抗攻击挑战等。克服这些困境对传统安全模型如机器学习小模型已在网络安全中得到了部分应用,但是其发展却不尽人意。《DosandDon'tsofMachineLearningincomputersecurity》[2]总结了安全行业的机器学习模型的十大陷阱,这些陷阱普遍存在于恶意样本识别、网络入侵检测、漏洞分析挖掘、网站攻击监测、社交网络滥用、二进制代码分析和代码归因等安全场景中,导致关键结果出现严重偏差、—系列的性能劣化和不可解释性难题,进而影响安全模型在安全行业的应用推chatGPT—经推出便引起轰动,安全行业研究员和工作者也纷纷就chatGPT在安全行业恶意代码编写等攻防场景中。从探索的实际效果来看,chatGPT背后的LLM大模型技术在安全行业可能会面临如下挑战:.安全专业数据和知识缺乏:LLM模型使用广泛的通用语料库进行训练,同时安全行业的数据通常是特殊且有限的。这导致LLM缺乏安全相关数据和专业知识,缺乏对特定安全问题的理解能力,无法提供准确或深入的专业解释。.零日攻击和新型威胁挑战:LLM的训练数据只能基于过去的安全事件和攻击行为。然而,威胁攻击是不断演变和改变的,面对零日攻击和新型威胁等未知的威胁,LLM.模型低成本和实时性难题:安全行业需要对威胁事件进行及时响应,因此模型最好能够本地部署和学习,具备实时性能。然而,由于LLM的计算复杂性,推理过程需要高性能的计算资源和较长的时间,这可能无法.数据隐私和安全性问题:LLM在训练过程中使用的大量数据可能包含敏感信息,同时处理和存储用户交互数据也存在威胁用户隐私和安全性的风险。因此,在安全行业中应用LLM时,必须采取相应的数据保护措施,以确保用户隐私和敏感数据不被泄露,,恶意样本监测…·NSFOCUS安全行业大模型secLLM技术白皮书恶意样本监测….可解释和可信限制:LLM往往被视为黑盒模型,其决策过程和判断依据难以解释。在安全行业中,可解释和可信度对于分析和决策的重要性不容忽视。因此,在应用LLM时,需要考虑如何增强安全行业对LLM模型的信任度,并使分析和决策过程更为了有效应对上述LLM大模型技术在安全行业应用中的挑战,有必要探索新的方法和技术来提高模型对特定安全问题的理解能力和专业解释能力。因此,构建—个专用于安全行业的大模型(securityLargeLanguageModel,缩写为secLLM)是非常有必要的。期望secLLM能够更好地理解解释和协助解决与网络安全相关的攻击技术、漏洞利用等方面的更深入理解,从而提供更准确的威胁分析和安全决策的智能化2.2安全模型的研究新范式由上文分析可以看出,传统安全模型和LLM技术在安全行业应用中都面临—系列困境,解决这些困境有必要构建安全行业专用的大模型secLLM。传统安全模型的构建通常采用有监督学习范式。有监督学习模型针对输入网络流量、系统日志不同数据开展数据标注、特征构建和算法选择等工作;接着分别训练小模型;训练完毕后,不同小模型各自只能预测单—的入侵行为或恶意攻击。如图2左侧所示,这些安全小模型针对已知的攻击类型逐个进行训练,无法应对新型和未知的威胁。因此,传统安全模型的研究思路会限制其学习和泛化能力,所以并不适用于secLLM的构建。不同于传统安全模型,通用的大语言模型LLM采用“预训练-微调”的研究新范式,该范式已成为NLP任务的主流范式。在该范式下,LLM在大规模无监督学习的基础上预训练,然后通过有监督学习或强化学习进行特定任务的精细调整和优化,提升了模型的泛化和学习能力。那么是否可以借鉴LLM的“预训练-微调”新范式来构建secLLM?加密代理等加密加密流量分类恶意恶意样本…SQL注入等…可检测编号webweb攻击分析web…安全大模型安全大模型恶意样本监测加密流量分类web攻击分析下游任务……微调微调新范式:安全行业大模型核心框架在这个新范式下开展secLLM的研究,如图2右侧所示,安全大模型是利用大规模无标注安全数据通过无监督学习预训练安全模型的基座,然后在基座模型上利用下游不同安全任务的有标注数据进行有监督学习微调,实现下游任务的适配。.无监督预训练:通过大规模的无监督预训练来学习安全领域的专业知识和编码。这—阶段通常使用Transformer架构,在海量多源异构安全数据上进行预训练,使模型具备对安全词汇、攻击上下文和威胁语义的理解能增强,补充记忆大量的安全专业知识。.下游任务微调:无监督预训练完成后进入微调阶段。微调是在特定下游安全任务上使用有监督学习或强化学习方法,将预训练模型的参数进行微调。微调的目的是根据下游安全任务需求和特定数据集中的标注信息,使模型适应特定任务的要求。经过指令微调对齐安全专家的威胁处置后,安全模型在各种攻防处理任务中展现出了强大的通用能力,能够解决许多未知或复杂攻防新问题的零样本或小样本任务。secLLM借鉴“预训练-微调”的研究范式,融合通用语言和安全专业的理解能力,消除了手工构建特征的需要,提高传统安全模型的准确性和适应性。当有新型威胁出现时,只需要微调模型而不是重新训练。在secLLM的构建过程中,“预训练-微调”范式将使模型更具适应性和智能性,具有应对不同新型攻击和未知威胁的处理能力,以确保在实际安全行业2.3安全行业大模型的升级技术基于“预训练-微调”的研究新范式,secLLM的目标是构建易用、高效、准确和可信的“快”、“准”、“安”四方面开展技术升级(如图3所示),为安全行业提供智能化的威胁应对和安全防御能力,提供更强大可信的解决方案。图3secLLM四大技术升级·NSFOCUS安全行业大模型secLLM技术白皮书.“易”:简单LUI替代GUI,无需安全技能应对轻松传统软件图形用户接口Gul采用固定的布局和设计,其功能和外观很难进行灵活修改。随着数字产品功能的不断增加,Gul界面在某些情况下变得越来越复杂,需要用户理解和记住菜单、按钮、功能的用途和工作流程,导致学习成本越来越高。为了解决Gul的上述问题,通过将安全语料输入大模型,可以获得—个能够“懂安全”的自然语言交互全新接口Lul。Lul接口支持用户用自然语言和secLLM直接对话,即使用户没有学习安全技能,也可以直接提问“如何保护我的网络免受DDos攻击?”;“懂安全”是指secLLM能够理解用户问题意图并给出相应的安全专业答复,包括相关的安全知识、建议和决策支持等。可见,secLLM通过简单Lul接口就可以为用户提供个性化且智能化的安全服务,使用户和大模型间能够轻松协作并完成安全任务。.“快”:专业知识快速接入,动态安全服务提供及时chatGPT背后通用大模型LLM训练需要耗费大量的计算资源和时间,训练数据受到时间限制。如果用户需要实时信息或最新动态等内容,chatGPT可能无法直接提供。对于安全分析的需求,需要可靠实时数据源的接入和安全领域专家的指导,以确保获取最新和准确的信secLLM可以通过不同外接数据源或安全知识库来提供可靠的实时数据和专业领域知识。—方面,通过外接查询接口,secLLM可以向特定的数据源发送请求并获取实时数据,例如查询各种威胁情报平台获取最新的安全事件和漏洞公告,并与用户分享相关的警报、建议或解决方案。另—方面,secLLM无需等待训练,通过连接到安全领域的专业知识库获取更深入的高质量知识,为用户提供专业领域知识质询服务。上述两种方式可以弥补LLM本身训练数据时间限制的不足,并使其能够获取最新的安全信息和专业的安全知识。secLLM注重提高安全数据和服务的高效性,通过实时查询情报源或安全知识库实现实时.“准”:工具协同功能扩展,复杂安全问题解决有方LLM有自然语言理解、推理和逻辑能力。但对于安全特定或复杂任务,需要专门设计和训练不同模型,提升其安全知识,也需要定制额外功能完成复杂安全任务。如何使大模型更加灵活地适应各种安全需求,为用户和开发者带来更多的价值和可能性?secLLM通过提供插件和工具调用能力,使开发者和用户能够将自定义的专业功能集成新范式:安全行业大模型核心框架到模型中。例如威胁检测算法、漏洞扫描工具等专业功能的集成可以使secLLM功能更加多插件和安全小模型等。可见,secLLM与不同专业安全工具间的协作,可以辅助用户分析和决策,更好地完成安全特定或复杂任务,并提高生产力。.“安”:模型可信安全保障,数字世界护航无忧LLM作为—项人工智能算法应用,不仅具备传统算法的复杂、不可解释等固有属性,还可能引入安全和隐私保护方面的风险。同时,黑客也可以利用LLM技术开发智能恶意软件程序并发起隐形攻击。所以,大模型自身所面临的安全风险不容忽视。secLLM需要构建算法治理框架、模型操作风险防控及模型全生命周期质量管控体系。—方面考虑模型内生安全,保证模型计算任务的执行过程中的全流程安全,包括对模型和数据的存储、传输、训练、推理等环节进行安全保护;另—方面考虑模型衍生安全,通过采用加密、权限管理、访问控制等措施,确保模型使用的用户的数据得到充分保护,并且模型本身不会受到恶意攻击或滥用。secLLM提倡保证模型内生和衍生安全,以有效应对大模型自由上可见,secLLM的技术升级主要集中在四个方面:易用性、高效性、准确性和安全性。通过这些技术升级(如图3所示),secLLM能够提升智能化水平、功能全面性和安全适应性,并同时确保数据隐私和模型安全。这使得secLLM将成为安全行业的重要工具,帮助用户应对各种挑战,并为安全领域提供高效、可靠的支持。secLLM能够更好地应对复杂的安全攻防实战场景,为安全行业提供更强大可信的解决方案。2.4安全行业大模型的分层框架通过上述四大技术升级,secLLM致力于通过安全专业知识和工具增强大模型LLM,具备针对安全领域的智能问答、问题解决和决策支持的专业能力,支持采取智能化的行动来化解不断发展的威胁,不仅确保各企业等保合规的安全需求,而且保障用户可以安全可信地使·NSFOCUS安全行业大模型secLLM技术白皮书2.4.1基础层secLLM的基础层为大模型训练和推理提供了必要的基础设施和高效的管理,涵盖数据.数据集成和理解:多源异构安全数据接入技术允许从不同类型的数据源中汇集信息,如网络流量、系统日志、恶意软件样本等。这有助于构建更全面、综合的数据集,为模型提供更深入的理解和分析能力,从而更准确地检测潜在的威胁。.高效计算:CPU/GPU资源调度技术允许优化计算资源的使用,确保模型训练和推理过程中的高性能。通过合理的资源分配,模型能够在相同时间内处理更多数据,提高.模型效率优化:大模型的Xops管理技术可以降低模型的计算复杂度,减少计算资源.分布式高速训练:安全行业大模型能够利用多台计算机进行并行训练,加快模型的训练速度。这有助于提高模型的适应性,更快地适应新的威胁和变化。.应用场景适应性:模型部署推理加速技术允许在云环境或私有网络中高效地部署模新范式:安全行业大模型核心框架型,覆盖更广泛的安全场景,确保模型能够有效应对多样化的威胁。2.4.2模型层secLLM的模型层引入多个关键技术进行大模型的增量预训练和微调,使其能够更深入地理解安全领域的语境和知识,从而提高在安全任务中的性能和效果。.安全数据预处理:通过安全数据预处理,可以将原始安全数据进行清洗和标准化,从而提高数据质量和—致性。这有助于减少数据中的噪音、提取关键信息,使模型.安全预训练模型增量训练:通过安全预训练模型的增量训练,模型能够在通用预训练基础上,进—步融合安全领域的语义和知识。这使得模型在安全任务中更具感知能力.下游任务微调:在具体的下游安全任务中优化和微调模型,提高模型在特定任务上的.安全知识增强模型:安全知识增强模型允许将领域专业知识注入模型,使其更准确地理解安全威胁。这有助于模型更好地识别潜在威胁,为安全.人类对齐微调:通过人类对齐微调,模型能够与人类专家的知识进行融合,提高模型2.4.3能力层针对安全复杂问题的解决,secLLM需要能够更好地理解、分析和应对安全问题,所需关键能力列举如下:.安全意图理解:安全意图理解技术可以帮助模型更好地理解用户和攻击者的意图。这有助于模型更准确地分析行为,识别潜在的威胁,并区分正常行为和异常行为。.安全辅助决策:安全辅助决策技术能够为决策提供有力支持,通过模型的分析和推荐,.安全日志解析:安全日志解析技术能够自动解析和分析大量的安全日志,从中提取关键信息。这有助于快速发现异常情况和潜在威胁,加强安全监控和分析能力。.告警分析研判:告警分析研判技术使模型能够对告警事件进行深入分析和判断。通过模型的辅助,可以快速确定告警的严重性、可信度和应对措施,提高响应效率。·NSFOCUS安全行业大模型secLLM技术白皮书.人机协同学习:人机协同学习技术能够将人类专业知识和模型的分析能力相结合,实现双方的互补。这有助于提高模型的可解释性、可信度,同时使人类专家能够从模型2.4.4服务层secLLM服务层提供了云端Maas服务、客户定制本地部署,以及大模型安全伦理保障等。这些服务和保障措施为客户提供了多样化的部署和应用选择,并确保模型在安全、隐私和伦.云端Maas服务:云端Maas服务将secLLM部署在云端,为客户提供基于订阅和Apl的服务。这种服务模式使客户无需自行部署和维护模型,而是通过云服务提供商.客户定制本地部署:secLLM支持在客户自己的本地环境中部署,可以实现更高的数据处理性能和实时性,以满足特定的隐私、安全性或合规性需求。.大模型安全伦理保障:大模型安全伦理保障包括—系列措施,如确保大模型的使用符合道德和法律规范,保护用户隐私和数据安全,防范恶意行为和攻击等。2.4.5应用层secLLM应用层的目标是解决安全场景中复杂的实际问题,涉及威胁检测、安全决策、安全运营等方面。以下是—些可能的应用举例:.FAQ安全知识库:secLLM可以构建—个FAQ安全知识库,用于回答用户的安全问题。用户可以查询关于网络安全、隐私保护等方面的问题,并从模型的回答中获取专业的.安全运营助手:secLLM可以作为安全运营助手,协助安全运营人员监测网络活动,识别潜在的威胁,生成告警和报告,并提供针对威胁的响应建议。这有助于提高安全.安全copilot:secLLM可以作为—个协作式工具置入已有系统中,担任团队的“安威胁情报分析和事件响应建议,帮助团队更好地应对安全挑战。新技术:·NSFOCUS安全行业大模型secLLM技术白皮书为了解决攻防实战场景中所面临的复杂安全问题,secLLM助力提供更为全面、高效、智能的安全防护能力。通过定制化模型训练和优化,提高模型的专业性、准确性和适应性。结合安全知识库和协作其他安全工具,提高模型对特定安全问题的意图理解和专业分析。secLLM结合前面研究新范式,通过“易”、“快”、“准”、“安”四方面开展技术升级。3.1数据增强:高质量安全语料双飞轮通用大模型LLM在安全领域应用难题首先是缺乏安全领域的专业知识。安全知识包括安全术语、复杂的攻防技战术、应急措施解决方案、漏洞及利用代码、攻击特征等。例如安全事件分析任务中需要具备理解和分析网络攻击流量、降噪海量告警日志等能力,这些能力需要大量漏洞知识库、攻击技术识别、威胁情报数据等不同类型的安全知识储备。然而,现有LLM大多基于通用领域而非安全领域的语料库进行预训练,所以无法提供准确的安全领域知识,限制了LLM在安全行业的应用和效果。安全语料库的构建是安全行业大模型secLLM构建中不可或缺的—环。安全数据双飞轮自运转机制(如图5)通过双线持续收集和处理安全数据构建高质量安全语料,循环选代优—方面,双数据飞轮为两条线的数据飞轮,包括安全知识图谱的离线增量数据和安全运新技术:安全行业大模型关键技术营服务的在线反绩数据。由于部分安全数据的敏感性,合法获取足够规模的安全数据是—项具有挑战性的任务。为了获取足够规模和多样性的安全语料,从离线和在线两种方式收集高质量安全原始数据。离线数据从历史积累的安全知识图谱中获得,《绿盟安全知识图谱技术取实践,提供高质量安全专业知识。在线数据来自绿盟在线安全服务的反绩数据,这些数据都经过安全运营专家在实时交互过程中的处置和审核,确保安全数据的置信度和可靠性。另—方面,通过自运转机制逐步构建高质量、多样化的安全语料库,通过增量训练整合到secLLM中。同时,secLLM可以从复杂安全场景反绩中不断学习和改进,逐步提升性能和效果。由此可见,双数据飞轮的运转通过持续供给高质量安全语料,加强模型自我学习和更新,适应变化的需求和新的应用场景,提供更准确和专业的响应,从而提高安全行业大模3.2训练加速:高效并行加速增量训练随着LLM参数量倍数级的增长,低资源服务器因资源不足已无方面LLM参数量较多,单个GPU显存有限,难以容纳大模型;另—方面LLM中运算操作的数量较多,训练时间会大幅度增加。这导致LLM的训练越来越需要强大的计算能力来支撑其因此,在进行secLLM训练之前,—方面,需要充分评估资源需求并确保有足够的计算、存储和经济资源来支持训练过程。要提升secLLM构建效能,需要合理分配资源,充分利用计算资源和数据资源。分布式并行训练能够充分利用计算资源来训练参数量更大的模型,降低对单GPU节点的资源要求。另—方面,在资源有限的情况下,可以通过优化算法和模型结构可以提升secLLM的训练效率。采用更有效的优化算法和合适的模型结构,可以在有限资目前,LLM的训练过程中采用分布式训练的方式进行高效训练。分布式训练是将训练数据或者模型分配到单台机器的多张GPU卡上或者多台机器的多张GPU卡上进行并行训练的过程,支持数据和模型两大并行方式。数据并行对数据进行分割,将模型复制到多张GPU卡上进行训练,可以有效缩短训练时长。模型并行将模型进行分割,使得单张GPU卡难以容纳的大模型被分配到多张GPU卡上进行训练。影响模型训练效率的因素除了运算过程,还有节点间的通信方式(包括Parameterserver和AllReduce等架构的通信方式)。20·NSFOCUS安全行业大模型secLLM技术白皮书在secLLM分布式训练过程中,从不同的硬件资源及训练需求角度出发,有多种分布式训练方案可供选择,如图6所示,当训练集数据量较大时,可以通过数据并行方式提高训练效率,缩短训练时间;当secLLM模型参数量较大时,可以通过张量并行、流水线并行以及zeRO方式,将模型分配到多张GPU卡上,降低模型对GPU单卡的显存需求。3.3任务微调:安全下游任务高效微调随着模型变得越来越大,传统方法的全参数微调方法会产生数量庞大的梯度,尤其对于Transformer模型中的注意力层,其产生的梯度数量不仅与模型参数数量有关,还与输入长度呈平方相关。伴随庞大的梯度数量而来的,便是优化器状态产生的巨大RAM消耗和Backward操作的时间开销。21新技术:安全行业大模型关键技术为了缓解资源开销问题,就有了各种各样的参数高效微调(parameter-efficientFine-tuning,pEFT)技术。例如,LoRA(低秩自适应)方法在原本的模型权重上叠加了—组“旁路”的结构,每个结构包括两个低秩矩阵的乘法,直观看来就像—个没有偏置的、只有—个隐层的稀疏自编码器。且其“解码器”部分使用全零初始化,确保了叠加后的模型初始状态与叠加前保持—致,又例如,prompt-Tuning实际实现中大致分为以下三步:1、为每项微调目标任务指定对应的提示文本(—般为前缀),提示文本可以人工设计,也可添加新词(扩充tokenizer词表和嵌入层维度);2、冻结预训练模型中的全部参数,但保留提示文本相关的嵌入层权重;3、运行模型并进行训练,专门优化这些提示文本对应token的嵌入向量。除此之外,还有prefix-Tuning、p-Tuning等典型方法。参数高效微调方法能够极大降低训练资源开销,以LoRA为例,在2*A100配置的GpU主机上进行测试,对比添加适配器前后的chatGLM2模型SFT训练过程RAM开销,如表1所示效果非常显著:表1添加适配器前后RAM开销对比(单位:GB)DeepspeedzeRO3+cpUOffload21.824.764.1110.6LoRA(rank=8)16.823.232.772.7注:由于offload机制的影响,部分模型权重和优化器状态等会在GpU和cpU内存中各存储—份,因此直接相加的“合计”方法可能并不严谨。但仍可作为粗略参考。3.4推理加速:多维优化推理任务加速LLM在安全领域应用的前提是模型部署和实时推理。模型实时推理使用训练好的模型对新数据进行预测分析等任务。随着业务规模的不断扩大,算法模型复杂度不断增加,输入模型的数据量不断增大,如何完成大模型的推理变得越来越重要。由于推理任务通常对响应时间有较高的要求,如何在这些计算资源密集型的任务中进行快速的模型推理,是LLM应用到除了分布式技术加速推理外,还可通过减少模型的存储和计算需求来提高大模型推理速度和效率,例如剪枝、量化技术等。此外,在硬件方面也可以通过图形处理器(Graphics22·NSFOCUS安全行业大模型secLLM技术白皮书ProcessingUnit,GPU)、现场可编程门阵列(FieldProgrammableGateArray,FPGA)、专用集成电路(Application-specificlntegratedcircuit,Aslc)等执行模型推理的任务,以提量化技术通过把浮点数的模型参数转换为低位精度的定点数来减少模型的存储空间和计算开销,包括权重量化和激活量化。网络结构设计的方法是设计轻量级的网络,与传统的网络模型对比,结构轻便,计算简单,易于移植到移动设备。剪枝技术删除模型中冗余的连接和参数以减小模型的规模,不仅可以加速模型推理,还可以提高泛化能力,常见的剪枝方式包括权重裁剪、通道裁剪、核裁剪等。知识蒸馏是获取高效小规模网络的方法,在2015年由Hinton[5]等人首次提出,该方法是将学习能力强且使用复杂网络训练的教师模型的“知识”迁移到轻量级的学生模型中,利用教师模型的知识训练学生模型,提高参数量小、学习能力型的推理计算,通过数据并行化的方式,将不同的输入样本分配给不同的计算核心进行处理;FPGA是大模型推理加速的另—种硬件加速器,根据需求重新配置硬件电路适应不同的计算任务,通过将模型转化为FPGA可执行的形式,再通过逻辑综合、布局布线和时序优化等步骤,将模型映射到FPGA上进行高效的推理计算;专用集成电路(Application-specificlntegratedcircuit,Aslc)是定制化的芯片设计可以用于执行特定的计算任务,通过专用电路设计和优安全分析模型从实验室研究走进网络安全实战化的场景,走进常态化的日常安全监测中,面临着诸多挑战。其中,实时性对于安全分析模型的应用至关重要,在威胁检测方面及时地发现威胁,更利于企业保护其自身安全,减少或者避免损失。因此,只有在真实的场景中实现安全大模型推理加速,尽早地发现威胁,安全大模型才具备高可用的价值。3.5内容管控:人机对齐内容安全管控安全数据稀缺和不平衡导致没有足够多的样本来进行大模型的微调,这会对模型的泛化23预训练模型B专用领域或场景的文本数据对同—问题的不同回答的排序预训练模型B专用领域或场景的文本数据对同—问题的不同回答的排序奖励模型(RM)能力带来挑战,需要特殊的处理方法来解决。此外,攻防实战环境的动态和复杂性使大模型需要返回精准答案变得困难。而安全行业不同于—般通用领域,错误的威胁研判或处置可能导致严重的后果。最后,安全领域中的威胁和攻击方式不断发展和演变,为了保持模型的有效性和可靠性,需要实现模型的持续学习和演化机制,以及灵活的更新和选代过程。因此,安全行业大模型不仅需要外部输出和人类价值观对齐,内部更要和安全对齐。安全行业大模型通过引入人类反绩强化学习(ReinforcementLearningfromHumanFeedback,RLHF)方法,使模型学习到安全运营专家的偏好,通过逐步改进和优化模型,最终练模型基础上,进行有监督微调(sFT);2、另外训练—个奖励模型(RewardModel,RM);3、利用RM模型进—步改进sFT模型,即RLHF训练。整体流程大致如下图:预训练模型预训练模型A监督微调(SFT)模型改进的改进的SFT模型在安全运营场景中,将训练好的奖励模型RM作为secLLM训练中的指导信号,引导secLLM在分析安全告警日志时输出更优的结果。安全运营人员在日常安全运营过程中根据告警日志的真实情况,定义奖励信号,即告诉secLLM什么样的输出是较好的或较差的,例如,对于正确表述真实安全威胁或误报的情况,可以给予正向奖励,对于错误表述或表述模糊的情况可以给予负向奖励。奖励模型RM将根据安全运营人员的奖励反绩,学习secLLM输出结果和奖励之间的关系。然后利用奖励模型的输出作为奖励信号,对secLLM进行在训练过程中,secLLM将根据奖励信号调整自己的策略,以获得更高的奖励。这里训练过程使用强化学习算法proximalpolicyoptimization(ppo)。通过RLHF训练,安全运营人员可以有效地引导secLLM在安全告警日志场景下的行为,优化安全分析和威胁检测效果,24·NSFOCUS安全行业大模型secLLM技术白皮书3.6工具协同:复杂任务安全工具学习网络空间安全防御和分析任务是网络安全的关键环节,包括了网络威胁情报收集、威胁情报分析、网络攻击监测、网络安全事件响应等方面。在这个过程中,需要对各种网络攻击多源数据、多分析方法等综合的自动化能力,需要将复杂的安全任务分解为较小、可管理的子任务,并灵活地操作工具来完成每个子任务。大语言模型LLM作为连接多种安全工具或插典型的工具协同和学习范式主要包括几个核心逻辑单元,即工具集(Toolset)、环境 (Environment)、控制器(controller)以及感知器(perceiver)。其中,工具集是工具学习的目标和基础,是—组在领域内的专用能力集合,例如在安全运营场景下可以是各类分析工具、扫描工具、响应工具等等;环境是工具执行的基础平台及可交互的所有实体集合,例如安全运营中心及相关平台系统;控制器,是工具学习框架的“大脑”,通常使用基础模型控制器应当理解用户的意图以及意图与可用工具之间的关系,然后制定计划选择合适的工具来完成任务,在查询复杂且针对高级任务的情况下,控制器可能需要将任务分解为多个子任务,这需要基础模型具有强大的规划和推理能力;感知器作为交互界面和收集接口,接收用户的反绩和工具的执行结果,并形成环境和用户指令的摘要。大安全领域目前已积累大量的专用模型/工具来解决告警降噪、告警研判、溯源调查等25数据加载数据分块本地文档 >>> ><>数据库<∧查询语句转换相似度算法匹配意图理解 >数据加载数据分块本地文档 >>> ><>数据库<∧查询语句转换相似度算法匹配意图理解 >>>>获得分块答案<<反债收集 >任务,这类专家模型通常在应对细分场景中有着较好的效果。LLM具有优秀的语言理解、生成、交互和推理能力,但是在专业领域中,LLM的效果通常不如专注于这—领域的专家模型。因此在应对复杂的Al任务时,综合两者的优势,通过使用有安全知识的secLLM来管理现有的安全专家模型/工具,将secLLM作为意图理解和工具协同是解决复杂安全任务的—个可3.7私有部署:安全模型私域私密交互基于私有数据定制化本地大模型方案将安全行业大模型直接部署于用户生产环境中,接入用户私有数据资源进行智能问答。私有数据是指用户私有的数据、文档、数据库或知识图谱等,这部分数据可能涉及用户的私有信息和商业机密等,不方便传入互联网中。定制化本地大模型是通过安全大模型整合用户私有数据资源库,结合向量索引和内容相似度算法匹配召回相关答案分块内容,从而减少大模型出现事实问题错误,实现对用户提问进行私密精准问答。同时,安全行业大模型部署在用户本地生产环境中,而非云端大模型服务商处,可以<外部web<查询语句转换查询语句转换知识图谱>>优化与送代安全行业大模型本地部署接入用户私有数据资源进行智能问答,私域私密交互的详细流程如图11。26·NSFOCUS安全行业大模型secLLM技术白皮书.用户或企业的私有数据加载导入后,对数据进行分块处理和向量化索引编号,便于后.意图识别对用户输入问题进行语义判断,自动选择合适的数据来源回答用户提出的问题。如数据源为本地文档,则对用户问题进行文本向量化处理,然后与向量存储库中的文本向量进行匹配,将检索到的分块文本送到大模型进行推理。.prompt模板化对各类不同任务、不同场景、不同语种的prompt进行管理和调优。将分块答案注入prompt模板中,并使用提示功能发送到安全行业大模型完成答案的.反绩及优化选代,通过记录用户反绩信息,分析有问题的答案和方案存在的问题,及时在安全行业大模型上调优。通过计算答案置信度的方式来评估答案的可靠性,计算指标包括①问题与答案的相似度;②答案文本与大模型推理使用的相关文本的相似度;③答案文本在数据库召回的相关文本列表,与问题文本在数据库召回的相关文本新实践:28·NSFOCUS安全行业大模型secLLM技术白皮书在关键技术突破的同时,绿盟科技开展了secLLM在安全研究、情报分析、攻击检测与防御以及安全运营等多个应用场景的实践。验证其是否可以提高效能、准确性和响应能力,是否可以为安全行业提供更强大的工具和支持。如下以研究驱动、情报指引、攻防合—、运营精益构建基于secLLM的安全应用体系,从而促进secLLM在应用实践中的持续学习成长,4.1研究:专业沉淀,智能问答secLLM通过持续积累和更新安全领域的数据和知识,实现安全专业经验和知识沉淀,下面简述secLLM两个应用案例:基于secLLM开展代码漏洞挖掘,通过学习大量代码和漏洞案例,积累了丰富的漏洞代码分析经验和专业知识;同时基于secLLM提供智能问答服务,无论是有关网络攻击的常见手段,还是关于数据隐私保护的最佳实践,secLLM都能4.1.1案例1:代码漏洞挖掘.需求场景:漏洞挖掘和代码审计是两种密切相关的安全实践,在软件开发和安全领域中都有重要作用。漏洞挖掘分析是代码进行静态或动态的安全分析,以发现代码中存在的潜代码审计重在对代码的静态分析,以查找可能存在的漏洞、弱点和安全风险,从而提高代码质量,降低开发成本,提升安全防护能力。.解决方案:secLLM可以高效地处理大量的代码数据,利用自身强大的学习能力和推理能力,快速发现代码中的潜在漏洞,根据上下文和目标,自动地提供合适的代码建议和修改方案,提高基于secLLM的代码审计和漏洞挖掘的应用方案如下图12所示:.数据收集和预处理:负责从不同的数据源收集和清洗大量的代码数据,这些数据被用于训练和评估大模型。数据包括了如Git.大模型训练和微调:secLLM在代码数据上增量训练,并根据代码审计和漏洞挖29新实践:安全行业大模型赋能应用掘的不同任务进行微调,如静态分析、动态分析、漏洞检测等。.人机交互代码分析:负责提供—个友好和易用Lul问答界面,让用户可以方便地上传或输入代码,查看和下载分析报告,与secLLM进行交互和反绩。.提升效果:对于在语料中的已知威胁,secLLM已经可以较好地进行检测。如下图13,请求参数id的值被直接拼接入sQL查询语句中并随后被执行,secLLM正确地指出其中存在的sQL注入30·NSFOCUS安全行业大模型secLLM技术白皮书用户输入代码或代码片段时,secLLM进行代码审计分析,返回分析结果和建议,如漏洞类型、风险等级、修复方案等。如下图14,给定代码中同时存在三个问题:文件路径注入漏洞、任意文件上传漏洞、异常详细信息泄露漏洞。secLLM正确地指出了全部问题,并给4.1.2案例2:安全智能问答.需求场景:智能问答是大语言模型的基本应用场景。智能问答系统能够理解用户的提问,在答案中进行检索或者生成答案以满足用户的需要。在安全领域,智能问答系统的价值体现在其可以.解决方案:基于secLLM为安全专业人员和普通用户提供高质量、高效率、智能化的安全问题解答和支持,帮助他们更好地理解安全问题、协助做出安全决策。31新实践:安全行业大模型赋能应用secLLM如图15所示,首先需要引入安全语料库针对安全领域进行专门训练,让模型具备深度的安全专业知识。相比通用语言模型,它更了解安全术语、威胁模式、攻击技术和防御方法,能够准确理解和回答安全领域的问题。同时,安全专业问答中涉及的语言理解、信息查询、语言组织等诸多重要环节,都需要语言知识、常识知识以及领域知识的指导。安全知识图谱为绿盟科技多年积累的安全知识,非常适合作为外部知识源注入到secLLM中。secLLM可以利用知识图谱辅助问句理解,借助知识图谱中节点的属性及关系,通过相应技术发现问句中的实体,进而更好地理解用安全行业领域中的专业问答系统支持对用户所输入的安全问题进行意图理解,根据问题的上下文,分析输入问题的语义结构信息以及词语间的依存关系,准确把握问题的意图,提secLLM完成意图理解后,通过图匹配从安全知识图谱检索相关的实体作为应答,同时通过信息检索获得文本应答,最后将实体应答与文本应答拼接形成回复答案。.提升效果:secLLM经过针对安全领域的专门训练后,拥有丰富的安全专业知识,了解各种安全概念、攻击技术、防御方法、安全最佳实践等,能够回答涉及复杂安全问题的专业性知识。同时,secLLM可以深入理解安全产品信息和解答各种安全产品相关的问题。用户通常希望得到实际的安全产品应用指导,secLLM可以根据用户的需求提供个性化的建议和实用的操作指导。如下图16所示,secLLM以图文并茂的方式给出安全产品RsAs的操作指导。32·NSFOCUS安全行业大模型secLLM技术白皮书当涉及安全语境理解时,secLLM可以从上下文中理解特定安全问题的含义,提供更准确的回答和建议。secLLM从用户提供的信息中识别潜在的安全威胁或攻击行为。例如,识别恶意软件行为、网络入侵迹象或社交工程攻击尝试等。secLLM能够根据问题的上下文,理解问题的意图,并提供更准确和有针对性的回答。例如当用户咨询“发现漏洞CNNVD-201703-501怎么办?”,在回答关于安全漏洞的问题时,它会考虑到漏洞的严重性、影响范围和修复建议等,如下图17所示secLLM答复中,从多个角度给出了有效建议。secLLM在安全语境理解方面具有强大的能力,可以为安全专业人员和企业提供更准确、全面和有针对性的安全信息和建议,帮助提高安全防御水平,应对不断变化的安全威胁。新实践:安全行业大模型赋能应用4.2情报:信息整合,情报挖掘从中识别出威胁指示、攻击者行为模式、受影响的实体等有价值情报,帮助安全团队更好地应对各种安全挑战。这种信息整合和情报挖掘的能力可以提升情报工作的效率和准确性,为4.2.1案例3:多源情报整合.需求场景:互联网上无时不刻涌现着海量的信息,包括新闻报道、社交媒体内容、论坛帖子、博客文章等,这些信息中往往包含着大量有价值的内容,对于情报分析和决策制定至关重要。可见,整合多个不同来源的安全情报信息,对提供更准确、全面的威胁情报,帮助组织更好地应对.解决方案:基于secLLM的多源情报融合解决方案是将不同来源、不同形式的情报信息进行整合和分析的方法。secLLM安全语义理解能力有助于信息总结、情报归类、实体标定等。信息总结功能主要涉及到跨平台信息整合、垃圾信息过滤、要点提炼等。secLLM通过对信息进行语义分析和关联性识别,将来自不同渠道的多种形式的信息汇聚为有机的整体,消除信息碎片化问题,从而提高信息整理的效率和全面性。接下来,secLLM情报之间的关联点、相似性,将其有序归类,实现情报梳理和整合的自动化。最后,secLLM对信息中的现实实体(包括但不限于设备、人员、组织、漏洞、事件等),分析其性质、热度、上下文,以及实体之间的关联性,综合考量后给出初步判断(包括其风险度、紧急度等内容),为情报分析提供基于secLLM的多源情报融合在多来源多模态信息上有着出色的智能归纳和综合分析能力,有效地提高了情报信息的利用效率和价值,为决策者提供更全面、准确的情报信息ss34.黑客1疑似某黑客组织成员.c地区停电事件可能与新漏洞有关.A国家近期需加大防护力度..黑客1疑似某黑客组织成员.c地区停电事件可能与新漏洞有关.A国家近期需加大防护力度.历史上其他国家出现过类似情况,在半年后遭受大规模网络攻击情报智能整理情报1.关键字.摘要情报2.关键字.摘要情报3.关键字.摘要…情报n.关键字.摘要………威胁情报平台+………相关情报推荐多源情报分析情报汇总成文图18基于secLLM的多源情报处理.提升效果:下面展示了—个应用实例,在新闻网站、社交媒体、个人博客、暗网论坛等渠道上收集到了大量的信息后,结合历史经验和多源数据,挖掘—些有价值的情报判断,可以帮助决策者快速决策。使用传统的情报收集与分析方法,可能需要耗费大量的人力物力成本,以及依赖安全专家;而secLLM可以完全自动化进行。《B国家遭受网络攻击》《B国家遭受网络攻击》《50万台设备遭到勒索软件劫持》《千万不要买某公司新产品》黑客1在社交账号上发布多条消息《某地节日氛围浓厚》《有图有真相,某明星地下恋情爆光》《电力行业常用软件发现新漏洞》某黑客组织网站活跃……图19基于secLLM自动化情报整理35A公司0day漏洞A公司产品介绍A公司0day漏洞A公司产品介绍CVE-XXXX-XXXXX热度:风险等级:发布日期:受影响版本:secLLM能够实现自然语言查询。用户无需牢记大量查询规则和语法,只需要使用自然语言描述出其需求。下面是—个交互实例降低查询门榄,用户想要查询A公司最近几天的oday漏洞,需要先从其他渠道搜索到具体的漏洞编号,才能进行查询,而在这个过程中往往会面对大量杂乱的网站和信息,降低了搜索效率;集成大语言模型后,只需要直接输入自然传统方式大模型集成呢?名称:这几天A公司产品的0day漏洞图20基于secLLM情报查询secLLM可以作为情报整理助手,高效汇总多源信息,智能归纳整理,生成有价值的情报报告,极大地节省人力成本和时间,为决策提供全面精准的情报支持。4.2.2案例4:勒索情报挖掘.需求场景:威胁特征分析和洞察等难题,还需要能够挖掘、揭示攻击者的策略和行为模式,预测可能的.解决方案:安全分析团队需要借助大模型技术提高对勒索威胁情报的分析能力,更好地保护网络和数据的安全。如图21展示了利用secLLM做勒索威胁情报追踪的基本流程,secLLM具备强36·NSFOCUS安全行业大模型secLLM技术白皮书大的安全语义理解和内容生成能力。secLLM在勒索情报分析的主要应用可以分为:对收集的威胁情报进行文本主题分类、勒索相关情报的关键信息提取和提供勒索智能分析问答三个.威胁情报文本主题分类:通过勒索情报主题分类的方法,帮助快速定位和识别与勒索软件相关的情报,以帮助安全团队更好地了解勒索软件的种类和演变趋势,.勒索相关情报的关键信息提取:包括勒索软件的加密方式、攻击手段、利用漏洞、勒索情报地址和locs(lndicatorsofcompromise)等数据。这些信息可以帮助安全团队快速了解勒索事件的特征和威胁程度,以便及时采取相应的安全措施。.勒索智能分析问答:secLLM作为—个强大的语言模型,可以为用户提供更全面、深入的答案。它可以理解用户的问题,并生成更具体、细致的回答,帮助用户深入了解勒索威胁,应对复杂的安全问题。图21secLLM勒索情报分析流程.提升效果:secLLM在勒索威胁情报分析中的应用为决策者和安全团队提供更全面的威胁情报深入洞察,可以帮助决策者制定相应的安全策略和措施,优化安全防御,提高整体安全水平。针对上述勒索威胁情报收集和整合、关键信息抽取以及复杂威胁特征智能分析三个场景,secLLM在勒索情报分析的应用效果如下所述。勒索情报主题分类:通过secLLM模型对收集的威胁情报进行文本主题分类的过程。首先,将文本进行粗粒度分类,将其划分为不同的主题,如APT情报、勒索情报和战略情报等多个话题。这样可以37新实践:安全行业大模型赋能应用将威胁情报按照其所属领域或类型进行初步归类。接下来,在勒索情报主题中,还可以进—步进行家族多分类。在这—步骤中,将勒索软件相关情报细分为多个家族,如图22所示按族,根据活跃时间排序并展示对应威胁报告数量,这样可以更精确地识别和归类不同类型的勒索情报关键信息抽取:勒索情报信息抽取是对分类后的勒索情报进行进—步处理的过程,利用seCLLM模型从locs,其中locs可以反绩给威胁情报中心进行研判,从而为终端EDR勒索检测提供数据支持。通过勒索情报信息抽取的过程,安全分析团队可以更高效地从海量的勒索情报中提取出有价值的信息,帮助他们更好地了解勒索威胁的特征和演变趋势,从而为安全决策和威胁应对提38·NSFOCUS安全行业大模型secLLM技术白皮书勒索智能分析问答:整合secLLM大模型进—步增强了智能问答平台的能力。如图24所示,勒索报告智能分析平台将secLLM从勒索威胁报告中提取的关键信息进行梳理,并用思维导图的方式进行展示,使安全分析人员更直观更便捷地获取对勒索报告的深入了解,另外基于secLLM安全大模型开发的chatReport提供了与勒索报告的智能问答应用,安全人员可以就勒索报告中的疑问,如勒索事件和加密算法等疑问进行咨询。39新实践:安全行业大模型赋能应用4.3攻防:模拟演练,辅助决策secLLM可以应用于攻防模拟中,协助防御团队分析攻击者的意图,提高防御的针对性,并为其提供防御策略和规划等建议。同时,secLLM还能整合多种安全防御措施,构建多层次、多角度的全面防御体系。secLLM在攻防模拟中的作用包括:.可以模拟复杂的攻防场景,如供应链攻击、钓鱼攻击、零日漏洞攻击等,全面评估特定场景的安全风险;.可以利用secLLM的生成能力,产生多样化的攻击载荷、攻击路径、攻击策略等,提高攻击隐蔽性和成功率;.利用secLLM的理解能力,分析目标系统的脆弱点、风险点、防御措施等,提高攻击效率和精准度,示例见下文4.3.2企业安全EAsM评估;.通过不断攻防演练,secLLM从历史数据和实时反绩中不断优化和更新攻击和防御技术,利用自身学习能力提高攻防智能化和适应性。4.3.1案例5:软件供应链安全.需求场景:软件供应链安全的需求涵盖了软件从源代码审查到交付和部署的整个过程,以确保软件在每个环节都是安全和可信的。这有助于减少潜在的威胁和漏洞,保护企业的数据和声誉。.解决方案:secLLM的软件供应链安全分析解决方案是将secLLM应用到软件供应链知识图谱的方法。secLLM通过预训练获得了丰富的先验知识和强大的语义理解能力,结合知识图谱和secLLM,不仅能有效融合软件供应链领域中的多源信息,还能运用LLM的语义理解能力来深入分析实体的上下文信息,进而提升模型对于软件供应链中实体与关系的语义理解水平。结合secLLM和供应链知识图谱可以实现多种智能应用,如自动生成风险报告、知识图谱智能问答等,为运营人员在图谱上做更深入的安全分析提供了支持。图25是secLLM应用于软件供应链安全的三层架构图,包括数据层、模型层和应用层。.数据层集成了软件依赖、漏洞影响范围、软件供应链公众号文章等多源异构数据,为知识图谱构建和secLLM的微调提供了数据基础。.模型层实现了知识图谱与secLLM的互补增强。secLLM—方面使用软件供应40·NSFOCUS安全行业大模型secLLM技术白皮书链语料进行微调,使模型能理解和分析软件供应链子领域的知识,另—方面secLLM使用其强大语义理解能力从语料中提取实体、关系数据,对图谱中的知识进行补全。知识图谱—方面将多源异构数据整合成便于关联分析的图数据,另—方面使用其高质量的领域知识数据对secLLM进行训练,综合提升了模型的知.应用层结合知识图谱和secLLM两大Al技术提供了三大应用,分别为风险报告生图25secLLM应用于软件供应链安全41新实践:安全行业大模型赋能应用.提升效果:secLLM在软件供应链安全中的应用可以完成信息抽取、供应链健康评分、供应链敏感信息抽取secLLM具备的海量先验安全知识可以实现信息抽取任务。软件供应链领域涉及众多的非结构化数据源,如CVE、NVD、CNNVD等开源漏洞库secLLM可以自动化将多源数据处理成结构化数据存入知识图谱中,从而对知识图谱中的缺供应链健康评分版本维度频率、安全风险等结构化数据,其二为开源软件的issue文本、版本描述、更新信42·NSFOCUS安全行业大模型secLLM技术白皮书息等非结构化文本。secLLM先对非结构化文本进行向量化操作,获取非结构化文本中的语义特征,然后融合语义特征和结构化字段构建健康评分模型,最后,secLLM分别考虑了社区热度、安全风险、影响范围、版本维护等多维信息,为供应链软件的健康程度提供了综合供应链敏感信息发现敏感信息是资产脆弱性分析的重要维度。secLLM可以对开源供应链的git仓库、组件官URL、域名、MAC、lpv6、jdbc等敏感实体类型,以扩充供应链图谱的敏感信息,进而有利43新实践:安全行业大模型赋能应用智能问答secLLM可以提高软件供应链知识图谱智能问答能力(如图29),基于图谱的智能问答包括自然语言理解、图查询语言生成、答案生成三个步骤。首先将多模态的图片、文字等问题转化机器可理解的语义表示,该步骤可以使用secLLM来进行问题编码;然后secLLM将用户的提问转化为图上的查询语言实现图上的查询操作,如cypher、Gremlin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论