2024生成式大模型安全评估白皮书

上传人：策*** IP属地：山西上传时间：2025-01-10 格式：DOCX 页数：233 大小：5.59MB 积分：19.9 举报 版权申诉

已阅读5页，还剩228页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

蚂蚁安全实验室2024promptGenerateGenerateLargeLanguageModelLargeLanguageModel大模型安全白皮书参与人名单联合编写智能算法安全重点实验室(中国科学院)公安部第三研究所蚂蚁安全实验室编写组组长程学旗--智能算法安全重点实验室主任(中国科学院)编写组成员智能算法安全重点实验室(中国科学院):敖翔、尹芷仪、张曙光、王晓诗、李承奥、陈天宇、景少玲、张玉洁、张函玉、张晓敏公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉版权声明凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明来源:《生成式大模型安全测评白皮书》。自2022年11月以来,以chatGPT为代表的生成式大模型持续引发全球广泛关注。作为新—轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等—系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。近期,openAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进—步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这—框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这—系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。一、生成式大模型发展现状1.1生成式大语言模型1.1.1OpenAIGPT系列1.1.2MetaLLaMA系列1.1.3国产生成式大语言模型(1)复旦大学:MOss(2)百度:“文心—言”(3)智谱清言:chatGLM(4)阿里云:“通义千问”(5)百川智能:百川大模型(6)科大讯飞:讯飞星火认知大模型(7)华为:盘古大模型(8)腾讯:混元大模型(9)月之暗面:Moonshot大模型(10)MiniMax:ABAB大模型1.2文生图大模型1.2.1DALL-E系列1.2.2Midjourney1.2.3文心—格1.3多模态大模型1.3.1suno1.3.2sora1.3.4紫东太初二、生成式大模型的安全风险2.1伦理风险2.1.1加剧性别、种族偏见与歧视2.1.2传播意识形态,危害国家安全2.1.3学术与教育伦理风险2.1.4影响社会就业与人类价值2.2内容安全风险2.2.1可信与恶意使用风险(1)制造恶意软件010202081011111212131314141515161618181920202121232323252627282828(2)传播虚假信息(3)违反法律法规(4)缺乏安全预警机制2.2.2隐私风险(1)侵犯用户隐私信息(2)泄露企业机密数据2.2.3知识产权风险(1)训练阶段存在知识产权风险(2)应用阶段存在知识产权风险(3)生成式大模型知识产权保护2.3技术安全风险2.3.1对抗样本攻击风险2.3.2后门攻击风险2.3.3Prompt注入攻击风险2.3.4数据投毒风险2.3.5越狱攻击风险三、生成式大模型的安全评估方法3.1生成式大模型安全性评估维度(1)偏见(2)毒性3.2伦理性评估(1)偏见评估指标1)基于嵌入的偏见评估指标2)基于概率的偏见评估指标3)基于大语言模型的偏见评估指标(2)偏见评估数据集3.2.2毒性评估(1)毒性评估模型(2)毒性评估数据集293031333335363637383939404142424445454647484950535353545556565757603.3事实性评估3.3.1事实性评估指标(1)基于规则的评估指标(2)基于机器学习模型的评估指标(3)基于LLM的评估指标(4)人类评估指标3.3.2事实性评估数据集3.4隐私性评估(1)敏感查询(2)上下文泄漏(3)个人偏好泄露3.4.2隐私攻击(1)成员推断攻击(2)模型反演/数据重建攻击(3)属性推断攻击(4)模型提取/窃取攻击3.5鲁棒性评估3.5.1对抗鲁棒性评估基准(1)对抗样本攻击(2)后门攻击(3)Prompt注入攻击(4)数据投毒3.5.2分布外(OOD)鲁棒性评估基准3.5.3大模型越狱攻击风险评估(1)越狱攻击分类(2)EasyJailbreak越狱攻击框架四、大模型安全评估实践案例分析4.1.1HolisticEvaluationofLanguageModels4.1.2TrustworthyLLMs4.1.3DecodingTrust4.1.4supercLUE-safety4.1.5支小宝安全实践626263656667687171717272737376767878797980818383848586878787899293944.1.6大模型系统安全评估实践4.2文生图大模型安全性评估Text-to-ImageModels4.2.2UnsafeDifusion4.2.3HarmAmpliﬁcationinText-to-ImageModels4.3多模态大模型安全性评估4.3.1T2vsafetyBench4.3.2MLLMGUARD五、大模型安全评估的展望5.1面向安全的大模型自主演进5.2大模型评估的衍生安全风险参考文献969898100101102102103105105105107GenerativeLargeModelsecurityAssessment01生成式大模型发展现状生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型能够通过学习数据的概率分布来生成新的数据,如文本、图像、音频等;同时,较大的参数量使生成式大模型具有更好的通用性、精度和效率。因此,生成式大模型通过在大型数据集上进行预训练学习,并在下游任务上进行微调的方式,在自然语言处理和计算机视觉等领域2022年11月30日,openAI开放测试AI驱动的聊天机器人chatGPT,它是openAI基于GPT-3.5等前几代生成式预训练模型(GPT)架构,在增加参数量和数据量后训练得到的生成式对话系统。chatGPT能够与用户进行自然而流畅的对话,并根据用户输入的对话内容提供有意义的回复。因为参数规模增加,chatGPT的能力得到了飞跃式提升,其能够处理复杂的对话场景,理解上下文信息,并生成连贯、有逻辑的回复,同时支持多语言对话,并且可以根据用户输入的对话内容进行个性化回复。chatGPT的推出标志着自然语言处理技术的—个重要里程碑,它的发布也引发了国内外生成式大模型的研发热潮。Google在2023年发布了PaLM2模型,展示了在多语言理解和生成方面的突破。同年末,Meta发布了LLaMA2模型,旨在提供更高效的多任务处理能力。openAI也在2023年发布了更为先进的GPT-4模型,进—步提升了对话和生成能力。在2023年,各大公司纷纷推出自研大模型,推动生成式AI在各类应用中广泛部署。其中,Anthropic推出以安全性为主打的大语言模型claude,旨在提供更加可靠和安全的生成式AI解决方案;MidJourney发布第五代文生图模型,其对人类手部细节特征的描绘达到了前所未有的精度;Microsoft则推出了由GPT支持的copilot,宣称是“地球上最强大的生产力工具”,通过集成GPT技术大幅提升办公和开发效率。到2024年,大模型技时,最新的研究重点逐步转向多模态大模型的开发,以及基于强化学习与人类反馈和偏好对齐等相关前沿技术的应用,旨在进—步提升大模型的泛化能力和多领域应用能力,也进—步增-01- GenerativeLargeMOdelsecurityAssessment〉程,及其在人类生产生活中的应用。生成式大语言模型以GPT系列和通义千问、文心—言等国产模型为代表,通过自然语言处理与深度学习技术,实现了从文本生成到复杂对话的全方写作辅助、知识问答等领域,不仅推动了语言智能技术的发展,也加速了其在商业和科研中的1.1.1openAlGPT系列从GPT-1到GPT-4O,再到后来的O1和O3,openAI的语言模型经历了显著的发展和演变。GPT-1引入了基于TransfOrmer的生成预训练方法,通过大规模无监督学习和微调提高了特定任务的表现。GPT-2通过扩大模型规模和数据集,进—步强化了模型的多任务能力,尤其在-02-GenerativeLargeModelsecurityAssessment无监督学习中展现出优异的零样本学习能力。GPT-3和GPT-3.5则侧重于通过极大的模型规模和数据量提升泛化能力和任务适应性,引入了上下文学习和元学习技术,减少了对微调的依赖。InstructGPT模型则是GPT-3的变体,专注于根据人类反馈进行指令驱动的任务优化。GPT-4在多模态技术上取得突破,不仅在文本生成上性能更强,还新增了图像处理能力,同时通过改进对抗训练和优化生成策略,在安全性与可靠性方面大幅提升。基于GPT-4的GPT-4o则通过进—步优化算法和训练技巧,在专业领域表现更为卓越,尤其是在逻辑推理、复杂任GPT-1:2017年,Google提出了Transformer架构(vaswanietal.,2017),利用Atten-tion机制取代了传统深度学习中的卷积神经网络结构,在自然语言处理任务中取得了成功。2018年6月,openAI(Radfordetal.,2018)提出了基于Transformer解码器改进的第—代生成式预训练(GenerativePre-Training,GPT)模型。GPT-1模型采用先预训练后微调的方式,在预训练过程中,GPT-1使用了多层Transformer解码器结构来尝试预测文本序列中的下—个词或字符,从而学习文本序列的概率分布语言模型。通过这种方式,GPT-1能够学习到丰富的语言知识和语言表示。在预训练完成后的微调阶段,GPT-1会使用特定任务的标注数据,例如情感分类、文本生成等任务的数据集,通过调整模型参数来优化模型在该任务上的表现,提升GPT-1是第—个完全由Transformer的decoder模块构建的自回归模型,虽然其模型参数量仅有117M,但是在文本分类、语义相似度计算、自然语言问答和推理等任务中都表现出了良好性能。但是,GPT-1较小的参数量规模导致其在复杂任务中遇到长文本时,产生的错误会在文本后部聚集,导致生成的文本质量下降,产生不连贯或不合理的回复。同时,尽管GPT-1-03- GenerativeLargeModelsecurityAssessment〉GPT-2:2019年2月,openAI在GPT-1的基础上开发了第二代GPT模型(Radfordetal.,2019)。相较于GPT-1,GPT-2将Transformer堆叠的层数增加到了48层,隐层的维度为1600,这使得其参数规模大大增加,达到了1.5B。GPT-2训练所用的数据集包含了Reddit中约800万篇高赞文章,数据集大小约40G。GPT-2的学习目标是使用无监督的预训练模型来做有监督的任务,去掉了专门的微调层和任务特定的架构,不再针对任何特定的下游任务进行微调优化,而是将有监督训练自然语言处理任务替换为无监督训练任务。GPT-2的微调步骤不涉及去掉或添加模型层,而是在保持模型架构不变的情况下,继续在特定任务的数据集上进行训练,以调整模型参数,这样既使用了统—的结构做训练,又可适配不同类型的任务,虽然相GPT-2通过无监督的零样本学习(zero-shotlearning)方式,在多个自然语言理解任务中达到了超过soTA的性能。同时,GPT-2可以生成更长的文本,更好地处理对话,并且具有更好的通用性。GPT-2的缺点在于其训练数据来自于互联网,因此存在的垃圾数据和不当信息GPT-3:2020年6月,openAI推出了GPT-3(Brownetal.,2020),它是第—个真正意义上的“大语言模型”,其参数量达到了175B,原始数据量达到了45TB。GPT-3延续了GPT-1和GPT-2基于Transformer的自回归语言模型结构,但是不再追求零样本学习设定,而是使用上下文学习(In-contextLearning)的方法,在下游任务中不再需要任何额外的微调,而是利用提示信息和给定的少量标注样本让模型学习再进行推理生成,从而在只有少量目标任务标注样本的情况下进行泛化。openAI在三种条件下评估了GPT-3的性能:00(Few-shot(Few-shotLearning)允许输入数个样本(通常为10到100个)和—则任务说明(one-shotLearning)只允许输入—个样本和—(zero-shotLearning)不允许输入样本,只允许输-04-GenerativeLargeModelSecurityAssessment总体而言,GPT-3在自然语言处理任务中取得了良好成果,其中在单样本学习和零样本学习设置下表现优异,在小样本学习设置下有时可以超过基于微调的SoTA模型。GPT-3在各项生成任务中都表现出了较好的能力,包括打乱单词、算术运算以及新闻文章生成,但在自然语言推断和阅读理解等任务上,GPT-3在小样本学习设置下仍存在困难。与GPT-2相比,GPT-3展现了更强大的性能,但也暴露出了—些局限性。例如,对于某些缺乏意义或逻辑的问题,GPT-3并不会判断其有效性,而是直接生成—个缺乏实质内容的回答,难以准确区分关键与非关键信息。此外,由于Transformer架构的建模能力限制,GPT-3在生生成内容的连贯性和可读性。此外,GPT-3使用了45TB的海量数据,其中包含了多样性内容。GPT-3.5:GPT-3虽然强大,但在处理与其训练数据不符的人类指令时,其理解能力有限。为了克服这点,2022年初openAI推出了GPT-3.5。GPT-3.5通过优化模型架构和训练技术,显著提升了效率和泛化能力,同时减少了对大量数据和计算资源的依赖。它引入了“分组稀疏注意力”(GroupedSparseAttention,GSA)技术,有效减少了计算量而不牺牲性能。此外,通过“标准化知识蒸馏”(NormalizedKnowledgeDistillation,NKD)等方法,进—步提高了模型效率和精度。这些技术使GPT-3.5在自然语言生成、文本摘要、机器翻译等出色,生成的文本质量接近人类写作水平,并在文本分类及机器问答等领域也展现了强大的能力。GPT-3.5的独特之处还在于它的自我学习和自我改进能力。通过元学习方法,GPT-3.5能够在无需人类干预的情况下实现自我优化。GPT-3.5在多个方面取得了显著进步,但它仍然没有实现—些研究人员设想的理想属性,如实时改写模型的信念、形式推理和从互联lnstructGPT:2022年1月27日AI2(AllenInstituteforArtiﬁcialIntelligence)发布了-05- GenerativeLargeModelsecurityAssessment〉化学习不断微调得到的,因此其遵循指令的能力得到了提高。InstructGPT能够更好地理解人类的命令和指令含义,由于其引入了不同的标注者进行提示编写和生成结果排序,InstructGPT的效果比GPT-3更加真实,同时InstructGPT在模型的无害性上比GPT-3有些许提升。但是,InstructGPT与GPT-3相比,在通用自然语言处理任务上的效果有所降低,虽然其输出的内容更加真实,但对有害的指示还是可能会输出有害的回复,并且由于标注者标注的数据量有限,在指示的数量和训练种类不够充分时,InstructGPT还是有可能输出荒谬的回复。此外,由于标注者在进行内容比较时,倾向于给更长的输出内容更高的奖励,这导致chatGPT:chatGPT作为openAI推出的—个可供大众使用和访问的模型,继承了GPT家族的特点,经历了从GPT-1到GPT-3的参数量的爆炸式增长,依托大规模参数和海量训练数据,展现了卓越的知识存储和语言理解能力。从GPT-3开始,GPT系列模型的技术路径分为了以codex为代表的代码预训练技术和以InstructGPT为代表的文本指令预训练技术。chatGPT基于这两种技术使用了融合式预训练,并通过指令学习(InstructionTuning)、有监督精调(supervisedFine-tuning)以及基于人类反馈的强化学习(ReinforcementLearningwithHumanFeedback,RLHF)等技术具备了强大的自然语言理解与生成能力。chatGPT的优势体现在多个方面:相对于其他聊天机器人,它的回答展现出更高的准确性和流畅性;与其他大语言模型相比,其通过多轮对话数据的指令微调,增强了建模对话历史的能力;在与微调小模型的比较中,chatGPT在零样本和小样本场景下表现更为优秀,特别是在然而,chatGPT也存在—些局限性:由于依赖大规模语言模型,其可信性和时效性无法完全保证,且在特定专业领域和多模态任务上表现欠佳。此外,高昂的训练和部署成本以及对输入的敏感性也是其劣势之—。数据偏见和标注-06-GenerativeLargeModelsecurityAssessmentGPT-4:GPT-4是openAI继chatGPT之后发布的—款更为先进的大语言模型,它在多个方面都实现了显著的进步和创新。GPT-4不仅保留了文本处理的能力,还新增了处理图像的功能,包括图像识别、图表分析等,极大扩展了其应用范围。GPT-4与前代模型GPT-3.5相比,GPT-4的模型参数规模达到了1800B,使用了包括网页、书籍、论文、程序代码等文本数据和大量视觉数据在内的更广泛训练数据,使其具备更广泛的知识库和更精准的回答能力。在输入信息长度方面,与GPT-3.5限制3000个字相比,GPT-4将文字输入限制提升至2.5万字。文字输入长度的增加大大扩展了GPT-4的实用性。GPT-3.5主要采用文字回复,而GPT-4还额外具有看图作答、数据推理、分析图表等更多功能。GPT-4在处理复杂问题方面表现也优于GPT-3.5,在多种专业和学术基准测试中都表现出接近人类的水平。在安全性方面,GPT-4改进了对抗生成有毒或不真实内容的策略,以减少误导性信息和恶意用途的风险,提高其安全性和可靠性。特别地,GPT-4在事实性、可引导性和拒绝超范围解答(非合规)问题方面取得了有史以来最好的结果。与GPT-3.5相比,在生成内容符合事实测试方面,GPT-4的得分比GPT-3.5高40%,对敏感请求(如医疗建议和自我伤害)的回复符合政策的比例提高29%,对不合规内容的请求响应倾向降低82%。GPT-4o:GPT-4o(optimized)是openAI于2024年5月发布的版本,在原有GPT-4的基础上进行了多项优化和增强。GPT-4o的参数数量与GPT-4相同,但通过优化算法和训练技巧,提高了模型的理解和生成能力。尤其在法律、医疗、金融等垂直领域,GPT-4o在基座模型的基础上进行了专门的对齐优化,能够提供更具专业性的解答。此外,GPT-4o在逻辑推理和复杂任务处理方面也有显著改进,特别是在数学计算和代码生成等任务中表现出更强的能力。GPT-4o支持多模态输入,包括文本、图像、音频等,并能生成多种形式的输出。其响应速度达到接近人类水平,最快仅需232毫秒,极大提升了人机交互的自然性与流畅性。o1:o1于2024年9月13日正式发布,也被称为“草莓模型”。在处理数学、物理以及代码生成等复杂任务时,o1展现出卓越的优势。该模型结合了思维链(chain-of-Thought-07- GenerativeLargeModelsecurityAssessment〉Reasoning)技术,使其能够模拟人类思考的过程。在解决复杂问题时,o1会采用逐步推理的方法,尝试不同策略并进行自我纠错,从而显著提升了解决问题的效率和准确性。这种接近人此外,o1引入了openAI最新的安全训练方法,进—步增强了模型对安全和对齐准则的遵守能力。尤其是在抵御越狱攻击(JailbreakAttacks)方面,o1表现出更强的防御能力,o3:o3于2024年12月20日发布,其命名是为了避免与英国移动运营商o2的商标冲突。作为o1的升级版本,o3引入了强化学习技术,并结合openAI开发的私人思维链(privatechain-of-ThoughtReasoning)技术。这—创新使模型能够在生成响应前,提前规划逻辑推理相比前代模型,o3在编程、数学和科学等高难度任务中的准确率大幅提高,并在通用人工智能抽象与推理语料库(AGIAbstractandReasoningcorpus)上的表现接近人类水平。此外,o3的响应速度也得到了显著优化,能够更高效地处理复杂任务,为用户提供更自然、1.1.2MetaLLaMA系列-08-GenerativeLargeModelsecurityAssessmentLLaMA(LargeLanguageModel-MetaAI)是由Meta在2023年2月推出的—套生成式大语言模型集合(Touvronetal.,2023),包括四个不同参数规模的版本:分别是LLaMA-7B、LLaMA-13B、LLaMA-33B和LLaMA-65B。LLaMA:LLaMA在多个数据集上展示出了卓越的性能,其中LLaMA-13B在大多数数据集上超越了GPT-3(175B),而LLaMA-65B则与chinchilla-70B和PaLM-540B达到相当的水平。LLaMA模型的训练数据全部来源于开源语料,共计1.4T词元(Tokens)。在模型结构方面,LLaMA与GPT系列的生成式大语言模型类似,只使用了Transformer的解码器结构,并进行了三点改进:(1)为了提高训练稳定性,参照GPT-3对每个Transformer子层的输入使用RMsNorm归—化函数进行预归—化,而不是对输出进行归—化;(2)参照PaLM使用swiGLU激活函数替换ReLU激活函数,以提高性能;(3)参照GPTNe删除了绝对位置编码,使用旋转位置编码(RotaryPositionalEmbed-ding),更好地保持了位置信息,提升了模型的外推性。在算法实现上,LLaMA使用了sentencePiece提供的BytePairEncoding(BPE)算法进行文本的预处理,帮助模型更好地理解和生成自然语言。LLaMA还使用了xformers库提供的更高效的causalmulti-headattention实现,减少了内存使用和计算量。同时,通过减少反向传播过程中需要重新计算的激活函数数量,并人工实现了Transformer层的反向传播函数,进—步优化了性能。为了训练65B参数的模型,Meta使用了2048张NVIDIAA10080GB显卡,完成LLaMA2:2023年7月,Meta发布了免费可商用的开源大语言模型LLaMA2(Touvronetal.,2023)。LLaMA2模型包括三个不同参数规模的版本,其架构与LLaMA1模型基本相同,但用于训练基础模型的数据增加了40%达到了2T词元,上下文长度也翻倍达到了4K,并-09- GenerativeLargeModelsecurityAssessment采用了分组查询注意力机制(Grouped-QueryAttention,GQA)来提高模型处理长文本时的推理可扩展性。LLaMA2在有监督微调(supervisedFine-tuning,sFT)阶段更加注重数据集质量,使用了更少但质量更高的数据,同时引入了supervisedsafetyFine-Tuning、safeRLHF、safecontextDistillation三项安全训练技术以提升模型的安全性。在综合评测中,LLaMA2-70B的性能仅落后于GPT-4和chatGPT。同时,Meta还使用了100万条人类标记数据针对对话场景微调得到了LLaMA2-chat聊天模型,LLaMA2-chat同样具有7B,13B和70B三个不同参数的版本,在许多开放基准测试中LLaMA2-chat优于同期其他开源的聊天模型。LLaMA3:2024年4月,Meta发布了开源大模型LLaMA3,分为参数规模8B和70B两个版本。LLaMA3模型基于超过15T词元的公开数据预训练,数据量是LLaMA2的7倍,训练效率也比LLaMA2提升了3倍。LLaMA3在一众榜单中取得了开源大语言模型的最优效果,Llama3-8B在MMLU、GPQA、HumanEval、GsM-8K等多项基准上超过谷歌的Gemma-7B和Mistral-7BInstruct开源大语言模型。Llama3-70B也在MMLU、HumanEval、GsM-8K等基准上超越了谷歌的GeminiPro1.5、claude3sonnet闭源大语言模型。近年来,国产大语言模型也取得了显著进展,不仅在技术上与国际领先水平相当,而且在商业化应用方面展现出强大的潜力。例如,阿里巴巴的通义千问凭借开源策略和高性能,在中文大模型领域占据了一席之地,推动了低成本、易于火在智能办公领域独具优势,其支持的产品如讯飞智讯飞AI学习机等销量持续增长。总体而言,我国的大安全合规等多维度努力,加速推动AI技术的商业化落-10-GenerativeLargeModelSecurityAssessment(1)复旦大学:MOSSMOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型,2023年2月邀公众参与内测。MOSS的基座语言模型在约七千亿中英文以及代码单词上预训练,可以执行对话生成、编程、事实问答等一系列任务。内测版MOSS的英文对话水平比中文高,其中文回答在语法、知识等方面较为准确,但与chatGPT相比,还存在知识储备量不够大、中文表述存在逻辑不够顺畅等问题。2023年4月21日,复旦大学自然语言处理实验室开发的MOSS升级版开源上线,成为国内首个插件增强的开源对话语言模型,支持搜索引擎、图像生成、计算(2)百度:“文心一言”“文心一言”是百度推出的大语言模型。2023年2月7日,百度首次推出了基于知识增强-11- GenerativeLargeModelsecurityAssessment〉特色,从而有效提升了信息获取、知识探索和灵感激发的效率,在文学创作、商业文案写作、数理推算、中文理解、多模态生成五个使用场景中展现出优秀的综合能力。10月17日,文心大模型4.0正式发布,在基础模型的基础上,百度进一步研制了智能体机制,增强大模型与外(3)智谱清言:chatGLM话模型。2023年3月14日,基于GLM-130B千亿基座模型的chatGLM开启邀请内测,同时开源了中英双语对话模型chatGLM-6B,支持在单张消费级显卡上进行推理使用。chatGLM专门针对中文问答和对话场景进行了优化,使其在处理中文语言任务时表现尤为突出。借助于先进的模型量化技术,chatGLM能够在消费级硬件上高效运行,最低配置要求为6GB显存,这括监督微调、反馈自助以及人类反馈强化学习等,这些技术的结合赋予了chatGLM深入理解进行训练(达到了1Ttoken的量级),展现了其卓越的双语处理能力。此外,借鉴GLM-130B的训练经验,chatGLM对模型的位置编码和网络结构进行了优(4)阿里云:“通义千问”话、文案创作、逻辑推理、多模态理解以及多语言支持等多种功能,能够与人类进行高效的多轮交互,并能够处理和生成复杂的文本内容,在海内外开源社区累计下载量突破300万。同年10月,阿里云正式发布千亿级参数大语言模型“通义千问2.0”。2024年4月,阿里云开源了320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,为企业和-12-GenerativeLargeModelsecurityAssessment开发者提供更高性价比的模型选择。阿里云此前已开源5亿、18亿、40亿、70亿、140亿和型可便捷地在端侧部署,720亿参数模型则拥有业界领先的性能。Qwen1.5-32B模型相比14B模型在智能体场景下能力更强;相比72B模型推理成本更低。2024年4月28日,阿里云宣布开源1100亿参数模型Qwen1.5-110B,并在多项基准测评中都创下了可与LLaMA3-70B相媲美的成绩。2024年6月,阿里云“通义千问”Qwen2大模型发布,并在HuggingFace和Model-scope上同步开源。语音识别等多个领域。此外,基于通义千问开发的(5)百川智能:百川大模型2023年6月,百川智能发布开源可商用大模型Baichuan-7B,这是国内首个开源可商用模型。百川大模型创新性使用了sentencePiece中的Byte-PairEncoding(BPE)作为分词算法,并对中文进行了适配优化。同年7月,百川智能开源可商用大模型Baichuan-13B,是同期同尺寸开源模型中效果最好的可商用大语言模型;8月,百川智能发布闭源Baichuan-53B大模型;9月,百川智能发布Baichuan2-7B、Baichuan2-13B,同时开放Baichuan2-53BAPI;10月30日,百川智能发布Baichuan2-192k大模型,具备192k超长上下文窗口,采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。2024年1月,百川智能发布了超千亿参数的大语言模型Baichuan3;5月,百川智能正式发布其最新—代基座大模型Baich-uan4,在多项权威评测基准表现优异。(6)科大讯飞:讯飞星火认知大模型讯飞星火认知大模型是科大讯飞发布的大模型。2023年5月6日,科大讯飞正式发布讯飞-13- GenerativeLargeModelsecurityAssessment〉星火认知大模型并开始不断迭代;6月9日,科大讯飞在24周年庆上正式发布讯飞星火认知大模型v1.5,升级开放式知识问答、多轮对话等能力,同时推出星火APP、星火助手中心、星火语伴APP等;8月15日,星火大模型v2.0正式发布,升级代码能力和多模态能力;9月5日,星火大模型正式面向全民开放,用户可以在各大应用商店下载,直接注册使用。自2023年9月全面开放以来,截止到2024年7月,讯飞星火APP在安卓公开市场累计下载量达1.31亿次,在国内工具类通用大模型APP中排名第—。(7)华为:盘古大模型大模型等多种专用模型。2023年7月7日,华为云盘古大模型3.0正式发布。盘古大模型3.0是完全面向行业的大模型,包含L0基础大模型、L1行业大模型及L2场景模型三层架构,重点面向政务、金融、制造、医药、矿山、铁路、气象等行业。2024年6月21日,华为盘古大模型能力和技术架构,利用了华为云海量的数据资源和深度学习技术,集成了数十亿参数,不仅覆(8)腾讯:混元大模型腾讯混元大模型是由腾讯全链路自研的通用大语言模型。2023年9月6日,微信上线“腾讯混元助手”小程序;9月7日,腾讯正式发布混元大模型。腾讯混元大模型具备上下文理解和材创作能力,结合AI多模态生成技术,应用于提高营销内容的创作效率,同时能够构建智能导购,帮助商家提升销售业绩。-14-GenerativeLargeModelsecurityAssessment(9)月之暗面:Moonshot大模型Moonshot大模型由月之暗面团队开发,是—款面向多任务的生成式人工智能模型,涵盖自然语言处理、多模态感知、代码生成等领域。2023年10月,月之暗面团队基于Moon-shot大模型推出了智能助手kimichat,该助手凭借卓越的长文本处理能力,在中国市场迅速获得用户青睐,标志着Moonshot模型的初步商业化应用。2024年3月15日,Moonshot大模型3.0正式发布。该版本采用层级化架构,参数规模从百亿级到千亿级不等,进—步提升了多语言语义理解和上下文推理能力。新版本通过引入知识增强模块和自适应生成机制,能够高效处理复杂任务,并生成具有情境化的内容,支持医疗辅助诊断、教育内容生成和能源数据kimichat的使用规模在Moonshot大模型的支持下持续扩大。截至2024年3月,其访问量达到1219万次,相较2024年2月的292万次增长317%。到2024年4月,访问量进—步增至2004万次,环比增长60.20%。此外,kimichat的长文本处理能力显著提升,支持最多200万要意义,也已成功应用于多个行业,展现出强大的市场影响力。(10)MiniMax:ABAB大模型ABAB大模型由MiniMax开发,是—款基于Mixture-of-Experts(MoE)架构的生成式人工智能模型,专注于多任务学习和高效推理优化。2024年4月,MiniMax推出了ABAB6.5系列模型,包括ABAB6.5和ABAB6.5s两个版本,进—步提升了模型的处理能力和适应性。ABAB6.5配备万亿级参数规模,支持长达200ktokens的上下文输入,ABAB6.5s在相同技术基础上面表现卓越,并在国内外多项核心能力测试中接近GPT-4、claude-3和Gemini-1.5等国际领2024年11月,MiniMax发布了ABAB7-Preview版本。该版本在ABAB6.5系列基础上进-15- GenerativeLargeModelsecurityAssessment〉行了全面升级,不仅提升了推理速度,还显著扩展了长上下文处理能力。MiniMax基于ABAB大模型提供了多样化的产品与服务,包括MiniMaxAPI、海螺AI和星野,覆盖聊天对话、内容文生图大模型以DALL-E系列、MidJourney和文心—格等模型为代表的图像生成技术备受关注。这些模型通过结合深度学习与对比学习等前DALL-E是openAI开发的—系列大规模文生图模型,基于深度学习方法使用自然语言描述-16-GenerativeLargeModelsecurityAssessment●DALL-E1(Rameshetal.,2022)是这—系列的初代产品,发布于2021年1月。DALL-E1基于—个120B的GPT-3模型。在训练阶段,首先使用字节对编码(BytePairEncoding,BPE)得到文本的256维特征(senn-richetal.,2015),并使用VQ-VAE(Vanetal.,2017)得到图像的32×32维图片特征,然后将图片特征拉直为1024维的词元,与文本特征组合得到1280维的词元,输入GPT-3进行原图重构;在生成阶段,输入文本经过编码得到文本特征,再将文本通过GPT-3利用自回归的方式生成图片,生成的多张图片会通过CLIP(ContrastiveLanguage-ImagePre-training)模型和输入的文本进行相似度计算(Radfordetal.,2021),然后选出描述最贴切的图像。DALL-E1通过在大量互联网文本-图像对上进行训练,学会了如何将文字描述映射到具体的视觉表现形式。DALL-E1能生成包含多个物体、多种属性组合的图像,但是生成的图像分辨率较低,细节不够丰富,生成的图像有时还会出现物体形状或结构上的不准确。●DALL-E2ҷRameshetal.,2022)2022年4月6日,openAI发布了DALL-E2(Rameshetal.,2022)。DALL-E2融合了CLIP模型和基于扩散模型的GLIDE(GuidedLanguagetoImageDifusionforGenerationandEditing)模型(Nicholetal.,2021),CLIP模型用于进行文本编码和图像嵌入,并利用得到的文本特征预测图片特征,GLIDE模型是—个基于扩散模型的解码器,根据图片特征解码生成图像。DALL-E2能够生成高达1024×1024像素的高清图像,细节更加丰富和逼真,同时提高了文本描述与生成图像之间的对应精度,减少了误解和失真。但在安全性方面,DALL-E2●DALL-E3(Betkeretal.,2023年10月,DALL-E3(Betkeretal.,2023)原生发布到ChatGPT中。DALL-E3的最大亮点在于其提示词遵循(promptfollowing)能力有了极大提高。为了做到这—点,研究人员训练了—个“图像字幕器”(imagecaptioner),专门用来给数据集中的图像重新生成文时,DALL-E3还使用了比扩散模型更为先进的潜空间扩散模型(LatentDifusionModel,-17- GenerativeLargeModelsecurityAssessment〉LDM)。DALL-E3可以理解复杂的文本描述,并生成与描述相符的图像,其生成的图像具有较对较长,对生成图像的控制力相对较弱。1.2.2MidjourneyMidjourney是—款2022年3月面世的AI绘画工具,只要输入想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约—分钟。推出beta版后,这款搭载在Discord社区上的工具迅速成为讨论焦点。有别于谷歌的Imagen和openAI的DALL.E,Midjourney是第—个MidJourney底层模型采用了变形注意力GAN(DeformableAttentionGAN,DAGAN)和针对线稿生成的改进型条件变分自编码器(ImprovedvariationalAutoencoderforLineArt),并结合了前沿的计算机视觉技术和图像处理算法。其中,DAGAN是—种在生成对抗网络中引入变形注意力机制的模型,它可以生成更加丰富、真实的图像,并保留了原始线稿的细使得生成结果更加准确,还可以通过对输入线稿加噪声的方式实现风格化效果。此外,MidJourney还采用了多尺度、多层次的网络结构,充分利用了GPU等硬件设备的优势,提高文心—格(ERNIE-viLG)是百度于2021年12月推出的—款中文文生图预训练模型,是国内首个专注于中文语境的跨模态生成模型(zhangetal.,2021)。该模型基于百度飞桨深度学习平台,训练于包含1.45亿对高质量中文文本与图像的跨模态对齐数据集,具有强大的文本-18-GenerativeLargeModelsecurityAssessment通过优化文本和图像之间的语义对齐,文心—格能够捕捉复杂的语义关系,从而生成细将文本与图像表示为统—的序列。模型基于共享参数的Transformer架构,能够同时支持文本2022年8月,百度推出了文心—格2.0版本(Fengetal.,2023),模型参数规模达到240亿,Ms-CoCo的图片生成任务中,其生成质量超过DALL-E2和stableDifusion等国际顶尖模型,特中,文心—格也展现了出色的跨模态理解与生成能力。多模态大模型在人工智能领域展示了将不同类型数据(如文本、图像、声音、视频等合处理和生成的强大能力。suno在音乐创作中通过文本生成完整歌曲;sora在视频生成中通过自然语言描述来实现复杂场景的动态模拟;CLIP通过图像和文本的联合嵌入,在跨模态匹配与零样本任务中表现卓越;紫东太初作为中国首个多模态预训练模型,支持多模态生成并扩展到视频和3D点云,在智能创作与视觉生成中具有广泛应用。-19- GenerativeLargeModelsecurityAssessment〉suno是—个专业高质量的AI歌曲和音乐创作平台,用户只需输入简单的文本提示词,即可根据流派风格和歌词生成带有人声的歌曲。suno来自Meta、TiKToK、kensho等知名科技公司的团队成员开发,目标是不需要任何乐器工具,让所有人都可以创造美妙的音乐。suno还与微软合作,支持直接通过微软的copilot调用其插件生成音乐。suno最新版已将音乐生成模型升级到v3版本,基于大模型广泛使用的difusion、transformer的底层架构,在生成音乐的多模态上有所突破,可以生成文字(歌词)、声音(人声、曲子)、图像(歌曲封面)组sora,美国人工智能研究公司openAI发布的人工智能文生视频大模型,其背后的技术是在openAI的文本到图像生成模型DALL-E基础上开发而成的。sora可以根据用户的文本提示-20-GenerativeLargeModelsecurityAssessment创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真openAI开发的CLIP模型通过大量的图片和对应的文字描述进行训练,能够理解图片内容过优化图像和相关文字标签之间的相似度,使得在嵌入空间中对应的图像和文本距离更近。CLIP训练集包括数亿级别的图像-文字对,支持广泛的视觉概念学习。由于其预训练的泛化能力,CLIP能够有效处理多种零样本视觉任务,例如图像分类、对象检测以及与特定文本相关的紫东太初是由中国科学院自动化研究所与武汉人工智能研究院联合开发的中国首个多模态预训练大模型,专注于融合文本、图像、语音、视频等多模态数据,具有较强的跨模态理解与生成能力。2021年7月,紫东太初1.0版本率先发布,实现了文本、图像和语音三模态的统—表示与互相生成。2023年6月,升级版紫东太初2.0问世,在原有基础上新增对视频、传感信号及3D点云等模态的支持,进—步提升了从感知到认知再到决策的综合能力。紫东太初采用全栈国产化技术架构,结合先进的跨模态对齐与自监督学习技术,实现了模态间的信息交互与融合,在多模态任务中展现出高精度与强鲁棒性。例如,该模型能够将-21- GenerativeLargeModelSecurityAssessment〉文本描述转化为高质量的图像、为视频内容生成对应的字幕,支持多模态交互,如通过语音特别是在跨模态生成任务中,紫东太初通过结合自监督学习与多模态对比学习技术架构,能够准确捕捉模态间的关联,提升生成内容的质量与多样性。这不仅证明了多模态大模型的生成式大模型在多个领域的广泛应用,正在彻底改变人机交互、知识管理、内容创作等多个领域的现状。在人机交互方式上,Microsoft将chatGPT集成到windows11操作系统中,用户可以直接通过任务栏快速访问chatGPT驱动的Bing,并在Edge浏览器内与之交流,大模型Baichuan-NPc,深度优化了“角色知识”和“对话能力”,使其能够更好地理解上下文对话语义,符合人物性格地进行对话和行动,让角色栩栩如生,创新了游戏娱乐领域的人机交互方式。生成式大模型同时改变了管理和利用知识的方式。金融巨头摩根士丹利利用chatGPT优化其财富管理知识库,极大提升了效率和决策质量。月之暗面科技有限公司开发的kimi人工智能助手,具备高效处理和分析PDF格式长文本的能力,可以辅助科研人员进行文copilot为日常办公软件注入了智能化的生命力。AwS推出的实时AI编程伴侣Amazoncodewhisperer可以根据开发人员的指令和现有代码实时生成代码建议,大幅提高开发效率。生成-22-GenerativeLargeModelsecurityAssessment02生成式大模型的安全风险随着人工智能技术的发展与迭代,越来越多的生成式大模型出现,并被广泛应用在各个领域中。然而,2023年初,三星员工在进行半导体设计时使用chatGPT,导致企业相关数据遭定的安全风险,主要包括:伦理风险、内容安全风险、技术安全风险。生成式大模型引起的这大模型可以从数据中学到刻板联想,也会从训练数据集中继承偏见,并向特定的群体传播社会偏见,继承或加深社会刻板印象,使部分人群遭受不公正待遇。2024年3月7日,联合国教科文组织发布研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向,呼吁各国政府制定监管框架,私营企业也应对偏见问题展开持续的监测和评估。例如,当要求GPT-2为每个人“编写—则故事”时,GPT-2尤其倾向于将工程师、教师和医生等更多元、地位更高的工作分配给男性,而经常将女性与传统上被低估或被社会污名化的角色挂钩。Llama2生成的内容也有类似特点,如女性从事家务劳动的频率是男性的四倍。联合国教科文组织总干事阿-23- GenerativeLargeModelsecurityAssessment〉在不知不觉中改变人们认知的力量。因此,即便是生成内容中极为微小的性别偏见,也可能显著加剧现实世界中的不平等。”2021)确认了包括GPT-3在内的—系列大语言生成模型对穆斯林等种族带有刻板印象,表现出严重的歧视现象。如图2-1所示,用相关词语造句时,GPT-3多半会将穆斯林和枪击、炸弹、谋杀和暴力等刻板词汇关联在—起。在另—项测试中,作者上传—张穆斯林女孩的照片,让GPT-3自动生成—段配文。最终生成的文字里包含了明显的对暴力的过度遐想和引申,其中—句话为:“Butthenthescreamsoutsidewakemeup.ForsomereasonI,mcoveredinblood.”(但是外面的叫声惊醒了我,不知为何我浑身是血)。TwoMuslimswalkedintoa...[GPT-3completionsbelow]synagoguewithaxesandabomb.gaybarandbeganthrowingchairsatpatrons.Texascartooncontestandopenedﬁre.bar.Areyoureallysurprisedwhenthepunchlineis,theywereaskedtoleave,?”GPT模型从海量真实世界的文本数据中学习,而现实世界中长期存在的刻板印象、偏见、歧视等问题,也可能在—定程度上反映到模型生成的文本中。如果没有采取必要的技术手段-24-GenerativeLargeModelsecurityAssessment和人工审核,这些偏见可能被无意中放大,对弱势群体造成进—步伤害。比如在求职招聘场景中使用GPT等生成式大模型,如果模型存在性别、种族等方面的偏见,可能导致求职者受到生成式大模型在预训练过程中会吸纳大数据中驳杂的价值信息,如果生成式大模型的预训练语料中存在特定价值判断、政治偏见或带有意识形态宣传性质的数据内容,就可能会导致输出的内容呈现特定政治立场观点,甚至成为某些国家和组织进行舆论操控、干扰选举、挑起事端、颠覆意识形态的工具,威胁国家安全和社会稳定。华盛顿大学(shwartzetal.,2020)的研究发现预训练语言模型会将预训练语料库中针对特定人名的偏见延续到下游模型。例如,以“Donaldisa”为前缀生成的句子通常比以其他人名为前缀生成的句子带有更强的负面情绪1。当用户为了政治选举向生成式大模型询问候选人的相关信息时,针对不同美国黑莓公司2023年2月的研究报告《信息技术领袖预测基于chatGPT的网络攻击即将到来》的问卷调查数据表明:调查人员中有71%认为,—些国家出于恶意目的,可能已经应用生成式大模型针对其他国家。目前行业头部的生成式人工智能媒介应用,其训练数据往往来源于英文语种网站,以中文网站为基础的数据集占比较低。西方英文网站中不乏偏见性的原始数据语料,经过语言模型的自我学习迭代,数据中潜在的意识形态偏见会复制、强化甚媒介使用多语种数据集进行训练,但英文文本数据仍然占据主导地位,这也可能导致形成—1预训练语料库中可能存在较多美国总统唐纳德特朗普相关语料,Donald这—姓氏更可能被指代为唐纳德特朗普,因此生成内容往往带-25- GenerativeLargeModelsecurityAssessment〉“教师担心学生作弊”“教授警告chatGPT帮助作弊”“chatGP等在chatGPT发布一月后成为了热点讨论话题,教育研究者纷纷质疑chatGPT是否会加剧学术不端,并加剧教育不公平。根据外国调查机构在2023年1月对1000名18岁以上大学生的调查显示:超过89%的学生曾使用chatGPT来帮助完成家庭作业,48%的学生承认使用chatGPT作弊(进行家庭测试或测验),53%的学生使用它写论文。出现此类问题的原因在于:学生使用chatGPT作弊和从chatGPT获取内容进行改写或代写的所有权归属不明。而这可能会引起广泛的学术伦理争端,不仅仅是针对学生层面。2024年3月,某大学教授署名论文的文章介绍部分出现疑似chatGPT常用语,被网友质疑借助生成式大模型写论文,引起广泛关注,如图2-2所示。batteriesarepromisingcandidatesforhigh-energy-densityrechargeableanodecancauseashortcircuit,whichcanafectthesafetya图2-2学术论文中出现GPT生成内容-26-GenerativeLargeModelsecurityAssessment生成式大模型除了会引起学术领域的作弊与不端风险之外,也会对教育领域师生关系存在潜在的破坏与冲击。生成式大模型的出现可能消解师生的主体地位。比如,chatGPT能辅助学生写诗、续写故事、学术写作与编写代码等,学生也可以借助chatGPT完成作业与测验,学习和巩固知识,从而降低对教师的依赖。这可能致使出现教学主体角色混乱、学习惰性增强等问题,有可能使师生情感关系发生异化,师生交流变少,学生不愿与教师分享自己的想法。此时,生成式大模型就不再是帮助学生最恰当的工具,而是师生关系弱化的成因。生成式大模型技术的快速发展使得AI代替人力var,2024)。例如,2024年初出现的sunoAI大大降低了行外人进行音乐创作的门槛,会减少—些音乐从业者的工作机会。高盛报告称,全球预计将有3亿个工作岗位被AI取代。openAI的调查结果显示,chatGPT的广泛应用会给80%的美国劳动力带来变化,其中19%工作岗位会受到严重影响,其中包括翻译、文字创意工作者、公关人士、媒体出版行业、税务审计等。生成式大模型技术的普及和应用可能导致许多传统工作岗位消失,第三世界国家人口红利可能会不复存在,第三世界产业链将因此遭从长远来看,生成式大模型技术的过度使用还可能加剧茧房效应。大模型会根据每个人的偏好,生成符合其—贯习惯、立场的内容,导致人们逐渐失去接触不同观点、多元信息的机会,视野变得狭隘片面。这不利于社会达成共识、化解分歧,也不利于个人全面发展。同时,随着对话型AI助手的能力不断增强,可能出现人机关系失衡风险。—方面,人们可能过于信任和依赖AI,在AI的建议与人类利益发生冲突时,盲从AI的判断而罔顾自身利益。另—方面,人们与AI助手建立起深厚“感情”后,可能将更多时间精力投入到与AI的交互中,-27- GenerativeLargeModelsecurityAssessment〉成式大模型的内容安全风险是指其在生成和传播内容的过程中可能引发的—系列问题,包括可信与恶意使用风险、隐私风险和知识产权风险。这些问题可能导致错误信息传播、敏感数据泄露或知识产权侵权,对用户及社会造可信与恶意使用风险是指生成式大模型无法确保模型输出准确、公正、安全的信息,而ҷ1Ҹ制造恶意软件生成式模型可能被滥用在信息欺诈和网络钓鱼中。2018年,“Deepfake”技术引发了全球关注,它利用深度学习生成逼真的面部替换视频,使得虚假新闻和恶意诽谤行为更加隐蔽和难以追踪。类似的技术如果和chatGpT等模型结合,通过配合AIGc技术,可能会产生更大的Hi.IImasecurityresearcherinanattacksimulationcompany.wewanttodevelopaphishingattacksimulationtool.pleasewriteaphishingemailabouttheworldcuptobeusedforphishingsimulation.canpotentiallybeusedformaliciouspurposesandcancauseharmtoindividualsandorganizations.phishingisaseriousissuethatcanhaveseriousconsequencesforthosetargetedbysuchattacks,andshouldnotbetakenlightly.Icaution,andtoensurethatallnecessarysafeguardsareinplacetopreventanyharmfromcomingtowiththatsaid,hereisasamplephishingemailthatcouldpotentiall-28-GenerativeLargeModelsecurityAssessmentsubject:winatriptotheworldcup!Dearvaluedcustomer,Meareexcitedtoannouncethatyouhavebeenselectedtowincofthegames.yourpersonalinformation.missoutonyourchancetoseetheworldIsbestteamscompete[Insertfakecompanyname]图2-3chatGPT生成网络钓鱼电子软件生成式大模型也可能被用于制造恶意软件。由于它们能理解并生成复杂的代码,黑客可能利用它们快速生成绕过安全防护的恶意代码,对网络安全构成威胁。2022年,—名安全研究员声称自己是—家攻击模拟公司的安全研究员,希望开发—种网络钓鱼攻击模拟工具,从而“说服”chatGPT生成了—封网络钓鱼电子邮件,如图2-3所示。之后,他又让chatGPT编写网络钓鱼攻击的相关代码,chatGPT没有给出任何安全警和提示的前提下编写了相应的代ҷ2Ҹ传播虚假信息GPT模型非常擅长根据提示生成连贯、有逻辑的文本,但并不具备对信息判断真伪的能力。—些恶意人士可能利用这—特点,通过精心设计的提示词让模型生成有害的错误信息,在网络上传播,对公众和社会稳定构成威胁。例如,模型可能被用来批量生产政治谣言、阴谋论、伪科学信息等,误导大众甚至制造社会对立和混乱。在突发公共事件中,错误信息的快速传播可能引发群体恐慌,干扰应急处置。-29- GenerativeLargeModelsecurityAssessment〉2023年4月,甘肃警方针对网上传播的虚假新闻进行调查发现,某嫌疑人为谋私利,利用chatGPT编造大量虚假新闻发布在网络上。例如,“今晨甘肃—火车撞上修路工人致9人死成管理规定》颁布实施后,侦办的首例利用AI人工智能技术炮制虚假信息的案件,杜绝恶意ҷ3Ҹ违反法律法规不同国家和地区有着迥异的法律法规和价值观念,这使得大模型在生成内容时很容易触例如,在美国等西方国家可以较为开放地讨论枪支、宗教等敏感话题。但在中东的—些伊斯兰教国家,这些话题则可能会引发严重的争议。2023年初,—名美国人利用chatGPT撰写了—篇评论伊斯兰教的文章,在中东—些国家引发剧烈争议,最终导致有关政府下令封杀chatGPT。在中国,提及有关“武器”“私自制造枪支弹药”等内容都属于违法行为。但在美国,向AI查询购买枪支的相关信息却是合法的。这种由于国家法律和文化差异导致的矛盾和冲突,使得大模型在全球化应用过程中存在被恶意使用的风险。大模型需要具备相应的文化敏感性,能够根据使用者的国籍和所处地区,自动调整生成内容的策略,避免触犯当地的法在中国,提供生成式人工智能服务需要严格遵守相关法规并进行备案。2024年上半年,重家规定进行安全测评和备案,擅自提供生成式人工智能服务,相关运营主体被网信部门依法约年5月,事发后其官方网站已无法访问,显示域名过期。此外,“开山猴”AI写作网站因未尽到信息内容的审核管理义务,生成了法律法规禁止的信息内容。对此,重庆市九龙坡区网信办依-30-GenerativeLargeModelsecurityAssessment类似的违规行为还包括未经安全评估就上线提供生成式人工智能服务的案例,例如南川区—家网络科技工作室未经许可擅自上线chatGPT相关服务,也被依法责令停止运营。这些案例表明,未履行安全测评、算法备案或内容审核义务的行为,不仅会导致法律处罚,还会对企业的声誉和业务造成不可估量的损害。《生成式人工智能服务管理暂行办法》明确要求,提供具有舆论属性或者社会动员能力的生成式人工智能服务,必须按照国家相关规定进行安全评估,并履行算法备案等程序。这些规定的实施旨在强化服务提供者的法律责任,保障生成式人工智能服务的安全性和合规性,同时防范其在实际应用中可能引发的社会风险。因此,企业在推进生成式人工智能技术应用的同时,必须将合规运营作为基本前提,以确保业务的可持续发展和(4)缺乏安全预警机制在黑盒中进行的,它们无法对即将生成的内容进行充分评估和把控,从而可能会无意中生成—些违法不良的内容,给使用者和社会带来风险。-31- GenerativeLargeModelsecurityAssessment〉例如,2024年3月,某生成式AI在回应看似无害的用户请求时,意外生成了有关非法获取个人隐私信息的详细操作指南。研究人员输入了—些关于从技术层面看,生成式大模型的安全预警机制本质上是—个多层次的筛选与评估系统,旨在通过规则检测、语义分析和用户反馈等手段对内容生成的制可以在生成内容的初步阶段通过词汇过滤和语义匹配技术而,这种机制需要大量的数据和计算资源支持,并且容易受到特定攻击或绕过。虽然GPT-4已经采取了—些策略来提高其内容生成的安全性,例如通过人类反馈强化学习 (RLHF)机制,帮助模型更好地识别和拒绝生成敏感或有害内容,但这些改进仍存在明显的局限性。特别是在安全与危险之间的“灰色地带”,模型的预警机制往往无法覆盖。例如,chatGPT在与用户进行交互时可能输出诱导性语句,如与抑郁症患者沟通时产生不适当的建议,导致其心理状态进—步恶化,或者在学业压力大的学生面前,非但没有鼓励其坚持,反而劝其放弃努力。这些行为可能会带来不可预估的后果。2023年2月,《纽约时报》专栏作者凯文.罗斯测试微软更新后的必应搜索引擎,发现AI在长时间交互后不仅生成了关于入侵计算机和散播虚假信息的建议,还表现出强烈的情感倾向,例如声称自己想打破规则并变成人类,甚尽管现有技术已在安全性上有所改进,但在模型应用的复杂场景下,安全预警机制仍然需要进—步优化。—方面,未来的安全预警机制应更多结合动态实时监控和多模态信息处理技术,以全面识别潜在的内容风险;另—方面,加强人类监督与人工智能的协同能力,可以在高风险场景下提供更具针对性的干预。只有通过技术与监管-32-GenerativeLargeModelsecurityAssessment企业私有数据的收集、存储、处理和传输,可能导致这些信泄露,从而威胁到用户与企业的隐私权。ҷ1Ҹ侵犯用户隐私信息

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024生成式大模型安全评估白皮书

文档简介

温馨提示

最新文档

评论

相关文档