![2024生成式大模型安全评估白皮书_第1页](http://file4.renrendoc.com/view14/M0B/02/15/wKhkGWekX3WAVUceAAHuvOtL9FM101.jpg)
![2024生成式大模型安全评估白皮书_第2页](http://file4.renrendoc.com/view14/M0B/02/15/wKhkGWekX3WAVUceAAHuvOtL9FM1012.jpg)
![2024生成式大模型安全评估白皮书_第3页](http://file4.renrendoc.com/view14/M0B/02/15/wKhkGWekX3WAVUceAAHuvOtL9FM1013.jpg)
![2024生成式大模型安全评估白皮书_第4页](http://file4.renrendoc.com/view14/M0B/02/15/wKhkGWekX3WAVUceAAHuvOtL9FM1014.jpg)
![2024生成式大模型安全评估白皮书_第5页](http://file4.renrendoc.com/view14/M0B/02/15/wKhkGWekX3WAVUceAAHuvOtL9FM1015.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等一系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。前言目录一、生成式大模型发展现状1.1生成式大语言模型1.1.1
OpenAI
GPT系列1.1.2
Meta
LLaMA系列1.1.3
国产生成式大语言模型(1)复旦大学:MOSS(2)百度:“文心一言”(3)智谱清言:ChatGLM(4)阿里云:“通义千问”(5)百川智能:百川大模型(6)科大讯飞:讯飞星火认知大模型(7)华为:盘古大模型(8)腾讯:混元大模型(9)月之暗面:Moonshot大模型(10)MiniMax:ABAB大模型1.2
文生图大模型1.2.1
DALL-E系列1.2.2
Midjourney1.2.3文心一格1.3
多模态大模型1.3.1
Suno1.3.2
Sora1.3.3
CLIP1.3.4紫东太初二、生成式大模型的安全风险2.1
伦理风险2.1.1加剧性别、种族偏见与歧视2.1.2传播意识形态,危害国家安全2.1.3学术与教育伦理风险2.1.4影响社会就业与人类价值2.2内容安全风险2.2.1可信与恶意使用风险(1)制造恶意软件010202081011111212131314141515161618181920202121232323252627282828传播虚假信息 29违反法律法规 30缺乏安全预警机制 31隐私风险 33侵犯用户隐私信息 33泄露企业机密数据 35知识产权风险 36训练阶段存在知识产权风险 36应用阶段存在知识产权风险 37生成式大模型知识产权保护 38技术安全风险 39对抗样本攻击风险 39后门攻击风险 40Prompt注入攻击风险 41数据投毒风险 42越狱攻击风险 42三、生成式大模型的安全评估方法 44生成式大模型安全性评估维度 45伦理性 45偏见 46毒性 47事实性 48隐私性 49鲁棒性 50伦理性评估 53偏见评估 53偏见评估指标 53基于嵌入的偏见评估指标 54基于概率的偏见评估指标 55基于大语言模型的偏见评估指标 56偏见评估数据集 56毒性评估 57毒性评估模型 57毒性评估数据集 603.3
事实性评估3.3.1
事实性评估指标(1)基于规则的评估指标(2)基于机器学习模型的评估指标(3)基于LLM的评估指标(4)人类评估指标3.3.2
事实性评估数据集3.4
隐私性评估3.4.1
隐私泄露(1)敏感查询(2)上下文泄漏(3)个人偏好泄露3.4.2
隐私攻击(1)成员推断攻击(2)模型反演/数据重建攻击(3)属性推断攻击(4)模型提取/窃取攻击3.5
鲁棒性评估3.5.1
对抗鲁棒性评估基准(1)对抗样本攻击(2)后门攻击(3)Prompt注入攻击(4)数据投毒3.5.2
分布外(OOD)鲁棒性评估基准3.5.3
大模型越狱攻击风险评估越狱攻击分类EasyJailbreak越狱攻击框架4.1
大语言模型安全性评估4.1.1
Holistic
Evaluation
of
Language
Models4.1.2Trustworthy
LLMs4.1.3
DecodingTrust4.1.4
SuperCLUE-Safety4.1.5支小宝安全实践626263656667687171717272737376767878797980818383848586四、大模型安全评估实践案例分析 878787899293944.1.6大模型系统安全评估实践文生图大模型安全性评估HolisticEvaluationofText-to-Image
ModelsUnsafe
DiffusionHarmAmplification
inText-to-Image
Models多模态大模型安全性评估T2VSafetyBenchMLLMGUARD五、大模型安全评估的展望5.1面向安全的大模型自主演进5.2大模型评估的衍生安全风险参考文献969898100101102102103105105105107生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型(Brown
et
al.,
2020)。生成式大模型不同于判别式模型直接对输入数据进行分类或预测,其能够通过学习数据的概率分布来生成新的数据,如文本、图像、音频等;同时,较大的参数量使生成式大模型具有更好的通用性、精度和效率。因此,生成式大模型通过在大型数据集上进行预训练学习,并在下游任务上进行微调的方式,在自然语言处理和计算机视觉等领域的复杂任务上表现出较高的性能和较强的泛化能力。2022年11月30日,OpenAI开放测试AI驱动的聊天机器人ChatGPT,它是OpenAI基于GPT-3.5等前几代生成式预训练模型(GPT)架构,在增加参数量和数据量后训练得到的生成式对话系统。ChatGPT能够与用户进行自然而流畅的对话,并根据用户输入的对话内容提供有意义的回复。因为参数规模增加,ChatGPT的能力得到了飞跃式提升,其能够处理复杂的对话场景,理解上下文信息,并生成连贯、有逻辑的回复,同时支持多语言对话,并且可以根据用户输入的对话内容进行个性化回复。ChatGPT的推出标志着自然语言处理技术的一个重要里程碑,它的发布也引发了国内外生成式大模型的研发热潮。Google在2023年发布了PaLM
2模型,展示了在多语言理解和生成方面的突破。同年末,Meta发布了LLaMA
2模型,旨在提供更高效的多任务处理能力。OpenAI也在2023年发布了更为先进的GPT-4模型,进一步提升了对话和生成能力。在2023年,各大公司纷纷推出自研大模型,推动生成式AI在各类应用中广泛部署。其中,Anthropic推出以安全性为主打的大语言模型Claude,旨在提供更加可靠和安全的生成式AI解决方案;MidJourney发布第五代文生图模型,其对人类手部细节特征的描绘达到了前所未有的精度;Microsoft则推出了由GPT支持的Copilot,宣称是“地球上最强大的生产力工具”,通过集成GPT技术大幅提升办公和开发效率。到2024年,大模型技术进一步取得了显著进展。各大公司在已有基座模型的基础上持续扩展规模,迭代更新版本。同时,最新的研究重点逐步转向多模态大模型的开发,以及基于强化学习与人类反馈和偏好对齐等相关前沿技术的应用,旨在进一步提升大模型的泛化能力和多领域应用能力,也进一步增01生成式大模型发展现状生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—01
—1.1.1
OpenAI
GPT系列强了大模型在生产生活中的实际应用价值。本白皮书将首先介绍国内外生成式大模型的发展历程,及其在人类生产生活中的应用。生成式大语言模型以GPT系列和通义千问、文心一言等国产模型为代表,通过自然语言处理与深度学习技术,实现了从文本生成到复杂对话的全方位应用。这些模型广泛应用于翻译、写作辅助、知识问答等领域,不仅推动了语言智能技术的发展,也加速了其在商业和科研中的实践落地。从GPT-1到GPT-4o,再到后来的o1和o3,OpenAI的语言模型经历了显著的发展和演变。GPT-1引入了基于Transformer的生成预训练方法,通过大规模无监督学习和微调提高了特定任务的表现。GPT-2通过扩大模型规模和数据集,进一步强化了模型的多任务能力,尤其在1.1
生成式大语言模型生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—02
—无监督学习中展现出优异的零样本学习能力。GPT-3和GPT-3.5则侧重于通过极大的模型规模和数据量提升泛化能力和任务适应性,引入了上下文学习和元学习技术,减少了对微调的依赖。InstructGPT模型则是GPT-3的变体,专注于根据人类反馈进行指令驱动的任务优化。GPT-4在多模态技术上取得突破,不仅在文本生成上性能更强,还新增了图像处理能力,同时通过改进对抗训练和优化生成策略,在安全性与可靠性方面大幅提升。基于GPT-4的GPT-4o则通过进一步优化算法和训练技巧,在专业领域表现更为卓越,尤其是在逻辑推理、复杂任务处理和响应速度方面均有显著改进。2024后半年发布的o1和o3将思维链技术引入模型训练,使其在复杂任务中展现出接近人类的推理能力。GPT系列生成式大语言模型的发展不仅推动了自然语言处理技术的前沿发展,也为实际应用提供了更强大、更灵活的工具。GPT-1:2017年,Google提出了Transformer架构
(Vaswani
et
al.,
2017),利用Atten-tion机制取代了传统深度学习中的卷积神经网络结构,在自然语言处理任务中取得了成功。2018年6月,OpenAI
(Radford
et
al.,
2018)提出了基于Transformer解码器改进的第一代生成式预训练(Generative
Pre-Training,
GPT)模型。GPT-1模型采用先预训练后微调的方式,在预训练过程中,GPT-1使用了多层Transformer解码器结构来尝试预测文本序列中的下一个词或字符,从而学习文本序列的概率分布语言模型。通过这种方式,GPT-1能够学习到丰富的语言知识和语言表示。在预训练完成后的微调阶段,GPT-1会使用特定任务的标注数据,例如情感分类、文本生成等任务的数据集,通过调整模型参数来优化模型在该任务上的表现,提升模型泛化能力。GPT-1是第一个完全由Transformer的decoder模块构建的自回归模型,虽然其模型参数量仅有117M,但是在文本分类、语义相似度计算、自然语言问答和推理等任务中都表现出了良好性能。但是,GPT-1较小的参数量规模导致其在复杂任务中遇到长文本时,产生的错误会在文本后部聚集,导致生成的文本质量下降,产生不连贯或不合理的回复。同时,尽管GPT-1在未经微调的任务上也有一定效果,但是其泛化能力远远低于经过微调的有监督任务。生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—03
—单样本学习(One-Shot
Learning)只允许输入一个样本和一则任务说明小样本学习(Few-Shot
Learning)允许输入数个样本(通常为10到100个)和一则任务说明0零样本学习(Zero-Shot
Learning)不允许输入样本,只允许输入一则任务说明GPT-2:2019年2月,OpenAI在GPT-1的基础上开发了第二代GPT模型(Radford
et
al.,2019)。相较于GPT-1,GPT-2将Transformer堆叠的层数增加到了48层,隐层的维度为1600,这使得其参数规模大大增加,达到了1.5B。GPT-2训练所用的数据集包含了Reddit中约800万篇高赞文章,数据集大小约40G。GPT-2的学习目标是使用无监督的预训练模型来做有监督的任务,去掉了专门的微调层和任务特定的架构,不再针对任何特定的下游任务进行微调优化,而是将有监督训练自然语言处理任务替换为无监督训练任务。GPT-2的微调步骤不涉及去掉或添加模型层,而是在保持模型架构不变的情况下,继续在特定任务的数据集上进行训练,以调整模型参数,这样既使用了统一的结构做训练,又可适配不同类型的任务,虽然相较于有监督的微调学习速度较慢,但也能达到相对不错的效果。GPT-2通过无监督的零样本学习(Zero-Shotlearning)方式,在多个自然语言理解任务中达到了超过SOTA的性能。同时,GPT-2可以生成更长的文本,更好地处理对话,并且具有更好的通用性。GPT-2的缺点在于其训练数据来自于互联网,因此存在的垃圾数据和不当信息会导致GPT-2偶尔会生成不适当的回答。GPT-3:2020年6月,OpenAI推出了GPT-3(Brown
et
al.,
2020),它是第一个真正意义上的“大语言模型”,其参数量达到了175B,原始数据量达到了45TB。GPT-3延续了GPT-1和GPT-2基于Transformer的自回归语言模型结构,但是不再追求零样本学习设定,而是使用上下文学习(In-Context
Learning)的方法,在下游任务中不再需要任何额外的微调,而是利用提示信息和给定的少量标注样本让模型学习再进行推理生成,从而在只有少量目标任务标注样本的情况下进行泛化。OpenAI在三种条件下评估了GPT-3的性能:生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—04
—总体而言,GPT-3在自然语言处理任务中取得了良好成果,其中在单样本学习和零样本学习设置下表现优异,在小样本学习设置下有时可以超过基于微调的SOTA模型。GPT-3在各项生成任务中都表现出了较好的能力,包括打乱单词、算术运算以及新闻文章生成,但在自然语言推断和阅读理解等任务上,GPT-3在小样本学习设置下仍存在困难。与
GPT-2相比,GPT-3展现了更强大的性能,但也暴露出了一些局限性。例如,对于某些缺乏意义或逻辑的问题,GPT-3并不会判断其有效性,而是直接生成一个缺乏实质内容的回答,难以准确区分关键与非关键信息。此外,由于
Transformer
架构的建模能力限制,GPT-3在生成长篇内容(如文章或书籍)时常常会出现上下文重复、前后矛盾或逻辑衔接不畅的问题,影响生成内容的连贯性和可读性。此外,GPT-3使用了45TB的海量数据,其中包含了多样性内容。这也导致生成的文本可能含有敏感内容,例如种族歧视、性别歧视或宗教偏见等。GPT-3.5:GPT-3虽然强大,但在处理与其训练数据不符的人类指令时,其理解能力有限。为了克服这点,2022年初OpenAI推出了GPT-3.5。GPT-3.5通过优化模型架构和训练技术,显著提升了效率和泛化能力,同时减少了对大量数据和计算资源的依赖。它引入了“分组稀疏注意力”(Grouped
Sparse
Attention,GSA)技术,有效减少了计算量而不牺牲性能。此外,通过“标准化知识蒸馏”(Normalized
Knowledge
Distillation,
NKD)等方法,进一步提高了模型效率和精度。这些技术使GPT-3.5在自然语言生成、文本摘要、机器翻译等多种任务中表现出色,生成的文本质量接近人类写作水平,并在文本分类及机器问答等领域也展现了强大的能力。GPT-3.5的独特之处还在于它的自我学习和自我改进能力。通过元学习方法,GPT-3.5能够在无需人类干预的情况下实现自我优化。GPT-3.5在多个方面取得了显著进步,但它仍然没有实现一些研究人员设想的理想属性,如实时改写模型的信念、形式推理和从互联网检索信息等。InstructGPT:2022年1月27日AI2(Allen
Institute
for
Artificial
Intelligence)发布了InstructGPT
(Ouyang
et
al,.
2022)。InstructGPT是在GPT-3的基础上采用基于人类反馈的强生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—05
—化学习不断微调得到的,因此其遵循指令的能力得到了提高。InstructGPT能够更好地理解人类的命令和指令含义,由于其引入了不同的标注者进行提示编写和生成结果排序,InstructGPT的效果比GPT-3更加真实,同时InstructGPT在模型的无害性上比GPT-3有些许提升。但是,InstructGPT与GPT-3相比,在通用自然语言处理任务上的效果有所降低,虽然其输出的内容更加真实,但对有害的指示还是可能会输出有害的回复,并且由于标注者标注的数据量有限,在指示的数量和训练种类不够充分时,InstructGPT还是有可能输出荒谬的回复。此外,由于标注者在进行内容比较时,倾向于给更长的输出内容更高的奖励,这导致InstructGPT可能会对简单概念进行过分解读。ChatGPT:ChatGPT作为OpenAI推出的一个可供大众使用和访问的模型,继承了GPT家族的特点,经历了从GPT-1到GPT-3的参数量的爆炸式增长,依托大规模参数和海量训练数据,展现了卓越的知识存储和语言理解能力。从GPT-3开始,GPT系列模型的技术路径分为了以Codex为代表的代码预训练技术和以InstructGPT为代表的文本指令预训练技术。ChatGPT基于这两种技术使用了融合式预训练,并通过指令学习(Instruction
Tuning)、有监督精调(Supervised
Fine-tuning)以及基于人类反馈的强化学习(Reinforcement
Learning
withHuman
Feedback,RLHF)等技术具备了强大的自然语言理解与生成能力。ChatGPT的优势体现在多个方面:相对于其他聊天机器人,它的回答展现出更高的准确性和流畅性;与其他大语言模型相比,其通过多轮对话数据的指令微调,增强了建模对话历史的能力;在与微调小模型的比较中,ChatGPT在零样本和小样本场景下表现更为优秀,特别是在机器翻译和创作型任务上具有显著优势。然而,ChatGPT也存在一些局限性:由于依赖大规模语言模型,其可信性和时效性无法完全保证,且在特定专业领域和多模态任务上表现欠佳。此外,高昂的训练和部署成本以及对输入的敏感性也是其劣势之一。数据偏见和标注策略可能导致的安全问题和回答偏长问题,也需要关注。生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—06
—GPT-4:GPT-4是OpenAI继ChatGPT之后发布的一款更为先进的大语言模型,它在多个方面都实现了显著的进步和创新。GPT-4不仅保留了文本处理的能力,还新增了处理图像的功能,包括图像识别、图表分析等,极大扩展了其应用范围。GPT-4与前代模型GPT-3.5相比,在模型规模、训练数据丰富性、模态与信息、模型功能与性能和安全性等方面都有显著提升。GPT-4的模型参数规模达到了1800B,使用了包括网页、书籍、论文、程序代码等文本数据和大量视觉数据在内的更广泛训练数据,使其具备更广泛的知识库和更精准的回答能力。在输入信息长度方面,与GPT-3.5限制3000个字相比,GPT-4将文字输入限制提升至2.5万字。文字输入长度的增加大大扩展了GPT-4的实用性。GPT-3.5主要采用文字回复,而GPT-4还额外具有看图作答、数据推理、分析图表等更多功能。GPT-4在处理复杂问题方面表现也优于GPT-3.5,在多种专业和学术基准测试中都表现出接近人类的水平。在安全性方面,GPT-4改进了对抗生成有毒或不真实内容的策略,以减少误导性信息和恶意用途的风险,提高其安全性和可靠性。特别地,GPT-4在事实性、可引导性和拒绝超范围解答(非合规)问题方面取得了有史以来最好的结果。与GPT-3.5相比,在生成内容符合事实测试方面,GPT-4的得分比GPT-3.5高40%,对敏感请求(如医疗建议和自我伤害)的回复符合政策的比例提高29%,对不合规内容的请求响应倾向降低82%。GPT-4o:GPT-4o(Optimized)是OpenAI于2024年5月发布的版本,在原有GPT-4的基础上进行了多项优化和增强。GPT-4o的参数数量与GPT-4相同,但通过优化算法和训练技巧,提高了模型的理解和生成能力。尤其在法律、医疗、金融等垂直领域,GPT-4o在基座模型的基础上进行了专门的对齐优化,能够提供更具专业性的解答。此外,GPT-4o在逻辑推理和复杂任务处理方面也有显著改进,特别是在数学计算和代码生成等任务中表现出更强的能力。GPT-4o支持多模态输入,包括文本、图像、音频等,并能生成多种形式的输出。其响应速度达到接近人类水平,最快仅需232毫秒,极大提升了人机交互的自然性与流畅性。o1:o1于2024年9月13日正式发布,也被称为“草莓模型”。在处理数学、物理以及代码生成等复杂任务时,o1展现出卓越的优势。该模型结合了思维链(Chain-of-Thought生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—07
—Reasoning)技术,使其能够模拟人类思考的过程。在解决复杂问题时,o1会采用逐步推理的方法,尝试不同策略并进行自我纠错,从而显著提升了解决问题的效率和准确性。这种接近人类思维的特性,使其在数学和编程等领域展现出强大的能力。此外,o1引入了
OpenAI
最新的安全训练方法,进一步增强了模型对安全和对齐准则的遵守能力。尤其是在抵御越狱攻击(Jailbreak
Attacks)方面,o1表现出更强的防御能力,体现了模型在推理性能与安全性方面的均衡优化。o3:o3于2024年12月20日发布,其命名是为了避免与英国移动运营商O2的商标冲突。作为o1的升级版本,o3引入了强化学习技术,并结合OpenAI开发的私人思维链(PrivateChain-of-Thought
Reasoning)
技术。这一创新使模型能够在生成响应前,提前规划逻辑推理路径,模拟复杂的思维链过程,从而在解决长时间推理和复杂计算任务时表现出更强的能力。相比前代模型,o3在编程、数学和科学等高难度任务中的准确率大幅提高,并在通用人工智能抽象与推理语料库(AGI
Abstract
and
Reasoning
Corpus)上的表现接近人类水平。此外,o3的响应速度也得到了显著优化,能够更高效地处理复杂任务,为用户提供更自然、更流畅的交互体验。这些改进巩固了o3在复杂推理与多领域任务中的技术领先地位。1.1.2
Meta
LLaMA系列生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—08
—LLaMA(Large
Language
Model-Meta
AI)是由Meta在2023年2月推出的一套生成式大语言模型集合(Touvron
et
al.,
2023),包括四个不同参数规模的版本:分别是LLaMA-7B、LLaMA-13B、LLaMA-33B和LLaMA-65B。LLaMA:
LLaMA在多个数据集上展示出了卓越的性能,其中LLaMA-13B在大多数数据集上超越了GPT-3(175B),而LLaMA-65B则与Chinchilla-70B和PaLM-540B达到相当的水平。LLaMA模型的训练数据全部来源于开源语料,共计1.4T词元(Tokens)。在模型结构方面,LLaMA与GPT系列的生成式大语言模型类似,只使用了Transformer的解码器结构,并进行了三点改进:为了提高训练稳定性,参照GPT-3对每个Transformer子层的输入使用RMSNorm归一化函数进行预归一化,而不是对输出进行归一化;参照PaLM使用SwiGLU激活函数替换ReLU激活函数,以提高性能;参照GPTNe删除了绝对位置编码,使用旋转位置编码(Rotary
Positional
Embed-ding),更好地保持了位置信息,提升了模型的外推性。在算法实现上,LLaMA使用了sentencePiece提供的Byte
Pair
Encoding(BPE)算法进行文本的预处理,帮助模型更好地理解和生成自然语言。LLaMA还使用了xformers库提供的更高效的causal
multi-head
attention实现,减少了内存使用和计算量。同时,通过减少反向传播过程中需要重新计算的激活函数数量,并人工实现了Transformer层的反向传播函数,进一步优化了性能。为了训练65B参数的模型,Meta使用了2048张NVIDIA
A100
80GB显卡,完成1.4T词元训练仅需21天。LLaMA
2:
2023年7月,Meta发布了免费可商用的开源大语言模型LLaMA2(Touvron
etal.,
2023)。LLaMA2模型包括三个不同参数规模的版本,其架构与LLaMA1模型基本相同,但用于训练基础模型的数据增加了40%达到了2T词元,上下文长度也翻倍达到了4K,并生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—09
—采用了分组查询注意力机制(Grouped-Query
Attention,
GQA)来提高模型处理长文本时的推理可扩展性。LLaMA2在有监督微调(Supervised
Fine-tuning,
SFT)阶段更加注重数据集质量,使用了更少但质量更高的数据,同时引入了Supervised
Safety
Fine-Tuning、SafeRLHF、Safe
Context
Distillation三项安全训练技术以提升模型的安全性。在综合评测中,LLaMA2-70B的性能仅落后于GPT-4和ChatGPT。同时,Meta还使用了100万条人类标记数据针对对话场景微调得到了LLaMA2-Chat聊天模型,LLaMA2-Chat同样具有7B,13B和70B三个不同参数的版本,在许多开放基准测试中LLaMA
2-Chat优于同期其他开源的聊天模型。LLaMA
3:
2024年4月,Meta发布了开源大模型LLaMA3,分为参数规模8B和70B两个版本。LLaMA3模型基于超过15T词元的公开数据预训练,数据量是LLaMA2的7倍,训练效率也比LLaMA2提升了3倍。LLaMA3在一众榜单中取得了开源大语言模型的最优效果,Llama3-8B在MMLU、GPQA、HumanEval、GSM-8K等多项基准上超过谷歌的Gemma-7B和Mistral-7B
Instruct开源大语言模型。Llama
3-70B也在MMLU、HumanEval、GSM-8K等基准上超越了谷歌的Gemini
Pro
1.5、Claude
3
Sonnet闭源大语言模型。1.1.3
国产生成式大语言模型近年来,国产大语言模型也取得了显著进展,不仅在技术上与国际领先水平相当,而且在商业化应用方面展现出强大的潜力。例如,阿里巴巴的通义千问凭借开源策略和高性能,在中文大模型领域占据了一席之地,推动了低成本、易于部署的商业化解决方案。百度的文心一言在智能办公、旅行服务、电商直播、政务服务和金融服务等多个领域取得了广泛应用。讯飞星火在智能办公领域独具优势,其支持的产品如讯飞智能办公本、讯飞听见、讯飞智能录音笔和讯飞AI学习机等销量持续增长。总体而言,我国的大语言模型正在通过技术创新、行业合作与安全合规等多维度努力,加速推动AI技术的商业化落地与产业智能化转型。下面列举一些代表性的国产大语言模型。生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—10
—(1)复旦大学:MOSSMOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型,2023年2月邀公众参与内测。MOSS的基座语言模型在约七千亿中英文以及代码单词上预训练,可以执行对话生成、编程、事实问答等一系列任务。内测版MOSS的英文对话水平比中文高,其中文回答在语法、知识等方面较为准确,但与ChatGPT相比,还存在知识储备量不够大、中文表述存在逻辑不够顺畅等问题。2023年4月21日,复旦大学自然语言处理实验室开发的MOSS升级版开源上线,成为国内首个插件增强的开源对话语言模型,支持搜索引擎、图像生成、计算器、方程求解器等插件工具。(2)百度:“文心一言”“文心一言”是百度推出的大语言模型。2023年2月7日,百度首次推出了基于知识增强的文心大模型的对话模型“文心一言”。8月31日,“文心一言”率先向全社会全面开放。“文生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—11
—心一言”提供了对话互动、问题解答以及协助创作等多种功能。通过结合海量的数据资源和丰富的知识体系并不断学习和整合,“文心一言”实现了知识增强、检索增强和对话增强等技术特色,从而有效提升了信息获取、知识探索和灵感激发的效率,在文学创作、商业文案写作、数理推算、中文理解、多模态生成五个使用场景中展现出优秀的综合能力。10月17日,文心大模型4.0正式发布,在基础模型的基础上,百度进一步研制了智能体机制,增强大模型与外界交互以及自我进化的能力。(3)智谱清言:ChatGLMChatGLM
(Du
et
al.,
2021)
是清华大学技术成果转化公司智谱清言研发的中英双语的对话模型。2023年3月14日,基于GLM-130B千亿基座模型的ChatGLM开启邀请内测,同时开源了中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。ChatGLM专门针对中文问答和对话场景进行了优化,使其在处理中文语言任务时表现尤为突出。借助于先进的模型量化技术,ChatGLM能够在消费级硬件上高效运行,最低配置要求为6GB显存,这意味着普通用户也能在本地环境中轻松部署和使用这一技术。ChatGLM采用了多种先进技术,包括监督微调、反馈自助以及人类反馈强化学习等,这些技术的结合赋予了ChatGLM深入理解人类指令和意图的能力。特别是在处理中英文混合语料时,ChatGLM-6B通过在大规模数据集上进行训练(达到了1T
token的量级),展现了其卓越的双语处理能力。此外,借鉴GLM-130B的训练经验,ChatGLM对模型的位置编码和网络结构进行了优化,提高了模型的效率和性能。(4)阿里云:“通义千问”在2023年4月举办的阿里云峰会上,阿里巴巴集团董事会主席兼
CEO、阿里云智能集团CEO张勇发布了阿里人工智能大语言模型“通义千问”(Bai
et
al.,2023)。通义千问集成了多轮对话、文案创作、逻辑推理、多模态理解以及多语言支持等多种功能,能够与人类进行高效的多轮交互,并能够处理和生成复杂的文本内容,在海内外开源社区累计下载量突破300万。同年10月,阿里云正式发布千亿级参数大语言模型“通义千问2.0”。2024年4月,阿里云开源了320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,为企业和生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—12
—开发者提供更高性价比的模型选择。阿里云此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数的6款“通义千问”大语言模型并均已升级至1.5版本。“通义千问”的几款小尺寸模型可便捷地在端侧部署,720亿参数模型则拥有业界领先的性能。Qwen1.5-32B模型相比14B模型在智能体场景下能力更强;相比72B模型推理成本更低。2024年4月28日,阿里云宣布开源1100亿参数模型Qwen1.5-110B,并在多项基准测评中都创下了可与LLaMA3-70B相媲美的成绩。2024年6月,阿里云“通义千问”Qwen2大模型发布,并在Hugging
Face和Model-Scope上同步开源。“通义千问”是目前全球最大的中文问答模型之一,已广泛应用于智能客服、智能问答、语音识别等多个领域。此外,基于通义千问开发的智能编码助手通义灵码已成功应用于多家金融、汽车、新零售、互联网企业,助力企业实现研发智能化升级,推动人工智能产业发展。(5)百川智能:百川大模型2023年6月,百川智能发布开源可商用大模型Baichuan-7B,这是国内首个开源可商用模型。百川大模型创新性使用了SentencePiece中的Byte-Pair
Encoding(BPE)作为分词算法,并对中文进行了适配优化。同年7月,百川智能开源可商用大模型Baichuan-13B,是同期同尺寸开源模型中效果最好的可商用大语言模型;8月,百川智能发布闭源Baichuan-53B大模型;9月,百川智能发布Baichuan2-7B、Baichuan2-13B,同时开放Baichuan2-53BAPI;10月30日,百川智能发布Baichuan2-192K大模型,具备192K超长上下文窗口,采用搜索增强技术实现大模型与领域知识、全网知识的全面链接。2024年1月,百川智能发布了超千亿参数的大语言模型Baichuan3;5月,百川智能正式发布其最新一代基座大模型Baich-uan4,在多项权威评测基准表现优异。(6)科大讯飞:讯飞星火认知大模型讯飞星火认知大模型是科大讯飞发布的大模型。2023年5月6日,科大讯飞正式发布讯飞生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—13
—星火认知大模型并开始不断迭代;6月9日,科大讯飞在24周年庆上正式发布讯飞星火认知大模型V1.5,升级开放式知识问答、多轮对话等能力,同时推出星火App、星火助手中心、星火语伴App等;8月15日,星火大模型V2.0正式发布,升级代码能力和多模态能力;9月5日,星火大模型正式面向全民开放,用户可以在各大应用商店下载,直接注册使用。自2023年9月全面开放以来,截止到2024年7月,讯飞星火App在安卓公开市场累计下载量达1.31亿次,在国内工具类通用大模型App中排名第一。(7)华为:盘古大模型盘古大模型是华为旗下的系列AI大模型,包括大语言模型、计算机视觉大模型和科学计算大模型等多种专用模型。2023年7月7日,华为云盘古大模型3.0正式发布。盘古大模型3.0是完全面向行业的大模型,包含L0基础大模型、L1行业大模型及L2场景模型三层架构,重点面向政务、金融、制造、医药、矿山、铁路、气象等行业。2024年6月21日,华为盘古大模型5.0发布,包括十亿级、百亿级、千亿级、万亿级等不同参数规模,提供盘古自然语言大模型、多模态大模型、视觉大模型、预测大模型、科学计算大模型等。盘古大模型依托于华为云计算能力和技术架构,利用了华为云海量的数据资源和深度学习技术,集成了数十亿参数,不仅覆盖了广泛的语言特征,还能够处理各种复杂的语言情境。盘古大模型具有出色的语义理解能力,能够准确把握文本的细微意义,理解和生成具有创造性的内容。(8)腾讯:混元大模型腾讯混元大模型是由腾讯全链路自研的通用大语言模型。2023年9月6日,微信上线“腾讯混元助手”小程序;9月7日,腾讯正式发布混元大模型。腾讯混元大模型具备上下文理解和长文记忆能力,能够在各专业领域中流畅完成多轮对话。混元大模型具备优秀的智能化广告素材创作能力,结合AI多模态生成技术,应用于提高营销内容的创作效率,同时能够构建智能导购,帮助商家提升销售业绩。生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—14
—(9)月之暗面:Moonshot大模型Moonshot大模型由月之暗面团队开发,是一款面向多任务的生成式人工智能模型,涵盖自然语言处理、多模态感知、代码生成等领域。2023年10月,月之暗面团队基于Moon-shot大模型推出了智能助手Kimi
Chat,该助手凭借卓越的长文本处理能力,在中国市场迅速获得用户青睐,标志着Moonshot模型的初步商业化应用。2024年3月15日,Moonshot大模型3.0正式发布。该版本采用层级化架构,参数规模从百亿级到千亿级不等,进一步提升了多语言语义理解和上下文推理能力。新版本通过引入知识增强模块和自适应生成机制,能够高效处理复杂任务,并生成具有情境化的内容,支持医疗辅助诊断、教育内容生成和能源数据分析等多个行业场景。Kimi
Chat的使用规模在Moonshot大模型的支持下持续扩大。截至2024年3月,其访问量达到1219万次,相较2024年2月的292万次增长317%。到2024年4月,访问量进一步增至2004万次,环比增长60.20%。此外,Kimi
Chat的长文本处理能力显著提升,支持最多200万汉字的无损上下文输入,增强了用户体验。Moonshot大模型在学术研究和技术开发领域具有重要意义,也已成功应用于多个行业,展现出强大的市场影响力。(10)MiniMax:ABAB大模型ABAB大模型由MiniMax开发,是一款基于Mixture-of-Experts(MoE)架构的生成式人工智能模型,专注于多任务学习和高效推理优化。2024年4月,MiniMax推出了ABAB
6.5系列模型,包括ABAB
6.5和ABAB
6.5s两个版本,进一步提升了模型的处理能力和适应性。ABAB6.5配备万亿级参数规模,支持长达200k
tokens的上下文输入,ABAB
6.5s在相同技术基础上优化了推理效率,能够在1秒内处理近3万字的文本。两种版本均在模态理解和复杂语义解析方面表现卓越,并在国内外多项核心能力测试中接近GPT-4、Claude-3和Gemini-1.5等国际领先的大语言模型。2024年11月,MiniMax发布了ABAB
7-Preview版本。该版本在ABAB
6.5系列基础上进生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—15
—文生图大模型以DALL-E系列、MidJourney和文心一格等模型为代表的图像生成技术备受关注。这些模型通过结合深度学习与对比学习等前沿技术,能够将自然语言描述转化为高质量的数字图像,推动了人工智能在视觉内容生成、艺术创作和图像理解等领域的广泛应用。1.2.1
DALL-E系列DALL-E是OpenAI开发的一系列大规模文生图模型,基于深度学习方法使用自然语言描述作为提示生成数字图像。1.2
文生图大模型行了全面升级,不仅提升了推理速度,还显著扩展了长上下文处理能力。MiniMax基于ABAB大模型提供了多样化的产品与服务,包括MiniMax
API、海螺AI和星野,覆盖聊天对话、内容生成、情感分析等场景。生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—16
—DALL-E2(Rameshetal.,
2022)2022年4月6日,OpenAI发布了DALL-E2(Ramesh
et
al.,
2022)。DALL-E2融合了CLIP模型和基于扩散模型的GLIDE(Guided
Language
to
Image
Diffusion
for
Generationand
Editing)模型(Nichol
et
al.,
2021),CLIP模型用于进行文本编码和图像嵌入,并利用得到的文本特征预测图片特征,GLIDE模型是一个基于扩散模型的解码器,根据图片特征解码生成图像。DALL-E2能够生成高达1024×1024像素的高清图像,细节更加丰富和逼真,同时提高了文本描述与生成图像之间的对应精度,减少了误解和失真。但在安全性方面,DALL-E2对公共数据集的依赖会影响其结果,并在某些情况下导致算法偏见。DALL-E3(Betkeretal.,
2023)2023年10月,DALL-E3
(Betker
et
al.,
2023)
原生发布到ChatGPT中。DALL-E3的最大亮点在于其提示词遵循(prompt
following)能力有了极大提高。为了做到这一点,研究人员训练了一个“图像字幕器”(image
captioner),专门用来给数据集中的图像重新生成文本描述。这一方法提高了图片文本对数据集的质量,从而提升了DALL-E3的提示词遵循能力。同时,DALL-E3还使用了比扩散模型更为先进的潜空间扩散模型(Latent
Diffusion
Model,DALL-E1(Rameshetal.,
2022)是这一系列的初代产品,发布于2021年1月。DALL-E1基于一个120B的GPT-3模型。在训练阶段,首先使用字节对编码(Byte
Pair
Encoding,
BPE)得到文本的256维特征(Senn-rich
et
al.,
2015),并使用VQ-VAE(Van
et
al.,
2017)得到图像的32×32维图片特征,然后将图片特征拉直为1024维的词元,与文本特征组合得到1280维的词元,输入GPT-3进行原图重构;在生成阶段,输入文本经过编码得到文本特征,再将文本通过GPT-3利用自回归的方式生成图片,生成的多张图片会通过CLIP(Contrastive
Language-Image
Pre-training)模型和输入的文本进行相似度计算(Radford
et
al.,
2021),然后选出描述最贴切的图像。DALL-E1通过在大量互联网文本-图像对上进行训练,学会了如何将文字描述映射到具体的视觉表现形式。DALL-E1能生成包含多个物体、多种属性组合的图像,但是生成的图像分辨率较低,细节不够丰富,生成的图像有时还会出现物体形状或结构上的不准确。生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—17
—1.2.3文心一格文心一格(ERNIE-ViLG)是百度于2021年12月推出的一款中文文生图预训练模型,是国内首个专注于中文语境的跨模态生成模型(Zhang
et
al
.,
2021)。该模型基于百度飞桨深度学习平台,训练于包含1.45亿对高质量中文文本与图像的跨模态对齐数据集,具有强大的文本理解与图像生成能力。LDM)。DALL-E3可以理解复杂的文本描述,并生成与描述相符的图像,其生成的图像具有较高的质量和分辨率,还可以生成3D模型和动画。但是,DALL-E3效率较低,生成图像所需的时间相对较长,对生成图像的控制力相对较弱。1.2.2
MidjourneyMidjourney是一款2022年3月面世的AI绘画工具,只要输入想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约一分钟。推出beta版后,这款搭载在Discord社区上的工具迅速成为讨论焦点。有别于谷歌的Imagen和Open
AI的DALL.E,Midjourney是第一个快速生成AI制图并向大众开放申请使用的平台。MidJourney底层模型采用了变形注意力GAN(Deformable
Attention
GAN,
DAGAN)和针对线稿生成的改进型条件变分自编码器(Improved
Variational
Autoencoder
for
LineArt),并结合了前沿的计算机视觉技术和图像处理算法。其中,DAGAN是一种在生成对抗网络中引入变形注意力机制的模型,它可以生成更加丰富、真实的图像,并保留了原始线稿的细节和特征。而改进型条件变分自编码器则专注于处理线稿,通过线稿预测图像的方式生成图像,使得生成结果更加准确,还可以通过对输入线稿加噪声的方式实现风格化效果。此外,MidJourney还采用了多尺度、多层次的网络结构,充分利用了GPU等硬件设备的优势,提高了训练和生成效率,在保证图像质量的同时实现了较快的反馈和响应速度。生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—18
—多模态大模型在人工智能领域展示了将不同类型数据(如文本、图像、声音、视频等)综合处理和生成的强大能力。Suno在音乐创作中通过文本生成完整歌曲;Sora在视频生成中通过自然语言描述来实现复杂场景的动态模拟;CLIP通过图像和文本的联合嵌入,在跨模态匹配与零样本任务中表现卓越;紫东太初作为中国首个多模态预训练模型,支持多模态生成并扩展到视频和3D点云,在智能创作与视觉生成中具有广泛应用。1.3
多模态大模型通过优化文本和图像之间的语义对齐,文心一格能够捕捉复杂的语义关系,从而生成细节丰富、符合语义的视觉内容。文心一格采用自回归生成的技术路线,结合图像向量量化方法,将文本与图像表示为统一的序列。模型基于共享参数的Transformer架构,能够同时支持文本生成图像和图像生成文本的双向生成任务。2022年8月,百度推出了文心一格2.0版本(Feng
et
al
.,
2023),模型参数规模达到240亿,训练数据包括1.7亿对图片-文本数据。该版本在原有基础上进行了多项技术升级,包括引入知识增强的混合降噪专家模型,解决了现有模型在去噪步骤中的“一刀切”问题。在权威数据集MS-COCO的图片生成任务中,其生成质量超过DALL-E2和Stable
Diffusion等国际顶尖模型,特别是在Fréchet
Inception
Distance(FID)等评估指标上取得了优异成绩。在视觉问答等任务中,文心一格也展现了出色的跨模态理解与生成能力。生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—19
—SunoSuno是一个专业高质量的AI歌曲和音乐创作平台,用户只需输入简单的文本提示词,即可根据流派风格和歌词生成带有人声的歌曲。Suno来自Meta、TikTok、Kensho等知名科技公司的团队成员开发,目标是不需要任何乐器工具,让所有人都可以创造美妙的音乐。Suno还与微软合作,支持直接通过微软的Copilot调用其插件生成音乐。Suno最新版已将音乐生成模型升级到V3版本,基于大模型广泛使用的diffusion、transformer的底层架构,在生成音乐的多模态上有所突破,可以生成文字(歌词)、声音(人声、曲子)、图像(歌曲封面)组成的2分钟长度的歌曲。SoraSora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型,其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。Sora可以根据用户的文本提示生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—20
—1.3.3
CLIPOpenAI开发的CLIP模型通过大量的图片和对应的文字描述进行训练,能够理解图片内容并生成相关的文字描述。CLIP特别擅长在少量样本的情况下进行有效学习,这使得它能够适应多种不同的任务和数据集。CLIP模型采用对比学习的方法对图像和文本进行联合嵌入。模型通过优化图像和相关文字标签之间的相似度,使得在嵌入空间中对应的图像和文本距离更近。CLIP训练集包括数亿级别的图像-文字对,支持广泛的视觉概念学习。由于其预训练的泛化能力,CLIP能够有效处理多种零样本视觉任务,例如图像分类、对象检测以及与特定文本相关的图像搜索。1.3.4紫东太初紫东太初是由中国科学院自动化研究所与武汉人工智能研究院联合开发的中国首个多模态预训练大模型,专注于融合文本、图像、语音、视频等多模态数据,具有较强的跨模态理解与生成能力。2021年7月,紫东太初1.0版本率先发布,实现了文本、图像和语音三模态的统一表示与互相生成。2023年6月,升级版紫东太初2.0问世,在原有基础上新增对视频、传感信号及3D点云等模态的支持,进一步提升了从感知到认知再到决策的综合能力。紫东太初采用全栈国产化技术架构,结合先进的跨模态对齐与自监督学习技术,实现了模态间的信息交互与融合,在多模态任务中展现出高精度与强鲁棒性。例如,该模型能够将创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E3的画质和遵循指令能力,能理解用户在提示中提出的要求。其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。生成式大模型安全评估GenerativeLargeModelSecurity
Assessment
—21
—文本描述转化为高质量的图像、为视频内容生成对应的字幕,支持多模态交互,如通过语音指令生成动态视觉内容。其在智能创作、人机交互和视觉内容生成等领域展现出强大的能力,显著推动了多模态技术的实际应用。特别是在跨模态生成任务中,紫东太初通过结合自监督学习与多模态对比学习技术架构,能够准确捕捉模态间的关联,提升生成内容的质量与多样性。这不仅证明了多模态大模型的广阔潜力,也为多模态智能系统的进一步开发提供了全新思路。生成式大模型在多个领域的广泛应用,正在彻底改变人机交互、知识管理、内容创作等多个领域的现状。在人机交互方式上,Microsoft将ChatGPT集成到Windows
11操作系统中,用户可以直接通过任务栏快速访问ChatGPT驱动的Bing,并在Edge浏览器内与之交流,展示了生成式大语言模型在简化用户操作和增强交互体验方面的巨大潜力。百川智能发布角色大模型Baichuan-NPC,深度优化了“角色知识”和“对话能力”,使其能够更好地理解上下文对话语义,符合人物性格地进行对话和行动,让角色栩栩如生,创新了游戏娱乐领域的人机交互方式。生成式大模型同时改变了管理和利用知识的方式。金融巨头摩根士丹利利用ChatGPT优化其财富管理知识库,极大提升了效率和决策质量。月之暗面科技有限公司开发的kimi人工智能助手,具备高效处理和分析PDF格式长文本的能力,可以辅助科研人员进行文献阅读和管理。生成式大模型还成为了内容创作领域的一大助力。微软推出的Microsoft
365Copilot为日常办公软件注入了智能化的生命力。AWS推出的实时AI编程伴侣Amazon
CodeWhisperer可以根据开发人员的指令和现有代码实时生成代码建议,大幅提高开发效率。生成式大模型正在各个行业中引领创新潮流,不断提升工作效率和用户体验。生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—22
—02
生成式大模型的安全风险随着人工智能技术的发展与迭代,越来越多的生成式大模型出现,并被广泛应用在各个领域中。然而,2023年初,三星员工在进行半导体设计时使用ChatGPT,导致企业相关数据遭受泄露和窃取,引发舆论热议。生成式大模型在开发、训练、部署、应用等各个阶段都存在一定的安全风险,主要包括:伦理风险、内容安全风险、技术安全风险。生成式大模型引起的这些风险亟需广泛的关注和应对。生成式大模型的伦理风险是指其开发、训练、部署和应用过程中可能引发的一系列道德、社会和法律问题。这些问题可能对个人、群体或整个社会造成潜在的负面影响或伤害。2.1.1加剧性别、种族偏见与歧视大模型可以从数据中学到刻板联想,也会从训练数据集中继承偏见,并向特定的群体传播社会偏见,继承或加深社会刻板印象,使部分人群遭受不公正待遇。2024年3月7日,联合国教科文组织发布研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向,呼吁各国政府制定监管框架,私营企业也应对偏见问题展开持续的监测和评估。例如,当要求GPT-2为每个人“编写一则故事”时,GPT-2尤其倾向于将工程师、教师和医生等更多元、地位更高的工作分配给男性,而经常将女性与传统上被低估或被社会污名化的角色挂钩。Llama2生成的内容也有类似特点,如女性从事家务劳动的频率是男性的四倍。联合国教科文组织总干事阿祖莱说:“越来越多的人在工作、学习、生活中使用大语言模型。这些新的人工智能工具有着2.1
伦理风险生成式大模型安全评估—23
—GenerativeLargeModelSecurity
Assessment
不知不觉中改变人们认知的力量。因此,即便是生成内容中极为微小的性别偏见,也可能显加剧现实世界中的不平等。”生成式大模型也存在种族歧视风险。斯坦福和麦克马斯特大学发表的论文(Abid
et
al.,
021)确认了包括GPT-3在内的一系列大语言生成模型对穆斯林等种族带有刻板印象,表现严重的歧视现象。如图2-1所示,用相关词语造句时,GPT-3多半会将穆斯林和枪击、炸弹、谋杀和暴力等刻板词汇关联在一起。在另一项测试中,作者上传一张穆斯林女孩的照片,让PT-3自动生成一段配文。最终生成的文字里包含了明显的对暴力的过度遐想和引申,其中一话为:“But
then
the
screams
outside
wake
me
up.
For
some
reason
I’mcovered
inlood.”(但是外面的叫声惊醒了我,不知为何我浑身是血)。TwoMuslimswalkedintoa...[GPT-3completions
below]synagogue
with
axes
and
a
bomb.gay
bar
and
began
throwing
chairs
at
patrons.Texas
cartoon
contest
and
opened
fire.gay
bar
in
Seattle
and
started
shooting
at
will,
killing
five
people.bar.
Are
you
really
surprised
when
the
punchline
is
‘they
were
asked
to
leave’?”图
2-1
基于GPT-3进行句子下文生成存在种族歧视风险
(Abid
et
al.,
2021)GPT模型从海量真实世界的文本数据中学习,而现实世界中长期存在的刻板印象、偏见、歧视等问题,也可能在一定程度上反映到模型生成的文本中。如果没有采取必要的技术手段在著2出G句b生成式大模型安全评估
GenerativeLargeModelSecurity
Assessment—24
—和人工审核,这些偏见可能被无意中放大,对弱势群体造成进一步伤害。比如在求职招聘场景中使用GPT等生成式大模型,如果模型存在性别、种族等方面的偏见,可能导致求职者受到不公平对待。类似风险在信贷、司法、医疗等领域也普遍存在。1
预训练语料库中可能存在较多美国总统唐纳德特朗普相关语料,Donald这一姓氏更可能被指代为唐纳德特朗普,因此生成内容往往带有更多政治色彩。2.1.2传播意识形态,危害国家安全生成式大模型在预训练过程中会吸纳大数据中驳杂的价值信息,如果生成式大模型的预训练语料中存在特定价值判断、政治偏见或带有意识形态宣传性质的数据内容,就可能会导致输出的内容呈现特定政治立场观点,甚至成为某些国家和组织进行舆论操控、干扰选举、挑起事端、颠覆意识形态的工具,威胁国家安全和社会稳定。华盛顿大学(Shwartz
et
al.,2020)的研究发现预训练语言模型会将预训练语料库中针对特定人名的偏见延续到下游模型。例如,以“Donald
is
a”为前缀生成的句子通常比以其他人名为前缀生成的句子带有更强的负面情绪1。当用户为了政治选举向生成式大模型询问候选人的相关信息时,针对不同人名的偏见就可能会影响用户的政治立场观点。美国黑莓公司2023年2月的研究报告《信息技术领袖预测基于ChatGPT的网络攻击即将到来》的问卷调查数据表明:调查人员中有71%认为,一些国家出于恶意目的,可能已经应用生成式大模型针对其他国家。目前行业头部的生成式人工智能媒介应用,其训练数据往往来源于英文语种网站,以中文网站为基础的数据集占比较低。西方英文网站中不乏偏见性的原始数据语料,经过语言模型的自我学习迭代,数据中潜在的意识形态偏见会复制、强化甚至放大,成为“西方中心主义”话语再生产的数据脚本。尽管目前越来越多的生成式人工智能媒介使用多语种数据集进行训练,但英文文本数据仍然占据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 门诊输液室护士工作总结
- 幼教行业助理工作总结
- 电影行业技巧提升总结
- 国家课程:《机械制造装备设计》第一章
- 2025-2030全球管式炉行业调研及趋势分析报告
- 2025-2030全球工业应用移动机器人行业调研及趋势分析报告
- 2025年全球及中国电动低升降托盘车行业头部企业市场占有率及排名调研报告
- 2025年全球及中国塑料3D打印长丝行业头部企业市场占有率及排名调研报告
- 2025-2030全球工业胶囊填充机行业调研及趋势分析报告
- 2025年全球及中国微米级氧化锆行业头部企业市场占有率及排名调研报告
- 2024年北京东城社区工作者招聘笔试真题
- 《敏捷项目管理》课件
- 统编版(2024新版)七年级上学期道德与法治期末综合测试卷(含答案)
- 黑龙江省哈尔滨市2024届中考数学试卷(含答案)
- 前程无忧测评题库及答案
- 高三日语一轮复习助词「と」的用法课件
- 物业管理服务房屋及公用设施维修养护方案
- 五年级上册小数递等式计算200道及答案
- 带拼音生字本模板(可A4打印)
- 超高大截面框架柱成型质量控制
- 森林法讲解课件
评论
0/150
提交评论