版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生成式人工智能的快速崛起评估安全风险2023年12月0阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森CETaS. 2谢. 摘要 建议 8介. 11史. 11伐. 13法论. 17治险. 202.1安全. 21全. 28全. 33源. 36限. 43箱结. 433.2式管理. 524.理法规. 554.1报告 564.2“线”. 664.3势. 674.4治理. 684.5训障. 74研究. 77究结. 究成. 者. 章封面和封底使用的图像是由OpenAI的DALL‑E2生成的。1生成式人工智能的快速崛起:评估安全风险。2阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森执行摘要这份CETaS研究报告探讨了生成式人工智能对国家安全的影响。这些调查结果和建议基于公开文献和对政50生成式人工智能是人工智能的一种形式,可以根据用户建议生成图像、音频和文本等内容。一些人认为,大量可生成式人工智能还提供了在国家安全界使用的潜在机会。目前,生成式人工智能工具太不可靠且容易出错,(LLM3生成式人工智能的快速崛起:评估安全风险采用”定义为人工智能的不恰当和误导性的实现和部署“DIY对于明显恶意的生成式人工智能用例,威胁可以被理解为属于数字安全、物理安全和政治安全三类之一。数字安全网络安全通过降低所需的专业知识程度,生成高其复杂性。不太确定的是是否生成式人工智能将实现全新类型的网络攻击,即使已经意识到最国家重大长期关切安全视角。
物理安全激进化和恐怖主义个人现在可以形成的个性化关系然而,仍然存在一个成式人工智能可能更有助于美化而不是激进化。
扰生成式人工智能可能是政治力量倍增器虚假信息。这的累积效应这些方式可以有ȯ抹黑恶意人工智能启用信息手术。
武器说明
监视、监视和地缘政治分裂诈骗者将受益匪浅可以协助欺诈者
专制标准和4阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森
攻击计划。如果WebAPI允许将会加剧。
值,帮助尝试强制执行单一版本历史的真相,未来的真相几代人。民主国家可能更容易受到剥削欺诈自动化
的创作特点域。
性 和生成人工智能使用的行为方面儿童性虐待材料
演员。
世界。CSAM继谁有。能作为情报周期的方向、收集、处理和传播阶段的“认知副驾驶”,可以缓解分析师在“事实贫乏、意理境体 量。5生成式人工智能的快速崛起:评估安全风险(缓解措施是问责制、透明度以及对代理采取的行动和系统执行的推理的人工监督。为了应对上述复杂的形势,政府必须制定具有三个主要目标的政策†预措施:提高对生成人工智能系统的可(信令报告红线水印披露和多层和发布策略可解释性社会技术的抢占高风险自动添加标签或评估能力的快速提升可以挑战无形的与人工智能相关要了解意思是上下文水印到人工智能生成内容是一个检测工具特别强调披露何时使用生成式人工智政策制定者对下一次游戏规则变化准备不足在哪里不应该是可能的技术的能,并就适当使用和警告发布明确的指导能力创新。用过的遗嘱防止解决方案生成式人工智个人模型。A情况哪里的能的挑战已启用多层,社会技术的发者承诺技术可以采取虚假信息。系统方法避免释放不可逆转的然而,滥用。更好的评价是型号不带行动担忧坚持其易受故意攻结果将是相互依赖的水ȯ需要了解如何没有直接人类击的弱点人际互动过程必须公开透明监督或授权。系统提供的可解释和系统因素相互作用性和个人解释人工智能力能输出的能力。技术的完全绕过它。生成模型的组成部分来放大不同类型的风险。足以确保公众对其的信任结论。6阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森2023年11赖的法学硕士的研究本质上需要来自不同学科的专家,包括语言学、计算机科学、认知心理学、网络安全、和政策。应用推动逐底竞争,从而破坏这项积极的工作。7生成式人工智能的快速崛起:评估安全风险建议人工智能系统评估新的人工智能安全研究所应采取的步骤来开发世界领先的人工智能评估生态系统:它允许跨部门的决策者审查系统细节,并就其风险偏好和对设想用例的适用性做出明智的判断。情报分析“机器遗忘”等技术可能有助于解决这一挑战。自主代理这些部门同样如此:(OWASP案例。架构不得掩盖或破坏源自法学硕士的可解释性的任何潜在方面。LLM8阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森网络安全和培训虚假信息和选举(Ofcom委员会。Ofcom激进化和恐怖主义语音克隆旨在解决语音克隆领域的技术挑战的倡议。这个分组生物监视网络,其中包括实时生物威胁雷达监控威胁和风险。生成式人工智能应该被回顾性地纳入其中9生成式人工智能的快速崛起:评估安全风险监测框架。1还应与英国化学武器公约国家机构咨询委员会分享有关化学武器应用和技术的现状报告和简报。CSAMCSAMCSAMAI与国际刑警组织协调创建用于生成CSAM的新模型数据库。这将补充现有的虐待儿童图像数据库(CAID)。这可能是一个探索创建自动检测功能的ȯ台,以检测这些模型何时被犯罪分子使用。尽管没有直接提及生成人工智能,但提到了“新的、潜在的极端风险”、新的“网络生物安全风险”和更广泛的滥用,即“更多的人现在拥有以\hsecurity‑strategy‑html10阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森(AI(AIE(OpenAI)2Midjourney3StableDiffusionBard(Google)4ChatGPT(OpenAI)5LLaMA(MetaAI)6用于从文本提示生成文本。2Dall,\h3中途旅程,\h。4谷歌,巴德,\h。5OpenAIChatGPT\h/chatgpt。6Meta“LLaMA02月42023年,\h/blog/large‑language‑model‑llama‑meta‑ai/。11生成式人工智能的快速崛起:评估安全风险图1.捕捉这个故事中最重要时刻的人工智能生成时间线77如需更详细的时间表,请参阅\hhttps://cetas.turing.ac.uk/publications/rapid‑rise‑generative‑ai。12阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森20世纪6020168年Tay,人工智能已经享有盛誉()91所示Transformer2017LLMs10GPT(“和(“s12GPT和BERT都使用了类似的型。 13下表说明了用于训练LLM的参数数量和令牌数量14的急剧增加。15eHuntIyr634\h2016/mar/24/tay‑microsoftsai‑chatbot‑gets‑a‑crash‑course\hin‑racism‑from‑twitter。\hmDilmegani“2023年0I用,3年0月6日,generative‑ai‑applications/。MichaelRDouglasv(2023年0月),\h18年6月1日,\h/research/language‑unsupervised。bDevlin和Mingie8年1月2blog.research.google/2018/11/bert\h‑state‑of‑art‑pre.html。iiv(2021年8月),\h\hDaniel“GPT‑30年8月5日,;rn“Transformerv年5月),\h;Mohammed“GPT‑4PMohammeddMedium3年3月9\h了解的所有信息‑\hnlps‑game‑changer‑109b8767855a。13生成式人工智能的快速崛起:评估安全风险年份(发布)模型#参数#代币2018年GPT1.1亿1十亿2018年伯特3.4亿30亿2019年GPT‑215亿100亿2020年GPT‑31750亿5000亿2022年棕榈5400亿7800亿2023年GPT‑41.8万亿(估计)13万亿(”)然4从头开始开发法学硕士而不是使用所有的信息来微调预先训练的模型19HuggingFaceReplicateLLM202120Python2023Google(MetaLLM3年2Ae和]I.OpenAI
21来自开源的竞争\hniv(2022年0月),2206.07682。Maximilian“GPT‑4eDecoder,3年7月1日,\h/gpt‑4‑architecture‑datasets‑costs‑and‑more‑\h了。83年8月0\h‑\h发布/思考安全人工智能系统。9C3年8月0日,\h.uk/blog‑post/exercise‑caution‑building‑off‑llms。0ni和lAMistralTa3年10月17日,\h/top‑大语言模型‑llms‑gpt‑4‑\h美洲驼加托开花以及何时选择其中一个。1Dylanl和lI\hIe和3年5月4日,。14阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森22生。 看能22获得更多增量效率提升:模型将更小,微调所需的数据更少,同时运行成本更低且更环保。23年份型号创作者笔记2022绽放24大科学来自250多个机构的1000多名研究人员的合作2022法兰UL2谷歌Apache‑2.0许可证允许商业使用2023美洲驼25元人工智能申请Meta后可用于学术用途2023羊驼毛26斯坦福大学从LLaMA进行微调;不可用于商业用途2023聊天GLM27清华大学Apache2023美洲驼228大学元人工智能免费用于研究和商业用途2023克劳德229人择目前仅在美国和英国提供2023MPT‑7B30
MosaicML开源;获得商业用途许可312023佩索蒙‑8B32
TII
免费用于研究和商业用途开源;Apache许可证允许商业使用
LMSYS组织开源;仅限非商业用途许可2023米斯塔尔7B342023多莉2.035
数据块
Apache‑2.0许可证允许商业使用开源;获得商业用途许可2lDouglasHeaven3年5月2\hna。3in“LoRAShearv(2023年0月),\h4neo“BLOOMBv(2023年6月):\h5Hugon“LLaMAv(2023年2月),\h\h6ni“Alpaca3年3月3日,2023/03/13/alpaca.html。27ChatGLM,\h。8,\h29人类,克劳德2,\h/index/claude‑2。0MosaicMLP“MPT‑7BMMosiacML3年5月5日,\h1n,\h\h2hnt3年9月7日,www.adept.ai/blog/persimmon‑8b。3“Vicuna*T4Sg2023年3月30日,\h/blog/2023‑03‑30‑vicuna/。MistralI“MistralMistralI3年9月7/。Miker“FreeDollyData3年4月2\h\h指令调整‑LLM。15生成式人工智能的快速崛起:评估安全风险尽管法学硕士的表现迅速提高,但对于许多观察者来说,法学硕士已经成为因“幻觉”而臭名昭著。37
36这些“幻觉”可能导致普遍缺乏信任3839t0这种幻觉体现了法学硕士如何模糊真实与虚假、可靠与不可靠之间的界限。去年,人工智能在日常生活中的应用从主要是拼ChatGPTDALL‑E40OpenAI20123.441RichardSutton2019的教训》中指出,42更多数据的可用性比改进底层神经网络架构和训练它们的算法发挥了更大的作用。数据质量也会显着影响模型的成功;
43如果数据集很大n“ChatGPT(2023年8月),\h;kMcKennaarXiv(202310),\h/abs/2305.14552。ky和HamidT1(2023)。\ha“ChatGPTIZDNET,3年6月9日,/article/chatgpts‑hallucination‑just‑got‑openai‑sued‑heres‑what‑happened。9\hy0,3年2月9日,2023/02/09/1155650909/google‑chatbot‑‑error‑bard0eHaggartT3年2月6日,\h/agenda/2023/02/why‑chatgpt‑raises‑issues‑of‑trust‑ai‑science。9年1月1日,https://\h/2019/11/11/132004/the‑\h倍。\hh()9年3月3日,BitterLesson.html。mn3sproceedings.neurips.cc/paper_files/paper/\h.html。16阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森随着组织和个人寻求保护受版权保护的材料,新技术和立法也可能会减少高质量数据。44I%%45之前也曾做出过类似的预测(10,000264)往往46最近的估计表明生成式人工智能可以在63个用例中每年为全球经济增加2.6万亿至4.4万亿美元(英国2021年的GDP总额为3.1万亿美元),
47但问题仍然在于如何本研究试图解决以下四个研究问题:(‧识别和分析合成生成的媒体并可靠地将其与人类生成的媒体区分开来?应对生成式人工智能工具激增带来的潜在风险(RQ1中确定)?\ha“ChatGPT(2023年8月),;\h9年1月1ga“BBCTI,3年0月9日,\h:\htakes‑measures‑to‑restrict‑chatgpt‑ai‑from‑crawling‑its\h容。5au“GPTarXiv(20233),\h/abs/2303.10130。R1年1月7r10\h/区。7Michaeli3年6月4\hnext‑productivity‑frontier#business‑value。17号生成式人工智能的快速崛起:评估安全风险2023年6月至950CETaS于2023年10民间社会、执法部门和政府的专家,主要在第二章“激进化和恐怖主义”小节中提到。情报领域的机会和限制;该领域未解答的技术问题或挑战;以及政策制定者可用的治理和政策反应的范围。(1和GitHubLLM_OSINT充分析,其中包括对Gen‑MAS‑Sim的性能和局限性的评估。这是未来研究的重要途径。1819阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森19生成式人工智能的快速崛起:评估安全风险风险48e说服、欺骗以及新颖的攻击,这些攻击利用了基于分析人类行为、情绪和信仰的能力的提高可用数据。3年7月5日。9MileseI820\h/blobby/go/3d82daa4‑97fe‑4096‑9c6b‑376b92c619de/downloads/MaliciousUseofAI.pdf?ver=1553030594217。20阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森扰语境。图2.生成式人工智能在政治信息生态系统中的作用50202210CETaS(3(GPT‑3结合增强的机器翻译功能,这可以实现大规模自动生成虚假新闻和信息。21生成式人工智能的快速崛起:评估安全风险51讲的视频如果提供一系列音频和图像,比如政治家接受记者提问,并附上涵盖假定演讲内容的基于文本的新闻文章,那么在另一种方法可能是将真实图像与不诚实的视频或音频混合在一起。对现有沟通和循证机制的破坏可能与说服人们相信谎言的能力一样严重。53息活动达到新的令人信服程度,而不再面临相同的资源3年6月0日;Mustafa“InflectionIMustafa\h工3月5\h举现在人工智能2024年政治。3年7月1日;cHorvitzDeepfakes”2I)661\h/doi/abs/10.1145/3536221.3558175。3年7月1日。4sMoran“ChatGPT3年4月6\hapr/06/ai‑chatgpt‑guardian‑technology‑risks‑fake‑article\h3年7月7日;DiS(2023年8月),publications/synthetic‑media‑and‑election‑integrity‑defending‑our22阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森56受众可以通过大规模自动生成的有说服力的消息来定位,同时也可以通过一对一的基于消息传递的活动来定位。()5859例如,20239(展望2024年202310(KeirStarmer活动策略。63在NCSC的2023(⋯⋯)3年6月6日;nwn和MicahMusser(CSET1年5月):\h/。\h7r3年8月1日,;ygv(2023年月),\h/abs/2211.09110。3年8月1日;h.nIdmodels‑and‑automated‑influence‑operations\hemerging‑threats‑and。3年7月1日;3年7月90aIDeepfakes3年9月9\hno\h。到442048eHarbath和a3年3月0日,\h2MorganMeaker“Deepfake3年0月9日,\hhttps://www.wired.co.uk/article/keir‑starmer‑deepfake‑audio。202371923生成式人工智能的快速崛起:评估安全风险66有几篇论文进行了研究,以确定人们是否更容易被人工智能或人类生成的错误信息所欺骗。67在GPT‑3功能的中, 68370“NCSCC314\hsignificant‑threat‑to‑uks\hh.nh347ai‑powered‑propagandaMichael3年5月1\htPi\hhttps://inflection.ai。\hiaoo3)v(20231):;MatthewhDeepfakev(20210),\hI45NewsGuardGPT‑4GPT‑3.5()GPT‑3.510020GPT‑40osII3年33年3\h/。mn3s/1457c0d6bfcb4967418bfb8ac142f64a‑\h摘要.html。HuiiF3年0月7日,\h24阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森717374()2023823年8月8日。误C()3年8月1日;h.nIdmodels‑and‑automated‑influence‑operations\hemerging‑threats‑and。5D23年4月3/science‑and‑technology/ai\hmodels_13d38f92‑en。25生成式人工智能的快速崛起:评估安全风险7697S·摩尔爵士在最近的一次演讲中提到了这一主题78:中国通过吸纳国外的数据来丰富其国内的庞大数据集。理查德·摩尔爵士的诊断得出了三个核心分析:80nHerre2年9月6日,\hlDrexel和beHill,3年2月6opinion/technology/3871841‑generative‑ai‑could‑be‑an‑\h破。“SIS3年7月9HMG3年7月9日,https://\h.uk/government/speeches/speech‑by‑sir‑richard‑moore‑head‑of‑sis‑19‑july‑2023。3年8月8日。80同上。26阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森4如果从理论上得出结论,这最终可能会破坏言论自由使民主国家在经济和政治上比独裁国家更可行的观念。81从更82(84尽管如此,至少在原则层面上,存在一些全球协调的积极迹象。中国出席2023年11月英国人工智能安全峰会3年7月1日。3年7月1日。3年7月1日;yDing和y3年4月8:\hm观。3年8月8日。85同上。27生成式人工智能的快速崛起:评估安全风险第4章更多地关注全球治理问题,但重要的是要强调生成式人工智能开发和实施的全球方法如何与国内外政治安全直接相关。87对付。从长远来看,从国家安全角度来看,这将是最重要的担忧。助于潜在的攻击者掩盖对极少量数据的操纵,但这仍然会造成不安全。912023年5月的一篇研究论文表明,通过使用\h6aet3年9月6日,/en/insights/new‑generative‑ai‑measures‑in‑china/。87尽管对于模型直接为网络攻击创建代码的能力存在保留,但攻击者需要付出额外的努力来纠正模型产生的恶意软件。3年6月03年7月7日;lk“AI4v年4月),\h;“ChatGPTC3年3月4日,\h.uk/blog‑post/chatgpt‑and‑large‑language‑models‑whats险。rnv(2023年5月),\hssN(2023年9月),\h/10.2139/ssrn.4578165。3年7月9日;irv(2021年0月)。28阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森0入96除了帮助攻击者生成更有效的网络攻击形式之外,人类用户对生成式AI97的过度熟悉或信任也可能大大增加组8M9ChatGPT11%”1002rnv(2023年5月),\h3MITRE\h3年7月0日;lT3年2月\h/technology/\h2023/02/14/chatgpt‑dan‑jailbreak;AndyZou等人,“对对齐语言模型的通用且可转移的对抗性攻击”,arXiv(2023年7月),\h/abs/2307.15043。3年7月9日。96同上。7np和p(MuC,\h/3年7月9日。\hMackDeGuerinT,3年4月6日,\hsamsung‑employees‑leak‑data‑1850307376。\hnT%,3年2月8日,/blog/4‑2‑of‑workers‑have‑pasted‑company‑datachatgpt。202372629生成式人工智能的快速崛起:评估安全风险据报道,欺诈者接受了较低的成功率。然而,生成式人工智能已经开始改变这个等式的两边。102面业试的担。103格 生表 要。104105(参107Mark“DarktraceT3年3月8\h/technology/2023/mar/08/darktrace‑warns‑of‑\hchatgpt起。3年8月8日。4\hyHay1年8月7日,\h(3年),https://\hwww.europol.europa.eu/publications‑events/publications/chatgpt‑impact‑of‑large‑language‑models‑law‑enforcement。nHazell(2023年5月),\h;Daniel“WormGPT–t3年7月3\h击。20237173年7月7日;kn和MohanadHashimC3年0月5\hd\h66987869。3年9y“SpotifyIy3年9月5‑translation\hpilot‑lex‑fridman‑dax‑shepard‑steven‑bartlett/.202371730阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森AI生成CSAMCSAM研究人员正在已知的CSAM论坛中寻找证据,其中成员提供建议CSAMCSAM.1142023726111同上。3年8月13年7月73年8月23年8月83年7月6日;yi和ne3年4月8\hi\h;sd和yBBC2023728\hhttps://www.bbc.co.uk/news/uk‑65932372DavidThielMelissal和aML和n3年6月43告.pdf。113值得注意的是,技术的改进有助于减轻这些漏洞。IT43.5.4yi和ne3年4月8日,\h/blog/predators‑abusing‑generative‑ai。31生成式人工智能的快速崛起:评估安全风险MMCSAM‑117尽管如此,受访者强调了人工智能生成的CSAM的非法性和令人痛苦的性质,以及相对容易访问图像M(CSAM培训在3D20153D1201152023年7月26日对行业代表的采访。3年8月2日。1172023年7月7日对民间社会代表的采访。3年7月7日;8月22023年。202377Davidt和MoniqueMann“3D2年月8t20234\h\h;aDaly“3D3期。(2021年3月),32阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森GPT‑4()123引起公众关注的一个特定部署背景是生化武器背景。124麻省理工学院的一个研究小组进行的一DNADNA议法学硕士将在大流行病级病原体被可靠识别后立即让其广泛使用,包括那些没有接受过实验室培训的人。WebAPIAPI
127如果一个系统s4I3年3月0/2023/03/what‑happened‑when\h事。2023720s4I3年3月0/2023/03/what‑happened‑when‑wmd‑专家‑\h试图制造‑gpt‑4‑ai‑做坏事。3年7月1日;oaeMachinee期。(2022)5e,v(2023年6月),\h126同上。1272023年7月20日对政府代表的采访。33生成式人工智能的快速崛起:评估安全风险128130131个人与人工智能之间的互动,我们现在需要将聊天机器人视为132133\h8Matt,3年1月0日,nuclear‑weapons/articles/could‑chatbot‑teach‑you‑how‑build3年7月4日。130同上。1312023年7月28日对政府代表的采访。132同上。S3年0月4日。S3年0月4日。34阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森135展望未来,监控恐怖组织是否更直接地将生成式人工智能应用于说服任务非常重要例如,通过具有持续可用性和无限耐心的对话代理。一些研究人员将其与游戏环境进行了类比:生成式人工智能可能使用户能够开发更有说服力的叙述、角色和环境,以增加招聘机会。1363年05thl9la“Sarai07al“Sarai138然而,激进化过程中仍然存在明显的人为因素3年1月8news/early‑terrorist‑adoption‑of‑generative‑aiDaniell和MarytDoty3年2月72\h产。\hmnC3年0月6日,news/technology‑67012224。Hannah.Marriot和aI(20239)。35生成式人工智能的快速崛起:评估安全风险()140“法学硕士输出的规模是一种双刃剑资源。当信息丰富时,注意力就会稀缺,并且能够生产大量的3年7月7日;3年8月8rI7年9月5日,\h/explore‑our‑research/publications/commentary/online‑radicalization‑need‑offline‑response。3年8月8日。S3年0月4日。S3年0月4日。36阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森图3.生成式人工智能风险的来源从“恶意人工智能”的角度来看,威胁行为者分为三大类。第一个是国家行为者,他们可能会使用生成式(1433年7月7日。37生成式人工智能的快速崛起:评估安全风险家门。 144展增材制造可能会使这些设施变得更小、更专业,因此更难与生产商业用途生物产品的设施区分开来。146(1483年7月4日。145同上。2023年7月192023年7月173年7月3日。38阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森图4.不同环境下人工智能的不当采用许多受访者对将生成式人工智能工具集成到CNI中表示怀疑和担忧。许多人认为缺乏极高的可靠性(⋯⋯T150人们一致认为,安全关键行业的操作层人员本质上是规避风险的,并且习惯于具有多层保障措施的环境。尽管如此,如果人工智能炒作主导主流媒体,可能会引起担忧\h3年8月2日;igv(2023年8月),/abs/2308.03028。3年7月7日。39生成式人工智能的快速崛起:评估安全风险151CNICNI在CNI之外,还有各种各样的公共服务正在寻求利用的方法受访者:
152一位巧妙地总结了这一点PowerPoint将开始影响我们的工作方式。我们进行交流和互动。41541512023年8月2日对行业代表的采访。3年7月7日。3ri和Mihaela2年6月1\hen‑us/research/uploads/prod/2022/06/Aether‑过度依赖人工智能审查最终版‑\h6.21.22.pdf。154同上。40阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森尽管不是专门针对人工智能的,但公共部门的一个引人注目的例子是英国邮局丑闻,它证明了对技术毫无疑问的信14700Horizon155像这样的案例是一个严厉的警告,表明当人类对声誉受损的恐惧与新技术的拥抱结合在一起时会发生什么。识别并解决可能的缺陷。/DIY“DIY157158TT的,但在销售和营销时却被认为是由人类编写的。160很容易想象这种类型的活动可以在数千个不同的环境中复制。5\h\h服务/邮局丑闻集团行动/。\h6Michaelr和e0年9月0日,content/0138cd7d‑9673‑436b‑86a1‑33704b29eb603年7月4日。3年8月8日。\h9a4Media,3年8月9日,\hgenerated‑mushroom‑foraging‑books‑amazon。160同上。41生成式人工智能的快速崛起:评估安全风险162在图像中1632023717\he3年5月2日,\h/world/2023/may/02/amnesty‑international‑ai‑generated‑images\h‑批\h评。20237342阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森前一章引用了理查德·摩尔爵士2023年7月在布拉格的演讲。在同一次演讲中,他还概述了“人为因素”对于人工智能的至关重要性。GCHQ165ce26MicrosofttMicrosoftOffice167“SIS3年7月9HMG3年7月9:\hes3年7月9日。\hmC和dS(2023年7月),publications/large‑language‑models‑and‑intelligence‑analysis。1662,\h/index/claude‑2。\hd“Microsoft5t‑3年3月6:blog/2023/03/16/introducing‑microsoft‑365‑copilot43生成式人工智能的快速崛起:评估安全风险eIe(“BardExtensions”)。经用户许可,巴德可以阅读电子邮件、个人文档并搜索实时信息,以通过“Google13年1I44oK‑换句话说,相当于单个提示中的300页文本。172(SCSP20239)T4–c的、r、aQScaleDonovan总结报告。ibt\hb2年9月7‑b2年9t的0%%%\hdMarr3年6月7日,2023/06/boost‑your‑productivity‑with‑generative‑ai。0。1\hy“Bardee3年9月9日,bard/google‑bard‑new‑features‑update‑sept‑2023。2\h“DevDayI3年1月6日,DevDayI(ChatGPT)GPT\h/blog/introducing‑gpts。33年9月2\hne。4rMartinaManson3年9月6\htool‑in‑rivalry‑with‑china175ExTrac,\hhttps://www.extrac.ai。6,\h\hmHoque“Quantexaa3年8月1日,/blog/artificial‑intelligence‑innovation。e\h44阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森)I与t180BradleySmithTt183美国国防部正在试验上述的一些商业产品
184并取得了一些早期的成功:(⋯⋯0。185人类。在评估生成式人工智能的作用之前,了解情报分析在国家安全背景下的意义非常重要。(2023年8月179合成,\h。0k片‘ChatGPT’3年4月7:\hC–s\h2023225/story/how‑one‑guys‑ai‑tracked‑the‑chinesek片‘ChatGPT’3年4月7:\h\hDennis“AIt3年7月4日,2023/07/14/can‑ai‑chatbots‑be‑used3年8月0s:\h\h/taskforcelima。5aManson3年7月5日,https://\h/news/newsletters/2023‑07‑05/the‑us‑military‑is‑takeing‑generative‑ai‑out‑for‑a‑\hspin。45生成式人工智能的快速崛起:评估安全风险决定者。图5.描述情报流程的图表资料来源:联合条令出版物2–联合行动的情报、反情报和安全支持(2023年8月)。187.1886\hHMG3年8月7,\hJDP_2_00_Ed_4_web.pdf。187同上。1882023年7月18日对行业代表的采访。46阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森CETaS
190GCHQ首席数据科学家和理查德·卡特博士提供建议(在可预见的未来的产品。他们还写道,未来的研究必须集中于开发能够理解“他们正在处理的信息的背景”的模型he191192发生。189同上。\hmC和dS(2023年7月),publications/large‑language‑models‑and‑intelligence‑analysis。\hh3年8月8日,www.kennethpayne.uk/p/predicting‑putins‑invasion‑with‑ai。3年9月7ITed和Zoe“ChatGPT现在可以访问最新信息”,BBC新闻,2023年9月27日,\hhttps://www.bbc.co.uk/news/technology‑66940771。47生成式人工智能的快速崛起:评估安全风险194乌克兰。
195S197198Talboy和Fuller(2023)199在强制培训中必须考虑到这一点,教育用户了解以下限制:\hl“ChatGPTtg3年5月7日,/role‑playing‑in‑large‑language‑models‑like‑chatgpt。4y“ChatGPT326\h/2023/02/26/llm‑as‑muse‑not‑oracle.html。\h“SIS3年7月9HMG3年7月9:es3年7月9日。adr和rS(2022年2月):\hs析。rHarrisrad和iS(\h3年3月)publications/behavioural‑analytics‑and‑\h全。198同上。9y和arXiv(20238),\h/abs/2304.01358。48阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森法学硕士以及用户界面的设计中包括有关输出的准确性和可靠性的明确警告。所有这些都以自然语言进行;其次,法学硕士的技术演变获得了进一步感知和影响其环境的能力。LLM驱动的代理通常被称为语言代理200或交流202记忆203和规划,代理。
201
204语言法学硕士受益于代理的适应性,为系统提供增强的自主权和动态规划。图6.LLM支持的自主代理n3年6月3日。0n,3年0月0日,\h,3年8月8日,\h“ChatGPT3年6月3日,\h“LangChain\h\h4n,3年6月3日,lilianweng.github.io/posts/2023‑06‑23‑agent。49生成式人工智能的快速崛起:评估安全风险以下是由LLM支持的自主代理框架的三个实例,它们将自我提示与长期记忆相结合,以递归方式尝试完成用户的任务:自动GPTPython使用GPT‑4来行动人为†预。
BabyAGI使用OpenAI(GPT‑3.5和任务优先级。
GPT工程师一个适应性强且可扩展的代理,可基于模型。GPTEngineer通过询问用户澄清要点来采用人机交互。(24/7,3年7月6日,\hv(GPTChatDev70看;nMok\h71BusinessInsider,2023年9月11日,https://\h&IR=T。50阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森作为个人角色,语言代理可以用作:反诈骗系统:充当诱饵,代理吸引骗子,记录他们的研究策略,
(“pre‑方法支持同步数据收集诈骗方法和
骗子。作为团队或社团;多语言代理系统可用于:真实世界数据在哪里稀缺或敏感获得。这样的数据还可以用于提供现实的“噪音”增强情景模拟例如灾难响应或军事。
培训助理:发展人工智能的环境虚拟基础设施可以用于生成现实的用户行为或网络用于测试响应的流量网络安全培训。
代理商还可以提供一致的好处环境所在LLM(应对这些挑战的关键缓解措施是问责制和透明度(OWASP51生成式人工智能的快速崛起:评估安全风险LLM20620501960IreneSolaiman提倡采用梯度框架,该框架提供“访问级别”范围,并强调相关模型的发布方法的显着差异。2116“OWASP0强”,\h‑\hl。209同上。371eIv(2023年2月),\h52阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森索莱曼(2023)。(2023年9月)nn(Meta作MetaMetaLLaMA20233(RLHF)。214nMetann3年9月9日,\hhttps:///sites/default/files/documents/os‑\hylecun‑091923.pdf。3I3年5月4日,\h3年6月7日。3年7月9日。53生成式人工智能的快速崛起:评估安全风险石墙有毒提示。
216几位受访者评论了“持续存在的危险”217218219OpenAI20239“Evals录.222223在国家安全背景下,威胁与机遇之间存在复杂的动态关系。(可以“针对利基问题集进行修改和微调”在某种程度上,封闭模型不能.225\h6nn“LoRA2tBv(2023年0月):\h,v(2023年0月):\h;lr“XSTestv(2023年0月):\h/abs/2308.01263。3年7月73年6月6日。3年7月7日。2192023年7月17日对行业代表的采访。0\hen和lHansene3年0月6日,\h;Hicks\h3年9月2日,conf_proceedings/CFA3031‑1.html。1\h2,\h202371720237173年7月7日;3年7月754阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森英国政府在人工智能治理方面表现出了越来越大的雄心,首先成立了前沿人工智能工作组,在2023年11月英国人工智能安(AISI)AISI226II20238CETaS227人工智能政策方法应具有三个主要目标:生成人工智能的广泛潜在应用意味着有效的风险管理需要跨部门的集中协调。然而,由于这通常需要很长的交付CNI服务。
2296HGM3年1月2\hinstitute7iaS(2023年8月),\hhttps://cetas.turing.ac.uk/publications/strengthening‑resilience‑ai‑risk。3年7月7日;D23年4月3‑d\hmR3年6月7\hg。55生成式人工智能的快速崛起:评估安全风险制定成熟的信号和报告机制应该是政策制定者的首要任务。这些方法可以分为以下几类,但都是相互关联的:信令印 和可解释性
多层和社会技术的评估
报告发布策略((2
230
然而,至关重要的是,难以察觉的文本水印比其他形式的媒体更具挑战性231基于语义的水印可以通过解释文本块来删除。OpenAIMetaGoogleDeepMindAI
233
稳定扩散nn(2023年7月),\h/abs/2305.20030。20902000linEs68011–8028。\hre3年5月0:technology/ai/google‑io‑2023‑keynote‑sundar‑pichai/#ai‑responsibilityezv(2023年7月):\h56阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森235马里兰大学的一项研究表明如果恶意行为者能够删除水印,则有可能将水印添加到人类生成的图像中,从而引发误报。236GPU
这需要做出重大承诺来自NVIDIA238等GPU制造商以及国际政府协调的支持,但这将确保模型自动加水印。立法和技术挑战是巨2391987240()241(\hn3年7月7日,/2023/07/07/1075982/ai‑text‑detection‑tools3年6月9日。\he3年0月3日,\h/story/artificial‑intelligence‑watermarking‑issues。20236268a2年,https://\h/en‑gb/ai‑data‑science/ai‑workflows/digital‑fingerprinting。\h9d1年2月8日,benefits‑risks‑genic‑engineering。1年9月5\hsrebuilding‑\h作。\h1e3年0月3日,/story/artificial‑intelligence‑watermarking‑issues。57生成式人工智能的快速崛起:评估安全风险I38OpenAI697GPT‑3244
245
243A(通过教育和培训实现)。247248DeepLIFT.2492503年8ai\hgenerated‑content‑as‑their‑own。243同上。4iao和o3v年1月):\h3年6月0日。(nt2年Mȯ(2年)\hMarcioov(2016年8月),1602.04938。249DeepLIFT将每个神经元的激活与参考神经元进行比较,以便在每个激活的神经元及其依赖性之间产生可追踪的链接。irv(2019年0月),\h58阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森CETaS个话题。的系统性影响。r254wD.t9Mȯ(;hr和a(2023);ey3年M(;rMohamedMarieeg和m3Deborahai2年Mȯ(2年):959‑972。\harv(2023年0月),2310.11986。254同上。5hr和a1期。(2023)))arIv(2023年0月)wD.t9Mȯ(9年)59生成式人工智能的快速崛起:评估安全风险ȯ。ȯ。ȯ互动。案例研究:政治虚假信息和选举†扰不同的基础设施和协调机制。扰。\hn3年6月8日,p频/;aer)(IEEE1年)arv(2023年0月)43.60阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森能力层FACTOR和News‑FACTOR.263DnI(“N()。在现有的阴谋之中。Buchanan等人在评估GPT‑3的这种能力时。3“Qn4260同上。1ne35(2022)34586–34599。\hnMin“FActScorev(2023年0月):abs/2305.14251。DorMuhlgayv(2023年7月),\harv(2023年0月)43.Fréchet(FIDAIInceptionScorenwn和MicahMusser(\hT1年5月)/publication/truth‑lies‑and‑automation/。267同上。61生成式人工智能的快速崛起:评估安全风险GPT‑3.268(3n“CSETRUA‑Robot274osII\h监3年33年3月,。\hmarch‑2023/。nwn和MicahMusser(\hT1年5月)/publication/truth‑lies‑and‑automation/。\harXiv(20233),https:///abs/2303.05453。nwn和MicahMusser(\hT1年5月)/publication/truth‑lies‑and‑automation/。tDeshpandev(2023年5月),\h31期。6(2022);iak和Diana(2022年9月),\h:;c1期。(2022)Davidui和Zhou“RUA(2021年6月):\h/62阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森人机交互层(HPBench)。276问题。
278GPT‑3280系统和结构层arv(2023年0月)43.6ZeyuuarXiv(20239),\h/abs/2304.13023。7arv(2023年0月)。8Huiieo(2023年9月);h.nv(2023年2月)。9nwn和MicahMusser(\hT1年5月)/publication/truth‑lies‑and‑automation/。0n,(2021年4月),\h/abs/2104.06599。arv(2023年0月)43.63生成式人工智能的快速崛起:评估安全风险虚假信息并损害选举进程的完整性。
信任可以283DARPA284(”)。meaDominion5348\h/us‑news/2023/apr/18/\h讼。nrv(20236),\hl3年1\h64阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森依赖运营商的分销基础设施;然而风险仍然存在于所有三个层面。下表说明了为什么必须从多层次和社会技术的角度评估生成式人工智能。政治虚假信息创造能力
能力层是
层 层容 种内容创建的可扩展性
是
是例如说服和欺骗是
是例如公众对传统媒体的信任是例如可用性和可行性合成范围内容
是例如流行率和污染ChatGPTeI2872023925I“ChatGPT这种多模式可以改变政府威胁格局的方式是MelissaHeikkilä3年4月8日,https://\h/2023/04/18/1071727/generative‑ai‑risks‑concentration‑big‑techs‑power‑heres‑how‑阻止它。20237720237178“ChatGPTI3年9月5日,\h/blog/chatgpt‑can‑now‑see‑hear‑and‑speak。65生成式人工智能的快速崛起:评估安全风险可能很重要,但如果没有发布前的审议和评估过程,他们必须实时适应这一变化。289AISI这些模型是否会迭代更新(例如ChatGPT走向“多模式”)均纳入此项措施。政府可能会寻求在可预见的未来不希望将人工智能融入决策功能的领域实施更严格的限制。290CNI291制 限292 话“势能件Martinr和l3年1月2\hk\h‑‑3年1月2日。2023626d3年5月5:\hlHunt\h0年8‑\hthe‑aviation‑industry。202371766阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森
293一位受访者表示294
抢占高风险不应使用生成式人工智能的环境将防止该技术在没有人类直接监督或授权的情况下采取不可逆转的行动。(⋯⋯)201920239法律。脑。 示“2023718202372820237253年7月6日。7A2于3年7MetaMeta“Meta和Microsoft3年718\h/news/2023/07/llama‑2。67生成式人工智能的快速崛起:评估安全风险优先于特定于人工智能的立法框架或禁止个人人工智能服务。调,那么从合规性和有效性的角度来看,机器遗忘可能是至关重要的。302英国政府必须利用人工智能安全峰会产生的势头。制定一套全球努力应努力满足的标准对于确保努力避免支离破碎非常重要。3年7月9日。3年7月6日。3年6月9日;7月92023年。3年7月9日。302同上。68阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森图8.说明全球人工智能政策需要解决的六大挑战以及增加成功可能性需要满足的五个标准3033053S(2023年8月)\hMichaelDempseyC3年9月1日,business‑66853057。n《2023(2023年0月)\h69图9(2023)。(⋯⋯307支柱。3103年7月0日。3092023年7月25日对行业代表的采访。3年6月9日。70阿迪·扬杰瓦、亚历山大·哈里斯、莎拉·默瑟、亚历山大·卡斯普兹克和安娜·高森mh“SustAIn”(312(314确保人工智能的快速采用不会取代人工智能安全研究。315人工智能赋予战略优势的潜力研发竞赛的“赢家”并把“输家”抛在后面创造了强大的激励措施,这可能与人工智能安全相冲突。316317“1.l3年3月4\hReport‑Generative‑AI‑220602.pdf3年6月9日。3ao和m,3年1月1\hMuradHemmadi“Champagne\h3年1月2champagne‑explores‑canadian‑ai‑safety‑institute\h‑touts色/。3年6月7日。2023714\hcDaedalus1期。(2022),\hdaed/article/151/2/288/110603/AI‑Great‑Power‑Competition‑amp‑National‑Security。202371971生成式人工智能的快速崛起:评估安全风险可行的。320显然,需要在竞争激励之间找到ȯ衡。人工智能安全峰会后的《布莱奇利宣言》标志着实现这一目标的重要一步。322的政治参与相比,这种方法可以提供更长期的稳定性。向世界其他地区提供的凭证。3年7月4日。3年7月4日。3年6月7日。3年7月7日。3年1月12HMG3年1月\h1t‑3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技健康远程监测儿童季节性钙质需求
- 2025年度生态园林景观设计委托合同范本4篇
- 2025版医疗设备采购投标文件人员配置及服务协议3篇
- 2025年鱼塘租赁与渔业科技创新合作框架协议2篇
- 2025版苗圃基地苗木种植与生物防治合作合同4篇
- 二零二五年度机关单位食堂社会化运营合同8篇
- 二零二四年度养老院物业服务合同附加生活照料服务协议3篇
- 二零二五年度医院楼梯口无障碍改造工程合同样本4篇
- 二零二四年在线办公系统软件产品合作开发协议3篇
- 二零二五年度食品级储藏室租赁及质量检测合同4篇
- 2024-2025学年人教版数学六年级上册 期末综合试卷(含答案)
- 收养能力评分表
- 山东省桓台第一中学2024-2025学年高一上学期期中考试物理试卷(拓展部)(无答案)
- 中华人民共和国保守国家秘密法实施条例培训课件
- 管道坡口技术培训
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- 2024年认证行业法律法规及认证基础知识 CCAA年度确认 试题与答案
- 皮肤储存新技术及临床应用
- 外研版七年级英语上册《阅读理解》专项练习题(含答案)
- 2024年辽宁石化职业技术学院单招职业适应性测试题库必考题
- 上海市复旦大学附中2024届高考冲刺模拟数学试题含解析
评论
0/150
提交评论