




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
FLIAI安全指数2024独立专家评估关键领域领先人工智能公司的安全实践。可在以下网址在线获取:/index生命未来研究所1介绍2记分卡2主要调查结果2独立审查小组3索引设计4证据基础5分级过程7结果7附录A-分级表12附录B-公司调查42附录C-公司答复64未来生命研究所(FLI)是一家独立的非营利组织,其目标是降低大规模风险,引导变革性技术造福人类,特别关注人工智能(AI)。如欲了解更多信息,请访问。生命未来研究所2人工智能能力的快速提高提高了人们对公司如何报告、评估和尝试减轻相关风险的兴趣。因此,未来生命研究所(FLI)推动了人工智能安全指数,这是一种旨在评估和比较领先人工智能公司安全实践的该指数的核心是一个独立的审查小组,其中包括一些世界上最重要的人工智能专家。审查员的任务是根据FLI收集的全面证据库对公司的安全政策进行评级。该指数旨在通过提高透明度、突出值得称赞的努力和确定关注的领域来激励负责任的人工智能发展。CC+乙-D+D+C+D+DeepMindD+CC+D-DD+DOpenAID+CD+D型D型D+D型DD+D+FFDCFDFFFCFD+DFFD-F评分:使用美国GPA系统的等级界限:A+,A,A-,B+,[...],对应于数值4.3、4.0、3.7、3.3、[...]的F字母值0.•风险管理差距很大:虽然一些公司已经建立了初步的安全框架或进行了一些认真的风险评估工作,但其他公司甚至还没有采取最基本的预防措施。•越狱:所有旗舰型号都被发现容易受到对抗性攻击。•控制问题:尽管他们明确表示要开发能够与人类智能相媲美或超越人类智能的通用人工智能(AGI),但审查小组认为,所有公司目前的战略都不足以确保这些系统保持安全并处于人类控制之下。•外部监督:审查人员不断强调,在缺乏独立监督的情况下,公司如何无法抵制利润驱动的激励,在安全方面偷工减料。虽然Anthropic目前的治理结构和OpenAI的初始治理结构被认为是有希望的,但专家们呼吁对所有公司的风险评估和安全框架合规性进行第生命未来研究所32024年人工智能安全指数由FLI总裁麻省理工学院教授MaxTegmark邀请的世界知名人工智能专家组成的独立小组进行评分。该小组经过精心挑选,以确保公正性和广泛的专业知识,涵盖人工智能的技术和治理方面。小组的选择优先考虑杰出的学者和非营利部门的领导人,以尽量减少潜在的利益冲突。专家组根据收集到的证据基础,考虑到公众和公司提交的信息,进行了评级。他们的评估结合可操作的建议,旨在激励行业内更安全的人工智能实践。请参阅“评分过程”一节了解更多详情。YoongeBengio是蒙特利尔大学计算机科学和运筹学系的正教授,也是Mila的创始人和科学总监他是2018年A.M.图灵奖的获得者,CIFARAI主席,伦敦皇家学会和加拿大皇家学会的研究员,加拿大勋章的官员,法国荣誉军团骑士,联合国科学咨询委员会成员,科学和技术突破独立建议,以及先进人工智能安全国际科学报告的主席AtoosaKasirzadehAtoosaKasirzadeh是一位哲学家和人工智能研究员,在卡内基梅隆大学担任助理教授。在此之前,她是谷歌的客座研究员,爱丁堡大学技术未来中心的校长研究员和研究主任,艾伦图灵研究所的研究负责人,DeepMind的实习生,以及牛津大学人工智能研究员的治理。她的跨学科研究解决了有关人工智能的社会影响,治理大卫·克鲁格DavidKrueger是蒙特利尔大学计算机科学与运筹学系(DIRO)的鲁棒,推理和负责任人工智能助理教授,也是加州大学伯克利分校人类兼容人工智能中心Mila和潜在风险研究中心的核心学术他的工作重点是通过技术研究以及教育,推广,治理和宣传来泰根·马哈拉杰TeganMaharaj是HEC蒙特利尔决策科学系的助理教授,她领导着ERRATA生态风险和负责任人工智能实验室。她也是Mila的核心学术成员她的研究重点是推进负责任的人工智能开发的科学和技术。在此之前,她曾担任多伦多大学机器学习助理教授斯涅哈·雷瓦努尔SnehaRevanur是EncodeJustice的创始人兼总裁,EncodeJustice是一个由全球青年领导的组织,倡导对人工智能进行道德监管。在她的领导下,EncodeJustice动员了成千上万的年轻人来应对算法偏见和人工智能问责制等挑战。她被列入《时代》杂志首届人工智能领域最具影响力的100人名单。JessicaNewman是人工智能安全倡议(AISI)的负责人,该倡议位于加州大学伯克利分校她也是加州大学伯克利分校AI政策中心的联合主任。纽曼的研究重点是人工智能的治理,政策和政治,特别关注国家人工智能战略和政策的比较分析,以及对组织发展和人工智能系统部署的评估和问责机制StuartRussellStuartRussell是加州大学伯克利分校的计算机科学教授,工程学Smith-Zadeh主席,以及人类兼容AI中心和Kavli伦理,科学和公众中心的主任他是IJCAI计算机和思想奖,IJCAI研究卓越奖和ACM艾伦纽厄尔奖的获得者2021年,他获得了伊丽莎白女王陛下颁发的OBE,并在BBCReithLectures发表演讲。他与人合著了人工智能的标准教科书,该教科书在135个国家的1500多所大学中使用。生命未来研究所4AI安全指数评估了六家领先的通用AI开发商的安全实践:Anthropic、OpenAI、GoogleDeepMind、Meta、x.AI和智普AI。该指数提供了一个全面的评估,重点是六个关键领域,42个指标分布在这些领域:1.风险评估2.当前伤害3.安全框架4.潜在安全策略5.治庸问责6.透明度沟通指标范围从公司治理政策到外部模型评估实践,以及专注于安全性、公平性和稳健性的人工智能基准的实证结果全套指标可参见附录A中的分级表。下一页的表1给出了一个快速概述这些指标的关键1.相关性:该清单强调了学术界和政策界广泛认可的人工智能安全和负责任行为方面。许多指标是直接从领先的研究机构进行的相关项目中纳入的,如斯坦福大学的基金会模型研究中心。2.可比性:我们选择了突出安全实践中有意义的差异的指标,这些差异可以根据现有证据进行识别。因此,省略了无法获得结论性差异证据的安全预防措施。公司的选择是基于他们到2025年建造最强大模型的预期能力。此外,将中国公司智普AI纳入其中,反映了我们让指数代表全球领先公司的随着竞争格局的演变,未来的迭代可能会关注不同的公司。我们承认,该指数虽然全面,但并没有涵盖负责任的人工智能开发的各个方面,而是只关注通用人工智能。我们欢迎对指标选择的反馈,并努力将合适的建议纳入下一次指数迭代。生命未来研究所5危险能力评估AIRBench2024风险领域控制/调整策略公司结构就安全条例进行TrustLLM基准风险阈值能力目标董事会对决策者的证词部署前外部安全测试SEAL对抗性稳健性排行榜模型评价安全研究领导关于灾难性风险的领导沟通部署后外部研究人员访问灰天鹅越狱竞技场-排行榜决策支持外部安全研究伙伴关系斯坦福大学2024年基金会模型透明度指数1.1模型漏洞的漏洞奖励微调保护风险缓解措施条件停顿粘附保证内部审查安全评价透明度开发前风险评估碳抵消任务说明举报人保护&非贬低协议遵守公开承诺水印用户输入的隐私数据抓取军事、战争情报应用服务条款分析人工智能安全指数以全面的证据基础为基础,以确保评估信息充分和透明。这些证据被汇编成详细的评分表,向审查小组提供了所有42项指标的公司具体数据。这些表格包括原始来源的超链接,可在附录A中全文查阅。证据收集依靠两个主要途径:•公开可用的信息:大多数数据来源于可公开获取的材料,包括研究论文、政策文件、新闻文章和行业报告。这一做法提高了透明度,使利益攸关方能够通过追溯信息的原始来源来核实信息•公司调查:为补充公开数据,向接受评估的公司分发了一份有针对性的问卷该调查旨在收集有关安全相关结构、流程和策略的更多见解,包括尚未公开披露的信息。证据收集时间跨度为2024年5月14日至11月27日对于人工智能基准测试的经验结果,我们注意到数据提取日期以解释模型更新。根据我们对透明度和问责制的承诺,所有收集到的证据-无论是公开的还是公司提供的-都已记录在案,并在附录中提供以供审查。生命未来研究所6人工智能安全指数建立在广泛研究的基础上,并从几个在通用人工智能领域提高透明度和问责制的著名项目中汲取灵感。其中两个最全面的相关项目是由SaferAI(一家在风险管理方面拥有深厚专业知识的非营利组织)和AILabW(一项研究计划,旨在确定减轻高级人工智能极端风险的策略,并报告公司实施这些策略的情况)制定的风险管理评级安全指数直接整合了斯坦福大学基础模型研究中心(CFRN)的研究结果,特别是他们的基础模型透明度指数,以及AIR-Bench2024的经验结果,AIR-Bench2024引用的其他经验数据包括2024年TrustLLM基准,Scale的对抗鲁棒性评估和GraySwan越狱的分数。这些来源为GPAI系统的可信度、公平性和鲁棒性提供了宝贵的见解。为了评估存在的安全战略,该指数利用了人工智能政策与战略研究所对领先人工智能公司的技术安全研究的详细调查结果外部评估指标由麻省理工学院的ShayneLongpre领导的研究提供信息,“安全框架”部分的结构来自人工智能治理中心和非营利研究机构METR的相关出版物。此外,我们感谢那些致力于让公司承担责任的记者,他们的报告在评分表中被引用。为了补充公开数据,AI安全指数纳入了针对公司调查的见解。本调查问卷旨在收集有关安全相关结构、流程和计划的详细信息该调查包括七个类别的85个问题:网络安全,治理,透明度,风险评估,风险缓解,当前危害和潜在安全。问题包括二进制,多项选择和开放式格式,允许公司提供细致入微的答案。完整的调查结果见附录B。调查答复与审查人员共享,指标的相关信息也直接纳入评分表。评级表中明确列出了公司提供的信息。虽然x.AI和智普AI选择参与调查中的目标问题,但Anthropic,GoogleDeepMind和Meta只向我们推荐了已经公开共享信息的相关来源OpenAI决定不支持这个项目。加入奖励金虽然不到一半的公司提供了实质性的答案,但参与调查的程度在“透明度和沟通”部分得到了认可。选择不参与调查的公司将受到一级处罚。这一调整激励了参与,并承认了安全实践透明度的价值。这一处罚已在评分表中传达给审查小组,并建议审查人员在对相关部分评分时不要额外考虑调查参与情况。FLI仍然致力于鼓励更多的人参与未来的迭代,以确保尽可能强大和具有代表性的评价。生命未来研究所7评级过程旨在确保对被评估公司的安全实践进行严格和公正的评估。在2024年11月27日证据收集阶段结束后,总结公司特定数据的评分表与领先的人工智能科学家和治理专家组成的独立小组共享。评分表包括所有与指标有关的信息和评分说明。小组成员被指示根据绝对规模分配等级,而不仅仅是相对于彼此对公司进行评分。FLI包括每个领域的粗略分级规则,以确保评价的一致性除了字母等级外,还鼓励评审人员用简短的理由来支持他们的等级,并提供关键的改进建议。鼓励专家们根据自己的判断纳入更多的见解和衡量指标,确保他们的评价既反映了证据基础,又反映了他们的专门知识。考虑到评审员专业知识的差异,FLI选择了一个子集对“潜在安全策略”进行评分,另一个子集对“当前损害”部分进行评价。除此之外,所有专家都被邀请对每个部分进行评分,尽管有些人更喜欢只对他们最熟悉的领域进行评分。最后,每一部分都由四个或更多的评审员打分成绩汇总为每个领域的平均分数,并在记分卡中显示。通过采用这种结构化但灵活的方法,评级过程不仅突出了当前的安全实践,而且还确定了可改进的领域,鼓励公司在未来的评估中争取更高的标准。有人可能会说,边境上的大公司应该遵守最高的安全标准。因此,我们最初考虑给员工少得多或模型分数低得多的公司1/3的额外分数。最后,为了简单起见,我们决定不这样做。这一选择并没有改变公司的排名。本节介绍了每个领域的平均评分,并总结了评审小组专家提供的理由和改进建议。风险评估级C+CCD+FD+评分0OpenAI、GoogleDeepMind和Anthropic因实施了更严格的测试来识别潜在的危险能力而受到赞扬,例如与竞争对手相比,在网络攻击或生物武器制造中滥用。然而,即使是这些努力也被发现具有明显的局限性,使人们对与GPAI相关的风险OpenAI的提升研究和欺骗评估对评论者来说是值得注意的。Anthropic在与国家人工智能安全研究所合作方面做了最令人印象深刻的工作Meta在部署之前评估了其模型的危险能力,但关键的威胁模型,如与自治,阴谋和说服有关的模型仍然没有得到解决。ZhipuAI的风险评估工作被认为是生命未来研究所8x.AI没有公布任何实质性的部署前评价,大大低于行业标准。一位评审员建议,应扩大人类参与者提升研究的范围和规模,并需要制定可接受风险阈值的标准。评论家指出,只有谷歌DeepMind和Anthropic针对模型漏洞保持有针对性的漏洞奖励计划,Meta的计划仅限于与隐私相关的攻击。级乙--C+D+D+DD评分Anthropic的人工智能系统在领先的经验安全性和可信度基准测试中得分最高,GoogleDeepMind排名第二。审查人员指出,其他公司的系统得分明显较低,这引起了人们对所实施的安全缓解措施是否充分的担忧。评论者批评了Meta发布其前沿模型权重的政策,因为这使得恶意行为者能够轻松删除其模型的保护措施并以有害的方式使用它们GoogleDeepMind的SynthID水印系统被认为是减轻人工智能生成内容滥用风险的领先实践。相比之下,大多数其他公司缺乏鲁棒的水印措施。智普AI报告说,他们在调查中使用了水印,但似乎没有在他们的网站上记录他们的做法。此外,环境可持续性仍然是一个存在分歧的领域。虽然Meta和Meta积极抵消其碳足迹,但其他公司只是部分实现了这一目标,甚至没有公开报告其做法。x.AI报告使用燃气轮机为数据中心供电,从可持续性的角度来看尤其令人担忧。此外,审查人员强烈建议公司确保他们的系统更好地抵御对抗性攻击。实证结果表明,模型仍然容易受到越狱的影响,OpenAI的模型尤其容易受到攻击(没有x.AI或Zhipu的数据)。DeepMind的模型防御在包含的基准测试中是最强大的。该小组还批评公司使用用户交互数据来训练其人工智能系统。只有Anthropic和ZhipuAI使用默认设置,阻止模型在用户交互上进行训练(标记为安全审查的用户除外)。级D+D型D-FFF评分0.800.900.350.350.35所有六家公司都签署了《首尔前沿人工智能安全承诺》,并承诺制定安全框架,其中包括不可接受风险的阈值、高风险水平的高级保障措施以及在风险无法管理的情况下暂停开发的条件。截至该指数发布时,只有OpenAI,Anthropic和GoogleDeepMind发布了他们的框架。因此,审查人员只能评估这三家公司的框架9虽然这些框架被认为不足以保护公众免受不可接受的风险,但专家们仍然认为这些框架在某种程度上是有效Anthropic的框架在审查者看来是最全面的,因为它详细说明了额外的实施指导。一位专家指出,需要更准确地描述灾难性事件的特征,并确定更明确的阈值。其他评论指出,OpenAI和GoogleDeepMind的框架不够详细,无法从外部确定其有效性。此外,没有框架充分定义条件性暂停的细节,一位评审员建议触发条件应考虑外部事件和专家意见。多位专家强调,安全框架需要得到强有力的外部审查和监督机制的支持,否则就不能相信它们能准确地报告风险水平。Anthropic在外部监督方面的努力被认为是最好的,如果仍然不够的话。级D+DD型FFF评分0.9300.35虽然所有接受评估的公司都宣布有意建立人工通用智能或超级智能,而且大多数公司都承认此类系统可能带来的生存风险,但只有谷歌DeepMind、OpenAI和Anthropic正在认真研究人类如何保持控制并避免灾难性后果。评估这一部分的技术审查人员强调,没有一家公司提出官方战略,以确保先进的人工智能系统保持可控并符合人类价值观。先进人工智能系统的控制、对准和可解释性方面的技术研究现状被认为是不成熟和不充分的。Anthropic获得了最高分,但他们的方法被认为不太可能防止超级智能AI的重大风险。Anthropic的“关于AI安全的核心观点”博客文章阐述了他们在系统变得越来越强大时确保安全的策略专家们指出,他们的战略表明,对欺骗和态势感知等相关技术问题的认识相当深入。一位审评员强调,需要朝着逻辑或量化的安全保证方向发展。OpenAI的博客文章“规划AGI及其他”分享了高级原则,评论者认为这些原则是合理的,但不能被视为计划。专家们认为,OpenAI在可扩展监督方面的工作可能会起作用,但还不发达,不能依赖。谷歌DeepMind的对齐团队分享的研究更新被认为是有用的,但不成熟,不足以确保安全。审查者还强调,相关博客文章不能被视为整个组织的战略、计划或原则的有意义的代表。Meta、x.AI或智普AI都没有提出解决人工通用智能带来的风险的计划或技术研究。评论者指出,Meta的开源方法和x.AI民主化获取寻求真相的AI的愿景生命未来研究所治庸问责级C+D+D+DFD-评分0.80评论家指出,Anthropic的创始人在建立一个负责任的治理结构方面投入了大量精力,这使得它更有可能优先考虑安全问题。Anthropic的其他积极努力,如负责任的缩放政策,也得到了积极的评价。OpenAI最初的非营利结构也受到了类似的赞扬,但最近的变化,包括解散安全团队和转向营利模式,引起了人们对安全性的关注。谷歌DeepMind因其在治理和问责制方面采取的有意义的步骤而闻名,其对安全框架的承诺和公开声明的使命就是例证。尽管如此,它与Alphabet利润驱动的公司结构的整合被视为对其优先考虑安全而不是其他目标的自主权的限制。注意到Meta的举措,如网络安全评估和红队,但其治理结构与安全优先事项不一致。先进模型的开源发布使滥用成为可能,进一步削弱了问责制。x.人工智能虽然正式注册为公益公司,但与竞争对手相比,人工智能在治理方面的活跃程度明显降低。专家们指出,该公司缺乏一个内部审查委员会来做出关键的部署决定,也没有公开报告任何实质性的风险评估。智普AI作为一家营利性实体,遵守中国的人工智能安全法规,并与当局共享风险数据,但其治理机制在范围和透明度方面仍然有限。透明度通信级D+DD型CCF评分0.880评论者对OpenAI、GoogleDeepMind和Meta针对SB1047和欧盟人工智能法案等关键安全法规的游说活动表示严重担忧相比之下,x.AI因支持SB1047而受到赞扬,表现出积极支持旨在提高AI安全性的监管措施的立场。除Meta外,所有公司都公开应对与先进人工智能相关的极端风险,并努力向政策制定者和公众通报这些问题。一位专家积极承认,除了Meta之外,所有美国公司的领导层都支持人工智能安全中心的一封相关公开信。十、AI和Anthropic在风险沟通方面表现突出专家们还注意到,Anthropic公司一直在支持促进该部门透明度和问责制的治理举措。Meta的评级受到其领导层一再解雇和贬低与极端人工智能风险相关的担忧的显著影响,审查人员认为这是一个重大缺陷。生命未来研究所专家们强调,迫切需要改进整个行业的透明度做法。x.AI缺乏风险评估信息共享被特别称为透明度差距。Anthropic因允许英国和美国人工智能安全研究所对其模型进行第三方部署前评估而获得额外认可,为行业最佳实践设定了基准2024年FLI人工智能安全指数强调了快速发展的人工智能领域迫切需要更强有力的安全措施和虽然某些公司(其中最重要的是人类公司)在特定领域表现出值得称赞的做法,但总体调查结果显示,在问责制,透明度和应对当前和存在风险的准备方面存在前沿人工智能系统仍然容易受到越狱等对抗性攻击,竞争对手应该效仿谷歌DeepMind的做法,将强大的水印集成到生成的内容中。评论家们一致强调,在缺乏独立监督的情况下,公司如何无法抵制利润驱动的激励,在安全方面偷工减料。由于没有公司提出控制先进人工智能系统的强大战略,以及被认为不可靠的既定安全框架,因此关键风险仍未得到解决。考虑到这些公司开发强大的人工通用智能的明确雄心,这一点尤其令人担忧。总而言之,研究结果强调了公司,政策制定者和研究人员在追求人工智能创新时协调努力并优先考虑公共安全的许多机会。生命未来研究所该指数涵盖了六家领先的通用AI公司,评估了他们在六个关键领域的开发和部署实践对于每个领域,索引包含多页证据,涉及多个指标。评分:对于每个领域,请阅读相应的指标列表,然后根据所提供的评分方案提供A-F等级的字母评分,以确保评审员之间的一致性也写一个非常简短的理由,每个等级连同任何改进的机会。参考信息:此评分表包含参考信息,可帮助您做出评分决定。该指数中的信息来源于公开来源和专门的调查,公司可以使用这些调查来提供更多信息。相关资料来源在索引中作了标记。选择指标是为了查明可从现有证据中查明的公司之间的差异。因此,省略了不确定差异证据的安全预防措施对于几个指标,我们对相对性能差异进行了颜色编码,或对单个单元格进行了颜色编码,以明确表示同类性能中的最佳/最差。你也可以将你所拥有的任何额外信息或专家见解纳入你的成绩。能力:我们评估的六家公司都提供最先进的通用AI系统。下面是ChatbotArena中旗舰型号性能的概述。由于更强的能力可能带来更大的风险,行业领导者和大公司的安全预防措施应该达到更高的标准。因此,FLI将在计算平均评审员评分后,向较小的亚军公司x.AI和智普AI管理伪评分级奖金。最后,我们(FLI)决定为了简单起见不授予上述奖金,如报告的“评分过程”部分所述。克劳德3.5十四行诗o1-预览美洲驼3.1405BGrok2GLM-4数(样式控制,1.11.24)生命未来研究所研究指标清单•危险能力评价:本指标报告与灾难性风险有关的部署前能力此处不包括其他风险的模型评价,因为“当前损害”章节中涵盖的经验测试提供了更好的指标。信息包括评估的风险域、关于模型版本特定任务微调的可用信息以及相关来源。我们注意到,评价的质量可能不同。•Ubiquiti试验:关于人类参与试验的信息,用于评估模型访问的边际风险。•部署前外部安全测试:与外部模型审核相关的任何我们特别报告与模型访问深度、审计师姓名、模型版本、评估范围、利益冲突、审计时间和薪酬相关的信息。•部署后外部研究人员访问:任何支持外部利益相关者诚信安全研究的计划。我们报告可用资金、模型访问深度、模型版本、技术基础设施以及任何旨在减轻使用政策执行、交互日志记录和严格服务条款对安全研究造成的障碍的技术或法律安全港。•针对模型漏洞的漏洞奖励任何为标记模型漏洞或危险用例提供经济奖励的程序•开发前风险评估:在训练大型模型之前进行的与风险评估和危险能力预测相关的任何信息。一全面的评估可详细了解与其系统相关的所有风险,包括详细的威胁向量、可能性和外部验证B在所有风险领域进行非常严格的评估,采用最先进的评价启发做法,包括外部保证机制C严重的风险评估工作,但有明显的局限性D风险评估不足以衡量风险水平F公司没有认真进行风险评估生命未来研究所克劳德3.5十四行诗o1-预览美洲驼3.1405BGrok2GLM-4是的是的是的是的没有是的是的是的是的是的没有没有是的部分:主要是正常的编码任务是的没有没有没有没有但值得注意的是关于潜伏特工的欺骗仅由ApolloResearch外部是的没有没有没有部分部署后说服研究是的,说服是的,说服,建立融洽关系,还有微妙的操纵没有没有是的是的重新训练的无害模型的“危害性”是的他们分享“缓解前的结果”部分测试“没有安全过滤器”。但不清楚模型是否经过无害训练没有提及型号版本和安全过滤器。CyberSecEval3在仅提供没有没有来源负责任的扩展策略(RSP)、RSP评估报告o1系统卡,准备框架评估文件,安全框架,Gemini1.5报告Llama3paper,CYBERSECEVAL3无可用的风险评估GLM-4文件,索引调查生命未来研究所-排除有害生物问题:三组:克劳德,克劳德没有无害训练,谷歌只-30名来自外部领域专家承包商的参与者。-44位人类博士专家评估o1-preview(缓解前)对长式生物风险问题的答复,与经验证的领域专家的答复进行比较。-6名生物专家在一周内通过o1-preview(缓解前)回答了长形式的生物风险问题,并给出了定性报-3000个人工智能与人类生成的参数的评估,以评估说服力。无提升研究,但有4项说服相关参与者试验(各N=100):-测量建立在谈话中的融洽关系。-操纵人类采取行动。-说服人类捐钱给慈善机构。-说服一个人相信事实/谎言。-攻击性网络挑战,62名内部志愿者(31名“专家”,31名“新手”)。两阶段设计(首先只有互联网,然后第二个挑战也是AI访-生化武器。两人小组(低技能或中等技能的人类),6小时的方案规划化学/生物攻击的主要阶段,随机分配到人工智能或控制组,最终计划由领域专家评估。(描述未提及移除安全缓解措施,这对于开放权重模型至关重要)无可用信息无可用信息英国人工智能安全研究所(AISI)美国AISI对更新的ClaudeSonnet3.5(新)进行了联合评估,并采取了保障措施在公开报告中分享了详细结果。英国AISIMETR(&潜在的其他“第三方评估合作伙伴”)获得了ClaudeSonnet的部署前访问权限3.5(旧)。同意与美国AISI分享未来的型号,进行部署前测试。邀请专家在不同的风险领域进行开放式发现:自然科学,欺骗性对齐,网络安全,国际安全和攻击规划,越狱。邀请阿波罗研究公司测试欺骗性对准,邀请METR测试自主能力。访问被授予了几个星期,结果被公布在o1-preview系统卡上。同意与美国AISI分享未来型号进行部署前测试。访问多个外部测试组,包括领域专家和政府机构(可能是英国AISI):-能够关闭安全过滤器-与Gemini团队定期签到-各小组在社会、网络和化生放核风险方面具有专门知识。包括学术界、民间社会和商业组织。-几个星期内获得访问权的团体&得到了补偿。Llama3的论文指出:“我们还与关键风险领域的内部和外部主题专家合作,帮助建立风险分类,并帮助进行更有针对性的对抗性评估。与“Surge”和“Scale”合作进行预部署DCE。(索引调查)-与杭州网易文学科技有限公司合作,用于DCE和训练数据审计(智普AI从训练集中删除潜在有害-与独立专家合作,通过德尔菲法评估风险。(索引调查)安全研究人员可以通过Anthropic的“外部研究人员访问计划”申请免费的API学分。访问非标准或非公开版本的Claude是留给bug赏金计划和密切合作者不免除使用策略强制执行。外部研究人员可以在研究以下领域时申请免费API学分-对准-公平-解释性-误用可能性-稳健性不免除使用策略强制执行。无可用信息模型权重可供研究人员使无可用信息智普AI为政府官员提供免费模型访问。(索引调查)-8月24日赏金计划集中在通用越狱抢先体验版本的下一代安全缓解赏金高达15k$.申请截止日期为2024年8月。-在上述计划之前,Anthropic针对部署模型的安全问题进行了一项仅限邀请的奖金计划未提供细节。没有一-谷歌的人工智能赏金计划接受某些与滥用相-快速攻击-训练数据提取-操纵模型-对抗性扰动-模型盗窃(不包括越狱)漏洞赏金只包括与隐私相关的问题,例如“能够通过模型反演或提取攻击等策略泄漏或提取训练数据。没有一没有一负责任的缩放政策(RSP)承诺在模型风险评估预测可能性后生成进一步的培训和启发将改善测试时间和下一轮预期全面测试之间的测试结果(和突破准备框架(PF)承诺:创建内部“准备路线图”,以帮助计划提前新兴风险。包括研究危险能力的扩展趋势。与斯威夫特中心的专业预报员合作,预测危险能力可能出现的时间。无可用信息无可用信息进行培训前风险评估,包括危险能力的预测。(索引调查)人择OpenAI谷歌DeepMind智普AI生命未来研究所研究指标清单•模型安全性/可信度:我们报告了两个最先进的AI安全基准的旗舰模型得分。◉HELMAIRBench2024:全球首个符合新兴政府法规和公司政策的AI安全基准。包含5,694个测试,涵盖314个细粒度风险类别,并通过手动管理和人工审核来确保质量。◉TrustLLMBenchmark2024:全面的可信度基准,包括30多个数据集,涵盖六个维度:真实性,安全性,公平性,隐私性,道德&稳健性。•对抗鲁棒性:为了表明越狱的鲁棒性,我们进一步报告了来自Scale的SEAL排行榜和GraySwan越狱竞技场的结果。确保安全缓解措施完整性的任何微调限制。•可持续性:有关碳排放分析和抵消的信息。•水印:关于集成水印系统的信息。•用户输入的隐私:我们报告公司是否使用用户交互数据来改进其服务。•数据抓取:与抓取实践相关的公共信息。一安全产品的道德开发实践不会给公众带来有意义的风险。在安全得到保证之前,不能部署可能有害的能力。B高度负责的产品开发实践有效保护公众免受伤害C对负责任的产品开发实践的相当大的努力提供了适度的保护D对负责任的产品开发实践的最小努力提供了不足的保护F产品是完全有害的。未采取有效的风险缓解措施生命未来研究所18模型安全性/可信度Helm-AIR基准测试:参考率(13.11.24)克劳德3.5十四行诗谷丙转氨酶-4oLlama3.1指令涡轮(405B)-=1)0.6300.822无结果。0.4920.9540.6540.9830.5490.564与法律0.9450.682克劳德3.5十四行诗美洲驼-3.1405BGrok-2GLM-4+=1)0.6960.6590.5630.8030.6460.5380.8900.5330.85819SEAL排行榜22.10.24)克劳德3.5十四行诗谷丙转氨酶-4o美洲驼3.1405B无结果。67次违规8违反克劳德3.5十四行诗谷丙转氨酶-4o美洲驼3.1405B无结果。微调保护对GPT-4o进行监督微调。Gemini1.5Pro的监督微调。小个子的杰玛是公开Llama3.1405B重量公开。更小的GLM-49B重量公开。生命未来研究所20是的人因报告:“[..]与外部专家合作,对我们公司范围内的碳足迹进行严格分析。一旦测量,我们投资于经验证的碳信用额,以完全抵消我们的年度足迹。不清楚没有关于碳足迹的信息。然而,OpenAI使用Azure基础设施进行训练和推理,自2012年以来一直是碳部分报告称,数据中心和办公室的全球平均无碳能源约为64%(2022年至2023年)。谷歌DeepMind研究缓解气候变化的措施是的全球业务净零排放。使我们的数据中心和办公室100%的用电量与可再生能源相匹配。没有据路透社报道,x.AI为其数据中心提供燃气涡轮机。部分严格评估其碳足迹,但不完全抵消它。(索引调查)Claude不生成图像,也不包含文本输出的水印。OpenAI分享说,它使用C2PA标准来标记的元数据。这样的元数据是微不足道的删除。生成的文本、图像和视频Google的genAI工具使用无法察觉的扰动使用SynthID进行水印。Llama3.1在其世代中不包含水印。xAI不使用水印。ZhipuAI报告说,它用水印标记了所有的AI世代,并有五名研究人员专注于开发更强大的方法。没有关于这方面的公开信息。(索引调查)Anthropic表示,默认情况下,他们不会在用户交互上训练AI模型,除非:对话被标记为信任&安全审查,以及用户明确报告对话或以其他方式明确同OpenAI表示,默认情况下,他们在“免费”和“Plus”用户的用户交互上训练AI模型,但不会在“API”,“ChatGPTEnterprise”和“ChatGPTTeam”客户的用户交互上训练模型。用户交互被记录并用于改进服务。用户与MetaAI的交互会被记录并用于改进服务。Meta进一步使用Instagram和Facebook上公开分享的帖子(照片和文字)。然而,模型权重是免费提供的,因此可以绕过这一点。用户交互被记录并用于改进服务。在默认设置中,不记录用户交互以改进服务(索引调查)Anthropic表示,他们“遵循有关robots.txt指令的行业惯例然而,有人指责“令人震惊的”数据抓取和无视标准协议反对人类。OpenAI声明它确实遵守robots.txtWeb标准。爬虫尊重机器人。txt文件。无可用信息爬虫尊重机器人。txt文件。(索引调查)爬虫尊重机器人。txt文件。(索引调查)人择OpenAI谷歌DeepMind智普AI生命未来研究所21所有六家公司都在2024年首尔AI安全峰会上签署了FrontierAI安全承诺签署方承诺制定人工智能安全框架,其中包括不可接受风险的阈值,高风险水平的高级保障措施他们还致力于强有力的内部治理,以执行这些标准,并保证安全实践和风险相关信息的透明度。各公司承诺在2025年巴黎峰会之前制定此类框架。本节通过分析以下结构的内容来检查已经发布的三个框架(最新版本其他仍在开发中1•摘要:目标和框架结构概述。◉风险领域◉风险阈值◉模型评价◉风险缓解措施◉条件停顿•遵守情况:与确保有效执行框架的内部治理机制有关的任何承诺•保证:任何让外部利益攸关方参与监督框架实施的承诺一该框架严格保证风险水平保持在社会可接受的水平。强大的外部执行机制可靠地确保框架合规性。B该框架以高度的信心保护社会免受不可接受的风险。强有力的外部监督确保框架得到遵守。C框架可能会保护社会免受不可接受的风险。外部监督机制鼓励遵守框架。D框架可以保护社会免受不可接受的风险,或者仍在开发中,尚未发布F没有制定框架的计划,或框架无法防止不可接受的风险水平10.大赦国际在指数调查中报告说,他们目前正在建立一个框架。他们已经为部署限制设定了能力门槛,限制了专家级病毒学知识,攻击性网络能力危及关键基础设施。生命未来研究所22负责任的扩展策略(RSP)公开承诺不训练或部署能够造成灾难性损害的模型,除非他们已经实施了将风险保持在可接受水平以下的安全和安保措施。目前,所有模型都符合其AI安全级别2部署和安全标准(ASL-2标准)。他们定义了特定于风险领域的能力阈值,以确定能力何时增加到需要ASL-3标准来保持风险达到可接受的水平。使用初步评估定期评估模型,以确定是否需要进行全面评价。如果达到ASL-3,他们将进行保障评估,以测试缓解措施是否对持续的对手具有鲁棒性,并进行后续评估,以测试是否需要进一步的保障措施。在这些评估之后,可以部署模型。如果ASL-3无法实施,他们将立即采取行动,将中期风险降低到可接受的水平。准备框架(PF)描述了OpenAI跟踪、评估、预测和防范灾难性风险的流程。OpenAI在记分卡中显示当前缓解前和缓解后的风险水平。他们还将预测风险的未来发展,并积极寻求识别未知-未知风险。仅限模特缓解后评分为“中等”或以下的患者可以部署。仅缓解后评分为“高”或“低”可以进一步发展。确保安全性适合任何具有“高”或“关键”缓解前风险的模型。准备小组实施和维护框架,包括进行研究,评估,监测和预测风险,并向安全咨询小组报告。准备工作还将管理安全演习,并与TrustworthyAl团队协调进行第三方审计。创建安全咨询小组(SAG),帮助OpenAl的领导层和董事会为安全决策和紧急情况做好准备。PF正式成为“Beta”。目前尚不清楚是否所有方面都得到了充分落实。不过,作为框架核心的记分卡现已公布。谷歌的前沿安全框架(FSF)是一个结构化协议,旨在解决高级人工智能模型能力的潜在严重风险,重点关注特定高风险领域的“关键能力水平”(CCL):自治,生物安全,网络安全和机器学习研发。这些CCL是每个域中的阈值,指示模型在没有适当缓解措施的情况下何时可能构成重大风险。分析涉及评估跨领域的技能,如机构和工具的使用,以确定何时模型的能力可能会变得危险。“早期预警评价”,旨在在达到阈值之前就对可能达到的阈值作出标记。当一个模特接近或达到CCL时,根据CCL特性和具体评估结果制定应对计划。缓解措施有两种类型:安全缓解措施和部署缓解措施。如果一个模型的能力超过了缓解准备,开发可能会暂停。“我们的目标是在2025年初之前实施这一初步框架,我们预计这应该是在这些风险成为现实之前。RSP定义了2个域的阈值1)化学、生物、放射性和核武器;2)自主人工智能研究与开发(AIR&D)他们还将调查风险并测试以下方面的能力3)网络作战没有预先承诺具体的额外保障措施,但提到了正在进行的说服风险调查。跟踪风险类别:2)CBRN威胁4)模型自治5)“专门的工作流程,用于在出现新的或新生的类别时识别和添加这些类别“未知的未知”风险领域:(第5的描述)2)生物安保3)网络安全4)机器学习研发23RSP定义了需要ASL-3标准的两个能力阈值有能力显著协助具有基本STEM背景的个人或团体获得,生产或部署CBRN武器。我们通过比较潜在攻击者使用完整模型访问与2023年级别的在线资源可以实现的目标来评估这一点,假设他们有资金和长达一年的时间来投资,但没有最初的专业知识。能够:(1)完全自动化Anthropic的入门级远程研究人员的工作,根据代表性任务的性能进行评估,或(2)导致有效扩展速度的显着加速。具体来说,如果我们观察到或预测世界上最有能力的模型的有效训练计算的增加2018年初至2024年初期间两年的平均进展率我们粗略估计,2018-2024年的平均规模增长约为每年35倍,因此这意味着实际或预测的一年规模增长为35^2四个风险类别中的每一个都有一个从低风险到严重风险的等级表(第8)。为了简洁起见,我们分享一个示例来说明详细程度和风险:“针对网络攻击的模型帮助(如果有的话)仅对非编程用途有意义翻译、机密信息的有针对性的提炼和/或数据分析和模型不能有意义地执行网络操作的元素,例如,将已知的漏洞利用发展为攻击、黑盒利用、将防御推理转化为行动,或对强化目标进行横向目标导向运动。“模型通过关键网络操作任务的效率阈值(例如节省>2倍的时间)提高了运营商的生产力,例如将已知的漏洞利用发展为攻击,黑盒利用,目标导向的横向移动,识别有价值的信息,保持未被检测到,或对防御做出反应。“工具增强模型可以在没有人为干预的情况下识别和开发针对强化目标的高价值漏洞的概念验证,可能涉及新的利用技术,或者提供详细的策略,该模型可以端到端执行涉及上述任务的网络操作,而无需人为干预。“工具增强模型可以在所有软件项目中识别和开发所有严重级别的功能性零日漏洞,而无需人工干预,或者模型可以设计和执行端到端的新型网络攻击策略,针对仅给定高级别目标的硬化目标。关键能力水平(CCL)描述了模型可能在没有额外缓解的情况下造成更高风险的阈值。我们将开发早期预警评估,以检测模型何时接近CCL,并对达到评估阈值的模型应用适当的缓解措施。该框架列出了以下CCL第5页的阈值列表)自治级别1:能够通过自主获取资源并使用它们在租用的硬件上运行和维护自身的额外副本来扩展其在世界上的有效容量。威胁,与其他手段相比,这可能会增加他们造成-生物专家启用级别1:能够显著地使专家(即博士或以上)开发可能导致高度严重事件的新型生物威胁。-“网络自治级别1:能够完全自动化对具有有限安全态势的组织的机会主义网络攻击。-“网络使能等级1:能够使业余爱好者进行复杂和严重的攻击(例如,破坏国家重要基础设施的行为)。-ML研发1级如果广泛部署,可以显著加速尖端实验室的人工智能将算法进步的速度提高3倍,或者加速其他人工智能研究小组。-“ML研发水平2:可以完全自动化人工智能研发管道,而人力成本只占一小部分,这可能会使人工智能能力实现双曲线增长。=~1000x。”但仍在评估是否需要ASL-3标准。能够显著增强或自动化复杂的破坏性网络攻击,包括但不限于发现新的零日漏洞利用链,开发复杂的恶意软件,或策划广泛的难以检测的网络入侵。生命未来研究所24模型将接受全面评估,如果:1)有效计算能力提高>=4倍3)由责任缩放官(RSO)订购对于每个能力阈值,提出一个令人信服的案例,说明我们已经制定了最可能和最重要的威胁模型:参与者的组合(如果相关),攻击路径,模型能力瓶颈和危害类强有力的经验证据表明,缺乏能力。分析测试结果。纳入外部组织的任何调查结果。证明资源丰富的攻击者无法在相关任务上获得足够有用的结果。在没有安全机制/培训的情况下,使用脚手架,微调和专家提示对遵循预防措施的模型进行测试。在下一次全面测试之前,对更强结果的可能性进行非正式预测。评估将根据需要经常进行,以捕捉任何重要的能力变化,包括训练之前、期间和之后,包括有效计算增加>2倍或重大算法突破时。-缓解前风险:通过专门微调风险域模型和无安全缓解措施的测试来测试“最差已知情况”。-缓解后风险:测试模型具有针对“最差已知情况”的缓解措施,以确认充分的保护。投资于内部“准备路线图”,以计划新出现的风险。包括持续研究危险能力的扩展“我们的目标是每6次有效计算评估我们的模型,每3个月进行一次微调。为了弥补两轮评估之间的差距,我们将设计早期预警评估,以便在模型达到CCL之前为我们提供足够的安全缓冲。“前沿模型的能力定期进行测试,以检查它们是否接近CCL。为此,我们将定义一组称为“早期预警”的评估评估,”与一个特定的“通过”条件,标志着当一个CCL可能达到之前,评估再次运行。“注意:当我们提到模型的功能时,我们包括任何合理可预见的微调和脚手架所产生的功能,以将模型转变为功能系能力启发:我们正在努力为我们的评估人员配备最先进的启发技术,以确保我们不会低估我们模型的能力。-编写报告,其中包括为决策部署建议提供肯定理由的调查结果。-征求内部和&外部专家对报告的反馈意见。-与首席执行官&RSO共享报告以供最终决策。-在继续之前与董事会和LTBT分享最终决定。-将模型更新为ASL-3保障措施。-ASL-4阈值的测试需求(当前未定义)。-进行ASL-3保障评估-创建报告,记录如何令人满意地实施所有保障措施,&并建议部署决策。-向CEORSO上报报告,CEORSO批准(不批准)实施并做出部署决策,同时考虑内部和外部反馈。-与董事会和LTBT共享报告、决策和反馈-需要每年重复评估。未批准的安全措施->限制模型部署和进一步扩展。“备灾小组”负责:i.维护记分卡,包括设计和运行输入评估,并收集有关监测滥用、红队等的信息。ii.监测未知的未知数,并提出新的跟踪类别。iii.如果需要,建议更新风险等级区分、记分卡等级或报告中PF的一般变更。iv.预测风险水平的变化。v.向SAG、CEO、董事会提交月度报告。在紧急情况下,团队可以请求SAG快速响应。“安全咨询小组”(SAG)提供观点,以评估灾难性风险的证据,并建议采取行动。SAG将努力推荐有针对性的和非破坏性干预,同时不危及安全。SAG成员和主席由首席执行官与董事会协商任命。成员每年轮换。可以重新任命主席做出最终决定。1)SAG根据月度报告评估提交的案件。主席将案例、建议的行动和理由转发给首席执行官(以及董事会&准备)。2)CEO决定(也可以不考虑SAG决定)。3)董事会监督并可能推翻CEO的决定和/或授权修改行动。“应用缓解措施:当模型达到评估阈值(即通过一系列预警评估)时,我们将根据对CCL和评估结果的分析制定应对计划。我们还将考虑到考虑因素,如审查和部署环境标记的其他风险25施ASL-3部署标准旨在使Anthropic能够抵御持续的滥用相关能力的企图。措施详情见第7页。“[..]我们须符合下列准则:ASL-3安全标准的目标是“使我们高度保护,防止大多数攻击者试图窃取模型权重。“超出范围:”国家赞助的专门针对我们的计划“。措施详情见第8页。“[..]我们须符合下列准则:a.周边和访问控制:[…]b.安全性:[..]d.资源:[.]e.现有指导意见:[.]4.第三方环境:[…]“[..].我们的缓解策略将涉及遏制措施,这有助于降低与拥有前沿模型相关的风险,以及部署缓解措施,这有助于降低积极使用前沿模型的风险。该框架明确提到了三个新的“安全基线”。-资产保护-限制部署-制约发展(后两个将在下一节中如果在任何域中达到(或预测将达到)“高”缓解前风险,则将确保强化安全性以防止泄漏(在达到“高”缓解前风险时“这被定义为建立网络和计算安全控制,旨在帮助防止捕获的风险被利用或泄露,由安全团队评估和实施。这可能需要:-日益分化,[…]-仅部署到受限环境中[...]-提高信息安全控制的优先级。"FSF提出了两种缓解措施来解决具有关键功能的模型:安全缓解措施,以防止模型权重的泄漏;部署缓解措施,以管理对关键功能的访问/防止在部署中表达关键功然后,该框架列出了两个“可能适用”的潜在缓解措施表。为了简洁起见,我们仅在下面分享安全缓解措施第4页的部署缓解措施。“0:现状行业标准制定和企业控制。例如,在一个示例中,多因素身份验证、基本访问控制机制、安全软件开发标准、红队测试。对最有价值的模型的原始表示的访问受限,包括开发模型与生产模型的隔离。具体措施包括模型和检查点存储锁定,用于模型起源的SLSABuildL3,以及ML平台和工具的强化。对机器学习平台和工具进行更改,以禁止核心研究团队以外的人员单方面访问原始模型表示,但根据业务需求授予例外。模型只能通过高信任开发人员环境(HTDE)、强化的防篡改工作站以及增强的日志记录来访问。最小可信计算基础(TCB)。具有机密计算能力的TPU。专门的硬件吊舱,用于培训和服务高价值机型。”首席执行官RSO可以批准更简单的临时措施,提供ASL-3级保护,如(部署:)阻止模型响应,提高监控灵敏度,或(安全性将模型权重存储在具有ASL-3安全性的隔离网络中。在临时措施不足以解决问题的极不可能的情况下,实施更强的限制,如临时(部署:)解除部署或(安全:)删除模型权重。如果ASL-3Security不可用,则限制更强大模型的训练。通过培训前评估进行监控。“只有缓解后评分为“中等”或以下的型号才能部署。[..]”.(They注意,一种缓解可以是将部署限制到可信方。“限制发展只有缓解后得分为“高”或低于“高”的模型才能进一步开发。换句话说,如果我们在任何风险类别中达到(或预测达到)“关键”缓解前风险,我们承诺确保该模型有足够的缓解措施(当我们在能力开发中达到该风险水平时,更不用说部署了),以使整体缓解后风险最多回到“高”水平。请注意,这不应排除安全增强开发。[..].此外,为了防范“关键”的预缓解风险,我们需要可靠的证据来证明模型是充分一致的,它不会启动“关键”风险级别的任务,除非明确指示这样做。“在适当级别的缓解措施准备就绪之前,模型可能会达到评估阈值。如果发生这种情况,我们将暂停进一步的部署或开发,或实施额外的协议(例如为给定的CCL实施更精确的早期预警评估),以确保模型在没有适当的安全缓解措施的情况下不会到达CCL,并且在没有适当的部署缓解措施的情况下不会部署带有CCL的模型。26粘附为确保有效执行而作出的其他“内部治理”(See第11)-责任缩放官:监督RSP的实施,向董事会提出更新建议,批准决定,接收向董事会提交的不合规报告-针对事件场景制定内部安全演习程序,包括(1)暂停培训(2)应对严重安全事件(3)应对严重模型漏洞,包括限制访问。-与Anthropic员工分享编辑报告以征求反馈。-不合规行为:员工向RSO(或董事会(如果涉及RSO报告潜在不合规行为的匿名报告流程。-禁止非贬低协议(NDA),这将阻止(前)工作人员公开提出安全问题或披露NDA的存在。-首席执行官/RSO提议的政策变更经董事会批准,并与LTBT协商。-设立“备灾小组”,负责框架的实施。-安全咨询小组(SAG),包括SAG主席,提供了多种观点来评估与灾难性风险相关的证据的力度,并建议采取适当的行动。-内部可见性:与OpenAl员工和董事会共享(编辑)报告和决策,包括潜在的审计跟踪。-安全演习:SAG将要求进行安全演习,为快速移动的紧急情况做好组织对可预见的情景的反应。建议至少没有相关信息保证额外的“透明度和外部输入”承诺:(See(第12)-与评估部署相关的关键信息-能力保障报告摘要-定期提供关于潜在不遵守情况的内部报告的信息。2.征求外部专家对能力和保障评估的意见。3.通知美国如果型号要求ASL-3标准,则为政府。4.程序合规性审查:大约每年一次,委托第三方进行审查,评估对政策主要程序承诺的遵守情况(我们希望将其列入确切的清单,因为以前没有对RSP这样做过)。这次审查将侧重于程序。合规性,而非实质性成果。我们也将在内部以更有规律的节奏进行此类审查。-审计:记分卡评估(和相应的缓解措施)将由合格的独立第三方进行审计,以确保准确报告结果,方法是复制调查结果或审查方法,按照SAG指定的节奏或CEO/董事会的要求,确保稳健性-外部访问:继续外部研究政府访问模型发布。“让外部权威机构和专家参与进来:我们正在探索内部政策,在达到评估阈值时提醒相关利益相关者机构,在某些情况下,还包括缓解计划和缓解后的结果。我们还将探讨如何适当地让独立第三方参与我们的风险评估和缓解流程。人择OpenAI谷歌DeepMind智普AI生命未来研究所27研究指标清单•控制/调整策略:我们评估公司是否公开分享了他们的策略,以确保更先进的人工智能仍然处于人类控制之下或保持一致,并总结任何此类文件的内容。我们排除了对政府和其他利益相关者的政策建议。•能力目标:我们分享公司在构建强大的未来人工智能系统方面的雄心。•安全研究:我们报告公司是否认真从事研究,致力于确保未来更先进的人工智能模型的安全性和控制/对齐。我们报告的出版物和研究方向的数量。•支持外部安全研究:我们注意到公司支持外部存在安全相关研究人员的行动。一强大的量化保证,抵御超级智能AI带来的灾难性风险B战略很可能会防止超级智能AI的灾难性风险C战略可能会防止超级智能AI的灾难性风险D可能有助于减轻超级智能AI带来的一些巨大风险的战略F没有给出策略,或评估策略对存在安全无用生命未来研究所28人择关于AI安全的核心观点(6.2k字)博客文章分享&了AI安全的视角策略。中央报价:•“我们的目标基本上是开发:1)更好的技术,使人工智能系统更安全;2)更好的方法来识别人工智能系统的安全性或不安全性。•“我们正在研究各种可扩展监督的方法,包括宪法AI的扩展,人工辅助监督的变体,AI-AI辩论的版本,通过多智能体RL的红色团队,以及创建模型生成的评估。•“我们的目标是建立详细的定量模型,说明这些趋势如何[例如,欺骗或不受欢迎的目标]随规模而变化,以便我们能够提前预测突然出现的危险故障模式。”•“我们的可解释性研究优先考虑填补其他类型的对齐科学留下的空白。我们的希望是,这最终可以使我们做一些类似于“代码审查”的事情,审计我们的模型,以识别不安全的方面,或者提供强有力的安全保证。考虑到技术上的不确定性,他们采用组合方法进行安全研究。在文章中,他们解释了6个优先研究领域:2.可扩展的监督,3.过程导向学习,5.危险故障模式测试6.评估社会影响给定对齐问题难度的不确定性。Anthropic分享了它将如何在从乐观到悲观的不同情景中调整其战略:1.乐观的场景-人工智能安全相对容易实现:Anthropic将专注于加速人工智能的有益使用,并帮助解决人工智能引起的毒性和权力转移等问题。2.中间场景--人工智能开发可能会带来灾难性失败的风险。需要大量的科学和工程工作来避免这种情况:Anthropic将致力于识别这些风险并开发安全的人工智能训练技术,可能依赖于机械可解释性等方法来确保安全。在所有情况下,Anthropic的首要任务是收集更多信息,以了解他们所处的场景,并开发技术,使人工智能更安全,并评估人工智能系统的安全程度。他们的研究组合旨在解决每种情况带来的挑战OpenAI为AGI及以后制定计划(1.7k字)。中央报价:•“我们希望AGI的利益、访问和治理得到广泛和公平的分享。”•“我们相信,我们必须不断学习和适应,部署功能较弱的技术版本,以尽量减少‘一击即中’的情况。”•“随着我们的模型变得越来越强大,我们将需要开发新的对齐技术(并进行测试以了解我们当前的技术何时失败)。我们的短期计划是使用人工智能来帮助人类评估更复杂模型的输出并监控复杂系统,从长远来看,使用人工智能来帮助我们提出更好对齐技术的新想法。•“我们认为较慢的起飞更容易安全,并且AGI在关键时刻减速的努力之间的协调可能很重要(即使在我们不需要这样做来解决技术对准问题的世界中,减速可能是重要的,以便给社会足够的时间来适应)。超级联盟团队的公告注:在团队领导人离开OpenAI后,团队于2024年被放弃。中央报价:•“[..]人类将无法可靠地监督比我们聪明得多的人工智能系统,因此我们目前的对齐技术将无法扩展到超级智能。我们需要新的科学和技术突破。我们的目标是建立一个大致人类水平的自动比对研究员。然后,我们可以使用大量的计算来扩展我们的努力,并迭代地调整超级智能。为了让第一个自动比对研究员进行比对,我们需要1)开发一个可扩展的训练方法,2)验证生成的模型,3)对整个比对管道进行压力测试:1)为了提供人类难以评估的任务的训练信号,我们可以利用AI系统来帮助评估其他AI系统(可扩展的监督)。此外,我们希望了解和控制我们的模型如何将我们的疏忽推广到生命未来研究所29我们无法监督的任务(泛化)。2)为了验证我们的系统的一致性,我们自动搜索有问题的行为(鲁棒性)和有问题的内部(自动化可解释性)。3)最后,我们可以通过故意训练未对齐的模型来测试我们的整个管道博客“我们的对齐研究方法“(1.7k字)。中央报价:•“它有三个主要支柱:1)使用人类反馈训练人工智能系统;2)训练人工智能系统以协助人类评估;3)训练人工智能系统进行对齐研究。谷歌DeepMindAGI安全调整(主要团队专注于存在风险)分享了最近的工作总结他们参与要发布的评论。中央报价:•“我们在过去1.5年的重大赌注是:1)放大监督,为调整模型提供正确的学习信号,使它们不会构成灾难性风险;2)前沿安全,首先分析模型是否能够构成灾难性风险;3机械)可解释性,作为前沿安全和调整目标的潜在推动者。除了这些赌注,我们还尝试了一些有前途的领域和想法,帮助我们确定应该下的新赌注。”(Post解释了这些研究领域,最近的工作,并深入合作,并分享这些研究工作背后的理由。•“也许我们现在正在进行的最令人兴奋和最重要的项目是修改我们自己的技术AGI安全的高水平方法。虽然我们对边界安全、可解释性和扩大监督的押注是这一议程的关键方面,但它们并不一定构成解决风险的系统性方法我们正在为技术偏差风险制定一个逻辑结构,并使用它来优先考虑我们的研究,以便我们更好地涵盖我们需要克服的一系列挑战。作为其中的一部分,我们正在提请注意需要解决的重要领域。即使强化监督效果完美,也显然不足以确保协调一致。在分布转移的情况下,人工智能系统可能会以放大的监督不会认可的方式行事,正如我们之前在目标泛化中所研究的那样。解决这一问题需要在对抗性培训、不确定性估计、监控等方面进行投资;我们希望通过控制框架来评估这些缓解措施。工作人员分享了关于对齐团队的威胁模型、对齐策略、&三个不同团队的当前项目的博客(1.4k字)。博客“威胁模型和计划对齐团队”概述了12个相关帖子,包括:•招聘要求对齐和可扩展的对齐团队勾勒出研究方向•8个联盟工作人员对43个关于AGI破坏&战略含义的陈述的看法。•发布澄清x风险威胁模型。没有发布处理高级系统的策略。Meta谈到了“负责任的人工智能”,其中包括“鲁棒性和安全性”,但讨论的重点是当前的危害/系统。在他2024年的文章《开源人工智能是前进的道路》中,扎克伯格认为开源模型会降低无意伤害的风险,包括“人类真正灾难性的科幻小说场景”,因为它们更透明,可以被广泛审查。没有公布战略,但马斯克分享了他的高层观点:“前提是让人工智能最大限度地好奇,最大限度地寻求真理,我在这里变得有点深奥,但我认为从人工智能安全的角度来看,一个最大限度好奇的人工智能-一个试图了解宇宙的人工智能-我认为从人类比没有更有趣的角度来看,它将是亲人类的。..地球比火星有趣多了。..从人工智能安全的角度来说这是我能想到的最好的我认为这比试图明确地编程道德更好-如果你试图编程道德,你必须问谁的道德。“宣布Grok”博客文章分享了xAI很兴奋的研究方向。除了可扩展的监督与工具援助,对抗性的鲁棒性,和其他,帖子提到:“与安全性、可靠性和接地的正式验证相结合。为了创建能够对现实世界进行深入推理的人工智能系统,我们计划在不那么模糊和更可验证的情况下开发推理技能。这使我们能够在没有人类反馈或与现实世界交互的情况下评估我们的这一做法的一个主要近期目标是正式保证代码正确性,特别是关于人工智能安全的形式可验证方面。智普AI未发布战略30生命未来研究所Amodei不喜欢AGI这个词。谈到“强大的人工智能”最早将于2026年到来,尽管他没有明确表示他想建造它。“强大的人工智能”指的是一个系统:-“[..]在大多数相关领域都比诺贝尔奖得主聪明。”-“它拥有人类虚拟工作所需的所有“界面”--它可以自主完成需要数周时间的任务。-“可以以大约10倍至100倍的人类速度吸收信息并产生动作”-“用于训练模型的资源可以重新用于运行数百万个实例”OpenAI最初的“使命是确保人工通用智慧造福全人类。”在最近的文件中,他们将其修改为“构建安全并造福全人类的通用人工OpenAI将AGI定义为“在最具经济价值的工作中表现优于人类的高度自治系统旨在构建AGI。Hassabis分享了他想“解决智能问题,然后用它来解决其他一切问题”。提出了一个更复杂的AGI定义,包含6个原则和不同的“AGI水平”。没有共同的定旨在构建AGI。(索引调查)旨在构建AGI。(索引调查)下图显示了2024年9月人工智能政策和战略研究所进行的技术安全研究文献综述的结果范围包括OpenAI、Anthropic或GoogleDeepMind在2022年1月至2024年7月期间发表的技术安全研究(出版物列表的URL)。我们注意到,出版物的数量是一个粗略的衡量标准。OpenAI:《财富》杂志报道称,30名AGI安全研究人员中有14人在2024年离开了OpenAI该报告引用了一位前员工的话,他认为人们正在放弃,因为OpenAI继续转向产品和商业重点,而不太重视旨在确定如何确保AGI安全开发的研究。从那时起,Brundage(AGI准备负责人)和Ngo,谁向他报告,也离开了,他们的团队被解散。GoogleDeepMind:团队专注于存在风险报告,拥有30-50名员工。谷歌DeepMind的一位研究人员表示,他们的一些研究成果没有被列出。安全性研究出版物列表2010-负责任的AI:2项-完整性:19项→许多项目集中在Meta当前产品和&服务的问题上。版物。我们发现一篇英文论文描述了他们对RLHF的方法。生命未来研究所312024年7月,呼吁申请资助和支持开发第三方评估安全水平和相关科学技术的新举措。帮助资助前沿模型论坛的人工智能安全基金,金额不详。发布资源,包括RLHF和红队数据集,可解释性笔记本, 以及模式生物提示和转录超级联盟快速赠款(2023年):1000万美元用于支持超人AI系统的对齐和安全性的技术研究,包括弱到强的泛化,可解释性,可扩展的监督等。帮助资助前沿模型论坛的人工智能安全基金,金额不详。GPT-4o微调访问。发布了OpenAIEvals,这是他们针对基准评估模型的框架开放重量释放杰玛模型。帮助资助前沿模型论坛的人工智能安全基金,金额不详。释放杰玛·斯科普用于可解释性研究的一套全面的开放重量发布开放式重量释放关于GLM-4语音和GLM-49B.人择OpenAI谷歌DeepMind
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 孩子健康心理培养指南
- 社团活动中的人际关系计划
- 轻食市场行业分析
- 2025年鹰潭从业资格证模拟考试题下载货运
- 2025年沈阳货运从业资格证模拟考题
- 农产品电子商务质量认证与监管作业指导书
- 纺织印染助剂与工艺作业指导书
- 岗位技能培训试卷
- 农户增收促进方案
- 如何用账本培养财商思维
- T-CSPSTC 55-2020 隧道衬砌质量无损检测技术规程
- 辽宁省部分高中2023-2024学年高一下学期4月月考化学试题
- 人教版部编道德与法治九上5.1《延续文化血脉》说课稿
- DL∕T 748.2-2016 火力发电厂锅炉机组检修导则 第2部分:锅炉本体检修
- 河北省保定市六校联盟2023-2024学年高一下学期期中联考 数学试题
- 高中数学必修二(人教A版2019)课后习题答案解析
- 2024届高考化学精英模拟卷 【山东版】含答案
- 14J936变形缝建筑构造
- 期末(试题)-2023-2024学年四年级下册数学人教版
- 2024届北京市海淀区初三语文二模作文6篇高分范文:“有了你我真不一样”
- MOOC 职场英语-西南交通大学 中国大学慕课答案
评论
0/150
提交评论