版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
强化学习人工智能系统的风险评估超越技术关于兰德研究诚信有限的印刷和电子分发权使用其任何研究产品均需获得兰德公司的许可。有关重印和重复使用许可的信息,请访问本报告讨论了国防部(DoD)在国防部应用中部署一种称为强化学习(RL)的人工智能什么风险(即,技术故障导致任务失败)或部队结构在吸收此类技术这项研究由国防部负责研究和工程的副部长办公室赞助,并在兰德公司国家安全研究部),我们要感谢JillCrisman对本研究的赞助;JoelPredd、ChristopherMouton和强化学习AI系统的风险评估:超越技术ivKhan,他们参加了有益的讨论。v中多个在线玩家可以同时玩。在这些和其他突出的例子中,常见的是AI的学习组件,通常涉及某种形式的RL。强化学习是一个过程,通过这个过程,智能体与世界的模型进行解决某些问题或执行某些任务的经常失败的解释。从这个角度来看,挑战是人工智能系不幸的是,在国防部应用中部署RL系统所涉及的许多挑战和风险都是未知的,特别是强化学习AI系统的风险评估:超越技术vi•在复杂的国防部应用中开发和部署RL可能面临的主要技术挑战是什么?•国防部在使用这种技术时可能面临哪些主要的非技术性挑战,例如由RL部署引起方法的研讨会。跃进方法。个框架将允许国防部参与者自由讨论,他们可能有操作经验,但很少或没有人工智能经验。我们首先考虑在我们的研讨会中应用正式的基于风险的框架,但是我们的文献回顾总结vii为期一天的研讨会中引入不必要的复杂性我们决定修改Mayer等人开发的框架。3为了我们的目的研讨会在一天内分三场会议。第一次会议最初集中在爬行-步行-跑步和大跃进情景背主要结论此,TE可以成为一个费力的强化学习AI系统的风险评估:超越技术viii用中可能存在的所有挑战的解决方案。建议计新颖算法以解决特定问题的能力;训练RL的数据工程技能;RL训练的建模环境;以及供了一种为更广泛的AI进行引导训练的方法。ix 三摘要 五 Xi第1 1 1 2 3 4 5 游戏 7 结论 第2 21 21 25 26 28 29 30 结论 41第3 43 44大跃进情景46强化学习AI系统的风险评估:超越技术x第4 49 49结果 50 62第5 建议 64 68 69 缩写 77参考文献 79xi图 3 6 22 44 45 56 57 就表1.1.计算机解2.2.几个大型DL模型的2.3.使用某种形式RL314.1.评级挑战的4.2.第51小节: 53 的 60 xii 的1人工智能(AI)是一个术语,通常用于描述一台机器,它执行通常为人类智能保留的任狭义人工智能与广义人工智能对国防部来说很重要,至少有两个原因:首先,狭义AI往强化学习AI系统的风险评估:超越技术2失败可能是灾难性的,并且是不可挽回的。下面是机器学习(ML)的概述,更具体地说,是强化学习(RL);AI的这些领域在最以及所涉及的潜在挑战和风险。•AI:人工智能广泛地涵盖了不同形式的机器智能。人工智能的先驱之一马文·明斯基(MarvinMinsky)将人工智能的流行概念总结为“会思考的机器”。在人工智能4RL被认为是ML的一个子集,因为数理。狭义人工智能与广义人工智能以及强化学习概述3许多专家认为,在不久的将来,人工智能的能力将超过人类。[7]事实上,人工智能在游戏领域的最新进展涉及复杂的多人战略游戏,其中人工智能的水平足以击败最好的人类玩人工智能的分类从狭义到广义力别AI进化划来源:改编自SeppHochreiter,“TowardaBroadAI”,ACM通信,计算机协会,卷。65,不。4,2022;和YoelvicBengio,YannLecun,andGeoffreyHinton,“DeepLearningforAI,”CommunicationsoftheACM,AssociationforComputingMachinery,Vol.64,不。2021年7月强化学习AI系统的风险评估:超越技术4人工智能的范围从狭窄的特定于任务的技能(如图像识别)到由广泛的认知技能组合世界中存在的许多属性。例如,人们不会认为在星际争霸中据。相反,机器只使用输入数据进行学习,并试图识别模式和关联,),狭义人工智能与广义人工智能以及强化学习概述5论,在该理论中,行为通过奖励(惩罚)而加强(削弱),导致行为的重复(灭绝)。]经典的解释使用大鼠作为模型,也可以用同样的方法来解释RL,如图1.2所示。一只老),强化学习的基本概念:老鼠智能体学会在迷宫中导航刑罚赏赐A环境环境注:老鼠特工首先观察环境(1)。它采取行动(2),导致奖励或惩罚(3)。强化学习AI系统的风险评估:超越技术6物如何在该环境中发挥作用。1.3)。17模型指的是是否存在关于代理人与环境之间相互作用的动态的知识。具体来说,RL的简化分类资料来源:改编自HaoDong,ZihanDing和ShanghangZhang,深度强化学习:基础,研究和应用,Springer,2020。型的强化学习技术的简要调查”,第24届系统理论、控制与计算国际会议(ICSTCC)论文集,2020狭义人工智能与广义人工智能以及强化学习概述7受计算能力和获胜策略或训练示例限制的测试示例。例如,在井字游戏中,计算机可以生大的飞跃(即,确定所有可能游戏的所有可能结果)以超越计算能力。国际象棋就是这样一种游戏,但仍然可以使用复杂的树搜索方法来预测可能的前进路线强化学习AI系统的风险评估:超越技术8AlphaGo(开始,中间,结束)可能移动的数量在国际象棋中为35,而在围棋中为300。在国际象棋中,得分的结束状态很简单(将死),而在围棋中则更复杂--计数区域,或者玩家的宙,而我们看到的只是眼前的一个池塘。26AlphaGo算法在Silveretal.[27]Alp狭义人工智能与广义人工智能以及强化学习概述9络。AlphaGoZero虽然AlphaGo利用专家游戏来引导神经网络的训练,但随后的AlphaGoZero算法没有使Dota2前一部分是电脑游戏重大进步的一个样本,但肯定不是全面的。31RL是最近许多火车进步的组成部分,日。强化学习AI系统的风险评估:超越技术算法。在这样的环境中,考虑RL在涉及战略决策的国防部应用中的效用变得很自然。队合作获得优势。表1.1几种著名的计算机求解游戏的特点板状态空间信息随机性玩家合作地平线2去2卡变化很2长B长来源:AskePlaat的特征数据,学习游戏:强化学习和游戏,SpringerNature,2020;Yin等人,2021;和云龙陆和李文新,“技术和范式在现代游戏AI系统,”算法,卷。15,No.8,2022.[1]扑克的范围因其变化和玩家数量而有很大差异(MichaelJohanson,“MeasuringtheSizeofLargeNo-LimitPokerGames,”arXivpreprintarXiv:1302.7008,2013)。b未找到国家空间估计数。狭义人工智能与广义人工智能以及强化学习概述•完全或不完全信息博弈国际象棋是一种完全信息的游戏,在这种游戏中,玩家可比如扑克,玩家拥有其他人不知道的信息。在这种情况下,制定策略包括猜测对手•具有随机元素的博弈在游戏中加入掷骰子或洗牌,会给游戏增加一个随机元素。根据索兰和维耶的说法首先,与当前状态一起,参与者的行为决定了每个参与者获得的即时MikePreuss,“RTSAIProblemsandTechniques,”inNewtonLee,ed.计35DiogoM.Costa,“游戏和谜题的计算复杂性”,硕士论文,哈佛大学,2018年7月;MarcinPrzybylko,随机游戏及其复杂性,NouvelleCalédonie,2019年;ConstantinosDaskalakis,强化学习AI系统的风险评估:超越技术约翰逊和特雷德韦考虑在战术战场管理系统中使用人工智能。[36]如图1.4所示,这样一个系统在游戏中,游戏就是现实Man,andCybernetics(1999年IEEE系统、人与网络国际会议)。号99CH37028),Vol.722,1999狭义人工智能与广义人工智能以及强化学习概述战术决策域资料来源:转载自JohnsonandTreadway,2019,p.72.与它的环境相互作用,并探索它的决定的后果,这种风险可能是不可接受的。还考际上很少存在这样的场景,对于如游戏中所示的许多训练示例的需要可能需要在某些情强化学习AI系统的风险评估:超越技术将专业知识从游戏转移到现实拟合游戏中生成的数据。换句话说,学会玩游戏的RL成为游戏中的专家。领域泛化是AI态,这是特别困难的。[42]如果我们考虑图1.4中的域,域中的复杂性存在于环境、战术、下,风险来自于让一种类型的战斗专家负责另更差,因为它概括了它的表现。),狭义人工智能与广义人工智能以及强化学习概述那么它们就不太可能实用。风险是不可接受的损失之前,一个实现训练有素的系统。而不会有不可接受的风险。不及物性与战略深度强化学习AI系统的风险评估:超越技术么许多这类游戏需要大量的策略来成功训练。54Sanjaya等人使用国际象棋移动55的开放数狭义人工智能与广义人工智能以及强化学习概述59统做出的决策会造成不可接受的损失。RL是一种功能强大的算法工具,在游戏领域取得了巨大成功。在这一领域,强化学习解问题。这样的系统将具有超过当前游戏的复杂性。此程序。RL的一些风险因素来自其他形式的人工智能的经验,例如资源限制或不一致的组为了考虑RL系统的失败风险,研究AI系统的部署以及导致它们失败的因素是有用的。虽然我们的研究并没有关注涉及RL的应用,但与其使用失败相关的类别和因素预计将),强化学习AI系统的风险评估:超越技术20表2.1AI失败的风险类别和风险因素资料来源:转载自Westenberger,Schleman和Schlegel,2022年。“DeepReinforcementLearningThatMatters”,论文发表于第三十二届人工智能进步协会人工智能会议3GabrielDulac-Arnold,NirLevine,DanielJ.Mankowitz,JerryLi,CosminPaduraru,SvenGowal和5DarioAmodei,ChrisOlah,JacobSteinhardt,PaulChristiano,JohnSchulman,andDanMané,ℼConcreteProblemsinAISafety,”arXivpreprintarXiv:1606.06565,2016.RL在更广泛问题中的进一步技术挑战21同样,每个领域的经验性质都可能导致似乎在某些应用中起作用的解决方案,而不相信这些解决方案具有普遍性。例如,Amodei等人将一个挑战列为“对分布这个挑战与RL代理在环境变化时按预期响应有关。Padakandla的一份调查报告使用了术语“动态变化的环境”,并提出了针对不同应用的各种方法,使用不同类型的RL,具有各91,2022。强化学习AI系统的风险评估:超越技术22增长。如果我们以游戏Dota2为例,RL解决游戏所需的计算被报告为每秒770petaflops),petaflops/s。15OpenAI提供了一个图表,显示了AI在基准测试方面的进展,以及每个基准测试所需的总计算量的估计如图2.1所示AI所需计算能力随时间变化的图资料来源:转载自DarioAmodei和DannyHernandez,“AIandCompute”网页,OpenAI,2018年5月RL在更广泛问题中的进一步技术挑战23训练大规模模型所需的总能量可能相当可观。例如,第一列中显示的神经架构搜索(NAS)模型估计需要7.5兆瓦时(MWh),大约是11个消费者一个月的平均零售电力需强化学习AI系统的风险评估:超越技术24表2.2几个大型DL模型的功效估计技术进化的格哈德开关Transformer十月b来源:Patterson等人的特征数据,2021年注:GPU=图形处理单元;kW=千瓦;TPU=张量处理单元;W=瓦特。aTFLOPS=1012浮点运算/秒。bZetaflops=1021浮点运算/秒。c运行能量是平均处理器功率乘以处理器数量得出的。约为13,000个消费者的平均住宅电力需求。20求。Ivanov等人发现,训练Transformer模型(用于表2-2的数据)的关键瓶颈之一是数MachineLearningandSystems,RL在更广泛问题中的进一步技术挑战25的输入。这些数据可能需要在训练过程中以某种方式进行模拟,但是在方式更具竞争力。DNN代表一组复杂的互连节点,它们处理输入数据以做出决策。鉴于DNN的黑盒性质,在确认诊断时认为它是多余的,否则会怀疑它。总的来说,这项工作森建议之间的比较,25S.P.Somashekhar,Martín-J.安德鲁·塞普尔韦达放大图片作者:Norden,AmitRauthan,CognitiveComputingSystemforLungandColorectalCancerTreatment的早期经验”,Journalof强化学习AI系统的风险评估:超越技术26兰所报告的那样,有几种这样的工具就是这种情况。28另一个由于缺乏解释性而产生的潜在风险是人类倾向于将AI拟人化。拟人化可能会导致用户假设一些共同的动机或思维过程,这可能会影响对人工智能行为的正确评估。确认偏差(Confirmationbias),倾向于给予数据更大的权重来确认我们自己的假设,也象。RL在更广泛问题中的进一步技术挑战2731一个设计不好的奖励函数会导致一种叫做奖励黑客的现象。[32]奖励黑客是指代理人因问题,正在研究一系列方法。36任何基于RL的国防部系统都必须确保意外行为不会通过奖励黑客或不安全操作导致不强化学习AI系统的风险评估:超越技术28化学习系统都有这样的弱点,攻击可能会导致不可接受的高成本,影RL在更广泛问题中的进一步技术挑战29家交互的例子可以基本上被RL代理模仿时,这种类型的学习是有用的。当示例是次优的(即,没有被专家证明)或嘈杂的情况下,离线训练表现得更好。离线强化学习作。45这种学习的应用的一个例子是自动驾驶,46其中可以通过跟随现有驾驶员来收集数据。例子。期行为的可接受偏差到具有不可接受的高负面后果的不确强化学习AI系统的风险评估:超越技术30训。训发生,特别是如果失去其能力的风险大于它正在创建的风险。如果任何故障的严重后果,可能别无选择,只能使系统脱机。在这种情况下,围绕失败案例进行培训可能是一执行完整的重新认证可能是不可行的。因此,除非有适当的缓解方法来处理此类情况,否则故障模式可能会成为关键问题。收集大型数据集是可行的。从一个点到另一个点旅行的目标是一个明确的目标。该应用出了这些因素。RL在更广泛问题中的进一步技术挑战31表2.3使用某种形式的RL的商业应用示例公司应用州测策今aTekedraMawakana,“与UPS合作实现我们的使命”,Waypoint博客,Waymo,2020年1月29日;Waymo,“同一个司机,不同的车辆:将Waymo自动驾驶技术带到卡车上”,Waypoint博客,2018年3月9日;Waymo,“WaymoVia正在与J.B.HunttoCarryFreightAcrossTexas,”Waypointblog,June10,2021a;ChrisBrown,“WaymoOutlinesPlanstoIntegrateAutonomousTruckinginFleets,”FleetForward,July14,2020.[2]EricWalz,“Waymo正在纽约市部署其自动驾驶汽车”,FutureCar,2021年12月10日。cNuro,“FindaCareerThatDelivers,”网页,未注明日期。[4]TomWarren,“IntelAcquiringMobileye'sSelf-DrivingCarTechnologyin$15BillionDeal,”TheVerge,March13,2017.e卡内基梅隆大学视听中心,“研究主题”,网页,卡内基梅隆大学机器人研究所,未注明日期。fAptiv,“自主移动性”,网页,未注明日期;NiclasCarlström,“利用低层雷达数据增强雷达跟踪Waymo还在旧金山进行出租车服务的试点测试。强化学习AI系统的风险评估:超越技术32真实世界的数据用于训练目的。RL带来了奖励最大化的风险,这与程序员的意图不一奖励正如Waymo在2019年的一篇博客文章中所报道的那样,Waymo发现从好的情况中学据意味着机器没有信息可以模仿,也不知道如何在碰撞中做出反应。RL在更广泛问题中的进一步技术挑战3353WaymoDriver系统的验证是通过在公共道路上进行一系列测试、模拟和操作来进行人或卡车在路上扔垃圾。终在测试阶段与乘客一起进行测试。其目的是让驾驶员从所有这些什么情况,然后又动了起来,又停了下来。这辆车最终以手动模式驾驶,但这一失败为Waymo提供了一个很好的机会,让它训练司机软件如何应对交通锥。一旦新的培训完强化学习AI系统的风险评估:超越技术34航程DeepRL和IL为这个基于Python的软件工具包提供了基线代理。模拟使人们能够开发代57GMCruiseVoyage是Udacity的分拆,现在已被GMCruise收购(截至2021年)Cruise使用机器学习收集关于U形转弯事件的独特和指定情况的数据。然而,检测器方法识别离散事件,并RL在更广泛问题中的进一步技术挑战35Mobileye为处理Mobileye的视听系统而设计,称为说,碰撞大大减少。例如,吉田出租车公司发现,一旦他们的汽车安装了该系统,碰撞事故减少了85%。64作为响应。训练偏好是大量吸收训练数据以做出增量决策。虽然Mobileye使用深度神经6560AndrewJ.Hawkins,“IntelIsTakingItsSelf-DrivingCompanyMobileyePublicin2022,”TheVerge,December7,2021b.65ShaiShalev-Shwartz,ShakedShammah和AmnonShashua,“Safe,Multi-Agent,ReinforcementLearningforAutonomousDriving”,arXiv预印本arXiv:1610.03295,2016年10月强化学习AI系统的风险评估:超越技术36来自侵权法。[66]目标是确保自主系统永远不会成为事故的原因,因此从这些概念中开发运营,只有20辆车接触;没有一辆车报告受伤。总体而言,Waymo在其主页上吹70End-to-EndAutonomousDrivingModels,”ProceeRL在更广泛问题中的进一步技术挑战37间重新训练,测试和部署系统更新以对抗这种攻击及其变体。4.强化学习通常是解决过程中的一项任务,而不是解决大规模问题的一般方法。其正如第1章所讨论的,强化学习在学习和赢得不同复杂程度的游戏方面非常成功。过渡到现实世界的应用程序会导致与问题的复杂性,大小以及RL从有限的训练数据中学习的困总的来说,在这方面的许多问题仍然有待解决,可转移到实际系统,鲁棒性和代理验证。由于这些问题,可以说强化学习不是汽车运动规划的适当方法。然而,当与其他方法相结合时,它在解决复杂的优用。76“AdversarialDiscriminativeFeatureSeparationforGeneralizationinReinforcementLearning”,2022年国际神经网络联合会议(IJCNN)论文集,2022年。76B.Udugama,“ReviewofDeepReinforcementLearningforAutonomousDriving”,arXiv预印本强化学习AI系统的风险评估:超越技术38路线规划和控制。境鲁棒性的挑战。在“从窄到宽”的应用空间中,我们期望RL成为国防部考虑的可行方)?如,内容推荐)或有助于模拟(例如,控制理论、博弈论)78YuxiLi,“ReinforcementLearningin84李,2022。RL在更广泛问题中的进一步技术挑战39度)。域都很复杂)。默认情况下,当在文献中识别为漏洞时,预期风险在狭义应表2.4三类问题的观察或预期RL风险总结风险描述自主国防部广泛驱动望低高高低高高高高高强化学习AI系统的风险评估:超越技术40表2.4-续风险描述自主国防部广泛驱动识低低高高缺乏可解释性/信任不完整模型/对不确定性的响应低高高高高高高高高高高注:低、中、高是指使用RL的风险水平。的国防部应用程序中的评估。RL在更广泛问题中的进一步技术挑战4143常涵盖24小时的空中行动。因此,虽然AOC的一些要素可能参与监督当天ATO的执行,和DavidBlancett,现代战争的联合全域指挥与控制:识别和开发人工智能应用的强化学习AI系统的风险评估:超越技术44空气任务周期行ATOATO制作和传播资料来源:改编自Lingel等人,2020年。3探索挑战的情景45图3.2描述了这种情况的概况。随着技术水平的进步,AOC随着时间的推移从“爬行”阶段过渡到“行走”阶段(图3.2场景概述-爬行-步行-跑步•人员配备水平基本维管•减少人员配置,但允许24/7•单个大型RL代理/系统几乎自主•最少的人员配置,以确保RL系注:Comms=通信。强化学习AI系统的风险评估:超越技术46与“传统”AOC相关的人员配备水平。情景概述-大跃进•RL•RL代理/系统的有限、小规模部署•人员配置水平基本维持现状•单个大型RL代理•最少的人员配置,以确保RL系注:Comms=通信。探索挑战的情景47 系统部署在AOC内有限的小规模基础上(图3.3的左侧)送到该系统中,以接收最终的决策输出。49了一种混合方法,与兰德公司和国防部人员一起在为期一天的研讨会上收集了三次会议在每次会议开始时,我们简要介绍了一个复杂的军事场景,RL可以在未来应用。每个),缓解措施。发方法,以确定基于技术的挑战:应用程序通知部队规划技术惊喜,兰德公司,RR-A701-1,2021强化学习AI系统的风险评估:超越技术50所考虑的每个场景的其他因素相关的六个标准来评估挑战(表4.1和第3章)。被要求完成评估调查,因此本次分析共有10份已完成的调查。每次挑战的平均评分见表字描述了所有参与者的每个评估陈述的平均得分,并记录了等于或大于95%、98%和99%置信区间的p值。2表4.1评级挑战的类别和描述影响类别国防部检测和预防的障碍国防部不太可能在此挑战被实现之前检测到它,或者即使检测到它除了国防部检测和预防的障碍之外,很少有障碍可以阻止这一挑战术准备或对手的能力或采用技术的意图,改变外部因素缓解困难如果这一挑战得以实现,国防部将难以缓解其影响(例如,通过权限、如果不加以缓解,这一挑战将严重限制(直接或间接)国对国家安全的影响如果不加以缓解,这一挑战将(直接或间接)严重损害美国的国家安全(挑战识别框架和研讨会51表4.2三大挑战,按优先级和研讨会分项列出国防部的障碍检测影响和其他缓解措施对国家可能面临的挑战的影响描述优先预防障碍困难操作安全事件爬-走-跑AirForce,简称123对系统缺乏信任和了解123部队重组),3强化学习AI系统的风险评估:超越技术52表4.2-续国防部检测的障碍预防挑战描述优先级其他障碍缓解难度对业务的影响对国家安全的影响发生可能性技术走1233123来源:作者对调查结果的分析注:评价陈述按从强烈不同意(1)到强烈同意(5)的量表评分所示数字代表10份已完成参与者调查的平均数。p值等于或高于95%置信区间。bp值等于或高于98%置信区间。cp值等于或高于99%置信区间。识和专业知识的劳动力来部署和维护RL模型和系统,例如ML职业领域。这可能会导致缺解(两者的平均得分都为3.7)。所讨论的潜在缓解措施包括促进发展文职人员队伍所需的技能和专门知识或扩大工程系列,但如果没有多余的能力,这也可能带来其他挑战。还讨论了外包这一备选办法,),挑战识别框架和研讨会53表4.3顶级力量重组挑战国防部的障碍检测和预防挑战描述优先其他障碍缓解难度对业务的影响对国家安全的影响发生可能性要部署的劳动力1跑2345对系统缺乏信任和了解123来源:作者对调查结果的分析注:评价陈述按从强烈不同意(1)到强烈同意(5)的量表评分所示数字代表10份已完成参与者调查的平均数。p值等于或高于95%置信区间。bp值等于或高于98%置信区间。cp值等于或高于99%置信区间。强化学习AI系统的风险评估:超越技术54行员留用奖金为模式的制度在这种情况下是否有效。这一备选办法不仅影响到部队的组它再试一次或转换到另一个工具。如果没有这种训练,在步行阶段设想的人类-智能体团),可以通过扩大与测试或使用RL系统相关的额外需求相称的劳动力来缓解挑战识别框架和研讨会55大跃进大跃进情景中最优先的挑战是观察到没有任何故障模式不会导致灾难性的任务失),致认为,克服缺乏信任可能是一个困难的命题(缓解难度的平均得分为3.6)。参与者似乎也同意盲目信任可能对国家安全产生重大影响爬-走-跑与大跃进),但危害性不大的地方,但与大跃进相关的三个不同挑战被认为对国家安全的影挑战大得多(表4.4):强化学习AI系统的风险评估:超越技术56对国家安全的平均影响对国家安全的平均影响平均发生概率来源:作者对调查结果的分析注:相应的图形代码见表4.4结论。技术挑战附录A的方框中总结了每种就业概念的挑战、影响和潜在缓解措施。在本节中,我们在的缓解措施。挑战识别框架和研讨会57部队重组-对行动的平均影响与平均可能性对业务的平均影响对业务的平均影响●.o8●平均发生概率来源:作者对调查结果的分析注:相应的图形代码见表4.4走行动方针的直接影响的担忧之外,与会者还表示了对如果系统出错谁将负责的担忧。如果潜在的缓解措施包括以某种方式将人类保持在决策循环中,特别是与目标开发和武器强化学习AI系统的风险评估:超越技术58表4.4图4.1和4.2的图形代码图爬-走-跑CWR1网络和国防部缺乏部署模型的CWR11集成测试很难(多个工具到单个gonculator很难)。CWCWR13组织问题:什么组织监督它?谁拥有它?谁是收购负责人、CWR14当局、安全许可问题(例如,AOC在附属的秘密级别,其他在不同的级别。如何在正确的层面上监督操作概念的执行。工作人员是否被批准为机密或最高?)大跃进GL1没有不是灾难性任务故障GL2的故障模式对系统缺乏信任GL6在两种不同情况下或与多个联合特遣部队一起执行指挥控制的含义挑战识别框架和研讨会59两种就业观念思考步行跑步•减少人员配置,但允许24/7人工•单个大型RL代理/系统几乎自主•最少的人员配置,以确保RL系注:Comms=通信。么这个挑战可能会更加困难。与会者指出,空中交通管制的评估阶段(以及联合目标选时间框架内对系统进行再培训的挑战。如果系统出现灾难性的错误强化学习AI系统的风险评估:超越技术60表4.5技术挑战挑战描述优先国防部检测的障碍,预防其他障碍缓解难度对业务的影响对国家安全的影响发生可能性走1233123来源:作者对调查结果的分析注:评价陈述按从强烈不同意(1)到强烈同意(5)的量表评分所示数字代表10份已完成参与者调查的平均数。p值等于或高于95%置信区间。bp值等于或高于98%置信区间。cp值等于或高于99%置信区间。),不加以缓解,将对行动和国家安全产生严重影响(分别为3.55和3.44)。挑战识别框架和研讨会61一个潜在的缓解措施是进行额外的研究和开发,以找到使用RL的“正确问题”。另一个而不一定是现有或更传统的工具和方法的替代品。运行),练的某个部分预期在现实中遇到的更广泛的各种雷达,然后专注于剩余的已知或预期的雷法可能是不可行的。强化学习AI系统的风险评估:超越技术62行,特别是如果在任务期间发生问题。将在其上进行训练,克服分类以及监督和判断RL正确操作的能力可能具有挑战性。5.在现阶段,商业世界所看到的成本和收益对国防部来说似乎几乎是不正常的。公司在人工智能上花费了数十亿美元,但没有明确的利润。63(例如,在游戏中击败世界专家)对于任务失败的确切的小后果(即,输掉比),以及测量故障的潜在频率都是有问题的。强化学习AI系统的风险评估:超越技术64•在广泛的应用中,RL的失败,例如在我们的研讨会上考虑的操作级C2示例,可能在验证和确认过程中。•国防部应该开发访问和生成与国防部问题相关的高质量数据的方法,这些数据是RL算法训练所需的。这项建议可分为几个方面:–现有数据。数据类型、格式、分类甚至实用程序的多样性在国防部中可能各不相–数据难以捕获,本质上过于稀疏,或存在很大的不确定性。训练一个广泛的、基于决策的应用程序的一个问题可能是,可能没有足够的现有数据来训练或生成需的示例数据的卷中,特别是在响应RL探索时。模拟RL系统探索和学习所需的一结论和建议65以补充RL系统或用于创建决策数据以响应RL动作,并且R件可能特别重要。–生成动态数据,以针对测试和评估(TE&)期间发现的问题案例进行训练,或者使RL系统对意外挑战更加强大。强化学习通过广泛的探索来学习,但要确保种途径来帮助解决这一问题。首先,&不应将TE与培训分开考虑。在TE期间收集些挑战。–RL的风险框架对于指导哪些应用程序可能存在与预期收益相关的过高风险具有强化学习AI系统的风险评估:超越技术66–决策中的不确定性(不可解释性)需要在失败的类型和可能性方面得到更好的限制。代替可解释的AI(即,如果系统的决定是可以解释的,并且可能是可以类后果的狭窄应用中。方面的权衡,以及它们如何最好地与其他技术竞争和协同工作。这种方法需要个RL挑战(例如,安全行为或奖励黑客),而忽略其他人,并不适合在DoD场景的学习方式。我们认为RL系统像生物系统一样学习的假设,充其量是建立在大脑结论和建议67更好的系统。考虑到国防部目前的局限性,一种渐进的方法可能会导致性能的提能的RL系统。•图3.1所示的空中交通管制就是国防部可以应用这种方法的一个例子虽然全面的发展计划超出了本报告的范围,但国防部可能希望考虑以下建议:–对ATC的现有流程进行成本、效益和风险分析,以确定每个子流程的最佳技术解–开发由此产生的技术,以补充和支持现有的部队结构。这种方法有几个优点:种机制&,确保最终的技术按预期运行;第三,它降低了整体ATC的风险,因为技术过渡可以更精细地控制。),人类决策,无法提供有效训练RL所需的大量输入数据和示例。其次,RL需要探索且,它们可能受到用于制定AOD的数据中的深度不确定性的影响。在这种情况强化学习AI系统的风险评估:超越技术68找到国防部任务中的“甜蜜点”,在那里RL可以得到充分的训练,以补充或超过人类的决提供最大价值时需要考虑的因素。69我们召集了来自陆军、空军和兰德公司的11位专家参加了一个研讨会,以确定在复杂的专家启发式研讨会方法“鉴于目前复杂的军事情况,可能会出现哪些挑战缓解公开讨论,以引出与每项已确定挑战相关的影响和潜在缓解“这一特定挑战的含义是什么?”“国防部如何缓解这一挑战?ℽ根据评价说明评价挑战的封闭式调查强化学习AI系统的风险评估:超越技术70表A.1工作坊参与者背景参与者会员5522435-2-总注:SME=主题专家。表A.2评估声明和定义评价语句定义除了国防部检测和预防的障碍之外,很少有障碍可以阻止这一挑战术准备或对手的能力或采用技术的意图,改变外部因素的力量,美国的响如果这一挑战得以实现,国防部将难以减轻其影响(例如,通如果不加以缓解,这一挑战将(直接或间接)严重限制国资料来源:摘自Mayeretal.,2021年71表B.1查明的挑战爬-走-跑类别挑战标题和/或描述影响爬-走-跑劳动力培训、用户友好性、所需用励(例如,培训、“创智赢家”强化学习AI系统的风险评估:超越技术72表B.1-续“gonculator”很难)。AOC之前进行部署前培训,或保AOC的操作员可能只有部AOC在附属机密级别,其他在不?)研讨会中确定的挑战、影响和缓解战略73表B.1-续影响缓解策略大跃进部队重组没有不是灾难性任务失败的故障对系统缺乏信任和了解义难到高技能),步行阶段技术确定是否需要再培训;可能无法机强化学习AI系统的风险评估:超越技术74表B.1-续?)更多的计算资源,以更快地重新训练可解释性人类可解释的在人类表研讨会中确定的挑战、影响和缓解战略75表B.1-续为RL提供了优势量化优势与潜在劣势;更多研究奖励黑客缺乏人类元素的直觉反应(如何让系统模仿)在合同中确保AI不会系统故障无快速解决方案;上游故障;问题难以发现运行阶段再培训可行性(我们能负担得起再培训吗?我们要下线?)更多的计算资源,以更快地重新训练强化学习AI系统的风险评估:超越技术76表B.1-续可解释性人类可解释的在人类表究在合同中确保AI不会系统故障无快速解决方案;上游故障;问题难以发现77AIAOCATOC2DoDMLNASORL/s每秒&79Agarwal,Alekh,SarahBird,MarkusCozowicz,LuongHoang,JohnLangford,StephenLee,JiajiLi,DanMelamed,GalOshri,andOswaldoRibas,“MakingContextualDecisionswithLowTechnicalDebt,”arXivpreprintarXiv:1606.03966,2016.Amodei,Dario,ChrisOlah,JacobSteinhardt,PaulChristiano,JohnSchulman,andDanMané,ℼConcreteProblemsinAISafety,”arXivpreprintarXiv:1606.06565,2016.Ananthaswamy,Anil,“日:/en/solutions/autonomous-mobility学习,第一卷。112,2023。Balduzzi,David,MartaGarnelo,YoramBachrach,WojciechCzarnecki,JulienPerolat,集,2019年。的?”汽车和司机,2020年2月2018年12月10日。截至2023-/2019/08/learning-to-drive-beyond-pureimitation_26.html年9Bar-Hillel,Maya,andAvishaiMargalit,“HowViciousAreCyclesofIntransitiveChoice?ℽ理论与决策,卷。1988年24日。械协会,第64卷,第7期,2021年。Berner,Christopher,GregBrockman,BrookeChan,VickiCheung,PrzemysbawDabiak,ChristyDennison,DavidFarhi,QuirinFischer,ShariqHashme,andChrisHesse,“Dota2withLargeScaleDeepReinforcementLearning,”arXivpreprintarXiv:1912.06680,2019.Biggio,Battista和FabioRoli,“WildPatterns:TenYearsAftertheRiseofAdversarialMachineLearning”,PatternRecognition,Vol.84,2018年12月1日。回顾”,2020年先进电气和通信技术国际研讨会(ISAECT)会议记录,2020年。对抗示例”,2019年IEEE嵌入式软件和系统国际会议(ICESS)论文集,2019年。Borne,KyleDavid,“Targe强化学习AI系统的风险评估:超越技术80ComparisonBetweenGoandChess”,ProceedingsofThirdAustralianandNewZealandConferenceonIntelligentInformationSystems,1995。AssociationforComputingMachinery,Vol.42,不。1999年11月。至2023年10卡森,蒂莫西N,DanielFriedChen,Minmin,AlexBeutel,PaulCovington,SagarJa届ACMWeb搜索和数据挖掘国际会议论文集,2019年。量化泛化”,2019年国际机器学习会议论文集GoogleResearch博客,2018年6月4日。截至Tops,”AdvancesinNeuralInformationProcessingSystems,Vol.33,2020年。引用81达斯,A.,V.Shroff,A.Jain和G.Sharma,“KnowledgeTransferBetweenSimilarAtaGamesUsingDeepQ-NetworkstoImprovePerformance,”Proceedingsofthe12thInternationalConferenceonComputingCommunicationandNetworkingTechnologies(ICCCNT),2021。杂性”,未发表的手稿,2022年4月。Demontis,Ambra,MauraPintor,LucaDemetrio,KathrinGrosse,Hsiao-YingLin,ChengfangFang,BattistaBiggio和FabioRoli,“ASurveyonReinforcementLearningSecuritywithApplicationtoAutonomousDriving”,arXiv预印本arXiv:2212.06123,2022。Desislavov,Radosvet,FernandoMartínez-Plumed和JoséHernán-Orallo,“深度学习推理中的计算和能耗趋势”,arXiv预印本arXiv:2109.05472,2021。董浩、丁子瀚和张上航,深度强化学习:基础知识、研究与应用,Springer,2020年。技术、电子和微电子国际会议(MIPRO),2018年。Du,SimonS.,沙姆湾Kakade,RuosongWang,andLinF.杨,“一个好的表示是否足以实现样Dulac-Arnold,Gabriel,NirLevine,DanielJ.Mankowitz,JerryLi,CosminPaduraru,SvenGowal,andToddHester,“ChallengesofReal-WorldReinforcementLearning:Definitions,BenchmarksandAnalysis,”MachineLearning,Vol.110,不。2021年9月。“注意义务”,牛津参考条目,牛津大学出版社,未注明日期。Faul,AnitaC.,机器学习简明介绍,CRC出版社,2019年。Fedus,William,JeffDean,andBarretZoph,“AReviewofSparseExpertModelsinDeepLearning,”arXivpreprintarXiv:2209.01667,2022.9/手表?v=zR11FLZ-O9M&list=PLrAXtmErZgOeiKm4sgNOknGvNjby9efdf/info2040/2015/10/21/Garcia,Javier,andFernandoFernández,“AComprehensiveSurveyonSafeReinforcementLearning,”JournalofMachineLearningResearch,Vol.号162015年1月。Gleave,Adam,MichaelDennis,CodyWild,NeelKant,SergeyLevine,andStuartRussell,“AdversarialPolicies,”webpage,GitHub,undated.截至2023年10月6日:https://adversarialpolicies.github.io/强化学习AI系统的风险评估:超越技术82AIExceedHumanPerformance?来自AI专家的证据,“人工智能研究杂志,第62卷,2018年。遭遇训练Waymo的自动驾驶技术”,Waypoint博客,Waymo,2020年2月6日。截至2023年10Hailu,G.,和G.Sommer,“OnAmountandQualProceedingsofthe1999IEEEInternationalConferenceonSystems,Man,andCybernetics(1999年IEEE系统、人和控制论国际会议论文集)。99CH37028),Vol.722,1999年。10日。TheVerge,2021年7月月7日b。18)上发表的论文,新奥尔良,路易斯安那州,2018年2月2日至7日。ComputingMachinery,Vol.65,不。2022年4月4日1012004年12月伊拉希岛M.Usama,J.Qadir,M.联合Janjua,A.Al-Fuqaha,D.T.Hoang,和D.月inNeuralInformationProcessingSystems,Vol.32,2019.引用83MachineLearningandSystems,Vol.3,2021。卷。号111,2021年3月11日。RideswithWaymo#54,2021年5月12日。preprintarXiv:1302.7008,2013.智能杂志,卷。40,不。2019年1月。道最好的,”2022年3月18日。调查”,信息融合,卷。2022年9月8inStrategicGames,AssociationfortheAdvancementofArtificialIntelligence,2017.仿学习技术调查”,IEEE智能交通系统学报,第11卷。23,不。2022年9月9日。preprintarXiv:2202.11296,2022./LiangZhang和DavidBlancett,现代战争的联合全域指挥与控制:识别和开发人工智能应用的分析框架,兰德公司,RR-A4408/1-AF,2020。截至强化学习AI系统的风险评估:超越技术84Liu,Y.,C.Wu,X.Xi,Y.Li,G.曹,W.Cao和H.Wang,“AdversarialProceedingsofthe2022InternationalJointConferenceonNeuralNetworks(IJCNN),2022。迹,176B参数语言模型”,arXiv预印本arXiv:2211.02001,2022。SurveyonModel-BasedReinforcementLearning,”eprintarXiv:2206.0932,June2022.2023年10Mayer,LaurenA.,JonSchmid,SydneyLitterer和MarjoryS.Blumenthal,一种结构化的A701-1,2021年。截至2023年10月3日:/en-us/ai/PlacementMethodologyforFastChipDesign,”Nature,Vol.594号,不。7862,2021。解释。解释机器学习模型检测短聊天GPT生成的文本的决策,“arXiv预印本arXiv:2301.13852,2023。2023年10月3日:人工通用智能杂志,第11卷,第2号,2020年3月2日。Advances”,MachineLearningandKnowledgeExtraction,Vol.号42022年1月1日年。引用85Nowé,Ann,PeterVrancx,andYann-MichaëlDeHauwere,“GameTheoryandMulti-AgentReinforcementLearning,”inM.Wie应,学习和优化,卷。12,Springer,2012.https://www.nuro.ai/careers/frontier/Ontañón,Santiago,GabrielSynnaeve,AlbertoUriarte,FlorianRichoux,DavidChurchill,andMikePreuss,“RTSAIProblemsandTechniques,”inNewtonLee,ed.计算机图形和游戏百科全书,S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南文理学院《C程序设计》2023-2024学年第一学期期末试卷
- 湖南科技学院《手绘效果图表现技法》2022-2023学年第一学期期末试卷
- 公安课件教学课件
- 电视台装饰装修工程施工设计方案
- 《信息科学类专业英语》课件第12章
- 必刷卷02(北京专用)(试卷版)
- 2024至2030年中国防爆防腐照明开关行业投资前景及策略咨询研究报告
- 2024至2030年中国螺旋上胶器行业投资前景及策略咨询研究报告
- 2024至2030年中国环保型氯化石蜡行业投资前景及策略咨询研究报告
- 《英语诗歌鉴赏》课件
- 中国历史地理智慧树知到期末考试答案章节答案2024年北京大学
- 建筑工程材料送检登记台账
- 急诊科六大病种抢救流程图汇总
- 国电泰州发电厂1000MW机组防止给水流量波动大的方法探析
- 幼儿园章程范本
- 六年级上册精通英语单词句子默写
- FX挑战题梯形图实例
- 【精品】骨科重点专科省级市级申报材料
- 航模的基本原理和基本知识
- 最新版天津建设工程海河杯奖评审办法
- 最新实验室评审准则内审检查表
评论
0/150
提交评论