PERSONAL LLM AGENTS:关于功能、效率和安全性的见解和调查_第1页
PERSONAL LLM AGENTS:关于功能、效率和安全性的见解和调查_第2页
PERSONAL LLM AGENTS:关于功能、效率和安全性的见解和调查_第3页
PERSONAL LLM AGENTS:关于功能、效率和安全性的见解和调查_第4页
PERSONAL LLM AGENTS:关于功能、效率和安全性的见解和调查_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PERSONALLLMAGENTS:关于功能、效率和安全性的见解和调查YuanchunLi1†,HaoWen1‡,WeijunWang1‡,XiangyuLi1‡,YizhenYuan1‡,GuohongLiu1‡,JiachengLiu1,WenxingXu1,XiangWang1,YiSun1,RuiKong1,YileWang1,HanfeiGeng1,JianLuan2,XuefengJin3,ZilongYe4,GuanjingXiong5,FanZhang6,XiangLi7,MengweiXu8,ZhijunLi9,PengLi1,YangLiu1,Ya-QinZhang1,YunxinLiu15vivoAILab6ViomiTechnologyCo.,Ltd.7LiAutoInc.Contact:liyuanchun@Website:/MobileLLM/Personal_LLM_Agents_SurveyABSTRACT自个人计算设备问世以来,智能个人助理(IPA)一直是科研人员和工程师关注的关键技术之一,旨在帮助用户高效获取信息和执行任务,为用户提供更加智能、便捷、丰富的交互体验。随着智能手机和物联网的发展,计算和传感设备变得无处不在,极大地拓展了智能个人助理的功能边界。然而,由于缺乏用户意图理解、任务规划、工具使用、个人数据管理等能力,现有的智能个人助理仍然具有有限的实用性和可扩展性。近年来,以大型语言模型(LLMs)为代表的基础模型的出现,为智能个人助理的发展带来了新的机遇。凭借强大的语义理解和推理能力,LLM可以使智能代理自主解决复杂的问题。在本文中,我们重点关注PersonalLLMAgents,它们是基于LLM的代理,与个人数据和个人设备深度集成并用于个人协助。我们预计,在即将到来的时代,PersonalLLMAgents将成为最终用户的主要软件范式。为了实现这一愿景,我们迈出了第一步,讨论了有关PersonalLLMAgents的几个重要问题,包括它们的架构、功能、效率和安全性。我们首先总结了PersonalLLMAgents架构中的关键组件和设计选择,然后深入分析了从领域专家那里收集到的意见。接下来,我们将讨论实现智能、高效和安全PersonalLLMAgents的几个关键挑战,然后对应对这些挑战的代表性解决方案进行全面调查。3科幻小说描绘了智能个人助理(IPA)的许多引人注目的角色,IPA是一种软件代理,可以增强个人的能力、完成复杂的任务,甚至满足情感需求。这些智能代理代表了大多数人对人工智能(AI)的幻想。随着个人设备(e.g.,智能手机、智能家居设备、电动汽车等)的广泛采用和机器学习技术的进步,这种幻想正逐渐成为能代理与用户紧密相连,能够访问用户数据和传感器,控制各种个人设备,并然而,当今的智能个人助理仍然受到灵活性和可扩展性的限制。他们的智力水平远远不够,这在他们对用户意图、推理和任务执行的理解上尤为明显。当今的大多数智能个人助理仅限于在受限域内执行任务(e.g.,内置应用程序中的简单功能)。一旦用户请求超出这些边界的任务,代理就无法准确理解和执行操作。改变这种情况需要显着扩展代理的能力,以支持更广泛、更灵活的任务范围。但是,当前的IPA产品很难支持大规模任务。当今的大多数IPA都需要遵循特定的预定义规则来完成任务,例如开发人员定义或用户演示的步骤。因此,开发人员或用户除了定义任务执行的触发器和步骤外,还必须明确指定他们希望支持哪些功能。这种方法本质上将可伸缩性限制在更广泛的任务中,因为支持更多任务需要大量的时间和人力成本。一些方法试图通过监督学习或强化学习[???]自动学习来支持任务。然而,这些方法也依赖于大量的手动演示和/或奖励函数的定义。近年来,大型语言模型(LLMs)[?]的出现为IPA的发展带来了全新的机遇,展示了解决智能个人助理可常识推理和零样本泛化。这些能力是通过对大量语料库(超过1.4万亿个单词)进行无监督学习来实现的,随后根据人类反馈进行微调。利用这些能力,研究人员已经成功地采用了大型语言模型来增强自主代理的能力。LLMagents旨在通过自动制定计划并使用搜索引擎、代码解释器和第三方API等工具来解决复杂问作为一种独特的智能代理类型,IPA也有可能被LLM彻底改变,显著增强可扩展性、功能和实用性。我们将这种由LLM驱动的智能个人助理称为PersonalLLMAgents。与普通的LLM代理相比,PersonalLLMAgents更深入地参与个人数据和移动设备,并且更明确地设计用于帮助人们而不是取代人们。具体来说,帮助用户的主要方式是减少日常生活中的重复性、繁琐和低价值的劳动,让用户专注于更有趣、更有价值的事情,从而提高他们工作和生活的效率和质量。PersonalLLMAgents可以建立在现有的软件堆栈(e.g.,移动应用程序、网站等)之上,同时通过无处不在的智能自动化功能带来令人耳目一新的用户体验。因此,我们预计PersonalLLMAgents将成为AI时代个人计算设备的主要软件范式,如图??所示。Figure1:我们设想PersonalLLMAgents成为即将到来的时代个人用户的主导软件范式。尽管PersonalLLMAgents的前景广阔,但相关研究仍处于起步阶段,存在了实施PersonalLLMAgents的路线图、设计选择、主要挑战和可能的解决方案。具体而言,我们主要关注与PersonalLLMAgents中的“个人”部分相关的方面,包括用户个人数据的分析和利用、个人资源的使用、个人设备上的部署以及个性化服务的提供。将LLM的通用语言功能直接集成到IPA中不在本文的讨论范围之我们首先对PersonalLLMAgents的领域专家进行了调查。我们邀请了25位来自领先公司的首席架构师、董事总经理和/或高级工程师/研究人员,他们正在个人设备上开发IPA和/或LLM。我们询问了专家们对将LLM集成到其面向消费者的产品中的机遇和挑战的看法。基于对专家见解的理解和分析,我们总结出一种简单通用的PersonalLLMAgents架构,其中个人数据(用户上下文、环境状态、活动历史、个性等)和个人资源(移动应用程序、传感器、智能家居设备等)的智能管理和利用起着至关重要的作用。管理和利用这些个人物品的能力使PersonalLLMAgents的智能与众不同。受L1-L5智能级自动驾驶的启发,我们还给出了五个智4能级PersonalLLMAgents的分类法。我们的研究结果还强调了实现此类PersonalLLMAgents的几个主要技术挑战,这些挑战可以分为三个方面,包括基本功能、效率和安全性&隐私。我们进一步深入研究了这些方解释了它与个人法学硕士代理的相关性和重要性,然后将其分解为几个主要的研究问题。例如,个人LLM代理的基本功能包括任务执行、上下文感知和记忆。智能体的效率主要由LLM推理效率、定制效率和内存检索效率决定。个人LLM代理的安全和隐私问题可分为数据机密性、决策可靠性和系统完整性。对于每个研究问题,我们总结了与该问题相关的主要技术,然后简要介绍了相关工作。由于个人LLM代理中的技术范围很广,我们只包括最相关或最新的工作,而不是试图涵盖所有相关的方法。本文的主要内容和贡献可归纳如下:1.我们总结了工业界和学术界现有智能个人助理的现状,同时分析了它们在法学硕士时代的主要局限性和未来趋势。2.我们收集了LLM领域资深专家和个人代理的见解,提出了通用的系统架构和个人LLM代理的智能水平定义。3.我们回顾了关于个人LLM代理的三个重要技术方面的文献,包括基础能力、效率和安全性&隐私。2智能个人助理简史SpeechRecognitionSystemShoeboxCMUMedSpeakAppleSpeakableItemsGoogleVoiceSearchTangoraVoice-basedSoftwareMicrosoftCortanaAmazonAlexa??????????????LLM-basedPersonalAssistantOpenAIGoogleGoogleAssistantGoogleGoogleAssistantLLM-basedChatbotVirtualPersonalAssistantonSmartphoneFigure2:智能个人助理(IPA)历史上的重要里程碑。我们用不同的颜色标记不同的发展阶段,一些重大或突破性的事件用粗体字突出显示。2.1智能个人助理历史记录的时间线视图智能个人助理(IPA)有着悠久的发展历史。我们在图中描绘了IPA历史的粗略时间线??.开发进度可分为四个阶段,每个阶段在图中都标有独特的颜色。第一阶段从1950年代到1980年代后期,主要是语音识别技术的发展。语音识别的早期阶段是从基本的数字和单词开始的。贝尔实验室开发了“奥黛丽”,它可以识别数字0-9,系统从IBM高级系统开发部实验室问世,它能够识别多达16个单词。从1971年到1976年,由美国国防部资助的语音理解研究(SUR)项目显着推动了语音识别技术的发展。Harpy系统[?]特别具有代表性,因为它可以理解由1011个单词组成的句子,相当于一个三岁孩子的熟练程度。1986年,IBM开发了Tangora语音识别打字系统[?],能够识别20,000个单词,并提供预测和纠错功能。Tangora系统利用隐马尔可夫模型[?],需要对单个说话者进行语音识别训练,每个单词之间都有停顿。IntentIntentIntentIntentIntentIntent5第二阶段涵盖从1990年代到2000年代后期,因为语音识别开始集成到软件中以实现某些高级功能。1990年,“DragonDictate”软件[?]发布,这是第一款面向消费者的语音识别产品。它最初设计用于在MicrosoftWindows上运行,支持离散语音识别。Apple于1993年说话来控制他们的计算机。1996年,IBM推出了面向放射科医生的“MedSpeak”[?],这也是第一个支持连续语音识别的商业产品。Microsoft2002年将语音识别集成到Office应用程序中[?]年,Google于2008年[?]年在iPhone上的Google移动应用程序中添加了语音搜索功能。第三阶段从2010年代初开始。在此期间,智能手机和个人电脑等移动设备上开始出现始终在线的虚拟助手服务。Siri[?]被广泛认为是现代智能手机上安装的第一个智能个人助理,于2011年集成到苹果的iPhone4S软件,并不断进行更新和迭代以整合新功能。与Siri类似,这一时期开始出现许多其他虚拟智能助手。2014年,Microsoft发布了Cortana[?],并逐步将其集成到台式电脑和其他平台中。同年,亚马逊发布了Alexa[?],可以完成语音交互、音乐播放、闹钟设置等任务。除了语音搜索之外,GoogleAssistant[?]于2016年推出,支持用户通过说话和键盘输入进行交互。第四阶段最近开始,LLM开始引起全世界的关注。基于LLM,出现了许多智能聊天机器人(e.g.,ChatGPT[?]以及一些安装在个人设备上的LLM驱动的IPA软件(e.g.,Copilot[?])。此阶段的详细信息将在2.2智能个人助理历史的技术观点由于有很多方面可以体现个人助理的智能,因此我们选择智能个人助理最重要的能力之一,即任务自动化能力(遵循指令并完成任务以此为重点。在以下小节中,我们将介绍四种主要类型的技术,以便在IPA中实现智能任务自动化。请注意,这些类型的解决方案是同时开发的,它们之间没有严格的时间顺序。2.2.1基于模板的编程大多数商业IPA产品都支持通过基于模板的方法实现任务自动化。在这些方法中,可以自动化的功能被预定义为模板,每个模板通常包含任务描述、相关操作、要匹配的示例查询、要完成的支持参数等。给定用户命令,代理首先将命令映射到最相关的模板,然后按照预定义的步骤完成任务。工作流程如图??所示。使用此方法自动执行任务时,应用程序开发人员需要遵循某些API(e.g.,GoogleAssistantAPI[?]、SiriKit[?]等)的文档,为他们想要自动化的每个功能创建模板。此外,还提出了一些方法,使最终用户能够创建自己的任务模板,例如iPhone设备上的“快捷方式”[?]功能,从而实现重复操作序列的自动化。类似的功能也实现在很多针对Android系统的产品和学术研究中,比如Tasker[?]、Anywhere[?]、EMicrosoft的uLink[?]系统等这种基于模板的任务自动化方法的优点在于其可靠性和准确性,因为模板中的步骤是确定性的,并且经过精公司的流行应用程序,都不支持任何自动化任务或仅支持一些基本任务,导致用户体验非常不灵活。最终用户在多次尝试失败后可以轻松放弃使用IPA的想法[????].这种局限性对基于模板的智能个人助理的进一步发展构成了主要障碍。ParamsQueryParamsParamExtractorUtterance>UserAppsAgentTemplateUserAppsAgentMatchQueryMatchIntentDB62.2.2监督学习方法为了解决基于模板的IPA方法的局限性,研究人员正在积极研究自动化方法,以增强UI理解和自动化。监督学习通过训练模型,根据任务输入和当前状态预测后续操作和状态,为任务自动化提供了一种直接的方法。主要研究问题包括如何学习软件GUI的表示以及如何训练交互模型。Humanoid[?]中引入了从人类交互痕迹中学习交互模型的想法,旨在根据GUI布局信息生成类似人类的测试输入。Seq2act[?]首先关注移动UI任务自动化领域,其中自然语言指令需要映射到可以直接执行的一系列操作。该框架将问题分解为动作短语提取部分和接地部分,两者都使用Transformer[?]网络。受到NLP中预训练成功的启发,ActionBert[?]使用自监督预训练来增强模型对UI的理解。具体来说,为了捕获UI切换操作的语义信息,该模型旨在将一对UI作为UI和单个组件的输入和输出嵌入。为了更好地兼容移动设备上的受限资源,提出了多功能UI转换器(VUT)[?],用于在单个小型模型中学习不同的UI接地任务。它处理图像、结构和基于文本的数据类型,使用3个任务头支持同时执行5个不同的任务,包括UI对象检测、自然语言命令接地、小部件字幕、屏幕摘要和UI可点击性预测。基于不同模态组件之间的自对齐特征,UIBert[?]提出了一个精心设计的联合图像文本模型,以利用对应关系,从未标记的数据中学习上下文UI嵌入。为了解决缺少UI元数据(如DOM树和视图层次结构)的问题,SpotLight[?]引入了一种仅视觉的移动UI理解方法,方法是将屏幕截图和感兴趣区域(“焦点”)作为输入。它由视觉编码器和语言解码器组成,可以根据提供的屏幕截图和提示完成任务。此外,Lexi[?]被提议利用基于文本的说明手册和用户指南来策划多模态数据集。通过将文本和视觉特征融合为协同注意力转换器层的输入,该模型经过预训练,以在基于文本的指令和UI屏幕截图之间形成连接。UINav[?]利用裁判模型来评估代理的表现,并立即将反馈通知用户。它还采用了演示增强来增加数据多样性。与基于模板的方法相比,监督学习方法在经过充分训练后有可能推广到看不见的任务。但是,训练模型通常需要大量高质量的人工注释数据。鉴于现实世界中任务和应用程序的多样性,获取涵盖不同用例的训练数据具有挑战性。2.2.3强化学习方法与需要大量训练样本的基于监督学习的任务自动化方法不同,基于强化学习(RL)的方法允许智能体通过与目标接口的持续交互来获得任务自动化的能力。在交互过程中,智能体会获得奖励的反馈,这些反馈表明任务完成进度,并逐渐学习如何通过最大化奖励回报来自动化任务。要训练基于RL的任务自动化代理,需要一个奖励函数来指示任务完成进度。WorldofBits(WoB)[?]被提议作为代理使用键盘和鼠标在Web上完成任务的通用平台。该平台带有一个名为“MiniWoB”的基准测试,其中包含一组自行创建的玩具网站上的任务,并带有预定义的奖励。Glider[?]根据任务描述和UI动作序列之间的语义相似性,以及动作序列的局部性和方向性,定义真实世界网站的奖励函数。基于RL的任务自动化的另一个挑战是巨大的操作空间和稀疏的奖励。典型的基于GUI的任务通常涉及510步骤,每个步骤包含10100候选操作,导致搜索空间大小为10510010。仅当执行正确的操作顺序时,任务才会完成。为了应对这一挑战,已经提出了许多框架。?]介绍了使用高级“工作流”来约束每个时间步的允许操作的方法。这些工作流程可以剔除不良的探索方向,从而加快智能体发现奖励的能力。?]将复杂的指令分解为多个较小的指令,并为代理安排课程,以逐步设学习框架来生成指令跟踪任务。?]将a和模式选择。此外,该文还设计了一个因式分解的Q值函数,假设DOM选择和标记选择是独立的。Glider[?]通过分层策略实现其减少操作空间的目标,该策略包含处理整体导航的主策略和处理特定小部件的子策略。?]提出了直接使用鼠标和键盘来完成任务的框架,而不是依赖于专门的动作空间,这简化了由实际人机交互告知的行为先验的使用。与监督学习方法类似,基于RL的方法也存在泛化能力较差的问题。为了实现灵活而强大的任务自动化,RL智能体需要对大量任务进行训练,每个任务都需要精心设计的奖励函数。为大量不同的任务定义奖励函数可能很困难。2.2.4早期采用基础模型近年来,以大型语言模型(LLMs)为代表的预训练大型基金模型发展迅速,为个人助理带来了新的机遇。语言模型的缩放定律[?]揭示了增加模型参数以提高模型性能的重要性,其次是一堆具有数十亿个参数的模型。LLM通常以无监督的方式使用大规模开放域文本数据进行训练,然后进行指令微调[?]和基于人类反馈的强化学习(RLHF)[??],以提高性能和对齐。OpenAI于2022年底推出的ChatGPT[?]是LLM的一个里程碑,展示了惊人的问答能力。通过将简单的任务描述作为输入提示输入到LLM中,可以轻松自定义LLM的任务和响应。此外,这些模型在各种语言理解和推理任务中也表现出强大的泛化能力。ChatGPT本身可以被视为一个智能个人助理,通过在文本回复中返回信息来帮助用户。7受到LLM能力的启发,研究人员试图让LLM自主使用工具[?]来完成复杂的任务。例如,控制浏览器[??]进行信息检索和汇总,调用机器人编程接口进行机器人行为控制[???],以及调用代码解释器进行复杂的数据处理[????]等。将这些功能集成到智能个人助理中是一个自然的想法,从而实现更智能的方式来操作个人数据、个人设备和个性化服务。已经有一些商业产品试图将LLM与IPA集成在一起。例如,Microsoft的Copilot系统[?]集成了GPT-4[?]的功能,帮助Windows用户自动起草文档、创建演示文稿、总结电子邮件,从而提高用户的工作效率。新的必应[?]还改善了上网的体验,提供了一个强大而高效的搜索引擎,可以更好地了解用户的需求。同样,谷歌已将LLM(Bard[?]、Gemini[?])集成到搜索引擎中,以实现更方便的网络搜索体验。华为、小米、OPPO、Vivo等智能手机公司也将大型机型(PanGu[?]、MiLM[?]等)集成到其设备上的IPA产品中。值得注意的是,其中一些采用了基于本地部署的轻量级LLM的解决方案。到目前为止,这些商业产品中的大多数只是将LLM的聊天界面简单地集成到个人助理中。关于更深层次的功能集成的研究将在??部分讨论。尽管显示出巨大的潜力,但该研究方向目前仍处于早期探索阶段。距离真正理解和帮助用户使用智能代理的最终目标还有很长的路要走。更重要的是,许多与效率、安全和隐私相关的问题尚未得到充分解决。本文的后续部分将系统地总结和讨论这方面的关键问题。3PersonalLLMAgents:定义&见解见证了基于法学硕士的智能个人助理的巨大潜力以及学术界和工业界的广泛兴趣,我们迈出了系统讨论与该方向相关的机遇、挑战和技术的第一步。我们将PersonalLLMAgents定义为一种特殊类型的基于LLM的代理,它与个人数据、个人设备和个人服务深度集成。个人LLM代理的主要目的是协助最终用户,帮助他们减少重复和繁琐的工作,并更多地关注有趣和重要的事务。按照这个定义,通用的自动化方法(提示、计划、自我反思等)类似于普通的基于LLM的智能体。我们专注于与“个人”部分相关的方面,例如个人数据的管理、智能手机应用程序的使用、部署到资源受限的个人设备等。我们设想PersonalLLMAgents将成为LLM时代个人设备的主要软件范式。然而,PersonalLLMAgents的软件堆栈和生态系统仍处于非常早期的阶段。与系统设计和实现相关的许多重要问题尚不清楚。因此,我们试图根据从领域专家那里收集的见解来解决一些问题。具体而言,我们邀请了25位专家,他们是来自8家领先公司的首席架构师、董事总经理或高级工程师/研究人员,这些公司正在开发IPA相关产品,包括智能手机个人助理、智能家居解决方案和智能座舱系统。我们和他们聊了聊PersonalLLMAgents话题,问了他们几个常见问题,从应用场景到部署挑战。根据我们的讨论和收集到的答案,我们将见解总结为三个小节,包括PersonalLLMAgents的关键组成部分、智力水平的分类法以及关于常见问题的专家意见。3.1关键组件基于我们对PersonalLLMAgents所需功能的讨论,我们首先总结了支持此类功能的主要组件,如图??所之为LLM它连接了所有其他组件。首先,LLM是支持为用户服务的不同技能的基础,包括根据用户请求直接执行任务的响应技能(如问答、天气检查、事件调度等)和在没有明确用户命令的情况下提供服务的主动技能(如生活记录、管理用户注意力、活动推荐等)。其次,为了支持这些技能,法学硕士管理各种本地资源,包括移动应用程序、传感器和物联网设备。例如,代理可以通过与智能手机天气应用程序交互来完成天气检查。同时,许多人都提到了PersonalLLMAgents提供个性化和情境感知服务的重要性。因此,LLM应该维护有关用户的信息,包括当前用户上下文(状态、活动、位置等)和历史用户记忆(个人资料、日志、个性等)。为了专用管理系统(如矢量数据库)与LLM结合使用。这些关键组件的组合类似于操作系统[?],其中:1.基础模型类似于传统操作系统中的内核。它用于系统化管理和调度各种资源,从而促进代理的功能。2.本地资源层类似于传统操作系统中的驱动程序。在传统操作系统中,每个驱动程序管理一组专用的硬件。在PersonalLLMAgents中,每个本地资源组件都管理一种工具,并提供API供LLM使用。3.用户上下文和用户内存对应于在系统操作期间维护的程序上下文和系统日志。这些组件构成了座席支持个性化服务的基础。4.顶层的技能类似于传统操作系统中的软件应用,与应用的安装和删除类似,也应该允许智能体的技能灵活地启用或禁用。8L1:SimpleStepFollowingL3:StratigicTaskAutomationL1:SimpleStepFollowingL3:StratigicTaskAutomationL4:Memory&ContextAwarenessL2:DeterministicTaskAutomationFigure4:个人LLM代理的主要组成部分。3.2个人LLM代理的智力水平PersonalLLMAgents所需的功能需要不同类型的功能。受自动驾驶六个层次的启发,我们将PersonalLLMAgents的智能等级分为五个等级,分别表示为L1至L5,如图??所示。各级别的主要特点和代表性用例列由用户负责。例如,当用户发出命令时,代理会按照开发人员定义或用户给出的显式步骤来完成任务。L1智能体没有任何感知或规划能力。大多数基于模板的IPA产品都属于这一类。随着情报水平的提高,特工逐渐承担了更多的职责。在第2级,支持的任务仍然是确定性的(i.e.,涉及要完成的固定操作序列但不再明确给出执行每个任务的详细步骤。代理必须根据用户的任务描述自动完成必要的步骤。例如,给定用户查询”HowistheweatherofBeijingtoday’’,代理调用以Beijing”作为参数的天气API,并从响应中检索天气信息。与第2级的确定性任务不同,第3级的代理可以完成更复杂的任务,这些任务需要战略规划和自我反思。例如,命令”TellAliceaboutmyschedulefortomorrow”需要代理确定如何收集日程安排信息(e.g.,使用用户的日历和聊天记录)以及如何通知Alice这些信息(e.g.,DutyCreativity&EmotionReflectionStepFormulationStepExecutionFigure5:不同情报级别Personal9tionL4-MemoryL5-Digital总结日历事件并通过Messenger应用程序发送)。在这些任务中,智能体根据中间反馈自主迭代地生成并执行执行计划,直到完成任务。L1-L3的Agent在用户的命令驱动下被动工作,而4级Agent可以理解用户的历史数据,感知当前情况,并在适当的时候主动提供个性化服务。注于创造力和情感。代理不仅可以感知当前状态,还可以预测用户的未来活动并采取行动来促进他们。除了体应该能够通过自我进化不断提高自己。3.3关于常见问题的意见接下来,我们报告了专家对几个常见问题的意见的汇总结果。这些问题包括设计选择和部署PersonalLLMAgents的潜在挑战,如表??中总结的那样。我们分析了问题的答案,并总结了以下主要要点。、ChatGPT)并不是一个被广泛接受的解决方案。如图??所示,88个%的参与者更喜欢边缘云协作架构,其中58.33个%支持本地部署,81.82个%对现有的纯云解决方案不满意。他们主要关注的是1)远程LLM服务的高延迟,2)将个人数据传输到云端的隐私问题,以及3)基于云的LLM服务的巨大成本。意见2(如何自定义代理将微调和上下文学习相结合是实现自定义的最可接受的方法。在PersonalLLMAgents中,为不同的用户和场景自定义代理被认为是必要的。图??显示,66.67%的参与者支持结合微调88%58.33%81.25%12%0%16.67%18.18%0%88%58.33%81.25%12%0%16.67%18.18%0%82%Table2:我们向领域专家提出的常见问题。在问题1到6中,我们给出了几个常见的选项供专家选择/优先排序,同时也允许专家给出自由形式的答案。在问题7和8中,专家们被要求用文字回答。Rank1stRank2ndRank3rd9060300local-remotelocal-onlyremote-onlycollaborationFigure6:PersonalLLMAgents中不同LLM部署策略的投票分布。Rank1stRank2ndRank3rd906030066.67%43.75%31.25%25%14.29%40%40%19.05%66.67%43.75%31.25%25%14.29%40%40%19.05%20%fine-tune&fine-tunein-contextin-contextlearningonlylearningonlyFigure7:PersonalLLMAgents不同模型定制方式的投票分布。和上下文学习的优势来实现个性化(L4智能)。43.75%认为L4可以通过情境学习来实现;一个可能的原因是我们的参与者来自行业,因此他们更关注特定垂直领域的法在问题3-5中,我们要求参与者对选项进行排名,下表(表??-??)总结了他们的排名。第1-4名表示参与者投票选出的这些选项的排名;例如,表??中的72个%表示72个%参与者将文本列为他们的首选模态。每个表格中的“分数”是根据BordaCount[?]计算的,其中每个候选人获得的分数等于他们在每次投票中排名超过的候选人人数的平均值,排名最低的人获得2,排名最高的n+1分,其中n是候选人总数。例如,表??中的4.56等于5×72%+4×20%+3×0+2×8%。意见3(使用什么模态):多模态LLM,尤其是文本和视觉模态,是PersonalLLMAgents.在我们的统计结果中,文本是最受欢迎的模态,就像最流行的LLM一样(e.g.,GPT系列和LLaMA系列)。排名第二的图像选项和20名%参与者特别提到的视频模态表明,视觉模态在个人LLM代理的未来中发挥着有希望的作用。意见4(LLM能力对IPA产品最关键):语言理解被认为是LLM最重要的能力,而处理长上下文的能力被认为是最不重要的能力。相反,在学术界,处理长上下文的能力被认为非常重要,并被广泛研观点源于我们的参与者所假设的特定垂直领域LLM和学术研究人员的通用LLM。在垂直域LLM中,来自用户的查询和任务不是很多样化,因此长上下文的能力并不那么重要。Table4:法学硕士能力对IPA产品的重要性排名。3意见5(如何与座席互动):基于语音的互动是最流行的方式。不出所料,就像现有的虚拟助手Siri一样,模仿人类的交流方式——语音交互是最常见、最有效的选择。基于文本的聊天机器人和GUI排名第二和第三,因为大多数参与的专家都专注于移动设备,e.g.,智能手机。虚拟现实仅获得所有问题中最低的1.52分数;这可能源于VR设备的高昂价格以及当前VR技术的用户体验不满意。GUIVirtualreality观点6(需要培养哪种智能体能力在未来PersonalLLMAgents的发展中,“更智能、更自主的决策能力”被认为是我们参与者最关键的特征;几乎一半的参与者(47.83%)将其排在第一位。“用户体验和交互方法的持续改进”和“个人数据的安全处理”选项也备受关注,分别以36.36个%和33.33个%并列第二。尽管“与物联网设备的集成”排在最后,但47.63%的参与者仍然认为它作为PersonalLLMAgents的基础设施很重要。意见7(理想的IPA需要哪些功能):根据参与者的回答,我们总结了理想药物的以下六个关键特征:•高效的数据管理和搜索:代理充当外部大脑,通过高效的数据存储来记住用户的数据。它为用户提供了快速检索和精确搜索功能。•工作和生活协助:当用户询问技术细节时,座席在工作中充当副驾驶。它还可以执行重复和繁重的任务,并为用户提供文档和内容生成。•个性化服务与推荐:根据用户习惯,坐席可以发现用户的潜在需求,进而主动为用户提供服务。它可以作为个人和家庭健康经理、医疗服务员、购物比较协助、旅行协助等。•自主任务规划与完成:智能体可以理解用户的意图,分解用户提出的任务并自动一步一步地执行(在自主思维链功能中进一步并帮助用户完成需要手动完成的步骤,并有明确的指令。•情感支持和社交互动:智能体可以通过聊天来理解并帮助用户调整情绪。它还可以了解用户与不同人的关系,并帮助他们用用户的声音写出响应草稿。•数字代表及其他:代理可以代表用户参加会议、驾驶汽车、上班和执行任何授权任务。它能真正理解用户,并在当前用户本身与他人进行交流和社交。意见8(最紧迫的技术挑战是什么根据与会者的回答,最紧迫的挑战和技术问题分为以下几类:•情报。1)MultimodalSupport:LLM需要理解和处理不同的数据类型(e.g.,文本、图像和视频因此应LLM必须准确理解用户需求,并生成相应的控制指令。这需要LLM的上下文理解能力以及将上下文转化为有效行动的能力。3)EnhancingDomain-specificAbilitiesofLightweightLLM:资源有限的个人设备上的LLM由于其大小和复杂性的限制,在复杂任务或理解深层上下文含义方面可能表现不佳。因此,如何提升轻量级模型的能力,处理特定领域的复杂任务是人们普遍关注的问题。•性能。1)EffectiveLLMCompressionorCompactArchitecture:在资源有限的移动设备上运行LLM需要平衡任务完成的性能和质量。关注LLM特征的高效模型压缩技术以保持高质量的任务完成是可取的。2)PracticalLocal-RemoteCollaborativeArchitecture:LLM的本地-远程协同架构具有广阔的前景,既要继承本地模型的快速/低成本响应能力,又要继承云模型的高质量生成能力。然而,如何实现准确、高效的协作被广泛认为是一个重要的挑战。•安全&隐私。1)DataSecurityandPrivacyProtection:在使用个人数据训练和执行LLM时,确保个人数据的安全和用户隐私的保护至关重要。这就迫切需要开发新的数据匿名化技术和隐私保护协议。2)InferenceAccuracyandHarmlessness:确保模型输出对用户精确无害,尤其是在决策或敏感场景下。•个性化&存储。个性化需要高效的数据存储解决方案来管理和利用与用户相关的数据,包括他们的偏好、历史行为和交互。•传统操作系统支持。对于基于移动的LLM代理,一个关键要求是LLM友好的界面和对Android等传统操作系统的支持。这可能涉及操作系统级别的更新和应用程序编程接口(API)的开发,以便更好地集成和利用LLM的功能。在领域专家宝贵意见的激励下,以下部分将更详细地讨论所需的功能和潜在挑战。4基本能力我们首先讨论PersonalLLMAgents支持各种功能所需的功能。排除普通LLM代理的一般能力,我们专注于个人助理的三个基本能力,包括任务执行、上下文感知和记忆。任务执行(§??)是将用户的命令或主动感知的任务转化为对个人资源的操作。情境感知(§??)的目的是感知用户和环境的当前状态,为任务执行提供全面的信息。记忆(§??)是记录用户数据,使智能体能够回忆过去的事件,总结知识并自我进化。上下文感知和记忆是与查询用户信息相关的能力,而任务执行是指向用户提供服务的能力。图??描述了这些基本功能之间的关系。以下各节将详细讨论这些功能。4.1任务执行任务执行是PersonalLLMAgent的基本能力,使其能够响应用户请求并执行指定的任务。在我们的场景中,代理旨在与各种个人设备(如智能手机、计算机和物联网设备)进行交互和控制,以自动执行用户的命令。任务执行的一个基本要求是代理能够准确解释用户传达的任务。通常,任务可能来自用户的口头或书面指令,智能代理从中辨别用户的意图。随着语音识别技术的成熟,将语音信息转换为文本变得非常方便[??]。PersonalLLMAgents应该在将用户的命令转换为文本后自动制定计划并采取行动。虽然规划对传统的DNN提出了挑战,但基于LLM的代理在这方面表现出更高的熟练程度。LLM智能体的计划和推理能力在之前的调查中已经讨论过[???]。我们的论文主要关注个人数据的操作以及与个人设备的交互。一个重要的考虑因素是,PersonalLLMAgents可能需要与可能缺乏全面API支持探索了用户界面(UI)作为个人代理的重要工具,以便在存在API限制的情况下实现有效交互。4.1.1任务自动化方法根据交互模式的类型,任务执行的方法可以分为基于代码的方法和基于UI的方法。在基于代码的场景中,代理主要通过自动生成代码来调用API来完成任务。在基于UI的方案中,代理通过自动模拟人与UI界面的交互来与个人设备进行交互。基于代码的任务自动化通常涉及生成适当的代码来与API、数据库和DNN模型进行交互。传统的基于代码的个人助理通常基于基于插槽填充的面向任务的对话(TOD)框架。在LLM时代,越来越多的研究者试图直接使用LLM直接生成调用API的代码,以完成更复杂的任务。•槽填充方法常用于面向任务的对话系统(TOD)或聊天机器人,这是一种对话式AI,旨在通过对话[??]帮助用户完成特定任务。在面向任务的对话系统中,“插槽”是完成任务所需的预定义信息类别。例如,在旅行预订应用程序中,插槽可能包括目的地、旅行日期、乘客人数等。在会话过程中,系统会提示用户输入此信息,并调用相应的API来完成任务。对于移动设备,许多方法都侧重于通过允许用户演示所需的任务来促进任务自动化,这些任务可以通过对话界面执行[????].这些方法通常假定可以将用户的任务定义为槽值对的集合。这种假设允许精确管理与可控单元的对话,并且执行任务是不断提示用户输入尚未识别的插槽的值。但是,这些方法不考虑一个插槽有多个值或插槽之间存在关系的复杂情况[?]。此外,它们严重依赖定义良好的API,并且缺乏对看不见的领域的适应性。最近的研究论文利用LLM的理解和推理能力,[????]完成更复杂和多转弯的TOD任务,并提高Slot填充方法的效率。•程序合成方法是利用LLM的代码生成能力与API进行交互。一种方法是微调LLM以使用特定的最近的一些工作[????]微调LLM以检索和调用API,从而提高它们在数学推理和程序合成等各种任务中的性能。另一种方法是利用LLM的链式推理[???]和上下文学习能力[?]。它们在上下文中显示工具(例如API、其他DNN等)的描述和演示,并询问LLM如何使用它们来完成任务[?????]。但是,微调LLM的成本可能很高,并且仅限于预定义的工具集,并且当API数量较多时,上下文学习可能会失败。因此,ToolkenGPT[?]的作者试图通过将每个工具(API)表示为令牌来解决这个问题。基于代码的方法可以完成从网络搜索到图像生成的数千项任务。但是,出于安全考虑或商业利益,并非所有需要的API都可供实际应用中的代理开发人员使用。此外,有些任务对于人类用户来说很容易执行,但对于调用系统API来说却很困难[?]。仅依赖公开可用的API可能无法完全满足移动任务自动化的高度多样化基于UI的任务自动化。自治UI代理尝试将用户的任务转换为智能手机或其他个人设备上的UI操作,通过直接的UI交互自动执行这些任务。与基于代码的任务执行相比,自治UI代理不依赖于公开可用的API,从而可能实现更通用的自动化功能。然而,对于传统的DNN模型来说,通过UI操作执行用户的任务并不容易,因为任务和UI元素之间存在隐式关系。最近,研究人员利用LLM的理解和推理能力来提高自主UI代理的性能。UI代理的输入是用自然语言描述的任务,是当前UI的表示,输出是要在UI上执行的UI操作。根据它们如何表示UI,我们可以将自主UI代理分为基于文本的GUI表示和多模式GUI表示。•基于文本的GUI表示是将UI转换为纯文本。Seq2act[?]使用基于transformer的模型[?]将用户对<操作、对象、参数>元组中描述的UI操作的指令接地。研究人员还研究了使用移动UI进行提示以完成UI指令映射任务[?]。作者将移动UI转换为HTML代码,这对于LLM来说很容易理解,因为他们的训练数据的重要部分是从Github中抓取的。DroidBot-GPT[?]是一个基于LLM的系统,用于在一系列UI操作中完成用户的任务。Mind2Web[?]过滤具有较小LM的网页的原始HTML,并使用LLM选择目标元素和动作。AutoDroid[?]使用应用分析工具来获取特定于应用领域的知识,并使用它来增强LLM以实现任务自动化。在AXNav[?]中,作者使用LLM和基于像素的UI理解构建了一个系统来执行手动可访问性测试。MemoDroid[?]引入了一个基于LLM的移动任务自动化器,可以将任务分解成更小的子任务,并通过回忆以前的动作来完成它们。•多模态表示是将UI的图像(和文本)描述作为PersonalLLMAgents的输入。META-GUI[?]提出了一种基于UI的面向任务对话(TOD)系统的方法。ResponsibleTA[?]提出了一个基本的多模态框架,使LLM能够在自主完成用户任务时预测可行性、验证完整性并确保安全性。Auto-UI[?]提出了一个直接与界面交互的多模态框架,并引入了一种行动链技术来帮助代理做出决策。RUIG[?]构建了多模态模型,将指令映射到UI截图,MM-Navigator[?]使用GPT4-V进行UI导航任务。UINav[?]引入了基于任务演示的轻量级任务自动化系统,输入模态可以在原始像素视图层次结构之间动态切换。CogAgent[?]引入了一个具有180亿个参数的可视化语言模型,用于完成UI理解和导航虽然与基于API的自动化相比,基于UI的任务自动化有可能实现更灵活的个人代理框架,但其研究仍处于早期阶段。完成更复杂的用户命令仍然具有挑战性。此外,隐私和安全问题尚未得到充分解决[??]。关于UI表示也仍然存在争议。虽然多模态表示可以处理无法通过辅助功能服务解析的元素,但它受到屏幕录制的繁重需求和当前视觉语言模型有限的推理能力的困扰[?]。4.1.2自治代理框架LLM驱动的自主代理由一个用于制定计划和自我反思的LLM大脑、一个用于存储过去信息和知识的内存以及一个用于与工具(例如API、UI、编程语言)[??]交互的工具使用模块组成。有很多流行的项目为用户提供了框架来创建LLM驱动的代理[?????????]。他们试图通过与其他外部工具交互和检索长期/短期记忆来增强LLM的能力。Auto-GPT[?]是最著名的框架之一,它可以通过生成GPT提示和使用外部工具来执行用户的命令。LangChain[?]是另一个流行的框架,可帮助开发人员使用LLM创建更复杂和上下文感知的应用程序。由于能够理解和生成自然语言,LLM驱动的代理也可以毫不费力地相互协作,从而营造一个环境,让多个代理之间的协作和竞争可以[????]蓬勃发展。这些自治代理框架在工程上做出了重大贡献,为LLM驱动的应用程序提供了一个更加用户友好的框架。对于移动设备,AutoDroid[?]为开发移动代理提供了一个有效的框架。开发人员可以使用测试输入生成器探索应用或手动演示,从而轻松创建用于移动任务的自动化程序。然后,AutoDroid会自动分析这些记录,并利用它们来改进语言学习模型(LLM以实现更高效的任务自动化。?]开发一种新方法,从用户与智能手机的交互跟踪中有效地提取宏(应用程序中用户活动的基本单位,例如“登录”或“呼叫联系人”)。这些宏可以帮助代理自动完成任务。4.1.3评估评估任务执行的性能是一个具有挑战性的问题。对于基于API的任务执行,以前的调查提供了有关如何评估它们的全面总结[??]。本文主要关注基于UI的任务自动化的评估。指标:基于UI的任务执行指标是完成率[???]和人工设计的奖励[??]。完成率是模型预测的所有操作与基本事实完全一致的概率。但是,由于可能有不同的方法来完成任务,并且基本实况通常仅表示其中一种方法,因此这种方法评估的准确性并不完全正确[?]。基于关键步骤手动设计奖励可能更精确[?],但由于复杂的注释过程,它们的可扩展性较差。Table6:UI任务自动化基准测试。结构化UI表单分别是Android和Web的视图层次结构(VH)和文档对象模型(DOM)。对于Windows,元数据源于操作系统中的文本元数据。UIHigh-levelUIBert[?]RicoSCA[?]PixelHelp[?]MoTiF[?]META-GUI[?]UGIF[?]AITW[?]AndroidAndroidAndroidAndroidAndroidAndroidN/A77733333337777777773MninWoB++[??]AndroidEnv[?]MobileEnv[?]AssistGUI[?]AndroidAndroidN/AN/A733333333333基准:表??列出了基于UI的任务自动化的基准。一组基准测试是静态数据集,它通常包括一组人工注释的任务、结构化的UI数据(和屏幕截图)以及完成任务的操作。某些任务是综合生成的[???]。早期作品主要集中在低级任务上,有明确的指令[??],例如点击“设置”按钮,然后点击“字体大小”。后来的作品引入了可以通过多个步骤完成的高级任务[??????]例如,删除我的日历中的所有事件。另一组基准是以通过单击、键入、关闭页面等方式在Web上导航和操作。AndroidEnv[?]和MobileEnv[?]提供了一个动态环境,代理可以在其中与任何基于Android的应用程序和核心操作系统进行交互。该框架允许在多样化的Android平台中实现广泛的交互和任务解决功能。1.如何准确有效地评估智能体在实际场景中的性能。由于通常有多种方法可以完成相同的任务,因此使用静态数据集来衡量任务执行的准确性是不准确的。同时,在模拟环境中动态测试任务可能效率低下且难以重现。2.如何稳健地确定任务是否已完成。LLM在任务执行过程中经常会出现幻觉,难以判断当前任务是否已经完成。3.关于UI代理,表示软件UI的最佳方式是什么?基于视觉的表示(例如屏幕截图)通常可用,而基于文本的表示通常更轻量级,对LLM代理操作更友好。4.2情境感知情境感知是指智能体感知用户或环境的状态,以提供更加定制化的服务的过程。在这项工作中,我们采用了上下文感知的广泛定义,将通用信息收集过程视为一种感知形式。基于硬件的传感与传统的传感概念一致,主要涉及通过各种传感器、可穿戴设备、边缘设备和其他数据源进行数据采集。另一方面,基于软件的传感强调多种数据采集方式。例如,分析用户的打字习惯和常用短语构成了一种基于软件的感知形式。在PersonalLLMAgents中,情境感知能力有多种用途。1.启用感知任务:某些任务本质上需要代理进行感知。例如,当用户要求代理在睡眠期间检测打鼾时,代理必须具备主动获取、处理和分析音频数据的能力。2.补充上下文信息:感知到的信息可以促进模棱两可或复杂任务的执行。例如,道用户的当前活动以推荐合适的音乐。3.触发情境感知服务:感知能力也是提供主理可能会注意到用户将注意力集中在检测危险驾驶行为上。4.增强智能体记忆:通过感知感知到的一些信息可以成为智能体记忆的一部分,智能体可以利用这些信息进行进一步的定制和自我进化。我们从两个角度介绍了情境感知技术,包括感知源和感知目标。4.2.1感应源硬件传感器。现代个人设备配备了各种内置硬件传感器,包括加速度计、陀螺仪、磁场传感器、光传感器、温度计[?]、麦克风[?]、GPS模块、相机[?]等。其他一些模块,如蓝牙和Wi-Fi[?]也可用于传感目的。随着智能手表、蓝牙耳机[?]和智能家居设备等可穿戴和物联网设备的日益普及,[?]的传感范围和传感方式大大扩展。软件传感器。与从真实传感器设备获取数据的硬件感知不同,软件感知侧重于从现有数据中获取信息,例如应用程序使用[?]、通话记录[?]、打字习惯[?]等。实际上,软件传感的领域非常广泛。例如,在自然语言处理或音频领域,存在大量基于文本或语音的传感研究。此外,在诸如电子商务或短视频平台等推荐系统中,该过程通常涉及首先感知某些用户信息,然后推荐特定的产品或内容。这些传感器使座席能够更好地了解用户,使他们能够提供更智能和个性化的服务。多个传感器的组合。多传感器协同传感是增强感知能力的有效方法。以前的努力已经证明了基于触摸屏和惯性传感器[?]对用户情绪、压力水平和情绪状态的评估,通过屏幕捕获和传感器数据[?]识别花费的时间,通过耳机麦克风[?]的呼吸检测,以及通过传感器和音频[?]进行细微的运动检测。多传感器协作的意义延伸到智能可穿戴设备和智能家居的激增。例如,使用从个人设备[?](智能手表、笔记本电脑和智能手机)收集的数据自动识别用户何时工作或休息,或者通过耳机和智能手机麦克风的组合进行动作检测[?]。此外,涉及家用电器融合的技术,例如基于现有有线设备[?]的用户动作感知、智能家居环境中的运动识别[?]、基于Wi-Fi的运动检测[?]、多人检测[?]和睡眠监测[?]。多传感器、多设备场景需要在数据源选择、数据融合和数据分析方法方面进行复杂的考虑。现有方法包括LLM驱动的在人类行为理解[?]中生成多传感器策略的策略、与情感无关的多传感器数据多任务学习框架[?]、传感数据[?]的跨模态融合、专注于多传感器融合[?]的可穿戴设备运动识别,以及数据缺失条件下传感器数据的预测焦虑[?]。此外,还有研究分析了数据特征在跌倒检测[?]中的重要性。随着传感技术的发展,多传感器、多设备协同传感已成为感知复杂场景的主要手段。有效地整合各种数据源以最大限度地提高准确性,并确定从众多来源中消除不太重要的数据以节省资源的方法,这些都是重要的研4.2.2检测目标情境感知的目标可分为环境感知和用户感知。环境感知包括地点、场合、宗教和文化背景、国家和社会背景等因素。同时,用户感知融合了用户活动、状态、个人信息、人格特质、情绪、目标、身体状况等相关方面感知环境。我们将环境感知进一步分为两个维度:场景感知和场合感知。场景感知主要涉及更具体的环境因素,例如位置和地点。场合感知深入研究更深层次的环境信息,包括宗教和文化背景、民族差异和社会关系。•场景感知通常很容易被感知,但具有重要意义,导致行为和重点的变化。对于行为实例,在库中检测到用户会提示代理将电话调整为静音模式,而在条形图中,可能需要增加音量并激活振动。与强调类似,当用户在会议室时,座席应更多地关注与会议内容记录和工作组织相关的任务,而在健身房中,重点应转移到健身计划和心率分析上。以前在场景感知方面的工作采用了各种技术,例如基于位置的[?]方法、音频或视频分析[??],以及传感器功能分析通过智能手机麦克风的气流等方面来评估通风[?],或者通过分析放置在表面[?]附近时用智能手机相机拍摄的微距照片来实现的场景识别。•场合感知在感知中更加难以捉摸,其影响相对谨慎。早期的研究已经确定了不同国家[?]和地区在行为和情绪识别任务方面的差异[?]。当前用户和环境所隐含的民族、种族、宗教和文化背景至关重要。在当前环境中感知他人和物体同样重要。例如,以前的工作基于传感器数据检测社交场景,分析社交焦虑个体在不同社交环境中的行为[?]。其他研究深入研究了使用多个传感器分析与饮酒相关的社交场景,甚至预测了饮酒群体的规模和性别构成[?]。此外,研究还探讨了传感器数据、饮食习惯和社交环境之间的关系,揭示了暴饮暴食与社会环境之间的密切关联,使其具有可预测的[?]。用多个传感器进行基于LLM的环境理解[?]。环境感知是个人代理的关键上下文信息。不同的环境导致不同的行为和焦点,超越了单纯的地点,涵盖了社交场合、文化背景和更深层次的概念元素、所有环境个体和关系、互动以及预测对环境和用户的影响。这些考虑因素直接影响个人代理人所表现出的智力水平。感知用户。用户意识是PersonalLLMAgents的主要功能之一。对用户有更深入的了解,才能更好地体现PersonalLLMAgents的价值和意义。我们将用户感知分为两个时间维度,包括短期和长期。短期传感表现出更高的时间变异性和增加的随机性。另一方面,长期传感需要长时间的维护和校正,使其相对更加稳定和可•短期用户感知包括各个方面,包括用户的日常行为[?]或专业活动(如刷牙效果[?])、用户状态(如工作或休息[??])、用户健康状况[???],以及用户情绪[??]和压力水平[?]。短期感知通常涉及快速变化和浅层状态信息。有效地捕获此类信息可以显著增强PersonalLLMAgents的上下文感知。•长期的用户感知主要集中在对用户画像和个性的分析上。已经提出了多种方法来了解用户的工作、学习和日常生活。例如,一项研究利用来自新智能手机的传感器数据来检测新生[?]长时间的心理状态。另一项研究表明,基于感知数据预测学习表现和社交活动的能力[?]。?]深入研究了根据身体活动的强度预测性格的技术。还有研究检查传感器数据与用户职业发展[?]之间的关系,以及一项预测用户生活满意度[?]的研究。此外,用户的特定状态一直是关注的焦点,包括对精神疾病感知的研究[?],例如预测和分析精神分裂症[?],以及检测吸烟[?]等习惯的研究。长期感知涉及深层和抽象的信息,包含用户行为背后的深刻逻辑。这些信息通常更加微妙,使感知和维护具有挑战性。但是,它们构成了高级个人代理的一个重要方面。在用户感知领域,也有一些基于LLM的举措,例如将LLM用于推荐任务[??],使用LLM[?]进行情感分析,以及开发具有查询和感知能力的私人医生[?]。1.什么是感知信息的统一格式或本体?代理应该能够将各种传感数据转换为这种格式,并方便地将数据用于各种下游任务。2.鉴于感知的范围很广,智能体如何决定何时感知以及感知什么,以便以最小的开销提供上下文4.3记忆记忆是指在PersonalLLMAgents中记录、管理和利用历史数据的能力。此功能使代理能够跟踪用户,从过去的经验中学习,提取有用的知识,并应用这些获得的知识来进一步提高服务质量。相关工作主要旨在回答两个问题,包括如何获取内存和如何利用内存。4.3.1获取内存代理内存可以采用多种格式。例如,基本用户配置文件(e.g.,出生日期、地址、个性、偏好)通常存储在键值对中,以便轻松进行基于键的检索。历史记录通常表示为按时间戳索引的序列,这些序列存档了一段时间内的用户服务访问、活动、系统事件等。用户的文档、照片、视频等被存储为文件,这些文件通常由其他应用程序生成。获取内存的方法主要有两种:直接记录原始数据或从原始数据中间接推断知识。伐木。获取内存的最直接方法是通过日志记录,例如记录用户输入、系统事件和感知到的上下文。记录数据通常相对简单。生活记录是一个经常被讨论的话题,它专注于跟踪和记录通过用户的活动和行为创建的用户数据,有助于全面了解个人的生活方式和偏好[??]。使用摄像机在特定时刻记录的数据提供了对日常活动的更深入概述[?]。此外,长时间记录数据可以提供对行为模式的宝贵见解,这将支持智能代理的个性化[?]。推断。获取内存的另一种PersonalLLMAgents方法是从原始数据中提取知识。随着机器学习和数据分析的进步,推断用户行为、模式和交互成为可能,以深入了解他们的心理、偏好和其他高级信息。例如,可以从文本[??]中提取用户个性,可以从图像和文本数据[??]读取情感,可以从[?]的历史交互信息中建模偏好,可以从智能手机推送通知中提取知识图谱[?]。这些提取的高级信息也将存储为代理的内存,并在服务4.3.2管理和利用内存获取内存后,接下来的问题是如何管理和利用内存,以提供更好的PersonalLLMAgents服务。基于利用内存的目的,我们将相关技术分为以下三个部分,包括原始数据管理、内存增强LLM推理和智能体自我进化。原始数据管理和处理。PersonalLLMAgents的一个基本能力是访问和处理原始内存数据(e.g.,选择、过滤、转换为其他格式等以方便其他高级功能。这一系列的工作主要侧重于实现更自然和人类可理解的数据访问、操作和修改。由于LLM的输入输出和推理过程基于自然语言,因此此类接口更容易与大型模型的其他功能集成。在该研究领域,许多努力已经探索了使用机器学习模型或基于模板的方法将用户数据请求映射到数据库SQL语句[??]。还有一些框架级别的工作,研究如何统一和简化数据接口。例如,PrivacyStreams[?]将所有个人数据访问和处理接口统一到一个基于流的框架中,这更有利于大型语言模型的理解和管理。内存增强LLM推理。为了使PersonalLLMAgents能够基于用户相关的内存提供定制服务,通常希望在LLM推理过程中利用内存数据。最近对LLM智能体的研究探索了利用记忆来增强决策和推理[?????],这为PersonalLLMAgents可以通过记忆为用户提供个性化服务的解决方案提供了灵感。根据内存的类型,这些技术可能会有所不同。•短期记忆以符号变量的形式保存和保留相关信息,确保其在当前决策周期中的可访问性和适用性。这包括感知输入、主动知识(通过推理生成或从记忆数据中检索)以及从上一个决策周期中继承下来的其他核心信息(e.g.,,智能体的主动目标)。CoT[?],Scratchpads[?]鼓励LLM生成中间推理,使用LLM自己的上下文作为工作记忆的一种形式。CoALA[?]提出,工作记忆应该是长期记忆(LLM)调用期间的持久数据结构。每个调用都从工作内存的子集(例如,提示模板和相关变量)),用于执行相应的操作。此外,短期记忆具有与长期记忆和其他数据接互的能力,充当连接语言代理[??]的不同组件的中心枢纽。•长期记忆存储早期决策周期的经验。这可以包括历史事件流[?]、前一集[??]的游戏轨迹、用户和代理之间的交互信息或代理体验的其他表示。在决策周期的计划阶段,这些事件可能会被检索到工作记忆中以支持推理。智能体还可以编写从工作到情景记忆的新体验,作为一种学习形式。其次,长期记忆存储了智能体对世界和自身的了解。传统方法利用检索进行推理或决策,从外部数据库初始化内存以获得知识支持(e.g.,NLP[??]中的检索增强方法,RL[??]中的“阅读学习”方法)。智能体还可以将从LLM推理和用户中获得的新知识写入长期记忆中,作为一种学习形式,从经验中逐步建立世界知识。智能体自我进化。为了更好地适应用户,PersonalLLMAgents可能还需要根据内存数据动态更新自己。我们称之为“自我进化”。智能代理的基础功能主要依赖于LLM。因此,智能智能体自我进化的关键在于如何利用LLM来发现和探索新技能,以及LLM本身的不断更新。•学习技能。目前,正在进行许多努力,以使基于LLM的代理能够参与持续的技能学习和获取[??]。这些方法从程序的通用性和可解释性中汲取灵感,[?]将技能视为可执行代码,并

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论