




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
当前大语言模型LLM研究的10大挑战OpenchallengesinLLMresearch让大语言模型变得更完善这个目标,是我一生中,第一次见到这么多的聪明人,同时在为一个共同目标而努力。在同众多业界和学术界人士交流后,我注意到出现了十大研究方向。目前受到关注最多的两个方向是Hallucinations(输出幻觉)和ContextLearning。而对我自己来说,最感兴趣的是下面列出的第3个方向(Multimodality多模态数据模式)、第5个方向(Newarchitecture新架构)和第6个方向(GPUalternatives开发GPU替代的解决方案)。LLM研究的十大公开挑战:减少并评估输出输出(虚构信息)优化上下文长度和上下文构建融合其他数据形式提升语言模型的速度和成本效益设计新的模型架构开发替代GPU的解决方案提升代理(人工智能)的可用性改进从人类偏好中学习的能力提高聊天界面的效率构建用于非英语语言的语言模型一、减少和评估幻觉输出环境是一个已经被大量讨论过的话题,所以这里我会长话短说。当人工智能模型胡编乱造时,就会产生幻觉。对于许多创意用例来说,幻觉属于功能的一种。然而,对于大多数应用场景来说,幻觉属于一种错误。最近,我与Dropbox、Langchain、Elastics和Anthropic的专家共同参加了一个关于LLM的专题讨论会,在他们看来,企业在实际生产中,应用LLM需要克服的首要障碍就是幻觉输出。降低模型的幻觉输出和制定评估幻觉输出的指标,是一个蓬勃发展的研究课题,目前很多初创公司都在关注这个问题。还有一些技巧可以减少幻觉输出的概率,例如在提示词中添加更多上下文、CoT、自洽性,或者特定要求模型的响应简洁明了。下面是关于幻觉输出的系列论文和参考资料:SurveyofHallucinationinNaturalLanguageGeneration(Jietal.,2022)HowLanguageModelHallucinationsCanSnowball(Zhangetal.,2023)AMultitask,Multilingual,MultimodalEvaluationofChatGPTonReasoning,Hallucination,andInteractivity(Bangetal.,2023)ContrastiveLearningReducesHallucinationinConversations(Sunetal.,2022)Self-ConsistencyImprovesChainofThoughtReasoninginLanguageModels(Wangetal.,2022)SelfCheckGPT:Zero-ResourceBlack-BoxHallucinationDetectionforGenerativeLargeLanguageModels(Manakuletal.,2023)Asimpleexampleoffact-checkingandhallucinationbyNVIDIA’sNeMo-Guardrails二、优化上下文长度和上下文构建绝大部分问题都需要上下文。例如,如果我们问ChatGPT:“哪家越南餐厅最好?”所需的上下文将是“这个餐厅的限定范围到底在哪里?”,因为越南本土最好吃的餐厅与美国的最好吃的越南餐厅,这个问题的范围是不同的。根据下面这篇很酷的论文《SITUATEDQA:IncorporatingExtra-LinguisticContextsintoQA》(Zhang&Choi,2021),有相当一部分信息搜索问题的答案与上下文有关,例如,在NaturalQuestionsNQ-Open数据集中大约占16.5%。(NQ-Open:/research/NaturalQuestions)我个人认为,在企业实际遇到的案例中,这一比例会更高。例如,假设一家公司为客户支持建立了一个聊天机器人,要让这个聊天机器人回答客户关于任何产品的任何问题,所需的上下文很可能是该客户的历史或该产品的信息。由于语言模型会从提供给它的上下文中“学习”,因此这一过程也被称为上下文学习。客户支持查询所需的上下文Contextlength对于RAG(检索增强生成)非常重要,而RAG已成为大语言模型行业应用场景的主要模式。具体来说,检索增强生成主要分为两个阶段:第1阶段:分块(也称为编制索引)chunking(alsoknownasindexing)收集LLM使用的所有文档,将这些文档分成可以喂入大于模型,以生成嵌入的块,并将这些嵌入存储在向量数据库中。第2阶段:查询当用户发送查询时,如“我的保险单是否能够支付某种药物X”,大语言模型会将此查询转换为embedding,我们称之为QUERY_EMBEDDING。向量数据库,会获取embedding与QUERY_EMBEDDING最相似的块。上下文长度越长,我们就能在上下文中squeeze越多的chunks。模型获取的信息越多,它的输出和回应质量就会越高,是这样的吗?并非总是如此。模型能用多少上下文,和模型使用上下文的效率如何,是两个不同的问题。在努力增加模型上下文长度的同时,我们也在努力提高上下文的效率。有人称之为“提示工程promptengineering”或“promptconstruction”。例如,最近有一篇论文谈到了模型如何更好地理解索引开头和结尾,而不仅是中间的信息——LostintheMiddle:HowLanguageModelsUseLongContexts(Liuetal.,2023).三、其他数据模式融入(多模态)在我看来,多模态是非常强大的,但是它也同样被低估了。这里解释一下多模态的应用原因。首先,许多具体应用场景都需要多模态数据,尤其是在医疗保健、机器人、电子商务、零售、游戏、娱乐等混合数据模态的行业。举例来说:医疗检测通常需要文本(如医生笔记、患者问卷)和图像(如CT、X光片、核磁共振扫描片)。产品的Metadata通常包含图片、视频、描述,甚至表格数据(如生产日期、重量、颜色),因为从需求角度,您可能会需要根据用户的评论或产品照片,自动填补缺失的产品信息,或者希望让用户能够使用形状或颜色等视觉信息,进行产品搜索。其次,多模态有望大幅提升模型性能。一个既能理解文本又能理解图像的模型,难道不应该比单一能理解文本的模型表现更好吗?基于文本的模型,需要大量文本,以至于我们担心很快就会用完互联网数据来训练基于文本的模型。一旦文本耗尽,我们就需要利用其他数据模式。让我特别兴奋的一个使用案例是,多模态技术可以让视障人士浏览互联网和浏览现实世界。下面是关于多模态相关的系列论文和参考资料:[CLIP]LearningTransferableVisualModelsFromNaturalLanguageSupervision(OpenAI,2021)Flamingo:aVisualLanguageModelforFew-ShotLearning(DeepMind,2022)BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels(Salesforce,2023)KOSMOS-1:LanguageIsNotAllYouNeed:AligningPerceptionwithLanguageModels(Microsoft,2023)PaLM-E:Anembodiedmultimodallanguagemodel(Google,2023)LLaVA:VisualInstructionTuning(Liuetal.,2023)NeVA:NeMoVisionandLanguageAssistant(NVIDIA,2023)四、让LLM更快、成本更低当GPT-3.5在2022年11月底首次发布时,很多人对在生产中使用它的延迟和成本表示担忧。然而,自那时以来,延迟/成本分析已经迅速发生了变化。在不到半年的时间里,社区找到了一种方法,可以创建一个性能与GPT-3.5非常接近的模型,但所需的内存占用仅为GPT-3.5的2%左右。这里的启示是:如果你创造出足够优秀的东西,人们会找到一种方法让它变得快速且经济高效。以下是《Guanaco7B》的性能数据,与ChatGPTGPT-3.5和GPT-4的性能进行了比较,根据《Guanco》论文中的报告。请注意:总体而言,下列关于性能的比较,离完美还差很远,并且,对LLM的评估非常非常困难。Guanaco7B与ChatGPTGPT-3.5和GPT-4的性能比较:四年前,当我开始为《设计机器学习系统》一书撰写后来成为“模型压缩”部分的笔记时,我写了关于模型优化/压缩的四种主要技术:Quantization:迄今为止最通用的模型优化方法。量化通过使用较少的位数来表示模型的参数来减小模型的大小,例如,可以使用16位甚至4位来表示浮点数,而不是使用32位。Knowledgedistillation:一种通过训练小模型来模仿大型模型或模型集合的方法。Low-rankfactorization:这里的关键思路是用低维张量代替高维张量,以减少参数数量。例如,可以将3×3张量分解为3×1和1×3张量的乘积,这样就不再需要9个参数,而只需要6个参数。Pruning所有上述四种技术在今天仍然适用和流行。Alpaca采用Knowledgedistillation进行训练。QLoRA结合使用了Low-rankfactorization和quantization。五、设计一种新的模型架构自2012年的AlexNet以来,我们看到了许多架构的兴衰,包括LSTM、seq2seq等。与这些相比,Transformer的影响力,令人难以置信。自2017年以来,Transformer就一直存在,而这种架构还能流行多久,还是个未解之谜。开发一种新架构来超越Transformer并不容易。Transformer在过去6年中进行了大量优化,而这种新架构,必须在人们当前关注的硬件,以当前关心的规模运行。注意:谷歌最初设计Transformer是为了在TPU上快速运行,后来才在GPU上进行了优化。2021年,ChrisRé’slab的S4引起了广泛关注,详见《EfficientlyModelingLongSequenceswithStructuredStateSpaces》(Guetal.,2021))。ChrisRé’slab仍在大力开发新架构,最近与初创公司Together合作开发的架构MonarchMixer(Fu,2023年)就是其中之一。他们的主要思路是,对于现有的Transformer架构,注意力的复杂度是序列长度的二次方,而MLP的复杂度是模型维度的二次方。具有次二次方复杂度的架构将更加高效。MonarchMixer六、开发GPU替代方案自2012年的AlexNet以来,GPU一直是深度学习的主导硬件。实际上,AlexNet受欢迎的一个普遍认可的原因之一是它是首篇成功使用GPU来训练神经网络的论文。在GPU出现之前,如果想要以AlexNet的规模训练模型,需要使用数千个CPU,就像谷歌在AlexNet之前几个月发布的那款。与数千个CPU相比,几块GPU对于博士生和研究人员来说更加容易得到,从而引发了深度学习研究的繁荣。在过去的十年里,许多公司,包括大型企业和创业公司,都试图为人工智能创建新的硬件。最值得注意的尝试包括谷歌的TPU、Graphcore的IPU(IPU的进展如何?)以及Cerebras。SambaNova筹集了超过十亿美元来开发新的AI芯片,但似乎已转向成为一个生成式AI平台。有一段时间,人们对量子计算抱有很大的期望,其中关键参与者包括:IBM的QPU谷歌的量子计算机在今年早些时候在《自然》杂志上报道了量子误差减少的重大里程碑。其量子虚拟机可以通过GoogleColab公开访问。研究实验室,如麻省理工学院量子工程中心、马克斯·普朗克量子光学研究所、芝加哥量子交流中心、奥克里奇国家实验室等。另一个同样令人兴奋的方向是光子芯片(photonicchips)。我对这个领域知之尚浅,所以,如果有错误,请纠正我。现有芯片使用电力来传输数据,这消耗大量的能量并且产生延迟。而光子芯片使用光子来传输数据,利用光速进行更快、更高效的计算。在这个领域,各种初创公司已经融资数亿美元,包括Lightmatter(2.7亿美元)、AyarLabs(2.2亿美元)、Lightelligence(2亿美元以上)和LuminousComputing(1.15亿美元)。以下是光子矩阵计算三种主要方法的进展时间线,摘自论文《Photonicmatrixmultiplicationlightsupphotonicacceleratorandbeyond》(Zhou,Nature2022)。这三种不同的方法分别是平面光转换(PLC)、马赫-曾德尔干涉仪(MZI)和波分复用(WDM)。七、提高agents的可用性Agent指可以执行动作的大语言模型(可以理解为那些可以代替你来完成各种任务的代理人,所以叫Agent),例如浏览互联网、发送电子邮件、预订等。与本文中其他研究方向相比,这可能是最新的方向之一。由于Agent本身的新颖性和巨大潜力,人们对Agent充满热情。而Auto-GPT现在是GitHub上标星数量排名第25的、最受欢迎的repo。GPT-Engineering是另一个受欢迎的repo。尽管这个方向令人兴奋,但人们仍然对大语言模型是否足够可靠和高性能,以及能够被赋予行动的权力,存在疑虑。然而,已经出现了一个应用场景,即将Agent用于社会研究。例如著名的斯坦福实验,该实验显示一小簇生成式Agent产生了新兴的社会行为:例如,从一个用户指定的想法开始,一个Agent想要举办情人节派对,Agent在接下来的两天里自动传播派对的邀请,结交新朋友,互相邀请参加派对…(GenerativeAgents:InteractiveSimulacraofHumanBehavior,Parketal.,2023),在这个领域最值得注意的创业公司也许是Adept,由两位前Transformer的合著者和前OpenAI副总裁创立,到目前为止已经融资近5亿美元。去年,他们展示了他们的agent的如何浏览互联网的,还有就是演示了如何向Salesforce添加新账户。八、迭代RLHFRLHF(从人类反馈中进行强化学习)很酷,但有点技巧性。如果人们找到更好的训练LLM的方法,也不奇怪。不过,在RLHF方面还存在许多未解决的问题,例如:①如何用数学方式,表示人类偏好?目前,人类偏好是通过比较来确定的:人类标注员确定响应A是否比响应B更好。然而,它没有考虑响应A比响应B好多少。②什么是人类偏好(preference)?
Anthropic根据输出,在有益、诚实和无害三个方面对其模型的质量进行了衡量。请参阅ConstitutionalAI:HarmlessnessfromAIFeedback(Baietal.,2022).DeepMind试图生成能够取悦大多数人的响应。请参阅Fine-tuninglanguagemodelstofindagreementamonghumanswithdiversepreferences,(Bakkeretal.,2022).此外,我们想要能够表达立场的AI,还是对任何可能具有争议性的话题回避的传统AI呢?③“人类”偏好究竟是谁的偏好,是否要考虑到文化、宗教、政治倾向等的差异?获得足够代表所有潜在用户的训练数据存在许多挑战。例如,对于OpenAI的InstructGPT数据,没有65岁以上的标注员。标注员主要是菲律宾人和孟加拉人。请参阅InstructGPT:Traininglanguagemodelstofollowinstructionswithhumanfeedback(Ouyangetal.,2022).InstructGPT标注员的国籍统计信息尽管社区主导的努力在其意图上值得赞赏,但可能导致数据存在偏见。例如,对于OpenAssistant数据集,222位(90.5%)回答者中有201位自我认定为男性。JeremyHoward在Twitter上有一个很好的Thread:九、提高聊天界面效率自ChatGPT以来,人们一直在讨论聊天是否是一个适用于各种任务的界面。详见:Naturallanguageisthelazyuserinterface(AustinZ.Henley,2023)WhyChatbotsAreNottheFuture(AmeliaWattenberger,2023)WhatTypesofQuestionsRequireConversationtoAnswer?ACaseStudyofAskRedditQuestions(Huangetal.,2023)AIchatinterfacescouldbecometheprimaryuserinterfacetoreaddocumentation(TomJohnson,2023)InteractingwithLLMswithMinimalChat(EugeneYan,2023)然而,这并不是一个新话题。在许多国家,尤其是在亚洲,聊天已经作为超级应用的界面使用了大约十年时间,DanGrover在2014年就已经写过相关论文。2016年,当许多人认为应用程序已死、聊天机器人将成为未来时,讨论再次变得激烈紧张起来:Onchatasinterface(AlistairCroll,2016)IstheChatbotTrendOneBigMisunderstanding?(WillKnight,2016)Botswon’treplaceapps.Betterappswillreplaceapps(DanGrover,2016)我个人喜欢聊天界面,原因如下:①聊天界面是每个人,甚至是没有先前接触过计算机或互联网的人,都可以迅速学会使用的界面(普适性)。在2010年代初,当我在肯尼亚的一个低收入居民区做志愿者时,我惊讶于那里的每个人在手机上进行银行业务时是多么熟悉,通过短信。那个社区没有人有计算机。②聊天界面是易于访问的。如果你的双手整忙于其他事情,可以使用语音而不是文本。③聊天也是一个非常强大的界面——你可以向它提出任何请求,它都会给予回复,即使回复不一定完美.;不过,笔者认为聊天界面在某些方面还可以继续改进:①单次可交流多条消息目前,我们基本上假设每次交流只有单轮消息。但这不是我和我的朋友发短信的方式。通常,我需要多条消息来完成我的思考,因为我需要插入不同的数据(例如图像、位置、链接),我可能在之前的消息中遗漏了某些内容,或者只是不想把所有内容都放在单一的大段落里。②多模态输入在多模态应用领域,大部分精力都花在构建更好的模型上,而很少花在构建更好的界面上。以Nvidia的NeVA聊天机器人为例。我不是用户体验专家,但我认为在这里可能有改进的空间。附注:对这里提到NeVA团队表示抱歉,即使有了这个,你们的工作仍然非常酷!③将生成式AI融入工作流程中LinusLee在他的分享“GenerativeAIinterfacebeyondchats.”中很好地涵盖了这一点。例如,如果您想问关于您正在处理的图表中的某一列的问题,您应该能够只需指向那一列并提问。④消息编辑和删除用户输入的编辑或删除会如何改变与聊天机器人的对话流程?十、为非英语语言创建LLM我们知道,目前以英语为第一语言的LLM在性能、延迟和速度方面都无法很好地适用于许多其他语言。请参阅:ChatGPTBeyondEnglish:TowardsaComprehensiveEvaluationofLargeLanguageModelsinMultilingualLearning(Laietal.,2023)AlllanguagesareNOTcreated(tokenized)equal(YennieJun,2023)我只知道训练越南语的尝试(比如Symato社区尝试),不过,本文几位早期读者告诉我,他们认为我不应该把这个方向包括进来,原因如下:这与其说是一个研究问题,不如说是一个logist
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 19024-2025质量管理体系面向质量结果的组织管理实现财务和经济效益的指南
- C形臂X线机林瑞鹏65课件
- 考研复习-风景园林基础考研试题【典型题】附答案详解
- 风景园林基础考研资料试题及参考答案详解【研优卷】
- 《风景园林招投标与概预算》试题A附参考答案详解(巩固)
- 2025福建省泉州凤栖实业有限责任公司社会招聘17人笔试备考试题附答案详解(典型题)
- 2025年黑龙江省五常市辅警招聘考试试题题库含答案详解(考试直接用)
- 2025年河北省定州市辅警招聘考试试题题库及1套完整答案详解
- 2025年STEAM教育在中小学跨学科教学中的实施效果评估报告
- 新解读《DA-T 1-2000档案工作基本术语》新解读
- 湖南省常德市临澧县2022-2023学年三年级下学期期末语文试卷
- 交投国企招聘笔试真题答案
- 如何做好项目宣传工作
- 抖音电商直播运营团队KPI绩效考核管理办法【部分岗位绩效指标相同要求所有岗位KPI不一样的请勿下载】
- 基于PLC的电梯控制系统设计
- 学生不爱写作业分析报告
- 楼宇电气系统安全检查表
- 钢支撑(钢管)强度及稳定性验算
- 存在问题原因分析及整改措施
- 文员职业发展规划
- 口暴服务流程
评论
0/150
提交评论