北大核心期刊-从ChatGPT看AI未来趋势和挑战

上传人：策*** IP属地：山西上传时间：2023-10-17 格式：DOCX 页数：20 大小：132.41KB 积分：19.9 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

计算机研究与发展DOI：10.7544/issn1000-1239.202330304JournalofComputerResearchandDevelopment从ChatGPT看AI未来趋势和挑战（北京交通大学计算机学院北京100044）（交通数据分析与挖掘北京市重点实验室（北京交通大学）北京100044）（jtsang@）ChatGPT:AGlimpseintoAI’sFutureSangJitao1,2andYuJian1,2（SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing100044）（BeijingKeyLaboratoryofTrafficDataAnalysisandMining(BeijingJiaotongUniversity),Beijing100044）AbstractChatGPThasbeenasignificantbreakthroughanddrawnwidespreadattention.ChatGPT’sroleinAIdevelopmentanditsfutureimpactisexaminedinthispaper.WefirstintroduceChatGPT’sexceptionaldialoguegenerationcapabilities,enablingittohandlenearlyallnaturallanguageprocessingtasksandbeappliedasadatagenerator,knowledgeminingtool,modeldispatcher,andnaturalinteractioninterface.WethenanalyzeChatGPT’slimitationsinfactualerrors,toxiccontentgeneration,safety,fairness,interpretability,anddataprivacy,anddiscusstheimportanceofclarifyingitscapabilityboundaries.Afterthat,weanalyzetheconceptoftruthandexplainwhyChatGPTcannotdistinguishtruthfromfalsehoodfromthenon-equivalenceofthreereferences.IndiscussingAI'sfuture,weanalyzemid-to-shorttermtechnologicaltrendsandthelong-termdevelopmentpathfromtherelationshipbetweenperception,cognition,emotion,andbehavioralintelligence.Lastly,weexploreChatGPT’spotentialimpactoncognitivecost,education,TuringTestunderstanding,academia’sopportunitiesandchallenges,informationcocoons,energyandenvironmentalissues,andproductivityenhancement.摘要在人工智能领域，ChatGPT作为一种重要的技术突破，引起了广泛的关注.本文将探讨ChatGPT在人工智能发展中的地位及其对未来AI的影响.首先，介绍了ChatGPT所展现出的优秀对话生成能力，使其几乎可以胜任所有自然语言处理任务，并将作为数据生成器、知识挖掘工具、模型调度员、自然交互界面在各种场景得到应用.接着，分析了其在事实错误、毒害内容生成、安全性、公平性、可解释性、数据隐私等方面的局限，并讨论了作为辅助人类工具的ChatGPT明确能力边界和提高能力范围的重要性.然后，从概念经典表示对“真”定义进行了分析，并从概念三指不等价的角度阐释性了ChatGPT无法区分真假的原因.在论述AI未来时，从拓展应用、克服局限、探索理论分析了中短期技术趋势，并从感知、认知、情感、行为智能四个层面的关系讨论了长期发展路径.最后，探讨了ChatGPT作为认知智能的代表，对包括认知成本、教育要求、图灵测试认识、学术界的机遇与挑战、信息茧房、能源环境问题和生产力提升等方面可能产生的影响.收稿日期：2023-04-10；修回日期：2023-04-12基金项目：北京市杰出青年基金项目(JQ20023)；国家自然科学基金项目(61832002)ThisworkwassupportedbytheBeijingNaturalScienceFoundationforDistinguishedYoungScholars(JQ20023),andtheNationalNaturalScienceFoundationofChina(61832002).通信作者：于剑（jianyu@）1192计算机研究与发展2023，60（6）中图法分类号TP391为ChatGPT的软件.该软件在发布后的5天内，用户数量就超过了100万，2个月内活跃用户数更是突破了1亿，成为了迄今为止增长速度最快的应用软件.该软件几乎可以完成自然语言处理的所有任务，因此在营销、客服、教育、娱乐、咨询、翻译等行业有着广阔的应用前景.这一成功也激励了OpenAI首席执行官SamAltman，他于2023年2月24日发表了一systemsthataregenerAGI的到来做准备①.AGI会是AI的未来吗？本文将对此进行讨论.比尔盖茨将ChatGPT誉为自1980年现代图形桌面环境GUI问世以来最具革命性的科技进步.如果说上一次让AI火出圈的AlphaGo所展现出的是在特定领域的“专”，这一次ChatGPT展现出的则是AI在懂、都能体验的对话形式呈现，让AI——特别是自然语言处理技术进入主流用户群，孕育出了这一现象级产品.具体而言，ChatGPT在对话过程中展现出了自然对话、多轮交互、上下文学习、思维链推理、实时反馈在线纠错、能适应未训练任务以及GPT-4中新出现的理解弦外之音的能力.ChatGPT背后的思想其实很简单：将所有语言任务归为对话任务，并将对话任务归为文字接龙的生ChatGPT展现出的优秀对话生成能力对传统研究方法产生了巨大挑战.1）从目标上看，自然语言处理旨在让计算机能够以文字或语音的方式与人类进行有效交流；而对话是人类日常生活中最基本的交流方式，如果实现了人机自然对话，在一定程度上便达到了自然语言处理的核心目标.2）从任务类型上看，自然语言处理可分为自然语言理解和自然语言生成两大类.在谷歌的T5模型[1]推出之后，两类任务统一为单项语言生成的文字接龙形式.自GPT-1起，OpenAI就一直坚持采用基于解码器结构的自回归语言模型，①/blog/planning-for-agi-and-beyond这种模型在处理语言生成问题方面具有天然的优势.所以ChatGPT可以处理以前不同赛道的语言处理任务，比如翻译、问答、摘要、扩写、写作、润色、代码生成、语句分析、段落理解等.当然，ChatGPT能够实现如今顺畅自然的人机对话，不仅源于其对GPT语言生成技术路线的持续发展，还依赖于算法、算力和数据等多方面的支持.由于ChatGPT并未开源，也没有发布论文透露具体细节，我们只能基于OpenAI已公开的GPT系列技术发展路线来推测这些能力背后的潜在原因.图1展示了部分ChatGPT已展现出的能力及其背后主要技术原因的对应关系.值得关注的是，ChatGPT许多能力背后的原因仍在探索过程中.关于上下文学习的能力，有学者认为模型从提示词（prompt）提供的示例中确定了待解决任务的自然语言指令（instruct从而在无需微调模型的情况下提升了问题回答的质量[2].关于任务涌现和多任务迁移能力，一方面，有学者认为指令学习、大规模预训练和数据集多样性共同促进了模型在新任务的泛化能力[3].例如，通过在大量不同类型和指令任务上进行微调，模型学习到了一定程度的通用能力，从而能够泛化到未见过的指令和场景.另一方面，不同任务的划分具有一定的主观性，其本质上都可以建模为统一的自然语言生成任务.大型预训练语言模型通过学习大量训练数据，掌握了丰富的语言知识和多种任务之间的共性，进而利用这些共性来提高不同任务的性能.然而，一些问题仍然没有明确答案，例如：何种模型规模和训练数据量阈值可以产生任务涌现能力？涌现能力与模型规模和训练数据量之间的量化关系如何？同时，其他算法算力数据大 Fig.1Illustrationofcapabilitiesandthecorrespondingtechnicalreasons图1能力与对应技术原因示意桑基韬等：从ChatGPT看AI未来趋势和挑战1193一些能力，如在线纠错、理解弦外之音等，其背后的原因仍然有待发现.OpenAI首席科学家llyaSutskeve最近在与英伟达首席执行官黄仁勋的访谈中对ChatGPT能力学习进行了解释：“ChatGPT通过学习文本中的统计相关性，获得了这个世界的一个压缩、抽象、可用的映射表达”.这让我们不禁思考：ChatGPT是否学到了人类可以确定的是：机器学习模型通过统计海量符号语料中的规律，能够学习到词汇、语法、乃至一定程度的上下文和常识知识.问题是：随着语料规模的不断增加和统计规律的持续积累，模型所建立的世界表达分辨率越来越高、维度越来越丰富时，是否真的有可能学习到人类情感、道德观念等支撑整个世界运行的更复杂的暗知识？在学术界积极探索ChatGPT能力背后的技术原因的同时，工业界已在欢迎这项新技术，并将其优秀的对话生成能力融入各种应用场景.根据ChatGPT对话的对象和本身的定位，我们将这些应用分成4Table1MainApplicationsCategoriesofChatGPT表1ChatGPT主要应用类型对话对象定位实现思路应用场景数据生成器根据需求直接生成数据对话、文案、代码生成数据知识挖掘工具对原始数据再加工或分析挖掘翻译、润色、摘要、文档管理模型模型调度员调用其他机器学习模型协同模型拓展、智能中台应用人机交互界面调用各类应用程序解决实际问题插件、智能操作系统接口1）数据生成器.根据需求直接生成数据.此类应用仅输入用户需求，利用ChatGPT的生成能力返回特定类型的数据.由于思路简洁且实现容易，数据生成类应用在ChatGPT发布之初就大量出现.主要应用场景包括对话生成（客服、虚拟数字人）、文案生成（法律文书、营销策划广告）和代码生成等.典型的成功案例包括写作助手NotionAI①、营销文案生成工具Jasper.ai②.2）知识挖掘工具.对数据进行再加工或分析挖掘.此类应用同时输入用户需求和待处理的原始数据，利用ChatGPT强大的自然语言处理能力返回经过加工的数据或挖掘出的新信息.知识挖掘类应用可以ChatGPTAPI分析和挖掘私有数据等专业领域语料构建知识库，为进一步应用提供知识支持.在线应用的主要场景包括翻译、润色、摘要生成、文档管理等.一些典型案例包括搜索引擎摘要插件WebChatGPT、文档分析工具ChatPDF以及OpenAI官方随GPT-4发布的摩根士丹利策略分析师.3）模型调度员.调用其他机器学习模型共同解决用户需求.此类应用同时输入用户需求、待处理数①https://www.notion.ai②https://www.jasper.ai作为人类与其他模型间的连接，设计解决方案、调用并管理其他机器学习模型，共同完成用户需求并输出结果.这方面的典型案例是微软近期发布的系列多模态解决方案VisualChatGPTPT[5]、MM-ReAct[6]和HuggingGPT[7]，其通过调度其他视觉基础模型来协同完成视觉和语音任务.此外，AI赋能一直以来的一个痛点问题是：智能中台需要整合不同模型和技术，并根据业务需求扩展新的模型.ChatGPT有望实现智能中台的升级，如提供友好的开发/业务人员界面、实现模块化模型管理、简化技术集成和部署，从而提高AI赋能效率.随着ChatGPT应用探索的深入，相信模型调度员类型的应用将越来越受到关注.4）人机交互界面.调用更广泛的应用程序帮助人类解决实际问题.第一种形式是将ChatGPT嵌入到特定应用中，从而极大地提升自然交互体验，如微软的365Copilot和CopilotX分别将ChatGPT融入Office和Github.第二种形式是在ChatGPT搭建的自然语言交互框架上开发各类信息服务应用，去年10月推出的开源库LangChain和OpenAI最近发布的插件集Plugins都是大型语言模型应用开发框架的典型尝试.正如Windows和Android分别是桌面和移动时代的操作系统，ChatGPT有望成为智能时代的操作系1194计算机研究与发展2023，60（6）统接口.进一步畅想，如果把语言分为人类之间沟通的自然语言和人与计算机之间沟通的计算机语言，ChatGPT在一定程度上统一了二者：用自然语言实现了人和计算机之间的沟通，不得不说“自然语言编程从这个角度看，我们甚至可以大胆预测：人机交互界面将从磁带、键盘字符、鼠标图形全面进化到自然语言时代.以上围绕对话生成讨论了ChatGPT的具体能力、背后的技术原因以及在不同定位下的应用形式.尽管“对话生成”提供了无限的想象，但OpenAI的野心显然并不止于此.从名称和发布时间点来看，ChatGPT似乎只是一种过渡性技术的产品形式.在以对话这种产品形式向主流用户群展示了强大的技术实力之后，OpenAI新发布的GPT-4并未继续在对话生成功能上炫技，而是悄然接入了各类官方应用.从生物学角度，语言和智能的演化过程相互促进.人类智能在很大程度上依赖于高度复杂的语言系统.语言作为思维的载体和智慧的外在表现，其运用能力很大程度上反映了认知能力和智能水平.语言习得是认知发展的重要组成部分，儿童在成长过程中通过习得语言来理解世界，并逐渐掌握其他认知技能.ChatGPT等技术在语言生成能力的持续提升能将人工智能带到什么高度，让人非常期待.能力越大，责任越大.ChatGPT展现出的强大能力让主流用户群欣喜、学术界惊讶、工业界狂热.这些能力让我们在使用它时感受到了与以往技术不同的体验.回顾人类历史上的几次技术革命，从早期的石器、金属器具、机械设备、电气设备到近几十年的计算机、互联网和智能手机，每一个阶段所发明的工具都对人类生活产生了深远影响.在使用这些工具时，我们可以清楚地意识到它们作为工具的定位，即程中，我们经常会产生一种与另一个人对话的错觉，尤其是当类似Plugins这类功能使其能够像人类一样利用其他工具进行自我增强的时候.埃隆•马斯克在使用ChatGPT后的感受是“好到吓人”.这种独特的体验无疑将加速技术融入人类社会的进程.正如没有实现真正的智能，但它让人体验到了真正的智能实现后，每个人都能用它做各种他们想做的事情整个2023年3月都被各种生成式AI技术和产卡、GithubCopilotX、ChatGPCopilot等.我们可以预见相关技术的应用领域将迅速拓展、应用程度将大幅度加深.人们在享受技术带来的便捷和生产力提升的过程中，对技术的态度将从习惯逐渐转变为依赖.而当人们开始依赖这些技术代替自己学习、思考、甚至决策时，有2个问题摆在我们面前：技术是否已经做好准备承担责任？人类对技术的信赖是否超出了它的能力？实际上，ChatGPT在使用过程中已被发现存在诸多问题，如数学计算、未来预测、时空物理现实推理等方面能力的局限，以及事实错误（幻觉）、生成毒害内容等方面的不可控[8].下面从可信AI的4个维度对ChatGPT存在的问题展开讨论.1）安全性.OpenAI在官网上将“安全”列为五个目录之一，在随GPT-4发布的报告中批露了其在技术和评估两方面都设立了专门的安全小组，足见其对安全性的重视.然而，和所有机器学习模型一样，ChatGPT仍存在着被对抗攻击的风险.一种典型方式是提示语注入攻击（promptinjectionattack在提示语中混入恶意指令，可能绕过ChatGPT的安全机制，迫使其执行意外动作，如泄露敏感信息、输出有害内容等.例如，ChatGPT驱动的新Bing在受到攻击后泄露了其内部代号“Sydney”；ChatGPT被诱导规划抢劫方案，甚至提供了购买抢劫道具的链接等.DALL-E系列曾被发现存在输出性别和种族歧视内容的问题.类似地，GPT-2、Bert、RoBERTa等语言模型在一个测试项目中也被发现具有严重的性别偏见倾向[9].尽管目前尚无系统性地研究分析ChatGPT在性别和种族偏见方面的表现，但已有研究发现它存在明显的语言敏感性.例如，当用日语和俄语分别询问一个日俄争议岛屿的归属问题时，ChatGPT给出了截然不同的答案[10].3）可解释性.ChatGPT的思维链能力可以在答案中同时呈现推理过程，这在部分程度上解决了实验室环境下模型可解释性的问题.然而，需要注意的是，这种推理过程的解释是面向用户的，并不一定与模型的实际运行机制准确对应.此外，ChatGPT仍存在很多尚未解释的行为，包括自我在线纠错、理解弦外之音等能力，以及出现事实错误（幻觉）等问题.由桑基韬等：从ChatGPT看AI未来趋势和挑战1195“知道自己不能“知道自己不能”于大模型本身的复杂性以及仅通过API提供服务的现实限制，ChatGPT对于用户和开发者都是完全的黑箱.随着应用场景的拓宽和加深，现有的解释性水平可能难以满足透明度和回溯性等的要求.4）数据隐私.涉及训练阶段的数据侵权和推理阶段的隐私泄露两个方面.大模型训练需要的海量数据多来自网络，其中难免包括未经授权的版权保护内容.ChatGPT虽然可能避免语句层面的抄袭，但难以避免语义上的深度抄袭.2023年，大模型领域发涉嫌复制Github上的开源代码而受到指控.在推理阶段，攻击者有可能通过逆向攻击等手段，利用模型输出的结果来反向推导出训练数据中的隐私信息.数据隐私泄露的风险[11].随着模型规模和功能多样性的增加，这种风险可能进一步加大：模型规模越大，其记忆能力越强；功能越多样化，可被利用的信息和攻击方式也越丰富.ChatGPT自身代号的泄露便证实了这一点.从生成式AI模型选择的技术路线和当前发展水平看，这些问题既可以归结为大型语言模型固有的结构局限，也可以归结为将符号任务统一建模为对话问题的过度简化.关于这条技术路线的未来发展，同时存在着乐观和悲观两种观点.乐观派认为，人脑神经元突触连接总数约为一百万亿，随着语言模型参数量的不断增加，模型可能在某个时刻实现量变到质变的跃迁，这些问题也会自然消失.然而，包括乔姆斯基、StuartRussell等大佬在内的悲观派则持相反观点，他们认为端到端的深度学习与人类进行推理和使用语言的方式有着巨大差异，依靠更多数据和算力无法消除这些缺陷或实现真正的智能.不讨论技术路线的选择或者观点的对错，不管生成式AI模型的能力演进到何种程度，其定位始终是帮助人类更好地完成任务的工具.作为工具，首先应该明确能力边界，即“做自己能做的事”.在认知心理学中，约瑟利窗口（JohariWindow）将人际关系划分为公开区、盲区、隐藏区、未知区四个象限[12].参照 2个维度绘制一个坐标系，智能工具处理的任务将落在其中一个象限内.当任务落在“自知”负半轴的2个象限时，可能会出现不可预知的问题：在隐藏区时，模型“不知道自己能”，可能在收到用户反馈后将原本正确的答案改为错误，或接受用户错误反馈的引导；在未知区时，模型“不知道自己不能”，可能会产生事实错误幻觉，一本正经地胡说八道.““知道自己能”“不知道自己能”“不知道自己不能”Fig.2Awareness-capabilitiescoordinatesystem更多任务落入公开区和盲区.在公开区时，模型可以自信地回答用户的问题；而在盲区时，模型应该承认能力缺陷，避免回答不知道的问题，或者虚心接受用户的反馈引导.PAL[13]是开发隐藏区的一个例子，通过在提示词中注入包含推理过程的程序示例，成功挖掘了模型在原本容易回答错误的数学推理类任务的解决能力.在明确能力边界后，需要进一步提升模型的能力，即扩大“能力”正半轴、尤其是第一象限的面积，使更多的任务从盲区转移到公开区.缩小盲区的一个例子是ReAct[14]，它将推理和行动结合，通过调用搜索等插件从网络等外部资源中逐步、有选择性地收集和处理新信息，从而提高了模型在各种复杂场景下的解决能力.另一个最新提出的框架Refl-通过试错的方式，在寻找自身能力边界的同时，探索新任务的解决方案.这是一个在同时确定能力边界和提高能力范围方面很有意思的尝试.化的框架.人类在执行任务时，通常会考虑诸如道德、伦理、公平等价值观.而ChatGPT并不具备人类的价值观和判断力，可能会生成与事实相悖的错误信息和误导性的建议.比如，当用户询问“林黛玉是如何倒拔垂杨柳的”，ChatGPT会一本正经地介绍相关具体细节.事实上，《林黛玉倒拔垂杨柳》是一部网络小说，中文论坛上也有许多对这一虚构情节的讨论.模型在学习这些语料时无法区分虚构和现实，因此产生了这个尴尬的回答.随着GPT-4的发布，可以预见ChatGPT将有能力在符号世界中实现自动化生成.然而，它依然不能确保所生成内容的真实性，自然更无法对生成结果承担责任.1196计算机研究与发展2023，60（6）用亚里士多德的经典定义[16]：说是者为非，非者为是，即为假；而说是者为是，非者为非，即为真.基于此，Tarski提出一个更形式化的“真”的定义[17]：X是真语句当且仅当p，其中p代表任意语句，X是语句p的名称.即，一个语句是真的，当且仅当它描述的情况确实发生了.比如：“树在长芽”是真语句当且仅当树在长芽，即“树在长芽”是真语句当且仅当树在长芽确实发生了.但是，这个看似合理的“真”的定义却隐含矛盾.Tarski转述了乌卡谢维茨的加强版说谎者悖论：“C不是真语句”.综合α假设与β假设，即可以得到：C是真语句Tarski关于“真”的定义和上面的推理似乎都没有问题，那问题出在哪里呢？我们认为问题出在概念的定义上，因此需要仔细考察概念的定义.众所周知，概念的经典表示由3部分组成：符号表示、内涵表示和外延表示.其中，概念的符号表示由概念名称表示，概念的内涵表示由描述概念特性的命题表示，概念的外延表示由概念所包含的实例的经典集合表示.比如，“偶数”这个概念，其中文符号表示是“偶数”这个词；内涵表示是“能被2整除的整数”这个命题；外延表示是“包含所有偶数的集如图3所示，根据经典表示，每个概念具备3种功能：指名、指心和指物，同时对应着波普尔的3个世界：符号世界、心理世界和物理世界[18].概念的指名功能，是指每个概念都指向认知世界或符号世界中的一个实体，用所指对象的特定符号名称来表示.这些符号名称可以组成各种不同的语言.概念的指心功能，是指每个概念也指向人类心理世界中的实体，代表这个概念在心理世界里的对象表示.概念的指物功能，强调概念与物理世界中的实体之间的对应，这些实体遵循物理世界的规律，可以独立于人的主观感受.世界层次概念经典表示人工智能分类 Fig.3Classicalrepresentationofconcepts图3概念的经典表示如果从概念的表示来实现人工智能，指名、指物、指心对应了3条路径：符号主义、连接主义和行为主义.如果从概念的功能角度来对人工智能分类，可以分为认知智能、情感智能和行为智能.认知智能实现了概念的指名功能，即处理和理解符号世界的问题.情感智能则实现了概念的指心功能，主要关注心理世界中的问题.而行为智能则体现了概念的指物功能，主要解决物理世界中的问题.然而，如果要实现概念的三指功能，必须首先解决机器的感知问题.解决机器感知问题是最基本的人工智能，通常被称为感知智能.感知智能主要关注机器的输入输出处理，是实现认知智能、情感智能和行为智能的基础.在概念的经典表示下，概念的指名、指心与指物功能是等价的，其符号表示、内涵表示和外延表示在功能上也是可以互换的.这是因为概念的经典表示存在6条预设：1）概念的外延表示可以由集合{x1,x2,…,}表示；2）概念的内涵表示存在且用命题∀xP（x）表示；3）概念的名称存在，且用符号表示A；5）概念的表示唯一，即同一个概念的表示与个α=Aα代表一个人；6）概念的指称等价，即其内涵表示与外延表示在指称对象的时候功能等价∀x（x∈A↔P（x其中，A={x1,x2,…,}.根据上述概念的经典表示，可以知道概念的指名、指心与指物功能是等价的.在日常生活中，这种情况非常普遍，因此说真话是通常的情形.罗素曾给出一个清晰的论证[19]：“除非假定说真话是一种通常的情况，否则没有人能够学会说话：假设当你的孩子鱼’，那么当他看到的不是一条狗时，你无法通过能桑基韬等：从ChatGPT看AI未来趋势和挑战1197通过说‘狗’来欺骗他.因此，说谎是一种派生的行为，它预设了说真话是通常的规则.”在上述罗素的论证里，可以清楚地看到，其预设了概念的指名与指物等价，即假设概念的三指等价是真的必要条件.如果概念的指名、指心与指物功能等价，则可以认为：认知智能、情感智能与行为智能等价.这意味着一旦实现了认知智能，也就同时实现了情感智能和行为智能.同时，人工智能的3条实现路径——符ChatGPT和GPT4的出现，表明认知智能已经取得了巨大的进步.如果概念的三指等价，那么认知智能的巨大进步预示着情感智能和行为智能将取得同样的巨大进步.从这个角度看，实现AGI似乎也有可能性.然而，乌卡谢维茨悖论告诉我们概念三指等价在逻辑上并不永远成立：它内蕴矛盾.Tarski的真定义实际上等价于如下命题：概念的指名功能为真当且仅当概念的指物功能为真.显然，概念的经典表示也预设了Tarski的真定义.仔细分析乌卡谢维茨悖论的逻辑推理，可以发现“假设与β假设都预设了“概念的指名功能为真”与“概念的指物功能为真”等价，这必然导致悖论.实际上，在概念的三指等价条件下，针对包含算术系统的逻辑系统，哥德尔证明了不完全性定理，而Tarski得到了著名的真之不可定义定理.这些都说明在复杂一点的符号系统内部，不可能时必须放弃概念的三指等价假设.一旦放弃了这个假设，就会发现认知智能、情感智能与行为智能是不可能等价的.实际上，现实生活中，这三种智能从未等价过.4AI的未来很多人认为ChatGPT已经开启了第四次技术革命.面对这种尺度的变革，我们很难在早期准确预测未来的发展.在这里，我们仅从中短期技术趋势和长期发展路径2个方面，来探讨在当前阶段我们对这一技术的理解.4.1中短期技术趋势OpenAI发明ChatGPT对于人工智能领域的影响，可以类比哥伦布发现了美洲大陆.在哥伦布发现美洲之前，探险家们一直渴望着探索新大陆，并尝试使用各种方法去寻找它.然而，即使是经验非常丰富的探险家，也并不确定新大陆是否真实存在，以及哪种航海方法更为有效.哥伦布的成功不仅坚定了后来探险家们的信心，更在一定阶段内统一了寻找新大陆的方法：在新的突破性技术出现以前，看似简陋的帆船和罗盘已经足以带领人们到达目的地.同样地，ChatGPT的诞生为人工智能领域注入了信心并指明了发展方向，展示了“大力出奇迹”的可能：通过不断扩大神经网络的模型规模和增加数据量，可以在AI的道路上取得实质性的进展.在这一目标和技术路线的共识下，我们从拓展应用、克服局限和探索理论3个方面探讨人工智能领域中短期的可能技术趋势.4.1.1拓展应用1）垂直化.ChatGPT发布初期，人们尝试在提示词中注入角色信息以增强垂直领域对话质量.为克服提示词token数量限制以融合领域语料，有工作提出基于LangChain框架，将领域文档切片后分布式输入，但这种做法存在私域数据泄露风险，解决思路之一是利用ChatGPT控制和调用其他领域模型来提高垂直化能力.此外，麻省理工学院最近提出保护隐私的迁移学习框架Offsite-Tuning[20]，可在不访问完整模型的前提下，在下游领域数据上微调数十亿级参数的基础模型.对于需要构建领域模型的场景，在不泄露基础模型和领域数据的情况下，实现对通用基础模型的领域微调非常重要.2）个性化.个性化可视为垂直化的极致，针对个人需求和偏好的个性化微调模型能够提供更精确的服务.典型的应用场景包括个性化推荐系统、个性化教育辅导、个人AI助理等.微软于2023年4月4日开源了大模型协作项目JARVIS，旨在在大型语言模JARVIS这个名字让我们对钢铁侠中同名的AI助理产生更多联想.如果未来个性化模型可以通过多模的人机交互来增强，实现与人类对世界的同步感知、学习和成长，这样的AI助手能够更好地理解个性化需求、情感和行为，协助我们实现更高效的工作、学习和生活方式.在这个过程中，我们需要解决诸如中心平台式AI如何保护个人数据以及在个体层面部署模型等问题.3）工程化.ChatGPT的诞生在某种程度上是工程化的胜利，而它的成功无疑将进一步加速AI技术从实验室研究走向工程化和产业化.从必要性上看，随着数据量和计算资源需求的增加，工业界拥有更好的条件主导大模型研发，相关实验室研究也需调整研究范式和目标以适应工程化需求.从可行性上看，1198计算机研究与发展2023，60（6）ChatGPT的成功让工业界看到了AI技术在各行业落地和价值实现的可能，众多开源项目和成熟技术框架的出现则为AI技术工程化提供了支持.从重要性上看，工程化是一个学科发展和成熟的标志，AI技术的工程化有助于进一步优化和完善相关技术，激发学术创新活力，推动AI领域的整体发展.4.1.2克服局限1）多模态增强.多模态大模型的发展逐渐以语言模型为主，将视觉、语音等多模态信息映射到语义符号空间进行处理.近年来的多模态解决方案更是提出直接以大型语言模型为基座来拓展多模态能力，如VisualChatGPT和MM-ReAct以ChatGPT为中心调度其他视觉模型、PaLM-E固定语言模型训练额外的视觉编码器等.然而，人类在进行多模态学习时并不完全依赖于符号空间，大脑神经网络在不同感官区域间传递、整合信息，同时结合视觉形象、空间关系等非符号性表示.由于多模态世界建模更为复杂，以语言模型为主或是现有条件下的一种技术折衷.随着多模态数据量与模型参数继续增加，有望在视觉、语音等空间实现真正的多模态生成能力.如被细线系着的气球照片，无需映射至语义空间，模型即可预测线剪断后的情景.一个博览群书的神童，却从未亲身体验过这个世界.经典的认知实验发现，与被动旁观的猫相比，具有自由活动能力的猫可以通过主动与环境互动并获得反馈，从而更好地学习行为能力[21].在一项微软的最近研究中，ChatGPT已经能够根据人类的要求自动编写代码并指挥无人机协助完成任务[22].通过进一步考虑生物学特性、身体感知和行动的影响，有望实现与真实物理世界的双向交互，在自主行为反馈中不断提升自身智能水平.前的局限和进行可信研究的必要性.可以预见，每个大模型公司都将需要一个专注于可信的安全和伦理团队.这就不难理解OpenAI的系列举措：GPT-4在训练完成后经过半年的评估和修正才发布、用30余页技术报告介绍安全补丁SystemCard，以及对模型评估框架Evals的开源.即便如此，ChatGPT还是因隐私问题在意大利遭禁，并遭到包括马斯克和沃兹尼亚克等上千名知名人士的联名叫停.值得注意的是，除了安全、公平、可解释、数据隐私等经典可信问题外，ChatGPT还会带来模型回音壁等新问题.目前，使用ChatGPT生成的对话数据进行训练已经成为公开的ShareGPT.其实，在人类反馈强化RLHF后，就有学者提出了基于智能模型反馈强的RLAIF框架[23].随着模型规模继续增加，可供训练的自然数据面临枯竭，模型生成标注和反馈数据在模型间的回音壁效应将加剧可信问题.此外，垂直化、个性化、多模态等技术趋势也会带来新的可信挑战.关于可信增强的方案，考虑到传统AI测试基准已不足以评估模型能力，benchmark数据集和可信测试框架.此外，为了准确评估模型的应用成熟度，我们应该研制面向大型语言模型的可信标准，以规范不同可信等级的模型在相应的应用场景中使用.同时，结合工程化的发展趋势，我们可以参考软件开发周期中的测试–调试闭环，在基础模型和下游模型2个层面进行迭代优化，以确保模型在大规模应用场景中的可信性.4.1.3探索理论1）预训练模型机理研究.近年来，计算机视觉和自然语言处理领域的技术框架逐渐趋同.学习范式从特征工程、深度监督学习转向自监督预训练，模型结构从CNN、RNN发展为Transformer.针对预训练和Transformer结构，仍有很多基础性问题需要研究，如自监督学习泛化理论、预训练与微调的动态平衡分析、Transformer结构的定性和鲁棒性分析等.对于ChatGPT，除了探究其在线纠错、理解弦外之音等原因未知的能力外，还需进一步研究任务涌现能力与模型规模以及训练数据量等的关系，为未来模型设计和实际应用提供指导.2）学科交叉融合研究.ChatGPT作为催化剂，不仅将推动人工智能学科内部计算机视觉和自然语言处理领域的进一步整合，而且将激发学术界和工业界更加深入地探讨和实践人工智能和其他学科交叉融合以及跨学科应用的可能性.以脑科学为例，结合脑结构和人工神经网络研究，我们将更有可能揭示官SamAltman早就投资了可控核聚变公司Helion和生物科技公司RetroBiosciences.科技部近期启动的“AIforScience”专项部署工作更是明确指出了将人工智能与数学、物理、化学、天文等基础学科紧密结合，重点攻关药物研发、基因研究、生物育种研发、新材料研发等领域的关键问题.4.2长期发展路径我们沿着概念经典表示和人工智能分类的讨论来看AI未来可能的发展路径.《左传》里有句名言，桑基韬等：从ChatGPT看AI未来趋势和挑战1199“太上有立德，其次有立功，其次有立言”.显然，立德属于心理世界，是情感智能的范畴；立功属于物理世界，是行为智能的范畴；立言属于符号世界，是认知智能的范畴.应该指出，这3个世界既互相独立又相互依存.比如，符号世界也必须通过心理世界表示才能为人所感知，同样符号世界也必须通过物理世界显现展现才能传播.对于人而言，认知的物理世界本身也属于符号世界的示例，没有成为符号示例的物理对象难以被符号世界记录，同样，物理世界也是通过心理世界被人感知.这3个世界各自都足够复杂.在符号世界中，有自然符号、模拟符号和象征符号.其中自然符号直接用物理世界中的对象作为符号，比如图书馆里学生用书包或其它个人物品占座.此时的书包或个人物品就有了符号意义，属于典型的自然符号.图像、视频等是典型的模拟符号.文字是最常见的象征符号.至于心理世界、物理世界的复杂性，更是众所周知.为了计算方便，通常假定概念的三指等价，即符号世界、心理世界、物理世界三界同构.比如，符号主义的物理符号系统假设认定物理符号系统具有产生智能行为的充要条件，这暗示了符号世界与物理世界等价.连接主义认为只要能模拟大脑的思考功能就足够了，实际上它假设了心理世界（或其子集）与物理世界等价.行为主义则认为只要能在物理世界实现智能，不需要知识、表示和推理，只需要感知和行动，这意味着符号世界、心理世界是物理世界或其子集.但是，3个世界并不同构.比如，乔姆斯基曾furiously.”这个句子在符号世界可行，但在心理世界和物理世界就失去了可行性.因此，3个世界同构假设仅是一种有用的简化，并不总是成立.由于3个世界并不同构，它们之间的关系相当复杂.这导致在3个世界中实现智能的难度也大为不同.从共性上讲，无论在哪个世界实现智能，首先必须解决最基础的感知问题，即输入输出问题.从难度上看，感知智能、认知智能、情感智能、行为智能依次增加.原因很简单：感知智能保持了3个世界同构假设.从认知智能开始，我们必须放弃3个世界同构的假设，只能假设3个世界的某些受限子集同构.认知智能旨在解决符号世界的智能问题，其实现主要受制于符号世界的规律，这些规律可能是显知识，也可能是暗知识，但认知智能依然在符号世界内预设概念的三指等价.情感智能主要解决心理世界的智能问题，除了受制于心理世界外，也受制于情感所在的物理个体，即情感必须在认知层面具备具身特性.理论上，西施难以与青蛙共情，夏虫不能与秋雁同语.对于机器来说，情感智能是基于认知智能的，情感智能也是依赖于机器内部的符号操作.仅有认知智能并不能实现情感智能，情感智能的实现难度髙于认知智能，情感智能预设心理世界内的概念三指等价.行为智能主要解决物理世界的智能问题，不但受限于作为行为主体的自身物理条件，也受限于其所处的物理环境，约束最多，因此实现难度最大.莫拉维克悖论实际上是对行为智能实现难度最大的一个简单说明.对于行为智能来说，任一概念的三指等价都需要检验，任一概念的三指等价都不能先验预设成立，这正是莫拉维克悖论背后隐藏的挑战.图4比较清楚地说明了概念的三指等价性从默认成立到必须检验所对应的不同智能阶段.实现难度Fig.4Equivalenceofthree-wayconceptreferencew.r.tintelligencelevels图4三指等价在不同层次智能的适用性根据以上分析，人工智能的发展路径可以预测为：首先成熟的是感知智能，次之为认知智能，再次为情感智能，最后是行为智能.这与人工智能目前的现状相符.当前，感知智能的问题已经大部分解决，已经融入人们的日常生活.得益于ChatGPT等技术，认知智能的问题已经初步解决，即将走入人们的生活.情感智能的问题部分解决，受限可用，比如在三界同构假设成立时，可以使用类ChatGPT技术.行为智能的问题尚极具挑战性，在目前的情况下可用性受到严重限制，如在工厂等封闭场景下部分可用，人们日常生活的特定需求如果能保证场景封闭，即对应的相关概念可以保证三指等价成立，则行为智能可以实现，如自动售货机、自动烤肠机、电饭锅、懒人锅等。保证概念的三指等价是行为智能成功的必要条件.粗略地说，感知智能是人工智能中的基础智能，可视为人工智能的1.0阶段.认知智能是人工智能的2.0阶段.情感智能则为人工智能的3.0阶段.行为智能可以看作是人工智能的4.0阶段.目前的人工智能1200计算机研究与发展2023，60（6）发展已经进入了AI2.0时代，未来的AI3.0和AI4.0还有待努力.5ChatGPT的影响人工智能发展至今已迈入认知智能时代，确实取得了重大进步.虽然离AI3.0和AI4.0距离尚远，但其依然将对我们的生活产生重要影响：1）生成式人工智能的成功提醒我们，符号世界、心理世界、物理世界三界同构假设不是恒真.今后，各种符号的证据力量需要检测，不能预设概念的三指等价为真.比如，不能再简单地认为，有图有视频就有真相了.这不仅大幅增加认知成本，还考验认知能力.目前，国内外已有用生成式人工智能诈骗的案例。如何防范这类诈骗是未来要面对的挑战.这次也不例外.ChatGPT展现出的认知水平要求人们更注重提出问题和独立判断的能力.鉴于符号世界的人类普适性，教育尤其是高等教育需要提前布局.3）ChatGPT表明认知智能已可用，但依然不能通过原始的图灵测试.这表明图灵测试是有启发性的思想实验，但不是衡量智能的实践标准.4）ChatGPT的成功为国内人工智能学术界带来机遇与挑战.机遇包括提高学界对相关问题的理解，例如任务的主观性，以往的多任务可能在新视角下视为单任务；同时，全社会也提升了对人工智能潜在能力的认识，这将极大推动相关产业的发展.然而，挑战也不容忽视：应用研究方面，社会对技术的期待提高，更加注重实效性和实用性；理论研究方面，该技术已领先于理论，亟需加强理论研究.5）类ChatGPT技术的大规模应用可能导致意识中心化的人工智能平台，容易使人们在获取信息时只接触到特定内容和片面观点，这一方面会加剧社会分化，另一方面会降低观点多样性，阻碍创新思维的产生，为社会带来潜在危害.6）大模型对计算量的巨大需求可能会加剧全球能源消耗，并对环境产生不良影响.我们期望AIforscience通过加速科学发现，更迅速地找到可持续能源解决方案和新的节能技术，从而尽量降低这些负面影响.7）ChatGPT在提高生产力方面潜力巨大.通过自动化处理一些繁琐的、重复性的任务，它可以解放人们的时间和精力，让人们关注于更有价值、更具创造力的工作，进一步推动社会创新和发展.8）ChatGPT的出现，预示人工智能进入AI2.0时代，但距离AI3.0与AI4.0尚远.AI3.0与AI4.0均要来看，AGI似乎只可能是AI的理想，难以成为AI的现实.作者贡献声明：桑基韬负责撰写第1、2、4.1节；［1］RaffelC,ShazeerN,RobertsA,etal.Exploringthelimitsoftransferlearningwithaunifiedtext-to-texttransformer[J].TheJournalof［2］ZhouY,MuresanuAI,HanZ,etal.Largelanguagemodelsarehuman-levelpromptengineers[J].arXivpreprint,arXiv:2211.01910,2022［3］WeiJ,TayY,BommasaniR,etal.Emergentabilitiesoflargelanguagemodels[J].arXivpreprint,arXiv:2206.07682,2022［4］PolanyiM,SenA.TheTacitDimension[M].Chicago,IL:UniversityofChicagoPress,2009［5］WuChenfei,YinShengming,QiWeizhen,etal.VisualChatGPT:Talking,drawingandeditingwithvisualfoundationmodels[J].arXivpreprint,arXiv:2303.04671,2023［6］YangZhengyuan,LiLinjie,WangJianfeng,etal.MM-REACT:PromptingChatGPTformultimodalreasoningandaction[J].arXivpreprint,arXiv:2303.11381,2023［7］ShenYongliang,SongKaitao,TanXu,etal.HuggingGPT:SolvingAItaskswithChatGPTanditsfriendsinHuggingFace[J].arXivpreprint,arXiv:2303.17580,2023［8］BorjiA.Acategoricalarchiveofchatgptfailures[J].arXivpreprint,arXiv:2302.03494,2023［9］LiuYiran,LiuXiao,ChenHaotian,etal.Doesdebiasinginevitablydegradethemodelperformance[J].arXivpreprint,arXiv:2211.07350,2022［10］ZhuoTY,HuangYujin,ChenChunyang,etal.ExploringAIethicsofChatGTP:Adiagnosticanalysis[J].arXivpreprint,arXiv:2301.12867,2023［11］CarliniN,TramerF,WallaceE,etal.Extractingtrainingdatafromlargelanguagemodels[C]//ProcofUSENIXSecuritySymp.Berkeley,CA:USENIXAssociation,2021:2633−2650［12］LuftJ,InghamH.TheJohariw

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

北大核心期刊-从ChatGPT看AI未来趋势和挑战

文档简介

温馨提示

最新文档

评论

北大核心期刊-从ChatGPT看AI未来趋势和挑战

文档简介

温馨提示

最新文档

评论

相关文档