版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2版人工智能通识教程第12章周苏教授QQ:81505050GPT——大语言模型崛起导读案例:2023国内大模型汇总大模型领域在国内外都取得了显著的成就,各个国家和地区的企业、机构以及学术界都在积极投入资源和努力,推动大模型技术的发展。01自然语言处理的进步02科普AI大语言模型03ChatGPT的模仿秀04传统行业的下岗目录/CONTENTS自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。基于句法分析和语义分析的自然语言处理系统已经在许多任务上获得了成功,但是它们的性能受到实际文本中极度复杂的语言现象的限制。由于存在大量机器可读形式的可用文本,因此,可以考虑基于数据驱动的机器学习方法应用于自然语言处理。第12章GPT——大语言模型崛起PART01自然语言处理的进步在2012年的ImageNet(图12-2)比赛中,深度学习系统取得的令人惊叹的优秀表现带动计算机视觉出现了一个发展的转折点。而到2018年,自然语言处理也出现了一个转折点,它的主要推动力是,深度学习和迁移学习显著提高了自然语言处理的技术水平:可以下载通用语言模型,并针对特定任务进行微调,以至于研究者为此断言“自然语言处理的ImageNet时刻已经到来”。12.1自然语言处理的进步
图12-2ImageNet是一种数据集12.1自然语言处理的进步ImageNet是斯坦福大学教授李飞飞为了解决机器学习中过拟合和泛化的问题而牵头构建的一种数据集。该数据集从2007年开始建立,2009年作为论文的形式在CVPR2009上发布。直到目前,该数据集仍然是深度学习领域中图像分类、检测、定位的最常用数据集之一。基于ImageNet有一个比赛,称为ILSVRC(ImageNet大规模视觉识别挑战赛),从2010年开始举行,到2017年最后一届结束,每年举办一次,每次从ImageNet数据集中抽取部分样本作为比赛的数据集。12.1.1关于ImageNetILSVRC比赛包括:图像分类、目标定位、目标检测、视频目标检测、场景分类。在该比赛的历年优胜者中,诞生了AlexNet(2012)、VGG(2014)、GoogLeNet(2014)、ResNet(2015)等著名的深度学习网络模型。“ILSVRC”一词有时也被用来特指该比赛使用的数据集,即ImageNet的一个子集,其中最常用的是2012年的数据集,记为ILSVRC2012。因此,有时候提到ImageNet,很可能是指ImageNet中的ILSVRC2012子集。ILSVRC2012数据集拥有1000个分类(这意味着面向ImageNet图片识别的神经网络的输出是1000个),每个分类约有1000张图片。12.1.1关于ImageNet这些用于训练的图片总数约为120万张,此外还有一些图片作为验证集和测试集。ILSVRC2012含有5万张图片作为验证集,10万张图片作为测试集。测试集没有标签,验证集的标签在另外的文档给出。ImageNet本身有1400多万张图片,2万多的分类。其中有超过100万张图片有明确类别标注和物体位置标注。对于基于ImageNet的图像识别的结果评估,往往用到两个准确率的指标,一个是top-1准确率,一个是top-5准确率。top-1准确率指的是输出概率中最大的那一个对应正确类别的概率;top-5准确率指的是输出概率中最大的5个对应类别中包含正确类别的概率。12.1.1关于ImageNet自然语言处理的ImageNet转折点始于2013年word2vec和2014年GloVe等系统生成的简单词嵌入。研究人员可以下载这样的模型,或者在不使用超级计算机的情况下,相对快速地训练他们自己的模型。另外,预训练上下文表示的开销要高出几个量级。12.1.2自然语言处理的ImageNet时刻只有在硬件(GPU图形处理器和TPU谷歌张量处理单元)进步普及之后,这些模型才是可行的,在这种情况下,研究人员能够直接下载模型,而不需要花费资源训练自己的模型。Transformer模型(谷歌云TPU推荐的参考模型)允许使用者高效地训练比之前更大更深的神经网络(这一次是因为软件的进步,而不是硬件的进步)。自2018年以来,新的自然语言处理项目通常从一个预先训练好的Transformer模型开始。12.1.2自然语言处理的ImageNet时刻虽然这些Transformer模型被训练用来预测文本中的下一个单词,但它们在其他语言任务中的表现也出奇地好。经过一些微调后,RoBERTa模型在问答和阅读理解测试中取得了最高水平的成绩。GPT-2是一种类似于Transformer的语言模型,它有15亿个参数,在40GB的因特网文本上训练。它在法英翻译、查找远距离依赖的指代对象以及一般知识问答等任务中都取得了良好的成绩,并且所有这些成绩都没有针对特定任务进行微调。例如在仅给定几个单词作为提示时,GPT-2依然可以生成相当令人信服的文本。12.1.2自然语言处理的ImageNet时刻作为一个高水平的自然语言处理系统示例,Aristo在八年级科学选择题考试中获得了91.6%的分数。Aristo由一系列求解器组成:一些使用信息检索(类似于一个网络搜索引擎),一些使用文本蕴涵和定性推理,还有一些使用大规模Transformer语言模型。结果表明,RoBERTa的测试成绩是88.2%。Aristo在12年级考试中也取得了83%的成绩(65%表示“达到标准”,85%表示“出色地达到标准”)。Aristo也有其局限性。它只能处理选择题,不能处理论述题,而且它既不能阅读也不能生成图表。12.1.2自然语言处理的ImageNet时刻使用更多的训练数据可以得到更好的模型,例如,RoBERTa在训练了2.2万亿个单词后获得了最高水平的成绩,如果使用更多的文本数据会更好。那么,如果进一步使用其他类型的数据——结构化数据库、数值数据、图像和视频会怎么样呢?当然,需要在硬件处理速度上取得突破,才能对大量视频进行训练,此外,可能还需要在人工智能方面取得一些突破。12.1.2自然语言处理的ImageNet时刻读者可能会问:“为什么我们学习了文法、句法分析和语义解释,现在却舍弃了这些概念,转而使用纯粹的数据驱动模型?”答案很简单,数据驱动的模型更容易开发和维护,并且在标准的基准测试中得分更高。可能是Transformer及其相关模型学习到了潜在的表征,这些表征捕捉到与语法和语义信息相同的基本思想,也可能是在这些大模型中发生了完全不同的事情。但我们只知道,使用文本数据训练的系统比依赖手工创建特征的系统更容易维护,更容易适应新的领域和新的自然语言。12.1.2自然语言处理的ImageNet时刻未来在显式语法语义建模方面的突破也有可能会导致研究的重点回摆。更有可能出现的是混合方法。例如,基塔夫和克菜因使用注意力机制改进了传统的成分句法分析器,从而获得了PennTreebank(宾夕法尼亚树银行)测试集记录的最佳结果。类似地,林高等人演示了如何通过词嵌入和循环神经网络改进依存句法分析器。他们的系统SLING直接解析为一个语义框架表示,缓解了传统管道系统中错误累积的问题。12.1.2自然语言处理的ImageNet时刻当然还有改进的空间。自然语言处理系统不仅在许多任务上仍然落后于人类,而且在处理了人类一辈子都无法阅读的数千倍的文本之后,它们仍然落后于人类。这表明,语言学家、心理学家和自然语言处理研究人员要研究的东西还有很多。12.1.2自然语言处理的ImageNet时刻GPT(GenerativePre-trainedTransformer,衍生式预训练变压器)是一种基于互联网可用数据训练的文本生成深度学习模型,它主要用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。12.1.3从GPT-1到GPT-32018年GPT-1诞生,这一年也是NLP(自然语言处理)的预训练模型元年。在性能方面,GPT-1有一定的泛化能力,能够用于和监督任务无关的NLP任务中。其常用任务包括:·自然语言推理:判断两个句子的关系(包含、矛盾、中立)·问答与常识推理:输入文章及若干答案,输出答案的准确率·语义相似度识别:判断两个句子语义是否相关·分类:判断输入文本是指定的哪个类别12.1.3从GPT-1到GPT-3虽然GPT-1在未经调试的任务上有一些效果,但其泛化能力远低于经过微调的有监督任务,因此,它只能算得上是一个还不错的语言理解工具而非对话式AI。12.1.3从GPT-1到GPT-3GPT-2于2019年如期而至,不过它并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计48层,参数量达15亿,学习目标则使用无监督预训练模型来完成有监督任务。在性能方面,除了理解能力外,GPT-2在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演等,通通不在话下。在“变得更大”之后,GPT-2的确展现出了普适而强大的能力,并在多个特定的语言建模任务上实现了彼时的最佳性能。12.1.3从GPT-1到GPT-3之后,GPT-3出现了,作为一个无监督模型(现在经常被称为自监督模型),它几乎可以完成自然语言处理的绝大部分任务,例如面向问题搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。而且,该模型在诸多任务上表现卓越,例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平,自动产生的文章几乎让人无法辨别是出自人还是机器(52%的正确率,与随机猜测相当),更令人惊讶的,是在两位数的加减运算任务上达到几乎100%的正确率,甚至还可以依据任务描述自动生成代码。12.1.3从GPT-1到GPT-3一个无监督模型功能多效果好,似乎让人们看到了通用人工智能的希望,可能这就是GPT-3影响如此之大的主要原因。12.1.3从GPT-1到GPT-3ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。ChatGPT使用了Transformer神经网络架构,也是GPT-3.5架构的主力模型,这是一种用于处理序列数据,优化对话的语言模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与人类几乎无异的聊天场景进行交流。12.1.4ChatGPT聊天机器人模型与对策ChatGPT不单是聊天机器人,它还能够通过学习和理解人类的语言来进行对话,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务,同时也引起无数网友沉迷与ChatGPT聊天,成为大家讨论的火爆话题。12.1.4ChatGPT聊天机器人模型与对策ChatGPT是一个免费程序,它具有同类产品具备的一些特性,例如对话能力,能够在同一个会话期间内回答上下文相关的后续问题。然而,在短时间内引爆全球的原因还在于,在网友们晒出的截图中,ChatGPT不仅能流畅地与用户对话,甚至可根据提示生成几乎任何主题的原始文本,包括文章、论文、笑话、编码甚至诗歌。。由于ChatGPT太“聪明”,无数网友与它聊天,有人让它帮忙改作业,有人让它扮演虚拟女友、有人让它编写请假理由、有人用它来补习外语,更有人让ChatGPT陪自己演戏。无论是生成小说、疑难解答或者是哲学的问题,ChatGPT都交上几乎完美的答案,令人惊叹不已。12.1.4ChatGPT聊天机器人模型与对策ChatGPT采用了注重道德水平的训练方式,按照预先设计的道德准则,对不怀好意的提问和请求“说不”。一旦发现用户给出的文字提示里面含有恶意,包括但不限于暴力、歧视、犯罪等意图,都会拒绝提供有效答案。不过,ChatGPT的强大功能引起学术界的担忧。顶级科学杂志《自然》宣布,将人工智能工具列为作者的论文不能在该杂志上发表。2023年1月27日巴黎政治大学宣布,该校已向所有学生和教师发送电子邮件,要求禁止使用ChatGPT等一切基于AI的工具,旨在防止学术欺诈和剽窃。12.1.4ChatGPT聊天机器人模型与对策2023年初,谷歌发布了从文本生成高保真音乐的AI模型MusicLM的研究,该系统可以从文本描述中生成任何类型的高保真音乐。但因担心风险,谷歌并没有立即发布该产品。“我们强调,需要在未来开展更多工作,来应对这些与音乐生成相关的风险——目前没有发布模型的计划。”谷歌发布的论文写道。12.1.5从文本生成音乐的MusicLM模型据了解,谷歌自己的AudioML和人工智能研究机构OpenAI的Jukebox等项目都可以从文字生成音乐。然而,MusicLM模型和庞大的训练数据库(280000小时的音乐)使其能制作出特别复杂或保真度特别高的歌曲。MusicLM不仅可以结合流派和乐器,还可以使用计算机通常难以掌握的抽象概念来编写曲目。比如“一种舞曲和雷鬼音乐的混合体,其曲调空旷、超凡脱俗,能唤起惊奇和敬畏之感”,MusicLM就可以实现。12.1.5从文本生成音乐的MusicLM模型谷歌研究人员表明,该系统可以建立在现有旋律的基础上,无论是哼唱、演唱、吹口哨还是在乐器基础上演奏。此外,MusicLM有一个“故事模式”来编程特定时间的风格、氛围和节奏的转变,比如可以采用几个按顺序编写的描述“冥想时间”“醒来时间”“跑步时间”来创建一种“故事”叙事旋律。12.1.5从文本生成音乐的MusicLM模型ChatGPT以其强大的信息整合和对话能力惊艳了全球,一项调查显示,美国89%的大学生都是用ChatGPT做作业,学生们已经在用ChatGPT肆无忌惮地作弊了。于是,纽约的教育系统试图全面封杀ChatGPT,老师们防ChatGPT如洪水猛兽,却还是屡禁不止。很多教授在担心,AI聊天机器人会对教育产生灾难性影响,会让学生的大脑“萎缩”。12.1.6检测AI文本的DetectGPT算法当然,有攻就有防,斯坦福大学的研究团队就提出了一种用于检测AI生成文本的全新算法——DetectGPT。这个算法可以用于判断文本是否是机器生成,并且不需要训练人工智能或收集大型数据集来比较文本。研究团队声称新算法检测的准确性能有了实质性的提高,并表明该技术可对未来越来越普遍的人工智能写作论文事件起到很好的反制作用。虽然ChatGPT引发了学术诚信的风暴,但也有不少专家认为,这项技术只是一个新学习时代的开始,AI写作工具是学习的未来。12.1.6检测AI文本的DetectGPT算法PART02科普AI大语言模型人工智能大语言模型(AI-LLM)已经引起社会各界关注。从知识中来,大模型的能力来源于人类的庞大知识库;到知识中去,大模型也将重新塑造人类知识应用、创造和转化的模式,在经济社会发展中产生巨大价值。12.2科普AI大语言模型大模型拥有丰富的各学科知识,并表现出一定的逻辑能力,这是因为科学家利用海量的人类语言数据和大规模的GPU(图形处理器)算力,对大模型进行了预训练,为其精心挑选的预训练知识数据量达到13万亿“字”,相当于500万套四大名著的规模;而通过训练提取的“知识片段”,即模型的参数,有1.8万亿个。无论训练量和参数量都远超以往人工智能模型的规模,这也是人工智能大语言模型这个名字的由来。12.2科普AI大语言模型这种利用庞大语料库对人类知识进行建模的方式,可理解为对现实世界的一种“模糊压缩”。通过训练好的大模型来解答问题,相当于对世界的“模糊还原”。“模糊”可能导致问题解答不准确,但也因为模糊,大模型可以解答原有知识解答不了的新问题。12.2科普AI大语言模型“压缩”和“还原”的过程中,大模型都在反复预测文本中可能出现的下一个字。它用这样的方式来理解人类语言和知识的规律,并在遇到问题时,利用模型学到的规律,一个字一个字地生成连贯而有意义的内容。由于使用自然语言(而非程序语言)与人类进行交互,大模型可以灵活地接收并完成人类下达的各种知识型任务,这就打开了大模型跨学科跨行业应用的广阔空间。大模型具有强大的应用前景。12.2科普AI大语言模型利用训练中积累的知识,辅以专业领域的知识库和流程逻辑,大模型可以充当行业专家的人工智能助手,甚至直接为客户提供一对一的知识服务。例如,面向乡村教师的人工智能助教,可以帮助教师进行课程设计和作业辅导,显著提高乡村教育质量。通过一对一的知识定制应用,大模型能大大降低专业服务的交付成本,打破以往服务个性化和普惠化之间的矛盾,让更多人享受到教育、医疗和法律等领域既个性化又普惠的专业服务。12.2科普AI大语言模型大模型还能通过知识的跨界关联,推动人类新知识的发现和创造。20世纪80年代,科研人员开始通过计算机技术分析科学文献,寻找新的关联协作机会点,比如利用这一方法发现鱼油跟雷诺氏综合征的关联性,据此提出的疗效假设得到了验证。在跨学科研究成为大势所趋的今天,化学及材料科学等领域的研究显示,人工智能能实现更灵活、更深度的知识理解和挖掘,可将不同学科、不同语言的知识关联到一起,帮助科学家发现创新盲点,提出新假设,给出跨学科研究路径甚至合作对象的建议,从而推动人类知识发展到全新水平。12.2科普AI大语言模型工业制造未来也将是大模型的用武之地。大模型通过推动人类知识向物理机器转移,实现更复杂的工业人机协作。在以往的工业制造自动化领域,机器人依据严谨的预定义编程指令来执行操作,执行任务的能力受到一定限制,因为大部分的人类知识存在模糊性,对这些知识的理解和应用依赖于环境和常识。比如对机器人说:“我要一个苹果。”机器人不知道该去拿还是去买,不知道去哪拿、怎么买。12.2科普AI大语言模型而大模型可通过自然语言的交互,理解人类任务,借助自身训练获取的知识和外接的环境感知能力——知道冰箱在哪,猜测冰箱冷藏区可能有苹果,正确拆解任务并转译为机器指令——找到并打开冰箱,取出苹果,如果没有,则通过网络下单购买苹果。这样,大模型就在人类与机器人之间建立了复杂的、实时动态的协作机制,完成之前无法实现的、更高难度的工业制造任务。12.2科普AI大语言模型未来,知识的应用、创造和转化将提升到一个新的高度。从老百姓可感知的民生普惠服务落地,同时进行更多方向探索——推动工业制造升级和科研手段演进,人工智能大模型对经济社会的影响将逐步往深层次发展,从而创造更大的社会价值。12.2科普AI大语言模型PART03ChatGPT的模仿秀现在是成为一家搜索初创公司的好时机。微软和谷歌连续公布了它们各自对搜索引擎未来的看法,展示了可以用流畅的句子而不是链接列表来回答查询的聊天机器人。微软公司升级其必应搜索引擎,也使用爆红聊天机器人ChatGPT背后的人工智能技术;谷歌则开发一个名为Bard的产品,以作为ChatGPT的竞争对手。12.3ChatGPT的模仿秀尽管微软和谷歌这样的巨头将继续占据主导地位,但对于任何想要寻找其他选择的人来说,搜索领域将会涌入更多的参与者,并变得更加多样化。在这种大背景下,一段时间以来涌现出来的一大波初创公司,已经开发出了许多类似的聊天机器人辅助搜索工具。Y在2022年12月推出了一款搜索聊天机器人,此后一直在推出更新的功能。许多其他公司比如Perplexity、Andi和Metaphor,也在将聊天机器人应用与其他功能结合起来,例如图像搜索、社交信息保存或搜索、以及快速搜索信息等。12.3.1旧的守卫,新的想法ChatGPT的成功引发了一场热潮,因为科技巨头和初创公司都在试图找出答案——如何以人们意想不到的方式给他们想要的东西。谷歌多年来一直主导着搜索引擎市场。在美国华盛顿大学研究搜索技术的奇拉格·沙阿说:“这种局面已经持续了很长时间了。”“尽管有很多创新,但情况并没有发生太大的变化。”12.3.1旧的守卫,新的想法随着2022年11月ChatGPT的推出,情况发生了改变。突然间,通过输入一串不连贯的单词来搜索目标的想法已经变得过时了,为什么不直接问你想要什么呢?谷歌探索大型语言模型(例如ChatGPT和Bard等聊天机器人背后的技术)的用途已经有一段时间了。当ChatGPT成为主流热门产品时,谷歌和微软立即采取了行动,其他人也是如此。12.3.1旧的守卫,新的想法如今,现成的软件使得构建一个搜索引擎并结合一个大型语言模型比以往任何时候都更容易。你可以依靠少数几个工程师在几个月内大肆开发由数千名工程师在十余年间开发的技术库。12.3.2搜索引擎结合LLM创立于2020年的Y网站为寻找谷歌替代品的网络搜索高级用户提供一站式服务,它旨在为人们提供各种格式的不同类型的答案,比如从电影推荐到代码片段等。Y引入多模式搜索——它的聊天机器人可以使用来自附属应用程序的图像或嵌入式小部件而不是文本来响应查询,它还具备一项让人们与聊天机器人分享交流内容的功能。Y推出的一项升级计划,解决了有关现场体育赛事的问题,比如老鹰队是否能在比赛还剩8分钟的时间里赢得超级碗。12.3.2搜索引擎结合LLMPerplexity是一家由OpenAI、Meta和Quora的前员工建立的公司。这家初创公司将OpenAI的大型语言模型GPT-3与必应结合在一起,并于2022年12月推出了搜索聊天机器人,他们设想要抓住人们的兴趣,并围绕着它建立一个社区。这家公司希望重新创建基于社区的信息存储库,如Quora或维基百科,使用聊天机器人来生成条目,而不是人们自行编辑。当人们问Perplexity的聊天机器人问题时,问答环节会被保存下来,并可以被其他人浏览。用户还可以对聊天机器人生成的响应投赞成票或反对票,并添加自己的见解到正在进行的线程中。这就像Reddit一样,不过是人类在提问、人工智能做回答。12.3.2搜索引擎结合LLM曾经有一次,当谷歌尚未发布的聊天机器人Bard被发现在一个匆忙发布的宣传片中给出了错误答案的第二天(一个可能让公司损失数十亿美元的错误),Perplexity宣布了一个新的插件,它可以结合谷歌的网络浏览器Chrome。对于相同的问题,后者给出了正确答案。12.3.2搜索引擎结合LLM总部位于美国迈阿密的搜索公司Andi的CEO兼联合创始人安吉拉·胡佛成立了自己的公司,此前她对不得不筛选广告和垃圾邮件以在谷歌中找到相关链接感到沮丧。与许多玩过ChatGPT等聊天机器人的人一样,她的搜索灵感受到科幻小说中“万事通”之类角色的启发,例如《钢铁侠》中的贾维斯或《她》中的萨曼莎。当然,我们还没有这样的东西。“我们不认为Andi什么都知道,”她说,“Andi只是在寻找人们放在互联网上的信息,然后以一种漂亮的、包装好的形式带给你。”12.3.2搜索引擎结合LLMAndi在搜索方面的创新,涉及到使用大型语言模型来选择最佳结果并进行总结,她让模型学习从普利策获奖文章到SEO垃圾邮件的所有内容,以让搜索引擎更好地支持一些结果。最终,搜索之战将不会局限于网络——人们还需要使用工具来搜索更多的个人信息,比如电子邮件和短信。“与世界上其他数据相比,网络很小,”有大量使用聊天机器人进行搜索的公司并未寻求与微软和谷歌竞争,例如他们提供软件以方便地将大语言模型与小型的、定制的搜索引擎相结合,可以为用户手册、医疗数据库和播客文本构建定制的搜索工具。12.3.2搜索引擎结合LLM也有一些人认为用聊天机器人进行搜索是一个糟糕的想法,驱动它们的大语言模型充斥着偏见、偏见和错误信息。为搜索开发聊天机器人的公司,试图通过将大语言模型嵌入到现有的搜索引擎,让它们总结相关结果,而不是从零开始创造句子来回答问题。大多数人还会让聊天机器人引用它们正在总结的网页或文件。但这些策略并非是万无一失的。例如自从微软向一些试用用户开放新版必应以来,社交媒体上充斥着一些截图,显示聊天机器人流畅的聊天演示也是错误百出。12.3.3克服简单编造与重复为此,Andi避免简单地重复搜索结果中的文本,“它不像其他聊天机器人那样编造东西”。人们可以自己决定这是否属实,在收集以往的用户反馈之后,该公司的聊天机器人有时会坦言对于某些答案没有信心。“它会说,‘我不确定,但根据维基百科……’”无论哪种方式,这个新的搜索时代可能都不会完全地放弃链接列表,这是网络的重要组成部分。12.3.3克服简单编造与重复但随着聊天机器人变得越来越有说服力,我们是否会越来越不愿意核实它们的答案?“值得注意的不是大语言模型会产生虚假信息,而是它们正在关闭人们的批判性推理能力。”华盛顿大学的沙阿就有同样的担忧,在微软必应的聊天演示中,强调使用聊天机器人进行搜索可以节省时间。但多年来微软一直在做的一个鲜为人知的项目叫“搜索教练”,旨在引导人们停下来思考。“搜索教练是‘带训练轮的搜索引擎’,搜索教练帮助人们特别是帮助学生和老师学习有效地编写搜索问题,并识别消息源是否可靠。与ChatGPT相比,‘搜索教练’鼓励人们放慢时间,而不是节省时间。”12.3.3克服简单编造与重复PART04传统行业的下岗2023年3月初,OpenAI公司正式宣布开放ChatGPT的API(应用编程接口),这意味着第三方的开发者也能将ChatGPT集成到他们的应用程序里去。此消息一出,再次向全世界投放了一个“炸弹”:“可以预见,以后客服不会有真人了”,有网友评论道。12.4传统行业的下岗尽管OpenAI宣布的ChatGPT先行应用案例里还没有多少关于替代传统客服的例子,但基于其应用特性,这被很多人视为是在不远的未来将发生的事。12.4传统行业的下岗一方面,在ChatGPT出现之前,各大企业为了降低成本,已经在广泛使用智能客服替代人工客服,有的行业比如金融领域,渗透率已经接近100%。另一方面,现在的智能客服还不够智能,ChatGPT所具备的能力,正是产业所需要的。12.4.1客服市场,AI本来就很卷ChatGPT来了,客服是离风暴最近的岗位之一。短短时间里,多位智能客服从业者有的已经推出运用“类ChatGPT”技术的AIGC(人工智能生成)产品,有的已经在做“类ChatGPT”产品的合作测试,有的在探索更合适的落地方式及应用场景。总之,都在争分夺秒的赶上这趟列车。它从诞生起,人们就或害怕它,或期待它,或无视它。一方面,的确有越来越多的案例佐证,它正在取代人力,但另一方面,ChatGPT的训练成本高昂,也出现了落地应用不容易,取代人力没那么简单的声音。12.4.1客服市场,AI本来就很卷以客服行业为切入口,我们试图来探索,对一个具体行业来说,ChatGPT能取代的岗位到底是什么,能取代到什么程度?产业化落地的应用空间到底有多大?12.4.1客服市场,AI本来就很卷这个行业里,AI客服已经在广泛使用。例如一家酒店的客服会接到旅行社用AI客服打来的电话,核对顾客信息。AI客服先问,“客人离店了吗?”再问,“客人是几月几号退房的?”当听到第一个问题的时候,酒店客服会回答“某某日,客人已经退房了”,于是AI客服就不会再接着问了。几年前,智能客服还只能听懂她回答“是”和“不是”,或者得按照流程,听懂某个固定的答案,但现在她用像跟真人对话一样的语气回答,对方也能听懂。12.4.1客服市场,AI本来就很卷2017年以来,人工智能技术引进,智能客服已渗透到企业各个环节。根据2020年研究发布的《智能客服趋势发展白皮书》,国内市场88.6%的企业拥有客服业务,22.1%的企业基于云的方式构建了智能客服。咨询机构高德纳在2020年曾经预测,智能客服的渗透率将从2018年的15%增至2022年的80%,目前来看,这个预测是比较准确的。12.4.1客服市场,AI本来就很卷现在智能客服应用的对话技术,大致可以分为三种。(1)基于知识库的知识问答,主要解决用户对知识信息的获取问题。即基于用户的提问,在知识库中寻找最匹配的答案。这项技术和传统的搜索技术有点相似,典型的应用场景,如用户对政策法规的咨询。(2)面向任务问答,主要帮助用户解决限定任务,一般采用流程管理的对话技术,以一定的步骤和顺序,通过多轮对话帮助用户解决问题。听歌、查询天气、订票、下单都属于这类场景。12.4.1客服市场,AI本来就很卷(3)无特定目标的闲聊。这种主要模拟人们日常闲聊的场景,技术路线上有采用大规模知识库的,也有使用AIGC的。通常在实际场景中,作为前两种对话形式的补充配合使用。在行业里,AI之所以应用如此广泛,主要是为了节省成本。例如,应用机器人作为客服后,相比原来的人力成本整体降低了200万元,人效提升了220%。12.4.1客服市场,AI本来就很卷目前智能客服应用场景主要有两个,第一个是在人工客服介入之前,通过机器人帮助客户解决规范、明确的问题,“绝大部分智能客服厂商都具备这样的能力”。第二个是辅助人工。比如客服行业流动性大,企业培训成本高,通过人工智能,客服可以通过智库、问答提示来辅助,降低上手成本。之前他们特地和客户聊过,如果没有这些辅助工具,培训一个合格的在线坐席,需要1-2个月时间,使用这套辅助,时间可以缩短到两周。12.4.1客服市场,AI本来就很卷根据《客服中心智能化技术和应用研究报告》,当前智能机器人客服处理咨询量普遍达到300-500万人次/日,企业平均节约人力成本42.6%,提升人力资源利用率39.3%。不过,同时行业也面临着AI不够智能的问题。现在的客服市场,把简单、重复、流程性的问题,交给机器人处理,复杂的、需要情感关怀的问题,交由人工客服处理。能否处理复杂问题,行业有一个通用的指标,即意图识别的准确率。12.4.1客服市场,AI本来就很卷传统机器人语义理解能力还是比较弱的。首先是拟人化方面,还有所欠缺,其次是更复杂的需求,还不具备处理能力。智能客服只需要公式化处理问题,处理原本就有解决办法的问题,对于真人客服来说,算是很轻松的工作内容了。在《2021年中国智能客服市场报告》中,仅30%企业使用智能客服感受整体服务效率提升。中国青年报社会调查中心2022年对2018名受访者进行的调查显示,95.7%的受访者使用过智能客服,其中仅41.3%的受访者觉得智能客服好用。12.4.1客服市场,AI本来就很卷技术提不上去,行业门槛不高,让这个市场很内卷。电商刚兴起时,很多电商平台的智能客服都是外包,现在很多大平台都是自研了。“行业纯粹的技术壁垒没有那么高,一些功能你家能实现,我家也能实现,大家都在打价格战”。现在,ChatGPT出现了,情况发生了变化。12.4.1客服市场,AI本来就很卷针对ChatGPT曾经进行了这样一次智能客服的试验:先用一个长句告诉ChatGPT是牙科客服,目标是要获得顾客的电话号码,它很快进入角色,先安抚顾客,并适当的给出了需要对方联系方式的原因,逻辑清晰(图12-6)。12.4.2“伐木场迎来工业革命”
图12-6一次ChatGPT的测试12.4.2“伐木场迎来工业革命”问题中包含了复杂的意图,从它的回答来看,准确地理解了所有意图。这对以前的NLP(自然语言处理)技术来说,是一个很大的挑战。这意味着,传统人机对话技术需要使用十多个单功能自然语言处理模块组装构建的机器人,对于ChatGPT来讲,一个角色扮演的命令,加少量的信息设定,即可实现。这还只是一个非常简单的例子。综合行业人士的说法,ChatGPT的技术应用对客服行业的影响,可以分为几类。12.4.2“伐木场迎来工业革命”首先是人机交互上。传统机器人对复杂场景的应变能力不够,一旦用户问的问题在知识库里没有,或者超出了预设的流程,机器人就无法很好地应对了。现在,ChatGPT大模型本身蕴含了大量泛知识内容,能够以更灵活的回答应对上述情况。ChatGPT还能带来使用体验上的升级,比如过往对于同一个问题,传统机器人虽然可以理解不同的问法表达,但回答往往是千篇一律的,现在生成不同风格的对话内容,对ChatGPT而言非常容易,它也能够基于用户的个人信息和历史交互,提供更个性化的回答。12.4.2“伐木场迎来工业革命”其次,ChatGPT的知识存储能力将对现有的知识图谱生态造成冲击。而ChatGPT能大跨度地进行多轮对话,随意切换聊天主题,这也突破了传统人机对话系统中,对话管理能力的天花板。此外还有成本上的改变。12.4.2“伐木场迎来工业革命”ChatGPT让人感到惊艳的效果给人们很大的触动,对开放和应用持乐观态度,关于合作应用,有两种思路。一个是有助于辅助意图的识别,进行算法冷启动,“之前的NLP算法启动都需要标注大量样本,很多情况下,是没有标注样本可用的,或者标注代价太大。ChatGPT可以辅助生成一些样本,以供人工标注。”12.4.2“伐木场迎来工业革命”第二种是用于辅助知识库的搭建和配置。以前碰到陌生的行业,需要人绞尽脑汁想访客可能会问智能客服的问题,现在借助ChatGPT可以解决。比如能直接让它就问题“我的快递到哪儿了”扩充10个相似的问法,这种模式摆脱了现在行业主流的,仍需要以人工拆解问法和答案的知识维护模式,有极大的效率优势。以前的方式使知识库的建设成本很高,现在借助ChatGPT相关技术,有可能让大模型快速、低成本地习得新知识。12.4.2“伐木场迎来工业革命”再者,当技术提升,也能增加智能客服的应用场景。比如它翻译能力的应用。传统机器人还面临多语种的挑战,语种间相互切换的成本较高,而ChatGPT也能提供相对可靠的解决方案。可以支持跨语言的客服服务,在企业出海的国际化场景上,很有潜力。在测试时,“当你说你心情不好,它会与你沟通,帮你缓解,这在情绪关怀方面也有很大的应用前景”。ChatGPT的应用发展会很快,未来一两年就能看到。已经有相对确定的场景可以落地,如可以扮演人工客服和客户沟通,在客服接待、电话促销上,都很有前景。12.4.2“伐木场迎来工业革命”除了技术上的探索,应该探索更多的应用场景,比如可以去帮助训练客户的知识库体系,做用户沟通会话时的情绪状态分析。之前智能客服为企业主要带来降低成本的价值,现在还借助客服这个触点,构建出一些具体的营销场景,也就是服务营销一体化。这样一来,客服团队才能从成本中心转向价值中心。这也给当下的智能客服行业的公司提出挑战。12.4.2“伐木场迎来工业革命”从商业维度来看,ChatGPT更容易取代功能单一、停留在旧思维的智能客服公司,比如说只有机器人,没有工单,没有数据分析,没有视频客服,无法满足复杂流程业务需求的公司,最能了解客户需求,明白客户需要在什么场景上应用好这类技术的公司,才能走得更远。ChatGPT的发布,给全世界从业者以明灯式的指引,借助大语言模型技术,人们也在研究相关客服机器人,ChatGPT的出现,将大大加快智能客服的渗透速度。就像伐木场突然迎来工业革命,把有轨马车换成了蒸汽列车。12.4.2“伐木场迎来工业革命”什么时候能落地?对于ChatGPT是否会带来行业冲击,受访的行业人士都一致给出了肯定答案。不过在落地的可能性与时间快慢上,观点不同。落地难点上,首先一个是成本。一篇研究报告《ChatGPT需要多少算力》里提到,ChatGPT背后的回归语言模型(GPT-3)训练一次的成本约为140万美元,对于一些更大的大语言模型,训练成本介于200万美元至1200万美元之间。总之,很烧钱。不过第三方公司也可以选择将ChatGPT集成到他们的应用程序里去。但对于客服来说,仍然可能是扛不动的价位。12.4.2“伐木场迎来工业革命”ChatGPT需要针对企业的个性化知识库进行训练,才能回答企业的个性化问题。这就需要ChatGPT在云端开放其训练能力,并且要求企业将自己的知识库上传到云端做训练。但ChatGPT训练一次的费用对企业来讲是一个天价,因此ChatGPT的商业化需要将模型裁剪到合适的规模,在合理的费用和时间内完成训练,才能适应一般企业的需求。但裁剪的同时,又需要保留原有的问答体验。12.4.2“伐木场迎来工业革命”还存在数据安全、数据隔离的问题。这存在两种不同看法。大部分企业都不希望把自己的专有知识库上传到公开的领域里,训练一个公开的模型,这个模型还被其他人共享。很多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工地项目钢材运输合同
- 安装工程分包合同
- 2024年其他有色金属矿项目投资申请报告代可行性研究报告
- 2024年妇科炎症类用药项目资金筹措计划书代可行性研究报告
- 协作办公培训报告模板
- 校园卫生指导模板
- 小学艺术课程导引模板
- 线条艺术讲座模板
- 幼儿户外活动保育课件
- 如何做好车间安全管理工作
- 课内文言文阅读(原卷版)-2024-2025学年九年级语文上学期期中试题分类汇编(山东专用)
- 2022幼儿园教师读书参考心得体会5篇
- 2024年《内科护理学》考试复习题库(含答案)
- 江苏省常熟市2024-2025学年七年级上学期12月月考历史卷(含答案)
- 浙江大学医学院附属儿童医院招聘人员真题
- 2025年蛇年年度营销日历营销建议【2025营销日历】
- 金蛇纳瑞企业2025年会庆典
- MOOC 英语话中华-山东大学 中国大学慕课答案
- MOOC 机械基础实景教学(机械原理)-哈尔滨工业大学 中国大学慕课答案
- 10KV配电室倒闸操作票
- 中职数学基础板块上册《角的概念推广》教案
评论
0/150
提交评论