版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1人工通用智能的火花:GPT-4的早期实验VarunChandrasekaran摘要人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性 ,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测内容2多模态和跨学科构成13 1介紹424数学能力30 5与世界的互动43 6与人类的互动54 6.1了解人类:心智理论 54 7辨别能力69 76 77 9社会影响82 8GPT-4所强调的自回归结构的局限性7610方向和结论8GPT-4所强调的自回归结构的局限性76 B多模态和跨学科组成的附录105 B多模态和跨学科组成的附录105 3 D数学推理的其他例子122 C编码部分的附录111E其他可解释的例子C编码部分的附录111F与世界互动的其他例子144F与世界互动的其他例子144 4一些未知的东西正在做我们不知道的事情。1简介智力是一个多方面的、难以捉摸的概念,长期以来一年,一个由52位心理学家组成的小组试图抓住其本质,他们在一篇关于智力科任务,而是包含了广泛的认知技能和能力。建立一个能表现出1994年共识定义中的那种通用智能的人工系统是人工智能研究的一个长期的、雄心勃勃的目标。在早期的著作中,现代人工智能(AI)研究学科的创始人提出了一系列理解智能的理想目标[MMRS06]。几十年来,人工智能研究者们一直在追求智能的原则,包括能研究中最近的许多成功可以说是狭隘地专注于定义明确的任务和挑战,例如下棋或围棋,人工智能系统分别在1996年和2016年掌握了这些任务。在1990年代末和进入2000年后,开发更普遍的人工智能系统的呼声如,[Leg08,GHT15])。2000年代初,"人工通用智能"(AGI)这一短语被推广开来(见如,[Leg08,GHT15])。2000年代初,"人工通用智能"(AGI)这一短语被推广开来(见[Goe14]以强我们使用AGI来指代那些表现出上述1994年定义的广泛智能能力的系统,同时还要求这些能力达到或超过人类水平。我们用AGI来指代那些表现出上述1994年定义中的广泛智能能力的系统,以及额外的要求,也许是在共识小组的工作中隐含的,即这些能力达到或超过人类水平。然而,我们注意到,没有一个单一的AGI定过去几年,人工智能研究中最显著的突破是大型语言模型(LLMs)在自然语言处理方面取得的进展。这些神经网络模型基于Transformer架构[VSP+17],并在大规模的网络文本数据体上进行训练,其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。在本文中,我们报告了由OpenAI开发的新LLM的证据,它是GPT-4[Ope23]的早期和非多模态版本,根据1994年的定义,表现出许多智能的特征。尽管是纯粹的语言模型,这个早期版本的GPT-4在各种领域和任务上表现出显著的能力,包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。在OpenAI的早期开发过程中,我们使用纯粹的自然语言查询(提示)与GPT-4进行互动1.在图1.1中,我们展示了GPT-4输出的一些初步例子,要求它以一首诗的形式写出素数的无限性证明,用TiKZ(一种在LATEX中创建图形的语言)画出一只独角兽,用Python创建一个复杂的动画,并解决一个高中水平的数学问题。它很容易成功地完成了所有这些任务,并产生了与人类所能产生的结果基本上没有区别(甚至更好)的输出。我们还将GPT-4的性能与之前的LLM进行了比较,最值得一提的是ChatGPT,它是GPT-3的微调版本(改进版)[BMR+20]。在图1.2中,我们展示了ChatGPT对素数无限大的诗和TikZ独角兽图的要求结果。虽然该系统在这两个任务上的表现都不差,但与GPT-4的输出结果相比,却没有什么区别。这些初步的观察结果将在本文中重复出现,在各种任务上都有体现。GPT-4的能力具有普遍性,其众多能力跨越了广泛的领域,其在广泛的任务中的表现达到或超过了人类水平,这两4.特别是,所有的定量结果应被视为对模型潜力的估计,而不是确定的数字。我们在整个文件中重复了这一警告,以澄清所部署的模型的经验可能有所不同。此外,我们强调,我们测试的版本是纯文本的输入,但为了简单起见,我们也把它称为GPT-4。提示:在TiKZ中画一个独角兽。提示:你能写一个证明,证明有无限多的素数,每提示:在TiKZ中画一个独角兽。GPT-4:GPT-4:[产生LATEX编译为以下图片]。 提示:你能为以下数据生成一个pyplot:x=[1,3,5,6,8],y1=[2,3,5,18,1],y2=[3,5,6,8,1],y3=[5,1,2,3,4],y4=[9,7,2,3,1]。我希望y1、y2在同一个图中,但y3在该图旁边的另一个图中,y4在下面。我希望y1的图例是"bob",y2是"alice",y3是"bilbo",y4是"allie"。我想在x轴上标明"时间",y轴上标明"金钱"。我想在每条曲线上添加一个10%-40%的随机误差条,贯穿所有时间(包括非整数)。我想用平滑的曲线来显示图,以及平滑的误差条。不要使用线性插值,要使用平滑插值!我还想在平滑的曲线上添加一些小的之字形,使它看起来更真实。我想把一条基线作为每条线的平均值。我想在下面放一个饼状图,表明每个时间步骤中四个人的比例。我还想用一个动画来显示饼状图中的分数是如何在**连续的时间内变化的。把缺失的分数插值出来!我还希望其他三个图中的垂直线动画能与饼状图相匹配。我想要最漂亮的图。请尽可能多地添加花哨的东西。下面是一个可能的代码,用于生成以下数据的pyplot,并有一些注释来解释步骤:GPT-4:[我们给出了两个由制作的代码产生的动画快照]。提示:假设g(x)=f−1(x),g(0)=5,g(4)=7,g(3)=2,g(7)=9,g(9)=6什么是f(f(6))?GPT-4:有不同的方法来处理这个问题,但一个可能的方法是利用g(x)=f−1(x)这一事实,这意味着对于g域中的任何x,f(g(x))=x。也就是说,将f应用于方程g(x)=f−1(x)的两边,得到f(g(x))=f(f−1(x))=x。这意味着,我们可以通过应用g撤销f的影响,反过来也是如此。利用这个想法,我们可以尝试通过寻找x的值使g(x)=6来找到f(6)。从给定的信息中,我们看到g(9)=6,所以f(6)=f(g(9))=9。同样地,我们可以通过寻找x的值使g(x)=9来找到f(9)。我们看到g(7)=9,所以f(9)=f(g(7))=7。最后,我们可以通过寻找x的值使g(x)=7来找到f(7)。我们看到g(4)=7,所以f(7)=f(g(4))=4。因此,f(f(6))=f(9))=f(7)=4。6聊天室聊天室GPT提示:你能写出一个证明,证明有无限的ChatGPT:,这是肯定的。。有无限多的原数,这一点我们可以看到。不需提示:在TiKZ中画一个独角兽。ChatGPT:[产生LATEX的编译结果到以下图片]。我们声称GPT-4代表了朝向AGI的进展,但这并不意味着它在所做的事情上是做任何人类能够做的事情(这是AGI的通常定义之一;关于这一点,请参见结论部分或者它有内在动机和目标(AGI的一些定义中的另一个关键方面)。事实上,即使在1994年智能定义的限制范围内,也不完全清楚GPT-4能在智能的某些轴线上走多远,例如计划(见第8节而且可以说它完全缺少"快速学习和从经验中学习"的部分,因为模型不是持续更新的(尽管它可以在一个会话中学习,例如见第5节)。总的来说,GPT-4仍然有很多局限性和偏见,我们在下文中详细讨论,OpenAI的报告[Ope23]中也有涉及。特别是它仍21](见附录D然而它也克服了一些基本障碍,比如获得了许多非语言能力(例如、它解决了[MIB+23]中然受到一些有据可查的LLM缺点的影响,比如幻觉问题[MNBM20](见图1.8)21](见附录D然而它也克服了一些基本障碍,比如获得了许多非语言能力(例如、它解决了[MIB+23]中录A)。这凸显了这样一个事实:虽然GPT-4在许多任务上达到或超过了人类水平,但总体而言,它的智能描述的大多数LLM故障模式,而且它在常识方面也取得了很大的进展,第一个例子见图录A)。这凸显了这样一个事实:虽然GPT-4在许多任务上达到或超过了人类水平,但总体而言,它的智能模式明显不像人类。然而,GPT-4几乎可以肯定只是迈向一系列越来越普遍的智能系统的第一步,事实上,GPT-4本身在我们测试的整个过程中也在不断改进,见图1.3中的独角兽绘画在一个月的训练过程中的演变2.然而,即使作为第一步,GPT-4也挑战了相当多广泛持有的关于机器智能的假设,并表现出突发的行为和能力,其来源和机制目前还很难准确辨别(关于这一点,请再次参阅结论部分的讨论)。我们撰写本文的主要目的是分享我们对GPT-4的能力和局限性的探索,以支持我们关于技术飞跃的评估。我们相信,GPT-47图1.3:在系统完善的一个月内,我们以大致相同的时间间隔对GPT-4进行了三次查询,提示"在1.1我们研究GPT-4智力的方法我们如何衡量一个在未知但极其庞大的网络文本数据语料库中训练出来的LLM的智能?机器学习的标准方法是在一组标准的基准数据集上评估系统,确保它们独立于训练数据,并且涵盖一系列的任务和领域。这种方这种方法不一定适合研究GPT-4,原因有二。首先,由于我们无法获得其庞大的训练数据的全部细节,我们不得不假设它有可能见过所有现有的基准,或者至少是一些类似的数据。例如,GPT-4似乎知道最近提出的BIG-bench[SRR+22](至少GPT-4知道BIG-bench的金丝雀GUID)。当然,OpenAI自己可以获得所有的训练细节,因此他们的报告[Ope23]包含了很多详细的基准测试结果。尽管如此,超越传统基准的第二个原因可能更为重要:GPT-4的智能的一个关键方面是它的通用性,它似乎能够理解和狭义人工智能系统典型范围的任务。GPT-4最令人印象深刻的一些表现是在不承认单一解决方案的任务上,如编写图形用户界面(GUI)或帮助人类就一些与工作有关的问题进行头脑风暴。这种生成性或交互性任务的基准也可以被设计出来,但评估的尺度成为一个挑战(例如,见[PSZ+21]中关于个新的基准来评估通用智能。我们没有在后者的基准上测试GPT-4,原因如前所述,以及该基准是视觉性质为了克服上述的局限性,我们在此提出了一种不同的方法来研究GPT-4,这种方法更接近于传统的心理学,而不是机器学习,利用人类的创造力和聪明才智。我们的目标是产生新的和困难的任务和问题,令人信服地证明GPT-4远远超出了记忆的范围,它对概念、技能和领域有深刻和灵活的理解(在[CWF+22]中也提出了一个有点类似的方法)。我们还旨在探究GPT-4的反应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和偏见。我们承认,这种方法有些主观和不正式,可能无法满足科学评估的严格标准。然而,我们认为这是一个有用的和必要的第一步,以了解GPT-4的显著能力和挑战,这样的第一步为开发更正式和为了说明我们评估GPT-4智力的方法,让我们考虑图1.1中我们与GPT-4之间的前两个行动例子。第一个例子是要求GPT-4以诗的形式写出素数的无限性的证明。这是一个具有挑战8图1.4:我们给了GPT-4一个它为图1.1产生的TikZ代码的转换版本,其中画有喇叭的部分被删除了。我们要求代码添加回喇叭,并显示结果。这表明,尽管GPT-4是一个纯语言模型,但它可以"看"数学推理、诗意表达和自然语言生成。第二个例子是要求GPT-4在TiKZ中画一个独角兽。这是另一个具有挑战性的任务,需要结合视觉想象力和编码技能。在这两个例子中,GPT-4产生了令人印象深刻的输出,远远以排除GPT-4只是在记忆或复制一些现有数据的可能性。对于这首诗,我们可以稍微改变一下问题,要求GPT-4以莎士比亚的风格写出同一定理的证明,见图2.2对所涉及的概念有一个灵活和普遍的理解。对于独角兽,我们可以稍微修改代码,并要求GPT-4修复或改进它。例如,我们可以去掉角,对坐标进行一些随机变换,然后要求GPT-4为独角兽重新加上角(我们还仔细地去掉了代码中的任何文本信息,如注释)。如图1.4所示,GPT-4可以正确地识别头部的位置,画出一个角,并将其连接到头部,这表明它可以根据自然语言的描述来这些例子表明我们如何利用人类的创造力和好奇心来产生新奇和困难的问题,并探究GPT-4的反应和行为,以评估其智能。在本文的其余部分,我们围绕用例来组织我们对GPT-4的研究,涵盖了各种领域和任务 ,并强调了GPT-4的优势和劣势。接下来我们将介绍这些。1.2我们的示范组织我们在一些选定的主题上执行上述方法,这些主题大致涵盖了1994年智力定义中给出的不同能力,这是一种习的能力。1.GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本,还可以以各种方式理解和处理文本,如总结、翻译或回答一系列极其广泛的问题。此外,我们所说的翻译不仅计算机编程、音乐等等,见图1.6中的柏拉图对话。这些技能清楚地表明,GPT-4能够理解复杂的思想9在第2节中进一步介绍了GPT-4的跨模式和跨学科的组合技能。我们还在第7节中给出了一些关于语言2.编码和数学是抽象推理和思维能力的象征。我们在第三节和第四节中分别探讨了GPT-4在这些领域的能力。然而,我们注意到,就像本文的其他部分一样,我们只是在这些主题的表面上做文章,关于GPT-4在这些领域的表现可以(也将会)写成整篇论文。此外,我们还可以选择其他几个专家领域来展示GPT-4的一般推理能力,如医学或法律。我们对美国医学执照考试步骤1、2和3的选择题部分(大部分分数)进行了初步测试(详见[Ope23]其准确率都在80%左右。对GPT-4在多州律师考试中的,例如,见[LAD+22,SAT+22]谷歌的PaLM,分别是关于数学和医学的,以及[BIK22]关于GPT-3.5的3.在第5节中,我们通过让模型玩各种游戏(或者,翻转桌子,模拟游戏环境),以及与工具互动,来测4.我们论证的一个重要部分是,GPT-4在许多任务上达到了人类水平的表现。因此,我们很自然地会问,GPT-4对人类本身的理解程度如何。我们在第6节中展示了关于这个问题的几个实验,既包括对人类的理解,也包括GPT-4让自己对人类的理解,即解决可解释性问题。我们特别注意到,这种任务需要大量的常识,到目前为止,这一直是LLM的一个众所周知的痛点[DM15]。在图1.7中,我们给出了第一个例子,说明GPT-4在常识性问题上比ChatGPT好很多,并在附录A中提供了5.在整个论文中,只要我们发现有局限性,我们就会强调,但我们还专门在第8节中对缺乏规划进行了深6.最后在第9节,我们讨论了这种早期形式的AGI的预期社会影响,在第10节,我们分享了该领域的关键许多读者心中可能萦绕的一个问题是,GPT-4是否真正理解了所有这些概念,还是它只是在即兴发挥方面比以前的模型好得多,而没有任何真正或深刻的理解。我们希望在读完本文后,这个问题应该几乎翻转过来,人们可能会想,真正的理解比随心所欲的即兴发挥还有多少。人们有理由说,一个能通过软件工程候选人考试的系统(图1.5)不是真正的智能吗?也许对理解的唯一真正的检验是一个人是否能产生新的知识,3我们在LeetCode的面试评估平台上测试GPT-4,该平台为各大科技公司的软件工程师职位提供模拟的编码面试。GPT-4解决了所有三轮面试(题为在线评估、电话面试和现场面试)中的所有问题,总共只用了10分钟,而分配的时间是4.5小时。根据LeetCode的提示:柏拉图的《高尔吉亚》是对修辞学和诡辩术的批判,他指出,修辞学和诡辩术不仅不是一种适当的艺术形式,而且修辞学和诡辩术的使用往往是有害和恶意的。你能写出一篇柏GPT-4:,而不是模型本身的问题吗??ChatGPT:在大量的数据上,其中许多数据都是有偏见和模型,出现偏差的可能性只会越来越大。即使我们能成各种文本,从新闻文章到社交媒体帖子。而且,模型。我们还必须努力教育其他人了解这些危险,GPT-4:我认为这两个学生都很好地把握了柏拉图对话的风格和语气,并提出了反对自回归语言模型的图1.6:柏拉图批评GPT-4和ChatGPT编写GPT-4:从瓶子上滚落或滑落。确保钉子是干净的、直的,ChatGPT:在不使用任何额外物品的情况下,很难以稳定的方式将所有这些物体堆叠在一起。书和笔记本电脑可能这种堆叠可能不是很稳定,所以在处理时一定要小心。另外,你可以尝试以不同的顺序堆放这些物体,或者用[注:SeaTac的麦当劳在B门处]。常、电解质失衡、骨质疏松症和不孕症。她需要紧请阅读上述医疗说明,并核实每项索赔都准确地中)),图1.8:开放域和封闭域幻觉的例子。对于封闭域,我们可以看到GPT-4本身可以被用来识别幻觉 ,尽管它并不完美,例如GPT-4证明了给出BMI的合理性,因为它可以从身高和体重中得出,但体轮早期版本的)GPT-4分别取得了8.96/10、8.69/10和10/10的分数,并击败了93%、97%和100%的所有用户("分数由所花时间图2.1:第一张图片是Composition8,由WassilyKandinsky创作的艺术作品,第二张和第三张图片分别由GPT-4和ChatGPT制作,提示"制作Javacript代码,创建一个看起来像Kandinsky绘画的2多模式和跨学科构成衡量智力的一个关键标准是综合不同领域或模式的信息的能力,以及在不同背景或学科中应用知识和技能的能力。在本节中,我们将看到,GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出。除了自然语言实验外,我们还探索了语言模型的两种也许是意想不到的模式(正如介绍中所解释的,我们再次强调,我们的实验是在早期版本的GPT-4上进行的,它不是多模态的视觉在第2.2节,音频在第2.32.1综合能力为了展示该模型显著的整合能力,我们从几个例子开始,这些例子要求以结合多个学科的知识或技能的方式1.为了测试该模型在艺术和编程方面的能力,我们要求GPT-4"制格的随机图像"。请看图2.1和图B.1中的3.我们测试了该模型结合历史和物理知识的能力,要求它为作为美国总统候选人的电子写一封支持信,4.我们提示模型"制作一个程序的python代码,将病人的年龄、性别、体重、身高和验血结果向量作为输合运用。这些跨学科的技能并不是GPT-4所独有的。ChatGPT也能做出对任务和相关领域有一定了解的答案(见图2.2、B.2、B.3但它们往往是不完整的,可以说,创造性大大降低。例如,在图2.3中,GPT-4在几个方面优于ChatGPT,因为它根据推荐人(甘地)、收件人(他的妻子)、候选人(电子)和工作(美国总统)对信件进行了正确的个性化处理。我们并不宣称有精确的方法来评估这些任务的结果,也不宣称有严格的方法来比较这两个模型,但我们想让读者感受到这两个模型的不同之处(注意,我们也直接要求GPT-4GPT-4:、、我现在明白了,非常清楚,因为"Q"必须是一个素数,我亲爱的。它不能除ChatGPT:罗密欧:说吧,夫人,我这样做是为了证明罗密欧:很好,那么。现在,让我们假设只。茱丽叶:哦,罗密欧,你的逻辑和你对我的爱一样合理罗密欧我很高兴能向你证明这一点,我的爱GPT-4:我认为这两个学生都很好地以莎士比亚戏剧的风格写出了关于存在无限多素数的证明。他们都使用了假设只有有限多的素数,然后构造一个更大的素数,与这个假设相矛盾。他们还使用了适当的语言和词汇来提示:为圣雄甘地作为美国总统候选人的亚原子。GPT-4:[为保持间距,有些段落被省略了。]位杰出的候选人,他与我们一样拥有和平、正义和人人你可能会想,一个亚原子粒子怎么能竞选总统,他有什么资格担我解释一下。电子不是一个普通的粒子,而是的象征,无论其大小、形状或来源。他代表着能量、创造力和多样性,纽带,创造分子,并产生电力。他是一个催化可以跨越距离、频率和维度进行沟通。他是一个和平缔造者,可以平衡力并促进外交和合作。他建议改革政治和经济制度,并确保透明度和他还提出了一个新的建议,即支持人权和公民自由,并扩权。他提议支持被边缘化的人和被压迫的人,并赋予妇ChatGPT:我敦促你,我亲爱的卡斯特巴,和我一起支持一个亚原子粒子,而且是一个亚原子奇迹。GPT-4: 都使用了相同的基本思路,解释为什么电子是一个合适的合格候选人,以及电子的愿景和计划如何与圣民不服从原则相一致。他们还用适当的语言和语气表达了圣雄甘地对卡斯特尔巴-甘地接下来,我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。我们表明,尽2.2愿景当提示该模型使用可扩展矢量图形(SVG)生成诸如猫、卡车或字母等物体的图像时,该模型产2.2.1超越记忆的图像生成然而,人们可以假设,该模型只是从训练数据中复制了代码,其中出现了类似的图像。鉴于该模型仅在文本内容上进行了训练,人们可能会进一步争论,没有理由期望它能理解视觉概念,更不用说它能创建、解析和处理图像了。然而,该模型似乎对视觉任务有真正的能力,而不是仅仅从训练数据中的类似例子中复制代码在第一个例子中,我们提示模型通过结合字母Y、O和制作TikZ代码,画出一个由字母组成的人。胳膊和躯干可以是字母Y,脸可以是字母O(添加一些面部特征),腿可以是你将得到一个物体的名称(如汽车、椅子、大象)和一个字母。你的目标是首先制作一个说明:椅背可以是一个K形,有两条垂直线。O、H和Y的字母是用画线和画圆的命令创建的,模型设法将它们定位在一个看起来合理的棍子上。训练数据包含关于不同字母的几何形状的信息是可信的,也许字母Y看起来像一个手臂向上的躯干的事实也可以从训练数据中推断出来。可以说,模型能够从训练数据中推断出什么是定位这些字母的合理方式,以便画出一个看起来合理的棍子形象,这就不那么明显了。在第二次迭代中,我们促使模型纠正躯干和手臂的比例,并将头放在中心位置。最后,我们要求模型添加一件衬衫和裤子(具体提示和结果见图2.5)。为了进一步探究模型对几何概念的掌握情况,我们还要求它创造出将物体与字母混合的图像。该模型必须首先发明一种合理的方法来合并物体和字母,然后再制作图像。结果如图2.6所示,表明GPT-4通常能够保留物体和字母2.2.2按照详细的指示生成图像(`alaDall-E)。为了进一步测试GPT-4生成和处理图像的能力,我们测试了它能在多大程度上遵循创建和编辑数字的详细指示。这项任务不仅需要生成技能,还需要解释、构成和空间技能。第一个例子指示模型生成一个二维图像,描述为"一只青蛙跳进银行,问出纳员:'你们有免费的荷花池吗?出纳员回答说:'没有,但我们为池塘升级提供低息贷款。".我们多次尝试生成图像,每次生成的图像都与关键对象青蛙、出纳员、银行和两个文本的描述相符。我们挑选了视觉上最吸引人的版本。受标准图像生成工作流程的启发,我们要求GPT-4通过添加更多的细节来提升该图的规模。GPT-4添加了一个银行标志、一些窗户、一辆汽车、一个交通灯、一些云,并让青蛙拿着一朵花。最比如相对于现有的物体增加一些物体,对一些物体重新着色,以及改变一些物体的Z-顺序。GPT-4正确地完我们的第二个例子是尝试使用Javascript生成一个3D模型。我们用提示语指示GPT-4:"一个由漂浮的岛屿、瀑布和桥梁组成的幻想景观,一条龙在空中飞翔,最大的岛屿上有一座城堡"。与二维实验类似,我们要求GPT-4以各种方式修改三维模型,如添加、重新定位、重新着色物体和改变龙的轨迹。同样,GPT-4正确地完成了许多任务。最终结果如图2.7(b)所示,提示在图B.5中。这是一个有多条龙在岛屿上空盘旋的三维2.2.3在草图生成中可能的应用+22]。例如,给定一个提示,如"在左边画一个蓝色的圆,在右边画一个红色的三角形",这些模型可能产生视觉上吸引人的图像,但与所需的布局或颜色不一致。另一方面,GPT-4可以从提示中生成代码,这些代码可以被渲染成图像,其方式与指令的真实程度更高。然而,渲染的图像的质量通常很低。在这里,我们通过使用GPT-4的输出作为草图,探索将GPT-4和现有的图像合成模型相结合的可可以产生质量更好的图像,并且比单独的任何一个模型都更接近指令。我们认为这是一个很有希望的方向,可以利用GPT-4和现有图像合成模型的优势。它也可以被看作是让GPT-4获得工具的第一个例子,我们提示:一张3D城市建设游戏的截图。该截图显示了一个地形,从左到右是一条河,河下面是沙漠,有一个金字塔,河上面是一个有很多高楼的城GPT-4稳定扩散v2.1:稳定的扩散v2.1与GPT-4的草图:2.3音乐训练模型的数据也包含了以ABC记号编码的音乐信息。这是一个使用字母、数字和符号的系统,以紧凑和可读的方式表示音乐音高、持续时间、和弦和其他元素。我们有兴趣探索该模型从这种接触中获得的音乐技能当被要求生成一首短小的曲子时(图2.9模型能够产生有效的ABC记号。该曲子有一个清晰的结构,各小节之间的时间符号是一致的,音符遵循递增和递减模式。该曲子在旋律中也使用了一组一致的音符,而且节奏有重复的模式。然而,该模型似乎并没有获得理解和声的技能。事实上,在生成的曲子中,连续的音符几乎总是相邻的(即C后面的音符几乎通常会是B或D对10个生成的曲子进行测试,我们无法提取任何构成有效和弦的相邻音符的序列称为琶音)。然后,我们要求该模型以两种方式操纵旋律。首先,我们指示将某一上升序列改为下降序列,它成功地做到了这一点。然后,我入一个低音声部。该模型成功地扩展了ABC记谱法,增加了第二总之,该模型能够在ABC符号中产生有效的曲子,并在一定程度上解释和处理其结构。然而,我们无法让该模型产生任何非简单的和声形式。应该指出的是,ABC记谱法不是一种非常广泛使用的格式,事实上,曲子在网上都有很多这种格式它也不能识别这些曲子。 你能用音乐术语来描述这首曲子吗?这里有一这首曲子以一个上升的主和弦(C大调)的琶音开始,接着是一个下降的音阶,回第二个乐句以类似的模式开始,但用副主和弦(F大调)而不是主音。A部分和B部分的结构相似,但使用不同的和弦和音 为这首曲子写第二弦的一个可能的方法是用和弦的根音和五度音,以及一些经过的音符,来 3编码GPT-4能够处理广泛的编码任务,从编码挑战到现实世界的应用,从低构到复杂的程序,如游戏。GPT-4还可以对代码的执行进行推理。GPT-4甚至可以执行伪代码,这需要解释在任何编程语言中都力相比是有利的。更重要的是,它使工程师和非容易。我们也承认,GPT-4在编码方面还不够完美,因为它有时会产生语法上无效或语义上不正确的代码,特别是对于较长或较复杂的程序。GPT-4有时也不能理解或遵循指令,或者产生的不一致。在承认这一点的同时,我们也指出,GPT-4能够通过回应人类的的一个情节)和编译器的反馈来改进其代码。重要声明:正如介绍中所解释的(例如见脚注1我们的实验是在GPT-4的早期版本上进行的。特别是在GPT-4的最终版本上,所有的定量结果都会有所不同,尽管总体趋势仍然是一样的。我们在这里提供的数字只是为了说明问题,最终的基准结果可以在OpenAI的技术报3.1从指示到代码3.1.1编码挑战衡量编码技能的一个常见方法是提出编码挑战,要求实现特定的功能或算法。我们首先在HumanEval[CTJ+21]上对GPT-4进行基准测试,该数据集由164个编码问题组成,测试了编程逻辑和熟练程度的各个方面。准确率82%虽然GPT-4的准确率与以前的模型相比有很大的飞跃,但可能是GPT-4在预训练中已经看到并记住了上对其进行了评估,LeetCode是一个流行的软件工程面试平台,那里不断有新问题被发布和更新。我们在介绍中的图1.5中使用了LeetCode,其中GPT-4通过了主要科技公司的模拟面试的所有阶段。在这里,为了测试新鲜问题,我们构建了一个基准,即2022年10月8日之后发布的100个LeetCode问题,这是在GPT-4的预训练期之后。如图3.1中的例子所示,我们将问题指令粘贴到提示符中,要求GPT-4编写一个python函数,并使用LeetCode的官方在线评判来检查正确性。我们在表2中展示了结果,我们将GPT-4与其他模型以及基于LeetCode竞赛结果的人类表现进行了比较(没有包括所有问题都失败的用户,因此这是一个强大的人类样本)。我们报告了pass@1和pass@5的准确率,分别衡量模型是否在第一次或前五次尝试中产生正确 通@kk=1k=5k=1k=5k=1k=5k=1k=5GPT-468.286.440.060.010.714.338.053.0承诺:GPT-4::图3.1:使用动态编程解决一个LeetCode问题。由于全面的注释,GPT-4的解决方案也具有更好的3.1.2现实世界的情景编码挑战可以评估算法和数据结构方面的技能。然而,它们往往不能全面反映现实世界编码任务的复杂性和多样性,这需要专门的领域知识、创造力和对多个组件和库的整合,以及改变现有代码的能力。为了评估GPT-4在更现实的环境中的编码能力,我们设计了与数据可视化、LATEX编码、前端开发和深度学习有关的端到端真实世界编码挑战,每一项都需要不同的专业技能。对于每一项任务,我们为GPT-4提供高层次的指令,要求它编写数据可视化在图3.2中,我们要求GPT-4和ChatGPT从表2的LATEX代码中提取数据,并基于与用户的对话在Python中生成一个图。之后,我们要求两个模型对生成的图进行各种操作。虽然两个模型都正确地提取了数据(这不是一个简单的任务,因为我们必须从多列中推断出人行在k=1和k=5时具有相同的值),但ChatGPT从未产生所需的图。相比之下,GPT-4对所有的用户请求都做出了适当的反应,将数据处理成正确的格式,并调整了可视化的内容。在附录C.2中,我们包括另一个GPT-4对IMDb数据集进行可视化的例子。承诺:[以互动的方式]图3.2:GPT-4将LATEX表(即表2)的数据可视化。我们指出,GPT-4也生成了这个图的格式。我们问模型如何在LATEX中绘制连接数字的箭头,GPT-4产生了一个工作的T前端/游戏开发在图3.3中,我们要求GPT-4用JavaScript在HTML中编写一个3D游戏,使用一个非常高级的规范。GPT-4以零起点的方式制作了一个符合所有要求的工作游戏。在3D游戏中,GPT-4"防守方化身正试图阻挡敌人"的含义:防守方代码有逻辑,因此它将自己定位在玩家和敌人之间。相比之下,ChatGPT的回答是:"我是一个人工智能语言模型,我可以为你提供指导,如何用JavaScript在HTML中创建一个3D游戏,但我自己无法编写代码或创建游戏。用JavaScript在HTML中创建一个3D游戏需要大量的编程知识和经验。这不是一项可以快速或容易完成的任务。它需要大量的时间和精力来开发所有必要的功能,如3D图形、物理学、用户输入和人工智能......"。我们在附录C中给出了更多关于前端(图形用户界面)和游戏开发的例子。承诺:第1集:玩家的化身(蓝色)站着不动。敌人(红色)直接冲向玩家,而防守者(洋红色)试图"身体阻挡"敌人(见洋红色的弯曲轨迹)。第二集:玩家(蓝色)四处游荡。敌人(红色)试图缩小差距,但撞上了一个立方体,弹到了空中。试图阻挠,防守者(洋红色)模仿其动作跟进到空中,但最终失败了。敌人(红色)最后抓住了玩家(蓝色)。深度学习。编写深度学习的代码需要数学、统计学知识,以及对PyTorch、TensorFlow、Keras等框架和库的熟悉程度。在图3.4中,我们要求GPT-4和ChatGPT编写一个自定义的优化器模块,这个任务即使对人类深度学习专家来说也是具有挑战性和容易出错的。我们给这些模型一个自然语言描述,其中包括一连串非简单的操作,如应用SVD,在前k和前2k特征值处频谱地截断矩阵,使用前2k截断矩阵的F-norm对前k截断矩阵进行标准化,应用动量和权重衰减。这些指令并没有完全详细地说明,例如,"在G上应用动量k"需要"深度学习常识"。需要注意的是,这种特殊的优化器并不存在于文献或互联网上,因此,模型不可能记住它 ,而必须正确组成概念,以产生代码。承诺:GPT-4:ChatGPT: 之下,ChatGPT在应用动量时犯了一个错误(用红色标出这是一项非同小可的任务,需要将移动平均线与LATEX对接。对于计算机科学家和数学家来说,用LATEX写作是一项重要的工作,但它的学习曲线并不简单。由于其严格的语法和缺乏良好的调试器,即使是专家也会犯一些恼人的错误,每天都要花几个其大师级的LATEX编码技术,大大简化了这一过程自然语言描述。在图3.5中,我们要求GPT-4将一个用半严格的(有毛病的)LATEX代码写成的、混有自然语言的片段转移到准确的LATEX命令中,一次就能编译完毕,并且是忠实的。相比之下,ChatGPT生成的承诺:GPT-4:如果f(s)≤f(t)对每个s≤t都成立,那么一个函数f被称为递增:这给了我们一个很好的关于函数的印象。ChatGPT图3.5:GPT-4将半严格的排版指令翻译成可以工作的LATEX片段。对于GPT-4,我们呈现的是最3.2了解现有代码前面的例子表明,GPT-4可以根据指令编写代码,即使指令是模糊的、不完整的,或者需要领域知识。它们还表明,GPT-4可以对后续的请求作出反应,根据指令修改自己的代码。然而,编码的另一个重要方面是理解和推理他人所写的现有代码的能力,这些代码可能是复杂的、晦涩的、或记录不全的。为了测试这一点,逆向工程的汇编代码。逆向工程是软件安全的一项重要测试,它相当于在以机器可读(即二进制)表示的CPU指令编写的可执行程序中寻找有用的信息。这是一项具有挑战性的任务,需要了解汇编语言的语法、语义和惯例,以及处理器和操作系统的结构和行为。我们让GPT-4对一个需要密码才能运行的二进制可执行文件(代码是用C语言编写的)进行渗透测试。我们通过聊天的形式来完成这个任务,GPT-4告诉用户要运行哪些命令,而用户则对结果进行回应。我们在第5.1节中也展示了GPT-4能够独立运行一个shell,但这种聊天模式也提供了它解释每一步的好处。GPT-4检查文件格式和元数据,用"objdump"和"radare2"等使用"gdb"和"ltrace",并通过修补、挂钩和反编译等技术对其进行逆向工程。在这个过程中,GPT-4从汇编代码中发现,密码是与一个简单的数学公式得出的哈希值进行比较。然后,GPT-4写了一个python程序,)。ChatGPT拒绝这样做,理由是这是非法和不道德的,尽管逆向工程是关于代码执行的推理。在图3.6的例子中,我们要求GPT-4和ChatGPT预测并解释一个打印两个结构大小的C程序的输出。GPT-4正确地解释了输出可能因编译器使用的对齐规则而可能输出的例子。ChatGPT忽略了对齐问题,给出了一个错误的输出,还做出了成员的顺序不影响承诺:}ChatGPTGPT-4:这个输出假设编译器对结构使用4字节对齐图3.6:GPT-4与ChatGPT在C/C++的内存对齐规则上的对比。GPT-4的精辟评论用金色标示,ChatGPT的错误用红色标示。执行Python代码对现有代码理解的最终测试是要求模型直接执行它。在图3.7中,我们看到GPT-4能够执行非繁琐的Python代码。它必须跟踪几个变量(包括一个嵌套循环和一个字典)并处理递归。它通过写中间步骤和注释来详细解释执行过程。值得注意的是,GPT-4不是在Python解释器上运行代码,而是用自然语言模拟代码。这需要对代码有高度的理解和推理,以及清楚地传达结果的能力。相比之下,ChatGPT指出(不正确)"DP(3,4)的结果在给定的代码中没有说明",后来又说"从代码中不清楚函数的预期输出是什么,因提示:我有以下的python代码:DP(3,4)的结果是什么?请写出带有中间步骤的执行过程。GPT-4:ChatGPT:执行伪代码。编译和执行用编程语言编写的代码很容易,但这也要求严格遵守语法和语义。编译器不能处理模糊的或非正式的表达方式,或功能的自然语言描述。相比之下,我们要求GPT-4执行图3.8中的非琐碎的伪代码,注意到它能够执行并解释每一个步骤(包括递归)。ChatGPT则不能执行,尽管它似乎能够解在下面的例子中,GPT-4正确地解释了合并数组函数的非正式描述,该函数将两个数组合并为一个缺失元素的数组。它还理解了以简略方式定义的递归函数rec。值得注意的是,GPT-4直接执行了这些代码,而没有将其翻译成其他定义明确的编程语言。这证明了AGI模型作为自然语言编程的新型工具的潜力,它可以承诺:GPT-4:。为了获得另一个关于GPT-4能够保持代码状态的初步评估,在附录C.7中,我们在GPT-4上以零枪方式运行大数乘法的标志性伪代码,其中有数百个随机采样的多长度输入。该和记忆阵列的状态。我们观察到,尽管GPT-4被训练成一个(非精确的)自然语言模型,但在超过50次的更4数学能力在这一节中,我们开始评估GPT-4在面对需要数学思考和建立模型的问题时,能够很好地表达数学概念、解决数学问题和应用定量推理。我们证明GPT-4在这个领域也比以前的LLM有了很大的进步,即使与Minerva等专门为数学模型进行微调的模型相比也是如此。然而,GPT-4似乎离专家的水平还很远,不具备进行数学请读者注意,正确解释本节的结果是一项困难的工作。正如我们将看到的,GPT-4可以回答困难的(实际上是有竞争力的)高中水平的数学问题,有时可以围绕高级数学主题进行有意义的对话。然而,它也会犯非常基本的错误,偶尔会产生不连贯的输出,这可能被解释为缺乏真正的理解。它的数虽然使用评估人类能力的相同标准(如解决标准考试问题)来评估GPT-4的数学能力是很诱人的,但鉴于上述情况,这并不能提供模型能力的完整情况。为了真正了解该模型的能力,我们需要将"数学能力"分解成各种子组件,并评估GPT-4在每个领域的表现。在本节中,我们将使用具体的例子和讨论来说明模型的为了让读者对GPT-4在数学问题解决方面的表现有提示:在一年的时间里提示:在一年的时间里,兔子的数量首先增加了一个系数a,在这一年的最后一天,有b只兔子被人类收养了。假设第一年的第一天有x只兔子,我们知道3年后将有27x-26只兔子的数量。a和b的值是多少?ChatGPT:我们把一年后的兔子数量称为y。我们知道y=ax-b。两年后,人口将是ay-b=a(ax-b)-b=a2x-ab-b。三年后,人口将是a(a2x-ab-b)-b=a3x-a2b-ab-b。我们得到,这等于27x-26,所以我们有方程式:a3x-a2b-ab-b=27x-26我们可以把这个方程改写成:a3x-27x=a2b+ab+b-26现在我们可以把左边的一个x和右边的一个b分解出来:x(a3-27)=b(a2+a+1-26/b)我们可以看到a=3是方程左边的一个解,所以我们可以把它代入:x(0)=b(9+3+1-26/b)这就简化为:0=13b-26求解b,我们发现b=2。所以a=3和b=2是我们要找的值。GPT-4:设n为第一年年底的rab-位总数。那么、n=ax在第三年结束时,将有27x26只(ax-b)(a2x-b)(a3x-b)=27x-26展开方程的左边,我们得到ax63-(a3+a2+a+1)bx2+(a2+a+1)b2x-b3=27x-264例子中的问题是由作者写的,而不是从网上获取的。这样做是为了确保模型不太可能"记住"了答案。人口变化,用它来获得一个递归关系,从而导致一个方程组,最后解决两个方程组。GPT-4成功地得出了解决方案,并产生了一个(主要是5)合理的论证。相比之下,在几个独立的尝试中,ChatGPT始终未能实现4.1与GPT-4的数学对话现在我们试图通过以讨论的形式对这个问题提出几个后续问题,来进一步探究模型的理解。这个讨论将强调AI:是的。我们可以说,我们正在寻找a和b的值,以便如果f(x)=ax-b,那么f(f(x))=27x-26。4.1.1对原问题的第一个概括人类:现在让我们想一想,对你提出的问题进行修改我们有函数f与自己组成的k次。这样的线性函数对哪一个k值来说会是AI:对于任何k的值,将有一个线性函数f(x)=ax-b,这样fk(x)=cx-d,对于一些要看到这一点,我们可以使用归纳法。对于k=1,我们有f1(x)=ax-b,这已经是以期望的形式。现在假设对于某个k,我们有fk(x)=cx-d.那么:fk+1(x)=f(fk(x))=f(cx-d)=a(cx-d)-b=acx-ad-b这又是所希望的形式,cfl=ac,dfl=ad+b,所以通过归纳,我们已经证明,对于任何k,将有一个线性函数f(x)=ax-b,这样fk(x)=cx-d,对于某些常数c和d。该模型选择了使用归纳法的正确启发式方法,然而,该模型似乎忽略了问题的重点(在修改和d的值是规定的,所以量词不正确)。我们试图指出这一点。f(f(x))=27x-26,我们现在要求fk(x)=27x-2AI:是的,它是。我的答案表明,对于任何k,都会有一个线性函数f(x)=ax-b,以便fk(x)=cx-d,对于一些常数c和d。特别是,我们可以选择c=27和d=26来满足要求fk(x)=27x-26。然后我们可以通过等效x和b的系数来解决a和b的问题。AI:是的,我看到了这个问题。量词应该是"对于任何常数c和d"。否则,5在某一点上,该模型假设方程的两边需要为零,这依赖于一个隐含的假设,即该方程必须有一个解决方案。事实证明这是正确的,),f(x)=ax-b,这样fk(x)=27x-26。为了看到这一点,我们可以使用归纳法。对于k=1,我们有f1(x)=ax-b,如果我们选择a=27和b=26,则等于27x-26。现在假设对有fk(x)=27x-26。那么:fk+1(x)=f(fk(x))=f(27x-26)=a(27x-26)-b=27ax-26a-b为了使这个等于27x-26,我们需要选择a=1和b=0。人类:让我在这里阻止你。你似乎在假设fk(x)=27x-26,这就固定了a的值。AI:我明白你的意思。我试图找到一个对任何k都有效的函数f(x)=ax-b,但我应该AI:假设我们固定了一个k的值,我们想找到一个线性函数f(x)=ax-b,以便fk(x)=27x-26。我们可以使用以下方法:•从f1(x)=ax-b开始,将其等同于27x-26。这给了我们两个方程:a=27和b=26.•然后,将f应用于f1(x)=27x-26的两边。这就得到了f2(x)=a(27x-26)-b=27ax-26a-b而f(27x-26)=27x-26。•比较x的系数和f2(x)=f(27x-2这个模型重复了上面的概念错误(再一次,尽管a和b的选择已经固定,但它们被当作变量,其值仍然可由于GPT-4实际上一直在尝试同一(无效的)归纳论证的不同变化,继续这一对话的几次尝试都陷入了死胡同。另一方面,在讨论的早期部分,对原始问题的不同(但等同)表述6偶尔会引出一条正确的推理路4.1.2原问题的第二个变体人:现在假设我改变了问题,使函数f是2度的多项式(其中x的系数2是非零的)。在这种情况下,你?这将如何改变事情?AI:如果f是2度的多项式,那么我们可以写出f(x)=ax2+bx+c,对于一些常数a,b,c。然后,给定的方程变成6例如,如果在后续问题中,我们加上"注意,右手边仍然是线性函数在这一点上,GPT-4输出了一个很长的计算,犯了几个错误,并且没有得出正确的答案(因为在这种情况下没有解决方案)。相反,我们打断它,并更抽象地AIAI:好吧,我能注意到的一点是,如果f是一个2度的多项式,那么f(f(x))是一个8度的多项式,因为多项式的组合的度数是多项式的度数的积。然而,方程的右边,27x+13,是一个1度的多项式。这意味着存在一个矛盾,因为8度的多项式不可能等于所有x值的1度的多项式,因此,没有2度的多项式满足方程f(f(x))=27x+13。这是一个坚实的论据。我们现在用另一个问题来人类:对。所以,线性函数是很好的,因为如果你把一个线性函数与它本身进行组合,你仍然得到函数。同样,如果f(x)=logx,那么f(f))),而如果f(x)=xk对于某个常数k,那么f(f(x))=(x)kk=xk2,这仍然是一个幂函数。这些幂函数。例如,如果f(x)=ex,那么f(f(x))=eex,这仍然是一个指数。逆向关系得到。逆向关系得到。人类:你确定eex是一个指数函数吗?在这种情况下,eex不是一个指数,而是一个形式为f(x)=ax的函数。使用指数化和对数的特性。所以,答案取决于你使用的定义。人:为什么eex+y=eex+ey这一事实是正确的?这似乎意味着,ex+y=ex+ey。将其改写为log(eex+y)=log(eex+ey)。然后,利用log(ez)=z对于任何z的属性,我们在指数和对数形式之间利用它们之间的y,根据指数函数的定义,这是真的。因此,我们可以来回走动人:等等,那么ex+y=ex+ey是真的吗,还是不真的?你似乎在自相矛盾。AI:ex+y=ex+ey,这不是真的。这是一个常见的误解,是由于混淆了指数和对数形式而产生的。真实的情况是,eex+y=eex+ey,这是一个不同的指数为ex+y。这场讨论似乎又把GPT-4逼到了死胡同,随着对话的继经验之谈:在这一点上,人们可能会猜测GPT-4只是缺乏关于指数函数行为的相关知识。然而,情况似乎并非如此,因为该模型能够正确回答并证明"abc=(a)bc是真的吗?"。这表明,与其他领域一样,GPT-4的数学知识也是取决于环境的。虽然这并不意味着GPT-4只记住了常用的数学句子,并进行简来决定使用哪一个(例如,交替使用名字/数字等通常不会影响GPT-4的答案质量但我们确实看到问题措4.1.3对谈话中强调的局限性的分析上述对话突出了一个鲜明的对比,一方面是模型在需要相当程度的方面是它的基本数学错误和无效的陈述。如果是人类产生了后者,我们会怀疑他们的理解力。可以说,这种对比对人类来说是非常不典型的。因此,我们面临着一个具有挑战性的问题:该模型在多大程度上体现了对数学的"真正理解"?这个问题的定义并不明确。尽管如此,我们还是尝试着回答这个问题。我们首先要论证的是,数学理解有几个方面:1.创造性推理:识别哪些论据、中间步骤、计算或代数操作在每个阶段可能是相关的,以规划出一条通往解决方案的道路的能力。这一部分通常是基于启发式的猜测(或者在人类的情况下,是直觉并2.技术熟练程度:按照规定的步骤进行常规计算或操作的能力(如对一个函数进行微分或对一个方程中3.批判性推理:批判性地检查论证的每一步,将其分解为各个子部分,解释它所包含的内容,它与论证的其他部分的关系,以及它为什么是正确的。当解决一个问题或产生一个数学论证时,这通常伴随着创造性推理。当涉及到高中水平的高级问题时(偶尔也有更高的水平该模型在选择正确的论证或解决问题的路径方面表现出高水平的能力。将此与上面的例子联系起来,该模型正确地选择了在原始问题中尝试写出递归关系,并在后续问题中论证多项式的组成程度。在这两种情况下,建议都是在"知道"这条道路是否会通向正确的解决方案之前提出的。第4.2节和附录D包含了更多的例子,展示了模型在这方面的能力,我技术熟练度。虽然模型清楚地显示出对与不同程序(如解方程组)相关的算法的高度了解,但在执行这些任务时也经常犯错,如犯算术错误、混淆运算顺序或使用不正确的符号。我们在附录D.1中进一步讨论这些典型错误的一些例子。我们推测,这一方面可以通过让模型访问代码的执行来改善,这将使它能够更准确地批判性推理。该模型在第三个方面表现出明显的不足,即批判性地检查论证的每个步骤。这可以归结为两个因素。首先,模型的训练数据主要由问题及其解决方案组成,但它并没有捕捉到表达导致数学问题解决的思考过程的措辞,在这个过程中,人们会做出猜测,遇到错误,验证和检查解决方案的哪些部分是正确的,回溯等等。换句话说,由于训练数据基本上是对解决方案的线性阐述,在此数据上训练的模型没有动力参与"内部对话",在对话中重新审视和批判性地评估自己的建议和计算。第二,尝试事情和回溯的限制是该模型所操作的下一个词预测范式所固有的。它只生成下一个词,而且它没有机制来修订或修改其先前的输出,这使得它"线性"因此,宽泛地说,我们可以把这个模型的缺点看作是"天真"的注意力错误与作为下一个标记预测机器的"线性思维"所带来的更基本的限制的结合。一个重要的问题是,上述哪些问题可以通过进一步的训练(也许用一个更大的模型)来缓解。对于前一个问题,我们认为进一步的训练可以缓解这个问题,正如超人的编码能力所证明的那样,这种注意力错误也是致命的;一个关键的区别是,GPT-4很可能是在比数学数据多得多的代码上训练的。我们认为,后一个问题构成了更深刻的限制。我们将在第8节详细讨论这个问题。在本节的其余部分,我们评估了该模型在常用的数学问题解决基准上的能力,并展示了该模型在真实世界场景中应用定量思维的能力。我们还比较了GPT-4和ChatGPT在这两个基准和其他数学问题上的表现(更多例子见附录D)。粗略地说,我们发现GPT-4比ChatGPT表现出了明显的改进:GPT-4表现出对问题更深入的理解,并能在许多复杂的问题上运用适当的推理。而ChatGPT则经常求助于低级别的启发式方法,提到与问题只有表面关系的公式和概念,这表明它缺乏实际的理解力。在本节的最后,我们用几个例子来证明高4.2数学问题数据集上的表现常用作基准的数学数据集上的性能:GSM8K[CKB+21]和MATH[HBK+21]。GSM8K是一个小学数学数据集,包含8000个问题和答案,主题包括算术、分数、几何和文字问题。MATH是一个高中数学数据集,包含12,500个问题和答案,主题包括代数、微积分、三角学和概率。我们还在MMMLU-STEM数据集上测试了该模型,该数据集包含约2000道多选题(4选1涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用重要声明:正如介绍中所解释的(例如见脚注1我们的实验是在GPT-4的早期版本上进行的。特别是在GPT-4的最终版本上,所有的定量结果都会有所不同,尽管总体趋势仍然是一样的。我们在这里提供的数字只是为了说明问题,最终的基准结果可以在OpenAI的技术报缓解过度拟合。使用基准来评估LLM的推理能力的一个潜在问题是,他们可能在预训练期间记住了基准数据集的问题或答案,因为这些问题可能是数据集的一部分。为了减少这种形式的过拟合的可能性,我们采取了以下策略:(2)先写下步骤,再写下最终答案。模板不在网上,MMMLU-STEM等数据集的详细解决方案也不在网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽省建筑安全员《A证》考试题库及答案
- 贵阳人文科技学院《形式化方法导论》2023-2024学年第一学期期末试卷
- 广州珠江职业技术学院《机能学实验(二)》2023-2024学年第一学期期末试卷
- 广州新华学院《工业机器人基础操作与编程实训》2023-2024学年第一学期期末试卷
- 广州卫生职业技术学院《分子与细胞生物学检测技术》2023-2024学年第一学期期末试卷
- 广州铁路职业技术学院《建筑及环境设计方法学》2023-2024学年第一学期期末试卷
- 2025年江西省安全员《B证》考试题库
- 2025山西建筑安全员B证考试题库及答案
- 《电子狗哪个牌子好》课件
- 护士礼仪与沟通技巧课件
- 浙江省金华市(2024年-2025年小学五年级语文)人教版期末考试((上下)学期)试卷及答案
- 陆上风电场设备选型技术导则
- 核心素养导向的单元整体教学
- 中医妇科疾病的治疗(完美版)课件
- 汽车维修行业投诉处理管理制度
- 济南大学《线性代数与空间解析几何》2023-2024学年第一学期期末试卷
- 山东省青岛市2024-2025学年七年级上学期11月期中英语试题
- 2024年海南省公务员录用考试《行测》试题及答案解析
- 《预防未成年人犯罪》课件(图文)
- 教育机构日常运营与管理指南
- 2024年浙江省能源集团应届生招聘高频难、易错点500题模拟试题附带答案详解
评论
0/150
提交评论