




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
理时代开始入思考”——即推理时进行推理转变。这一演变正在解在我们的论文发表两周年之际“生成的AI:一个创造性的新世界“人工智能生态系统看起来非常不同,我们对即将发生的事情有一些预测。生成式AI市场的底层正在在一个关键的规模化玩家和联盟组成的平衡状态中稳定下来,包能够获取巨额资本的规模化玩家仍在竞争之中。尽管这场战斗远未结束(并且仍在不断升级),但目前的格局已经形成。博弈论时尚),市场的结构本身正在巩固,越来越清楚的是,我们将拥有越来越便宜且充足的下一类预测。随着LLM市场结构趋于稳定,下一个前沿领域正在逐渐显现。注意力转向了推理层的发展与扩展,其中“系统2”思维占据主导地位。受到AlphaGo等模系统在推理时进行深思熟虑的推理、问题解决和认知操作的能力,而不仅仅是快速模式匹配。同时,新的认知架构和用户界面正在塑造这些推理能力向用户交付及交互的方式。这一切对AI市场中的创始人意味着什么?这对现有的软件公司意味着什么?而在我们作为投资者看来,生成式AI栈中哪个层面最具前景?在我们最新的关于生成式AI市场状态的文章中,我们将探讨基础的大语言模型层的整合如何为扩展这些高层次的推理能力和自主能力奠定了基础,并讨论新一代具有新颖认知架构The2024最核心的模型更新由OpenAI推出,该模型最初名为o1,曾用名Q*或Strawberry。这不仅重新确立了OpenAI在模型质量排行榜上的领先地位,还标志着架构上的显著改进。更具体地说,这是首个具备真正通用推理能力的模型,OpenAI通过推理时的计算实现了这一突破。这表示什么?预训练模型在大量数据上进行下一个词预测。它们依赖于“训练时计算”。随着规模的扩大,一个emergent属性是基本的推理能力,但这种推理能力非常有限。如果你能教模型进行更直接的推理会怎样?这正是Strawberry所做的事情。当我们提到“推理时计算”,我们指的是让模型在给出响应之前停下来思考,这需要在推理时进行更多的计算那么,当模型停下来思考时,它在做什么呢?让我们先brief地回到2016年3月的首尔。深度学习历史上一个最具里程碑意义的时刻就发生在这里:AlphaGo与传奇围棋大师李世石之间的对决。这不仅仅是一场人机对抗的比赛——这是世界看到人工智能不仅仅能够模仿模式的时刻。思考.AlphaGo与之前的棋类AI系统(如DeepBlue)有何不同?与大规模语言模型(LLMs)类似,AlphaGo首先通过一个包含约3000万步棋的数据集进行预训练,以模仿人类专家的水平,并通过自我对弈获取更多的数据。然而,与直接从预训练模型中产生即时反应不同,AlphaGo会花时间思考。在推理时,模型会在多种潜在未来场景中进行搜索或模拟,评估这些场景的价值,并根据预期价值最高的场景(或答案)做出回应。给予AlphaGo更多的时间,其表现会更好。在没有推理时计算资源的情况下,模型无法超越顶级的人类玩家。但随着推理时间的增加,AlphaGo的表现会越来越好——直到超越最顶尖的人类玩家。让我们回到LLM的世界。在这里复制AlphaGo的最大挑战在于构建价值函数,即用于评估响应得分的函数。如果是在下围棋,这个过程相对直接:可以模拟整个游戏直到结束,确定胜者,然后计算下一步的预期值。如果是在编程,这个过程也相对直接:可以测试代码并验证其是否有效。但是,如何评分一篇草稿的文章?或者一个旅行计划?或者一份长文档中关键术语的总结?这正是当前方法在推理方面遇到困难的原因,这也是为什么Strawberry在接近逻辑的领域(如编程、数学和科学)表现较强,而在更加开放和无结构的领域(如写作)表现较弱的原因。虽然草莓的实际实施细节严格保密,但关键思想涉及围绕模型生成的思维链进行强化学习。审查模型的思维链表明,正在发生一些根本且令人兴奋的变化,这些变化实际上类似于人类的思考和推理方式。例如,o1展示了当遇到困难时回溯的能力,这是扩展推理时间的一个emergent属性。此外,它还展示了像人类一样思考问题的能力(例如,通过可视化球面上的点来解决几何问题),以及以新的方式思考问题的能力(例如,在编程竞赛中以不同于人类的方式解决问题)。并且研究人员正在探索许多新的想法以推动推理时计算的发展(例如,新的奖励函数计算方法、新的缩小生成器/验证器差距的方法),以期提高模型的推理能力。换句话说,深度强化学习领域仍然充满创新潜力。再次凉爽,它正在启用一个全新的推理层。是AI领域的下一个前沿。模型不仅要知道事情,还需要能够在实时情况下暂停、评估并推理决策。将预训练视为系统1层。无论模型是基于数百万围棋走法进行预训练(如AlphaGo)还是基于互联网规模的数千万兆字节文本进行预训练(如大规模语言模型),其任务都是模仿模式——无论是人类棋局还是语言。但模仿再强大,也并非真正的推理。它无法正确地通过复杂的新情况进行思考,尤其是那些未包含在训练数据中的情况。这里就需要运用系统2思维,而这正是最新一波AI研究的重点。当一个模型“停下来思考”,它不仅仅是在生成已学习的模式或根据过往数据进行预测。它是在生成一系列的可能性,考虑潜在的结果,并基于推理做出决策。对于许多任务,System1绰绰有余。正如NoamBrown在我们最新的一集中指出的那样训练数据思考不丹的首都是不需要花太多时间的——你either知道它或者不知道它。这里快速、基于模式的回忆效果最佳。但在面对更复杂的问题——如数学或生物学的重大突破时,快速且直觉的反应已经不够。这些进展需要深入的思考、创新性的问题解决能力——最重要的是——时间。同样的道理也适用于人工智能。为了应对最具挑战性和意义的问题,人工智能需要超越仅仅在样本内快速响应,并花费时间来产生那种定义人类进步的深思熟虑的推理。最重要的见解来自o1纸镇上有一个新的缩放法。培训前LLM遵循一个很好理解的标度律:您在预训练模型上花费的计算和数据越多该研究论文为扩展计算能力开辟了全新的维度:模型在推理阶段(或“测试时间”)获得的计算资源越多,其推理能力就越强。当模型能够思考数小时、数天甚至数十年时会发生什么?我们将解决黎曼猜想吗?我们将回答阿西莫夫的最后一个问题吗?这种转变将使我们从一个庞大的培训前集群世界转向推理云-可以根据任务的复杂性动态扩展计算的环境。当OpenAI、Anthropic、谷歌和Meta扩大其推理层并开发越来越强大的推理机器时会发生什么?我们将拥有一个统领一切的模型吗?生成式AI市场初期的一个假设是,一家模型公司会变得如此强大和全面,以至于它会吞并所有其他应用。这一预测到目前为止在两个方面是错误的。首先,在模型层存在大量竞争,SOTA能力不断跃升。可能有人可能会通过广泛的领域自玩来实现持续的自我改进并取得突破,但目前我们还没有看到任何证据表明这一点。相反,模型层的竞争非常激烈,自上次开发者日以来,GPT-4每个令牌的价格下降了98其次,这些模型大多未能成为突破性的应用产品,仅有的例外是ChatGPT。现实世界是复杂的。优秀的研究人员并没有兴趣全面理解每一个可能的功能在每个垂直领域的端到端工作流程。对他们来说,在API层面停止探索并让开发者社区处理现实世界的复杂性既是合乎逻辑的选择,也是经济上的理性决策。这对于应用层来说是个好消息。您作为科学家规划和执行行动以达成目标的方式与您作为软件工程师的工作方式大不相同。而且,即使是不同的软件工程公司,这种差异也依然存在。随着研究实验室进一步拓展横跨领域的通用推理边界,我们仍然需要应用或领域特定的推理来交付实用的人工智能代理。混乱的现实世界需要大量的领域和应用特定的推理能力,这些能力无法有效地编码到通用模型中。输入认知架构,或者如何理解您的系统:代码和模型交互的流程,该流程接收用户输入并执行操作或生成响应。例如,在Factory工厂中,每款“仿生人”产品都有一个定制的认知架构,这种架构模仿人类思考方式来解决特定任务,比如审查拉取请求或编写并执行迁移计划以更新服务的后端。Factory的仿生人会分解所有依赖关系,提出相关的代码更改建议,添加单元测试,并邀请人类进行审核。在获得批准后,将在开发环境中运行这些变更,并在所有文件通过测试时合并代码。这与人类的操作类似——通过一系列离散的任务而非一个通用的黑箱答案来想象一下你想在人工智能领域创业。你打算瞄准堆栈的哪一层?你想在基础设施层面竞争吗?祝你好运,能击败NVIDIA和超大规模云服务商。你想在模型层面竞争吗?祝你好运 ,能击败OpenAI和马克·扎克伯格。你想在应用层面竞争吗?祝你好运,能击败企业级IT和全球系统集成商。哦。等等。这其实听起来还挺可行的!基础模型既神奇又混乱。主流企业无法处理黑箱、幻觉和笨拙的工作流程。消费者面对空白提示,不知道该问什么。这些是应用层的机会。两年前,许多应用层公司被视为“仅仅是GPT-3之上的一个包装”。如今,这些包装被证明应用层AI公司不仅仅是基础模型之上的用户界面。恰恰相反,它们拥有复杂的认知架构 ,通常包括多个基础模型以及某种路由机制,用于检索和生成答案(RAG),包含确保合规性的护栏,以及模拟人类在处理工作流程时推理逻辑的应用逻辑。云转型是软件即服务(SaaS)。软件公司转变为云服务提供商。这带来了3500亿美元的多亏了人工智能推理,人工智能的过渡是服务即软件.软件公司把劳动转化为软件。这意味着可address的市场不是软件市场,而是以服务市场的名义衡量的服务市场。万什么是销售工作?西erras就是一个很好的例子。B2C公司会在其网站上使用西erras与客户进行交流。待完成的任务是解决客户的问题。西erras按解决问题的数量收费。不存在“座位”这种概念,只有待完成的任务。西erras负责完成这些任务,并根据完成情况获得相应的报酬。这是许多AI公司的发展方向。赛里玛(Sierra)得益于其优雅失败模式(即升级至人工代p)部署,并利用这些代表来赢得作为自动驾驶(nohumanintheloop)的机会。GitHubCopilot是这一模式的良好例证。随着生成AI的萌芽推理能力,一类新的代理应用程序开始出现。这些应用程序层公司的形态是什么样的?有趣的是,这些公司的形态与它们的云服务predecessor有所不同:云公司瞄准了软件利润池,而人工智能公司则瞄准了服务利润池。云公司按每座席($/seat)销售软件,而人工智能公司按成果收费($/outcome)。云公司倾向于自下而上的销售模式,实现无缝分销。人工智能公司则越来越多地采取自上而下的销售模式,并采用高接触、高信任度的交付模型。我们正在看到这些代理型应用在知识经济的所有领域中出现新的群体。以下是一些例子。哈维:AI律师Glean工厂:AI软件工程师Abridge西耶拉:AI客户支持代理XBOW:AI渗透测试员通过将这些服务的边际成本降至与推理成本急剧下降相一致的水平,这些代理应用正在扩大并创造新的市场。est)是一种模拟网络攻击的方法,公司通过这种方式来评估自己的安全系统。在生成式AI出现之前,公司只有在特定情况下才会聘请渗透测试人员(例如为了合规要求),因为人工渗透测试成本高昂:这是一项由高技能人力完成的手工任务。然而,XBOW正现在演示自动化渗透测试基于最新的推理大规模语言模型(LLMs),其性能与最顶尖的人类渗透测试专家相当。这将扩大渗透测试市场,并为各种规模的企业开启持续渗透测试的可能性。这对SaaS世界意味着什么?今年早些时候,我们与有限合伙人进行了会面。他们提出的主要问题是:“AI转型是否会破坏你们现有的云公司?”立渠道与incumbents建立产品之间的竞赛。年轻的拥有创新产品的公司能否在incumbents掌控客户之前,先吸引到一批客户?鉴于许多人工智能的魔力源自于基础模型,我们的默认假设是incumbents能够很好地应对这一挑战,因为这些基础模型对他们来说同样易于获取,并且他们还拥有现有的数据和渠道优势。初创企业的主要机会不是取代incumbent的软件公司,而是去争夺可自动化的工作池。那就是说,我们现在已经不再那么确定了。关于认知架构的部分,请参见上面的内容。将模型的原始能力转化为一个令人信服且可靠的端到端商业解决方案需要巨大的工程努力。二十年前,本地软件公司对SaaS的概念嗤之以鼻。“有什么大不了的?我们也可以自己运行服务器并通过互联网交付这些服务!”尽管概念上很简单,但随之而来的是业务的全面重塑。EPD从瀑布开发和产品需求文档(PRD)转变为敏捷开发和A/B测试。市场拓展(GTM)从自上而下的企业销售和牛排晚餐转变为自下而上的平台即服务(PLG)和产品分析。商业模式从高年度服务费(ASP)和维护收入流转变为高净Dollar-BasedNetDollarRetention(NDR)和基于使用的定价。很少有本地软件公司成功完成了这一转型。如果AI是一个类似的转变呢?AI的机会是both销售工作and更换软件?借助Day.ai,我们窥见了未来的影子。Day是一款原生AI客户关系管理(CRM)系统。系统集成商通过配置Salesforce来满足您的需求,可以赚取数十亿美元。仅凭对您邮箱和日历的访问权限以及填写一份一页的问卷,Day就能自动生成一个完全符合您业务需求的CRM系统。虽然它目前还不具备所有高级功能(暂且如此),但无需任何人工干预即可保持新鲜感的自动化CRM系统的魔力已经促使人们开始转向使用。作为投资者,我们在哪里度过周期?资金部署在哪里?这是我们的快速选择。基础设施这是超大规模提供商的领域。它是由博弈论行为驱动的,而不是微观经济学。对风险资本家来说,这是一个糟糕的领域。模型这是超大规模提供商和金融投资者的领域。超大规模提供商用资产负债表换取损益表,将资金投资于计算收入等形式的云业务,这些资金最终会回到他们的云业务中。金融投资者则受到“惊叹于科学”的偏见影响。这些模型非常酷炫,这些团队也极其出色。微观经济学在这里可以忽略不计!开发人员
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西国际商贸学院《项目管理全景模拟》2023-2024学年第二学期期末试卷
- 陕西工业职业技术学院《货运和商务管理》2023-2024学年第二学期期末试卷
- SCI论文写作与投稿 第2版-课件 13-SCI论文数学式使用
- 陕西省咸阳市杨陵区2025年小升初全真数学模拟预测卷含解析
- 陕西省商洛中学2025届高三5月适应性考试生物试题含解析
- 陕西省宝鸡市岐山县重点名校2025届初三下学期高中毕业班3月质检物理试题试卷含解析
- 陕西省延安市实验中学2025年高考历史试题倒计时模拟卷(7)含解析
- 公共经济学课程串讲
- 陕西省西安市临潼区重点名校2024-2025学年初三下学期第一次诊断考试物理试题含解析
- 陕西职业技术学院《传统运动养生学》2023-2024学年第二学期期末试卷
- 2025道德讲堂课件
- 学生心理健康一生一策档案表
- 2025年湖北职业技术学院单招职业技能考试题库汇编
- 2025年上半年绵竹市九绵产业投资限公司招聘易考易错模拟试题(共500题)试卷后附参考答案
- 国家义务教育质量监测八年级美术样卷
- 2025年广东省广州市海珠区官洲街雇员招聘5人历年自考难、易点模拟试卷(共500题附带答案详解)
- 滑坡地质灾害治理工程资源需求与保障措施
- 中央戏剧学院招聘考试真题2024
- 专题07力、运动和-5年(2020-2024)中考1年模拟物理真题分类汇编(天津专用)(带答案解析)
- 浙江省温州市2024年九年级学生学科素养检测中考一模数学试卷(含答案)
- 2025年春人教版英语七年级下册 Unit 3 Keep Fit(教学设计)
评论
0/150
提交评论