【国信证券】人工智能专题:Openai发布会梳理_第1页
【国信证券】人工智能专题:Openai发布会梳理_第2页
【国信证券】人工智能专题:Openai发布会梳理_第3页
【国信证券】人工智能专题:Openai发布会梳理_第4页
【国信证券】人工智能专题:Openai发布会梳理_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能专题:

Opena

i发布会梳理证券研究报告

|

2024年12月23日行业研究

·

行业专题

投资评级:优于大市(维持)请务必阅读正文之后的免责声明及其项下所有内容OpenAI从12月5日连续12个工作日每天公布一个新应用或功能。1

)DAY1:发布完整版o1;2

)DAY2

:发布强化微调技术;3

)DAY3

:发布视频大模型Sora;4

)DAY4

:发布协作平台Canvas;5

)DAY5

:发布ChatGPT

×Apple

Intelligence;6)DAY6

:发布高级语音模式;7

)DAY7

:发布Projects

in

ChatGPT;8)DAY8

:发布ChatGPT搜索;9

)DAY9

:发布o1API;10)

DAY10

:发布通话访问模式;11)

DAY11

:发布全新桌面应用;12)

DAY12

:发布新一代推理模型o3&o3mini。请务必阅读正文之后的免责声明及其项下所有内容•风险提示:A

I应用落地不及预期、行业竞争加剧、大模型研发不及预期。摘要 Open

a

i

12天发布会

风险提示请务必阅读正文之后的免责声明及其项下所有内容0201目录

发布三大基础模型

,模型性能跨越式提升•12天的发布会中

OpenAI推出了三款基础模型

,分别是增强的ChatGPT

o1模型、

Sora视频生成模型、

o3模型,新的模型在数学和科学领域均有

着卓越表现

同时也意味着openai在推理能力方面迈出了重要一步。•o3模型的发布

,更是标志着AI在编程、科学推理等领域的巨大进步。

o3模型接近通用人工智能(AGI)

的标准

,为复杂决策和高端问题解决提供

了新的技术基础。•Sora的发布将极大降低内容创作的成本和时间。

为营销、培训、市场等各领域提供AI生成的高质量视频

,有望成为企业未来内容创作的新标准。表1:openai

发布会基础模型部分发布日期发布产品产品描述DAY1完整版o1o1的完整版本

,相较之前在推理方面具有更快的速度和更优的性能DAY3Sora在文生视频的基础上

,加入多种编辑工具

,同时支持生成20s视频输出及多种分辨率和格式DAY12o3

&o3

mini预告更强的推理模型

,在ARC-AGI测试中达到87.5%

,超过人类阈值

,是o1的三倍请务必阅读正文之后的免责声明及其项下所有内容Openai发布会——基础模型资料来源:OpenAI

,国信证券经济研究所整理

强化微调技术

,提升垂直行业模型能力•用户可以根据极少量的数据

,训练特定领域的专家模型。这意味着企业构建定制化的AI模型

,不再需要大量的特定数据

集标注。•定制化能力:相较于通用AI

,强化微调技术为企业提供了更灵活的定制化路径。企业可以通过这一技术打造专属的AI助

,在提高生产效率的同时

,提供更具个性化的服务

,从而有效地提升用户体验。•例如

,个性化推荐、A

I诊疗系统、A

I审查工具等特定场景均都可以通过这一技术快速部署。表2:openai发布会微调部分发布日期发布产品产品描述DAY2强化微调使用较小的数据集即可在特定场景创建专家模型

,对科研领域帮助较大DAY9o1APIopenai

向第三方开放调用o1API权限

,可支持函数调用、结构化输出、开发者消息、视觉功能请务必阅读正文之后的免责声明及其项下所有内容Openai发布会——微调资料来源:OpenAI

,国信证券经济研究所整理发布日期发布产品产品描述DAY4Canvas集智能写作、代码协作于一身的a

i工作台DAY5ChatGPT

×AppleIntelligenceApple

Intelligence对ChatGPT的深度整合

,在Siri、协作工具和相机控制方面增加与ChatGPT的集成DAY6高级语音模式将5月发布的实时视频通话功能全量开放DAY7Projects

inChatGPT允许用户创建特定项目

,设置自定义指令

,并将相关对话集中DAY8ChatGPT搜索可在实时对话中调用搜索功能

,并支持多模态搜索DAY10通话访问模式用户可通过拨打电话的方式与ChatGPT对话DAY11桌面应用在MAC其他程序中可轻松调取ChatGPT

多款a

i智能体升级

,大幅提升用户体验•发布会发布了集智能写作&代码协作于一身的a

i工作台、新的桌面应用、高级语音模式、通话访问模式等多款aiagent产品

,标志着ChatGPT从简单的会话助手向更强大的代理工具的转变

,从而可以代表客户执行更多任务

,为用户带来全新的便捷体验。表3:openai发布会ai

agent部分请务必阅读正文之后的免责声明及其项下所有内容Openai发布会——ai

agent资料来源:OpenAI

,国信证券经济研究所整理

正式发布完整版o1

,性能大幅提升•

在今年9月份

OpenAI发布o1-preview

,对模型的技术思路进行了改进

:将更多算力运用于推理侧

o1是使用大规模强化学习训练并使用思维

链进行推理的系列模型。•

今年12月

OpenAI正式发布了o1完整版

o1完整版在数学、编程、博士阶段科学问题(困难问题)

领域的性能远超GPT4o

,在科学问题领域

超越人类专家

,并在数学、编程领域的性能较o1-preview有了大幅提升。•

相较于o1-preview

OpenAI对o1进行了使用体验方面的改进:

o1目前对于简单问题能够回答更加迅速

OpenAI测试目前o1较o1-preview重

大错误率降低了34%

,速度提升50%。•目前o1已面向所有Plus订阅用户推出

,用于替代o1-preview

,并将上线后续推出的Pro订阅。

图1:o1在数学、编程领域能力有了极大提升请务必阅读正文之后的免责声明及其项下所有内容DAY1:

完整版o1发布资料来源:OpenAI

,国信证券经济研究所整理

支持多模态

可处理模糊问题•OpenAI对o1进行了改进

目前支持图像、

文本两种输入方式。在演示中

,对于一张手绘的太空太阳能驱动的数据中心示意图

o1估计出了其

散热器表面积并解答了两个问题

:如何处理太阳和深空环境

以及这里如何体现了热力学第一定律

,整个推理过程仅需10秒钟。•

在示例中

OpenAI故意省略了冷却面板的温度等关键数据

,用以测试o1在处理模糊问题时的能力。示例中o1自行识别了关键参数缺失

,并选

择了合理的温度范围进行后续的推理

,输出了合理结果。•OpenAI表示

o1未来还会添加网页浏览、文件上传等功能

以及引入API

,具体上线时间未知。请务必阅读正文之后的免责声明及其项下所有内容DAY1:

完整版o1发布资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图3:研究人员用手绘图片测试o1性能图4:o1根据手绘图像准确回答问题

推出PRO订阅•OpenAI发布最新订阅选项ChatGPT

Pro

,定

价200美金/月

,在这个套餐里

OpenAI

供了o1

pro

mode

,这个模式中o1处理非常

难的题目时

,用户可要求o1

pro获得更多算

,并强化思考。

o1

pro

mode在数学、编

程、科学问题领域性能较o1均有提升

,但重

点在于o1

pro

mode的连续性。•OpenAI设计了“

四次测试”评估

:模型需要

连续四次都答对同一个问题才算通过。

在这

种条件下

o1

pro模式保持了相当高的可靠

:在竞赛数学中达到80%

,编程测试中达

到74.9%

科学问题中达到74.2%。

远超普

通版o1。这说明o1

pro能提供更佳的稳定性

和一致性

对于需要AI协助完成重要工作的

专业人士来说能够有更好的保障。•同时

ChatGPT

Pro订阅计划能无限制访问OpenAI

o1

以及o1-mini

GPT-4o和Advanced

Voice。请务必阅读正文之后的免责声明及其项下所有内容资料来源:OpenAI

,国信证券经济研究所整理图6:o1pro模型具有更强稳定性,适用于专业领域DAY1:

完整版o1发布图7:Pro订阅可以解锁o1Pro及其他权益图5:o1pro模型较o1性能有全方位提升资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理

o1pro拥有更强的推理能力•

在示例中

OpenAI的研究员要求o1找到一种符合六个标准的特定蛋白质。这个问题的挑战在于

,需要模型回忆起相当专业的化学领域知识,

而对于任何给定的标准

,可能会有数十种蛋白质符合该标准。所以模型必须全面考虑所有候选者

,然后检查它们是否符合所有标准。•o1-preview在此问题经常出错

,而示例中o1

pro仅使用53秒便准确回答了相关问题

,并可查看详细的思考过程。•

在思考困难问题时

目前o1模型的思考时间可达几分钟

因此OpenAI为模型添加了思考进度条

以直观展示目前模型的进程。请务必阅读正文之后的免责声明及其项下所有内容DAY1:

完整版o1发布资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图8:o1长时间思考将显示进度图9:o1可展示详细思考进度•强化微调可让开发者使用强化学习针对具体任务对模型进行进一步微调

,并根据提供的参考答案对模型的响应进行评分具体来

,强化微调不仅会教模型模仿其输入

,更是会让其学会在特定领域以新的方式进行推理。

当模型发现问题时

,要为它提供思

考问题的空间

,然后再对模型给出的响应进行打分。之后

,利用强化学习的力量

,可以强化模型得到正确答案的思维方式并抑

制导向错误答案的思维方式。

强化微调的优势?•快速高效

:相比于传统技术

,强化微调技术更高效

,不需要大规模的数据集支持。•使用灵活

:用户可根据需求即时调整模型

,使模型更加符合特定场景需求。•应用广泛

:强化微调技术可以推动客服、教育、创意、研究等各个领域的应用。图10:OpenA

I公布强化微调技术DAY2:

强化微调技术

什么是强化微调?请务必阅读正文之后的免责声明及其项下所有内容资料来源:OpenAI官方推特,国信证券经济研究所整理

强化微调后在特定领域性能明显提升•

在官方演示里

OpenAI设置了一个实验

:在给定症状列表的情况下

,用模型预测可能导致罕见遗传疾病的基因

,并让模型解释为什么选这些基

因。实验人员使用三种模型进行对比:

o1

mini、

o1完整版、

o1

mini强化微调版。•

对于o1

mini强化微调版

,实验人员汇集了大约1100个病例报告作为训练和验证的数据集

,在使用训练数据集对模型进行训练后

,上传验证数据

集对模型推理能力进行反复测试和调整

同时保证验证数据集和训练数据集之间的正确基因没有重叠

以防模型作弊。评估结果时

,实验人员设

置了三项指标:

1)模型一次答对的概率;

2)模型前五次预测中有正确答案的概率;

3)模型预测中有正确答案的概率。•

结果显示

,经过强化微调的o1

mini在一次答对的准确率上跃升180%达到了31%

,各方面全面超越了o1。

强化微调技术将使开发者能够通过更

快、成本更低的o1

mini模型获得超越o1的专业性能

,将极大促进AI在各领域的应用。请务必阅读正文之后的免责声明及其项下所有内容DAY2:

强化微调技术资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图11:强化微调后o1mini模型超越o1图12:强化微调后o1mini性能评测

正式发布视频大模型Sora•

文本/图像生成视频:

Sora用户可以使用文本、

图像来提示Sora生成相关视频•时间线编辑

:全新推出的故事板工具让用户可以精准地指定每个帧的输入和生成视频的内容

,并轻松进行视频剪辑

,用户指令越少

Sora会尝试

填充更多细节

,用户指令越详细

Sora会尝试遵循要求方向生成视频。用户可在Sora中保存自己喜欢的风格

,并在后续视频生成任务中重复调

用。•

高分辨率、

多种格式支持:

Sora可以生成480p-1080p分辨率、

5-20秒、宽屏、竖屏或方形的视频。并且用户可以利用资源进行扩展、

remix(用户只需描述对视频的更改

Sora将自行完成)和融合。对于同一指示

Sora可生成多个不同视频方向的变体

,供用户选择。图13:用户可通过故事板工具直接描述生成相应视频请务必阅读正文之后的免责声明及其项下所有内容DAY3:

视频大模型Sora发布资料来源:OpenAI

,国信证券经济研究所整理

多种工具支持Sora•1)

Remix:使用Remix替换、删除或重新构想视频中的元素;•2)

Re-cut:找到并提取最佳帧或视频段落

,然后向任一方向延伸它们以完成特定场景

,例如可对之前生成的视频进行裁剪

,要求Sora生成全新

开头或结尾;•3)

Loop

:使用Loop剪辑并创建无限重复的视频

,例如

:用户喜欢灯塔视频

,可使用Loop工具

Sora将自动生成内容将重复视频的开头和结尾

连接

,生成可重复视频;•

4)

Blend

:将两个视频合并为一个视频

,给Sora两个视频场景

Sora会将其中元素合并生成全新视频

,用户可用指令提示Sora两个视频的合并

方向;•5)

Style

presets

:使用Presets创建和分享自己的视频风格。图14:Sora定价

Sora定价•Sora目前已在欧洲和英国以外的其他地区上线,Plus用户可获得一个月生成50个优先视频的权限,Pro用户可获得无限生成权限,以及500次优先生成权限。资料来源:OpenAI

,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容DAY3:

视频大模型Sora发布

正式发布Canvas协作平台•Canvas全面开放

已被整合进ChatGPT中;•

提升了代码功能

,用户可以直接在Canvas上运行Python代码

,并可直观看到代码结果输出;•Canvas目前可被CustomGPT调用图15:Canvas工具目前已被整合进ChatGPT中请务必阅读正文之后的免责声明及其项下所有内容DAY4:

Canvas协作平台发布资料来源:OpenAI

,国信证券经济研究所整理

Canvas主要功能•

用户编辑文字:在使用Canvas工具后

,交互页面将被分为两部分

,左侧为与模型的对话

,右侧为用户可直接编辑的文档

,用户可直接在Canvas工具中删除、添加、修改ChatGPT回复的内容

以及进行加粗等格式调整。不论是写信、写公文还是论文

,这种新生成模式都可以大幅提升效率。

同时OpenAI在Canvas工具右下角集成了部分快捷工具

,用户只需点击即可实现包括询问模型反馈(

Suggest

edits)

、文档长度调整(

Adjustthe

length)

、语言风格转化(

Reading

level)

、文档润色(Add

final

polish)

、添加表情(Add

emojis)这些用户在处理文档时的常用功能。•

审稿

:很多人使用ChatGPT帮助写作

,但以前一问一答的形式非常繁琐

,现在用户只需要把文章复制粘贴到ChatGPT的文本框中

,通过文本输

入让其给出修改建议

,大模型给出的建议会以逐条批注的形式出现。用户可在页面中对应位置看到ChatGPT给出的修改建议

,并决定是否根据批

注进行润色

,之后关闭建议

,或者直接选择Apply

,让ChatGPT自行对内容进行修改。这使用户可以更直观的使用模型帮助自己审阅文章

,并给

出建议。请务必阅读正文之后的免责声明及其项下所有内容DAY4:

Canvas协作平台发布图17:Canvas可让用户更直观的看到ChatGPT对文章的修改建议图16:Canvas可快捷实现对模型回复的修改资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理

Canvas主要功能•

编程:

Canvas可以直接识别代码

,并转变成为代码编辑模式。

用户还可以在Canvas上直接运行测试

以及错误识别和修改错误的建议。

用户想

要Debug时

,可直接代码复制到ChatGPT上

即可让模型解释问题

,给出正确代码的示例。如果在ChatGPT上点运行代码出错了

,还可以使用A

I给出的comment

,与文本编辑内容类似

,如果用户点击Fix

Bug按钮

ChatGPT可自行对Bug进行修改

,修改的位置可以高亮显示。•引入CustomGPT:

CustomGPT允许用户根据自己的需求和偏好定制GPT模型

,通过给予GPT自定义指令以及自定义上下文等方法

,使其更好

地适应特定的应用场景或任务

,并支持将模型与他人分享

,使用GPT

Store平台

,用户可快速浏览、购买、下载和使用由OpenAI或第三方开发

的定制GPT模型和插件。图17:Canvas可直接进行代码修改、运行等功能

图18:CustomGPT可对模型进行自定义请务必阅读正文之后的免责声明及其项下所有内容DAY4:

Canvas协作平台发布资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理

Day5,苹果公司发布了其iPhone、

iPad和Mac软件的更新(iOS和iPadOS

18.2)

,将ChatGPT进一步嵌入苹果系统当中

,此次更新包括在Siri、写作工具和视觉智能中与ChatGPT的集成。

据彭博社消息,

ChatGPT在回答问题时的准确率比Siri高出25%

,且能回答30%更多的问题,

苹果选择与OpenAI合作

,将ChatGPT整合进iOS、

iPadOS和macOS系统将极大提升其智能体验。

目前

,在iPhone、

Mac、

iPad等设备中

,新版的苹果智能已经包含ChatGPT拓展功能,

用户可在设置中自行选择是否调用

ChatGPT。图19:ChatGPT已集成在App

le

intelligence中DAY5:

Chatgpt进一步集成到Apple生态系统请务必阅读正文之后的免责声明及其项下所有内容资料来源:OpenAI

,国信证券经济研究所整理

增强版高级语音模式•

增强版高级语言模式具备屏幕共享和视觉功能

ChatGPT可以协助理解手机摄像头以及屏幕上所查看的内容。这些功能在高级语音模式已有的基

础上进一步增强

目前ChatGPT支持像人类的自然对话对话

同时对话可以被中断

,具有多轮交互

,并理解非线性的思维过程。•

实时视频通话:

用户现在可以使用视频与ChatGPT进行交流

这使得沟通更加直观和生动

在官方展示案例中

OpenAI的工作人员通过ChatGPT的视频功能现场获取了如何制作一杯咖啡的指引。

当演示者按照步骤操作时

ChatGPT会同时口头提供见解和指导。•

实时屏幕共享:用户可以将自己的屏幕内容分享给ChatGPT

以获取ChatGPT提供的技术支持或协助处理屏幕内容。在官方演示中

OpenAI的

工作人员通过与ChatGPT共享屏幕

,获得了关于如何回复其消息的建议。请务必阅读正文之后的免责声明及其项下所有内容DAY6:

增强版高级语音模式发布图21:增强版高级语音功能支持屏幕共享图20:增强版高级语音功能支持视频交互资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理•

可以将ChatGPT的各种功能整合至一处

,便于用户创建并管理各类项目

,不仅支持Canvas界面

,还能通过ChatGPT

Search轻松接入互联网资源。•

分项目管理ChatGPT:

Projects赋予用户将聊天与数据分组的能力

,从而使用户能够依据自身需求更加便捷地定制ChatGPT。在创建Projects的

过程中

,用户可以在界面内设定标题、

自定义文件夹的颜色、上传与项目相关的文件

,并编写说明来指导ChatGPT如何最高效地协助用户完成项

目。在项目内部

,用户可以即刻开启聊天

,并通过侧边栏轻松地将过往的聊天记录添加到项目中

同样支持利用上下文信息来回答问题。聊天内

容能够保存在项目中

,便于支持用户稍后继续对话

,并清楚地知道在哪里查找所需内容。DAY7:

Projects对话管理工具上

Projectsin

ChatGPT请务必阅读正文之后的免责声明及其项下所有内容图23:Projects自动启动Canvas并生成邮件资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图22:用户可根据自身需求创建项目

搜索功能全新升级•

全方位体验升级:用户现在可以直接访问嵌入式YouTube视频、

图片、

电影资源

,还能便捷地使用商业地图和餐厅导航。在官方演示中

,演示者

只需与ChatGPT自然对话

ChatGPT便可自行判断是否需要调用ChatGPT

search

同时

用户也可以选择开启ChatGPT

search功能

。ChatGPT

search将自动根据要求总结网页内容

,并允许用户追溯网站来源。•

移动设备的优化体验:针对移动设备

OpenAI根据用户反馈优化了聊天搜索的体验。在官方演示中

,演示者搜索了Mission附近的墨西哥餐厅

,ChatGPT

search可自行进行筛选

,并展示了路线、

网站、

电话和营业时间等详细信息。用户可进一步提问哪些餐厅支持室外用餐

ChatGPTsearch可自行进行下一步筛选

,并列示符合要求的选项

,用户可点击商家地址

即可调用苹果地图规划路线。•

在Advance

Voice模式中集成

:可以在高级语音模式中使用搜索

,通过语音命令访问最新的网络信息

,增强了ChatGPT的交互性和便利性。在

官方演示中

,演示者通过语音向ChatGPT提问在12月23日苏黎世有什么活动

ChatGPT可在搜索后语音进行回复

,并支持用户对感兴趣的活动

进一步提问

,如举办时间、地点、活动举办当天的天气等。请务必阅读正文之后的免责声明及其项下所有内容DAY8:

ChatGPT搜索功能更新图24:用户可在ChatGPT网站中直接播放来自YouTube的视频图25:通过ChatGPT

search调用苹果地图资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理•Function

calling

:允许开发者将外部API和数据库连接到o1模型;•Structured

Outputs

:确保模型输出遵循开发者定义的JSON模式

,使解析和使用模型输出更加容易;•Developer

messages

:为模型指定指令

,例如定义语气、风格及其他行为;•

Vision

capabilities

:支持对图像进行推理

,解锁科学、制造或编码等领域中更多依赖视觉输入的应用;•Lower

latency:

o1在每个请求中平均使用比o1-preview少用60%的推理tokens;•Reasoning_effort:一个全新参数

,允许开发者控制模型在回答前思考的时间长度。DAY9:

o1正式版API全面上线

o1API全面开放请务必阅读正文之后的免责声明及其项下所有内容图26:开发者可调用o1API寻找文档中的错误资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图27:模型通过自定义格式输出信息

o1在各领域性能显著提升•

现场展示了对o1API调用的测试结果

o1在函数调用、

内部结构化输出、数学、编程等领域均达到了目前所有模型的最高准确度。•

在数学领域

OpenAI测试了经过自定义输出结果的o1模型(

o1with

Structured

Outputs)

,结果显示其仍能保持极高的准确度

因此开发者

对模型进行自定义调整后

,模型仍能够保持其性能。图28:o1在函数调用领域准确度明显高于GPT4o图29:o1在内部结构化输出领域准确度明显高于GPT4o图30:o1在编程领域准确度明显高于GPT4o图31:o1在数学试题场景准确度明显高于GPT4o请务必阅读正文之后的免责声明及其项下所有内容DAY9:

o1正式版API全面上线资料来源:OpenAI

,国信证券经济研究所整理

实时API集成Web

RTC(网页实时通信)•

实时API现在支持Web

RTC

,这将简化实时语音体验的构建

,使得在各类平台(包括基于浏览器的应用、移动客户端、物联网设备或直接的服务

器到服务器部署)

上构建和扩展实时语音产品更加容易。

通过Web

RTC

现在只需几行Javascript代码

开发者就能为应用添加实时功能。Web

RTC提供了许多优势

,例如更好的网络适应性、

回声消除和更简单的代码实现。

以及将GPT-4o音频价格降低60%

同时将Realtime

API测

试版中引入GPT-4o

mini。•

在官方演示中

,演示者只需极短的代码

,就可以在网页端构建一个语音助手。

同时

,仅需将网页端与带有音频交互功能的玩具连接

,就可实现玩

具的语音交互功能。演示者提到

,后续开发者可自行将Realtime交互的应用场景扩展到可穿戴设备、摄影等领域。图32:开发者只需几行代码就可以调用Realtime

API

图33:开发者只需几行代码就可以构建网页端语音助手请务必阅读正文之后的免责声明及其项下所有内容DAY9:

o1正式版API全面上线资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理

新微调方法Preference

Fine-Tuning•

偏好微调允许开发者通过提供成对的响应来训练模型

,其中一个响应比另一个响应更受欢迎

,模型可自行学习

,并减少不受欢迎的输出结果。与

监督微调(提供确切的输入和输出)不同

,偏好微调侧重于优化模型以捕获用户偏好中的细微差别。通过微调

,开发者可以利用自己的数据集对

模型进行训练

,从而提高模型在特定场景下的性能和准确性。•

在官方演示中

,演示者提到Rogo

AI正通过偏好微调在构建一款面向金融分析师的AI助手

,偏好微调使模型能够更准确的响应准确性从75%提升

至80%以上

,而监督微调则无法达到准确性提升的效果。图34:偏好微调允许模型学习更受欢迎的响应请务必阅读正文之后的免责声明及其项下所有内容DAY9:

o1正式版API全面上线资料来源:OpenAI

,国信证券经济研究所整理

通话访问模式•

ChatGPT通话开放:

目前美国用户可通过电话与ChatGPT沟通

,具体号码为:

1-800-242-8478

,用户可将其添加为手机联系人

,通话会被审

查以确保安全。在官方演示中

,演示者通过直接拨入电话的方式接入ChatGPT

,并提问在旧金山的280号洲际公路上看到的圆顶房子是什么

,ChatGPT准确回复房子的名字

,并进行了简短介绍

同时支持用户对问题进行进一步沟通。用户可以通过任何设备拨号连接ChatGPT

,包括非

智能手机、

固定电话等

,这意味着老年人也可以通过其老年机接入ChatGPT

,并获得相应回复。•

WhatsApp聊天

:全球范围内

,用户可在WhatsApp上与ChatGPT聊天

,用户可以像与联系人中的任何人一样

,通过文本输入问题

即可获得

基于4o-mini模型生成的回复。在官方演示中

,演示者通过WhatsApp询问ChatGPT意面香蒜酱的制作方法

ChatGPT可生成详细的制作方法

包括原材料、制作步骤等。

同时

ChatGPT能根据用户的不同要求(如素食、特定饮食偏好等)更新食谱

,并回复相应配菜建议。请务必阅读正文之后的免责声明及其项下所有内容DAY10:

ChatGPT通话访问模式图35:使用者可将ChatGPT添加到联系人,并电话接入图36:用户可在WhatsApp中与ChatGPT直接聊天资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理•MacOS桌面应用更新:

轻量级且资源占用少

拥有单独窗口

,应用时无需在不同的应用程序、

窗口之间切换。

户可通过快捷键快速调用ChatGPT

同时在对话窗口下方

用户可点击使用应用程序的选项

ChatGPT可自动提

取已完成的工作进度

用户无需上传任何信息即可与ChatGPT进行交互。•

在官方演示中

演示者通过ChatGPT与正在运行的应用程序Warp进行协同

用户可直接向ChatGPT提问编写分

析每日指令数量的代码

ChatGPT编写完成后

只需粘贴至相应应用中即可。

同时

支持用户在原有生成数据的

基础上进一步下达指令

,例如生成可视化图表等。请务必阅读正文之后的免责声明及其项下所有内容DAY11:

桌面应用新功能图37:使用者可通过ChatGPT与正在运行的应用协同资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图38:ChatGPT与Warp协同

强大的数学和编程能力•

编程能力:

o3在编程方面相较o1大幅提升。在SWE-bench

Verified基准测试中

o3的准确率达到了71.7%

比前辈o1高出20%以上。这意味

o3在编写高质量代码方面

已经超过了大多数软件工程师。•

数学能力:在AI

EM

2024

o3几乎拿到了满分

,这是AI在AI

EM数学竞赛中取得的最好成绩。

此外

,在GPQA

Diamond博士级科学考试中

o3

的准确率达到了87.7%

比o1高出近10%。这表明

o3在处理复杂数学问题时

已经达到了顶尖水平。请务必阅读正文之后的免责声明及其项下所有内容DAY12:

全新o3模型亮相资料来源:OpenAI

,国信证券经济研究所整理资料来源:OpenAI

,国信证券经济研究所整理图40:o3在数学方面性能图39:o3在编程方面性能

推理能力里程碑式突破•o3在ARC-AGI基准测试中的表现尤为突出

,达到了87.5%的准确率

,远超人类的85%阈值。ARC-AGI基准测试旨在评估AI系统的抽象和推理能

,要求AI识别模式并解决新问题。

o3实现了AI领域第一次超越人类的成绩

,完成了里程碑式的突破。图41:o3在ARC-AGI测试表现请务必阅读正文之后的免责声明及其项下所有内容DAY12:

全新o3模型亮相资料来源:OpenAI

,国信证券经济研究所整理

o3

mini模型•o3

Mini是

o3系列中的高效推理模型

,适用于任何需要数学和编码能力的人。

由于成本低

o3

Mini可能会在全球范围内开放使用。

o3

Mini支持低中高三种不同的推理时间选项

,可以根据自己的使用情况自由调整模型的推理时间。•

编程能力

:支持自适应推理时间

,低中位数推理时间下代码性能优于o1

Mini

,在速度和成本方面出色。•

数学能力

:在AIME

2024测试中

,低推理选项与o1

Mini和o3

Mini性能相当

中位数推理时间性能更好

,高推理可进一步提升;延迟大幅减

,支持函数调用等功能

,性能优于多数模型。图42:o3mini在数学方面性能请务必阅读正文之后的免责声明及其项下所有内容DAY12:

全新o3模型亮相资料来源:OpenAI

,国信证券经济研究所整理•

OpenAI为o3引入了协商对齐(de

liberative

alignment)

的安全评估方法。这种方法可以让模型在回答问题前明确回忆安全规范并准确执行推

,从而确保o3的行为符合OpenAI的安全政策

,使其保持良好的行为规范。

发布计划•目前

o3还处于早期访问阶段

,仅对部分安全研究人员开放。•OpenAI计划在2024年1月底推出o3-miniDAY12:

全新o3模型亮相

安全性请务必阅读正文之后的免责声明及其项下所有内容 Open

a

i

12天发布会

风险提示请务必阅读

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论