微软和OpenAI的关系及产品矩阵-2023.12_第1页
微软和OpenAI的关系及产品矩阵-2023.12_第2页
微软和OpenAI的关系及产品矩阵-2023.12_第3页
微软和OpenAI的关系及产品矩阵-2023.12_第4页
微软和OpenAI的关系及产品矩阵-2023.12_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Azure

Open

AI微软(中国)有限公司确保通用人工智能(AGI)造福人类。全球每一个人每一个组织成就不凡GPTCodexDALL·E

previewChatGPT

preview生成对话响应生成和理解代码根据文本提示生成图像生成和理解文本Comparing

OpenAI.comandAzureOpenAIServiceAzure

OpenAI

ServiceEarlyAccessto

ModelsDelivery

MethodOpenAI

Research的最新模型,包括alpha和beta模型,将始终首先在OpenAI.com

上提供。一旦模型在OpenAI.com

上正式发布,微软将确定它们在Azure

OpenAI服务上的时间和产品。作为基于SaaS的AIAPI交付作为第一方Azure

服务提供,用于客户的Azure租户/订阅HostingLocationsPaymentAzure

UnitedStatesAzure

UnitedStates

andEurope…and

morePayMicrosoftPayOpenAIComplianceSOC2Type1,

SOC

Type2(pending),

HIPAAFull

suiteof

complianceofferings

(seefull

Microsoft

ComplianceOfferings)ModelsGPT-3.5,

CodexandDALL-EChatGPT

APIandWhisper

API(coming

soon)GPT-3.5,

DALL-EandCodex(including

CodexFine-Tuning)ChatGPT

API(coming

soon)SolutionsSupportChatGPT,

DALL-ELabsGithub

Copilot,Teams

Premium

andViva

SalesSupport

providedbythe

AzureSupport

TeamSupport

providedbyOpenAI

Support

Team99.5%SLAAzure

ServiceLevel

AgreementsSecurity

andNetworking单点登录

(SSO)、第三方身份访问管理和基于角色的权利管理Azure

ActiveDirectory、基于角色的访问控制、客户管理的密钥、专用链接和网络安全模型服务GPT迭代研发•

AOAI

PG有计划两边能力完全平等•

未来正式模型,两者间会同步发布认知服务成果发布•

ChatGPT•

DALL-E2•

Open

AI

Beta

Playground但是公开测试正式发布•

两边的gap不会完全消除•

由于两边企业性质导致Azure•

客户用OpenAI作为early

preview,然后再挪到Azure商务价值•

私有网络(

vNet)•

Private

Endpoint/Link•

Custom

DomainGPT迭代研发成果发布•

CMK•

RBAC/IAM

权限管理•

Azure

AD集成•

托管身份

(Managed

ID)•

企业合规

(SOC2,

HIPAA,

ISO,GDPR

Data

Privacy

etc.)•

企业伦理审查

(RAI)•

企业级有偿Support高安全高可用高集成公开测试独家授权正式发布认知服务Azure•

API

文档•

多区域可用/容灾•

保证SLA

99.9%•

更高RateLimit

(TPM/QPM)•

更高Token上限

(Fine

Tuning)•

Endpoint部署管理和监控•

Fine-tuning•

API发布/管控•

Endpoint

hosting基于Azure的API扩充:Azure••

Token监控•

更好的Error

&

debug支持•

集成现有Cognitive

Service的服务架构•

集成资源监控

(Monitor

/

Log

Analytics)•

集成自动化

(Automation

Task,

ARM部署)•

集成Express

Route•

集成密匙管理

(AKV)•

集成数据加密

(Azure

Storage)GenerativeAIGPT-3CodexDALL·EChatGPTPrompt:Prompt:Prompt:一只白色的猫What

isthefastestanimalonland?为冰淇淋店写一个标语。Response:Tablecustomers,columns=[CustomerId,FirstName,LastName,

Company,Address,City,State,Country,Response:thecheetah

(Acinonyxjubatus),

which

canreachspeedsofup

to60

miles

(97kilometers)perhour.我们用每一勺提供微笑!PostalCode]Whatmakesthemso

fast?CreateaSQLquery

forallcustomers

inTexasnamedJaneCheetahsarebuiltforspeedandhaveseveral

adaptationsthatmakethemthefastestlandanimal:

leanbody,

long

legs,flexiblespine,

largenostrils

andclawsthatdon’tretract.query

=Response:SELECT*FROMcustomersWHERE

State

='TX'ANDFirstName='Jane'Azure

OpenAI

|

To

p

4

功能和用户案例呼叫中心、客服中心等对客户的问题自动生成回复呼叫中心、客服中心等客户对话日志的总结自然语言和SQL互换搜索特定产品/服务的评论专业主题文档摘要(例如财务报告,分析师文章)转换自然语言以查询专有数据模型为网站生成个性化的UI信息发现与知识挖掘社交媒体趋势总结代码注释和文档呼叫中心分析端到端:

分类、情感、实体提取、摘要和电子邮件生成客户洞察360:实时总结客户查询和趋势、搜索和内容来生成个性化内容业务流程自动化:

结构化和非结构化文档搜索、生成查询数据模型代码、生成内容Azure

OpenAI

Ser

vice

Models

|型号系列GPT-3CodexDavinci-codexDavinci•

4000

tokens•

针对特定受众的摘要•

生成创意内容Cushman-codexCurie•

2048

tokens•

回答问题•

复杂、细致入微的分类Babbage•

2048

tokens•

语义搜索排名•

中等复杂度分类Ada•

2048

tokens•

简单分类•

解析文本和设置文本格式能力能力Open

AI

它是…派生派生预训练模型家族GPT

XCodexEmbedding(俗称大模型)生成文字生成代码生成向量训练得到Moderation

(旧称Content

Filter)GPT模型具备一定的真实世界知识储备,基本常识和概念(世界观)GPT架构截止2021年6月学习方法地表最强自然语音类深度学习架构,用来理解文字并做出相应的输出text-davinci-003011010110101101011010110101101010101010101010101010101010101010101001001001001001001学习内容(文字类素材)111111010101010101010101010101010101010101010101010101000000Open

AI

它不是…•

Chat

GPT

DALL-E

是以GPT3.5为基础衍生出来的应用ChatGPTDALL-E优化问题解答和对话形式输出优化RGB三原色输出•

目的用来展示GPT可以做到什么程度•

它不是模型服务,不能直接售卖•

我们会有对应服务推出,暂定2月28日名为Enterprise

ChatGPTGPT

3.5生成文字训练得到OpenAI能做什么?GPT

XCodexEmbedding生成文字生成代码生成向量1.生成文章

(Completion)a.

ConversationalAI

(客服Bot)b.

疑难解答

(QA)

*c.

翻译1.文字转程序1.文字转矢量a.

语义匹配*a.

Auto

testing(VectorizedSemanticSearch)b.

疑难解答

(QA)*b.

Debuggingc.

CodingQualityCheckd.

代写代码*c.

建立更强大的知识库

(KB)d.

根据语言理解生成文字e.

因果关系推理e.

代码生成文档*(Reversecoding)f.

语句/语法/词汇改善2.

归纳/总结

(Summarization)3.

分类

(Classification)a.

情緒分析

(Sentiment

Analysis)b.

打标签

/分类*表示可能需要多个能力组合实现和Cognitive

Ser

vice

怎样区别?解決方案类

(Pre-built)泛应用领域

(原子能力)医学文档解析视频分析/打标签分类生成文字对话类语言分析归纳/总结翻译视觉类语音类搜索Pre-built

OCR方案NLP

/

语言类•

发票/小票/收据识别•

表单解析&识别•

名片识別•

名片识別认知服务认知服务•

底层结构差异导致OpenAI各方面碾压传统AI•

OpenAI不具备的能力•客戶寻求的解決方案级別的应用

(开箱即用)•

GPT本身丰富的语言理解能力和知识储备可实现零学习或Few-shot

learning

(举一反三)•

商用成熟,包括定制化在内的业务支援丰富•

未来Cognitive

Services的底层会被GPT或其它Transfer架构取代

(比如

Florence)不是对抗,而是联合!•

Cog

Service本身的多元性

+

配合GPT强大的语言能力

=

提升现有能力或打造全新体验FormRecognizerOCR发票,整理出发票的性质,每个条目的类别及合规检查更智能的业务自动化处理更进阶的会议智能助手提取结构数据自动归纳会议主题,纪要,ActionPoints,重要时间线

+moreSTT实时会议转写游戏视频解析根据标签实施理解事件,生成情景描述生产自然语音搭配虚拟人做直播介绍全新的用户体验/打标语音标识一段理解需求,生成对应的代码部署到Power把RPA玩到新高度!需求(

STT)Automate上!微软数据采集以及监控滥用和有害内容生成AzureOpenAI服务存储服务的提示和完成,监控滥用,并开发和提高

AzureOpenAI内容管理系统的质量。调查和验证潜在的滥用行为;对于已在欧盟部署了

Azure

OpenAI服务的客户,授权的微软员工将位于欧盟。这些数据可用于改进我们的内容管理系统。如果确认存在违反政策的情况,我们可能会要求您立即采取措施来纠正问题并防止进一步滥用行为。未能解决此问题可能会导致暂停或终止

AzureOpenAI资源访问。客戶成长之路指南Engagement

Journey的参考团队Lv.

3

有了实操经验客戶等级•••商业流程价格交涉PG

支持Lv.

1

小白Open

AI

Service•••••企业安全•引导客户体验Playground申请OpenAI参考官方doc••••学习Open

AI

API学习Fine

Tuning部署团队调用监控/运维GPT模型管理流量管理Etc.••实施PoC/prototype验证Use

Case效果••••帮助客户建立基础Open

AI

101Use

Case介绍Demo团队••申请Azure

OpenAI协助Fine

Tuning和Prompt

Design••协助参数和模型优化设计关联Azure架构Lv.

2

初步了解GPTLv.

4有成熟的应用准备Go

Live有Use

Case想法Azure

OpenAI

测试体验:

Azure

Open

AI

StudioCreateyourbasemodelAzure

Marketplace

&createAOAI

resourceAzure

Open

AI

StudioOpenplayground

inyour

deployments

&model

to

checkthisout17Text

Classification自定义命名实体(Few-Shot)从以下句子中提取职位。句子:JohnDoe作为

Linux

工程师在微软工作了

20年。职称:

Linux工程师###句子:JohnDoe已经在微软工作了20年,他喜欢它。职称:

无###句子:断背山|导演

|李安职称:

导演###句子:Damien是

Platform.sh

的首席技术官,他之前是领先的电子商务提供商CommerceGuys的首席技术官。职称:

首席技术官Summarization抽取性与抽象性萃取萃取(语义)使用自然语言生成技术生成新文本选择原文的一部分以形成摘要•

更难•

更灵活(更人性化)•

容易•

限制性(无释义)彼得和伊丽莎白乘出租车去参加Party。在聚会上,伊丽莎白晕倒并被送往医院。彼得和伊丽莎白乘出租车去参加Party。在聚会上,伊丽莎白晕倒并被送往医院。彼得和伊丽莎白参加派对。伊丽莎白被送去医院伊丽莎白在与彼得一起参加派对后住院。理解这些最常用的参数

Parameters

参数

Temperature

–随机性/创造力

Max

tokens

After

Max

Tokens

are

reached,

stop

the

completion.

Freq

penalty

–完成中重复单词

Presencepenalty

–不要使用提示中已经出现的语言

EmbeddingEmbedding不支持Fine-Tuning,但是它的应用最为广泛,手法也需要结合传统Machine

Learning。

思路如下:以舆情分析为例1.

使用Embedding模型把评论数据转为向量,并保存到Vector

Database2.

对每一个Review人工标注(Positive,

Negative等)3.

使用传统ML分类算法学习标注同样适用于其他类型的4.

对新的评论,同样用Embedding转换为矢量Machine

Learning手法5.

用3学习到的模型进行预测,得到标签。使用嵌入进行相似性搜索将内容编码为嵌入后,可以从用户输入中获取嵌入,并使用它来查找语义上最相似的内容。userinputembeddingresult

set“Whatisaneutron

star?”[13

33

34

13…

]Azure

OpenAIembeddings

tutorial

-Azure

OpenAI|Microsoft

LearnIn-Context

Learning

情境学习零样本

(Zero-shot)该模型仅根据任务的自然语言描述来预测答案。不执行梯度更新。零样本

(Zero-shot)

-在不提供样本的情况下进行预测12将英语翻译成法语:<------任务描述<------提示奶酪=>单样本

(One-shot)除了任务描述之外,模型还会看到任务的单个示例。不执行梯度更新。单样本

(One-shot)

-使用提供的一个样本进行预测123<------任务描述<------示例将英语翻译成法语:海獭

=>loutredemer奶酪=><------提示小样本

(Few-shot)除了任务描述之外,模型还会看到任务的几个示例。不执行梯度更新小样本

(Few-shot)

–使用提供的几个样本进行预测将英语翻译成法语:海獭

=>

loutredemer薄荷=>

男士<------任务描述12345<------示例<------示例<------示例毛绒长颈鹿=>长颈鹿奶酪=><------提示微软机密正确理解Fine

Tuning如果有客户抱怨怎么我越Tune越差??Here’s

why正确理解Fine

Tuning所以我们作为大人,也要用榜样/例子來引导孩子模仿,而非直接教他对或错,因为这样会破坏它的现有认知

(Supervised

Learning)GPT像个小孩,

它阅遍了全世界的书籍它是通过主观例子来学习世界。例子没有对错

,只有相对好坏(ReinforcementLearning)Fine

Tuning就是用例子來引导GPT的过程而怎么设计Prompt是个很深的学问。

微软可以帮助客户设计Prompt

DesignWeGPTWhen

Fine-Tuning

is

Needed如果做出不真实的陈述(“胡說八道”)模型结果的准确性不符合要求通过微调,您可以通过提供以下内容从通过

API

提供的模型中获得更多收益:比提示设计更高质量的结果•

能够训练比提示所能容纳的更多示例•

更低的延迟请求微调通过训练比提示中可以容纳的更多的示例来改进少数镜头学习,让您在大量任务上获得更好的结果。对模型进行微调后,无需再在提示中提供示例。这样可以实现更低的延迟请求。Best

Practices

of

Fine-Tuning微调数据集必须采用

JSON格式一组训练示例,每个示例由单个输入(“提示”)及其关联的输出(“完成”)组成对于分类任务,提示是问题陈述,完成是目标类对于文本生成任务,提示是指令/问题/请求,完成是文本事实Best

Practices

of

Fine-Tuning微调数据大小:高级模型(达芬奇)在有限的数据量下表现更好;有了足够的数据,所有模型都做得很好。使用更多高质量示例,微调效果更好。要微调性能优于对基本模型使用高质量提示的模型,您应该提供至少数百个高质量的示例,最好由人类专家进行审查。从那里开始,性能往往会随着示例数量的每增加一倍而线性增加。增加示例数量通常是提高准确性的最佳和最可靠的方法。Fine

Tuning,

not

“Fine”

Tuning避免撞墙的小技巧不要过度重复利用同一个数据

(技术语言:正确设置参数)••••••尽量接近真实用户用例和习惯

(技术语言:保持学习和验证数据格式高度一致)不同的case要有对应的Prompt

Design,不要模板化Meta

prompt

engineering

明确指示弱输出范例,有效避免“不懂裝懂”示例要足够明确性和具体性。配合逻辑解释会帮助获得更好Fine

Tune表现,尤其数据量不大时。Fine

Tune可以循序渐进,避免一次喂太多数据。

从几百开始,逐渐加大数据量。更多具体Best

Practices可以联系

GBB

/

Specialized

CSA

以及PG来协助客户

!什么时候用Fine

Tuning

?Fine-tuning

主要是用来改善长期输出形式。相对的Prompt

Engineering是短期/一次性改变输出的方法。Fine-tuning的长期表现会随着样本数量的翻倍呈现类线性特性的增长。••••建议首先做prompt

engineering来验证提升潜力。

然后转为Fine-tuning

做长线改善以帮助节省token。Fine-tuning可以用来限定范围,提高domain相关度根据某一类特定产品标签生成描述根据某一篇博文内容风格写推广广告企业级(知识库)客服Bot•••模型并非越新,

越大就越好

!General建议•

有大量优质(指人工审核/达标的)数据,建议低复杂度模型,精度或许能媲美Davinci。•

如果是分类/归纳这类相对简单的任务,建议A模型•

如果数据量不大(几百)或质量不保证(如未经校准的数据),則建议D模型General建议•

步骤建议先从Davinci开始建立一个benchmark,随后逐一降低模型复杂度验证Fine-Tuning能达到的结果•

选出一个客户认为最均衡的模型少量数据Fine-tuningD模型Benchmark比對高性能少数据高价格高延迟比對C模型比對B模型A模型逐步增加数据量和降低模型复杂度需更多数据低延迟低价格合理性能*

我们的finetune计价方式和OpenAI不一样,

无法互换如何评估预算英文750~800

words=

1000

token

(1.33倍率)•••中文以及其它全角字符token倍率差异比较大,难在纸面上预测。

越是生僻复杂结构的字,token消耗越多。最好方法是测试一些接近真实用例的情景,衡量token消耗情况。估算方式*TC

O()

++=XX

1.33用户平均消耗字数(双向合计)Token倍率每月Fine-tune时长模型Hosting时长月活跃用户数(MAU)单价

❶(per

1,000

tokens)单价单价❷❸()

++XX

1.33用户平均消耗字数(双向合计)Token倍率每月Fine-tune时长模型Hosting时长月活跃用户数(MAU)案例某知名电商2C客服APP有

10万月均活跃客戶,每人每月平均10次互动,每次总计250字数

(英文)模型每周训练一次20小时,每月24x7供应••以Ada为例:$1649.8=(100,000

*

250

*

1.33

/

1000

)

*

$0.0004

+

(20

*

4

*

$20)

+

(730

*

$0.05)/每月D模型$32,205CBA模型$2161$1835$1649模型模型*

我们的finetune计价方式和OpenAI不一样,

无法互换GPT

/

OpenAI

限制无法在离线跑

现在不会,未来也不见得会。GPT不擅长数字和推理类处理。GPT缺乏可靠性

(甚至会胡扯)。

其商用稳定性需要大量依赖精良的Fine

Tuning!只有GPT

X和Codex能Fine-Tune,

Embedding不支持**

Embedding有特殊的训练方法Media

ExampleNewsAnalyses&ArticleCreationsTopicClassificationSearchSEOGlobalwarming,Deforestation,CarbonfootprintVirtual

AgentAnalytics

Entity

ExtractionReportingKnowledge

MiningOrganizations:IPCC,UNFCCC,GreenPeaceGeography:Canada,USAKeyWord

ExtractionHumanactivities,fossilfuels,earthatmosphereQuestion

andAnswerContent

AnalysisWhatistheIntergovernmentalPanelonClimateChange(IPCC)?TheIPCCisaninternationalorganizationthatstudiesclimatechangeandtheeffectiveness…AzureAzureSpeechOpenAITranscription

Text

CompletionVideo

summarizationThearticlediscussesaboutglobalwarminganditseffectsontheEarth'satmosphere,wildlife,andhumancommunities.ItstatesthattheprimaryContent

CreationNews

Broadcast(Global

Warming)causeofglobalwarmingis….News

article

generation

(orblogs,sGloocbailalwarmmeindgi

ai

s)thegradualincreaseintheoveralltemperatureoftheEarth'satmosphere,primarilycaused…Script

GenerationIdeationProductivityPersonalizationAccessibilityAct1:TheshowopenswithashotofabeautifulcoastaltownAct2:AsthetownstrugglestocopewiththePersonalized

Content

generation

(orcrisis…A/B

TestingAdvertising)Simon,assomeonepassionateaboutglobalwarming,youareawareoftheurgentthreatitposestoourplanet…Sports&Entertainment

ExampleNaturallanguagetoSQLtosurfacestatsdata(FanEngagement)"Howmanypoints

didLebronJamesscore

in2021?"SELECT

SUM(points)

FROMbasketball_stats

WHERE

player

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论