版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汇报人:XX时间:2023.02ChatGPT【聊天机器人模型】ChatGPT是什么?学习解读01名词定义录CONTENTS02ChatGPT发展历程03ChatGPT技术逻辑04社会运用PART01名词定义名词定义ChatGPTChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,—款人工智能技术驱动的自然语言处®I具。功能它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。名词定义ChatGPT官方说明:ChatGPT是一种基于GPT-3技术的聊天机器人这一模型可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题。Oper^l'sNewChatGPT%PART02ChatGPT发展历程发展历程推出注册火爆2022年11月底,人工智能对话聊天机器人ChatGPT推出,迅速在社交媒体上走红,短短5天,注册用户数就超过100万。试点订阅计划ChatGPTPlus2023年2月2日,美国人工智能(AI)公司OpenAI发布ChatGPT试点订阅计划——hatGPTPlus。ChatGPTPlus将以每月20美元的价格提供,订阅者可获得比免费版本更稳定、更快的服务,及尝试新功能和优化的优先权。发展历程搜索引掌2023年2月2日,微软官方公告表示,旗下所有产品将全线整合ChatGPT.除此前宣布的搜索引擎必应、Office外,
微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。全面整合订阅计划当地时间2023年2月2日,ChatGPT的开发公司——美国人工智能公司OpenAI顺势推出了这一应用程序的付费订阅版本。.PART03ChatGPT技术逻辑技术逻辑1、基于深度学习技术>>它基于深度学习技术,通过构建多层神经网络来模拟人类大脑的学习过程,从而使计算机可以完成许多复杂的任务,例如语音识别、图像分类和自然语言理解等。>>它会通过对大量文本数据进行训练,来学习语言知识和推理能力。这些文本数据可能包括新闻文章、小说等内容。通过不断地训练,它的神经网络可以学会提取文本中的信息,并使用这些信息来回答问题技术逻辑2、训练方法OpenAI的开发人员是这么解释的:»"我们使用与InstructGPT相同的方法,以从人类反馈中强化学习(ReinforcementLearningfromHumanFeedback,RLHF)的方法训练该模型,人工智能训练者扮演对话的双方,即用户和人工智育锄手,提供对话样本。在人类扮演聊天机器人的时候,会让模型生成一些建议,辅助训练师撰写回复,训练师会对回复选项打分排名,将更好的结果输回到模型中,通过以上奖励策略对模型进行微调并持续迭代。“技术逻辑2、训练方法监督学习:»监督学习就是在"有答案”的数据集上学习。例如我彳门要用监督学习(supervisedlearning)训练一个中文到英文的机器翻译模型,我们就霊要有中文以及其对应的英文。迁移学习:»迁移字习就是使用已训练的模型来解决更复杂的彳壬务。这种方法的基本思想是,如果两个彳壬务相关,那么可以使用已解决第一个任务的模型来加速解决第二个<壬务。迁移学习通常使用在数据和计算资源有限的情况下,因为可以使用已经训练好的模型的知识,而不是从头开始训练新的模型。再使用监督字习来对模型进行针对性的微调(fine-tune)。技术逻辑2、训练方法强化学习:»ChatGPT在使用进行微调之外,还使用了一种叫做reinforcementlearningfromhumanfeedback(RLHF)的技术。这个技术在ChatGPT的主要作用是将预训练的模型的目标对齐到聊天这一具体的下游应用上。»强化字习可以理解为让智能体在给定环境中学习如何执行最优决策,以获得最大回报(reward)0最大回报意味看此时的回复最符合人工的选择取向。例如,在游戏中的机器人,可以通过执行不同的动作来尝试获得最大的分数。每一次动作后,机器人都会根据得分的提升或下降来调整自己的策略,以便在未来尽可能地^得最大的回报。4技术逻辑2、训练方法强化学习:Stc«>1ColleddomomtratlondataandtrainasuperwodpolicySup2CotoctcomparisondataandtramarewardmodelOptimizeapolcyagainsttherewardmodelusingthePPOrelnfofcemeatlearningalgorithmApremptKun^Dtodrrn(nourproffpidrasalA^beterdenv?nstatesthedwredoXMbetaver.oimrr^toaflyw*!iTMdATActuWKltOftn«-tun<GPT-35u<thsuperviseAp*o<rpcandseveralmoddoutput>rnsampled.AlM>gr$f*Mhe05H5瑚toworst.Thisdataisusedtotrainoxrewardmedeto>e>o>oAnew(xc<YipteMinxXcdIromirwdst&setnwPPOffKKteihgi顷MxngSCrvSdpolcy.Thepoheygenerates9^outputThere*9»dmo<k4心a,srdWtfwouXTh«gwdisusedtoupdatottMpoRygegPPO..技术逻辑2、训练方法强化学习:>>第一阶段:冷启动阶段的监督策略模型。>>第二阶段:训练回报模型(RewardModeLRM)>>第三阶段:增强预训练模型的能力笛一阶段:冷启动盼段的监管策略径里.GPT3.5母管芻强.但呈它很推理辨人奏不同类型指令中藐含的不同SS.ts很療判断生成宙容是否是高质员的结界.为了让GP「3.5初步具朝88指今中盟含的寡图,首先会从到试用户提交的prompt中随机洎成一批,靠专业的坏注人员.给岀招定的高质■答牽,然后用这些人工标注好的故据奈符调程坚.经过这个12®.我们可以认为GPT3.5初步具备了逢/人关prompt中所包合意图,井根18这个奪图给出相对髙质虽回答的能力.但仅仅这掉做是不够的.第二吩段.训练回报曜(RewardModel.RM).这个册段的王耍目的是通过人工蜥主训緯故推,来训练回报模型.日体而百,ffltfira样一枇用户提交的prompt(大郞分和第一阶段的相同),住用渠一阶段微週蜉的冷启动模型,対于莓个prompt,生fiEK个不同的@笞,7E«>H产生出7<prompt.an$wer1>.vprompt.answer2>....vprompt,answerK>姓据.之后.标注人员对K个结里按照很富标准(例如相关性、富含信息性、白客信忠等沽穿标准)分合夸忠泌行排床.始出K个结果的洋名帔存.谊一步的曰的是引导GPT回答人笑必审到的答*,®(WChatGPT从命钏动传白了憲S13E动.笥三阶段:増理顶圳1绯横空的88力.本阶段无需人工怀i主鮫58,而足利用上一阶段学好的RM模型,SRM打瘁S果糸史新预训绮模型参敏.■体而吉.甘先,从用户提交的prompt史SS饥采样一批新的命令(与英一第二阶段不同的新的prompt),且臼冷启动模型来初始化PPO(ProximalPolicyOptimization)模型的分散.然后.对于防机抽取的prompt,使用PPO後5!生成回答.并用上一阶段训塚好的RM橙!U!给出质量评怙的回报分敏.启此产生的策略悌庞可以®SrPPOWSSS®.这一步目的舉产生符合RM标准的商拓量回笞。技术逻辑核心竞争力ChatGPT受到关注的重要原因是引入新技术RLHF(ReinforcementLearningwithHumanFeedback,即基于人类反馈的强化学习)。RLHF解决了生成模型的一个核心问题,即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。ChatGPT是AIGC(Al-GeneratedContent,人工智能生成内容)技术进展的成果。该模型能够促进利用人工智能进行内容创作、提升内容生产效率与丰富度。©OpenAIGPT-3■CodtK■DALLE2AzureOpenAI技术逻辑技术局限性ChatGPT的使用上还有局限性,模型仍有优化空间。ChatGPT模型的能力上限是由奖励模型决定,该模型需要巨星的语料来拟合真实世界,对标注员的工作量以及综合素质要求较高。ChatGPT可能会出现创造不存在的知识,或者主观猜测提问者的意图等问题,模型的优化将是一个持续的过程。若AI技术迭代不及预期,NLP模型优化受限,则相关产业发展进度会受到影响。此外,ChatGPT盈利模式尚处于探索阶段,后续商业化落地进展有待观察。PART04社会运用技术逻辑结合ChatGFT的底层技术逻辑,有媒体曾列出了中短期内ChatGPT的潜在产业化方向归纳性的文字类工作图像生成领域AIGC代码开发相关工作智能客服类工作.运用场景1、搜索引擎»目前的搜索引擎都是在你搜索了任何一个问题后,列出一大堆的结果,这其中一些好的答案可能会排在前面,但也可能会是很多广告排在前面。如果霧要真正解决问题,可能还需要多次查找不同关键词才能得到最终答案。»而ChatGPT一个非常核心的功能点就是它会把大家晋遍认为最好的答案直接告诉你,并且可以一直对话下去,就像找老师问问题一样,体验很好bBing运用场景2、写代码»告诉他用什么语言实现什么功能,它就可以写出一段有质量的代码,并且会告诉你是怎么实现»对于程序员来说,在日常工作中它还能给他们提供不少的帮助,主要是帮助解决开发中遇到的问题运用场景3、写文章»我们工作中也会常写一些文章,例如技术文章、知识分享等,我们都可以用它来辅助我们完成,例如润色语句、知识点总结、名词的字典查伺等,也可以模彳方某人的风格撰写文章,来帮助我们写出来的文章偏向到某种风格.运用场景4、其他应用场景»除了日常对于个人应用,ChatGPT的成熟也可带来广泛的应用场景甚至替代一个岗位,目前下游相关行业可能包括代码机器人、小说衍生器、对话类搜索引擎、语音工作助手、对话虚拟人(客服、外呼、莒销)等。从上游需求的增加来看,受益行业可能包括算力、数据标注、自然语言处理等。总之,它的应用场景还是很具有想象力的.修ChatGPT替代谷歌搜索?ChatGPT何以如此强大?在OpenAI的网站上,可以窥见一二根据OpenAI的官方文档,相比之前的GPT模型,OpenAI采用了全新的训练方式,即一种名为"从人类反馈中强化学习"(ReinforcementLearningfromHumanFeedback,RLHF)的训练方式对ChatGPT进行了训练。在训练原始模型的时候,OpenAI让人类训练师扮演对话的双方提供对话作为学习资料。在人类扮演聊天机器人的时候,OpenAI也会让模型生成一些建议来帮助训练师撰写自己的回氫也就是说,基于优秀的机器学习算法和强劲的算力,通过海量的数据训练,来让AI学会"思考"。可以看到,ChatGPT类似于谷歌等搜索引擎,甚至功能更加强大,育湘用户更完善地互动。有分析指出,搜索弓I擎都是基于对问题本身的搜索,但它们有一个很大的限制,当用户描述不清自己的问题时,搜索引擎并不能与之互动。.号ChatGPT替代谷歌搜索?ChatGPT何以如此强大?在OpenAI的网站上,可以窥见一二。搜索弓|擎与ChatGPT不存在谁取代谁的问题,更多可能是一种互补的关系。”它们都是一种获取信息的手段,搜索引擎可能更擅长帮助用户获取已有的信息,但如果是偏创造性的信息,那有可能这种大模型会解决得更好,因为它已经隐含了很多的信息,它能够把这些信息综合地呈现出来。”"现在做这种大模型的基本上都是大企业,本身它们也有搜索弓I擎的背景。例如,OpenAI背后有微软,谷歌也在做这种大模型。未来,也不排除会将这两种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新老师岗前培训
- 项目经理临时聘用合同标准版
- 聘请技术顾问2024年度服务合同
- 2024年度东莞货物运输服务合同2篇
- 发电厂职业病健康培训
- 《注射美容医疗纠纷》课件
- 农产品电商平台合作运营合同(2024版)
- 电信员工安全培训
- 医疗器械业务员汇报
- 《基坑监测技术》课件
- 安徽省宿州市省、市示范高中2024-2025学年高二上学期期中教学质量检测语文试题
- 1《饮食与健康第一课时零食与健康》(说课稿)皖教版五年级上册综合实践活动
- Module2 Unit5 My friends(说课稿)-2024-2025学年沪教牛津版(深圳用)英语四年级上册
- 4 公民的基本权利和义务 (说课稿 )2023-2024学年统编版道德与法治六年级上册
- 上海市同济大学第二附属中学2024-2025学年高一上学期期中考试英语试题(无答案)
- 第4课 日本明治维新(说课稿)-2024-2025学年九年级历史下册素养提升说课稿(统编版)
- 13 寒号鸟 公开课一等奖创新教学设计
- 2025年新高考语文复习 诗歌鉴赏-语言 课件
- 汽车租赁公司车辆养护制度
- 《第二节 气温和降水》教学设计
- 2024年达州客运考试题库
评论
0/150
提交评论