版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
55一本书读懂ChatGPT、AIGC和元宇宙PAGEPAGE100前言FOREWORD当我们还停留在千篇一律的“基础设施层、数据层、平台层、应用层、用户层”的互联网架构图之时,大洋彼岸的互联网技术已经又取得了跨时代的进步。马斯克称ChatGPT将颠覆世界;微软为ChatGPT投资数百亿美元,并计划将其整合到Office办公软件和Bing搜索引擎之中;在一些高校和学术机构中,兴起了关于用ChatGPT写论文是否合规的大讨论;甚至,一些咨询公司也开始担心自己的饭碗会被抢走……2023年,应用ChatGPT的热情已经被点燃,ChatGPT的应用场景不断快速拓展。ChatGPT是AIGC(AIGeneratedContent,人工智能生成内容)技术进步的成果体现。在我们的生活中,人工智能早已普及,比如工业机器人替代人类去喷漆、焊接,导航App自动规划路径,人脸识别技术在生活中被广泛应用……尽管上述人工智能已经可以替代人类完成某种工作或者具备人类的某种特征,但是人工智能仍旧与真正的人类相去甚远。要使人工智能更接近人类,那么人工智能就必须具备人类拥有的创作能力,这就是AIGC存在的意义。AIGC开启了AI绘画、AI作曲、AI写作,乃至AI生成影视作品的新篇章,可以说是人工智能历史中的跨越式升级。ChatGPT的出现为所有人提供了以自然语言对话方式进行文本生成通过语言来描述自己的需求,而ChatGPT会根据接收到的需求自动生成设计图和代码,使构建元宇宙的效率得到极大提升,成本得到极大降低,元宇宙中的内容也得到极大丰富。与此同时,ChatGPT将彻底改变数字人的构建技术:从数字人的面貌、穿着、形态设计,数字人的行动和姿态,以及数字人的自然语言沟通,到数字人的任务执行、数字人与环境的感知和交互等。ChatGPT将使数字人的构建更为便捷和简单,让数字人的功能更加丰富。2023年对于人工智能来说是一个里程碑式的年份。随着ChatGPT和AIGC风靡全球,人工智能技术近10年来再一次兴起并走向台前,进入公众的视野。在过去几年中,科技巨头们已相继成立人工智能实验室,投入越来越多的资源抢占人工智能市场,甚至有些企业整体转型为人工智能公司,加紧谋划人工智能的未来布局。我国及其他各国政府都把人工智能当作未来的战略主导,出台战略发展规划,从国家层面进行整体推进,迎接即将到来的人工智能时代。这一次人工智能的兴起,不仅仅局限于实验室研究。相关理论和关键共性技术的研究与商业化应用在同时推进,这使人工智能领域涌现出更多的产品化解决方案和服务化落地应用案例,让公众真实地感受到了它的冲击力和影响力。尤其是在大型语言模型(LLM)的强化学习、多模态模型和自然语言处理等基于深度学习算法应用的领域,人工智能正在迅速产业化,产业竞争的赛道也将随之变得更加拥挤。数字人的构建技术:从数字人的面貌、穿着、形态设计,数字人的行动和姿态,以及数字人的自然语言沟通,到数字人的任务执行、数字人与环境的感知和交互等。ChatGPT将使数字人的构建更为便捷和简单,让数字人的功能更加丰富。2023年对于人工智能来说是一个里程碑式的年份。随着ChatGPT和AIGC风靡全球,人工智能技术近10年来再一次兴起并走向台前,进入公众的视野。在过去几年中,科技巨头们已相继成立人工智能实验室,投入越来越多的资源抢占人工智能市场,甚至有些企业整体转型为人工智能公司,加紧谋划人工智能的未来布局。我国及其他各国政府都把人工智能当作未来的战略主导,出台战略发展规划,从国家层面进行整体推进,迎接即将到来的人工智能时代。这一次人工智能的兴起,不仅仅局限于实验室研究。相关理论和关键共性技术的研究与商业化应用在同时推进,这使人工智能领域涌现出更多的产品化解决方案和服务化落地应用案例,让公众真实地感受到了它的冲击力和影响力。尤其是在大型语言模型(LLM)的强化学习、多模态模型和自然语言处理等基于深度学习算法应用的领域,人工智能正在迅速产业化,产业竞争的赛道也将随之变得更加拥挤。ChatGPT——令Google坐立不安,让微软Allin语言是人类沟通交流的最主要工具之一,一直有互联网公司在挑战机器人智能沟通交流能力的极限。最早的有IBM的Watson,苹果用户惯用的Siri,后来还有微软小冰等。但用户的使用反馈并不是特别理想。因为,上述人工智能机器人只能帮助人们进行简单的信息查询,连两轮以上的连续对话交流都做不到。它们和电子商务平台的机器人客服十分类似,只能机械式、简单重复地应答,没有记忆,没有想象力,最多就是把手动输入关键字升级为语音输入。相比之下,ChatGPT能进行多轮对话,并产生具有丰富知识、独特创意,乃至高于人类基本水平的对话内容,两者之间有天壤之别。ChatGPT——令Google坐立不安,让微软Allin语言是人类沟通交流的最主要工具之一,一直有互联网公司在挑战机器人智能沟通交流能力的极限。最早的有IBM的Watson,苹果用户惯用的Siri,后来还有微软小冰等。但用户的使用反馈并不是特别理想。因为,上述人工智能机器人只能帮助人们进行简单的信息查询,连两轮以上的连续对话交流都做不到。它们和电子商务平台的机器人客服十分类似,只能机械式、简单重复地应答,没有记忆,没有想象力,最多就是把手动输入关键字升级为语音输入。相比之下,ChatGPT能进行多轮对话,并产生具有丰富知识、独特创意,乃至高于人类基本水平的对话内容,两者之间有天壤之别。第一章闪亮登场的智能科技2022年12月,ChatGPT还只是个具备聊天功能的社交网络媒体应用。但2023年伊始,ChatGPT已经被公认为是继互联网、智能手机之后,带给人类第三次“革命”的科技产品。互联网开辟了“空间革命”,使化;智能手机的出现,带来了“时间革命”,通过可拓展安装的各种App(应用软件),我们可以实现最快交易、快速送达,让生活、工作、消费产生巨大变化;而ChatGPT的横空出世,有望掀起“思维革命”,ChatGPT可以代替人类进行创意创作、咨询解答、翻译服务、客服服务……改变人类思考和处理问题的方式,并由此重塑各行业生态,乃至重塑整个世界(见图1-1)。图1-1ChatGPT引发的思维革命在ChatGPT中,GPT就是Generative Pre-training Transformer(预训练生成模型),OpenAI的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等,在这些领域,社会偏见、错误信息和毒害信息的存在是比较麻烦的,只有规避这些系统缺陷才能使其更具有用性。ChatGPT能够回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。短短两个月,人们源源不绝地挖掘出ChatGPT的更多技能,包括替写代码、作业、论文、演讲稿、活动策划、广告文案、电影剧本等各类文本,根据描述绘图、翻译、写诗词,甚至扮演面试官、电影中的角色、陪聊、解忧讲故事者,乃至给予家装设计、编程调试、人生规划等方面的建议。只要你悉心调教,ChatGPT甚至能从擅长交流的“咨询大师”快速进化,成为高效学习工具。经过连续追问,它能为你列举出辅助学习的大量书单和资料链接,帮你提炼一篇文章的关键要点、一个领域的知识图谱及核心脉络,甚至帮你在灵感枯竭时打开创意脑洞。ChatGPT看起来什么都懂,就像一本百科全书。其流畅的回答方式,丰富的知识储备,给用户带来了极大的震撼。瑞银集团的一份报告显示,在ChatGPT推出仅两个月后(2023年1月末),它的活跃用户量已经突破了1亿,打破了抖音的9个月的纪录,成为史上用户增长速度最快的App之一。而突破1亿用户,App Store了2年,Instagram用了2.5年,WhatApp用了3.5年,推特用了5年(见图1-2)。在过去几个月里,一大群人涌入网站,给ChatGPT提了各种要求。有软件工程师要求它调试代码,它做到了;有美食博主要求它写一份健康巧克力曲奇的食谱,它做到了;还有使用者让它为其编写绘画提示,以输入至另一个人工智能绘画应用Midjourney,它做到了,Midjourney根据它的文本描述成功创作出艺术作品。据说,斯坦福大学医学院的皮肤科医生Roxana Daneshjou在研究AI在医学上的应用时,向它提出了多医学问题,并得到了充分的解答……图1-2部分应用用户突破1亿的时间以前也出现过很多智能聊天机器人,但都没有ChatGPT这样神奇。ChatGPT可以进行长时间、流畅的对话,以回答人们的问题,并能撰写诗歌、笑话、计算机代码和电影剧本等。ChatGPT的应答时间十分短质量都还不错(见图1-3)。图1-3试用ChatGPT作诗经过一段时间的试用,已经有很多人发现ChatGPT写论文、考试、做表格(整理信息)、编写程序、写诗歌等的能力可以超越80%的普通人,甚至能通过大学入学考试、Google程序员招聘等。这将大大影响教育行业。语言是逻辑思维的载体,如果ChatGPT因为具有强大的文字与语言处理能力而不学习如何使用语言,那么其他一切都将变成空中楼阁(见图1-4)。图1-4ChatGPT的主要特征ChatGPT这次突然引爆舆论,在业内人士看来颇有些不可思议,连开发ChatGPT的OpenAI自己也没想到,它们可以顺利获得微软100亿美元的投资。微软大规模投资OpenAI,并宣布除了Office,搜索引擎Bing也要全面集成ChatGPT,势必要打破Google对搜索引擎20多年的垄断。这一举措逼得Google连投竞争对手,并把业务组织完全变阵。OpenAI是美国的AI实验室,是非营利组织,其功能定位是促进和发展友好的人工智能,使人类整体受益。OpenAI成立于2015年底,创始人是埃隆·马斯克(Elon Musk)及前YC总裁山姆·阿尔特曼Altman)(见图1-5)。维基百科资料显示,从时间轴来看,2015年底,OpenAI成立,组织目标是通过与其他机构和研究者自由合作,向公众开放专利和研究成果。2016年,OpenAI宣称将制造通用机器人,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。2019年3月1日成立OpenAILP子公司,目标是盈利和商业化。2019年7月22日微软投资OpenAI 10亿美元,双方合作为Azure(软的云服务)开发人工智能技术。2020年6月11日OpenAI宣布推出GPT-3语言模型,微软于2020年9月22日取得独家授权。2022年11月30日,OpenAI发布了名为ChatGPT的自然语言生成式模型,以对话方式进行交互。2023年1月,微软和OpenAI洽谈投资100亿美元事宜,并希望将OpenAI的人工智能技术纳入Word、Outlook、PowerPoint和其他应用程序中。图1-5OpenAI的发展历程由此可见,微软不但很早对OpenAI进行了投资,而且在敏锐地发现ChatGPT的潜力后,再次重磅投入100亿美元,并且快速地在Office服务中集成了ChatGPT,Bing搜索引擎更是迅速部署ChatGPT并且上线。这对Google造成了巨大冲击——仿佛以“关键字搜索”为标志的“古典搜索引擎”将被淘汰了。当然,微软并非心血来潮,这次投资OpenAI的行动之所以如此决绝与迅速,实际上源自微软对几乎错过了整个互联网时代的不甘。20世纪90年代是计算机的时代,微软一枝独秀;2000年以来是互联网的时代,Google、Amazon等巨头快速崛起,势头远超微软。事实上,微软早在2006年就启动了AI与隐私相关的研究。自2010年以来,负责语音处理和语言理解研发的部门一直由微软研究院副总裁PeterLee领导,谋求将这些AI功能用到Office办公软件和Bing搜索引擎中,为对话转录、语法检查等功能提供技术支持。此后,微软一直利用先进的AI技术,潜移默化地改善各类产品的用户体验。在现任CEO萨提亚·纳德拉(SatyaNadella)的带领下,微软2019年给OpenAI投资了10亿美元,2020年买断了GPT-3背后基础技术的独家使用许可,从此与OpenAI建立了深厚的关系,并换来相当多的优先使用权限,包括将OpenAI大部分技术用于Bing搜索引擎等产品的优先授权,以及Azure云平台成为OpenAI的独家云供应商。微软这项对OpenAI的颇具前瞻性的投资,已经显露出巨大回报。在OpenAI发布GPT-3大模型后没多久,微软就悄悄地将GPT-3集成到自家产品中,用于完善Office的自动补齐单词等功能,优化语音转文本工具。一位微软高级销售经理称,微软推出OpenAI功能的速度比他之前在微软研究院从事AI开发的速度快得多。当然,OpenAI也离不开微软的软件和硬件的支持。据说,OpenAI模型在Azure中占用的空间和计算比微软语言模型Turing-NLG更多。对于像大型语言模型这样的计算密集型开发,降低成本最为关键。假设每月有1000万用户,每天运行ChatGPT的成本估计高达100万美元。微软CEO纳德拉曾透露,微软已经建造了一台超级计算机来处理OpenAI的工作,能以竞争对手一半的成本处理一些AI计算。除此之外,由于微软是OpenAI最大的投资方,在OpenAI推出每月20美元的ChatGPT 订阅服务后,OpenAI从ChatGPT收到的商业报酬越多,就意味着微软能获得的回报越大。按照预测,OpenAI 2023年预期收入将达到2亿美元,2024年将达到10亿美元。Google这类搜索引擎是互联网时代里里程碑式的产物之一。Google可以说是互联网时代的“信息神庙”,它拥有丰富的人类知识并可以主导信息的流向和生产。任何人要想检索信息都需要登录网站,在这座“神庙”中行进。然而,随着数据的不断增加,信息爆炸让信息检索变得越来越困功能产生了强烈的诉求。搜索引擎采用平台化的集中式管理模式。因为平台有广告植入的空间和广告流量,所以用户需要到平台上自主检索,平台往往会列出几十页检索页面让用户自行筛选。在移动互联网时代,这种网页布告栏式的传统互联网交互方式已经落后。为了打破Google占据的消费互联网搜索引擎入口的优势,微软的Bing搜索一直在尝试反击,目标就是用人工智能技术优化搜索结果(基于很少有人点开搜索结果第二页的现实,用AI算法尽可能把最优结果往前提,可以抵消Google大规模爬虫系统的优势)。ChatGPT采用一对一的生成式对话方式,用户可以直接得到结果,而不是拿到一堆需要二次人工筛选的信息。ChatGPT有对话记忆功能,用户可以专注于这个对话,直到得到满意的结果。经过数千亿个单词语料的自然语言模型训练,ChatGPT可以用舒适感很强的表达方式与人对话,使用户体验大幅提升。现在的微软只是回来了,试图用OpenAI的ChatGPT,将Google通过投资DeepMind、Boston 、Waymo积累的光环击碎。微软CEO纳德拉说:“对于知识型工作者来说,这完全等于工业革命。”还有人说,ChatGPT将像搜索引擎杀死黄页一样摧毁Google。摩根士丹利公开表示,ChatGPT可能给Google母公司的盈利能力带来长期威胁。为了应对ChatGPT的威胁,已退出Google日常业务的两位Google联合创始人紧急重返公司,多次发起会议商讨对策。Google还向研发ChatGPT竞品的创业企业Anthropic投资了约3亿美元,该企业的创始成员曾为创造ChatGPT的OpenAI工作。如今,大家都很好奇ChatGPT是否能改变世界?答案是“能”!在全球经济不明朗的大环境里,ChatGPT的诞生似乎吹起了一股清风,ChatGPT被寄予以智能科技来改善世界经济、促进社会进步的美好愿望。自从ChatGPT出现后,突然之间,每个人都在谈论人工智能如何影响他们的工作、学习和生活。ChatGPT之所以让大家感到震撼,是因为其用户体验大大超越以往的人机对话产品。普通使用者感觉到,自己不再是跟“人工智障”对话,ChatGPT对问题的理解很深入,生成的文本也很流畅,的确像是一个“人”在进行回复。甚至还有工程师尝试用ChatGPT改善智能家居体验。据说,一名高级Web开发人员用短短不到小时的时间,通过与ChatGPT背后的GPT-3大模型交互,结合SiriShortcuts做出了一个更智能的语音助手。这个语音助手不仅能控制整个苹果HomeKit智能家居系统,而且能够以超低的延迟轻松回答各种问题。他给予了ChatGPT极高的评价,称尝试过这个产品后,包括苹果Siri、亚马逊Alexa、Google Home在内的所有“智能”助手,都显得如愚蠢而没用。此外,ChatGPT将取代部分人类工作者的说法也耸人听闻地传开务顾问、交易员、平面设计师、会计师、客服等(见图1-6)。这个取受到第一波冲击,规模将达到上千万人,比如印度就将受到巨大的影失去价值,之前火过一阵子的语音助手都将无人问津……图1-6ChatGPT可能取代的人类工作者1务顾问、交易员、平面设计师、会计师、客服等(见图1-6)。这个取受到第一波冲击,规模将达到上千万人,比如印度就将受到巨大的影失去价值,之前火过一阵子的语音助手都将无人问津……图1-6ChatGPT可能取代的人类工作者第二章快速迭代的发展历程在ChatGPT一词中,Chat是指对话方式,GPT是指背后的技术,其问答、文本摘要、语言翻译、文本分类、代码生成和对话对答等工作中。从最初版本的GPT-1到GPT-4(ChatGPT),仅用4年时间ChatGPT就实现了快速的迭代式演进(见图2-1)。2018年,GPT-1诞生,这一年也是NLP(自然语言处理)的预训练模型元年。在性能方面,GPT-1有着一定的泛化能力,能够用于和监督任务无关的NLP任务。其常用任务包括:自然语言推理:判断两个句子的关系(立)。答案的预测准确率。语义相似度识别:判断两个句子的语义是否相关。分类:判断输入的文本属于指定的哪个类别。图2-1GPT-1到GPT-4的演进过程虽然GPT-1在未经调试的任务上有一些效果,但其泛化能力远低于经过微调的有监督任务,因此GPT-1只能算得上一个还算不错的语言理解工具而非对话式AI。GPT-2于2019年正式推出,不过,GPT-2并没有对原有的网络进行过多的结构创新与设计,只使用了更多的网络参数与更大的数据集:最大模型共计48层,参数量达15亿,学习目标则使用无监督预训练模型做有监督任务。在性能方面,除了理解能力,GPT-2在生成方面第一次表现出了强大的天赋:阅读摘要、聊天、续写、编故事,甚至生成假新闻、钓鱼邮件或在网上进行角色扮演,这些通通不在话下。在“变得更大”之后,GPT-2建模任务上实现了彼时的最佳性能。之后,GPT-3出现了,它作为一个无监督模型(现在经常被称为自监督模型),问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等。而且,该模型在诸多任务上表现卓越,例如,在法语——英语机器翻译任务中达到当时的最佳水平,自动生成的文章几乎让人无法辨别出自人类还是机器(正确率仅为52%,与随机猜测相当)。更令人惊讶的是,在两位数的加减运算任务中,该模型的正确率几乎达到100%,甚至还可以依据任务描述自动生成代码。一个无监督模型功能多、效果好,似乎让人们看到了通用人工智能的希望,可能这就是GPT-3影响力如此之大的主要原因。实际上,我们可以将GPT-3看成一个简单的统计语言模型。从机器用已经说过的片段作为条件,预测下一个时刻不同词语出现的概率分布。语言模型可以衡量一个句子符合语言文法的程度(系统自动产生的回复是否自然流畅),句子。例如,对于一个片段“杭州东站到了,乘客们请准备下车”,语言模型可以预测“请”后面可能出现的词语。一般的语言模型会预测下一个词语是“下车”,强大的语言模型能够捕捉时间信息,预测并且生成符合语境的词语“准备下车”。通常,一个语言模型是否强大主要取决于两点:首先,看该模型是否能够调用全部的历史上下文信息,上述例子中如果无法捕捉“杭州东站到了”这个远距离的语义信息,语言模型就无法预测下一个词语“准备下车”。其次,还要看是否有足够丰富的历史上下文可供模型学习,也就是说训练语料是否足够丰富。由于语言模型属于自监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无须标注即可作为训练数据。由于GPT-3本,显然优于前代的GPT-2。作为目前最大的密集型神经网络之一,GPT-3能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的哲学家来预测生命的真谛。且GPT-3本(少量学习)。可以说GPT-3切想象。但是GTP-3并不完美,当前人们最担心的人工智能的主要问题之有攻击性的语言输出,这将会充分影响到它们的下一步应用。2022年初,OpenAI发布了InstructGPT。相比GPT-3,OpenAI采用对齐研究(AlignmentResearch),训练出更真实、更无害,而且能更好地遵循用户意图的语言模型InstructGPT。InstructGPT是一个经过微调的新版本GPT-3,可以将有害的、不真实的和有偏差的输出最小化。开发人员通过监督学习叠加从人类反馈中获得的强化学习,来提高GPT-3的输出质量。在这种学习中,人类对模型的潜在输出进行排序,强化学习算法则对产生类似于高级输出材料的模型进行打分。训练数据集以创建提示开始,其中一些提示基于GPT-3用户的输入,比如“给我讲一个关于西游记的故事”或“用几句话给一个6解释一下春节的由来”。开发人员将提示分为三个部分,并以不同的方式为每个部分创建响应。人类作家会对第一组提示做出响应。开发人员微调了一个经过训练的GPT-3,将它变成InstructGPT,以生成每个提示的现有响应。下一步是训练一个模型,使其为更好的响应提供更高的奖励。对于第二组提示,经过优化的模型会生成多个响应。人工评分者会对每个回复进行评分。在给出一个提示和两个响应后,一个打分模型(另一个预先训练的GPT-3)学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。开发人员利用第三组提示和近端策略优化(Proximal Polic的强化学习方法进一步微调了语言模型。给出提示后,语言模型会生成响应,而打分模型会给予相应奖励。PPO使用奖励来更新语言模型(见图2-2)。图2-2ChatGPT的训练过程ChatGPT相较于之前的InstructGPT,在训练过程方面略有不同。之前的InstructGPT模型是给一个输入,就给一个输出,然后与训练数据进行对比,对了有奖励,错了有惩罚;现在的ChatGPT只有一个输入,模型给出多个输出,然后“人”给这个输出结果排序,再让模型将这些结果从“善解人意”到“不知所以”排序,让模型学习人类排序的方式,这种策略叫作监督学习(Supervised 。总结而言,ChatGPT与InstructGPT的不同之处就在于数据是如何设置并用于训练(及收集)的。2023年初,OpenAI曾经提出,其会在不久的将来发布更为强大的GPT-4。据说,GPT-4会在2024年发布,它将能够通过图灵测试,并且能够先进到和人类比肩,除此之外,企业接入使用GPT-4的成本也将大规模下降。有专家猜测,GPT-4可能将在多模态上有所进展,也就是会y引入视频、音频等。第三章智能交互的运行模式回顾ChatGPT的发展历程,可以看出,OpenAI其实从GPT-1开始,基本就坚定地把大型语言模型(LargeLanguageModel,LLM)看作通往通用人工智能(Artificial General Intelligence,AGI)的一条必由之路。具体而言,在OpenAI眼中,未来的AGI应该是这个样子的——有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它能听懂人类的命令,以便于人类使用。幕后:大型语言模型自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要研究方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。人类(自然)交互领域有关。自然语言处理面临很多挑战,包括自然语言理解,因此,NLP涉及人机交互的面积。在NLP的诸多挑战中,就涉及自然语言的自然语言生成的问题。一直以来,自然语言处理领域存在的问题有两个方面:一方面,迄话环境对本句的约束和影响还缺乏系统研究,因此分析歧义、词语省此一个书面理解系统只能建立在有限的词语、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围。最早的自然语言理解方面的研究源于机器翻译。1949年,美国人瓦伦·韦弗(WarrenWeaver)首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾进行过大规模研究,并产生了巨额费用,但人们当时显然低估了自然语言的复杂性,由于语言处理的理论和技术均不成熟,所以进展不大。当时主要的做法是存储两种语言的单词、短语并在翻译时一一对应译法大辞典,技术上只是调整语言的同条顺序。但日常生活中语言的翻译并非这么简单,很多时候还要参考某句话上下文的意思。大约20世纪90年代开始,自然语言处理领域发生了巨大的变化。这种变化有两个明显的特征。对系统的输入:要求研制的自然语言处理系统能处理大规模典型句子。只有这样,研制的系统才有真正的实用价值。对系统的输出:鉴于真实地理解自然语言是十分困难的,所自动提取重要信息、进行自动摘要等。同时,由于强调了“大规模”和“真实文本”,下面两方面的基础性工作也得到了重视和加强。大规模真实语料库的研制。大规模且经过不同深度加工的真法只能是无源之水。大规模、信息丰富的词典的编制工作。规模达到几万、十几万,甚至几十万个词,含有丰富信息(如包含词的搭配信息)可用词典对自然语言处理的重要性是不言而喻的。自然语言处理是指机器理解并解释人类写作、说话方式的能力,是人工智能和语言学的一部分,它致力于使用计算机理解或产生人类语言中的词语或句子。自然语言处理主要涉及语音识别、语音合成、语义理解、机器翻译,自然语言类产品呈现实用化的发展趋势,但是在产品成熟度方面仍存在较大的提升空间。现代NLP算法基于机器学习,特别是统计机器学习。机器学习范式不同于一般的、之前的尝试语言处理。语言处理任务的实现,通常涉及直接用手的大套规则编码。主要研究领域包括:短文本的计算与分析技术,跨语言文本挖掘技术和面向机器认知智能的语义理解技术,以及多媒体信息理解的人机对话系统(见图3-1)。ChatGPT无比强大的能力主要归功于“大规模”——ChatGPT所依托的大型语言模型。ChatGPT尽管加入了人工标注的数据,但是量级只有数万,这个规模的数据量和训练GPT-3.5模型使用的千亿级别的数据量相比,可谓沧海一粟,完全可以忽略不计,基本不会对提升GPT-3.5的基础能力产生作用。所以ChatGPT的强大功能,应该主要来自隐藏于背后的巨无霸模型——LLM。图3-1自然语言处理技术在整个人工智能行业,几乎所有机构都在建立一个个专门的小模定会被认为是一群疯子。所谓“大模型”,通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需求。腾讯研究院称,当前的人工智能大多针对特定的应用场景进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程了人工智能的研发效率,且成本较高。这就如同哥伦布逆着西风带着航行的船队所遇到的囧境。要想远航就需要干粮等补给的支撑。过了某一个折返点,剩下的补给将无法支撑船员返航,前面要么有岛屿,要么留给船员的就是生命最后几个月的时光。所有的人都害怕近在咫尺的死亡。所以,当哥伦布到达新大陆的时候,不仅哥伦布及西班牙的王室知道了此事,所有的人都知道了:这条路走得通。如今,OpenAI已经用“暴力美学”的方式,把大语言模型这条路走通了,接下来其他企业、机构走第二遍,就容易多了。LLM的发展可以理解为“构建一个任务无关的超大型LLM,让它从海量数据中学习各种知识”。图3-2展示了一个大型语言模型该有的样子。图3-2大型语言模型首先,这个模型的规模必然非常巨大,有能力研发出或改动这个模型参数的机构必然很少。而任务需求方是无数的中小机构甚至是个人,就算这些中小机构或个人把大型语言模型开源出来,也无力部署这个模型,更不用说用微调这种技术模式去修改模型参数了。所以,我们应该追求不修正模型参数,就能让任务需求方顺利完成任务的方式,也就是应该采取提示词(Prompt)模式完成任务,而非采用微调模式。模型制作方则将LLM做成公用基础设施服务,以基础设施即服务(InfrastructureasaService,IaaS)的模式运行。与此同时,服务提供方需要考虑到千变万化的用户需求,所以LLM开发方更要让LLM完成尽可能多的类型的任务,这也是LLM一定会走向通用人工智能之路的现实因素。其次,LLM得的所有文本或者图片等不同类型的数据喂给它,它应该能够自动从中学习到数据所包含的所有知识点,学习过程不需要人的介入,并且它能灵活应用所学知识解决实际问题。因为数据是海量的,要吸收所有知识,就要用非常多的模型参数来存储知识,所以这个模型必然会是一个巨无霸模型。那么,ChatGPT向GPT-3.5模型注入新知识了吗?答案:应该注入了。这些知识就包含在有人揭秘ChatGPT时所提到的“几万人工标注”数据里,不过注入的不是世界知识,而是人类偏好知识。所谓“人类偏好”,包含几方面的含义:首先,它是人类表达一个任务的习惯说法。比如,人们习惯说:“把下面的句子翻译成日语”,以此表达一个“机器翻译”的需求。但是LLM并非人类,它会如何理解这句话的意思呢?你LLM理解这句命令的含义,并正确执行。所以,ChatGPT通过人工标注数据,向GPT-3.5注入了这类知识,方便LLM理解人的命令,这是它了解人类意图的关键。其次,对于什么是好的回答,什么是不好的回答,人类有自己的标准,例如,比较详细的回答是好的回答,带有歧视内容的回答是不好的回答,诸如此类。这是人类自身对回答质量好坏的偏好。人工标注通过打分模型(RewardModel)馈到LLM的数据里。总体而言,ChatGPT把人类偏好知识注入GPT-3.5,以此获得一个听得懂人话且比较有分寸的LLM。就具体过程而言,首先,创建人类偏好数据。随机挑选一些问题,并由标注人员给出高质量回答,形成“人类表达—任务结果”的标注数据,喂给模型,让它学习。这批数据数量仅有数万,并通过提示词模式进行学习,即模型参数不产生变化。其次,训练一个反馈模型。随机挑选一些问题,让原始模型输出答案,再由标注人员基于“人类偏好标准”(如相关性、信息丰富程度、答案有害、负面情感等),对原始模型的答案做一个排序。最后,利用这批标注好的人类偏好数据,训练一个打分模型,这个打分模型会对原始模型的结果进行打分,告诉它哪个答案得分高,哪个答案得分低。这样一来,整个过程通过循环式地强化学习,将反馈模型和原始模型连接到一起,当原始模型输出的结果在打分模型中获得较低分值时,它就会受到惩罚,被要求重新学习。后续不断循环后两个步骤,原始模型就会不断迭代升级,乃至脱胎换骨,学习到人类的偏好,变成一个让人类满意的模型,也就是我们最终看到的ChatGPT。台前:新型人机交互接口语言是人类区别于其他动物的本质特性。在所有生物中,只有人类具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以文字的形式记载和流传下来的。因而,语言也是人工智能的一个重要部分,甚至是核心部分。用自然语言与计算机进行通信,是人们长期以来的追求。因为这既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无须花大量的时间和精力去学习各种复杂的计算机语言;人们也可通过它进一步了解人类的语言能力和智能机制。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。但这种状况已有所改变。然语言处理系统,仍然是未来较长时期的努力目标。但是针对一定应它们都不具备强大的记忆能力。目前,很多研究已经证明LLM对于知识具有强大的记忆能力。但否聪明的重要标准。如果想让人觉得ChatGPT效果很惊艳,那么ChatGPT背后强大的推理能力是必不可少的。推理能力的本质是综合运用很多相关知识点,推导出新知识或新结论。当模型规模足够大的时候,LLM本身就具备了相应的推理能力。ChatGPT的最大贡献在于:较好地构建了LLM的接口层,让LLM适配人类习惯的命令式表达方式,而不是反过来让人类去适配LLM,绞尽脑汁地想出一个想达到目的的命令。由此一来,LLM的易用性和用户体验便提升了。而这种交互方式的演变,就是一种非常理想的新型人机交互模式。我们不需要专业的能力,不需要高端的设备,我们只需要开口说出自己的诉求,人工智能就能够理解并帮我们解答(见图3-3)。图3-3新型人机接口这种产业变革和模式创新至少会体现在以下方面:改变现有人机交互模式用户将能够使用自然对话的方式与智能产品进行交互。由于ChatGPT可以比较精准地理解用户的意图,因此在随后的软件和服务调用上它能够更加贴合用户的需求,进而提高交互效率与任务成功率。这种人机交互模式的更迭,将会改变当前App等的使用方式。比如,更多的功能会被整合进App里,甚至出现拥有“大一统”能力的超级通用App。改变信息分发获取模式基于认知智能技术可实现更高效的信息整合和知识推荐。以搜索为例,传统搜索引擎根据关键字匹配内容,使用者需要在海量搜索结果中筛选出有用信息,而ChatGPT加持的Bing搜索引擎可以直接给出答案,并提高了问题与答案的匹配度,大大提升了用户体验。由ChatGPT引发的信息分发获取模式的改变,将影响流量的分布,并改变流量变现的商业模式。在2022年12月的媒体通稿中,各大媒体对ChatGPT的评价集中于“仿真性”ChatGPT的“智力”又提升了的结果,人们认为它更聪明了。接给出答案,并提高了问题与答案的匹配度,大大提升了用户体验。由ChatGPT引发的信息分发获取模式的改变,将影响流量的分布,并改变流量变现的商业模式。在2022年12月的媒体通稿中,各大媒体对ChatGPT的评价集中于“仿真性”ChatGPT的“智力”又提升了的结果,人们认为它更聪明了。第四章深度学习的核心技术很多人发现ChatGPT在自然语言处理的系列任务中,比如在文本理解和生成、对话问答、机器翻译、程序代码生成方面都有很大的进步。这是怎么做到的呢?从技术层面讲,这其实是近几年深度神经网络、大型语言模型的研究不断深入带来的成果,通俗点讲就是海量的数据加上巨大的算力催生了这样一个大型语言模型,使其落地应用。也就是说,ChatGPT背后的关键技术离不开大模型的算法、算力、数据(见图4-1)。图4-1ChatGPT的技术支撑算法由GPT-3.5模型提供支持。GPT是一种基于互联网可用数据训练的文本生成深度学习模型。在算法方面,该模型使用了“利用人类反馈强化学习”(RLHF)的训练方式,包括人类提问机器回答、机器提问人类回答,并且不断迭代,让模型逐渐有了对生成的答案的评判能力。RLHF的训练过程可以分解为三个步骤(见图4-2)。阶段1:预训练语言模型首先,将一个经典的预训练语言模型作为初始模型。在预训练模型出现之前,深度学习之所以不够成功,主要原因来自两个方面:一方面是匹配给某个具体任务的训练数据总量不够多。随着模型容量的增加,其需要靠大量训练数据来支撑,否则即使能把深度做起来,任务效果也不佳,因此这成为自然语言处理领域一个无法解决的难题;另一个方面是深度学习的特征抽取能力不够强,就算有再多的数据也没用,因为模型不能有效地吸收数据里蕴含的知识。这两个原因,阻碍了深度学习在自然语言处理领域成功突围。而GPT预训练模型的出现,无论从学术研究角度看,还是从场景应用角度看,都代表了自然语言处理领域的一个技术飞跃,并带来了整个领域研究范式的转换(见图4-3)。图4-2RLHF的训练过程图4-3预训练语言模型(LM)阶段2:训练打分模型之后,要基于这个初始语言模型产出的数据来训练一个打分模型。打分模型的目标是评估模型的输出是否在人类看来表现不错。即输入[Prompt(提示),模型生成的文本],输出一个评估文本质量的标记数字。用于训练打分模型的Prompt数据一般来自一个预先富集的数据集,ChatGPT的Prompt数据主要来自那些调用GPT API的用户。这些提示会被放进初始的语言模型(第一阶段的模型)以生成文本。打分模型可以看作一个判别式的语言模型,因此可以从一个预训练语言模型出发,而后在[x=(Prompt,模型回答),y=人类满意度]构成的标注语料上微调,也可以直接随机初始化,在语料上直接训练(见图4-4)。图4-4收集数据并训练奖励模型(RM)阶段3:基于RL进行语言模型优化有了一个初始的语言模型来生成文本,以及用一个打分模型来判断模型生成的文本是否优质(迎合人类偏好)之后,就可以使用强化学习(RL)基于打分模型来优化初始语言模型。将初始语言模型的微调任务建模为强化学习问题,因此需要定义策略(Policy)、动作空间(Action Space)、观察空间(ObservatioSpace)和打分函数(ScoringFunction)等基本要素。所谓策略,就是指基于该语言模型,接收Prompt并将其作为输入,然后输出一系列文本(或文本的概率分布);动作空间就是词表所有标记在所有输出位置的排列组合;观察空间是可能的输入标记序列(Prompt),是词表所有标记在所有输入位置的排列组合;打分函数是基于训练好的RM模型,配合一些策略层面的合约进行的打分计算。有了这个打分模型,便可以根据策略优化算法来更新模型参数了(见图4-5)。图4-5通过强化学习微调通过以上过程,完全可以迭代式地更新打分模型和策略模型,让打分模型对模型输出质量的评估愈加精确;策略模型的输出则不断地与初始模型拉开差距,使得输出文本变得越来越符合人类的需求和认知。算力ChatGPT成为新一代人工智能里程碑的背后,是算力发展和数字经济时代形成的大数据所共同支持的大型语言模型训练。在算力方面,nChatGPT所使用的GPT-3.5模型是在微软云计算服务AzureAI超算基础设施(由V100 GPU组成的高带宽集群)上进行训练的,总算力消耗3640PF-days(每秒一千万亿次计算,运行3640天)。这就带来了两个问题:巨大的算力需求与资金消耗(见图4-6)。训练和运行模型都需要庞大的算力,有研究估测,训练1750亿个参数大型语言模型的GPT-3,就需要有上万个CPU/GPU 24小时不间断输入据,所需能耗相当于开车往返地球和月球,且一次运算就要花费450万美元。图4-6巨额的算力在大模型的框架下,ChatGPT所使用的GPT模型的每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。ChatGPT官网在2023年1月27日至2023年2月3日吸引的每日访客数量高达2500万。假设以目前的稳定状态,每日每位用户提出约10个问题,则每日约有2.5亿次咨询量。根据国盛证券计算机分析师刘高畅、杨然发表于2023年2月12日的报告《ChatGPT需要多少算力》,2023年1月平均每天约有1300万独立访客使用ChatGPT,其对应的芯片需求为3万多个英伟达A100 GPU图处理器,初始投入成本约为8亿美元,每日电费在5万美元左右,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM,训练成本介于200万美元至1200万美元之间。这对于全球科技大企业而言并不便宜,但尚在可接受范围内。对于ChatGPT的技术,Google、Meta等头部互联网巨头迟早都会掌握,但是科技公司之间的军备竞赛依旧会展开。一方面,ChatGPT的推理成本高昂,而且消耗的算力与用户体验高度正相关;另一方面,搜索引擎用户黏度小,用户永远会去用体验最好的那个,这将大幅推高搜索算法的成本,使得Google赖以生存的搜索广告业务再也无法“躺着赚钱”。微软的营收将会更加多元化,因此受到的冲击会更小,能享受到Edge浏览器,甚至Windows系统市场份额增加的好处。说得直白一点,现在的微软相当于开启了大模型军备竞赛,想要“卷死”竞争对手。早些年,企业通过自行发电来满足运营的电力需要,不仅耗资巨大而且还需具备某些与企业业务关联不大的特殊能力。电网基础设施的运行,使供电成为一项公共事业,这也使得企业能用购电代替自行发电,就其实质而言,企业将自行发电变为购买发电服务。集中发电可以使电力的使用更为高效,这意味着更多企业,甚至是个人可以根据自身的需要买电,而不用为其他电量支付任何费用。电力供应的公共化,提高了各部门的生产力,改善了社会生活的质量,并为新兴产业创造了发展机会。信息和通信技术行业也正经历着类似的演进过程。几十年来,机构和个人通过投资计算机软件和硬件,像购买商品一样购买信息和通信技术。在过去十年中,信息和通信服务的供给方式快速更新,随着高速宽带基础设施的普及,通过网络我们可以将信息和通信技术作为一项服务来购买。如今,算力就像被大家广泛使用的电力一样,同时具有潜在破坏性与变革性。如果将AI智能应用在更大的范围中进行普及。大模型的智能能力在未来将成为一种公共基础资源,像电力或自来水一样随取随用。未来,每个智能终端、每个App、每个智能服务平台,都可以像接入电网一样,接入由IT基础设施组成的算力网络,让AI业。各行各业的用户若想使用服务,却不想购买、安装和运行昂贵的计算机硬件,就可借助无处不在的有线或无线网络,从云端获取算力,这与使用其他公共服务没有区别(见图4-7)。云计算尽管也将算力比作随取随用的资源,但目前仍然不像用电那样方便。这是因为云计算本质上需要云和用户进行双向的资源交换,用户需要经过烦琐的数据准备、定义计算过程等环节,将数据和算法转移到云端,再由云端完成任务后传回本地。相对于云计算模式,基于大模型算力就能够在少量微调甚至不微调的情况下直接完成用户所需的工的主流模式。图4-7从电力到算力未来,大模型算力在能力泛化、技术融合、研发标准化等方面的优势让其有能力支撑各种应用,成为人工智能技术及应用的新基座。正如发电厂和高速公路一样,大模型算力将成为各行各业应用人工智能技术的底座和创新的源头。数据资料显示,ChatGPT有着多达1750亿个参数的模型,并在2023年初训练完成。模型训练的背后离不开大数据的支持,OpenAI所使用的主要公共爬虫数据集有着超过万亿个单词的人类语言数据库。正是这些海量数据,使得ChatGPT展示出了强大的三种能力:语言生成:遵循提示词(Prompt),词的句子。这也是目前人类与语言模型最普遍的交互方式。上下文学习(In-context Learning):遵循给定任务的个示例,然后为新的测试用例生成解决方案。值得一提的是,GPT-3虽然是个语言模型,但它的重点不是语言建模(LanguagModeling),而是上下文学习。世界知识学习:包括事实性知识(FactualKnowledge)和常识(Commonsense)。以上三种能力都来自大规模预训练:在有3000亿个单词的语料上预训练拥有1750亿个参数的模型(训练语料的60%来自2016—2019年的Common 语料库,22%来自WebText语料库,16%来自书籍和报刊,2%来自维基百科)。其中的Common Crawl语料库是2008年至今个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本涉及不同语言、不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。其中的WebText语料库是一个大型数据集,它的数据是从社交媒体平台Reddit所有输出链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用(见图4-8)。e图4-8ChatGPT的数据来源关于ChatGPT上下文学习的能力来源及为什么上下文学习可以泛能来自同一个任务的数据点在训练时按顺序排列在同一个batch(批处理)习行为与微调的协同原理值得进一步深入研究。目前的ChatGPT在有3000亿个单词的语料上预训练拥有1750亿个参数的模型,据说GPT-4将是一个拥有超过100万亿级别参数的大模型(见图4-9)。根据学术界的经验,深度神经网络的学习能力和模型的参数规模呈正相关。人类的大脑皮层有140多亿个神经细胞,每个神经细胞又有3万多个突触。所以,大脑皮层的突触总数超过100万亿个。所谓的神经细胞会通过这些突触相互建立联系。一旦GPT-4实现100万亿个参数规模,那么它就可以堪比人的大脑,这意味着它将达到与人类大脑神经触点规模同等的水平。如果这样,不仅意味着GPT-4可以改造人类的思想和具备创作能力,具有形成超越人工智能的专业能力和大众化的趋势,而且意味着它开始具备人类的思维能力,并有可能在越来越多的方面替代人类。图4-9大量的数据类的思想和具备创作能力,具有形成超越人工智能的专业能力和大众化的趋势,而且意味着它开始具备人类的思维能力,并有可能在越来越多的方面替代人类。图4-9大量的数据第五章无限可能的未来图景ChatGPT这波冲击,对人工智能新兴行业及传统行业的智能化带来的影响都非常巨大,它内在的创新运行模式和新的技术及工程理念,以及对所有行业的影响,都需要我们重视和研究。未来类似ChatGPT的人机对话系统功能会越来越强大,各行各业都应该抓住难得的技术机遇,把握技术带来的红利,思考如何通过深度地融合新一代人工智能获得突破与发展,这很有可能开辟一些新的赛道,形成新的动能,诞生新的经济(见图5-1)。图5-1应用场景ChatGPT成为所谓未来人机交互的一个新入口,很可能改变现有App的交互方式,以更为自然的对话方式,让用户使用软件和调用接口,从而颠覆现有行业的生态。例如,未来在Word等文档编辑软件中,人们可以通过描述需求,让软件直接生成文字内容,或者生成一个图形,甚至直接进行修图等工作。在软件开发方面,ChatGPT这种即时编程的方式,将改变传统的工作方式和开发规则,推动产业进入软件工程的新阶段。现阶段的ChatGPT以高度拟人化的对话问答模式,带来更好的交互体验,它在短期内将进一步促进金融、媒体、医疗等许多领域自然语言处理的应用。例如,在金融领域,ChatGPT利用其大模型能够大幅提升语义搜索能力,面对复杂多变的投资理财咨询,其能够准确地找到满足用户需求的咨询结果。比如招行信用卡基于ChatGPT撰写宣传稿,它写出了“生命的舞台上,我们都是基因的载体”“如果说基因给我们的生命带来了基础,那亲情便是对生命的深刻赋予。它不由基因驱使,而是一种慷慨的选择”等诗意十足的文案。在投研方面,业内首份采用ChatGPT撰写的行业研究完成度颇高,但与专业人士相比相去甚远。财通证券团队介绍,ChatGPT在文字表意、标题撰写等方面均具有较高水平。在媒体领域,大量的稿件都可以用ChatGPT自动化生产,其独创性和创造力并不输于专业人员。未来,文字工作者应该积极地探索新技术来提高生产效率,比如让ChatGPT起草初稿,人类只需要在它的背后把控方向。在医疗领域,ChatGPT完全可以替代专业人员为患者提供心理咨询、问诊服务和给出用药建议等。除此之外,ChatGPT在未来还可以有更多样化的应用前景。例如,开发者可以利用ChatGPT这样的底层平台,在大模型基础上根据不同行决方案。据媒体报道,国外火爆的Jasper,通过在GPT-3模型上微调,可以帮助用户撰写营销文案,甚至有人在上面完成了一部12万字的小说,IBM、Airbnb、Autodesk等大企业都是其用户。普通用户可以免费试用能生成1万个单词的版本,之后可以用29美元购买能生成2的服务,或用59美元购买能生成5万个单词的服务。ChatGPT+金融人工智能已被广泛应用到投资、信贷、保险和监管等多个金融业务场景。目前,传统金融机构、大型互联网公司和人工智能公司纷纷布局金融领域,智慧银行、智能投顾、智能投研、智能信贷、智能保险和智能监管是当前人工智能在金融领域的主要应用,作用于银行运营、投资理财、信贷、保险和监管等业务场景,但整体来看人工智能在金融领域的应用尚不成熟。应用在金融领域的人工智能相关技术主要包括机器学习、生物识别、自然语言处理、语音识别和知识图谱等。合式的,人工智能应用对金融业务主要起辅助性作用,“智能化”常常被程中总是充满槽点。未来,随着ChatGPT应用场景都具有很强的创新潜力。从长远来看,在智能客服、智能投顾、推荐金融产品、智能投研等方面,ChatGPT性影响(见图5-2)。图5-2智能金融的应用场景(一)智能客服客服开始出现,以提供有效的快速回复,使客服系统可以实现24的意图并为客户提供反馈服务。ChatGPT客服问答系统可以利用自然语言处理技术实现自动应答,融服务的各类机构的运营成本。此外,ChatGPT客服问答系统利用自然语言处理技术,将金融服务的内容和细节全面地抽取出来,形成客户可以简单明了地了解金融业务的参考,避免了客户深入研究金融服务的麻烦,大大提升了客户获取金融知识和信息的效率。同时,ChatGPT客服问答系统可以应对复杂多变的投资理财咨询,能够准确地找到满足客户需求的咨询结果。(二)智能投顾智能投顾(投资顾问)最早在2008年左右兴起于美国,又称机器人投顾(Robo-Advisor),其依据现代资产组合理论,结合个人投资者的风险偏好和理财目标,利用算法和友好的互联网界面,在线为客户提供财富管理和投资建议等服务。与传统投顾相比,智能投顾具有门槛低、费用低、投资范围广、透明度高、操作简单、可个性化定制等优势。因此,智能投顾更能满足投资者的需求。根据美国金融业监管局(FINRA)提出的标准,理想智能投顾服务包括:客户分析、大类资产配置、投资组合选择、交易执行、组合再选择、税负管理和组合分析。传统投顾和智能投顾都基于以上七个步骤,只是实施的方式不同,智能投顾本质上是技术代替人工来实现投顾。投资者对于投资顾问的需求主要体现在“情绪管理”和“投资策略/建议”上:一方面,投资者在投资过程中容易产生贪婪或恐慌等情绪波动;另一方面,投资者对金融市场的信息了解相对较少,存在信息不对称问题(见图5-3)。图5-3在投资咨询中使用ChatGPT随着人工智能的发展,智能投顾也以强劲的姿态进入我们的视线。其实,智能投顾并不是一个新概念,因为算法基础早在20年前就已然扎根成型,而智能投顾近年来的发展主要得益于大数据和计算力的提升。供改进建议。智能投顾不仅可以在投资配置和交易执行能力上超越人类,还可以帮助投资者克服情绪上的弱点。ChatGPT为投行行业带来了更高效的工作流程,它可以通过自然语言处理技术高效分析市场信息、提取关键信息,从而给投行行业带来更快捷、更精准的投行分析服务,提高投资效率和投资回报。ChatGPT还可以通过收集、统计和建模用户历史交易行为,分析交易参与者的策略偏好,从而识别出潜在的欺诈行为。例如,ChatGPT可以识别出用户重复性交易的行为特征,以及交易参与者之间不一致的行为特征,并根据模型对其进行预测,以防止金融损失。(三)推荐金融产品ChatGPT的推荐金融产品系统主要利用人工智能算法预测用户的金需求进行实时分析,并且进行金融产品的推荐。ChatGPT自然语言处理同用户的金融需求。(四)智能投研金融业对数据具有极强的依赖性,工作人员每天用一半的时间收集和处理数据。因此,如何节省收集和处理数据的时间,是金融业对人工智能提出的需求。智能投研具有基于知识图谱和机器学习等技术,收集并整理信息,形成文档,供分析师、投资者等使用的能力。智能机器的效率较高,但创新性不足,而人机结合将大大提高决策的效率和质量。对金融机构来说,人工智能将促进更多金融机构使用人工智能实现日常业务流程自动化,其能够有效识别用户需求并提供定制产品,显著提升业绩。对消费者与投资者来说,人工智能可以降低消费者和投资者的金融服务成本,促进其获得更好的金融服务。ChatGPT+教育智能教育正在改变现有教学方式,解放教师资源,使教育理念与教育生态产生深刻变革。当前全球许多国家都在加速推进教育教学创新,积极探索教育新模式,开发教育新产品。情况进行测试、分析与评价,帮助师生快速精准定位问题,实现针对自主学习动力。教育机构通过对学生学习特点进行知识画像,推送针对性教学内容,进一步激发学生自主学习意愿。例如,智能辅导系统。自动语音识别和自然语言处理等人工智能技术的发展促进了智能辅导系统的发展,其已经从实验室迅速转移到实际应用中,能够模仿教师指导不同学科的学习。当学生遇到问题时,系统会进行提醒,根据答案提供即时反馈,甚至为每个学生设计个性化的学习方案。再如,学习分析。这一领域是由学习过程中学生数据的测量、收集和分析组成的,由在线学习系统的发展推动,是数据收集的“天然载体”。这种合作可以促进教育领域的新科学发现,并促进大规模学习的改进。事实上,目前人工智能技术已经被用于分析学生的动机、行为和结果。这些研究的目的是发现学生最常见的错误,预测哪些错误有导致失败的风险,并向他们提供实时反馈。事实上,专家相信,学习分析将加速开发个性化的学习工具。以教育领域为例,从媒体报道中,可以整理出如表5-1所示的ChatGPT教学应用的16种用途。表5-1ChatGPT教学应用举例续表据媒体报道,ChatGPT除了在高校有着一席之地,其适用范围已经拓展至学龄前儿童和中小学阶段了。据说,有一位居住在国内二线城市的4岁小孩的妈妈向记者明确表示,她每天都会登录ChatGPT,和它聊会儿天,并且把它推荐给其他的妈妈们,解答孩子的教育问题(见图5-4)。一些中小学的老师也在思考将ChatGPT融入自己的教学工作中。一名刚入职的小学语文老师解释说,小学生由于年龄小、心智尚未发育成熟,在上课时不仅需要知识上的辅导,更需要心理上的全方位帮助,她经常询问ChatGPT诸如“如何矫正小学生行为习惯”“老师如何与内向的小学生沟通”等问题。图5-4用ChatGPT完成小学数学作业不久的将来,我们可以利用ChatGPT加快推动人才培养模式、教学方法的改革,构建包含智能学习、交互式学习的新型教育体系。要开展智能校园建设,推动人工智能在教学、管理、资源建设等全流程上的应用;开发立体综合教学场、基于大数据智能的在线学习教育平台;开发智能教育助理,建立智能、快速、全面的教育分析系统;建立以学习者为中心的教育环境,提供精准的教育服务,实现日常教育和终身教育定制化。ChatGPT+客服近些年,各大厂都推出了智能聊天助手,Google有Bard,苹果有Siri,亚马逊有Alexa,微软、IBM、Meta也都有自己的智能聊天工具或相关服务。这些所谓的智能聊天助手常常答非所问,把用户搞得哭笑不得;电商平台那些客服机器人的使用体验更是让人火大。面对人类千奇百怪的个性化和众口难调的需求,客服机器人成为“人工智障”的代表,最后还是得人工客服上阵。“人工智障”聊天机器人显然让普通人对人工智能的发展感到失望,无论你用什么算法模型,服务器有多厉害,数据库有多庞大,大众只关心四个字——用户体验。除了帮助用户获得对答如流的体验,在智能客服领域,AI大模型的通用智能能力能否助力一个行业构建“大脑”,进而带动整个产业发展?或许需要先解决搭建企业级智能客服面临的三大痛点(见图5-5)。图5-5智能客服的三大痛点一是门槛高。面向B端的数据中心智能服务所面对的场景更加复杂、知识门槛更高。数据中心服务往往面临着多元的软件、硬件与不同的业务场景、业务流程等因素相互交叉的复杂情形,如何让AI数据、业务场景实现融合,在用户服务的全生命周期,实现专业服务端到端智能化,是服务转型过程中要突破的难点。二是满意度低。咨询客户中大部分都是非专业工程师,若智能客服给予的答案过于标准或冗余,无法解决客户在应用场景中的问题,客服所给予的答案只可被定义为“对”的答案而不是“好”的答案。三是成本高。任何领域的智能化转型都要投入大量的人力、算力及数据。持续投入即使可以推进AI应用逐渐升级,但其边际效益递减显著,也会面临效果提升的瓶颈。这三大痛点对企业级智能客服系统提出了更加具体的要求:要具备理解上下文的自然语言能力,且通过多轮对话的形式识别用户的意图;要具备无须持续标注和训练的阅读理解能力,可以在降低训练投入的同时,实现高精度回答的效果。ChatGPT恰好完全可以满足要求(见图5-6)。自从有了ChatGPT,AI终于有了和人类对话的资格。而这种一对一随叫随到的24小时VIP服务体验,不亚于拥有庞大算力的AlphaGo和围棋大师一对一下棋。这样的直观体验,让普通人第一次感受到了AI带给人的“日常欢愉”。图5-6智能客服中ChatGPT的试用场景ChatGPT+医疗据媒体报道,我国50%以上的医生平均每天用于写病历的时间超过4小时,相当一部分医生写病历的时间超过7小时;国内部分放射科仍采用传统书写方式,由专门的记录员记录医生主诉内容,而后录入计算机中,效率低下。所以,一直以来,医疗都被视为人工智能的一个有潜力的应用领健康状况,提高人们的生活质量。该领域的主要应用包括临床决定支未来的一个核心挑战。医疗领域中的ChatGPT基于特定领域的知识系统,可以让医生和患者通过文字或语音的方式,与人工智能进行类人级别的交流交互,通过智能语音技术(包括语音识别、语音合成和声纹识别)和自然语言处理技术(包括自然语言理解与自然语言生成),实现人机交互,目的是解决使用者某一特定的需求。ChatGPT在医疗领域,完全可以替代专业人员为患者提供导诊、问诊和服药建议等(见图5-7)。图5-7智能医疗的场景应用(一)智能导诊相对于传统的诊断系统,作为一种人工智能技术,ChatGPT可以使用海量的病例数据,模仿人的行为,从而自动诊断疾病。自动诊断系统的优势在于其更准确,可以有效帮助医生准确诊断疾病,从而准确、迅速地治疗疾病,提高医疗水平。而且自动诊断系统也可以为医学研究提供质量更高的数据和分析结果,有助于指导医院的检测、诊断和治疗过程。例如,ChatGPT可以根据患者的症状、体征和化验报告等信息,对疾病进行诊断,并分析患者的病情,为治疗方案提供建议。ChatGPT还可以根据诊断报告中的数据,使用预测模型,以精准地预测患者的病情发展趋势,从而帮助医生为患者制定最佳治疗方案。通过ChatGPT,医疗机构不仅可以减少医护人员的检查和诊断时间,还能够节省大量的诊疗费用,从而改善患者的体验。ChatGPT以解决患者盲目就诊的问题,减轻分诊工作压力,降低患者挂错号比例,优化患者就诊流程,有效提高线上线下医疗机构接诊效率。人工智能可以用作有效的决策支持系统,为医生提供有价值的数据以用于诊断和治疗。人眼可能会忽视CT扫描中的微小异常,但经过训练的人工智能却能跟踪最小的细节。一位IT领域的专家告诉“医学界”,ChatGPT对于临床医学可能会有很大的帮助,毕竟医生的记忆力有限,无论如何也比不过计算机的强大存储能力。(二)智能自诊ChatGPT可以模拟临床医生问诊思维,与患者进行自然语言交互,估患者可能的患病情况。患者可随时随地进行健康自测,获取医疗知识,节约医疗资源。首先,ChatGPT进行诊断。例如,ChatGPT可以根据患者症状、体征和化验报告等信息,对疾病进行准确的诊断,以及分析病情走向,为治疗方案提供参考。其次,ChatGPT可以帮助医疗信息自动搜索系统快速识别出专业医疗服务机构的信息,自动检索合适的医疗保健机构,从而帮助患者更容易地找到合适的服务机构。此外,ChatGPT还可以协助医疗信息自动搜索系统对患者及其家属的病情和诊疗过程进行实时监控,以便及时发现变化,快速做出应对。最后,ChatGPT可以为医疗信息自动搜索系统提供个性化推荐服务。根据不同患者的病情和病史,ChatGPT断和治疗方案,从而节省医疗资源,提高医疗服务质量。(三)智能问药根据患者提供的生理信息、病情,智能推荐药品。首先,ChatGPT可以帮助医疗信息自动搜索系统快速检索与诊断和治疗有关的研究、文献等信息,如在新药的研发中,可以帮助医生快速检索出相关的药物,以便更快地找到有效的药物。此外,ChatGPT还可以通过自动搜索技术识别前沿研究、基因组序列和疾病风险,从而提供全方位的医疗信息搜索服务。其次,可应用于医药电商,在患者购药前或者有用药疑问时提供问药服务,实现精准导流,精准推荐。例如,ChatGPT可以识别患者的口头描述,根据其传达的内容,自动显示相关医疗建议,帮助其更快找到所需信息。(四)用药管家辅助医疗机构为患者提供完善的个性化用药指导及用药服务,减轻药事工作压力,提升患者用药依从性,为医疗机构采集患者用药信息及监测不良反应。综上所述,ChatGPT对医疗系统的帮助是显而易见的,能够有效地提高医疗效率,为患者提供更优质的医疗服务。ChatGPT+文案文案不仅仅指广告中的标题、副标题、活动主题、活动介绍,还包括广告策略、创意图片、视频等,它们都是文案不可分割的一部分。它们所构成的整体共同服务于背后的目标,比如品牌传播的目标是让用户喜欢其品牌和产品,实现转化等。你所写的内容感兴趣的文案,才算好文案。大部分文案都以商业为目(见图5-8)。图5-8文案工作的难度行动,那么就要求你描述出来的东西卖点突出、能撬动欲望、制造转字描述,然后用ChatGPT转化为对应的呈现形式(见图5-9)。图5-9创作文案中ChatGPT的试用场景文案写作可谓生成式AI最吸人眼球也最常见的用途之一了。互联网营销的成本越来越高,而且难度也越来越大——好的营销需要大量的时间、技巧及很强的能力。生成式AI的出现,给了营销团队除去外包与搭建团队的第三种方案——任何人都可借助这一强大的AI助手,顺利写出电子邮件、博客文章、社媒推文等,而且速度比以前快数倍。特别是对于初创公司来说,这种方案将大大减少公司所花费的成本与精力。类似Jasper或copy.ai这样的工具使用的都是和GPT-3类似的算法。但它们能做的远不止文章写作,还有诸如创意宣传、产品描述等更多类型的创作。从长远来看,这会对整个文案和营销行业产生巨大影响,在未来人类和AI之间将产生一种新的伙伴关系。如果你想要在这方面进行创业,需要注意的是竞争会十分激烈——像Jasper这样的公司,如果不想被竞争对手超越,就要迅速建立起行业都差不多,几乎都是GPT-3的变体,并且都不是自己独立开发的。此更广的人群,可能还需要一点时间。或者,等到GPT-4出现后,它可能才是我们真正需要,且能大规模使用的技术产品。另外,很多现有工具和平台已经开始推出自己的AI助手。因此,像Jasper等一站式平台的发展或许会受冷。可以说,这个领域留给初创公司的机会不多了。ChatGPT+编程随着时代的节奏越来越快,越来越多的人习惯用手机或计算机学规范的程序书写规则,这保证了软件程序的可理解性。很多人认为,程序员进行软件编程是个高难度工作,但是ChatGPT也做到了。至少,目前ChatGPT可以在开发编程行业做到如下两点:第一,初学者和兼职程序员可以更高效地编写中等质量的代码。第二,将旧代码从旧语言转换成新语言会变得更容易。当然,对于开发工程师来说,现阶段AI工具生成的代码在结构、准确度上的问题很多,需要人工进行审查。所以它对于工程师的帮助仅仅是提高生产力1.5倍——看起来提升不少了。未来,我们可以将ChatGPT集成到开发环境,更好地整合这些技术,以帮助开发者提高效率。更具体地说,一些工具可能会让公司用现有代码和优秀用例训练这些算法,打造出智能助手之类的工具来协调所有存储库的代码及指导新员工等(见图5-10)。图5-10软件开发中ChatGPT的试用场景问:用C语言创建一个客户关系管理数据库。答:以下是C语言实现的客户关系管理数据库的一个简单代码示例。ChatGPT+翻译清末新兴启蒙思想家严复在《天演论》的“译例言”中提道:“译事也,则达上焉。”。何谓“信、达、雅”,通俗来讲就是译文要符合汉语言的特点,注重句子的完整性,语法结构的顺畅度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程合同中的违约责任认定
- 兼职销售代表协议书
- 装修翻新施工合同范本2024年
- 经典民房出租协议样本
- 房屋买卖转让中介合同样本
- 2024年洗车店承包合同常用范本
- 淘宝店铺转让合同范例
- 标准租赁土地合同模板
- 水泥运输合同格式
- 农业银行储蓄合同工作人员劳动合同样本
- 江苏省泰州市海陵区2023-2024学年七年级上学期期中语文试卷
- 培养小学生的逻辑思维能力
- 驾驶员技能比武方案
- 赫兹伯格双因素理论(正式版)课件
- 合同的权益和权力转移
- 建设工程报建流程表课件
- 院感病例(讲稿)
- 高考英语单词3500记忆短文40篇
- 北京市商业地产市场细分研究
- 2023-2024学年重庆市大足区八年级(上)期末数学试卷(含解析)
- 肺结节科普知识宣讲
评论
0/150
提交评论