2023人工智能AI培训授课教材_第1页
2023人工智能AI培训授课教材_第2页
2023人工智能AI培训授课教材_第3页
2023人工智能AI培训授课教材_第4页
2023人工智能AI培训授课教材_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能AI培训授课教材2023第1讲计算机回答问题、写诗难吗?ChatGPT出来的。面对CaGT的理解都带有想象色彩,甚至违反了基本的信息论和物理学原ChatGPT有一个理性的认识。今天ChatGPT让人感到神奇的地方主要有两个:么,它就能给你写一篇能交差的公文。那么让计算机完成这两项任务难吗?油一样难。2000认比想象得要容易得多。的杰夫·真正实用的深度学习系统——Google语言模型。2012Google2014当时计算机可以做到什么样的水平。计算机回答问题2014动问答系统,我来试着问它一个问题:天为什么是蓝色的?体让不同颜色的光散射到各个方向。蓝光因为波长短,比其他颜色折射率高。写出的答案要好。再问一个和生活相关的:怎么清洗洗碗机?1的底部。将洗碗机设置为在热水循环中运行。醋会分解任何残留的食物、油脂、肥皂渣、残留物和任何其他残留的污垢。黑色的?问题:从太空上看,天为什么是黑色的?回答:在太空或月球上,因为没有大气可以散射光。太阳光沿直线传播,没有散射,1…2…第3步:预热烤箱。…4步:将干成分搅拌在一起。…5…6…7…8步:将面糊倒入烤盘中烘烤。…原有关的问题,比如“是谁”“什么时候”“在哪里”“发生了什么事”等2008“问题“,是指”为什么”和“怎么做”这两大类问题。201440%的“难的”问题,而现在,ChatGPT能回答的难的问题要多得多。关于计算机是如何回答问题的,我们后面还会讲细节。计算机写作接下来,我们来看看计算机写作。2022年年底,我参加了美国一个媒体从业者的活动,几家大报也就是修改稿件。很多人的写作水平都要高。Google时做过一个“玩具第一首:空愁走百川,微露贵乡还。故园人不见,远望忆长安。了它一个关键词“忆长安”,然后计算机就写出来了。再看第二首:东城淡日初破晓,薄云远帆送客棹。临亭桥边渔家忙,镜山湖东春色早。产生了这首诗。出来的会比这两首漂亮得多。ChatGPT的能力人现在人们使用ChatGPT的目的大致可以归结为三个:Google今天ChatGPT是直接给出答案。第二个是让它帮助写作业,这是很多大中学生使用它的原因。第三个则是写一些应付差事的汇报,这主要是职场上的人士使用。这三件事的核心是两个,一个是理解自然语言,明白人的意图;另一个是产生自然语言的文本,满足人的要求。笑不得。至于为什么它的表现不稳定,这和它之前使用的训练数据有关,也和人对它提出的不同要求有关。虽然GPT自称是可以自己产生训练数据,但实际上,它要依赖人为产生的初始数据,才能产生新的数据。没有好的初始数据,它产生的数据也是乱七八糟的,当然,训练出的模型质量也就无法保证了。ChatGPT写每周汇报很方便,也是因为这种汇报的格式很固定。关于数据和格式的重要性,我们后面还会讲到。ChatGPT的。由于ChatGPT是一个新鲜玩意,人们常常会在它表现好的时候给它点赞,而那些不好的表现,就被不知不觉地给忽略了。ChatGPT所产生的内容质量,微软、Google等公司内部都够替代人的工具。下节预告ChatGPT需要多少知道一些语言模型的原理。下一讲,我们就来说一说,语言模型这个出现了很多次的概念,到底是什么。我是吴军,我们下一讲见。第3讲语言模型是如何进化的?上一讲我们说了,ChatGPT的本质是语言模型,就是对人类的50GPT-3和GPT-4要点。言处理的发展趋势和目前方法的局限性,可以帮我们理性看待ChatGPT,消除对于人工智能的迷信。阶段一语言模型发展的第一个阶段是上个世纪90年代之前,当时,贾里尼克等人用它解决了语音识别的问题。语音识别系统可以识别220003010%以内。这意味着什么?当识别的错误率控制在10%以内,也就是每识人可以根据自己的知识纠正那一个错字。大学读博士的李开复。的人工智能道路,利用IBM统。后来他做到了,并且成为当时美国的科技新星,还到CBS高薪挖他,这让他彻底离开学术界,进入工业界。用。上世纪90相比语音识别,机器翻译的难点在于要准备两种语言的语言模《圣经》和少量的联合国文件,因此布朗的翻译系统效果并不好。他本人都挣了很多钱。德国科学家弗朗茨·奥科在Google用类似的方法比较好地解决阶段二说回语言模型。90言模型的能力。不含音调当语言模型加入了语法和语义信息后,语言模型的训练,以及使用它计算概率时,就不再是简单的统计了。在此之前的语言模型,稍微有一些概率论和统计学背景,学过一门自然语言处理课程的人基本都能构建。但是此后的语言模型,公式非常复杂,绝大部分人是搞不懂的。人们面A关于训练模型的计算量,我们后面还会讲到,这里举一个小例子:模型,而是写了一个程序,能够把IBM服务器都用上,然后计算了一年,完成了模型的训练。想这是多大的计算量。18过计算能力的提升的。比如,2012GoogleGoogle今天,ChatGPT的语言模型利用的语言信息更加丰富,计算量也更大,即使利用大量的计算能力更强的GPU,计算的成本也很高。90语言模型。比如,我们用语言模型构建一个拼音输入法,使用者在不断输入中文时,他输入的中文文本就被用来做训练数据了。这样一来,这个输入法软件就会越用越聪明。为这时候,不同的人使用的语言模型就已经不同了。ChatGPT迭代优化。着下降。力,但与此同时,也让计算量变得巨大。因A此,为了让计算2000就转到提高算法效率上了。比如,我在博士工作的后期,花了一年多的时间改进训练方法,将计算量减少了两到三个数量级。也就是说,只需要之前千分之一到百分之一的计算资源,就能做同样的事情。阶段三到了2010年前后,Google开发了深度学习的工具Google2够越做越大;另一方面,也让模型计算出的概率越来越准确。语言模型的发展由此进入第三阶段。在随后的几年里,Google高了很多,相应产品的质量也提高了。101:1。量输出了。给你产生一页纸的内容。了解信息论原理的同学肯定会知道输入的信息量少、输出的信息定会充满不确定性。要先把信息输入语言模型。这时的语言模型就是所谓产生式的了。GPT中的GGenerative,产生。比如,GPT-3的训练数据就包括几十万本图书、几乎全部维基的表现比很多人好并不奇怪,因为人一辈子学习的内容可能连它的千分之一都没有。ChatGPT历能写得很好,写不受限制的文章就显得非常枯燥的原因。算机使用的模版。今天,美国的作家群体普遍认为,ChatGPT只能按照一定的模版写作。ChatGPT需要让它理解人的问题。这件事相对写作本身要容易一些。于是,它就能理解这句话的含义。办法,这时候,它就会胡乱回答,甚至给出完全相反的答案。下节预告好,这一讲就到这里。是吴军,我们下一讲见。划重点语言模型的发展大致经历了三个阶段:1、上个世纪90年代之前,当时贾里尼克等人用它解决了语音识别的问题。290应的语言模型。32010Google能够更有效地利用计算资源,也让模型计算出的概率越来越准确。第2讲ChatGPT的本质是什么?欢迎来到《前沿课·吴军讲GPT红的产品和服务,其实使用的技术都是半个世纪之前的。5G5G通信中最关键的编60905G用上了。ChatGPT50年的历史了。换句话说,ChatGPT50年前的。当时的极限了吗?50但是它们的原理是一样的。这一讲,我们就来把ChatGPT的底层技术,也就是语言模型说明白。什么是语言模型?什么是语言模型?顾名思义,就是对人类的语言建立数学模型。这里面最重要的关键词是“数学”。式构建的模型。那么解决和语言相关的问题,为什么要用数学模型呢?计算机理解人的语言,让它学会语法……但是人们经过很多次尝了。最初提出语言模型概念的,是我们前面提到的贾里尼克博士。1972IBMIT领域可以讲是独孤求败。于是贾里尼克就要挑战一下自己,做一些传统计算机做不到的事情,特别是和人工智能有关的事让计算机把人说的话识别出来。194630%,这样的技术当然是没有什么使用价值的。不受之前的限制,他以一种独特的视角来看待自然语言处理问题,把它们都看成是一种通信问题。自然语言和通信问题,这两件事又有什么关联呢?原一个和原始信息最接近的信息。010101111000……那怎么办呢?我们可以把和接收到的编码相似的句子都列举出来。比如:国是一个古老的国家中国一个古老的国等等。最大。这种计算自然语言每个句子概率的这一点是没有改变的。模型的概率怎么计算?呢?例子,在这句话里,“中国”这个词就比“国中”放到开头要来的通句子。算各种概率的参数,都是靠统计得出的。复计算。计使用。比如有两个句子,“天为什么是蓝色的”和“天为什么是绿色的”,哪一个概率更大?1100零。的随机事件发生的概率更大。加数据量。2000年前后,我在训练语音识别所使用的语言模型时,只用到2012亿个句子,也就是说,十多年增加了上千倍。个版本使用的5000500据可能增幅更大了。数据的质量,这一点我们后面会讲到。如何利用语言模型写唐诗?好,语言模型介绍得差不多了。现在,我们用上刚刚讲的知识,解释一下ChatGPT后,都是这么写的。下节预告了。这当中发生了什么呢?带来的影响。我是吴军,我们下一讲见。第4讲ChatGPT的能力边界在哪上一讲,我们详细说了语言模型的进化历史。ChatGPT在今天被热炒,主要的原因不是因为它能和人聊那ChatGPT被热炒的原因是什么呢?其实,ChatGPT真正可怕的地方在于,按照当前的速度发现在问题来了,都有哪些问题是ChatGPT能解决的?哪些是它不能解决的呢?能做什么事情。理解了这个问题,你也就知道了ChatGPT的能力边界。我把语言模型能做的事情分为三类:第一类:信息形式转换第一类是将信息从一种形式转换为另一种形式,无论是语音识别还是机器翻译,都属于这一类。不过值得指出的是,任何形式的信息转换通常都会损失一些信息。比如,在机器翻译中,语言中所蕴含的文化常常就损失掉了。这倒不是机器的问题,在用人进行的翻译的时候,也经常会出现这种现象。比如,唐诗翻译成英语往往就显得乏味,英文的诗歌翻译成中文,也常常显得平淡无奇。有些贯通中西的翻译家,会试图把文化的元素加回去,但是计算机做不到这一点。在这一类事情中,一个通常不被人们注意的应用是在医学领域,比如基因测序。DNAATCG能识别下一段碱基。DNA是把DNA复制很多份,剪开以后做对比,以免每一份都没有剪好,识别错了。此外,还有一件事也属于这个范畴,就是让计算机写简单的程序。2014GooglePython的文本翻译成机器语言的脚本,也就是程序。在2014年的时候,奥科的团队已经能把功能描述清楚的简单任务书变成Python程序。不过,当时的困难是,人其实也无法把自己的想法非常准确地用自然语言写清楚。第二类:根据要求产生文本语言模型能做的第二类事情是根据要求产生文本。今天ChatGPT做的主要工作,像回答问题、回复邮件、书写简单的段落,都属于这一类。内容就不着边际。ChatGPT我就ChatGPT的写作水平,专门询问了两位ChatGPT的深ChatGPTChatGPTChatGPTChatGPT否则别人会觉得自己水平太低;而中国人因为母语不是英文章他也能写出,但是可能要花更多的时间选择用词和语法。ChatGPT比如,你如果问计算机“天为什么是蓝色的”,能得到完美的相反,硅谷几家大公司的研究发现:ChatGPT参加高中的APMCATMCAT考试都是标准化的,有很多过去的考试题可以找到。ChatGPT第三类:信息精简语言模型能做的第三类事情是把更多的信息精简为较少的信息。比如,为一篇长文撰写摘要,按照要求进行数据分析,分析上市公司的财报,都属于这方面的工作。这一类工作,输入的信息多,输出的信息少,因此只要算法做得好,就不会出现信息不够用的问题。将信息由多变少,就会面临一个选择,选择保留哪些信息,删除哪些信息。对于书中哪些是重点内容、哪些是次要内容会有不同的看会有不同的看法,他们会按照自己的想法挑选数据作为证据。过什么样的信息等等。想法的数据。还有很多人在做摘要时,喜欢断章取义。这些问题,计算机通常都能够避免。但是,计算机的算法也有一个问题,就是缺乏个性化。但是,机器做这种事情,结果都是千篇一律的。这就如同生产线出现之前,手工制作的产品,每一件都有自己的特点;而大机器生产之后,所有的产品都是标准化的。但是总的来讲,在这方面,人是做不过机器的。这就如同绝大部分手工产品的质量都不如大机器生产的好那样。前景展望ChatGPT和同类的产品,目前已经能完成上面说的大部分工做的工作也会做得更好。2019年的时候,著名的人工智能专家(也是我的师兄)郭毅可院士做过这样的估计:2024年,计算机能够对描述非常清晰的任务进行编程;2026年,完成中学生水平的作文;2028年,编辑视频;2049年,创作最畅销的小说。郭毅可院士自己还做了一个项目,就是让计算机根据歌曲《东方之珠》生成了一部几分钟的电视片,并且在香港表演了。一个不断变化的水滴。了解了ChatGPT能做什么事情,擅长做什么事情,我们就知·划重点语言模型能做的事情可以分为三类:1、信息形式转换。这是将信息从种形式转换为另一种形式,无论是语音识别还是机器翻译,都属于这一类。2、根据要求产生文本。今天ChatGPT做的主要工作,像回答问题、回复邮件、书写简单的段落,都属于这一类。3、信息精简,把更多的信息精简为较少的信息。为一篇长第5讲ChatGPT的回答从哪里来?前沿课·吴军讲GPT我们在前面讲到,ChatGPT问题。W和HWH回答简单问题杂问题,其他问题都属于简单问题。2023ChatGPT再去统计网上关于这个问题的答案,我们就可以建立一个关于美国总统的语义框架,或者说知识框架。其实都不一定是SiriGoogle的GoogleVoice讲到苹果的Siri,ChatGPTSiri回答复杂问题说完简单问题,接下来我们说说复杂问题的回答。对于这类问题,计算机的做法和人有很大的不同。人遇到这种问题时,有三种途径能够回答。第一,你知道答案,直接给出。这种做法,计算机也采用。提供出来。今天ChatGPT为什么今天和过去采用的做法不同呢?原因有两个。一个是过去计算机对文本进行摘要的能力不够,二是过去的搜索其实很少分析句子的语义,不确定用户的问题和问答网站上的问题是否一致。足够强大,大部分时候不会犯这样明显的错误。我们回答复杂问题的第二种情况是,你不知道答案,但是你懂得找到答案的基本知识,于是你利用你的基本知识推出了答案。比如当有人问你天为什么是蓝色的,你学了中学物理,知道太阳光是由七色光构成的,不同颜色的光折射率不同。同时你还能活学活用,想到阳光进入大气层时因为折射率不同会发生散射,导致天空显得是蓝色的。(出名字了),对ChatGPT(美国叫自然课)60%。为什么呢?因为这部没有办法像人那样运用知识去寻找答案,只能从现成的答案里归纳总结。人类解决复杂问题的第三种情况是,你不知道答案,而现有的知识也无法直接推导出答案,需要你做研究工作。2020ChatGPTChatGPT如何工作那么ChatGPT的答案从哪里来呢?简而言之,回答问题也好、写作短文也好,都基于它对现有事实的抽取和整合,或者说归纳总结。2012年,我们在Google1000件非常消耗算力的事情,计算量大约是对这些句子做简单统计的上亿内自己所包含的知识,另一个则是全网的知识图谱。在此之前,Google成。GoogleSiriSiriChatGPT能直接找到。砌,让人看了觉得毫无连贯性可言。ChatGPT了解了各种问答系统是如何回答问题的,我们再来看看它们如何实现对话与写作。(考研成了大学生最关注的话题之一。请问中间该填什么词?直到聊天能够继续下去。至于长篇文章的写作,ChatGPTChatGPTChatGPTChatGPT。毕竟,模仿和抄袭,人是做不过机器的。ChatGPT输入给它什么训练数据,它就给你写出什么样的文章。下节预告是ChatGPT、甚至今天机器学习方法固有的问题。下一讲,我们来讨论这个问题。我是吴军,我们下一讲见。划重点12、简而言之,回答问题也好、写作短文也好,ChatGPT的答案都基于它对现有事实的抽取和整合,或者说归纳总结。第6讲ChatGPT有哪些固有缺陷ChatGPT看它所存在的问题。我们会看到,ChatGPT回答问题、写文章,有的时候很靠谱,有的时候又在胡说八道,这些问题能不能解决呢?我先说结论:有些问题是可以通过改进解决的,有些则是ChatGPT固有的问题,甚至是今天机器学习方法固有的问题,要解决是很难的。哪些问题能够改进够期望的。首先,有些错误是因为信息量不够所造成的,这部分错误将来ChatGPT是可以避免的。人类解决的问题会越来越多,互联网谈了。更多完整分享微shufoufou更多完整分享微shufoufouChatGPT这些问题也可以解决,毕竟语言模型的技术还在进步。实事求是地讲,今天ChatGPT产生的段落,和十年前我在Google:生产的段落相比,通顺程度已经好了很多。打个比方,定清楚写什么,用ChatGPT写可能比自己写得还通顺些。考虑过高中生的平均水平。另一个有希望解决的问题是,今天的ChatGPT还离不开后面大可以慢慢解决的。更多完整分享微shufoufou更多完整分享微shufoufou量就减少了两三个数量级。垃圾输入,垃圾输出质没有改变做事情。这就如同你不给汽车提供燃料,它就无法走一样。更多完整分享微shufoufou更多完整分享微shufoufou什么叫垃圾数据呢?其中一部分就是噪音。上个世纪90年代,10%30%噪音就是一种垃圾。在2000年前后,我在约翰霍普金斯大学和Google都做过这样的质量会大大下降。行从拼音到汉字的转化,当噪音在1%、2%时,不太会影响转换的准确率;噪音到了5%时,错误率就会明显上升两三倍;当噪10%言模型就不起作用,产生的结果就是随机的了。更多完整分享微shufoufou更多完整分享微shufoufou使用过ChatGPT的朋友会有这样一个体会,当你和它谈论一些完全没有逻辑,甚至和话题不沾边。为什么会这样?因为在网上关于那个话题的讨论,本身就非常不靠谱,而ChatGPT有没有什么解法呢?通常只有两个做法。SiriSii会将它过滤掉。再比如,我们发现某个网站的内容一直不靠谱,就将相应的内容删除。但是,相当一部分噪音是随机产生的,我们今天还是无能为力。这是今天机器学习的一大问题。除了噪音,今天机器学习还有一个问题是:它所依赖的正反馈,有时会将它引向歧途。更多完整分享微shufoufou更多完整分享微shufoufou什么是正反馈呢?比如你在短视频网站上看了几个NBA篮球的就调整了特别针对你的推荐模型,多给你推荐NBA的节目。这就是系统自适应的正反馈。这种做法通常让使用者觉得非常贴个原因。ChatGPT已经发现,ChatGPT在回答很多问题时已经被人“教坏了”。比何做炸弹,并且时不时说出种族歧视的言论。人上瘾的视频和推文了。更多完整分享微shufoufou更多完整分享微shufoufou行训练,它输出的也只能是垃圾。这是今天机器学习普遍的问题。人工干预的边界入?或者对于敏感的问题干脆不做回答呢?面那些模型参数的含义。换句话说,你很难通过人为调高或者调低一些参数来控制ChatGPT的输出结果。更多完整分享微shufoufou更多完整分享微shufoufou原本应该客观的语言模型中,这可能导致更大的不公平。在此之前,推特的人工干预就造成了很坏的影响。在2020年美180今天的ChatGPT已经是一家平台公司了,如果里面的人随意根特更大。下节预告如果你是ChatGPT的粉丝,听完这一讲可能觉得我在泼凉水。的智能系统普遍存在的问题,提醒你注意。在ChatGPT的热度过去之后,很多企业和个人都对它进行了全更多完整分享微shufoufou更多完整分享微shufoufou根本原因就是这一讲解释的:垃圾输入,垃圾输出。下一讲,我们来看看造一个ChatGPT需要多少资源,以及它会受到怎样的限制。我是吴军,下一讲见。划重点1、ChatGPT的缺陷有些是可以改进解决的,有些则是ChatGPT难的。2、语言模型进化到今天,虽然进步了很多,但依然是一个利用已有的信息预测其他信息的模型,这个性质没有改变。3、通过人为调高或者调低一些参数来控制ChatGPT的输出结果是很难的,人工干预可能导致更大的不公平。更多完整分享微shufoufou更多完整分享微shufoufou第7讲ChatGPT需要什么资源?你好,ChatGPT走红之后,国内很多媒体和人一下子慌了神。ChatGPT。还有很多人觉得,ChatGPT其实,这样全民大炼ChatGPT,既不必要,也不可能。这是为什么呢?不必要性,我们后面会慢慢展开讲。这一讲,先来谈谈不可能性。我们前面讲到,ChatGPT够高水平的并行计算和机器学习的算法支持。接下来,我们就从这三个方面分别来看一下。限制一:数据首先说第一个限制,数据。2012GoogleChatGPT特别是自媒体上的数据和社交网络上的数据。这个数据量是极其庞大的。不是每个企业都能得到所有的这些数据。限制二:算力限制——算力。话是它的答案的概率。90IBM们开始考虑深度挖掘语言中所蕴含的信息,包括语法信息和语义信息。这就需要更大的计算量了。具体计算量需要增加多少呢?100万倍到1亿倍是一个合理的估计。断提高,需要的算力也在不断增加。算力,永远是一个瓶颈。上个世纪90年代末,贾里尼克为我们申请到了一笔美国国家科学基金会(NSF)的基金,让我们有经费建立复杂的语言模型。与此同时,全世界机器学习领域在算法上也有所突破,能够训练更准确的语言模型。此外,贾里尼克还从美国国防部获得了一笔巨额的经费,让我们能够装备上百台超级服务器。在这些设备的帮助下,我们得以进行其他研究单位没有条件做的语言模型的改进工作。1998年,我参加IEEE,也就是电气与电子工程师协会的一个重要的学100的算力来做这件事,十年可能也算不完,我也根本无法毕业。IBMIBM这个咱们前面也讲到过。200402005040台超级服务器上运行三个月。今天ChatGPT10Google100010上百亿倍。今天,开发GPTOpenAI1000个GPU10万个GPU32100PFLOPS10Google1/4。这还只是在它开发GPT-3时的花费。到了升级为GPT-4时,需要的计算资源就更多了,用到了微软云计算大量的计算资源。即便如此,ChatGPT最近还关闭了它的付费用户的注册,因为为付费用户提供更优质的服务太消耗计算资源了。因此,如果你也想做一个ChatGPT,先要考虑一下自己的算力够不够。很多人一看到出了个新技术,就觉得机会来了,但是绝大部分时候,那些机会和大家无关,因为大家没有基本的能力实现它。限制三:算法那么,如果我们举全国之力建几个超级计算中心,是不是很容易超过ChatGPT呢?算力”,对于人工智能问题,只有前一种——聪明的算力——才有意义。更多完整更新shufoufou功半。这就是笨的算力。这就说到了训练语言模型的第三个限制——算法。200040供的一个并行计算的工具。这让我不需要手工监控每一台服务器的工就容易了很多。但是今天,训练语言模型用到的机器学习算法要复杂很多。2010年的时候,Google推出了一个基于云计算平台深度学习的工具——Google大脑。采用这个工具,语言模型的效果可以大幅提升,在其它条件不变的情况下,语音识别和机器翻译的相对错误率可以降低10%以上。中心,有些地方也称之为“智算平台”的标配。如果只是用一个由处理器,包括GPU,堆砌起来的数据中心训练语言模型,得到的结果会差很多。也就是说,除了算力之外,基础的自然语言处理技术,也就是算法,也是实现ChatGPT这些产品必不可少的条件。配。这个工作不是一年半载就能完成的。累,其实也是一种资源。GoogleChatGPT要么是无知者无畏,要么是炒作。我们前面讲了,像GPTChatGPT。下节预告好,这一讲,我们说了训练语言模型的三个限制,分别是数据、算力和算法。这三道坎,只有极少的互联网大厂才能越过去。其实,即便跨过了三道坎,做出了比ChatGPT更好的产品,它也不可能像很多人想象的那样无所不能。因为ChatGPT,乃至人工智能,本身就是有能力边界的,并不能解决所有问题。这个我们下一讲再说。我是吴军,我们下一讲再见。第8讲今天人工智能的边界在哪里?2016Google的AlphaGoChatGPT机,都只能解决世界上很小一部分问题。事实也证明,从2016年到现在,基本上大家该做什么还是在做什么,只是做事的方式有所改变而已。更具有讽刺意味的是,智能革命原本应该造就更多的和IT相关的工作,让很多所谓的低端劳动消失。但现实情况却是,从2022年到现在,全世界最有名的IT公司都在裁员,而且裁了不止一轮。ITIT之所以造成这个结果,原因就在于,在过去的几年里,全世界都在热炒人工智能,以为它无所不能,殊不知,人工智能也是有边界的。ChatGPT的边界是人工智能的边界,而人工智能的边界是数学的边界,数学是有边界的。在历史上,已经有三个人从理论上划定了数学和计算机的边界。ChatGPT,边界在哪里。换句话说,能解决什么问题,不能解决什么问题。哥德尔第一个指出数学边界的人是哥德尔。在19世纪末,由于科学技术的突飞猛进,人们普遍对科技的能力感到乐观,觉得它无所不能。在数学界,大家普遍觉得,数学可以是一个既严密又完备的知识体系,甚至认为所有的问题都能用数学的方法解决。193125会有很多结论无法用逻辑推理的方法证明。多问题不是数学问题。这个认识很重要,让人类少走了很多弯路。马季亚谢维奇第二个进一步限制数学或者说算法边界的人,是俄罗斯的数学天才马季亚谢维奇。1900(问题),有没有一个方法,通过有限步,就能判断它有没有解?它。当然,判断不清楚是否有解,就不可能解决它。这个问题困扰了很多数学家一辈子。最终在上个世纪60年代末,做大学毕业论文的马季亚谢维奇解决了这个问题,给出了否定的答案。也就如何解决它,而且都无法判定它是否有答案。当时,马季亚谢维奇只有22岁。犯错误,试图解决不应该用计算机解决的问题。图灵第三个是给出计算机能力边界的人——图灵。图灵当时知道希尔伯特第十问题,他觉得答案否定的,但是又无法证明。当时,图灵还受到冯·诺依曼的启发。他在读了冯·诺依曼的《量子力学的数学原理》一书后认为,人的意识来自于测不准原理,但是计算则来自于机械的运动。图灵认为,这就确定了什么可以计算、什么不可以计算。后来,图灵发明了一种叫作图灵机的装置,能够在有限时间内,判断出哪一类问题能够在有限的步骤内计算出来。人工智能的边界首先,世界上很多问题都不是数学问题。(然这不合适法,都不是数学的解决办法。解是不知道的。在计算机和数学领域,知道一个问题有没有解,叫作“可判定”,这样的问题叫作“可判定问题”。再次,可判定的问题很多是无解的,只有少部分有答案。我在文稿里附了一张图,把所有的问题、数学问题、可判定的问题和有答案的问题之间的嵌套关系表示了出来,你可以点开文稿看看。是所谓的可计算的问题。当然,图灵机是一种理想状态的计算机,它所谓的有限时间,可以是非常长的时间,比如1万亿年,超过宇宙的年龄。子集,我们称之为“工程上可计算的问题”。比如,我们前面说了,如果训练一个模型的时间是20年,我们今天基本上就认为不可计算了,至少是工程上不可计算。最后,工程上可计算的问题并非都属于人工智能研究范畴的问题,人工智能可以解决的问题,又只是工程上可计算的问题的更小的子集而已。的问题。能计算。决了所有人工智能的问题,更不要说解决全世界的所有问题了。讲到计算机能力的边界,还有一些人会有一个疑问,就是:量子计算出来之后,是否原来计算机解决不了的问题,今天就能解决了?这其实是混淆了计算能力和可计算性。计算能力增加,原来可以计算的问题会算得更快,瞬间解决,但是不可算的还是不可算。我们打个比方,你如果有一台压缩制冷机,可以将温度降低。如果你有一个超大功率的制冷机,温度降低得会快得多。但是,用再多、再大的制冷机也不可能将温度降到绝对零度以下,因为那是物理学的一条边界。在人工智能的边界内思考法的人可以分为两类:一类是真的无知。们会向其它人宣传,“出现了一个叫作哥伦布的神”。另一类则是人工智能领域的从业者,他们把自己做的贡献在无意中夸大了。间之后,人工智能能够解决的问题变多了,也就是说,小圆变大了。但是很多从业者,特别是做出了具体贡献的人,会从自己的角度放大自己的成就。这些人都只看到问题的局部。事实上,它们看到的工程上能解决的问题和人工智能能解决的问题,根本和现实中不一样,连大小形状都变了。当人工智能发展了一点,小圈变大了,他们就觉得,人工智能似乎已经解决了绝大部分可解决的问题,于是他们或兴奋,或慌张。所描绘的井底之蛙没有太大的差别。下节预告如果我们生活在与人工智能无关的年代,或许不用关心人工智能的边影响。因此,我们有必要真正了解人工智能的细节。但事实上,很多人是没有耐心了解原理的,也因为不了解原理,于是只能人云亦云的跟风。下一讲,我们就来看看,ChatGPT被热炒,究竟说明了什么?我是吴军,我们下一讲再见。第9讲ChatGPT为什么会被热炒?2023这样的文章,比如:《ChatGPT揭开AI战幔:杀死黄页一样摧毁Google?》《ChatGPT强势来袭,打工人“瑟瑟发抖”又能做什么?》有人很焦虑,有人庆贺新技术的到来,你会听到各种声音,这很正常。一个新技术出现,各种消息铺天盖地并不是什么新鲜事,抛开新技术本身,这当中肯定有炒作的成分。10过现在是用ChatGPTVRWeb3VR下的都还没有什么结果。ChatGPT热炒的背后一定有原因,有利益、有恐惧、有哗众取宠,也有无知。我们不妨从投资、从业者、媒体和普通人的角度做一个简单的分析。投资我们先从投资的角度看。价就会暴涨。2016AlphaGo2023OpenAI1/310%。当然上涨的ChatGPT2的潜力公司。不难想象,这背后是有巨大的利益的。ChatGPT从历史上看,靠炒作获得的股市收益很快会还回去。今天,AlphaGo对GoogleFacebookMeta它的看法,Facebook3(20232.6iPhone2G3G5G5G人嘲笑苹果的SiriChatGPT从业者讲完投资者的视角,接下来我们从从业者的角度来看看这个问题。我们今天能从媒体上听到的从业者声音,大致表达了两种不同的观点。第一种是兴奋,然后大谈GPT的技术细节,认为自己的机会来了。很多人你还批评不得,因为他会说你不懂技术。第二种人是恐惧,之前还觉得自己和世界先进水平很接近了,怎么一下距离就被拉开了。生怕自己落伍了,因此一定要做点什么。我的想法是,如果ChatGPT这件事是一个方向,早一天、晚一天开始这方面的工作差别不大,毕竟追赶别人比自己在前面摸黑探索要快得多。在消费电子展(CES)上,从一个概念原型到挣钱的产品,中间要间隔多久呢?通常要七年时间。而七年前展示原型的,和七年后展示挣钱产我和美国的不少从业者谈过这事,他们都显得很淡定,原来做什么还做什么。如果你恰好是这方面的从业者,也可以跟我说说你的想法。媒体关于ChatGPT的热炒,还有一组不能忽略的声音,就是媒体。ChatGPT的报道是,“ChatGPTChatGPTVR事后几乎没有人去深究。会看不到世界上真正挣钱的地方。AI1(像淘宝这样的企业只计算交易收入,不计算商品本身的价值),421012GDP网行业。普通人ChatGPT成了一尊新的神,认为它无所不能。当年的印第安原住民被哥伦布欺骗了,或者说叫做被占了便宜,但是当时他们却把哥伦布当成神。因为以他们的知识储备,无法理解“月食”这个新鲜事物背后的原因。12在历史上,哥伦布的故事其实还有续集。181521VR、区块链和元宇宙贬得一文不值的,也是当初将它们封神的人。1929·肯尼迪,下节预告你可能觉得,这一讲给ChatGPT的冷水泼得有点猛。其实我不是说ChatGPT这个技术不靠谱,而是通过各方面的分析,让你对它有一个更理性、更全面的看待,不要一起陷入到狂热当中去。实事求是地讲,ChatGPT既不像很多人讲的那么神奇,也没有那么可怕,但也不是毫无用途。下一讲,我们就来分析一下,ChatGPT到底会不会取代人,或者说抢人的饭碗。我是吴军,我们下一讲见。第10讲ChatGPT能替代什么人?上一讲关于ChatGPT何理性看待ChatGPT那么神奇,也不可怕,但也并非毫无用途。关于ChatGPT,最多人关注的一个问题就是:ChatGPT“能”。但是它只会抢特定人的饭碗,而不是所有的人。ChatGPT是经不起人工智能的冲击。什么人会被取代会被ChatGPT取代的人有三个特点:从事不费体力的工作,不动脑子的工作,或者不产出信息的工作。这里先要纠正很多人的一个错误认知。有人可能会觉得,ChatGPT信息论最基本的原理是无法突破的,就如同物理学的规律不能违背一50不了天。总之,ChatGPT的特点是利用人喂给它的信息,再去产生信息,这有点像是复读机,或者鹦鹉学舌。被机器替代掉。我们不妨列举一些这样的职业,按照收入从高到低排个次序:1.金融分析师大部分财经媒体记者律师助理普通文员短视频制作人大部分公众号写手……这些工作都有一个共同的特点,就是本身不产生信息。至于,律师助理过去是为律师们提供信息、整理信息、起草文件,这些事情都是把信息从一个文件中搬运到另一个文件中。至于要什么信息、对什么信息作出什么样的判断,是律师的事情,而不是助理的事情。普通文员做的事情也差不多。的内容,再加上一个耸人听闻的标题。如果是这种内容,ChatGPTChatGPT不是坏事。这个世界并不需要很多在互联网上哗众取宠的人。ITITScience)与之相反的是,真正费脑力的工作当然不会被取代,因为知识和信息就是这些人创造的。那么,为什么费体力的工作也不容易被替代呢?因为那些工作和ChatGPT今天全世界所缺的反而是要费体力的所谓的蓝领工作,比如设备维修、10什么人不会被取代说到这里你应该发现了,越是到了各种智能工具不断涌现,做事情越来越便利的时候,从事创造性的工作也就越来越重要。需要来自于有思想的人,单纯交给机器去做,就失去了个性和思想。今天很多外国人申请美国大学的时候,让计算机写几篇作文,读起来好像比自己写得还通顺,但其实这对申请好大学是没有帮助的。知道那些弱点是致命的还是无伤大雅的。ChatGPT少省时间。很多人觉得,蓝领的工作具有重复性,白领的工作都是创造性的。这其实是一个误解。一个水管工,一年修的水管还真没有多少完全一样的。相反,今天很多实验室的工作,重复性反而很高。Google,样的观点。他在GoogleDECGoogleScholar,就是为学者提供的论文索引服务,我们发现,绝大部分科学论文真的只有个位数的引用量,而且一大半还是作者自己在引用。我们总是在说要做具有创造性的工作,但其实大部分人是停留在口头的。2016年,我在《智能时代》这本书里讲,受益于时代变化的人可能只有2%。那本书出版才过去6年多的时间,从招商银行的年度财富报告22%的人掌握了新技术,而是因为他们掌握了正确的思70201818~22商下降幅度更大。不只美国,欧洲多个国家也发现了同样趋势。为智能时代的牺牲者。ChatGPT这时,技术就不再是诅咒,而是祝福了。下节预告好,关于ChatGPT能不能替代人、会替代哪些人这个很多人关注的问题,我们就说到这里。下一讲,我们就来分析一下,ChatGPT看待它。我是吴军,我们下一讲见。第11讲理性看待ChatGPT前面课程里,我们花了很大的篇幅讲原理,从ChatGPT的本质到语言模型的发展历史,从训练ChatGPT需要的资源到人工智能的边界。但我知道,不少同学还是会有一些困惑,比如,都说ChatGPT是大机会,自己不想错过怎么办?还有一些人则充满了恐惧,怎么才能不被ChatGPT取代?ChatGPT会不会出现自我意识?等等。不同的人对ChatGPT的看法当然会不一样,这一讲,我们就说说如何理性地对待它。投资人的角度首先,我从投资的角度,说说如何理性看待ChatGPT带来的机会。就没有投资的可能性。但是,当人们对一项技术炒得过热时,其实已经不是投资它的好机会了。从整体上讲,每一项技术都会带泡沫,泡沫是有好处的,它可以让资金在短时间里流向一个领域,加速它的进步。但是,如果条件尚未成熟,或者技术的影响力被过分夸大,那些投出去的资金就可能永远也回不来。VR5G很多人喜欢把巴菲特的一句话放在嘴边,“在别人恐惧时我贪婪,在别人贪婪时我恐惧”,但也仅仅是挂在嘴边而已。有人可能会说,不抓可惜啊!万一它将来成为趋势了怎么办?如果它真的成为了趋势,等到趋势明显一点再投身进去也来得及。但凡能成为趋势的技术,都会有几十年的发展机会。就拿电子商务来说,互联网兴起后它就是趋势,但是各种机会持续了208848B2B平那已经是阿里巴巴成立将近十年后的事情了。10的京东起来了。10量还超过了京东。再接下来,大家觉得这回总不会再有机会了吧,结果还是出来了一大堆直播带货达人,头部团队的利润不亚于大部分上市公司。这么算下来,20多年里,一代人的时间,至少有四拨人挣到了钱。20有做得好和做不好的区别,没有先与后的区别。都是希望有长期回报,而不是仅仅一两年的回报。从业者的角度ChatGPT我是这么想的:2000ChatGPT102002Google20005%。这还今天,很多人见到一点点新技术就言必称机会,其实是想多了。大家不妨看看最近十年真正的机会到底有多少:70IT50历的什么团购、P2P,IT即便人工智能是一次新的技术革命,ChatGPT涟漪。的。AMD型和提供ChatGPT发了财,做牛仔裤的人发了财。这十几年,我印象很深的有这样两件事:去了哪里?它们成为了广告公司的收入。AMD但矿机、GPU今天,如果你是做高端处理器或者智能化云计算的,也要恭喜你,你挣钱的机会可能比直接做人工智能的更多。普通人的角度当然,大多数人既非投资人,也非从业者,这些人要如何理性地看待ChatGPT呢?会。ChatGPT99%的人,我的回答都是,“你没有机会,甚至要抱着小亏就是赚的心态对待它,这样才不会失望。”IT坏事都能转化成好事。我对他们讲,就算ChatGPT润了。ChatGPTChatGPT就有点像是被哥伦布蒙骗的原住民,完全没有必要。对ChatGPTChatGPT有什么变化。因为在任何社会里,大环境都是最重要的。ITPCIT505010事高。已。[更多完整分享微shufoufou]术。都会变成新的就业机会。面对一个自己看不清楚的事情,不妨多观察一段时间,再做结论。对于自己不懂的事情,要搞清楚,不要和别人一同去造神。是神,将来ChatGPT总结ChatGPT自己往往是被别人收割的韭菜。在过去的十多年里,有无数投资人和创业者,觉得能够从大众身上挣到钱,结果是自己花钱、花费生命给大众提供免费服务,最后钱花完了,故事也就讲完了。的,而是给踏踏实实把本职工作做好的人的。至于有人担心ChatGPT会产生自主意识,提出对它进行道德约束,这更是对意识和人工智能的瞎担心,和有些人怕鬼没有什么差别。还有人说,ChatG

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论