![人工智能技术导论 课件01 人工智能概述、02 机器学习_第1页](http://file4.renrendoc.com/view14/M0B/3C/1D/wKhkGWcLm5WAIyeWAAFp8OcjvgI405.jpg)
![人工智能技术导论 课件01 人工智能概述、02 机器学习_第2页](http://file4.renrendoc.com/view14/M0B/3C/1D/wKhkGWcLm5WAIyeWAAFp8OcjvgI4052.jpg)
![人工智能技术导论 课件01 人工智能概述、02 机器学习_第3页](http://file4.renrendoc.com/view14/M0B/3C/1D/wKhkGWcLm5WAIyeWAAFp8OcjvgI4053.jpg)
![人工智能技术导论 课件01 人工智能概述、02 机器学习_第4页](http://file4.renrendoc.com/view14/M0B/3C/1D/wKhkGWcLm5WAIyeWAAFp8OcjvgI4054.jpg)
![人工智能技术导论 课件01 人工智能概述、02 机器学习_第5页](http://file4.renrendoc.com/view14/M0B/3C/1D/wKhkGWcLm5WAIyeWAAFp8OcjvgI4055.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章人工智能概述本章目标了解人工智能的定义、分类及应用领域熟悉人工智能起源和发展掌握人工智能的技术框架
理解发展人工智能的战略意义1.1人工智能简介机器人索非亚获得沙特国籍AlphaGO战胜人类最强棋手人脸识别协助警方抓捕犯人手机多国语言在线翻译无人驾驶汽车种牙机器人超级震撼人工智能应用到城市生活、医疗、教育、通讯等领域,AI技术渐渐走进人们生活。1.1.1人工智能的定义
人工智能(AI,ArtificialIntelligence),是模拟实现人的抽象思维和智能行为的技术,即通过利用计算机软件模拟人类特有的大脑抽象思维能力和智能行为,如学习、思考、判断、推理等,以完成原本需要人的智力才可胜任的工作。1.1.2人工智能的分类低于人类智力水平AlphaGo特点:人类可以很好地控制其发展和运行和人类智力旗鼓相当,能够进行思考、计划、学习等特点:在人类设置的规则和轨道上发展超出人类智力水平西部世界(第三季)人工智能获得自主意识在几乎所有领域都比最聪明的人类大脑都聪明很多1.1.3人工智能起源和发展科幻电影中的人工智能人类的好帮手?人类的终结者?人类的朋友?如何与人工智能相处?60年代,星际迷航80年代,终结者21世纪,人工智能1.1.3人工智能起源和发展图灵测试图灵(AlanMathisonTuring,1912年6月23日—1954年6月7日)被称为计算机科学之父发表了一篇名为《计算机和智能》的论文1950年提出了著名的“图灵测试”让一位测试者分别与一台计算机和一个人进行交谈,测试者事先并不知道哪一个是人,哪一个是计算机。如果交谈后测试者分不出哪一个被测试者是人和哪一个是计算机,则认为这台被测试的计算机具有智能。图灵测试机器能思考吗?1.1.3人工智能起源和发展起源:1956年达特茅斯会议提出人工智能定义:使一部机器的反应方式就像是一个人在行动时所依据的智能。1.1.3人工智能起源和发展AI诞生的标志:1956年“人工智能”的名称和任务得以确定1.1.3人工智能起源和发展人工智能发展的六个阶段1.1.3人工智能起源和发展1、第一次热潮(1956-1976)人工智能主要用于解决代数、几何问题,以及学习和使用英语程序,研发主要围绕机器的逻辑推理能力展开。其中20世纪60年代自然语言处理和人机对话技术的突破性发展,大大地提升了人们对人工智能的期望,也将人工智能带入了第一波高潮。这个阶段产生了很多理论基石,这些不仅成为了人工智能的理论基石,还成为了计算机领域的基石。1.1.3人工智能起源和发展2、第一次寒冬(1976-1982)乐观的承诺一直无法兑现,而在实际中逻辑证明器、感知器、增强学习等只能做很简单、非常专门且很窄的任务。即使最杰出的AI程序也只能解决它们尝试解决的问题中最简单的一部分,也就是说所有的AI程序都只是“玩具”。受限于当时计算机算力不足,同时由于国会压力下美英政府于1973年停止向没有明确目标的人工智能研究项目拨款,人工智能研发变现周期拉长、行业遇冷。1.1.3人工智能起源和发展3、第二次热潮(1980-1987):专家系统专家系统只能模拟特定领域人类专家的技能,但这足以激发新的融资趋势。最活跃的是日本政府,意图创造第五代计算机。间接迫使美国和英国恢复对人工智能研究的资助。但需要一个巨型知识库。最早的专家系统是1968年由费根鲍姆研发的DENDRAL系统,可以帮助化学家判断某特定物质的分子结构;DENDRAL首次对知识库提出定义。1.1.3人工智能起源和发展3、第二次热潮(1980-1987):神经网络1982年英国科学家霍普菲尔德几乎同时与杰弗里·辛顿发现了具有学习能力的神经网络算法。
这使得神经网络一路发展,在后面的90年代开始商业化,被用于文字图像识别和语音识别。1986年出现了人工智能数学模型方面的重大发明,包括著名的多层神经网络和反向传播算法等,出现能与人类下象棋的高度智能机器。
1.1.3人工智能起源和发展4、第二次寒冬(1987-1997)1987年,个人电脑变得比人工智能多年的研究成果——专家系统(Lisp机器)更强大。专家系统最初取得的成功是有限的,它无法自我学习并更新知识库和算法,维护起来越来越麻烦,成本越来越高。1.1.3人工智能起源和发展5、复苏期(1997-2010):机器学习1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫。2001年,布雷曼博士提升随机森林2006年深度学习算法的提出2007年,在斯坦福任教的华裔科学家李飞飞,发起创建了ImageNet项目、2012年AlexNet在ImageNet训练集上图像识别精度取得重大突破,直接推升了新一轮人工智能发展的浪潮。机器学习是一种人工智能技术,它可以让计算机从数据中学习,并自动改进算法,以提高性能。这个时期的代表性机器学习算法包括决策树、神经网络和遗传算法。1.1.3人工智能起源和发展6、增长爆发期(2010-):深度学习2016年,李世石与AlphaGo总比分1比4告负,将公众的视注意力也大量投向了人工智能,真正地将人工智能推向了研究和公众视野的中心,人工智能收获了空前的关注度。1.1.3人工智能起源和发展6、增长爆发期(2010-):深度学习2020年代,自然语言处理和计算机视觉的技术得到了进一步的发展。自然语言处理方面,出现了一系列新的技术,如BERT、GPT和T5等预训练模型,以及GPT-3、GPT-4等生成式模型。计算机视觉方面,出现了一系列新的技术,如目标检测、图像分割和图像生成等。2022年11月底,人工智能对话聊天机器人ChatGPT推出,迅速在社交媒体上走红。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。1.1.3人工智能起源和发展人工智能发展的应用方面近期重要事件1950年图灵测试1956年达特茅斯会议提出“人工智能”概念……2011年苹果语音助手Siri2012年Google无人驾驶汽车2014年微软智能助理小娜2016年AlphaGo战胜世界围棋冠军(2017年最强版AlphaGoZero)2020年GPT-3问世最先进的自然语言处理模型2022年多轮对话聊天机器人ChatGPT1.1.3人工智能起源和发展思政小课堂:向科学家们致敬人工智能之父有四个人,他们分别是艾伦·麦席森·图灵、约翰.麦卡锡、马文·明斯基、西摩尔·帕普特。具体贡献:(1)艾伦·麦席森·图灵,奠定了人工智能的逻辑,并且提出了图灵测试,计算机在5分钟之内回答的问题中,超过百分之三十被认为是人类做出的解答,让人工智能初步得到人们的认可。(2)约翰.麦卡锡,将批处理方式改进成了能够同时允许多人使用的分时方式。(3)马文·明斯基,发明了能够模拟人类活动的机器人,也是最早的能够模拟人类的机器人。(4)西摩尔·帕普特,将儿童和人工智能以非常有趣的方式结合在了一起,从这里开始,科技与教育开始融合,对后来的教育影响非常大。LOGO语言创始人。1.1.4人工智能应用领域1.2人工智能技术领域1.2人工智能技术领域脑:机器学习(神经网络…)、专家系统、情景感知计算眼:计算机视觉、视频识别、图像识别耳:语音识别、自然语言处理、实时翻译身:智能机器人口:自然语言处理、实时翻译1.2.1人工智能四要素人工智能的四个维度(四要素)1.2.2人工智能技术框架人工智能的技术框架按照产业生态通常可以划分为基础层、技术层、应用层三大板块。基础层提供了支撑人工智能应用的基础设施和技术,包括存储和处理大规模数据的能力,以及高性能的计算和通信基础设施;技术层提供了各种人工智能技术和算法,用于处理和分析数据,并提取有用的信息和知识;应用层是人工智能技术的最终应用领域,将技术层提供的算法和模型应用到具体的问题和场景中,实现智能化的决策和优化。1.2.2人工智能技术框架1.2.2人工智能技术框架1.2.3人工智能技术发展趋势l框架:更易用的开发框架l算法:性能更优,体积更小的算法模型l算力:端-边-云全面发展的算力l数据:更完善的基础数据服务产业,更安全的数据共享l场景:不断突破的行业应用1、更易用的开发框架各种AI开发框架都在朝易用、全能的方向演进,不断降低人工智能的开发门槛。1.2.3人工智能技术发展趋势2、体积更小的深度模型性能更优的模型往往有着更大的参数量,大的模型在工业应用时会有运行效率的问题。越来越多的模型压缩技术被提出,在保证模型性能的同时,进一步压缩模型体积,适应工业应用的需求。1.2.3人工智能技术发展趋势3、端-边-云全面发展的算力应用于云端、边缘设备、移动终端的人工智能芯片规模不断增长,进一步解决人工智能的算力问题。1.2.3人工智能技术发展趋势4、更安全的数据共享联邦学习在保证数据隐私安全的前提下,利用不同数据源合作训练模型,进一步突破数据的瓶颈。1.2.3人工智能技术发展趋势5、不断突破的应用场景随着人工智能在各个垂直领域的不断探索,人工智能的应用场景将不断被突破:p缓解心理问题:人工智能聊天机器人结合心理学知识,帮助缓解孤独症等心理健康问题。p自动车险定损:人工智能技术帮助保险公司实现车险理赔优化,通过图像识别等深度学习算法完成车险定损。p后端办公自动化:AI正在自动化管理工作,但数据的不同性质和格式使其成为一项具有挑战性的任务。尽管每个行业和应用都有其独特的挑战,但不同的行业正在逐步采用基于机器学习的工作流程解决方案。p……1.2.3人工智能技术发展趋势1.3人工智能的意义及挑战人工智能是引领未来的战略性技术人工智能是开启未来智能世界的密匙是未来科技发展的战略制高点是推动人类社会变革的第四次工业革命谁掌握人工智能,谁就将成为未来核心技术的掌控者。1.3.1发展人工智能的战略意义1.3.1发展人工智能的战略意义1.人工智能的战略意义表现在其对经济发展的推动作用。2.人工智能的战略意义还表现在其对社会生活的改变和提升作用。3.人工智能的战略意义还体现在其对国家安全和国防建设的重要作用。4.人工智能的战略意义还体现在其对全球竞争力的提升作用。思政小课堂:中国“1+N”政策体系十九大以来,国家陆续出台了“1+N”政策体系,为人工智能发展提供政策依据和制度保障。其中,“1”是指2017年国务院发布的《新一代人工智能发展规划》,这是我国在人工智能领域中的首个系统部署的文件,也是面向未来打造我国先发优势的顶层设计文件,将人工智能正式上升为国家战略,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施。“N”是顶层设计出台之后,部委层面陆续出台的关于人工智能产业的发展规划、行动计划、实施方案等落地政策,其中工信部、科技部发布的政策主要涉及数实融合、场景创新、区域创新等内容,国家标准委、发改委围绕标准体系、伦理规范、基础设施建设等内容开展工作。1.3.1发展人工智能的战略意义1.3.2人工智能的挑战1、数据隐私和安全性问题2、人工智能的伦理和道德问题3、就业问题随着人工智能技术的发展,人们越来越关注人工智能的伦理和社会问题。在2020年代,研究人员和政策制定者也开始探讨如何确保人工智能的公正性、透明性和责任性,以及如何保护个人隐私和数据安全等问题。同时,人工智能的发展也带来了一些新的社会问题,如人工智能对就业和教育的影响,以及人工智能的道德和法律问题等。1.3.2人工智能的挑战随着计算机视觉的发展,图像及视频的可行信也越来越低。现在我们可以通过PS,GAN(生成对抗网络)等技术制作假图像,让人难分真伪。p通过PS,把犯罪嫌疑人P在一个从未去过的地方或将他与从未见过的人放在一起,以此来制造假证据。p通过PS,很多减肥药广告可以改变人物的外观以达到减肥前后的对比。p如Lyrebird是一个可以从几分钟录音样本中自动模仿人声音的工具,也可能会被不法分子利用。p利用GAN网络生成家居图像发布在租房和订酒店的平台。还能眼见为实吗?1.3.2人工智能的挑战从人类的发展进程上看,我们一直在寻求提高效率的途径,即以更少的资源获得更多。我们用尖锐的石头,更高效地狩猎和采集食物;用蒸汽机,减少了对马匹的需求。实现自动化的每一步都会改变工作生活。在AI的时代,哪些工作会被AI取代呢?AI会取代那些重复性强、创造性低,弱社交的工作。大家都会失业吗?1.4人工智能初体验EasyDL是百度大脑推出的零门槛AI开发平台,提供从数据采集、标注、清洗到模型训练、部署的一站式AI开发能力。EasyDL支持6大技术方向:(1)EasyDL图像:图像分类、物体检测、图像分割(2)EasyDL文本:文本分类-单标签、文本分类-多标签、文本实体抽取、情感倾向分析、短文本相似度(3)EasyDL语音:语音识别、声音分类(4)EasyDLOCR:文字识别(5)EasyDL视频:视频分类、目标跟踪(6)EasyDL结构化数据:表格预测1.4人工智能初体验【案例】百度EasyDL平台应用——猫狗分类/easydl/vision/1、人工智能(AI,ArtificialIntelligence)是模拟实现人的抽象思维和智能行为的技术,即通过利用计算机软件模拟人类特有的大脑抽象思维能力和智能行为,如学习、思考、判断、推理等,以完成原本需要人的智力才可胜任的工作。2、从发展程度的角度上,人工智能可以分为三大类:弱人工智能、强人工智能、超人工智能。3、达特茅斯会议是人类历史上第一次人工智能研讨,被认为是人工智能诞生的标志。1956年被认为是人工智能元年。4、人工智能四要素:数据、算力、算法、场景。5、人工智能的技术框架按照产业生态通常可以划分为基础层、技术层、应用层三大板块。6、随着人工智能尤其是近期大模型技术的快速发展,AIGC产业化应用加速,人工智能进一步向金融、艺术、新闻、创作等新领域渗透,使得人工智能监管技术不断升级和复杂化,如何正确处理好“监管”和“创新”将是未来人工智能发展的关键着力点。本章总结小组练习主题:人工智能的前世今生和未来要求:制作一个PPT,抽1-2组下节课演示时间5-10分钟感谢聆听第二章机器学习本章目标了解机器学习的应用领域掌握机器学习的分类掌握机器学习的流程掌握机器学习的算法理解机器学习的意义2.1机器学习简介人工智能、机器学习、深度学习三者之间的关系人工智能是目标,机器学习是手段,深度学习是方法。2.1.1机器学习定义
机器学习就是一种通过计算机系统利用数据进行自动学习的方法。目标就是要让计算机系统通过不断学习和优化,从数据中发现规律、提取特征,并能够在未来的数据中做出智能决策。定义一:汤姆·米切尔给出机器学习一个具象化定义假设用P(Performace)来评估计算机程序在某类任务T(Task)上的性能,若一个程序通过利用经验E(Experience)在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。定义二:Nvidia给出机器学习定义最基本的机器学习是使用算法解析数据,从中学习,然后对世界上某事做出决定或预测的做法。定义三:斯坦福给出机器学习定义机器学习是让计算机在没有明确编程的情况下采取行动的科学。定义四:麦肯锡公司给出机器学习定义机器学习基于可以从数据中学习而不依赖于基于规则的编程的算法。定义五:卡内基梅隆大学给出机器学习定义机器学习领域旨在回答这样一个问题:”我们如何建立能够根据经验自动改进的计算机系统,以及管理所有学习过程的基本法则是什么?“2.1.1机器学习定义
机器学习使用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
机器学习通过算法,使得机器能够从大量历史数据中学习规律,并利用规律对新的样本做智能识别或对未来做预测。2.1.1机器学习定义
机器学习与人类学习的对应关系
“人类的经验”对应于“机器的历史数据”,“人类通过经验归纳出的规律”对应于“机器通过历史数据训练出来的模型”,“人类利用规律解决新问题并预测未来”对应于“机器利用模型预测新数据对应的结果”。通过这样的对应可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习、成长过程的一种模拟。2.1.2机器学习发展史知识推理期始于20世纪50年代中期,这时的人工智能主要通过专家系统赋予计算机逻辑推理能力,赫伯特·西蒙和艾伦·纽厄尔实现的自动定理证明了逻辑学家拉赛尔(Russell)和怀特黑德(Whitehead)编写的《数学原理》中的52条定理。20世纪70年代开始,人工智能进入知识工程期,费根鲍姆作为“知识工程之父”在1994年获得了图灵奖。2006年,辛顿发表了深度信念网络论文,本希奥等人发表了论文“GreedyLayer-WiseTrainingofDeepNetworks”(深层网络的贪婪层智慧训练),杨立昆团队发表了论文“EfficientLearningofSparseRepresentationswithanEnergy-BasedModel”(基于能量模型的稀疏表示的高效学习),标志着人工智能进入了深层网络的实践阶段。
机器学习的发展可分为知识推理期、知识工程期、浅层学习和深度学习几个阶段。在20世纪50年代,机器学习的研究代表性工作主要是罗森布拉特《基于神经感知科学提出的计算机神经网络(即感知机)》。在随后的10年中,浅层学习的神经网络曾经风靡一时,特别是马文·明斯基提出了著名的XOR问题和感知机线性不可分的问题。k近邻(K-NearestNeighbor,KNN)等算法的相继提出,浅层模型在模型理解、准确率、模型训练等方面被超越。云计算和GPU(GraphicsProcessingUnit,图形处理单元)并行计算为深度学习的发展提供了基础保障。2.1.2机器学习发展史
机器学习算法理论大致演变过程机器学习阶段年份主要成果代表人物人工智能起源1936自动机模型理论阿兰·图灵(AlanTuring)1943MP(McCulloch-Pitts)模型(神经元模型)沃伦·麦卡洛克(WarrenMcCulloch)、沃尔特·皮茨(WalterPitts)1951符号演算约翰·冯·诺依曼(JohnvonNeumann)1956人工智能约翰·麦卡锡(JohnMcCarthy)、马文·明斯基(MarvinMinsky)、克劳德·香农(ClaudeShannon)人工智能初期1958LISP约翰·麦卡锡1962感知机收敛理论弗兰克·罗森布拉特(FrankRosenblatt)1972GPS(General-ProblemSolver,通用问题求解程序)艾伦·纽厄尔(AllenNewell)赫伯特·西蒙(HerbertSimon)1975框架知识表示马文·明斯基进化计算1965进化策略英戈·雷兴贝格(IngoRechenberg)1975遗传算法约翰·霍兰(JohnHolland)1992基因计算约翰·科扎(JohnKoza)
专家系统和知识工程1965模糊逻辑、模糊集卢特菲·扎德(LotfiZadeh)1969DENDRAL、MYCIN爱德华·费根鲍姆(EdwardFeigenbaum)、布鲁斯·布坎南(BruceBuchanan)、约书亚·莱德伯格(JoshuaLederberg)1979ROSPECTOR杜达(Duda)神经网络1982霍普菲尔德神经网络约翰·霍普菲尔德(JohnHopfield)1982自组织网络图沃·科霍宁(TeuvoKohonen)1986BP算法鲁姆哈特(Rumelhart)、麦克莱兰(McClelland)1989LeNet杨立昆(YannLeCun)1997RNN(RecurrentNeuralNetwork,循环神经网络)、LSTM(LongShort-TermMemory,长短期记忆)
泽普·霍赫赖特(SeppHochreiter)、尤尔根·施米德胡贝(JurgenSchmidhuber)1998CNN(ConvolutionalNeuralNetwork,卷积神经网络) 杨立昆机器学习阶段年份主要成果代表人物分类算法1986ID3(IterativeDichotomiser3,迭代二叉树3代)算法罗斯·昆兰(RossQuinlan)1988Boosting算法约夫·弗雷德(YoavFreund)、迈克尔·卡恩斯(MichaelKearns)1993C4.5算法罗斯·昆兰1995AdaBoost算法弗雷德、罗伯特·夏普(RobertSchapire)1995支持向量机科琳娜·科尔特斯(CorinnaCortes)、万普尼克(Vapnik)2001随机森林利奥·布赖曼(LeoBreiman)、阿黛尔·卡特勒(AdeleCutler)深度学习2006深度信念网络杰弗里·辛顿(GeoffreyHinton)2012谷歌大脑吴恩达(AndrewNg)2014GAN(GenerativeAdversarialNetwork,生成对抗网络)伊恩·古德费洛(IanGoodfellow)2014注意力机制约书亚·本希奥(YoshuaBengio)2014VGG/GoolgleNet牛津大学和克里斯蒂安·塞格迪(ChristianSzegedy)2015ResNet何恺明等2017Transformer谷歌(Google)公司2018BERT(BidirectionalEncoderRepresentationsfromTransformers,基于转换器的双向编码表征)谷歌公司2.1.3机器学习的应用领域1.数据分析与挖掘2.计算机视觉3.自然语言处理4.语音识别
数据分析与挖掘技术是机器学习算法和数据存取技术的结合,是利用机器学习提供的统计分析、知识发现等手段分析,从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。计算机视觉的主要技术基础是图像处理和机器学习。自然语言处理是让机器理解人类语言的一门技术。语音识别是利用自然语言处理、机器学习等相关技术识别人类语言的技术。1.1.3人工智能起源和发展
机器学习是人工智能的重要研究方向,它包含着丰富的知识体系,因此按照一定的规则对其进行细分显得尤为必要。60年代,星际迷航80年代,终结者21世纪,人工智能2.2.1机器学习分类∙机器学习的主要分类有两种:
基于学习方式的分类和基于学习任务的分类。∙根据学习方式的不同可分为监督学习、无监督学习和强化学习。∙根据学习任务的不同可分为分类、回归、聚类和降维。
机器学习
强化学习
无监督学习
降维
聚类
回归
分类
监督学习
不同的分类方式彼此又存在着联系,分类和回归属于监督学习,而聚类和降维属于无监督学习。2.2.2机器学习基本术语1)模型
模型是机器学习中的核心概念。2)数据集
数据集就是样本的集合。3)样本&特征
样本指的是数据集中的数据,一行数据被称为“一个样本”,一个样本包含一个或多个特征。一行一样本,一列一特征2.2.2机器学习基本术语4)向量“向量”是机器学习的关键术语。5)矩阵矩阵是一个常用的数学术语,可以把矩阵看成由向量组成的二维数组,数据集就是以二维矩阵的形式存储数据的。6)假设函数和损失函数
假设函数和损失函数并非某个模块下的函数方法,而是根据实际应用场景确定的一种函数形式,就像解决数学的应用题目一样,根据题意写出解决问题的方程组。2.2.2机器学习基本术语①假设函数
假设函数(HypothesisFunction)可表述为:
y=f(x)
其中x表示输入数据,而y表示输出的预测结果。2.2.2机器学习基本术语②损失函数
损失函数(LossFunction)又叫目标函数,简写为L(x),x是假设函数得出的预测结果“Y”。
∙L(x)的返回值越大表示预测结果与实际偏差越大,越小则证明预测值越“逼近”真实值,这就是机器学习的最终目的。
损失函数就像一个度量尺,通过“假设函数”预测结果的优劣,做出相应的优化策略。2.2.2机器学习基本术语③优化方法“优化方法”可以理解为假设函数和损失函数之间的沟通桥梁。
f(x)假设函数
L(x)损失函数
输入数据通过L(x)可以得知假设函数输出的预测结果与实际值的偏差值,当该值较大时就需要对其做出相应的调整,这个调整的过程叫做“参数优化”。输出预测结果输出“偏差值”优化方法2.2.2机器学习基本术语7)拟合、过拟合和欠拟合欠拟合过拟合拟合2.2.3机器学习流程问题定义数据准备模型选择与开发模型训练和调优模型评估测试一个完整的机器学习流程包括:
问题定义、数据准备、模型选择与开发、模型训练和调优、模型评估测试等5个步骤。
分析问题,确定问题的类型。分析它是监督学习还是无监督学习,是分类问题还是回归问题等。
数据采集,数据预处理,特征提取,数据集拆分。
模型的作用是根据输入的特征给出输出的结果。选择合适的机器学习算法模型,编写对应的模型代码。
使用数据集对模型进行训练,调整模型参数,得到一个最优的函数,然后将待预测的特征自变量输入模型即可得到预测的结果。
对训练好的模型进行评估和测试,验证模型是否满足业务需求。2.2.4机器学习常用算法这些算法可以使用Python中的scikit-learn中内置的相应函数实现。机器学习常用的算法有K近邻、线性回归、逻辑回归、朴素贝叶斯、决策树、支持向量机、K均值聚类等。2.2.4机器学习常用算法1.K近邻(K-NearestNeighbor,KNN)
K近邻算法的核心思想就是距离的比较,即离谁近,就和谁属于同一分类。依据
K近邻算法,假设K代表邻居的个数:∙如果K=3,圆点最邻近的3个邻居是2个小三角形和1个小正方形,少数从服多数,基于统计的方法,判定圆点属于三角形一类。∙如果K=5,圆点最邻近的5个邻居是2个三角形和3个正方形,少数服从多数,基于统计的方法,判定圆点属于正方形一类。在KNN算法中,所选择的邻居都是已经正确分类的对象,对于新来的待分样本,只要找到离它最近的K个实例,按照少数服从多数原则,哪个类别多就把它归为哪一类。2.2.4机器学习常用算法2.线性回归(LinearRegression)
线性回归是一种用于建立变量之间线性关系的监督学习算法。它通过拟合一条直线来最小化预测值与实际值的差距。如果预测的变量是离散的,称之为分类;如果预测的变量是连续的,称之为回归。线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。在二维空间中,通过拟合一条直线建立自变量与因变量之间的关系,在三维空间中则拟合一个平面。
表示样本,表示每个样本都有个特征,其中是在第个特征上的取值。表示样本,每个样本都有个特征。2.2.4机器学习常用算法3.逻辑回归(LogisticRegression)逻辑回归是一种用于处理分类问题的监督学习算法。尽管名字中带有“回归”,但实际上逻辑回归是一种分类算法。二分类的逻辑回归的本质是用一个映射函数Sigmoid将一个线性模型得到的连续结果映射到离散模型上。逻辑回归的目的就是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。Sigmoid函数也称逻辑函数,该函数公式:
由Sigmoid函数的图像知:当z趋近于无穷大时,
趋近于1;当z趋近于无穷小时,
趋近于0。的值映射到(0,1)。当z趋近于无穷大时,趋近于1;当z趋近于无穷小时,趋近于0。2.2.4机器学习常用算法4.朴素贝叶斯(NaiveBayes)
朴素贝叶斯是一种基于贝叶斯定理与特征条件独立假设的分类算法。它假设所有特征相互独立、互不影响,每个特征同等重要。朴素贝叶斯算法是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入x求出使得后验概率最大的输出y。贝叶斯定理是描述随机事件A和B的条件概率(或边缘概率)的一则定理:由于
的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别
的朴素贝叶斯计算式:2.2.4机器学习常用算法5.决策树(DecisionTree)决策树是一种基于树状结构进行决策的算法,它是一种监督学习,可用于分类和回归问题。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。2.2.4机器学习常用算法6.支持向量机(SupportVectorMachine,SVM)支持向量机是一种监督机器学习算法,可用于分类或回归任务。支持向量机使用一种称为内核技巧的技术来转换数据,然后基于这些转换找到可能输出之间的最佳边界。也就是找到一个超平面,最大化样本点到该超平面的间隔。如何将圆点数据与五角星数据进行分割?SVM的核函数能够将数据从二维空间投射至高维空间。∙如果将二维空间变成三维空间,如果圆点泡泡上浮,五角星下沉,这样就可以在浮起的圆点数据和沉下的五角星数据之间找到一个超平面将两类数据进行分割。2.2.4机器学习常用算法7.K均值聚类(K-MeansClustering)聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法。1)k值如何确定?
采用“肘”方法(elbowmethod)确定k值。2)初始的k个质心怎么选?
第一种方法是选择彼此距离最远的点,先选第一个点;然后选离第一个点最远的点当第二个点;再选第三个点,第三个点到第一、第二两点的距离之和最大;以此类推,直到选出k个质心。第二种方法是先根据其他聚类算法得到聚类结果,再从结果中的每个分类选一个点。K-Means算法关键:2.2.4机器学习常用算法8.随机森林(RandomForest)随机森林是一种集成学习方法,通过组合多个决策树来进行预测。每个决策树都是在不同的数据子集上训练的,同时引入了随机性,使得每棵树都有差异。2.3深度学习与神经网络深度学习可以理解成用深度神经网络(DNN,DeepNeuralNetwork)来进行机器学习。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。2.3.1深度学习(DL,DeepLearning)深度学习从字面理解包含两个意思,“深度”和“学习”。为了模拟人脑中的“学习策略”和“学习方法”。学术界研究出使用计算机去模拟这一学习过程的方法,被称为“神经网络”。1)学习学习就是一个认知的过程,从学习未知开始,到对已知的总结、归纳、思考与探索。
“神经网络”这个词从字面上看和人脑有着一点关系。在人脑中负责活动的基本单元是“神经元”,它以细胞体为主体,由许多向周围延伸的不规则树枝状纤维构成的神经细胞。人脑中含有上百亿个神经元,而这些神经元互相连接成一个更庞大的结构,称为“神经网络”。2.3.1深度学习(DL,DeepLearning)深度学习从字面理解包含两个意思,“深度”和“学习”。
深度学习是一个复杂的机器学习算法,其模型使用包含大量层的神经网络。它是人为地使用不同层次不同任务目标的“分层”神经元,去模拟整个输入、输出过程的一种手段。2)深度
input_layer是输入层,hidden_layer_1到hidden_layer_n是隐藏层,output_layer是输出层。深度指的是隐藏的层数。2.3.1深度学习(DL,DeepLearning)深度学习模型:主要的思想就是模拟人的神经元,每个神经元接收到信息,处理完后传递给与之相邻的所有神经元。∙卷积神经网络(convolutionalneuralnetwork,CNN)∙深度置信网络(deepbelievenet,DBN)∙堆栈自编码网络(stackedauto-encodernetwork,SAEN)模型2.3.2神经网络
神经网络技术起源于20世纪50年代到20世纪60年代,经过许多科学家的努力,人脑神经元的这种处理信息模式最终演化为神经元模型,也叫感知机(perceptron)。它是一种多输入、单输出的非线性阈值器件,包含输入层、输出层和一个隐藏层。
在一个神经网络中,神经元是构成神经网络的最小单元,如果一个神经元的输出等于n个输入的加权和,则网络模型是一个线性输出。在每个神经元加权求和后经过一个激活函数(ActivationFunction),则引入了非线性因素,神经网络就可以应用到任意非线性模型中。2.3.2神经网络1.神经网络的原理2.3.2神经网络1.神经网络的原理
神经网络中,每一层都有不同的神经元,且每个神经元都会接收来自上一层神经元的信号,并且产生新的输出信号传到下一层神经元中。神经元接收上一层的输入并输出到下一层的方式被称为前向传播,这种神经网络被称为前馈神经网络或多层感知器(multilayerperceptron,MLP)。1)神经网络结构2.3.2神经网络2)激活函数
神经网络能解决复杂问题的能力主要取决于网络所采用的激活函数。
激活函数决定该神经元接收输入与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030全球七叶神安片行业调研及趋势分析报告
- 2025-2030全球医疗器械消毒产品行业调研及趋势分析报告
- 2025年全球及中国缺氧帐篷行业头部企业市场占有率及排名调研报告
- 2025年全球及中国有机空穴传输材料行业头部企业市场占有率及排名调研报告
- 2025-2030全球连续式锂电池热解炉行业调研及趋势分析报告
- 竞业限制合同协议书
- 家具房屋租赁合同书
- 2025危险废物委托处置合同
- 房地产借款合同
- 提高谈判技巧的训练课程
- 国有资产管理法律责任与风险防控
- 未婚生子的分手协议书
- 变更监事章程修正案范例
- 北京小客车指标租赁协议五篇
- 输液室运用PDCA降低静脉输液患者外渗的发生率品管圈(QCC)活动成果
- YY/T 0681.2-2010无菌医疗器械包装试验方法第2部分:软性屏障材料的密封强度
- GB/T 20472-2006硫铝酸盐水泥
- 烟气管道阻力计算
- 城乡环卫一体化保洁服务迎接重大节日、活动的保障措施
- 医院-9S管理共88张课件
- 高考作文复习:议论文论证方法课件15张
评论
0/150
提交评论