人工智能导论第3章 机器学习_第1页
人工智能导论第3章 机器学习_第2页
人工智能导论第3章 机器学习_第3页
人工智能导论第3章 机器学习_第4页
人工智能导论第3章 机器学习_第5页
已阅读5页,还剩47页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习人工智能导论星蓝海学习网机器学习第一部分第二部分第三部分第四部分第五部分机器学习概述机器学习发展机器学习范畴机器学习方法机器学习工具第六部分机器学习挑战星蓝海学习网3.1机器学习概述机器学习是用计算机程序模拟人的学习能力,从实际例子中学习得到知识和经验,不断改善性能,实现自我完善。星蓝海学习网机器学习概述

机器学习是用计算机程序模拟人的学习能力,从实际例子中学习得到知识和经验,不断改善性能,实现自我完善。它从样本数据中学习得到知识和规律,然后用于实际的推断和决策。它和普通程序的一个显著区别是需要样本数据,是一种数据驱动的方法。星蓝海学习网机器学习VS人类学习机器学习致力于研究如何通过计算机的手段,利用经验改善系统自身的性能,其根本任务是数据的智能分析与建模,进而从数据里面挖掘出有用的价值。星蓝海学习网3.2机器学习发展机器学习属于人工智能中一个较为年轻的分支,可以大致分为以下三个发展历程:萌芽时期、发展时期、繁荣时期。卡内基梅隆大学的教授TomMitchell在机器学习的过程中起到了不可估量的作用,他是机器学习的早期建立者和守护者。

星蓝海学习网机器学习发展萌芽时期发展时期繁荣时期卡内基梅隆大学的教授TomMitchell在机器学习的过程中起到了不可估量的作用,他是机器学习的早期建立者和守护者。机器学习发展的另一个重要的里程碑之一是统计学和机器学习的融合星蓝海学习网萌芽时期

20世纪50年代中期―60年代中期,这一时期处于萌芽时期。人们试图通过软件编程来操控计算机完成一系列的逻辑推理功能,进而使计算机具有一定程度上类似人类一样的智能思考能力。然而这时期计算机所推理的结果远远没有达到人们对机器学习的期望。通过进一步研究发现,只具有逻辑推理能力并不能使得机器智能。研究者们认为,使得机器拥有人工智能的前提还必须是拥有大量的先验知识。星蓝海学习网发展时期

20世纪60年代中期―80年代中期,这一时期处于发展时期。人们试图利用自身思维提取出来的规则来教会计算机执行决策行为,主流便是各式各样的“专家系统”,然而这些系统总会面临“知识稀疏”的问题,即面对无穷无尽的知识与信息,人们无法总结出万无一失的规律。因此,让机器自主学习的设想自然地浮出水面。基于20世纪50年代对于神经网络的研究,人们开始研究如何让机器自主学习。

星蓝海学习网繁荣时期

20世纪80年代―至今,机器学习达到了一个繁荣时期。由于这一时期互联网大数据以及硬件GPU的出现,使得机器学习脱离了瓶颈期。机器学习开始爆炸式发展,开始成为了一门独立热门学科并且被应用到各个领域。各种机器学习算法不断涌现,而利用深层次神经网络的深度学习也得到进一步发展。同时,机器学习的蓬勃发展还促进了其他分支的出现,例如模式识别,数据挖掘,生物信息学和自动驾驶等等。

星蓝海学习网3.3机器学习范围从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。星蓝海学习网机器学习范围机器学习技术的发展促使了很多智能领域的进步,改善着我们的生活。星蓝海学习网3.4机器学习方法机器学习可以分为监督学习(supervisedlearning)、无监督学习(unsupervisedlearning)、强化学习(reinforcementlearning),同时随着人工智能越来越被人们重视,深度学习(Deeplearning)也成为机器学习的一个新的领域。星蓝海学习网机器学习方法深度学习也成为机器学习的新领域。星蓝海学习网机器学习方法

机器学习是建立在数据建模基础上的,因此,数据是进行机器学习的基础。可以把所有数据的集合称为数据集(dataset),其中每条记录称为一个“样本”,在面对一个新样本时,可以根据样本的不同属性对样本进行相应的分类。为了学习到这一模型,相关研究者提出了不同的策略,这些不同的策略就构成了机器学习的方法,常见的有监督学习,非监督学习,强化学习以及最近兴起的深度学习。星蓝海学习网3.5监督学习监督学习就是在已知的输入和输出情况下训练出一个模型,将输入映射到输出。简单地说,监督学习就是在训练之前已经知道了输入和输出,而任务的建立就是为了组建一个输入准确映射到输出的模型,当模型输入新的值时就能预测出对应的输出。星蓝海学习网监督学习

监督学习就是在已知的输入和输出情况下训练出一个模型,将输入映射到输出。简单地说,监督学习就是在训练之前已经知道了输入和输出,而任务的建立就是为了组建一个输入准确映射到输出的模型,当模型输入新的值时就能预测出对应的输出。星蓝海学习网3.5.1K-近邻算法

K-近邻算法(K-nearestneighbors,KNN)核心思想就是“站队”:给定训练集,对于待分类的样本点,计算带预测样本和训练集所有数据点的距离,将距离从小到大取前K个样本,则哪个类别在前K个数据点中的数据量最多,就认为待预测的样本属于该类别。可以使用一句谚语来说明:“近朱者赤,近墨者黑。”星蓝海学习网K-近邻算法过程1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。星蓝海学习网K-近邻算法缺点对参数的选择很敏感。当选取不同的K值的时候我们会得到完全不同的结果。计算量特别大,每次分类都需要计算位置数据和所有训练样本之间的距离,尤其在遇到训练集非常大的情况。星蓝海学习网3.5.2决策树决策树(decisiontree)是基于树形结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。一棵决策树一般包含一个根节点,让俺个内部节点和若干个叶子结点,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子结点代表一种类别。星蓝海学习网决策树

决策树学习的关键是如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。但经典决策树在存在噪音的情况下,其性能会出现明显的下降,这在使用过程中要极为注意。星蓝海学习网3.5.3支持向量机支持向量机(supportvectormachine,SVM)模型是将实例表示为空间中的点,这样映射就能使得单独类别的实例被尽可能大地分割开来。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别,通俗来讲,他是一种二类分类模型,星蓝海学习网支持向量机星蓝海学习网支持向量机星蓝海学习网支持向量机星蓝海学习网支持向量机

在现实生活中,我们把这些球叫做data,把线条叫做classifier,找到最大间隙的trick叫做optimization,将球抛向空中叫做kernelling,而那张纸叫做hyperplane。星蓝海学习网3.6无监督学习

无监督学习就是不受监督的学习。无监督学习不需要人类进行数据标注,而是通过模型不断地自我认知,自我巩固,最后进行自我归纳来实现其学习的过程。虽然目前无监督学习的使用不如监督学习广泛,但这种独特的方法论为机器学习的未来发展方向给出了很多启发和可能性,正在引起越来越多的关注。星蓝海学习网无监督学习顾名思义,无监督学习就是不受监督的学习。同监督学习建立在人类标注数据的基础上不同,无监督学习不需要人类进行数据标注,而是通过模型不断地自我认知,自我巩固,最后进行自我归纳来实现其学习的过程。无监督学习更接近于人类的学习方式,常见的无监督学习方法主要有聚类和降维。星蓝海学习网3.6.1聚类

俗话说:“物以类聚,人以群分”,在聚类算法中,训练样本的标记信息是未知的,给定一个由样本点组成的数据及,数据聚类的目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,将样本点划分成若干类,使得属于同一类的样本点非常相似,而属于不同类的样本点不相似。星蓝海学习网K-均值算法星蓝海学习网K-均值算法星蓝海学习网K-均值算法星蓝海学习网K-均值算法星蓝海学习网K-均值算法星蓝海学习网K-均值算法星蓝海学习网K-均值算法星蓝海学习网K-均值算法小练习:从16张扑克牌从随机抽取3张作为基数,然后使用聚类算法对这16张扑克牌进行分类,然后换3张作为基数从新分类,最后再选取5张作为基数进行分类,观察分类结果的不同。星蓝海学习网3.6.2降维

降维(dimensionalityreduction)是将数据的维度降低,目的是为了在尽可能保存相关的结构的同时降低数据的复杂度。用少数几个新的变量代替原有数目庞大的变量,把重复的信息合并起来,既可以降低现有变量的维度,又不会丢失重要信息的思想,就称它为“降维”。星蓝海学习网降维学生ID数学物理化学语文历史英语总分180018286919481815151800251727790676742418003676951716865391180047177938989634821800586788086627947118006699755716778437180076871956110054449180088498786551754511800976969293838952918010589287767297482180115792679258934591801265755561718741418013709654909874482星蓝海学习网3.6.2降维

通常的做法是计算所有成绩的总分来衡量学生成绩的好坏,但是总会存在一些特殊的学生,比如表中总分为482的三位学生,总分相同,各科成绩差别很大,那如何去区分评价总分相同的学生的学习表现呢?这时可以引入方差的概念,即计算每一个学生成绩的方差,方差的大小可以表明学生各科成绩的波动。因此可以使用一个二维数据(总分,方差)来替代原来的六维数据(数学,物理,化学,语文,历史,英语)来衡量一个学生的学习表现。星蓝海学习网3.7强化学习强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决decisionmaking问题,即自动进行决策,并且可以做连续决策。星蓝海学习网强化学习强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决decisionmaking问题,即自动进行决策,并且可以做连续决策。它主要包含四个元素,agent,环境状态,行动,奖励,强化学习的目标就是获得最多的累计奖励。著名学者DavidSilver(AlphaGo的发明者之一)认为,强化学习是解决通用人工智能的关键路径。星蓝海学习网强化学习强化学习通常有两种不同的策略:一种是探索,也就是尝试不同的事情,看他们是否会获得比之前更好的回报;二是利用,也就是尝试过去经验当中最有效的行为。可以通过旅行商的案例来说明这两种策略的不同,如图3-22所示的旅行商行走的路线图。途中A、B等圆形节点代表城市;两个节点之间的连线代表两个城市之间有路可以行走;线条上的数字代表行走这条线路所产生的消耗。如果旅行商要从A到F,如何选择路径可以是成本消耗最小?星蓝海学习网强化学习星蓝海学习网强化学习如果采用利用策略,从A点出发可以走的有{B、C、D、E},按照以往的经验,应该走D消耗最少,到达D后可以走的有{B、C、F},则应该选择消耗最少的F。由于每次都想获得最少的消耗,所以路线总归会是A->D->F,永远也不会知道会不会有比这个消耗更低的路线。如果采用探索策略,则会在A点不断的尝试,看是否会有消耗更低的路线,最后找到最优路线A->C->F,这里第一步A->C就不是第一步消耗最少的线路。这就是探索和利用之间的矛盾,也是强化学习要解决的一个难点问题。星蓝海学习网3.8机器学习工具常言道“工欲善其事,必先利其器”,在业务实践中光有理论是不够的,还需要有合适的工具。由于机器学习算法不同于传统的数据处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论