64229《大数据与人工智能导论（微课版）》第5章

上传人：1*** IP属地：广东上传时间：2024-09-16 格式：PPTX 页数：52 大小：5.29MB 积分：30 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据与人工智能导论机器学习：智能的自动化途径制作单位：网络信息中心2024年8月本章学习目标01从定义、发展历史中了解什么是机器学习02掌握机器学习的分类与关键术语03了解几种基本的机器学习算法机器学习概述机器学习通常可以定义为人工智能的一个分支。它利用计算机算法和统计模型，让计算机能够从数据中学习，而不是依靠程序员手动编码。机器学习是人工智能的一门学科，主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。机器学习是用数据或以往的经验优化计算机程序的性能标准。一种经常引用的英文定义是：AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceE.机器学习不同定义011949年，唐纳德·赫布（DonaldHebb）利用神经心理学学习原理开创了机器学习，提出了赫布学习规则。1950

年，图灵提出著名的图灵测试，作为判断智能的条件，这是人工智能领域的开端。在1952年，IBM公司的科学家阿瑟·塞缪尔（ArthurSamuel）创建了一个跳棋程序，驳斥了约翰·冯·诺依曼（JohnvonNeumann）的机器不能像人类那样编码或学习的理论。阿瑟·塞缪尔提出了“机器学习”一词，并将其定义为“一个不需要显式编程就能提供计算机能力的研究领域”。弗兰克·罗森布拉特在1957年提出了基于神经传感科学的模型，该模型与当今的机器学习算法非常接近，弗兰克·罗森布拉特基于这一想法创建了第一个计算机神经网络——感知机，用来模拟人脑的功能。马文·李·明斯基（MarvinLeeMinsky）在1969年将感知机推向了顶峰，他提出了著名的异或问题和感知机数据的线性不可分离性。明斯基还将人工智能与机器人技术相结合，创造了机器人C——这是世界上第一个能够模拟人类行为的机器人，从而将机器人技术推向了新的高度。起源与早期发展机器学习的发展历史02从20世纪60年代中期到20世纪70年代末，机器学习的发展速度急剧放缓。这一时期的研究目标是通过使用逻辑或图形结构作为机器的内部描述来模仿人类的想法、学习过程。机器可以学习使用符号来描述概念，并对所学内容进行各种假设。尽管帕特里克·温斯顿（PatrickWinston）的结构学习系统和海斯·罗斯（HaysRoth）的基于逻辑的归纳学习系统在此期间取得了重大进展，但他们只能吸纳一个概念并将其付诸实践。由于理论计算结果未能达到预期效果，神经网络学习器的进展陷入低谷。低谷机器学习的发展历史0320世纪70年代末，人们开始从学习单一的概念转向学习众多的概念，尝试其他学习策略和方法。保罗·韦伯斯（PaulWerbos）在1981年提出了神经网络误差逆传播（BackPropogation，BP）技术中的多层感知机（Multi-LayerPerceptron，MLP）。1986年第一种人工智能领域的权威期刊ArtificialIntelligence创刊。同年，昆兰提出了一个著名的ML算法，我们称之为决策树算法，或者更准确地说，即ID3算法。总的来看，20世纪80年代是机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期。转折0420世纪80年代以来，“示例学习”（广义上的归纳学习），包括有监督和无监督学习，一直是研究最多、使用最广泛的学习方法。符号学习包括决策树和基于逻辑的学习，20世纪80年代以来一直是“示例学习”的重要组成部分。基于神经网络的连接主义学习是20世纪90年代中期之前的另一种流行“示例学习”技术。统计学习在20世纪90年代中期首次亮相，并很快崛起。支持向量机（SupportVectorMachine，SVM）和更广泛的“核技术”（核方法）是统计学习的代表性技术。连接主义学习在21世纪初重新出现，引发了一股被称为深度学习的热潮。深度学习技术在许多测试和竞赛中表现出色，尤其是在涉及语音和图像等复杂项目的应用中。示例学习机器学习的发展历史机器学习分类监督学习通过学习或建立模式（函数/学习模型），从标记的训练集中推断新的事件。训练集是训练样本的集合，每个样本都有一个输入变量（自变量）和一个预期输出（因变量）。函数的输出可以是连续值（回归分析）或分类标签预测（分类）。无监督学习算法使用未标记的输入数据，这意味着数据只提供输入变量（自变量X），而不提供匹配的输出变量（因变量）。在无监督学习中，算法会自己发现数据中的模式。生成对抗网络（GAN）和聚类是两种常见的无监督学习策略。强化学习通过与环境交互来学习如何做出决策，以最大化预期的回报。在训练过程中，算法会根据其行动获得的奖励或惩罚来调整其策略，以便在未来做出更好的决策。强化学习通常用于游戏、机器人控制等领域。监督学习无监督学习强化学习机器学习基本概念样本数据当我们拥有一些样本

(x,y)

时，(x,y)

就是样本数据，其中x叫作输入数据（InputData），y叫作输出数据（OutputData），y又称为因变量。在机器学习中，它有一个更加专业的名字——标签（Label）或者目标（Target）。输入数据与输出数据通常都是高维矩阵，例如其中

表示第i个输入样本，

表示数据

的第n个元素的值。标签y因需求不同有各种形式，以最简单的n分类问题为例，

就是一个n维的One-Hot，其中一个值为1，其余的元素都为0，第几个元素为1就表明属于第几个类别。机器学习基本概念数据集与特征如集合

称为一个“数据集”（DataSet），其中每条记录是关于一个事件或对象的描述，称为一个“示例”（Instance）或“样本”（Sample）；反映事件或对象在某方面的表现或性质的事项，称为“特征”（Feature）。从数据中学得模型的过程称为“学习”（Learning）或“训练”（Training），这个过程通过执行某个学习算法来完成。训练集、验证集、测试数据对于一个学习模型而言，给定数据集，在模型评估与选择过程中由于需要留出一部分数据进行评估、测试，事实上只使用一部分数据训练模型。训练集：顾名思义，训练集用于训练学习模型，通常其数据量比例不低于总数据量的一半。验证集：验证集用于衡量训练过程中模型的好坏。因为机器学习算法大部分都不是通过解析法得到的，而是通过不断迭代来慢慢优化模型，所以验证集可以用来监视模型训练时的性能变化。测试数据：在模型训练好了之后，测试数据用于衡量最终模型的性能。验证集只能用于监视和辅助模型训练，不能用来代表模型好坏，所以哪怕验证的准确度是100%而测试的准确度是10%，模型也是不能被认可的。机器学习基本概念分类、回归分类是一种监督学习策略，旨在根据之前的观察结果预测新样本的分类标签，这些分类标签是离散的、无序的值，代表样本组成员之间的关系。所以说，如果机器学习模型的输出是离散值，我们称其为分类模型；相反，如果机器学习模型的输出是连续的值，称为回归模型。决策树：基于对数据集的分割来构建一个树状结构，每个内部节点表示对某个属性的判断，每个叶节点表示一个类别。朴素贝叶斯：基于贝叶斯定理，假设属性之间相互独立，利用先验（Prior）概率和条件概率进行分类。支持向量机：通过寻找超平面将数据集分割成两个类别，并最大化边界，可以实现非线性分类。K近邻算法（K-NearestNeighbors，KNN）：通过计算待分类样本与训练样本之间的距离，取距离最近的k个样本的类别进行投票决定待分类样本的类别。逻辑回归（LogisticRegression）：通过对数据进行拟合，得到一个线性回归方程，并通过Sigmoid函数将结果映射到[0,1]，用于解决二分类问题。神经网络：通过多层神经元的组合，实现对非线性数据的分类。常用的神经网络模型包括MLP、卷积神经网络和循环神经网络等。常见的分类算法线性回归：线性回归是最基本的回归算法之一。它假设输入变量和输出变量之间存在线性关系，并且使用最小二乘法（LeastSquareMethod）来拟合一个线性模型（LinearModel）。线性回归的优点是简单易懂，容易实现，并且在某些情况下可以提供良好的结果。支持向量回归：支持向量回归是一种基于支持向量机的回归算法。它通过寻找一个超平面来拟合数据，使得所有数据点到超平面的距离最小化。与线性回归不同，支持向量回归可以使用核函数来处理非线性问题。决策树回归：决策树回归是一种基于决策树的回归算法。它将数据集分成多个子集，每个子集对应决策树上的一个节点。通过对每个节点进行拟合，最终得到一个回归模型。决策树回归的优点是易于理解和解释，可以处理非线性关系，并且不需要对数据进行任何假设。随机森林（RandomForest）回归：随机森林回归是一种基于随机森林的回归算法。它通过随机选择数据集的子集和特征集，构建多个决策树，并对这些决策树进行平均或投票来预测结果。与决策树回归不同，随机森林回归可以处理高维数据，并且具有更好的泛化性能。神经网络回归：神经网络回归是一种基于神经网络的回归算法，它通过多个神经元和层来模拟复杂的非线性关系，并使用BP算法来训练模型。神经网络回归的优点是可以处理非线性问题，并且在大规模数据集上具有较好的性能。常见的回归算法机器学习基本概念聚类聚类是一种常见的无监督学习策略，用于根据项目的特征将数据分类。聚类是将一组对象分组到类似对象的类中的过程。聚类方法用于在数据中发现隐藏的模式或分组，聚类算法构成的分组或类中的数据具有更高的相似度。欧几里得距离、概率距离和其他度量可用于定义聚类建模相似性度量。K-means聚类算法：该算法是最常见的聚类算法之一，将样本分为K个簇，每个簇的中心是该簇内所有样本的平均值。该算法的优化目标是最小化样本到簇中心的距离平方和。层次聚类算法：该算法是将样本逐步分解为一些小的簇，并且在每一步将相似的簇组合起来，形成较大的簇。该算法有两种形式：自下而上（凝聚）和自上而下（分裂）。密度聚类算法：这类算法将簇视为高密度区域，通过寻找高密度区域来确定聚类，而不是在样本之间划定边界。谱聚类算法：该算法通过对样本之间的相似度矩阵进行特征分解，得到一个低维度的特征空间，并在该空间中进行聚类。均值漂移聚类算法：该算法是一种基于密度的聚类算法，其主要思想是从一个样本点出发，通过不断向密度估计函数最高的方向移动来寻找局部密度最大的区域。常见的聚类算法机器学习模型评估与性能度量模型评估机器学习模型评估是指对训练好的机器学习模型进行性能测试和比较，以确定其预测准确性、泛化能力和健壮性等重要性能指标。常见的机器学习模型评估方法包括将数据集划分为训练集和测试集、交叉验证（CrossValidation）、混淆矩阵等。同时，还可以使用不同的评估指标对模型进行多方面的评估，以全面地了解模型的性能。性能度量性能度量（PerformanceMeasure）是评估模型性能的具体指标，不同类型的机器学习任务需要使用不同的性能度量。分类问题可以使用精确度、召回率、F1得分和ROC（ReceiverOperatingCharacteristic，受试者操作特性）曲线等度量指标回归问题则可以使用均方误差、平均绝对误差和R2分数等指标来衡量模型性能。

留出法1模型评估在划分训练集与测试集时，数据分布应尽可能保持一致，以尽量减少数据划分过程中引入的额外偏差对最终结果造成的任何影响。例如，在分类任务中，样本的类别比例应始终保持相似，从抽样的角度对数据集进行分区时，保持类别比例的抽样策略称为“分层抽样”。训练集S和测试集T是从数据集D中随机选择的，使用一次留出法的估计结果往往不稳定且不可靠。为了减少偶然性因素，多次采用留出法计算每个测试的错误率，然后求每个测试的平均错误。此外，我们希望评估的是用数据集D训练出的模型的性能，但留出法需划分训练集与测试集，训练集包含数据过多或过少会对模型的评估或训练产生影响。这个问题没有完美的解决方案，常见做法是将2/3～4/5的样本用于训练，剩余样本用于测试。留出法的问题交叉验证法将样本数据集分成两个互补的子集：一个子集用于训练分类器或模型，被称为训练集；另一个子集用于验证训练出的分类器或模型是否有效，被称为测试集。交叉验证法2模型评估第一阶段是将数据集D划分为大小相似的k个相互排斥的子集，每个子集Di保持数据分布尽可能一致，即通过分层抽样从数据集D中得出。第二阶段用k－1个子集的并集作为训练集，其余子集用作第二阶段的测试集；通过这种方式，获得k组训练集与测试集，允许进行k次训练和测试，最后返回的是这k个测试结果的均值。交叉验证法的步骤交叉验证法通常又被称为“k折交叉验证”。其中最常用的K值是10，因此这个方法又被称为10折交叉验证。若数据集D有m个样本，将数据集D划分为m个子集，即k=m，此时得到了交叉验证法的一个特殊情况：留一法（Leave-One-Out，LOO）。交叉验证法2模型评估当k等于样本量m时，该交叉验证可以被认为是m折交叉验证。这时表明每个数据点都经过了测试，剩下的m－1个数据点代表测试集。留一法不受随机样本划分方法的影响。因为只有一种方法可以将m个样本划分为m个子集，将留一法的训练集与原始数据集进行比较，训练集的样本只少了一个，所以实际使用留一法测试的模型与应该评估的模型非常相似。故留一法的评估结果通常被认为比较精确。然而，留一法也有一些缺点：当数据集较大时，训练m个模型的计算开销可能会很大。留一法在统计学中，自助法（BootstrapMethod，也称Bootstrap或自助抽样法）是一种从给定训练集中有放回的均匀抽样方法。留出法与交叉验证法实际评估的模型所使用的训练集比数据集D小，造成训练样本大小的不同，会有一些估计偏差，基于自助采样的“自助法”是一个比较好的解决方案。自助法3模型评估对包含m个样本的数据集D进行采样，以创建一个训练集D`。对数据集进行m次有放回的采样，将每次抽取的样本复制并放入训练集D`。没有进入该训练集的样本最终形成检验集（测试集）。自助法的步骤

自助法的原理在统计学中，自助法（BootstrapMethod，也称Bootstrap或自助抽样法）是一种从给定训练集中有放回的均匀抽样方法。留出法与交叉验证法实际评估的模型所使用的训练集比数据集D小，造成训练样本大小的不同，会有一些估计偏差，基于自助采样的“自助法”是一个比较好的解决方案。自助法3模型评估一方面，当数据集很小且划分训练集与测试集有问题时，自助法是有效的；此外，自助法可以用原始数据集生成许多替代训练集，这对集成学习（EnsembleLearning）等方法有利。另一方面，自助法改变了原始数据集的分布，引入了估计偏差。因此，当初始数据量足够时，通常会使用留出法和交叉验证法。适用情况在大多数学习方法中，学习模型的性能往往因参数组合的不同而显著不同。因此，在进行模型评估和选择时，还需要设置算法参数，这一操作被称为“参数调整”或“调参”（ParameterTuning）。调参指调整参数以获得更好的效果的过程，目的是获得更好的模型，修正误差并提高神经网络训练的准确性。许多场景会影响模型的理想设置，除了选择算法，还需要在评估和选择模型时设置参数。目前的标准做法是选择一个参数范围和变化步长，例如

[0,

0.2]

以0.05为步长，这样便有5个参数值可选择，并从这5个参数值中选择最佳值。尽管这种方法获得的参数值可能不是最佳值，但可在计算开销与性能估计之间折中。调参与最终模型4模型评估均方误差1性能度量均方误差是一种反映估计值与被估计值之间差异程度的度量，通常用于评估数据的变化程度，并预测数据的准确性。均方误差是回归任务中最常用的性能度量，其表达式为即均方误差对误差进行的平方，意味着误差值越大，其平方值越大，这使其对大误差值会十分敏感。错误率与精度2分类任务中最常用的性能指标是错误率和精度，这对于二分类和多分类都是可以接受的。错误率是分类错误的样本数占样本总数的比例。对于样本集D，分类错误率被定义为精度是分类正确的样本数占样本总数的比例，其表达式为其中，

表示指示函数，在

为真和假时分别取值1和0。错误率和精度不足以满足所有任务中的需求，对于二分类任务，样本可以分为真正例（TruePositive）、假正例（FalsePositive）、真反例（TrueNegative）和假反例（FalseNegative）4个场景，根据这四种样本的数量可以计算出查准率、查全率和F1。查准率、查全率与F13性能度量真实情况预测结果正例反例正例TP（真正例）FN（假反例）反例FP（假正例）TN（真反例）查准率P（Precision）与查全率R（Recall）的定义：查准率就是在我们认为是对的样例中，到底有多少真是对的查全率就是针对所有对的样例，我们判断对了多少。查准率与查全率性能度量对每一个测试样本设置不同的阈值，分类器对样本的预测结果大于该阈值则判为正例，小于该阈值则判为负例，每个阈值对应一个（查全率，查准率）数据点。以查准率为纵轴、查全率为横轴作图，所有阈值的对应点就组成了查准率-查全率曲线，简称P-R曲线，显示该曲线的图称为P-R图。P-R图直观地显示出学习器在样本总体上的查全率、查准率。通过比较P-R曲线截面积的大小，还能对两种学习器的性能做出比较。P-R图

F1度量偏差与方差4性能度量

方差度量了在面对同样规模的不同训练集时，学习算法的估计结果发生变动的程度。方差代表一个学习算法的精确度，高方差意味着这个学习算法与该训练集是不匹配的。使用样本数相同的不同训练集产生的方差为方差真实噪声是任何学习算法在该训练集上的期望误差的下界，是无法消除的误差。使用学习算法产生的真实噪声为真实噪声性能度量期望输出与真实标签的差别称为偏差（Bias），度量了某种学习算法的平均估计结果所能逼近学习目标的程度，即偏差模型的训练不可避免地会出现噪声，使得收集到的数据样本中的部分类别与实际真实类别不相符。弱假定噪声期望为0，即

。通过简单的多项式展开与合并，可对算法的期望泛化误差进行分解。即泛化误差可分解为偏差、方差与真实噪声之和。偏差-方差分解说明，泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定的。泛化误差性能度量一般来说，偏差与方差是有冲突的，这称为偏差-方差窘境（Bias-VarianceDilemma）。给定学习任务，假定我们能控制学习算法的训练程度。在训练程度不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导了泛化误差；随着训练程度的加深，学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐能被学习器学到，方差逐渐主导了泛化误差；在训练程度充足后，学习器的拟合能力已非常强，训练数据发生的轻微扰动都会导致学习器发生显著变化，若训练数据自身的、非全局的特性被学习器学到了，则将发生过拟合。偏差-方差窘境线性模型1机器学习算法线性模型形式简单、易于建模，却蕴含着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型（NonlinearModel）可在线性模型的基础上通过引入层级结构或高维映射而得。由于w直观表达了各属性在预测模型中的重要性，因此线性模型有很好的可解释性（Comprehensibility）。线性模型的优点

线性模型给定数据集

，其中

，

，线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。假设输入属性的数量只有一个，为便于讨论，此时忽略关于属性的下标，即

，其中

。对离散属性，若属性值间存在“序”（Order）关系，可通过连续化将其转换为连续值。线性回归试图学得

，使得

。确定w和b的关键在于如何衡量f(x)与y之间的差别。均方误差是回归任务中常用的性能度量，因此我们可试图让均方误差最小化。均方误差有非常好的几何意义，它对应了常用的欧几里得距离，简称欧氏距离（EuclideanDistance）。基于均方误差最小化来进行模型求解的方法称为最小二乘法，在线性回归中，最小二乘法试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。一般情形是已知数据集D，样本由d个属性描述，此时试图学得

，使得

，这称为“多元线性回归”。线性回归线性模型

对数概率回归LDA类似于方差分析（ANOVA）和回归分析，三者都试图使用属性或测量值的线性组合来表示因变量。LDA使用连续自变量和类别因变量；方差分析使用类别自变量和连续因变量；而回归分析则使用连续因变量，自变量可以是连续的也可以是分类的。线性模型一种经典的线性学习方法是线性判别分析（LinearDiscriminantAnalysis，LDA）。因为它是费舍尔（Fisher）在二分类问题上首次引入的，所以也被称为“Fisher判别分析”。LDA利用统计学、模式识别和机器学习技术，试图识别表征、区分两类对象或事件的线性数据组合，得到的组合可以用作线性分类器，或者在分类之前降低维数。LDA的原理：给定一个训练集，目标是将样本投影到一条直线上，相似样本之间的投影点尽可能接近，不同样本之间的投影点尽可能远离；对新样本进行分类时，将其投影到同一条线上，然后根据投影点的位置对其进行分类。线性判别分析OvO给定数据集

，

。OvO将这N个类别两两配对，从而产生N(N－1)/2个二分类任务。在测试阶段，新样本将同时被提交给所有分类器，于是将得到N(N－1)/2个分类结果，最终结果可通过投票产生，即把被预测得最多的类别作为最终分类结果。OvROvR则是每次将一个类的样例作为正例、其他所有类的样例作为反例来训练N个分类器。在测试时，若仅有一个分类器预测为正类，则对应的类别鉴记作为最终分类结果。若有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类鉴标记作为分类结果。线性模型在一般情况下，考虑N个类别

，多分类学习的本质是“拆解法”，即将多分类任务拆为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。经典的拆分策略有3种：一对一（OnevsOne，OvO）、一对其余（OnevsRest，OvR）和多对多（ManyvsMany，MvM）。多分类学习线性模型OvR与OvO对比OvR只需训练N个分类器，而OvO需训练N(N－1)/2个分类器。OvO

的存储开销和训练时间开销通常比OvR的更大。但在训练时，OvR的每个分类器均使用全部训练样例，而OvO的每个分类器仅用到两个类的样例，因此，在类别很多时，OvO的训练时间开销通常比OvR的更小。至于预测性能，则取决于具体的数据分布，在多数情形下两者性能差不多。MvMMvM是每次将若干个类作为正类，若干个其他类作为反类，OvO和OvR是MvM的特例。MvM的正、反类构造必须有特殊的设计，不能随意选取。多分类学习线性模型

类别不平衡问题线性模型重放的基本思想虽简单，但实际操作却并不简单，主要是因为“训练集是真实样本总体的无偏采样结果”这个假设往往并不成立。也就是说，我们未必能有效地基于训练集观测概率来推断出真实概率。现有技术大体上有3类做法：第一类是直接对训练集里的反例进行欠采样（Undersampling），即去除一些反例使得正、反例数量接近，然后进行学习；第二类是对训练集里的正例进行过采样（Oversampling），即增加一些正例使得正、反例数量接近，然后进行学习；第三类则是直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将式（5.13）嵌入其决策过程中，称为阈值移动（Threshold-Moving）。重放决策树是机器学习中的一种预测模型，表示对象属性与对象值之间的映射关系。决策树可用于检查数据和创建数据预测。决策树只有一个输出，如果需要多个输出，我们可以创建一棵独立的决策树来处理不同的输出。决策树通常由一个根节点、几个内部节点和多个叶节点组成；叶节点对应决策结果，其他节点对应属性测试；每个节点都包含有关选择的信息，我们可以根据属性测试结果，将样本集划分为子节点，根节点包括整个样本集。决策测试序列对应从根节点到每个叶节点的路径，决策树学习的目标是提出新的决策树。决策树2机器学习算法决策树代码所示为采用分治技术构建具有良好泛化能力决策树的基本过程。在决策树基本构建中，有以下3种情形会导致递归返回：训练集不断被划分，划分到样本属于同一类别时，无须划分；没有可以用于划分的属性，或者所有样本在所有属性上的取值一样，无法划分；划分到节点包含的训练集为空，不能划分。在第2种情形下，我们把当前节点标记为叶节点，并将其类别设置为该节点所含样本最多的类别；在第3种情形下，同样把当前节点标记为叶节点，但将其类别设置为其父节点所含样本最多的类别。决策树构建决策树决策树学习的关键是代码第8行，即如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的纯度（Purity）越来越高。划分选择

01信息熵信息熵（InformationEntropy）是度量样本集合纯度最常用的一种指标。假定当前样本集合

D中第k类样本所占的比例为

，则D的信息熵定义为Ent(D)的值越小，则D的纯度越高。

02信息增益

决策树

03增益率

04基尼指数信息增益准则对可取值数量较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5决策树算法不直接使用信息增益，而是使用增益率（GainRatio）来选择最优划分属性。增益率定义为其中

IV(a)

称为属性a的固有值（IntrinsicValue），属性a的可能取值数量越多（即V值越大），则IV(a)的值通常会越大。增益率准则对可取值数量较少的属性有所偏好，因此C4.5决策树算法先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最大的。CART决策树使用基尼指数（GiniIndex）来选择划分属性。数据集D的纯度可用基尼值来度量直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。Gini(D)越小，则数据集D的纯度越高。属性a的基尼指数定义为在候选属性集合A中，可以选择那个使得划分后基尼指数最小的属性作为最优划分属性，即

。决策树剪枝（Pruning）是决策树学习算法对付“过拟合”的主要手段。在决策树学习中，节点划分过程不断重复，有时会造成决策树分支过多，此时可通过主动去掉一些分支来降低过拟合的风险。决策树剪枝的基本策略有预剪枝（Pre-Pruning）和后剪枝（Post-Pruning）。预剪枝是指在决策树生成过程中，在每个节点划分前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分并将当前节点标记为叶节点；后剪枝则是先通过训练集生成一棵完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点。剪枝处理由于连续属性的可取值数量不再有限，因此，不能直接根据连续属性的可取值来对节点进行划分。此时连续属性离散化技术可派上用场，最简单的策略是采用二分法（Bi-Partition）对连续属性进行处理，这正是C4.5决策树算法中采用的机制。需要注意的是，与离散属性不同，若当前节点划分属性为连续属性，该属性还可作为其后代节点的划分属性。连续值处理现实任务中常遇到不完整样本，尤其是在属性数量较多的情况下，往往会有大量样本出现缺失值。如果简单地放弃不完整样本，会造成数据信息的极大浪费。如何在属性值缺失的情况下进行划分属性选择？给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？缺失值处理神经网络也称为人工神经网络或模拟神经网络，它是机器学习的一个子集，是深度学习方法的核心。神经网络由大量的人工神经元联结进行计算，神经元模型是神经网络最基本的组成部分。沃伦·麦卡洛克（WarrenMcCulloch）和沃尔特·皮茨（WalterPitts）在1943年将上述情况抽象为一个简单的模型，该模型是一直沿用到现在的M-P神经元模型。神经网络3机器学习算法一个神经元从n个神经元获得输入，这些输入信号通过加权连接传输，神经元接收的总输入值与神经元的阈值进行比较，然后使用激活函数处理神经元的输出。理想中的激活函数是阶跃函数，但阶跃函数具有不连续、不光滑等性质，因此实际常将Sigmoid函数作为激活函数。M-P神经元模型神经网络单层神经元网络是最基本的神经元网络形式，由有限个神经元构成，所有神经元的输入向量都是同一个向量。由于每个神经元都会产生一个标量结果，因此单层神经元网络的输出是一个向量，向量的维数等于神经元的数量单层神经元网络一种常见的多层前馈神经网络（MultilayerFeedforwardNeuralNetwork）由3个部分组成。输入层（InputLayer），众多神经元接收大量非线性输入消息。输入的消息称为输入向量。输出层（OutputLayer），消息在神经元连接中传输、分析、权衡，形成输出结果。输出的消息称为输出向量。隐藏层（HiddenLayer），简称“隐层”，是输入层和输出层之间众多神经元连接组成的各个层面。隐藏层可以有一层或多层，这种网络一般称为感知机（对单隐藏层）或多层感知机（对多隐藏层）。隐藏层的节点（神经元）数量不定，但数量越多神经网络的非线性越显著，从而神经网络的健壮性更显著。多层神经元网络神经网络BP（BackPropogation）算法的出现是神经网络发展的重大突破，是许多深度学习训练方法的基础。BP算法是一种典型的人工神经网络训练方法，可与梯度下降等优化方法结合使用，它是最有效的神经网络学习算法之一。BP算法要求由对每个输入值想得到的已知输出来计算损失函数梯度，因此，它通常被认为是一种监督学习方法，虽然它也被用在一些无监督网络（如自动编码器）中。BP算法主要由两个阶段组成：激励传播与权重更新。第一阶段：激励传播，每次迭代的传播环节包含以下两步。（前向传播阶段）将训练输入送入网络以获得激励响应。（反向传播阶段）将激励响应同训练输入所对应的目标输出求差，从而获得输出层和隐藏层的响应误差。第二阶段：权重更新，对于每个突触上的权重，按照以下步骤进行更新。将输入激励和响应误差相乘，从而获得权重的梯度。将这个梯度乘以一个比例并取反后加到权重上。这个比例会影响训练过程的速度和效果，因此称为“训练因子”；梯度的方向指明了误差扩大的方向，因此在更新权重的时候需要对其取反，从而减小权重引起的误差。BP算法在机器学习中，支持向量机又名支持向量网络，用以在分类与回归分析中分析数据的监督学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为两个类别中的一个或另一个，支持向量机训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。支持向量机模型将实例表示为空间中的点，这样映射就使得每个类别的实例被尽可能宽的、明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。当数据未被标记时，不能进行监督学习，需要用非监督学习，支持向量机会尝试找出数据到簇的自然聚类，并将新数据映射到这些已形成的簇。支持向量机改进的聚类算法被称为支持向量聚类。支持向量机4机器学习算法支持向量机

超平面支持向量机

基本型朴素贝叶斯机器学习算法5

朴素贝叶斯

最小化分类错误率无监督学习的目的是通过学习未标记的训练样本来揭示数据的内在本质和原理，并通过学习未标记训练样本为后续的数据分析打下基础。此类学习任务中研究最多、应用最广的是“聚类”。聚类是根据一组标准将数据集合划分为不同的类或簇的过程，目的是最大化同一簇中数据对象的相似性，同时尽可能保持不在同一簇中的数据项的多样性。聚类6机器学习算法聚类性能度量亦称聚类的有效性指标（ValidityIndex）。一方面，对聚类结果，我们需要通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。聚类性能度量聚类性能度量大致有两类：一类是将聚类结果与某个参考模型（ReferenceModel）进行比较，称为外部指标（ExternalIndex）；另一类是直接考察聚类结果而不利用任何参考模型，称为内部指标（InternalIndex）。聚类性能度量聚类原型聚类亦称基于原型的聚类（Prototype-BasedClustering）。此类算法假设聚类结构

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

64229《大数据与人工智能导论（微课版）》第5章

文档简介

温馨提示

最新文档

评论

64229《大数据与人工智能导论（微课版）》第5章

文档简介

温馨提示

最新文档

评论

相关文档