《机器学习-Python实战（微课版）》全套教学课件

上传人：b*** IP属地：浙江上传时间：2024-10-22 格式：PPTX 页数：663 大小：24.26MB 积分：35 举报 版权申诉

已阅读5页，还剩658页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章机器学习入门基础第1章机器学习入门基础第2章机器学习数学基础第3章线性回归第4章朴素贝叶斯第5章决策树算法第6章Logistic回归第7章支持向量机第8章?随机森林第9章AdaBoost第10章聚类第11章降维技术与关联规则挖掘第12章神经网络综合案例1综合案例2综合案例3全套可编辑PPT课件本章主要讲述机器学习相关的概念、基本框架、实施流程以及应用领域等。通过本章学习可以：熟悉机器学习的相关概念理解机器学习的原理熟悉机器学习的四种类型掌握机器学习的实施流程了解机器学习的应用领域了解机器学习的开发工具学习目标机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python人工智能、机器学习、深度学习的关系1、机器学习和深度学习都属于AI的范畴2、机器学习是AI的一个分支技术3、深度学习是机器学习里的特定分支技术总结：三者是包含关系，不冲突也不并列机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的概念美国作家PeterHarrington在他的《机器学习实战》一书中是这么说的：“机器学习就是把无数的数据转换成有用的信息。”机器学习的概念英国作家PeterFlach在他的《机器学习》一书中，把机器学习的概念概括为：“使用正确的特征来构建正确的模型，以完成指定任务”。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python经验规律归纳预测输入新的问题未来机器学习的原理机器学习，顾名思义就是让机器进行学习，学习的目的是实现对世界上的人事物进行预测或者判断，这就是机器学习的主要作用。机器学习的原理小孩子通过不断地试错，学会哪些东西能吃，哪些东西不能吃。机器学习的原理机器学习过程机器学习的原理机器学习并不是任何情况下都能预测或者判断的，也不是每次都能够判断准确的，这与数据的特性和准确性有非常大的关系。搜索推荐机器学习的原理医疗机器学习的原理机器学习本质上是一个提高效率的工具。机器学习的本质上是什么？机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的四种类型机器学习可分为四大类：监督学习、无监督学习、半监督学习和增强学习。监督学习：通过学习已有的标记数据样本构建模型，再利用模型对新的数据进行预测。无监督学习（非监督学习）：通过学习没有标记的数据样本，发掘未知数据间的隐藏结构关系，从而实现预测。半监督学习：它是一种在预测时，既使用已标记的样本数据，也使用未标记的样本数据的方法。增强学习，指通过与环境的交互，以推测和优化实际的动作，从而实现决策。机器学习的四种类型监督学习监督学习是通过学习已有的标记数据样本构建模型，再利用模型对新的数据进行预测。例如，为了预测某位患者在一年内是否会心脏病发作，监督学习可以利用以前就医患者的相关数据（包括年龄、体重、身高和血压）生成一个模型，用来预测心脏病发作的概率。常见的监督学习主要分为回归和分类两种形式，回归可用于预测连续值的结果（如预测未来房价走势），分类可用于预测离散值的结果（如判断图片上的动物是猫还是狗）。机器学习的四种类型无监督学习无监督学习也可称为非监督学习，通过学习没有标记的数据样本，发掘未知数据间的隐藏结构关系，从而实现预测。聚类学习就是一种比较常用的无监督学习，聚类的目的是把相似的对象聚在一起，构成不同的集合，例如基因序列分析等应用。机器学习的四种类型半监督学习半监督学习，它是一种在预测时，既使用已标记的样本数据，也使用未标记的样本数据的方法，通常情况下，无标记样本的数量远超过有标记样本，因为有时候获得有标记数据的成本很高，所以在训练分类器模型时，先使用部分已经标记的数据，在学习了数据的内在结构联系以后，再使用大量无标记的数据进一步学得更好的模型，从而实现对数据的有效预测。机器学习的四种类型增强学习所谓增强学习，是通过与环境的交互，以推测和优化实际的动作，从而实现决策。和上述学习类型相比，增强学习法输入的数据，将直接反馈到模型，与此同时，模型作出相应调整并依据状态的变化来获得强化后的信号，从而完成和环境的交互。例如自动驾驶汽车通过不断与环境交互来学习。在此，我们只需要知道机器学习整体框架的基本概念即可，实际应用场景中，使用最多的主要是监督学习和无监督学习两大类。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的实施流程机器学习的一般实施流程，包括数据收集、数据清洗、特征提取与选择、模型训练、模型评估测试、模型部署应用等步骤。机器学习的实施流程第一步：数据收集应用机器学习解决问题，在明确目标任务（即明确要解决的问题和业务需求）之后，首先需要进行数据收集。收集数据有多种不同的方式，如制作网络爬虫从网站上抽取数据、服务器中存储的应用数据、设备发送过来的测试数据等，在机器学习任务中使用的数据称为数据集。典型的数据集类似于一个二维的电子表格或数据库表，每一行称为一个数据样本，每一列的属性称为特征（如身高、体重等）序号姓名性别身高（cm）体重（kg）喜欢的颜色1001张三男17560蓝色1002李四女16048红色1003王五男18065黑色1004赵六女16550黑色机器学习的实施流程第二步：数据清洗大部分情况下，收集得到的数据需要经过清洗后才能够为算法所使用，真实的数据中通常会出现一些数据质量问题，比如：①不完整:数据中缺少属性或者包含一些缺失的值。②多噪音:数据包含错误的记录或者异常点。③不一致:数据中存在矛盾的、有差异的记录。序号姓名性别身高（cm）体重（kg）喜欢的颜色1001张三男17560蓝色1002李四女160Null红色1003王五男25065黑色1004赵六女16550赵六机器学习的实施流程第三步：特征提取与选择对数据进行初步的清洗后，需要将其转换为一种适合机器学习模型的表示形式，并且转换后一样准确地表示数据。例如通过人的身高、体重、喜欢的颜色这些特征属性来预测性别，我们不会把“蓝色”、“红色”、“黑色”直接输入给模型，因为机器学习的模型算法均要求输入的数据必须是数值型的，在此分类问题中，需要将类别数据编码成为对应的数值表示，可以采用哑编码，它是一种常用的将特征数字化的方式。序号姓名性别身高（cm）体重（kg）蓝色红色黑色1001张三男175601001002李四女160480101003王五男180650011004赵六女16550001机器学习的实施流程特征选择的必要性主要在于以下几点：①减少训练的时间，能使用较少的特征更快地生成模型。②简化模型，使模型更容易被使用者所解释。③使模型的泛化能力更好，避免过拟合。特征选择的方法有：过滤法（filter）、包裹法（wapper）、嵌入法（Embedded)等。机器学习的实施流程第四步：模型训练数据经过预处理之后，就可以用来训练模型，一般会把数据集分为训练集和测试集，或对训练集再细分为训练集和验证集，训练模型是在训练数据集上进行的。在模型训练过程中，需要对模型超参进行调优，如果不了解算法原理，往往无法快速定位能决定模型优劣的模型参数，所以在训练过程中，对机器学习算法原理的要求较高，理解越深入，就越容易发现问题的原因，从而快速找到合理的调优方法。机器学习的实施流程第五步：模型评估测试利用训练数据生成模型后，使用验证集来验证模型的有效性，使用测试集来评估模型在真实环境中的泛化能力。如果测试结果不理想，则分析原因并进行模型优化。过拟合、欠拟合是模型诊断中常见的问题，如果出现过拟合（指所训练的模型在训练集上表现得非常优秀，可以有效地区分每一个样本，但在测试集上表现得很差），可以通过增加数据量和降低模型复杂度来优化，如果出现欠拟合（指所训练的模型在训练集中就已经表现得很差，准确度很低），可以通过提高特征数量和质量，增加模型复杂度来优化。模型评估针对分类、回归等不同类型的机器学习问题，评估指标的选择也有所不同。所以，需要熟悉每种评估指标的精确定义，有针对性地选择合适的评估指标，并根据评估指标的反馈进行模型调整。一般情况下，模型调整后，需要重新训练和评估，所以机器学习的模型建立过程就是不断地尝试，并最终达到最优状态。机器学习的实施流程第六步：模型部署应用通过在测试集上完成评估的模型，就可以用来预测新数据的值。这时，需要将该模型部署到实际的生产场景中，并根据业务场景的真实数据对模型进行不断的微调。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的应用领域智能汽车智能汽车通过机器学习技术整合物联网资源，智能了解车主及周边的环境，自动根据司机的需求灵活调整车内设置，比如座椅位置、温度、音响，等等；甚至还可以报告故障和智能修复故障。在自动驾驶方面，可以为驾驶者提供交通和道路状况方面的实时建议及事故预警。机器学习的应用领域气象预测气象预报主要分为短时预测和长期预测。短时预测指未来几小时到几天不等的天气预测，长期预测指的是厄尔尼诺（ElNino）、拉尼娜（LaNina）等气候现象。短期预测通常基于地区内的气象站所提供的多种实时数据进行分析，如当地的气温、湿度、气压、风速、雷达图等，以复杂的物理模型综合运算得出结果。传统方法通常需要为模型设定大气物理的先验知识，而机器学习方法选择避开物理因素，尝试利用大量数据驱动机器从算法训练中“习得”大气物理学的原理。目前机器学习在气象的短期预测领域已有较为成熟的应用，在长期的气象预测上科学家也正在开发相应的模型来做各种尝试。机器学习的应用领域个性化营销推广商家对顾客越了解，就越能够为顾客提供更好的服务，因而卖出的东西也就会越多，这是个性化营销的基础。我们曾碰到过这样的情况：在网上商店上浏览某件产品，但没有买，而过了几天后，再去浏览各个不同的网站时都会看到那款产品的数字广告。这种个性化营销其实只是冰山一角，企业能够进行全方位的个性化营销，如具体给顾客发送什么样的电子邮件，给他们提供什么样的优惠券，还有给他们推荐什么产品等等，这一切都是为了提高交易达成的可能性。机器学习的应用领域自然语言处理（NLP）自然语言处理正被用于各个领域的很多项应用当中。有自然语言的机器学习算法能够替代客户服务人员，快速地给客户提供他们所需的信息。它正被用于将合同中艰深晦涩的法律措辞转变成简单易懂的普通语言，也被用于帮助律师整理大量的信息，提高案件准备效率。机器学习的应用领域数据安全性恶意软件是一个越来越严峻的问题。2014年，卡巴斯基实验室称，它每天检测到的新恶意软件文件数量达到32.5万。不过，以色列深度学习技术公司DeepInstinct公司指出，各个新恶意软件通常都有跟旧版本一样的代码——只有2%到10%的恶意软件文件出现迭代变化。他们的学习模型能够辨别那2%到10%的变异恶意软件，在预测哪些文件是恶意软件上有着很高的准确率。在其他情况下，机器学习算法能够发现云端数据如何被访问方面的模式，能够报告或可预测安全问题的异常情况。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的开发工具PythonPython开发环境的搭建使用的工具/环境工具/环境说明Windows1064bit操作系统此项实训所使用的计算机操作系统Google、火狐等此项实训所使用的浏览器一站式开发环境AnacondaAnaconda是一个基于Python的数据处理和科学计算平台，它已经内置了许多非常有用的第三方库，装上Anaconda，就相当于把Python和一些如Numpy、Pandas、Matplotlib等常用的库自动安装好了，使得安装比常规python安装要容易。因而建议直接安装Anaconda。集成开发环境PyCharmPyCharm是一种PythonIDE（IntegratedDevelopmentEnvironment，集成开发环境），带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。JupyterNotebookJupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。SpyderSpyder是Python(x,y)的作者为它开发的一个简单的集成开发环境。和其他的Python开发环境相比，它最大的优点就是模仿MATLAB的“工作空间”的功能，可以很方便地观察和修改数组的值。Spyder的界面由许多窗格构成，用户可以根据自己的喜好调整它们的位置和大小。当多个窗格出现在一个区域时，将使用标签页的形式显示。1.（单选）通过学习已有的标记数据样本构建模型，再利用模型对新的数据进行预测，这是属于哪种机器学习类型？A.监督学习B.无监督学习C.半监督学习D.增强学习

讲解人工智能、机器学习、深度学习的关系讲解机器学习的原理讲解机器学习的基本框架体系讲解机器学习的实施流程讲解机器学习的应用领域讲解机器学习的开发工具谢谢第二章机器学习数学基础本章主要讲述机器学习中相关的数学概念、包括线性代数，多元微积分及概率统计等相关知识。通过本节学习可以：熟悉机器学习中数学的用法熟悉机器学习中线性代数熟悉机器学习中多元微积分熟悉机器学习中概率与统计相关知识点学习目标线性代数向量空间矩阵分析概率与统计多元微积分在机器学习的科学研究与工程实践中，经常会遇到m*n线性方程组。它使用m个方程描述个n未知量之间的线性关系。这一线性方程组很容易用矩阵-向量形式简记为：向量空间𝛼1,𝛼2,⋯,𝛼𝑠线性相关

⇔至少有一个向量可以用其余向量线性表示。𝛼1,𝛼2,⋯,𝛼𝑠线性无关，𝛼1,𝛼2,⋯,𝛼𝑠，𝛽线性相关

⇔𝛽可以由𝛼1,𝛼2,⋯,𝛼𝑠唯一线性表示。𝛽可以由𝛼1,𝛼2,⋯,𝛼𝑠线性表示

⇔𝑟(𝛼1,𝛼2,⋯,𝛼𝑠)=𝑟(𝛼1,𝛼2,⋯,𝛼𝑠,𝛽)。向量组的线性表示设𝑟(𝐴𝑚×𝑛)=𝑟，则𝐴的秩𝑟(𝐴)与𝐴的行列向量组的线性相关性关系为：若𝑟(𝐴𝑚×𝑛)=𝑟=𝑚，则𝐴的行向量组线性无关。若𝑟(𝐴𝑚×𝑛)=𝑟<𝑚，则𝐴的行向量组线性相关。若𝑟(𝐴𝑚×𝑛)=𝑟=𝑛，则𝐴的列向量组线性无关。若𝑟(𝐴𝑚×𝑛)=𝑟<𝑛，则𝐴的列向量组线性相关。向量组的秩与矩阵的秩之间的关系若𝛼1,𝛼2,⋯,𝛼𝑛与𝛽1,𝛽2,⋯,𝛽𝑛是向量空间𝑉的两组基，则基变换公式为：其中𝐶是可逆矩阵，称为由基𝛼1,𝛼2,⋯,𝛼𝑛到基𝛽1,𝛽2,⋯,𝛽𝑛的过渡矩阵。𝒏维向量空间的基变换公式及过渡矩阵线性代数向量空间矩阵分析概率与统计多元微积分A称为矩阵，是一个按照长方阵列排列的复数或实数集合。x跟b代表n*1向量和m*1向量。矩阵向量矩阵A可以是线性系统、滤波器、无线信道等的符号表示；而科学和工程中遇到的向量可分为三种：物理向量：泛指既有幅值，又有方向的物理量，如速度、加速度、位移等。几何向量：为了将物理向量可视化，常用带方向的(简称有向)线段表示，这种有向线段称为几何向量。代数向量：儿何向量可以用代数形式表示。向量矩阵的加法设𝐴=(

),𝐵=(

)是两个𝑚×𝑛矩阵，则𝑚×𝑛矩阵𝐶=(

称为矩阵𝐴与𝐵的和，记为𝐴+𝐵=𝐶。矩阵的数乘设𝐴=(aij)是𝑚×𝑛矩阵，𝑘是一个常数，则𝑚×𝑛矩阵(kaij)称为数𝑘与矩阵𝐴的数乘，记为k𝐴。矩阵的乘法设𝐴=(aij)是𝑚×𝑛矩阵，𝐵=(bij)是𝑛×𝑠矩阵，那么𝑚×𝑠矩阵𝐶=(cij)，其中cij=ai1b1j+ai2b2j

+⋯+ainbnj

称为𝐴𝐵的乘积，记为𝐶=𝐴𝐵。矩阵线性运算(𝐴𝑇)𝑇=𝐴,(𝐴𝐵)𝑇=𝐵𝑇𝐴𝑇,(𝑘𝐴)𝑇=𝑘𝐴𝑇,(𝐴±𝐵)𝑇=𝐴𝑇±𝐵𝑇

𝑨𝑻、𝑨−𝟏、𝑨∗三者之间的关系𝐴可逆⇔𝐴𝐵=𝐸;⇔|𝐴|≠0;⇔𝑟(𝐴)=𝑛;

⇔𝐴可以表示为初等矩阵的乘积；

⇔𝐴无零特征值；

⇔Ax=0只有零解。有关𝑨−𝟏的结论这里A,B均可为逆矩阵。分块求逆公式线性代数向量空间矩阵分析概率与统计多元微积分统计学是研究如何搜集资料、整理资料和进行量化分析、推断的一门科学，在科学计算、工业和金融等领域有着重要应用，统计分析是机器学习的基本方法与统计分析相关的基本概念有以下几个总体：根据定目的确定的所要研究事物的全体样本：从总体中随机抽取的若干个体构成的集合推断：以样本所包含的信息为基础对总体的某些特征作出判断、预测和估计推断可靠性：对推断结果从概率上的确认，作为决策的重要依据统计分析分为描述性统计和推断性统计，描述性统计是通过对样本进行整理、分析并就数据的分布情况获取有意义的信息，从而得到结论。推断统计又分为参数估计和假设检验，参数估计是对样本整体中某个数值进行估计，如推断总体平均数等，而假设检验是通过对所做的推断验证，从而进择行才方案统计分析

统计基础议程

统计基础议程均值、标准差、方差、协方差均值描述的是样本集合的平均值标准差描述是样本集合的各个样本点到均值的距离分布，描述的是样本集的分散程度在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验证的过程，就会发现模型在训练集上的表现并不固定，会出现波动，这些波动越大，它的方差就越大协方差主要用来度量两个随机变量关系，如果结果为正值，则说明两者是正相关的；结果为负值，说明两者是负相关的；如果为0，就是统计上的“相互独立”统计基础议程

统计基础

正则化与交叉验证L0正则化L1正则化L2正则化HoldOut检验简单交叉检验K折交叉检验留一交叉检验统计基础议程

常见概率分布议程参数估计是用样本统计量去估计总体的参数，即根据样本数据选择统计量去推断总体的分布或数字特征。估计参数的目的，是希望用较少的参数去描述数据的总体分布，前提是要了解样本总体分布（如正态分布），这样就只需要估计其中参数的值。如果无法确认总体分布，那就要采用非参数估计的方法。参数估计是统计推断的种基本形式，分为点估计和区间估计两部分。其中有多种方法，除了最基本的最小二乘法和极大似然法、贝叶斯估计、极大后验估计，还有矩估计、一致最小方差无偏估计、最小风险估计、最小二乘法、最小风险法和极小化极大熵法等。参数估计议程

假设检验议程

假设检验议程线性代数向量空间矩阵分析概率与统计多元微积分导数和微分的概念或者导数函数的可导性与连续性之间的关系：函数𝑓(𝑥)在x0处可微⇔𝑓(𝑥)在x0处可导。若函数在点x0处可导，则𝑦=𝑓(𝑥)在点x0处连续，反之则不成立。即函数连续不一定可导。𝑓′(x0)存在⇔𝑓′−(x0)=𝑓′+(x0)高等数学切线方程:法线方程：平面曲线的切线和法线设函数𝑢=𝑢(𝑥)，𝑣=𝑣(𝑥)在点𝑥可导，则：𝑢±𝑣′=𝑢′±𝑣′(𝑢𝑣)′=𝑢𝑣′+𝑣𝑢′𝑑(𝑢𝑣)=𝑢𝑑𝑣+𝑣𝑑𝑢四则运算复合函数，反函数，隐函数以及参数方程所确定的函数的微分法反函数的运算法则:设𝑦=𝑓(𝑥)在点𝑥的某邻域内单调连续，在点𝑥处可导且𝑓′(𝑥)≠0，则其反函数在点𝑥所对应的𝑦处可导，并且有复合函数的运算法则:若𝜇=𝜑(𝑥)在点𝑥可导,而𝑦=𝑓(𝜇)在对应点𝜇(𝜇=𝜑(𝑥))可导,则复合函数𝑦=𝑓(𝜑(𝑥))在点𝑥可导,且复合函数费马定理若函数𝑓(𝑥)满足条件：函数𝑓(𝑥)在x0的某邻域内有定义，并且在此邻域内恒有𝑓(𝑥)≤𝑓(x0)或𝑓(𝑥)≥𝑓(x0),𝑓(𝑥)在x0处可导,则有𝑓′(x0)=0微分中值定理设函数𝑓(𝑥)满足条件：在[𝑎,𝑏]上连续；在(𝑎,𝑏)内可导；则在(𝑎,𝑏)内存在一个𝜉，使拉格朗日中值定理设函数𝑓(𝑥)，𝑔(𝑥)满足条件：在[𝑎,𝑏]上连续；在(𝑎,𝑏)内可导且𝑓′(𝑥)，𝑔′(𝑥)均存在，且𝑔′(𝑥)≠0则在(𝑎,𝑏)内存在一个𝜉，使柯西中值定理设函数𝑓(𝑥)在(𝑎,𝑏)区间内可导，如果对∀𝑥∈(𝑎,𝑏)，都有𝑓′(𝑥)>0（或𝑓′(𝑥)<0），则函数𝑓(𝑥)在(𝑎,𝑏)内是单调增加的（或单调减少）。（取极值的必要条件）设函数𝑓(𝑥)在𝑥0处可导，且在𝑥0处取极值，则𝑓′(𝑥0)=0。函数单调性的判断设函数𝑓′(x)在x0的某一邻域内可微，且𝑓′(𝑥0)=0（或𝑓(𝑥)在x0处连续，但𝑓′(x0)不存在）。若当𝑥经过x0时，𝑓′(𝑥)由“+”变“-”，则𝑓(x0)为极大值；若当𝑥经过x0时，𝑓′(𝑥)由“-”变“+”，则𝑓(x0)为极小值；若𝑓′(x)经过𝑥=𝑥0的两侧不变号，则𝑓(x0)不是极值。设𝑓(𝑥)在点x0处有𝑓″(𝑥)≠0，且𝑓′(𝑥0)=0，则当𝑓′′(x0)<0时，𝑓(x0)为极大值；当𝑓′′(x0)>0时，𝑓(x0)为极小值。注：如果𝑓′′(x0)=0，此方法失效。极值充分条件(凹凸性的判别定理）若在I上𝑓″(𝑥)<0（或𝑓″(𝑥)>0），则𝑓(𝑥)在I上是凸的（或凹的）。(拐点的判别定理1)若在x0处𝑓″(𝑥)=0，（或𝑓″(𝑥)不存在），当𝑥变动经过x0时，𝑓″(𝑥)变号，则(x0,𝑓(x0))为拐点。(拐点的判别定理2)设𝑓(𝑥)在x0点的某邻域内有三阶导数，且𝑓″(𝑥)=0，𝑓‴(𝑥)≠0，则(x0,𝑓(x0))为拐点。函数凹凸性的判断（简答题）如何判断函数凹凸性。讲解机器学习中会用到的高等数学，线性代数及概率论的相关知识。谢谢第三章线性回归本章主要讲述机器学习中回归概念，并展开介绍线性回归。通过本节学习可以：熟悉机器学习中线性回归熟悉一元线性回归掌握梯度下降方法熟悉多元线性回归及非线性回归学习目标一元线性回归代价函数梯度下降法标准方程法多元线性回归非线性回归介绍利用该数据集，我们可以训练一个线性方程，无限逼近所有数据点，然后利用该方程与给定的某一自变量（本例中为面积），可以预测因变量。（本例中为房价）回归分析案例

预测二手车价格的系统。该系统的输入是我们认为会影响车价的属性信息：品牌、年龄、发动机性能、里程以及其他信息。输出是车的价格。这种输出为数值的问题是回归问题。回归预测线性回归是种通过拟合自变量与因变量之间最佳线性关系，来预测目标变量的方法。回归过程是给出一个样本集，用函数拟合这个样本集，使样本集与拟合函数间的误差最小。回归分析包括以下内容：确定输入变量与目标变量间的回归模型，即变量间相关关系的数学表达式。根据样本估计并检验回归模型及未知参数。从众多的输入变量中，判断哪些变量对目标变量的影响是显著的。根据输入变量的已知值来估计目标变量的平均值并给出预测精度。线性回归概念线性回归的类型包括简单线性回归和多元线性回归。简单线性回归使用一个自变量，通过拟合最佳线性关系来预测因变量。多元线性回归使用多个独立变量，通过拟合最佳线性关系来预测因变量。线性回归分类汽车卖家通过电视广告数量来预测卖出的汽车数量，如下图所示，可以预测广告数量为“6”时，卖出的汽车数量是多少。一元线性回归案例一元线性回归包含一个自变量(X)和一个因变量(Y)。一元线性回归方程：这个方程对应的图像是一条直线，称作回归线，其中

是回归线的截距，是回归线的斜率，E(y)是在一个给定x值下y的期望值（均值）。一元线性回归一元线性回归代价函数梯度下降法标准方程法多元线性回归非线性回归介绍法国数学家，阿德里安-马里·勒让德（1752－1833）提出让总的误差的平方最小的y就是真值，这是基于如果误差是随机的，应该围绕真值上下波动。最小二乘法图1中各个点沿y轴到那条直线的距离更远，而图2中各个点到线的距离更近。损失函数定义在单个样本上的，计算一个样本的误差。代价函数是定义在整个训练集上的，是所有样本误差的平均。公式如下：代价函数（损失函数）一元线性回归代价函数梯度下降法标准方程法多元线性回归非线性回归介绍梯度下降法是一个最优化算法，通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一，虽然现在已经不具有实用性，但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的，最速下降法越接近目标值，步长越小，前进越慢。可以用于求解非线性方程组。梯度下降假设一个场景：一个人需要从山的某处开始下山，尽快到达山底。在下山之前他需要确认两件事：下山的方向下山的距离梯度下降步长（Learningrate）特征（feature）假设函数（hypothesisfunction）损失函数（lossfunction）梯度下降相关概念批量梯度下降法（BGD）随机梯度下降法（SGD）小批量梯度下降法（MBGD）常用梯度下降方法一元线性回归代价函数梯度下降法标准方程法多元线性回归非线性回归介绍假设我们有一个n*n的矩阵，这个矩阵代表着每个因子具体的值，比如有一个关于身高预测的模型，其中一个人的身高的影响因素有：父亲升高，母亲升高，以及自己年龄的大小。标准方程法每一行代表一组数据，跟我们真实数据很像，每一行第一个是father身高，第二列是mother身高，第三列是孩子现在年龄。得到矩阵：标准方程法一元线性回归代价函数梯度下降法标准方程法多元线性回归非线性回归介绍在线性回归中，我们通过建立自变量x的一次方程来拟合数据。而非线性回归中，则需要建立因变量和自变量之间的非线性关系。多元回归导入线性拟合

非线性拟合机器学习中一种常见的模式，是使用线性模型训练数据的非线性函数。这种方法保持了一般快速的线性方法的性能，同时允许它们适应更广泛的数据范围。在标准线性回归的情况下，你可能有一个类似于二维数据的模型:

多元回归介绍如果我们想把抛物面拟合成数据而不是平面，我们可以结合二阶多项式的特征，使模型看起来像这样：仔细观察这两个模型会发现，我们可以想象创造一个新的变量：多元回归有了这些重新标记的数据，我们可以将原多项式问题写成：因此我们可以将原始数据转换后再使用线性回归训练构成多项式回归模型，其中PolynomialFeatures方法将数据进行转换。多元回归介绍

多元线性回归案例年份人均耐用消费品支出

y人均全年可支配收入x1耐用消费品价格指数x21988137.161181.4115.961989124.561375.7133.351990107.911510.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283.0140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39多元线性回归案例估计的回归方程

线性回归检验

议程一元线性回归代价函数梯度下降法标准方程法多元线性回归非线性回归介绍在统计学中，非线性回归是回归分析的一种形式，非线性模型是由一个或多个自变量非线性组合。一些常见非线性模型：阶跃函数分段函数样条曲线广义加性模型非线性回归非线性回归是指在因变量与一系列自变量之间建立非线性模型。线性与非线性并不是说因变量与自变量间是直线或曲线关系，而是说因变量是否能用自变量的线性组合来表示。如果经过变量转换，两个变量可以用线性来表达去关系，那么可以用之前章节中介绍的方法进行拟合回归方程。但经过变量变化后，两个变量关系仍然不能用线性形式来表达，则就会用到本节介绍的非线性回归分析方法。非线性回归模型一般可表示为：非线性回归判断题：简单线性回归使用一个自变量，通过拟合最佳线性关系来预测因变量。（

）讲解线性回归的关系讲解梯度下降相关知识讲解一元线性回归、多元线性回归、非线性回归谢谢第四章朴素贝叶斯贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。通过本节学习可以：学习贝叶斯分类器概念。掌握高斯朴素贝叶斯及多项式朴素贝叶斯。学习目标朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法贝叶斯要解决的问题：使正向概率：假设袋子里有N个白球，M个黑球，随机摸一个，摸出黑球的概率有多大逆向概率:如果事先不知道袋子里黑白球的比例，随机摸出几个球，根据这些球的颜色，可以推测袋子里面的黑白球比例。贝叶斯分类器的分类原理用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：如果p1(x,y)>p2(x,y)，那么类别为1如果p2(x,y)>p1(x,y)，那么类别为2贝叶斯理论有一个装了7块石头的罐子，其中3块是白色的，4块是黑色的。如果从罐子中随机取出一块石头，那么是白色石头的可能性是多少？由于取石头有7种可能，其中3种为白色，所以取出白色石头的概率为3/7。那么取到黑色石头的概率是4/7。我们使用P(white)来表示取到白色石头的概率，其概率值可以通过白色石头数目除以总的石头数目来得到。条件概率贝叶斯分类：贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。先验概率：根据以往经验和分析得到的概率。我们用𝑃(𝑌)来代表在没有训练数据前假设𝑌拥有的初始概率。后验概率：根据已经发生的事件来分析得到的概率。以𝑃(𝑌|𝑋)代表假设𝑋成立的情下观察到𝑌数据的概率，因为它反映了在看到训练数据𝑋后𝑌成立的置信度。联合概率：联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。𝑋与𝑌的联合概率表示为𝑃𝑋,𝑌、𝑃(𝑋𝑌)或𝑃(𝑋∩𝑌)。假设𝑋和𝑌都服从正态分布，那么𝑃(𝑋<5,𝑌<0)就是一个联合概率，表示𝑋<5,𝑌<0两个条件同时成立的概率。表示两个事件共同发生的概率。贝叶斯方法背景知识贝叶斯公式条件概率的贝叶斯估计：式中

。当

时，是极大似然估计；当

时，称为拉普拉斯平滑。先验概率的贝叶斯估计：贝叶斯估计朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布𝑃(𝑋,𝑌)，然后求得后验概率分布𝑃(𝑌|𝑋)。具体来说，利用训练数据学习𝑃(𝑋|𝑌)和𝑃(𝑌)的估计，得到联合概率分布：𝑃(𝑋,𝑌)＝𝑃(𝑋|𝑌)𝑃(𝑌)贝叶斯公式：贝叶斯定理朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法男生总是穿长裤，女生则一半穿长裤一半穿裙子，男生占比60%，女生占比40%：正向概率：随机选取一个学生，穿长裤的概率和穿裙子的概率是多大？逆向概率：迎面走来一个穿长裤的学生，无法确定该学生的性别，请问该学生是女生的概率有多大?假设学校里面人的总数是U。穿长裤的男生：U*P(Boy)*P(Pants|Boy)，P(Boy)是男生的概率=60%。P(Pants|Boy)是条件概率，即在Boy的条件下，穿长裤的概率是多大，这里是100%穿长裤的女生：U*P(Girl)*P(Pants|Girl)。求解：穿长裤的总数：U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)？与总人数有关吗？贝叶斯案例如果一对男女朋友，男生想女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，不上进，请你判断一下女生是嫁还是不嫁？贝叶斯案例数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))。解决方法求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的，但是通过朴素贝叶斯公式可以转化为好求的三个量，p(不帅、性格不好、身高矮、不上进|嫁)、p（不帅、性格不好、身高矮、不上进)、p(嫁)。其中p(不帅、性格不好、身高矮、不上进|嫁)=p(不帅|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上进|嫁)。朴素贝叶斯案例公式整理如下：p(嫁)=6/12（总样本数）=1/2朴素贝叶斯案例p(不帅|嫁)=3/6=1/2在嫁的条件下，看不帅的数据。朴素贝叶斯案例帅性格好身高上进是否嫁不帅好高上进嫁不帅好中上进嫁不帅不好高上进嫁=(1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)朴素贝叶斯案例用同样方法来求p(不嫁|不帅，性格不好，身高矮，不上进)。p(不嫁|不帅、性格不好、身高矮、不上进)=((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)(1/6*1/2*1*1/2)>(1/2*1/6*1/6*1/6*1/2)于是有p(不嫁|不帅、性格不好、身高矮、不上进)>p(嫁|不帅、性格不好、身高矮、不上进)。朴素贝叶斯案例朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法优点:在数据较少的情况下仍然有效，可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。贝叶斯原理特点

朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法朴素贝叶斯（NaiveBayes）模型,它是一种基于概率的学习方法，“朴素”指的是条件的独立性。由训练数据学习联合概率分布𝑃(𝑋,𝑌)，然后求得后验概率分布𝑃(𝑌|𝑋)。具体来说，利用训练数据学习𝑃(𝑋|𝑌)和𝑃(𝑌)的估计，得到联合概率分布：𝑃(𝑋,𝑌)＝𝑃(𝑌)𝑃(𝑋|𝑌)概率估计方法是极大似然估计或贝叶斯估计。朴素贝叶斯分类器朴素贝叶斯法的基本假设是条件独立性。P(X=x|Y=ck)=Px(1),⋯,x(n)|yk=ςjn=1Px(j)|Y=ckck代表类别，k代表类别个数。这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。朴素贝叶斯原理朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法高斯朴素贝叶斯适用于连续变量，其假定各个特征

在各个类别y下是服从正态分布的，算法内部使用正态分布的概率密度函数来计算概率。公式如下：其中

：在类别为y的样本中，特征

的均值。

：在类别为y的样本中，特征

的标准差。高斯朴素贝叶斯分类算法原理朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法多项式贝叶斯基于原始的贝叶斯理论，但假设概率分布是服从一个简单多项式分布。多项式分布来源于统计学中的多项式实验，这种实验可以具体解释为：实验包括n次重复试验，每项试验都有不同的可能结果。在任何给定的试验中，特定结果发生的概率是不变的。多项式朴素贝叶斯算法原理测试编号X1:出现正面X2:出现反面001110210朴素贝叶斯贝叶斯分类器的分类原理贝叶斯定理贝叶斯定理的一个简单例子贝叶斯分类的原理与特点朴素贝叶斯分类高斯朴素贝叶斯分类算法高斯朴素贝叶斯分类算法的原理多项式朴素贝叶斯分类算法伯努利朴素贝叶斯分类算法伯努利朴素贝叶斯分类器主要用于文本分类。伯努利朴素贝叶斯,其实应该叫"Multi-variateNaiveBayes"，假设P(X=x|Y=c_k)是多变量伯努利分布。伯努利分布，又叫做两点分布或0-1分布，是一个离散型概率分布，称随机变量X有伯努利分布，参数为p(0<p<1)，它分别以概率p和1-p取1和0为值。伯努利朴素贝叶斯分类算法简答题：朴素贝叶斯的优缺点是什么？本章节从朴素贝叶斯的概念进行切入，展开讲解高斯朴素贝叶斯，多项式朴素贝叶斯。谢谢第五章决策树算法本章主要讲述机器学习中决策树算法概念。通过本节学习可以：熟悉决策树算法的基础知识。学习如何给决策树剪枝等相关知识。学习ID3,C4.5及CART树等相关知识。了解剪枝的原理。学习目标决策树分类算法原理以信息论为基础的分类原理决策树分类算法框架衡量标准：信息熵决策树算法的简化决策树算法的优、缺点与应用决策树分类算法决策树剪枝当信息被拥有它的实体传递给接收它的实体时，仅当接收实体不知道信息的先验知识时信息才得到传递。如果接收实体事先知道了消息的内容，这条消息所传递的信息量就是0。只有当接收实体对消息的先验知识掌握少于100%时，消息才真正传递信息。信息论

信息论信息熵解决的是对信息的度量问题。信息量和事件发生的概率有关，当事件发生的概率越低，传递的信息量越大。信息量应当是非负的，必然发生的信息量为0。两个事件的信息量可以相加，并且两个独立事件的联合信息量应该是他们各自信息量的和。信息量决策树分类算法原理以信息论为基础的分类原理决策树分类算法框架衡量标准：信息熵决策树算法的简化决策树算法的优、缺点与应用决策树分类算法决策树剪枝分类算法是利用训练样本集获得分类函数即分类模型(分类器)，从而实现将数据集中的样本划分到各个类中。分类模型通过学习训练样本中属性集与类别之间的潜在关系，并以此为依据对新样本属于哪一类进行预测。决策树算法决策树简单来说就是带有判决规则（if-then）的一种树，可以依据树中的判决规则来预测未知样本的类别和值。用一个网上通俗易懂的例子（相亲）来说明：女儿：年纪多大了？母亲：26女儿：长相如何？母亲：挺帅的女儿：收入如何？母亲：不算很高，中等情况女儿：是公务员不？母亲：是，在税务局上班女儿：那好，我去见见决策树案例决策树是一个属性结构的预测模型，代表对象属性和对象值之间的一种映射关系。它由节点（node）和有向边（directededge）组成，其节点有两种类型：内节点（internalnode）和叶节点（leafnode），内部节点表示一个特征或属性，叶节点表示一个类。如上图所示的相亲例子，蓝色的椭圆内节点表示的是对象的属性，橘黄色的矩形叶节点表示分类结果（是否相亲），有向边上的值则表示对象每个属性或特征中可能取的值。决策树定义决策树通过把数据样本分配到某个叶子结点来确定数据集中样本所属的分类。决策树由决策结点、分支和叶子结点组成。决策结点表示在样本的一个属性上进行的划分。分支表示对于决策结点进行划分的输出。叶结点代表经过分支到达的类。从决策树根结点出发，自顶向下移动，在每个决策结点都会进行次划分，通过划分的结果将样本进行分类，导致不同的分支，最后到达个叶子结点，这个过程就是利用决策树进行分类的过程。决策树决策树分类算法原理以信息论为基础的分类原理决策树分类算法框架衡量标准：信息熵决策树算法的简化决策树算法的优、缺点与应用决策树分类算法决策树剪枝信息和抽象该如何来度量？1948年香农提出“信息熵(entropy)”的概念。一条信息的信息量大小和他的不确定性有直接的关系，要搞清楚一件非常非常不确定的事情，或者是我们一无所知的事情需要了解大量信息，信息量的度量就等于不确定性的多少。例如：猜世界杯冠军，假如是一无所知，需要猜多少次？每个队夺冠的几率不是相等的。比特(bit)来衡量信息的多少，变量的不确定性越大，熵也就越大。决策树须知概念-信息熵信息熵解决的是对信息的度量问题。信息量和事件发生的概率有关，当事件发生的概率越低，传递的信息量越大。信息量应当是非负的，必然发生的信息量为0。两个事件的信息量可以相加，并且两个独立事件的联合信息量应该是他们各自信息量的和。信息熵决策树分类算法原理以信息论为基础的分类原理决策树分类算法框架衡量标准：信息熵决策树算法的简化决策树算法的优、缺点与应用决策树分类算法决策树剪枝决策树算法的思想是，先从一个特征入手，就如同我们上面的游戏中一样，既然无法直接分类，那就先根据一个特征进行分类，虽然分类结果达不到理想效果，但是通过这次分类，我们的问题规模变小了，同时分类后的子集相比原来的样本集更加易于分类了。然后针对上一次分类后的样本子集，重复这个过程。在理想的情况下，经过多层的决策分类，我们将得到完全纯净的子集，也就是每一个子集中的样本都属于同一个分类。决策树算法的简化决策树学习算法包含特征选择、决策树生成与决策树的剪枝。决策树表示的是一个条件概率分布，所以深浅不同的决策树对应着不同复杂程度的概率模型。决策树的生成对应着模型的局部选择（局部最优），决策树的剪枝对应着全局选择（全局最优）。决策树常用的算法有ID3，C4.5，CART。决策树优点：它构成一个简单的决策过程，使决策者可以按顺序有步骤地进行。决策树法有直观的图形，便于决策者进行科学的分析、周密的思考。将决策树图形画出后，便于集体讨论和共同分析，有利于进行集体决策。决策树法对比较复杂问题进行决策，特别是对多级决策问题尤感方便，甚至在决策过程中，通过画决策树逐级思考可以走一步看一步，三思后行。缺点：在分析的过程中有些参数没有包括在树中，显得不全面。如果分级太多或出现的分枝太多，画起来就不方便。决策树优缺点决策树分类算法原理以信息论为基础的分类原理决策树分类算法框架衡量标准：信息熵决策树算法的简化决策树算法的优、缺点与应用决策树分类算法决策树剪枝决策树学习算法包含特征选择、决策树生成与决策树的剪枝。决策树表示的是一个条件概率分布，所以深浅不同的决策树对应着不同复杂程度的概率模型。决策树的生成对应着模型的局部选择（局部最优），决策树的剪枝对应着全局选择（全局最优）。决策树常用的算法有ID3，C4.5，CART。决策树ID3算法是在每个结点处选取能获得最高信息增益的分支属性进行分裂。在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本纯度提升衡量样本集合纯度的指标则是熵：举例：如果有一个大小为10的布尔值样本集S_b，其中有6个真值、4个假值，那么该布尔型样本分类的熵为：ID3

计算分支属性对于样本集分类好坏程度的度量——信息增益。由于分裂后样本集的纯度提高，则样本集的熵降低，熵降低的值即为该分裂方法的信息增益。ID3算法

脊椎动物分类训练样本集：ID3算法动物饮食习性胎生动物水生动物会飞哺乳动物人类杂食动物是否否是野猪杂食动物是否否是狮子肉食动物是否否是苍鹰肉食动物否否是否鳄鱼肉食动物否是否否巨蜥肉食动物否否否否蝙蝠杂食动物是否是是野牛草食动物是否否是麻雀杂食动物否否是否鲨鱼肉食动物否是否否海豚肉食动物是是否是鸭嘴兽肉食动物否否否是袋鼠草食动物是否否是蟒蛇肉食动物否否否否此样本集有“饮食习性”、“胎生动物”、“水生动物”、“会飞”四个属性可作为分支属性，而“哺乳动物”作为样本的分类属性，有“是”与“否”两种分类，也即正例与负例。共有14个样本，其中8个正例，6个反例，设此样本集为S，则分裂前的熵值为：ID3算法

脊椎动物训练样本集以“饮食习性”作为分支属性的分裂情况。“饮食习性”为“肉食动物”的分支中有3个正例、5个反例，其熵值为：ID3算法

同理，计算出“饮食习性”分类为“草食动物”的分支与分类为“杂食动物”的分支中的熵值分别为：设“饮食习性”属性为Y，由此可以计算得出,作为分支属性进行分裂之后的信息增益为：ID3算法

同理，可以算出针对其他属性作为分支属性时的信息增益。计算可得，以“胎生动物”“水生动物”“会飞”作为分支属性时的信息增益分别为0.6893、0.0454、0.0454。由此可知“胎生动物”作为分支属性时能获得最大的信息增益，即具有最强的区分样本的能力，所以在此处选择使用“胎生动物”作为分支属性对根结点进行划分。ID3算法由根结点通过计算信息增益选取合适的属性进行分裂，若新生成的结点的分类属性不唯一，则对新生成的结点继续进行分裂，不断重复此步骤，直至所有样本属于同一类，或者达到要求的分类条件为止。常用的分类条件包括结点样本数最少于来设定的值、决策树达到预先设定的最大深度等。在决策树的构建过程中，会出现使用了所有的属性进行分支之后，类别不同的样本仍存在同一个叶子结点中。当达到了限制条件而被强制停止构建时，也会出现结点中子样本集存在多种分类的情况。对于这种情况，一般取此结点中子样本集占数的分类作为结点的分类。分支多的属性并不一定是最优的，就如同将100个样本分到99个分支中并没有什么意义，这种分支属性因为分支太多可能相比之下无法提供太多的可用信息，例如个人信息中的“省份”属性。ID3算法

C4.5算法

CART算法采用的是一种二分循环分割的方法，每次都把当前样本集划分为两个子样本集，使生成的决策树的结点均有两个分支，显然，这样就构造了一个二叉树。如果分支属性有多于两个取值，在分裂时会对属性值进行组合，选择最佳的两个组合分支。假设某属性存在q个可能取值，那么以该属性作为分支属性，生成两个分支的分裂方法共有

种。CART算法在分支处理中分支属性的度量指标是Gini指标。在前面例子中，假设选择“会飞”作为分支属性，其Gini指标为：CART树算法

决策树分类算法原理以信息论为基础的分类原理决策树分类算法框架衡量标准：信息熵决策树算法的简化决策树算法的优、缺点与应用决策树分类算法决策树剪枝训练误差代表分类方法对于现有训练样本集的拟合程度。泛化误差代表此方法的泛化能力，即对于新的样本数据的分类能力如何。模型的训练误差比较高，则称此分类模型欠拟合。模型的训练误差低但是泛化误差比较高，则称此分类模型过拟合。对于欠拟合问题，可以通过增加分类属性的数量、选取合适的分类属性等方法，提高模型对于训练样本的拟合程度。过拟合对口罩销售定价进行分类样本集测试集过拟合产品名功能是否为纯色销售价位加厚口罩防尘否低保暖口罩保暖否高护耳口罩保暖是高活性炭口罩防雾霾是中三层防尘口罩防尘否低艺人同款口罩防尘是高呼吸阀口罩防雾霾是中产品名功能是否为纯色销售价位儿童口罩防尘是低情侣口罩保暖否高一次性口罩防尘否低无纺布口罩防尘是低颗粒物防护口罩防雾霾否中三层决策树，训练误差为0，测试误差高达2/5。两层决策树，训练集拟合程度相比较低，但测试集表现更好。过拟合问题过拟合现象会导致随着决策树的继续增长，尽管训练误差仍在下降，但是泛化误差停止下降，甚至还会提升。决策树误差曲线：过拟合问题决策树的剪枝有两种思路：预剪枝（Pre-Pruning）和后剪枝（Post-Pruning）。决策树剪枝后剪枝算法有很多种，这里简要总结如下：Reduced-ErrorPruning(REP,错误率降低剪枝）PessimisticErrorPruning(PEP，悲观剪枝）Cost-ComplexityPruning(CCP，代价复杂度剪枝)后剪枝错误率降低剪枝（REP）是后剪枝策略中最简单的算法之一，该算法从叶子结点向上，依次将决策树的所有子树用其样本中最多的类替换，使用一个测试集进行测试，记录下对于决策树的每棵子树剪枝前后的误差数之差，选取误差数减少最少的子树进行剪枝，将其用子样本集中最多的类替换。按此步骤自底向上，遍历决策树的所有子树，当发现没有可替换的子树时，即每棵子树剪枝后的误差数都会增多，则剪枝结束。REP剪枝方法简单、快速，在数据集较大时效果不错，但由于需要比对模型子树替换前后的预测错误率，因此需要从数据集中划分出单独的测试集，故而当数据集较小时，REP剪枝策略的效果会有所下降。错误率降低剪枝悲观剪枝（PEP）与REP相比，PEP不再需要构建一个单独的测试集。其假设某叶子结点t中有N(t)个样本，其中有e(t)个被错误分类的样本，则此叶子结点误分类率定义：其中0.5为修正因子。对于一棵有着N个叶子结点的子树T，其误分类率计算公式如下：由于修正因子的存在，有时即便子树的误差数要小于剪枝后的误差，仍有可能进行剪枝操作，因为误分类率的计算公式中考虑到了叶子结点树大小（N）的影响。悲观剪枝

代价复杂度剪枝策略(CCP)定义了代价与复杂度的概念，代价是指在剪枝过程中因为子树被替换而增加的错分样本，复杂度表示剪枝后减少的叶结点数。CCP算法使用α作为衡量代价与复杂度之间关系的值，其计算公式如下：CCP的具体方法为，计算决策树T的每个非叶子结点的α值，每次计算之后剪掉具有最小α值的子树，循环此过程直至只剩下根结点，进行n次剪枝，生成n个决策树，从这n个决策树中根据真实误差估计选择最佳决策树。代价复杂度剪枝策略

1.多择题：决策树的划分方式有哪些？（

）

A.信息增益。

B.信息增益率。

C.Gini系数

D.梯度下降。决策树作为一类基础而且常用的非线性分类和回归方法，本章介绍了决策树常用的构建方法，包括其中几种代表性的特征选择度量：信息增益、信息增益比、基尼指数和平方误差，以及根据损失函数进行剪枝的方法，并结合起来介绍了由此衍生的代表性决策树算法：ID3、C4.5和CART。谢谢第六章Logistic回归本章主要讲述Logistic回归算法的基础知识、模型优化、多项式逻辑回归以及具体实现。学习目标通过本章学习可以：Logistic回归概述Logistic回归原理Logistic回归模型的训练和优化多项式Logistic回归Logistic回归概述分类问题Logistic回归原理Logistic回归模型Logistic训练和优化多项式Logistic回归Logistic回归概述LogisticRegression虽然被称为回归，但其实际上是分类模型，并常用于二分类。LogisticRegression因其简单、可并行化、可解释强深受工业界喜爱。Logistic回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。Logistic回归是机器学习从统计学领域借鉴过来的另一种技术。它是二分类问题的首选方法。像线性回归一样，Logistic回归的目的也是找到每个输入变量的权重系数值。但不同的是，Logistic回归的输出预测结果是通过一个叫作「logistic函数」的非线性函数变换而来的。分类问题监督学习的最主要类型——分类(Classification)定义：所谓分类，就是根据数据的特征或属性，划分到已有的类别中。从功能上看，分类问题就是预测数据所属的类别分类的输入变量可以是离散的也可以是连续的，标签是离散的。已知某个人存款金额是10000元，这个人没有结婚，并且有一辆车，没有固定住房，估计判断这个人是否会涉嫌信用欺诈问题。根据肿瘤的体积、患者的年龄来判断良性或恶性。分类问题二分类用蓝色圆形数据定义为类别1，其余三角形数据为类型2；只需要分类一次就可以步骤：①->②分类问题多分类先定义其中一类为类型1(正类)，其余数据为负类(rest)；接下来去掉类型1数据，剩余部分再次进行二分类，分成类型2和负类；如果有n类，则需要分类n-1次步骤：①->②->③->…..Logistic回归概述分类问题Logistic回归原理Logistic回归模型Logistic训练和优化多项式Logistic回归Logistic回归原理Logistic回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。Logistic分布是一种连续型的概率分布，其分布函数和密度函数分别为：逻辑分布深度学习中的常用到的Sigmoid函数就是Logistic的分布函数在的特殊形式Sigmoid函数

Logistic回归学习策略模型中的参数常常使用极大似然估计法来求解，即找到一组参数，使得在这组参数下，使得数据的似然度（概率）最大。设：似然函数：

等式两边取对数：

平均对数似然损失：Logistic回归概述分类问题Logistic回归原理Logistic回归模型Logistic训练和优化多项式Logistic回归Logistic回归优化算法

Logistic回归优化算法正则化目的是为了防止过拟合。没有正则化，过拟合正则化过度，欠拟合适当的正则化Logistic回归优化算法L1正则化LASSO回归，相当于为模型添加先验知识：w服从零均值拉普拉斯分布。拉普拉斯分布：引入正则项后，似然函数改写为：Logistic回归优化算法L1正则化对似然函数取log再取负，得到目标函数：等价于原始损失函数后面加上L1正则化。本质上L1正则本质其实是为模型增加了模型参数服从零均值拉普拉斯分布的先验知识。Logistic回归优化算法L2正则化Ridge回归，相当于为模型添加先验知识：w服从零均值正态分布。正态分布：引入正则项后，似然函数改写为：Logistic回归优化算法L2正则化对似然函数取ln再取负，得到目标函数：等价于原始损失函数后面加上L2正则化。本质上L2正则本质其实是为模型增加了模型参数服从零均值正态分布的先验知识。右图为L1和L2正则化对比目标函数-平方误差项的等值线和L1、L2范数等值线（左边是L1），我们正则化后的代价函数需要求解的目标就是在经验风险和模型复杂度之间的平衡取舍，在图中形象地表示就是黑色线与彩色线的交叉点。Logistic回归优化算法Logistic回归概述分类问题Logistic回归原理Logistic回归模型Logistic训练和优化多项式Logistic回归多项式Logistic回归当Y只有两个选项时，可使用二分类Logistic，当Y有三项或更多时，则应该使用多分类Logistic回归。二元逻辑回归和多分类逻辑回归的对比多项式Logistic回归解决多分类问题，可把Sigmoid函数换成Softmax函数。Softmax回归是直接对逻辑回归在多分类的推广。Softmax函数为：整体目标函数1.（单选）Logistic回归适用于因变量为（

）？A.二分类变量

B.多分类有序变量

C.多分类无序变量D.连续型定量变量E.

A、B、C均可

讲解逻辑回归的基础概念讲解逻辑回归的二分类和多分类问题讲解逻辑回归的模型原理和Sigmoid函数讲解逻辑回归的优化方法L1，L2正则化谢谢第七章支持向量机本章主要讲述支持向量机算法的基础知识、线性以及非线性情况下的支持向量机和支持向量回归机的算法知识。学习目标通过本章学习可以：支持向量机的基本知识线性可分下的支持向量机线性不可分下的支持向量机支持向量机的核函数多类分类支持向量机支持向量回归机支持向量机的基本知识超平面间隔与间隔最大化函数间隔和几何间隔不同情形下的支持向量机线性可分下的支持向量机线性不可分下的支持向量机非线性支持向量机非线性支持向量机之核函数多类分类支持向量机支持向量回归机支持向量机概述支持向量机(SupportVectorMachine，SVM)是一种按照监督学习方式对数据进行二元分类的广义线性分类器(generalizedlinearclassifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供一种更为清晰，更加强大的方式支持向量机概述算法思想找到集合边缘上的若干数据（称为支持向量），用这些点找出一个平面（称为决策面），使得支持向量到该平面距离最大。支持向量机的基本知识超平面间隔与间隔最大化函数间隔和几何间隔不同情形下的支持向量机线性可分下的支持向量机线性不可分下的支持向量机非线性支持向量机非线性支持向量机之核函数多类分类支持向量机支持向量回归机支持向量机概述硬间隔、软间隔硬间隔软间隔硬间隔指的是完全分类正确，不能存在分类错误情况。软间隔指的是允许一定量的样本分类错误。支持向量机概述svm算法，就是找一分割线将两类样本分开，问题是如图三条颜色都可以把点和星分开。但哪条最优呢？假设一条直线为W•X+b=0为最优的分割线，把两类分开如下图所示，那我们就要解决的是怎么获取这条最优直线呢?及W和b的值；在SVM中最优分割面(超平面)就是：能使支持向量和超平面最小距离的最大值；目标是寻找一个超平面，使得离超平面比较近的点能有更大的间距。也就是我们不考虑所有的点都必须远离超平面，我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。支持向量机概述间隔超平面

如图所示，支持向量到超平面的距离为d，其他点到超平面距离大于d。每个支持向量到超平面的距离可写为：支持向量机概述间隔最大化根据支持向量到超平面的距离d，其他点到超平面距离大于d。于是得到如下公式：我们令d=1（令它为1，为了便于推导和优化，且不会影响目标函数的优化）将以上方程合并，简写为：至此得到最大间隔超平面的上下两个超平面：支持向量机的基本知识超平面间隔与间隔最大化函数间隔和几何间隔不同情形下的支持向量机线性可分下的支持向量机线性不可分下的支持向量机非线性支持向量机非线性支持向量机之核函数多类分类支持向量机支持向量回归机支持向量机概述函数间隔

支持向量机概述几何距离

支持向量机概述函数距离VS几何距离从函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔处理||w||,而且函数间隔y*(wx+b)=y*f(x)实际上是|f(x)|，是人为定义的间隔度量，而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。函数间隔作用：表示分类预测的正确性的准确度函数间隔

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《机器学习-Python实战（微课版）》全套教学课件

文档简介

温馨提示

最新文档

评论

《机器学习-Python实战（微课版）》全套教学课件

文档简介

温馨提示

最新文档

评论

相关文档