《Python数据分析基础与案例实战》第6章 6.1 构建分类与回归模型_第1页
《Python数据分析基础与案例实战》第6章 6.1 构建分类与回归模型_第2页
《Python数据分析基础与案例实战》第6章 6.1 构建分类与回归模型_第3页
《Python数据分析基础与案例实战》第6章 6.1 构建分类与回归模型_第4页
《Python数据分析基础与案例实战》第6章 6.1 构建分类与回归模型_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

构建分类与回归模型1了解回归分析目录常用的分类与回归算法2了解朴素贝叶斯3分类算法用于构造一个分类模型,模型的输入为样本的属性值,输出为对应的类别,将每个样本映射到预先定义好的类别。回归算法用于建立两种或两种以上变量间相互依赖的函数模型,然后使用函数模型预测目标的值。分类和回归模型的实现过程类似,以分类模型为例,其实现步骤如右图所示。常用的分类与回归算法分类模型的具体实现步骤分为两步:第一步是训练步,通过归纳、分析训练集来建立分类模型,得到分类规则;第二步是预测步,先用已知的测试集评估分类模型的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的验证集进行预测。回归模型的实现步骤也有两步,类似于分类模型,第一步是通过训练集建立数值型的预测属性的函数模型;第二步是在模型通过检验后进行预测或控制。常用的分类与回归算法常用的分类与回归算法如下表所示。常用的分类与回归算法算法名称算法描述回归分析回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系常用的统计学方法,包括线性回归、非线性回归、逻辑(Logistic)回归、岭回归、主成分回归、偏最小二乘回归等模型决策树决策树采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类判别分析利用已知类别的若干样本的数据信息,对客观事物分类的规律性进行总结,从而建立判别公式和判别准则的一种统计方法。包括线性判别分析、K最近邻(KNN)、朴素贝叶斯等模型支持向量机支持向量机是一种通过某种非线性映射,将低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法人工神经网络人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,是表示神经网络的输入与输出变量之间关系的模型集成学习集成学习使用多种算法的组合进行预测,其比单一分类器具有更高的准确率和鲁棒性,通常分为Bagging(聚合)、Boosting(提升)和Stacking(堆叠)3种模式1了解回归分析目录常用的分类与回归算法2了解朴素贝叶斯3回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计法起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如右图所示。了解回归分析在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量的值是要预测的。常用的回归模型如下表所示。了解回归分析回归模型名称适用条件描述线性回归因变量与自变量是线性关系对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数非线性回归因变量与自变量之间不都是线性关系对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以通过简单的函数变换转化成线性关系,则用线性回归的思想求解;如果不能转化,则用非线性最小二乘法求解逻辑回归一般因变量有1、0(是、否)两种取值是广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0~1,表示取值为1的概率岭回归参与建模的自变量之间具有多重共线性是一种改进最小二乘估计的方法主成分回归参与建模的自变量之间具有多重共线性主成分回归是根据主成分分析的思想提出来的,是对最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量之间的多重共线性线性回归模型是相对简单的回归模型,但是当因变量和自变量之间呈现某种曲线关系时,就需要建立非线性回归模型。逻辑回归属于概率型非线性回归,分为二分类和多分类的逻辑回归模型。对于二分类的逻辑回归,因变量y只有“是、否”两个取值,记为1和0。假设在自变量作用下,y取“是”的概率是p,则取“否”的概率是,二分类的逻辑回归研究的是当y取“是”的概率p与自变量的关系。当自变量之间出现多重共线性时,用最小二乘估计法估计的回归系数可能会不准确,消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归。了解回归分析公式为线性回归的一般形式,它给出了自变量x与因变量y成线性关系时的函数关系。但是,现实场景中更多的情况下x不是与y成线性关系,而是与y的某个函数成线性关系,此时需要引入广义线性回归模型。需要注意的是,逻辑回归虽然称作“回归”,但实际上是一种分类算法。具体的分类方法:设定一个分类阈值,将预测结果y大于分类阈值的样本归为正类,反之归为反类。逻辑回归模型如式(6-1)所示。 (6-1)其中的取值范围是,表示回归系数的集合,其中回归系数表示属性在预测目标变量时的重要性,b为常数。了解回归分析1.逻辑回归模型式(6-1)经过变形,转为标准逻辑回归形式,如式(6-2)所示。 (6-2)了解回归分析2.逻辑回归模型解释逻辑回归模型的建模步骤如右图所示,具体步骤如下。根据分析目的设置因变量和自变量,然后收集数据,根据收集到的数据,再次进行属性筛选。取1的概率是,则取0的概率是。根据自变量列出线性回归方程,估计出模型中的回归系数。模型检验。模型有效性的检验指标有很多,最基本的有准确率,其次有混淆矩阵、ROC曲线、KS值等。模型预测。输入自变量的取值,就可以得到预测变量的值。

了解回归分析3.逻辑回归模型的建模步骤LogisticRegression类常用的参数及其说明如下表所示。代码的结果显示逻辑回归模型预测结果的准确率为100%,说明模型分类效果比较理想,但是有过拟合的风险。了解回归分析参数名称参数说明penalty接收str。表示正则化选择参数,可选l1或l2。默认为l2solver接收str。表示优化算法选择参数,可选newton-cg、lbfg、liblinear、sag,当penalty='l2'时,4种都可选;当penalty='l1'时,只能选liblinear。默认为liblinearmulti_class接收str。表示分类方式选择参数,可选ovr和multinomial。默认为ovrclass_weight接收balanced以及字典。表示类型权重参数,如对于因变量取值为0或1的二元模型,可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。默认为Nonen_jobs接收int。表示运行的并行作业数。默认为11了解回归分析目录常用的分类与回归算法2了解朴素贝叶斯3朴素贝叶斯是基于贝叶斯定理与条件独立假设的分类方法。对于给定的训练数据集,首先基于条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入X,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯实现简单,学习与预测的效率都很高,是一种常用的方法。朴素贝叶斯算法有许多优点,如,对大数据集训练速度快;支持增量式运算,可以实时对新增样本进行训练;结果可解释性强。同时也存在因为使用了样本属性独立性的假设,所以属性间有关联性时有效果不佳的缺点。了解朴素贝叶斯常用的朴素贝叶斯模型的构建类是GaussianNB,其基本语法格式如下。classsklearn.naive_bayes.GaussianNB(priors=None)GaussianNB类常用的参数及其说明,如下表所示。基于load_breast_cancer数据集,使用GaussianNB类构建朴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论