《Python商业数据分析》方法：分类分析

上传人：熊*** IP属地：山东上传时间：2024-02-07 格式：PPTX 页数：44 大小：6.62MB 积分：30 举报 版权申诉

已阅读5页，还剩39页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Python商业数据分析分类分析学习目标理解什么是分类问题掌握常见的分类方法能够量化分类结果的好坏掌握提升分类精度的方法10.1分类问题银行用户信息

若用户曾经发生过贷款拖欠，则信用等级为低若用户未曾发生过贷款拖欠且收入高，则信用等级为高若用户未曾发生过贷款拖欠、收入低且已婚，则信用等级为高若用户未曾发生过贷款拖欠、收入低且未婚，则信用等级为中序号是否中年是否高收入是否已婚是否拖欠信用等级011100高021010高030010中041111低050100高061000中070001低080110高091001低101000中10.1分类问题建立一个分类模型描述已知数据属性与给定类别之间的对应关系训练集：用于构建分类模型的已知类别标签的数据训练集的每一条记录称为一个样本数据，由若干属性和对应的类别标签组成。构建分类器是为了通过分析训练集数据来挖掘数据属性与类别之间的关系。利用所获得的分类模型（分类器）对新数据的类别进行预测测试集：另一个已知标签的数据（称为测试集）来评估分类器的准确率测试集的结构与训练集的结构相同由于生成分类器的过程倾向于过分逼近训练数据，可能造成对分类准确率的估计过于乐观过拟合(Overfit)如果一个分类器的准确率经测试被认为是可以接受的，那么就可以使用此分类器对未来数据对象进行分类10.2.1决策树分类基于树结构的分类方法，采用自上而下的流程形式呈现分类规则树中的节点可以分为内部节点和叶子节点两类每个内部节点对应一个属性（称为分裂属性），内部节点向下的分枝对应属性的属性值根据该属性的不同取值可以将数据分成不同的几部分，内部节点的每个分枝就代表该属性一个具体的取值10.2.1决策树分类决策树方法可以分为两个阶段：决策树构建根据训练集得到一个粗略的、基础的树形结构在每个内部节点上确定分裂属性和对应的测试内容决策树剪枝有许多由数据集中的噪声或异常数据所产生的分枝决策树剪枝就是识别并消除这类分枝，以帮助改善对未知对象分类的准确性10.2.1决策树分类递归地从所有可选的属性中选择“最优”的分裂属性，直至满足某个结束条件为止“最优”根据该属性上的不同值能够把训练集分为彼此之间“差异”最大的几部分常用的分裂标准信息增益：ID3、C4.5等基尼系数：CART、SLIQ等10.2.1决策树分类初始构建决策树时，作为一个单个节点（根节点）代表了所有的训练样本集数据对于任意一个节点，如果对应的样本均为同一类别，则该节点就成为叶子节点并标记为该类别否则，将选择合适的分裂属性分裂属性的每一个值均对应一个将要被创建的分枝这个分枝或连接一个叶子节点（类别），或连接一个内部节点（对应一个分裂属性）对每一个节点重复上述过程，直至满足指定条件10.2.1决策树分类

10.2.1决策树分类

10.2.1决策树分类——决策树剪枝树的很多分枝属于噪声或会对分类准确率造成负面影响模型“过适应于”数据对决策树进行剪枝来提高决策树的分类能力剪枝的优点提高决策树分类的速度决策树独立于测试数据正确分类的能力也会有所提高10.2.1决策树分类——决策树剪枝先剪枝（Pre-Pruning）策略在构建决策树的过程中进行剪枝操作在构建过程中，对每个节点先进行评估，再决定是否分枝利用信息增益法进行决策树构建时，可以利用信息增益作为评估标准，事先设定一个信息增益阈值，若某一属性的信息增益小于阈值，则不进行分枝，即将其从决策树中剪枝该方法的关键在于如何确定阈值，阈值过大会导致决策树过于简单，分类精度降低；阈值过小，又会导致剪枝不够彻底后剪枝（Post-Pruning）策略决策树构建完成后再进行剪枝操作决策树构建完成后，自下而上地评估每个节点分枝的必要性，然后删除不必要的节点和分枝以决策树的分类错误率作为评估标准。比较剪枝和不剪枝的分类错误率，若剪枝导致分类错误率变高，则不进行剪枝，否则就删去该节点和分枝剪枝后，将该节点变成叶子节点，标记为该分枝对应的样本中大比例类别决策树分类代码示例Python中sklearn库中的tree模块可以实现决策树分类10.2.1决策树分类——代码示例决策树模型的准确率为81.73%。使用训练好的决策树对测试集的前10个样本进行类别预测，发现有2个样本的类别预测错误10.2.1决策树分类——代码示例通过Graphviz软件和Python中的pydotplus模块对决策树进行可视化10.2.2贝叶斯分类

10.2.2贝叶斯分类

10.2.2贝叶斯分类——代码示例Python中sklearn库中的naive_bayes模块可以实现朴素贝叶斯分类使用朴素贝叶斯分类得到的分类器准确率为78.68%但该分类器对测试集的前10个样本进行类别预测，仅1个样本的类别发生了错误10.2.3支持向量机分类

10.2.3支持向量机分类

10.2.3支持向量机——代码示例Python中sklearn库中的svm模块可以实现支持向量机分类支持向量机分类模型的准确率为81.75%，略好于决策树模型，对测试集前10个样本的预测效果与决策树相同10.2分类方法比较分类方法优点缺点决策树分类计算复杂度较小，速度快；准确性高，易于转换成规则的形式，容易理解和解释；适用于高维数据集。对于类别样本数量分布不同的数据集，信息增益的结果偏向于频率更高的属性；对噪声数据较为敏感，容易出现过拟合问题；忽略了属性之间的相关性。贝叶斯分类分类效率稳定，容易解释；需要估计的参数少，对缺失数据不敏感；没有复杂的迭代过程，适用于规模大的数据集。属性间独立性假设往往不成立；需要知道先验概率，分类决策存在错误率。支持向量机分类适用于小样本数据集；可以解决高维、非线性问题；可以提高泛化性能，具有较好的稳定性。对大规模训练样本难以实施；解决多分类问题较为麻烦；对数据缺失和参数选择较敏感；结果难以解释。10.3.1分类性能度量

10.3.1分类性能度量

10.3.2分类性能度量指标——混淆矩阵混淆矩阵

实际预测+-+-指标计算方式含义表示正样本中被正确分类的比例表示负样本中被正确分类的比例表示样本中被正确分类的比例表示样本中被错误分类的比例表示预测是正类的样本中确实是正类的比例10.3ROC曲线

10.3分类性能度量代码示例

可以通过Python中sklearn库中的metrics模块计算混淆矩阵和相关指标10.3分类性能度量代码示例

10.4分类准确性的提升方法Boosting一种串行集成方法，通过将一个弱分类器转化为强分类器以减小偏差对每个训练样本赋予一个权重，学习生成一系列的分类器，将分类器组合得到最终分类器基于训练集训练一个略好于随机方法的弱分类器，根据该弱分类器的分类结果更新样本权重，如增大分类错误样本的权重，减小分类正确的样本的权重，构成新的数据集利用新数据集再训练一个新的弱分类器，根据分类结果迭代样本权重组成新的数据集如此重复便可得到若干个弱分类器利用弱分类器对当前样本进行判断，用投票的方式得到最终分类结果10.4分类准确性的提升方法sklearn库中的ensemble模块可以实现Bagging方法Bagging方法的决策树模型准确率提升至81.76%

可直接通过ensemble.RandomForestClassifier()进行随机森林的构建10.4分类准确性的提升方法AdaBoost采用加权多数投票的方式，加大分类错误率小的弱分类器权重，使其在分类过程中发挥更大的作用。精度高，构造过程比较灵活、不易过拟合、结果易理解对噪音数据敏感，噪音在迭代中可能会获得较高的权重，最终影响分类准确性GBDT一种迭代的决策树算法，根据已知样本和已有模型损失函数的梯度，建立新的决策树以减少已有模型的残差，最后将所有模型组合就可以得到最终模型。能够灵活地处理连续数据和离散数据、预测精度高使用稳定性高的损失函数，对异常值的处理能力强但由于弱分类器之间存在串行关系，难以并行训练数据，算法复杂度较高，比较适合低维数据的分类10.4分类

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《Python商业数据分析》方法：分类分析

文档简介

温馨提示

最新文档

评论

《Python商业数据分析》方法：分类分析

文档简介

温馨提示

最新文档

评论

相关文档