




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章数据分类分析大数据管理与应用——主编:王刚副主编:刘婧、邵臻分类分析是一种对离散标签进行预测的监督学习方法,其目的是从给定的分类训练数据中学习分类模型,数据分类分析在许多场景下都有重要应用,如客户流失预测、客户信用风险等级预测和国家电网客户用电异常行为分析等。在本章中您将了解数据分类分析的基本概念,掌握数据分类分析的六种基本类型及其典型方法,并了解数据分类分析如何应用于实际场景。数据分类分析概述基于函数的分类分析基于概率的分类分析基于最近邻的分类分析基于决策树的分类分析基于规则的分类分析集成分类分析第七章
数据分类分析01数据分类分析概述02基于函数的分类分析03基于概率的分类分析04基于最近邻的分类分析05基于决策树的分类分析06基于规则的分类分析07集成分类分析
1.1分类分析基本概念分类分析的基本类型主要可以分为以下六类:基于函数的分类分析基于概率的分类分析基于最近邻的分类分析基于决策树的分类分析基于规则的分类分析集成分类分析1.2分类分析基本类型客户流失预测企业利用大量的销售数据构建客户流失分类模型,帮助业务人员识别哪些客户有流失的风险,并找出客户流失的原因,从而公司能够及时采取相应的措施挽留客户。客户信用风险等级预测银行基于客户的基本信息、银行流水记录和借贷信息等相关数据构建信用风险等级分类模型,对客户的信用风险等级进行划分,从而确保信用风险较低的客户能够得到贷款。国家电网客户用电异常行为分析电网公司通过收集海量的用电数据构建用电行为特征,如周统计指标、月统计指标和季度用电量等,并基于这些特征来构建客户用电异常行为分类模型,从而保证正常的供电秩序。其他领域电子商城的优惠券使用预测、商品图片分类、中文语料的类别分析和情感分析、基于文本内容的垃圾短信识别、自动驾驶场景中的交通标志检测、监控场景下的行人精细化识别等。1.3分类分析的应用
2.1基于函数的分类分析的概念
2.2Logistic回归模型
2.2Logistic回归模型
2.2Logistic回归模型图7-1逻辑函数的图像
2.2Logistic回归模型图7-2交叉熵损失函数的图像
2.2Logistic回归模型
3.1基于概率的分类分析的概念朴素贝叶斯模型概述朴素贝叶斯模型是一种简单而高效的分类模型,可以基于贝叶斯定理和条件独立假设计算出待分类项在其当前条件下各个可能类别出现的概率,并将取得最大值的那个类别作为最终输出结果。朴素贝叶斯模型主要的思想就是在已给定特征属性值的前提下找到出现概率最大的类别标签。“朴素”是指其在估计类条件概率时假设各个特征属性之间条件独立,这也是其易于操作的原因。3.2朴素贝叶斯模型
3.2朴素贝叶斯模型
3.2朴素贝叶斯模型
3.2朴素贝叶斯模型基于K最近邻(K-NearestNeighbor,KNN)的分类分析将一组已分类点中最接近的分类分配给一个未分类的样本点,与其他分类方法不同,最近邻分类法是一种惰性学习方法,不需要在给定样本的基础上进行训练,而是在给出需要预测的新样本后,通过新样本最邻近的样本标签来确定其预测分类。最近邻分类分析是一种非参数方法,比较简单、直观、易于实现。为了解决最近邻算法对噪声数据过于敏感的缺陷,可以采用扩大参与决策的样本量的方法,使用K个邻近点进行决策,形成了KNN分类法。KNN分类法可以生成任意形状的决策边界,较其他分类器更为灵活,特别适合于多分类问题,目前该方法已广泛应用于新闻文本分类和遥感图像分类等。4.1基于最近邻的分类分析的概念KNN模型概述KNN分类法是一种基于样本的惰性学习方法。如果一个样本在特征空间中的K个最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法的基本思想:假设给定一个训练数据集,其中的样本类别已定,对于新的样本,根据其K个最近邻的训练样本的类别,通过多数表决等方式来进行预测,输出为预测新样本的类别标签。4.2KNN模型
4.2KNN模型
4.2KNN模型KNN的分类决策规则一般使用多数投票法,即根据离样本最近的K个训练样本中的多数类,决定预测样本类别。此外,还可以根据距离远近进行加权投票,距离越近的样本权重越大。算法KNN模型的算法伪代码:4.2KNN模型决策树模型是一种呈树形结构的机器学习模型,它由一个根节点、若干个内部节点和叶节点构成,其中,根节点和内部节点表示特征,叶节点则表示类标签。从根节点到一个叶节点对应了一条判定规则,决策树模型的学习目标就是通过递归的手段对特征空间进行划分,从而构造一个从根节点联通到不同叶节点的决策树。因此,在分类问题中,决策树模型可以认为是if-then规则的集合。最早的决策树模型由Hunt等人于1966年提出,该模型也是许多决策树模型的基础,包括ID3、C4.5、C5.0和CART(ClassificationAndRegressionTrees)等。决策树模型的学习分为特征选择、决策树生成和决策树剪枝三个步骤。特征选择是决策树模型进行特征空间划分的依据,也是构建决策树模型的核心。Quinlan提出的ID3和C4.5模型分别使用信息增益(InformationGain)和信息增益率(InformationGainRatio)进行特征选择,Breiman等人提出的CART模型则使用了基尼(Gini)系数作为特征选择的依据。5.1基于决策树的分类分析的概念ID3决策树模型概述ID3决策树模型是一种通过信息增益对特征空间进行划分的决策树模型。ID3模型的主要思想就是使得最终的叶结点中的样本尽可能为同类样本,即样本尽可能“纯”。但是决策树无法直接得到整个模型的结构,需要采用递归算法通过选择特征不断地对特征空间进行切分,使得切分后得到的子样本集尽可能“纯”。ID3决策树模型引进信息熵理论描述样本的“不纯度”,即使用信息增益选择最优划分特征。5.2ID3决策树模型
5.2ID3决策树模型
5.2ID3决策树模型算法为使得损失函数最小,需要使得决策树总体的熵最小,因此决策树模型的优化算法是一个使决策树的熵不断减少的过程。ID3算法采用“分而治之”策略进行优化,并采用信息增益作为衡量熵减少的程度。决策树模型的算法伪代码:5.2ID3决策树模型
6.1基于规则的分类分析的概念
6.2RIPPER模型
6.2RIPPER模型算法RIPPER算法主要分为两个步骤,第一步是规则集的生成,第二步是规则集的优化。RIPPER模型能够通过局部优化方式得到规则集,然后通过全局优化的方式缓解了局部优化的局限性,因而能够取得比较好的学习效果。RIPPER算法的伪代码:6.2RIPPER模型集成分类模型通过训练并组合多个分类器的优势来提升性能,这种组合模型也被称为“委员会”(Committee)。集成分类模型一般包括两个步骤,首先通过训练集生成一组基分类器(BaseClassifier),然后对基分类器的预测结果进行组合。根据基分类器的生成方式,集成分类模型主要有Bagging、提升方法(Boosting)和随机子空间(RandomSubspace,RS)三类方法。7.1集成分类模型概述图7-3集成学习示意图AdaBoost模型概述AdaBoost模型是Boosting集成分类模型的代表,它是一种通过序列方法训练多个基分类器并对这些基分类器进行组合的集成分类模型。AdaBoost模型的主要思想是利用训练集中的等权重样本训练出基分类器,然后根据基分类器的分类误差率来赋予分错的样本更高的权重,然后在样本更新权重后被用来训练下一个基分类器,重复此过程并将所有基分类器的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物乙醇生产线的低碳化与节能减排技术研究
- 海洋空间资源开发与国家安全课前导学 高二地理人教版(2019)选择性必修三
- 2025年吉林电子信息职业技术学院单招职业技能测试题库审定版
- 应用文写作+给Tom的邮件:海洋公园游玩经历+讲义 高三下学期开学英语试题
- 废品电器出售合同范本
- 知识产权保护在绿色科技发展中的作用
- 2025-2030年中国电声器件行业前瞻与投资战略规划分析报告
- 2025-2030年中国灯箱片行业发展趋势及投资战略研究报告
- 2025-2030年中国漂粉精行业发展前景规划及投资风险评估报告
- 2025-2030年中国清管器行业运行动态与营销策略研究报告
- 新版手机开发项目流程图
- 折彩粽的手工制作ppt公开课
- 发证机关所在地区代码表
- 建筑垃圾回收利用统计台账
- 《不一样的你我他》(完美)课件
- 外研版一起点二年级下册英语全册课件
- 原油电脱盐电脱水技术
- XE82000--午山风电场风机定检作业指导书
- 前列腺癌临床路径(最全版)
- 奥数知识点 间隔问题
- 深圳大学《数字信号处理》2009年期末考试试卷A卷
评论
0/150
提交评论