版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势 的模型 分类: 预测类对象的分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测: 建立连续函数值模型 比如预测空缺值,或者预测顾客在计算机设备上的花费典型应用 欺诈检测、市场定位、性能预测、医疗诊断分类 银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类) 我们需要构造一个分类器来预测类属编号,比如预测顾客属类预测 银行贷款员需要预测贷给某个顾客多少钱是安全的 构造一个预测器,预测一个连续值函数或有序值,常用方法是回
2、归分析第一步,也成为学习步学习步,目标是建立描述预先定义的数据类或概念集的分类器 分类算法通过分析或从训练集“学习”来构造分类器。 训练集由数据库元组(用n维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类 训练元组训练元组:训练数据集中的单个元组 学习模型可以用分类规则、决策树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分拟合”的情况训练数据集NAME RANK
3、YEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则分类规则测试集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assista
4、nt Prof7yes未知数据(Jeff, Professor, 4)Tenured?监督学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 新数据使用训练数据集中得到的规则进行分类无监督学习(用于聚类) 每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测也是一个两步的过程,类似于前面描述的数据分类 对于预测,没有“类标号属性” 要预测的属性是连续值,而不是离散值,该属性可简称“预测属性” E.g. 银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X) 其中X
5、是输入;y是输出,是一个连续或有序的值 与分类类似,准确率的预测,也要使用单独的测试集通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性 数据清理 消除或减少噪声,处理空缺值,从而减少学习时的混乱 相关分析 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确 数据变换与归约 数据可以通过规范化进行变换,将所给属性的所有值按比例进行缩放,使其落入一个较小的指定区间,例 0.0, 1.0(ANN和设计距离的度量方法中常用) 可以将数据概化到较高层概念使用下列标准比较分类和预测方法 预测的准确率:模型正确预测新数据的类编号
6、的能力 速度:产生和使用模型的计算花销 健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力 可伸缩性:对大量数据,有效的构建分类器或预测器的能可伸缩性:对大量数据,有效的构建分类器或预测器的能力力 可解释性:学习模型提供的理解和洞察的层次什么是决策树? 类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点存放一个类编号age?student?credit rating?noyesfairexcellentyouthseniornonoyesyesyesMiddleaged决策树:决策树:Buys_computer使用决策树分类 给定一个类标号未
7、知的元组X,在决策树上测试元组的属性值,跟踪一条由根到叶节点的路径,叶节点存放该元组的类预测。 决策树容易转换为分类规则决策树的生成由两个阶段组成 决策树构建 使用属性选择度量来选择将元组最好的划分为不同的类的属性 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性输入数据划分D是训练元组和对应类标号的集合attribute_list,候选属性的集合Attribute_selection_method,指定选择属性的启发性过程算法步骤树以代表训练样本的单个节点(N)开始
8、如果样本都在同一个类,则该节点成为树叶,并用该类标记1.否则,算法调用Attribute_selection_method,选择能够最好的将样本分类的属性;确定“分裂准则”,指出“分裂点”或“分裂子集”。对测试属性每个已知的值,创建一个分支,并以此划分元组算法使用同样的过程,递归的形成每个划分上的元组决策树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现递归划分步骤停止的条件划分D(在N节点提供)的所有元组属于同一类没有剩余属性可以用来进一步划分元组使用多数表决没有剩余的样本给定分支没有元组,则以D中多数类创建一个树叶属性选择度量是一种选择分裂准则,将给定类标号的训练元组最好的进
9、行划分的方法 理想情况,每个划分都是“纯”的,即落在给定划分内的元组都属于相同的类 属性选择度量又称为分裂准则常用的属性选择度量 信息增益 增益率 Gini指标S是一个训练样本训练样本的集合,该样本中每个集合的类类编号编号已知。每个样本为一个元组元组。有个属性用来判定某个训练样本的类编号假设S中有m个类,总共s个训练样本,每个类Ci有si个样本(i1,2,3.m),那么任意一个样本属于类Ci的概率是si / s,那么用来分类一个给定样本的期期望信息望信息是:sssssssInfoimiim2121log),.,(一个有v个值的属性Aa1,a2,.,av可以将S分成v个子集S1,S2,.,Sv,
10、其中Sj包含S中属性A上的值为aj的样本。假设Sj包含类Ci的sij个样本。根据A的这种划分的期望信息称为A的熵熵A上该划分的获得的信息增益定义为:具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算S中样本的每个属性的信息增益,来得到一个属性的相关性的排序。),.,(.)(111mjjvjmjjssIsssAE)(),.,()(21AEsssIAGainmageincomestudentcredit_ratingbuys_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyessenior
11、mediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentno对于上述数据,可以略过步骤1,2步骤3,计算基于熵的度量信息增益,作为样本划分的根据Gain(a
12、ge)=0.246Gain(age)=0.246 Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048然后,对测试属性每个已知的值,创建一个分支,并以此划分样本,得到第一次划分age?overcaststudent?credit rating?noyesfairexcellentyouthseniornonoyesyesyesMiddle aged产生的决策树会出现过分适应数据的问题 由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常 对新样本的判定很不精确防止过分适应的两种方法 先剪枝:通过提前停止树的构造如
13、果在一个节点划分样本将导致低于预定义临界值的分裂(e.g. 使用信息增益度量) 选择一个合适的临界值往往很困难 后剪枝:由“完全生长”的树剪去分枝对于树中的每个非树叶节点,计算该节点上的子树被剪枝可能出现的期望错误率 使用一个独立的测试集来评估每颗树的准确率,就能得到具有最小期望错误率的决策树可以提取决策树表示的知识,并以IF-THEN形式的分类规则表示对从根到树叶的每条路径创建一个规则沿着给定路径上的每个属性-值对形成规则前件(IF部分)的一个合取项叶节点包含类预测,形成规则后件(THEN部分)IF-THEN规则易于理解,尤其树很大时示例: IF age = “youth” AND stud
14、ent = “no” THEN buys_computer = “no” IF age = “youth” AND student = “yes” THEN buys_computer = “yes” IF age = “middle_aged” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “fair” THEN buys_computer = “no”分类
15、挖掘是一个在统计学和机器学习的领域也被广为研究的问题,并提出了很多算法,但是这些算法都是内存驻留的可伸缩性问题:要求以合理的速度对数以百万计的要求以合理的速度对数以百万计的样本和数以百计的属性的进行分类挖掘样本和数以百计的属性的进行分类挖掘由大型数据库构造决策树 首先将样本划分为子集,每个子集可以放在内存中 然后由每个自己构造一颗决策树 输出的分类法将每个子集的分类法组合在一起 (其他方法包括SLIQ, SPRINT,RainForest等等)贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。朴素贝叶斯分类:假设每个属性之间都是相互独立的
16、,并且每个属性对非类问题产生的影响都是一样的。)()()|()|(DPhPhDPDhP后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。优点 预测精度总的来说较高 健壮性好,训练样本中包含错误时也可正常工作 输出可能是离散值、连续值或者是离散或量化属性的向量值 对目标进行分类较快缺点 训练(学习)时间长 蕴涵在学习的权中的符号含义很难理解 很难根专业领域知识相整合使用一种非线性的映射,将原训练数据映射到较高的维一个数据被认为是p维向量,数据在这个p维向量空间中被分为两类;SVM的目
17、的是找到一个p-1维的超平面,来划分p维向量空间的数据 在新的维上,它搜索线性最佳分离超平面 (即将一类的元组与其他类分离的“决策边界”)。使用一个适当的对足够高维的非线性映射,两类的数据总可以被超平面分开。SVM 使用支持向量(“基本”训练元组)和边缘(由支持向量定义)发现该超平面。特点: 训练时间非常长,但对复杂的非线性决策边界的建模能力是高度准确的(使用最大边缘) 可以用来预测和分类应用: 手写数字识别,对象识别,语音识别, 以及基准时间序列预测检验支持向量小边缘大边缘June 16, 2022Data Mining: Concepts and Techniques31m设给定的数据集
18、D 为 (X1, y1), , (X|D|, y|D|), 其中Xi是训练元组,具有相关联的类标号yi。可以画出无限多条分离直线(或超平面)将类+1的元组与类-1的元组分开,我们想找出“最好的”那一条 (对先前未见到的元组具有最小分类误差的那一条)。SVM 要搜索具有最大边缘的超平面,即最大边缘超平面最大边缘超平面 (MMH)k-最临近分类 给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本的类标号基于案例的推理 样本或案例使用复杂的符号表示,对于新案例,先检测是否存在同样的训练案例;如果找不到,则搜索类似的训练案例遗传算法 结合生物进化思想的算法粗糙集方法模糊集方法 允许在分类规则中定义“模糊的”临界值或边界预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值)线性回归:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度水利工程施工合同示范文本(含安全要求)4篇
- 2022版义务教育体育与健康课程标准试卷
- 2024配电室设备安装及调试服务合同2篇
- 2024锚具供货合同
- 2024年高端人才招聘居间服务合同书3篇
- 2025年0号柴油油品认证居间服务协议3篇
- 2025年度生态大门研发与安装服务合同范本4篇
- 2025年度特色烹饪技艺传承厨师雇佣协议4篇
- 深圳房地产中介培训课件制作专业
- 2025年度旅游观光车租赁合同标的转让协议3篇
- 不同茶叶的冲泡方法
- 光伏发电并网申办具体流程
- 基本药物制度政策培训课件
- 2025年中国华能集团限公司校园招聘高频重点提升(共500题)附带答案详解
- 建筑劳务专业分包合同范本(2025年)
- GB/T 45002-2024水泥胶砂保水率测定方法
- 广东省广州海珠区2023-2024学年八年级上学期期末数学试卷(含答案)
- 飞行原理(第二版) 课件 第10章 高速空气动力学基础
- 广西《乳腺X射线数字化体层摄影诊疗技术操作规范》
- 山西省2024年中考道德与法治真题试卷(含答案)
- 五年(2020-2024)高考地理真题分类汇编(全国版)专题12区域发展解析版
评论
0/150
提交评论