数据挖掘决策树_第1页
数据挖掘决策树_第2页
数据挖掘决策树_第3页
数据挖掘决策树_第4页
数据挖掘决策树_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘决策树第1页,共47页,2023年,2月20日,星期五内容提要4.1引言4.2构造分类树4.3剪枝导论4.4模型评估

第2页,共47页,2023年,2月20日,星期五4.1引言分类树是使用树结构算法将数据分成离散类的方法。Breiman在20世纪80年代早期创造了该术语。该技术在医疗、市场调查统计、营销和顾客关系方面得到了很好的应用。例如,一个树结构分类器使用血压、年龄和先前的治疗情况将心脏病患者分成危险和不危险两类。另一种工具可能使用与年龄相关的变量和其他人口统计量决定谁应该出现在邮件发送清单上。预测对直接邮寄广告的反应和确定控制电信业顾客流失的方法都是具体行业的应用。第3页,共47页,2023年,2月20日,星期五决策树作用(1)下表的数据提供了什么信息?第4页,共47页,2023年,2月20日,星期五决策树作用(2)决策树的主要作用是揭示数据中的结构化信息。决策树汇总了数据,并揭示了其中隐藏的结构:规则:如果血压高,则采用药物A。如果血压低,则采用药物B。如果血压正常。年龄小于或等于40,则采用药物A,否则采用药物B。第5页,共47页,2023年,2月20日,星期五准确率、支持度、错误率该例得到的规则和对应的准确率和支持度是:如果血压高,则采用药物A(准确率100%,支持度3/12)。如果血压低,则采用药物B(准确率100%,支持度3/12)。如果血压正常并且年龄小于或等于40,则采用药物A(准确率100%,支持度3/12)。如果血压正常并且年龄大于40。则采用药物B(准确率100%,支持度3/12)。第6页,共47页,2023年,2月20日,星期五树生长的策略对于树生长的策略,算法主要考虑的问题:选择分裂变量的标准。找到被选择的变量的分裂点的标准(连续变量情况)。确定何时停止树生长过程的标准。第7页,共47页,2023年,2月20日,星期五决策树的分类目标变量和预测变量决策树根据目标变量的类型可分成分类树与回归树如果目标变量(也称为响应变量或类变量)是标称/分类变量(如处方药),则称该树为分类树(classificationtree)。如果目标变量是连续的(如“收入”),则称该树为回归树(regressiontree)。第8页,共47页,2023年,2月20日,星期五预测变量分类预测变量也可以一般地分为标称的或连续的。连续值变量的处理,大部分实际算法在构造树之前先将连续值变量转换成具有离散层次(或区间)的变量。第9页,共47页,2023年,2月20日,星期五4.2构造分类树4.2.1用于标称属性的lD3算法ID3代表归纳决策树(inductiondecision—tree)版本3,它是一种用来由数据构造决策树的递归过程。第10页,共47页,2023年,2月20日,星期五lD3算法的步骤试探性地选择一个属性放置在根节点,并对该属性的每个值产生一个分支。分裂根节点上的数据集,并移到子女节点,产生一棵局部树(partialtree)。对该划分的质量进行评估。对其他属性重复该过程。每个用于划分的属性产生一棵局部树。根据局部树的质量,选择一棵局部树。对选定的局部树的每个子女节点重复以上1-6步。这是一个递归过程。如果一个节点上的所有实例都具有相同的类,则停止局部树的生长。第11页,共47页,2023年,2月20日,星期五气象数据集示例(1)第12页,共47页,2023年,2月20日,星期五第13页,共47页,2023年,2月20日,星期五气象数据集示例(2)有4个属性,因此有4棵可能的局部树,见图4-3所示。哪一棵局部树最好?叶节点上显示了“yes”和“no”类的数目。只具有一个类(“yes”或“no”)的叶节点不必再进一步划分,并且到该分支的递归过程将结束。由于我们寻找小树,因此希望停止划分尽可能早地发生。如果我们具有节点纯度的度量,那么应当选择产生最纯子女节点的属性。第14页,共47页,2023年,2月20日,星期五气象数据集示例(3)观察4个图,并仔细思索你认为哪个属性是最佳选择。我们需要一种度量来度量节点的纯度,并需要一种度量告诉我们根据一个变量的属性值将一个不纯的节点上的数据划分到其子女后,纯度提高了多少。最为广泛使用的度量是信息熵。第15页,共47页,2023年,2月20日,星期五4.2.2信息论和信息熵信息论(informationtheory)是数学中的概率论和数理统计的一个分支,用于处理信息和信息熵、通信系统、数据传输率和失真理论、密码学、信噪比、数据压缩和相关课题。ClaudeShannon(1916--2001)被称为信息论之父。他的理论“将信息传输看作一种统计学现象”,并且为通信工程师提供了一种方法,使用普通的二进制位流确定通信信道的容量。该理论的信息传输并不“关注信息或消息内容本身”第16页,共47页,2023年,2月20日,星期五熵(entropy)是源于热力学的概念,随后出现信息论中。热力学熵(thermodynamicentropy)S(在化学和热力学中简称熵)是物理系统中不能用来做功的能量的一种度量。它也是系统无序性的一种度量。第17页,共47页,2023年,2月20日,星期五在构造决策树的过程中,熵定义为无序性度量很合适。如果一个节点上的数据的类值在可能的类值上均匀分布,则称节点的熵(无序性)最大。如果一个节点上的数据的类值对于所有数据都相同,则熵最小。通过分裂,我们希望得到尽可能纯的节点。这相当于降低系统的熵:1)当一个节点上的“yes”或“no”的个数为零时,信息熵为零。2)当一个节点上的“yes”和“no”的个数相等时,信息熵最大。这样的节点是最不纯的节点。第18页,共47页,2023年,2月20日,星期五信息值或熵熵函数:单位是位(bit)第19页,共47页,2023年,2月20日,星期五4.2.3划分的选择信息增益(informationgain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),根据它能够确定在什么样的层次上选择什么样的变量来分类。(百度)划分的选择:计算分类前的信息值info([9,5])=0.940位计算每一个分支的信息值info([2,3],[4,0],[3,2])=0.693位计算信息增益info([9,5])-info([2,3],[4,0],[3,2])=0.247位选择获得最大信息增益的属性进行划分第20页,共47页,2023年,2月20日,星期五划分过程的终止当所有叶节点都是纯的。因训练集包含两个具有相同属性集,但具有不同类的实例。第21页,共47页,2023年,2月20日,星期五4.2.4高分支属性当某些属性具有大量可能值时,会导致具有许多子女节点的多路分支出现,信息增益的计算就会出现问题。例如,标识码(identification)属性。信息值为0,增益最大第22页,共47页,2023年,2月20日,星期五增益率总体效果是:信息增益度量趋向于选择具有大量可能值的属性。作为补偿,通常使用一种称作增益率(gainratio)的度量变型。增益率通过考虑属性划分数据集产生的子女节点的个数和大小,忽略关于类的信息导出。上例所有的计数值均为1,因此划分信息值是

info([1,…,1])=-1/14xlog1/14x1/14=logl4或(3.807位)分支越多,该值越大。具有较高分支的属性,该固有信息值较高。增益率,由信息增益除以该固有信息值得到。例:增益率值0.940/3.807=0.246

各属性树桩的计算结果见表4-7第23页,共47页,2023年,2月20日,星期五4.2.5从ID3到C4.5

决策树归纳(有时也称决策树的自顶向下归纳)的分治技术由澳大利亚悉尼大学的RossQuinlan开发并经过多年优化。增益率的使用正是多年来对ID3的诸多改进之一;它在众多环境下具有鲁棒性。尽管这是一个实际的解决方案,但是它牺牲了信息增益标准的某些优雅和整洁的理论动机。C4.5对ID3进行了一系列改进。这些改进包括处理数值属性、缺失值、噪声数据和由决策树产生规则的方法。第24页,共47页,2023年,2月20日,星期五4.2.6形象化地理解ID3和C4.5算法第25页,共47页,2023年,2月20日,星期五4.3剪枝导论修剪树模型的动机:树的构建一般是使用一种递归划分训练集的算法得到。这样做的结果是,随着树的生长,最佳划分的选择基于越来越小的样本来进行。树的较低层上划分选择通常会变得统计上不可靠,尽管基于训练数据的误差估计(所有节点中误分类的数据总数在数据点总数中所占的比例)持续降低。通常不太可能认为这种误差估计可以泛化到未见过的案例上,并且称树过分拟合训练数据。这意味树捕获了训练样本的规律,而不是得到样本的领域(总体)的规律。第26页,共47页,2023年,2月20日,星期五剪枝(1)Schaffer指出,剪枝不可能视为改善树预测误差的统计手段。事实上,很容易找到一个现实世界领域,剪枝对于独立的、大量检验样本而言,会降低预测准确率。剪枝应当被视为优先选择较简单的模型。理解不同剪枝方法的偏倚将对选择最适合用户偏爱的策略提供有用的提示。第27页,共47页,2023年,2月20日,星期五剪枝(2)后剪枝是一个过程,通过该过程产生一棵大树,然后使用可靠的评估方法选择对初始模型而言“尺寸合适的”剪枝后的树。后剪枝方法是计算低效的,即通常可以找到一个领域,其中具有数千个节点的大树经过后剪枝得到具有数百个节点的树。先剪枝:一旦进一步划分被认为是不可靠的,就尽快停止树的生长。与后剪枝相比,先剪枝具有明显的计算优势,可以较早地停止树的生长,并且还可以避免后剪枝。然而,过早地停止树的生成会使这种方法面临选择次最优树的危险(Breiman等,1984)。正因为如此,通常避免过分拟合的方法是后剪枝。第28页,共47页,2023年,2月20日,星期五后剪枝后剪枝的两种不同的操作:子树置换(subtreereplacement),子树提升(subtreeraising)。在每个节点,学习方案可以决定是应该进行子树置换、子树提升,还是保留子树不剪枝。第29页,共47页,2023年,2月20日,星期五子树置换第30页,共47页,2023年,2月20日,星期五子树提升第31页,共47页,2023年,2月20日,星期五4.4模型评估评估是使数据挖掘取得实际进展的关键。在数据挖掘过程的最后阶段,使用一种或多种归纳学习技术得到模型之后,仍然还存在一些重要问题:

1)如何验证和确认模型?2)对于一个具体问题,使用哪种方法?3)如何将一种方法与另一种比较?第32页,共47页,2023年,2月20日,星期五确认(validation)和验证(verification)模型确认:用合格检验证明模型在其应用范围内,按照用户确定的目标,以满意的正确率进行工作。换言之,在模型确认中,我们证实数据转换为模型,并且它在表示被观测系统方面具有足够精度。处理构造正确的模型——对应于系统的模型。模型验证:证实模型是由数据转换来的、具有足够精度的新表示。处理正确地构造模型——对应于数据的模型。数据挖掘结果通过检验过程加以确认和验证。某些检验用来评估模型的行为的正确性(即确认),而另一些检验旨在评估数据转换成模型的正确性(即验证)。第33页,共47页,2023年,2月20日,星期五数据集的问题丰富的数据可用时:在一个大训练集上构造模型,并在另一个大检验集上检验它。但是,尽管数据挖掘有时涉及“大数据”(特别是在营销、销售和顾客支持应用中),但是通常数据(高质量的数据)是短缺的。基于有限数据:如果样本数量较小,那么数据挖掘实验的设计者就必须非常小心地划分数据。如何将样本划分成子集没有现成的指导原则。无论如何划分数据,都应当明白,不同的随机划分,即使训练集和检验集都具有给定的规模,也将导致不同的误差估计。第34页,共47页,2023年,2月20日,星期五数据集的划分将数据集划分为训练和检验样本的不同方法,通常称作子抽样方法(resamplingmethod)。抽样方法与分析方法残相比的优缺点优点:不依赖于关于数据统计分布的假定或逼近函数的特定性质缺点:计算量大且基于子抽样策略估计方差较高。第35页,共47页,2023年,2月20日,星期五模型估计方法(1)模型估计的基本方法是:首先使用一部分数据集准备或发现模型,然后使用其余样本评估该模型的预测风险。第一部分数据称为学习集(1earningset),第二部分数据称为确认集(validationset),也称为检验集(testingset)第36页,共47页,2023年,2月20日,星期五模型估计方法(2)这种朴素策略(naivestrategy)基于如下假定:学习集和确认集是作为相同的、未知的数据分布的代表而选取的。对于大型数据集的确如此对于较小的数据集,这种策略具有明显的缺点。如果样本数较小,划分数据的具体方法对模型的准确率有所影响。各种子抽样方法,对于较小的数据集的划分策略各异。数据挖掘系统的设计者必须根据数据和问题的性质进行选择。第37页,共47页,2023年,2月20日,星期五再代入方法这是最简单的方法。所有可用的数据都用于训练和检验。训练和检验集相同。“数据分布”的误差率估计是偏向乐观的(估计的误差通常比模型实际应用期望的误差低)。这种方法很少在现实世界的数据挖掘应用中使用。在样本大小与维度的比不大时尤其如此。第38页,共47页,2023年,2月20日,星期五4.4.1交叉确认:保持方法考虑训练和检验数据量有限时该如何做?保持方法(holdoutmethod)为检验保留一定数量的样本,并使用其余样本进行训练(如果需要的话,用一部分样本进行确认)。在实践中,通常检验数据1/3,训练数据2/3。不同的划分将产生不同的估计。重复该过程,随机选择不同的训练和检验集,并将误差结果集成到一个标准参数中将改善模型的估计。这是误差率估计的重复保持(repeatedholdout)方法。第39页,共47页,2023年,2月20日,星期五保持方法根据所使用的用于选择训练和检验集的抽样类型,基本有两种保持方法。抽样可以是有放回或无放回的。有放回:留一方法、轮转方法无放回:自助方法留一方法:模型使用(n-1)个样本训练,而在剩下的一个样本上评估。这种方法重复n次,适用大小为(n

-1)的不同训练集。这种方法的计算量很大,因为必须构造和比较n个不同的模型。轮转方法(凡折交叉确认):这种方法是保持和留一方法的折衷。它将可用的样本划分成P个不相交的子集,其中1≤P≤n。(P一1)个子集用于训练,而剩下的一个子集用于检验。第40页,共47页,2023年,2月20日,星期五自助方法自助方法的基本思想是对数据集进行有放回抽样,以形成训练集。0.632自助法(0.632bootstrap):对有n个实例的数据集有放回地抽样n次,产生另一个有n个实例的数据集(用作检验实例)。由于第二个数据集中的某些元素(几乎肯定)是重复的,因此原数据集(训练集)中一定有一些实例未被选中。一个实例未被选到训练集中的可能性有多大?未选中的概率:e-1=0.368选中的概率:1-e-1=0.632第41页,共47页,2023年,2月20日,星期五4.4.2模型比较数据挖掘过程中,使用不同的归纳学习技术可产生不同的模型。可以使用标准误差率参数作为其性能度量进行评估。误差率表示真实误差率的一种近似,一个统计学习理论定义的参数。使用通过再抽样技术得到的检验数据集计算。除用误差率度量的准确率之外,数据挖掘模型还可以用它们的速度、鲁棒性、可伸缩性和可解释性来比较。而且,所有这些参数都会影响模型的最终验证和确认。第42页,共47页,2023年,2月20日,星期五误差率误差率的计算基于检验过程的错误计数。对于分类问题,这些错误简单地定义为误分类(将样本错误分类)。如果所有的错误都同等重要,则误差率R是错误数E除以检验集中的样本数S。R=E/S模型的正确率A是被正确分类的检验数据所占的比例。A

=1-R第43页,共47页,2023年,2月20日,星期五对于标准的分类问题,可能有多达m2-m类错误,其中m是类的数目。如果只

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论