决策树与模型评估教材_第1页
决策树与模型评估教材_第2页
决策树与模型评估教材_第3页
决策树与模型评估教材_第4页
决策树与模型评估教材_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章分类:基本概念、决策树与模型评估4.1预备知识4.2解决分类问题的一般方法4.3决策树归纳4.4模型的过分拟合4.5评估分类器的性质4.6比较分类器的方法分类任务:确定对象属于哪个预定义的目标类例子:1、根据电子邮件的标题和内容检查出垃圾邮件。2、根据星系的形状对它们分类。螺旋状的星系椭圆状的星系一、预备知识分类任务的输入数据是记录的集合。每条记录也称实例或者样例,用元组(x,y)表示,其中x是属性的集合,而y是一个特殊的属性,指出样例的类标号(也成为分类属性或目标属性)。分类?回归?分类(classification)

通过学习得到一个目标函数(targetfunction),也成为分类模型(classificationmodel),把每个属性集x映射到一个预先定义的类标号y。目的:1、描述性建模

分类模型可以作为解释性的工具,用于区分不同类中的对象。2、预测性建模

分类模型还可以用于预测未知记录的类标号。名字体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号毒蜥冷血鳞片否否否是是?输入属性集(x)

分类模型输出类标号(y)分类器的任务:根据输入属性集x确定类标号y分类技术非常适合预测或描述二元或标称类型的数据集,对序数分类不太有效,因为分类技术不考虑隐含在目标类中的序关系。分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术决策树分类法基于规则的分类法神经网络支持向量机这些技术都使用一种学习算法确定分类模型,修改这个模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。训练算法的目标:建立具有很好的泛化能力的模型。二、解决分类问题的一般方法朴素贝叶斯分类法训练集:由类标号已知的记录构成检验集:由类标号未知的记录构成预测的类类=1类=0实际的类类=1类=0二类问题的混淆矩阵表中每个表项表示实际类标号为但是被预测为类的记录数。被分类模型正确预测的样本总数是,而被错误预测的样本总数是。虽然混淆矩阵提供衡量分类模型的信息,但是用一个数汇总这些信息更便于比较不同模型的性能。为实现这一目的,可以使用性能度量(performancemetric),如准确率(accuracy),其定义如下:同样,分类模型的性能也可以用错误率(errorrate)来表示,其定义如下:目标:寻求最高的准确率或者最低的错误率1、什么么是决决策树树?类似于于流程程图的的树结结构每个内内部节节点表表示在在一个个属性性上的的测试试每个分分枝代代表一一个测测试输输出每个叶叶节点点代表表类或或类分分布三、决决策树树(decisiontree)归纳纳3、决策策树的的使用用:对对未知知样本本进行行分类类通过将将样本本的属属性值值与决决策树树相比比较2、决策策树的的生成成由两两个阶阶段组组成决策树树构建建开始时时,所所有的的训练练样本本都在在根节节点递归通通过选选定的的属性性,来来划分分样本本((必须须是离离散值值)树剪枝枝许多分分枝反反映的的是训训练数数据中中的噪噪声和和孤立立点,,树剪剪枝试试图检检测和和剪去去这种种分枝枝根结点点(rootnode):它它没有有入边边,但但是有有零条条或多多条出出边。。内部结结点((internalnode):恰恰好有有一条条入边边和两两条或或多条条出边边。叶节点点(leafnode)或终终结点点(terminalnode):恰恰好有有一条条入边边,但但没有有出边边。叶结点点根结点点内部结结点体温胎生非哺乳动物哺乳动物非哺乳动物恒温否冷血是一旦构构造了了决策策树,,对检检验记记录进进行分分类就就很容容易。。从树树的根根结点点开始始,将将测试试条件件用于于检验验记录录,根根据测测试结结果选选择适适当的的分支支。沿沿着该该分支支或者者到达达另一一个内内部结结点,,使用用新的的测试试条件件,或或者到到达一一个叶叶结点点。到到达叶叶结点点之后后,叶叶结点点的类类标号号就被被赋值值给该该检验验记录录。名字体温胎生……类标号火烈鸟恒温否……?体温胎生非哺乳动物哺乳动物非哺乳动物恒温否冷血是如何建立决决策树对于给定的的属性集,,可以构造造的决策树树的数目达达指数级。。尽管某些些决策树比比其他决策策树更准确确,但是由由于搜索空空间是指数数规模的,,找出最佳佳决策树在在计算上是是不可行的的。尽管如此,,人们还是是开发了一一些有效的的算法,能能够在合理理的时间内内构造出具具有一定准准确率的次次最优决策策树。这些些算法通常常都采用贪贪心策略。。有许多决策策树算法:Hunt算法信息增益——Informationgain(ID3)增益比率——Gainration(C4.5)基尼指数——Giniindex(SLIQ,SPRINT)在Hunt算法中,通通过将训练练记录相继继划分成较较纯的子集集,以递归归方式建立立决策树。。设是是与结结点t相关联的训训练记录集集,而是是类标号,,Hunt算法的递归归定义如下下。(1)如果中中所有记录录都属于同同一个类,,则t是叶结点,,用标标记。。(2)如果中中包含属于于多个类的的记录,则则选择一个个属性测试试条件,将将记录划分分成较小的的子集。对对于测试条条件的每个个输出,创创建一个子子女结点,,并根据测测试结果将将中中的记记录分布到到子女结点点中。然后后,对于每每个子女结结点,递归归地调用该该算法。Hunt算法Tid有房者婚姻状况年收入拖欠贷款者1是单身125k否2否已婚100k否3否单身70k否4是已婚120k否5否离异95k是6否已婚60k否7是离异220k否8否单身85k是9否已婚75k否10否单身90k是拖欠贷款者者=否拖欠贷款者者=否拖欠贷款者者=否有房者拖欠贷款者者=否有房者拖欠贷款者者=否婚姻状况年收入拖欠贷款者者=是拖欠贷款者者=否(b)(c)(d)(a)拖欠贷款者=否有房者拖欠贷款者=否婚姻状况拖欠贷款者=是是是否否否是单身离异单身离异已婚已婚<80k>=80kHunt算法构造决策策树如果属性值的的每种组合都都在训练数据据中出现,并并且每种组合合都具有唯一一的类标号,,则Hunt算法是有效的的。但是对于于大多数实际际情况,这些些假设太苛刻刻了,因此,,需要附加的的条件来处理理以下的情况况:(1)算法的第二二步所创建的的子女结点可可能为空,即即不存在与这这些结点相关关联的记录。。如果没有一一个训练记录录包含这样的的结点相关联联的属性值组组合,这种情情形就可能发发生。这时,,该结点成为为叶结点,类类标号为其父父结点上训练练记录中的多多数类。(2)在第二步,,如果与相相关联联的所有记录录都具有相同同的属性值((目标属性除除外),则不不可能进一步步划分这些记记录。在这种种情况下,该该结点为叶结结点,其标号号为与该结点点相关联的训训练记录中的的多数类。决策树归纳的的设计问题(1)如何分裂训训练记录?(2)如何停止分分裂过程?树增长过程的的每个递归步步骤都必须选选择一个属性性测试条件,,将记录划分分成较小的子子集。为了实实现这个步骤骤。算法必须须提供为不同同类型的属性性指定测试条条件的方法,,并且提供评评估每种测试试条件的客观观度量。决策树需要有有结束条件,,以终止决策策树的生长过过程。一个可可能的策略是是分裂结点,,直到所有的的记录都属于于同一个类,,或者所有的的记录都具有有相同的属性性值。表示属性测试试条件的方法法1、二元属性二元属性的测测试条件产生生两个可能的的输出。体温恒温冷血二元属性的测测试条件2、标称属性由于标称属性性有多个属性性值,它的测测试条件可以以用两种方法法表示。婚姻状况单身已婚离异婚姻状况已婚单身,离异婚姻状况离异单身,已婚婚姻状况单身已婚,离异多路划分二元划分(通通过属性值分分组)3、序数属性序数属性也可可以产生二元元或多路划分分,只要不违违背序数属性性值的有序性性,就可以对对属性值进行行分组。衬衣尺码小号,中号大号,加大号衬衣尺码小号中号,加大号衬衣尺码小号,大号中号,加大号(a)(b)(c)4、连续属性对于连续属性性来说,测试试条件可以是是具有二元输输出的比较测测试或或也也可以是是具有形如输输出的的范围查询。。年收入>80k(a)(b)年收入是否<10k{10k,25k}<10k{25k,50k}{50k,80k}连续属性的的测试条件件有很多度量量可以用来来确定划分分记录的最最佳方法,,这些度量量用划分前前和划分后后的记录的的类分布定定义。选择最佳划划分的度量量设表表示示给定结点点t中属于类i的记录所占占的比例,,有时,我我们省略结结点t,直接用表表示该比比例。在两两类问题中中,任意结结点的类分分布都可以以记作其其中。。性别男女车型家用运动豪华C0:6C1:4C0:4C1:6C0:1C1:3C0:8C1:0C0:1C1:7(b)(a)C0:1C1:0C0:1C1:0C0:0C1:1C0:0C1:1顾客IDv1v10v20v11(c)……选择最佳划划分的度量量通常是根根据划分后后子女结点点不纯性的的度量。不不纯的程度度越低,类类分布就越越倾斜。例例如(0,1)的结点具具有零不纯纯性,而均均衡分布((0.5,0.5)的结点具具有最高的的不纯性。。不纯性度度量的例子子包括:熵:基尼指数::分类误差::其中c是类的个数数,并且在在计算熵时时,结点N1计数类=00类=16结点N3计数类=03类=13结点N2计数类=01类=15二元分类问问题不纯性性度量之间间的比较不同的不纯纯性度量是是一致的,,但是作为为测试条件件的属性选选择仍然因因不纯性度度量的选择择而异。为确定测试试条件的效效果,我们们需要比较较父结点((划分前))的不纯性性程度和子子女结点((划分后))的不纯性性程度,它它们的差越越大,测试试条件的效效果就越好好。增益是是一种可以以用来确定定划分效果果的标准::其中,是是给给定结点的的不纯性度度量,N是父结点上上的记录总总数,k是属性值的的个数,是是与子子女结点相相关联的记记录个数。。决策树算法法选择最大大化增益的的测试条件件。B是否结点N1结点N2A是否结点N1结点N2父结点C06C16Gini=0.500N1N2C042C133Gini=0.486N1N2C015C142Gini=0.3711、二元属性性的划分2、标称属性性的划分车型{运动,豪华}{家用}C091C173Gini0.468车型{运动}{家用,豪华}C082C1010Gini0.167车型{家用}{运动}{豪华}C0181C1307Gini0.163(a)二元划分分(b)多路划分标称属性可可以产生二二元划分或或者多路划划分3、连续属性性的划分1.使用二元划划分2.划分点v选择N个记录中中所有属属性值作作为划分分点3.对每个划划分进行行类计数数,A<v和Av4.计算每个个候选点点v的Gini指标,并并从中选选择具有有最小值值的候选选划分点点5.时间复杂杂度为O(n2)降低计算算复杂性性的方法法:1.将记录进进行排序序2.从两个相相邻的排排过序的的属性值值之间选选择中间间值作为为划分点点3.计算每个个候选点点的Gini值4.时间复杂杂度为O(NlogN)4、增益率率熵和Gini指标等不不纯性度度量趋向向有利于于具有大大量不同同值的属属性。性别男女车型家用运动豪华C0:6C1:4C0:4C1:6C0:1C1:3C0:8C1:0C0:1C1:7(b)(a)测试条件件“车型型”要比比测试条条件“性性别”要要好,因因为它产产生了更更纯的派派生结点点。测试条件件“顾客客ID”相比前前两个产产生更纯纯的划分分,但是是它却不不是一个个有预测测性的属属性,因因为与每每个划分分相关联联的记录录太少,,以致不不能作出出可靠的的预测。。C0:1C1:0C0:1C1:0C0:0C1:1C0:0C1:1顾客IDv1v10v20v11(c)……如何解决决?第一种策策略:限限制测试试条件只只能是二二元划分分。第二种策策略:修修改评估估划分的的标准,,把属性性测试条条件产生生的输出出数也考考虑进去去。例如:CART就是采用用这样的的策略。。例如:决决策树算算法C4.5采用增益益率(gainratio)的划分分标准来来评估划划分。决策树归归纳特点点的总结结1、决策树树归纳是是一种构构建分类类模型的的非参数数方法。。2、找到最最佳的决决策树是是NP完全问题题。3、已开发发的构建建决策树树技术不不需要昂昂贵的计计算代价价,即使使训练集集非常大大,,也可以以快速建建立模型型。4、决策树树相对容容易解释释,特别别是小型型的决策策树。5、决策树树是学习习离散值值函数的的典型代代表。6、决策树树算法对对于噪声声的干扰扰具有相相当好的的鲁棒性性。7、冗余属属性不会会对决策策树的准准确率造造成不利利的影响响。8、由于大大多数决决策树算算法都采采用自顶顶向下的的递归划划分方法法,因此此沿着树树向下,,记录会会越来越越少。9、子树可可能在决决策树中中重复多多次,这这使得决决策树过过于复杂杂,并且且可能更更难解释释。10、目前为为止,本本章介绍绍的测试试条件每每次都只只涉及一一个属性性。二维数据据集的决决策树及及其边界界示例使用仅涉涉及单个个属性的的测试条条件不能能有效划划分的数数据集的的例子斜决策树树(obliquedecisiontree)可以克克服以上上的局限限,因为为它允许许测试条条件涉及及多个属属性。上上图中的的数据集集可以很很容易地地用斜决决策树表表示,该该决策树树只有一一个结点点,其测测试条件件为:缺点:尽尽管这种种技术有有更强的的表达能能力,并并且能够够产生更更紧凑的的决策树树,但是是为给定定的结点点找出最最佳测试试条件的的计算可可能是相相当复杂杂的。x+y<1Class=+

Class=构造归纳纳(constructiveinduction)提供另一一种将数数据划分分成齐次次非矩形形区域的的方法,,该方法法创建复复合属性性,代表表已有属属性的算算术或逻逻辑组合合。新属属性提供供了更好好的类区区分能力力,并在在决策树树归纳之之前就增增广到数数据集中中。与决策树树不同,,构造归归纳不需需要昂贵贵的花费费,因为为在构造造决策树树之前,,它只需需要一次次性地确确定属性性的所有有相关组组合,相相比之下下,在扩扩展每个个内部结结点时,,斜决策策树都需需要动态态地确定定正确的的属性组组合。然然而构造造归纳会会产生冗冗余的属属性,因因为新创创建的属属性是已已有属性性的组合合。11、研究表表明不纯纯性度量量方法的的选择对对决策树树算法的的性能影影响很小小。分类模型误差训练误差泛化误差一个好的的分类模模型必须须具有低低训练误误差和低低泛化误误差。四、模型型的过分分拟合二维数据据过分拟拟合的例例子下图所示示的二维维数据集集中的数数据点属属于两个个类,分分别标记记为类““o”和类““+”,类““o”的数据据点由三三个高斯斯分布混混合产生生,而类类“+”的数据据点用一一个均匀匀分布产产生。数数据集中中,总共共有1200个数据点点是属于于类“o”,1800个数据点点属于类类“+”,其中中30%的点用于于训练,,剩下的的70%用于检验验。对训训练集使使用以Gini指标作为为不纯性性度量的的决策树树方法。。具有两个个类的数数据集的的例子当决策树树很小时时,训练练误差和和检验误误差都很很大,这这种情况况称作模模型拟合合不足((modelunderfitting)。出现现拟合不不足的原原因是模模型尚未未学习到到数据的的真实结结构,因因此,模模型在训训练集和和检验集集上的性性能都很很差。一旦树的的规模变变得太大大,即使使训练误误差还在在降低,,但是检检验误差差开始增增大,这这种现象象称为模模型过分分拟合((modeloverfitting)。训练误差差和检验验误差为理解过过分拟合合现象,,举个例例子:可可以扩展展树的叶叶结点,,直到它它完全拟拟合训练练数据。。虽然这这样一颗颗复杂的的树的训训练误差差为0,但是检检验误差差可能很很大,因因为该树树可能包包含这样样的结点点,它们们偶然地地拟合训训练数据据中某些些噪声。。这些结结点降低低了决策策树的性性能,因因为他们们不能很很好的泛泛化到检检验样本本。(a)包含11个叶结点点的决策策树(b)包含24个叶结点的决决策树过分拟合与拟拟合不足是两两种与模型复复杂度有关的的异常现象。。名称体温胎生4条腿冬眠类标号豪猪恒温是是是是猫恒温是是否是蝙蝠恒温是否是否*鲸恒温是否否否*蝾螈冷血否是是否科莫多巨蜥冷血否是否否蟒蛇冷血否否是否鲑鱼冷血否否否否鹰恒温否否否否虹鳉冷血是否否否哺乳动物分类类的训练数据据集样本。((“*”为错错误标记记录录)十个训练记录录中有两个被被错误标记::蝙蝠和鲸被被错误标记为为非哺乳动物物,而不是哺哺乳动物。噪声导致的过过分拟合名称体温胎生4条腿冬眠类标号人恒温是否否是鸽子恒温否否否否象恒温是是否是豹纹鲨冷血是否否否海龟冷血否是否否企鹅冷血否否否否鳗冷血否否否否海豚恒温是否否是针鼹恒温否是是是希拉毒蜥冷血否是是否哺乳动物分类类的检验数据据集样本。完全拟合训练练数据的决策策树显示在下下图(a)中,虽然该该树的训练误误差为0,但是它在检检验数据集上上的误差高达达30%。体温恒温冷血胎生4条腿哺乳类动物非哺乳类动物非哺乳类动物非哺乳类动物是否是否体温恒温冷血胎生非哺乳类动物非哺乳类动物是否哺乳类动物(a)模型M1(b)模型M2图(b)中决策树M2尽管训练误差差较高(20%),但是它具具有较低的检检验误差。缺乏代表性样样本导致的过过分拟合名称体温胎生4条腿冬眠类标号蝾螈冷血否是是否虹鳉冷血是否否否鹰恒温否否否否弱夜鹰恒温否否是否鸭嘴兽恒温否是是是体温恒温冷血冬眠4条腿哺乳类动物非哺乳类动物非哺乳类动物非哺乳类动物是否是否人、大象和海海豚都被误分分类,因为决决策树把恒温温但不冬眠的的脊柱动物划划分为非哺乳乳动物。决策策树做出这样样的分类决策策是因为只有有一个训练记记录(鹰)具具有这些特性性。过分拟合与多多重比较过程程1、在决策树增增长过程中,,可以进行多多种测试,以以确定哪个属属性能够最好好的划分训练练数据。2、在这种情况况下,算法实实际上是使用用多重比较过过程来决定是是否需要扩展展决策树。3、当候选属性性多,训练记记录数少时,,这种影响就就变得更加明明显。多重比较过程程与模型过分分拟合有什么么关系?1、过分拟合的的主要原因一一直是个争辩辩的话题,但但大家还是普普遍同意模型型的复杂度对对模型的过分分拟合有影响响。2、如何确定正正确的模型复复杂度?理想想的复杂度是是能产生最低低泛化误差的的模型的复杂杂度。3、估计泛化误误差的方法使用再代入估估计。用训练练误差提供对对泛化误差的的乐观估计结合模型复杂杂度估计统计上界界使用确定集泛化误差估计计泛化误差估计计1、使用再代入入估计再代入估计方方法假设训练练数据集可以以很好地代表表整体数据,,因而,可以以使用训练误误差(又称再再代入误差))提供泛化误误差的乐观估估计。但是训练误差差通常是泛化化误差的一种种很差的估计计。考虑下图中的的二叉决策树树。假设两颗颗决策树都由由相同的训练练数据产生,,并且都根据据每个叶结点点多数类做出出划分。注意意,左边的树树T1复杂一些,它它扩展了右边边决策树T2的某些结点。。左决策树的的训练误差是是,,而右决策树树的训练误差差是。。根根据再代入估估计,左决策策树要优于右右决策树。+:3-:0+:3-:1+:1-:2+:0-:2+:2-:1+:3-:1+:0-:5+:3-:6+:3-:0+:1-:4+:5-:2决策树T1决策树T22、结合模型复复杂度如之前所述,,模型越是复复杂,出现过过分拟合的几几率就越高,,因此,我们们更喜欢采用用较为简单的的模型。这种种策略与应用用众所周知的的奥卡姆剃刀刀一致。奥卡姆剃刀::给定两个具具有相同泛化化误差的模型型,较简单的的模型比较复复杂的模型更更可取。悲观误差评估估:使用训练误误差与模型复复杂度罚项((penaltyterm)的和计算泛泛化误差。结结果泛化误差差可以看作模模型的悲观误误差估计。设设n(t)是结点t分类的训练记记录数,e(t)是被误分类的的记录数。决决策树T的悲观误差估估计可可以用下式计计算:其中,k是决策树的叶叶结点数,e(T)是决策树的总总训练误差,,是训练练记录数,是是每个结点点对应应的罚项。+:3-:0+:3-:1+:1-:2+:0-:2+:2-:1+:3-:1+:0-:5+:3-:6+:3-:0+:1-:4+:5-:2决策树T1决策树T2考虑上图的二二叉决策树。。如果罚项等等于0.5,左边的决策策树的悲观误误差估计为::右边的决策树树的悲观误差差估计为:此时,左边的的决策树比右右边的决策树树具有更好的的悲观误差估估计。最小描述长度度原则(minimumdescriptionlength,MDL)标记的未标记的Cost是传输总代价价。目标:最最小化Cost值。其中Cost(Data|Model)是误分类记录录编码的开销销。Cost(Model)是模型编码的开销销。另一种可能是是,A决定建立一个个分类模型,,概括X和y点之间的关系系。Cost(Model,Data)=Cost(Data|Model)+Cost(Model)3、估计统计上上界泛化误差也可可以用训练误误差的统计修修正来估计。。因为泛化误误差倾向于比比训练误差大大,所以统计计修正通常是是计算训练误误差的上界。。4、使用确认集集在该方法中,,不是用训练练集估计泛化化误差,而是是把原始的训训练数据集分分为两个较小小的子集,一一个子集用于于训练,而另另一个称为确确认集,用于于估计泛化误误差。2/3训练集建立模型误差估计1/3训练集该方法通常用用于通过参数数控制获得具具有不同复杂杂度模型的分分类技术。通通过调整学习习算法中的参参数,直到学学习算法产生生的模型在确确认集上达到到最低的错误误率,可以估估计最佳模型型的复杂度。。处理决策树归归纳中的过分分拟合先剪枝(提前终止规则则)树增长算法在在产生完全拟拟合整个训练练数据集的之之前就停止决决策树的生长长为了做到这一一点,需要采采用更具限制制性的结束条条件:当结点的记录录数少于一定定阈值,则停停止生长当不纯性度量量的增益低于于某个确定的的阈值时,则则停止生长(e.g.,informationgain).缺点:很难为为提前终止选选取正确的阈阈值:(1)阈值太高,,导致拟合不不足(2)阈值太低,,导致不能充充分解决过分分拟合的问题题。后剪枝在该方法中,,初始决策树树按照最大规规模生长,然然后进行剪枝枝的步骤,按按照自底向上上的方式修剪剪完全增长的的决策树。修剪有两种做做法:(1)用新的叶结结点替换子树树,该叶结点点的类标号由由子树下记录录中的多数类类定(2)用子树中最最常用的分支支代替子树五、评估分类类器的性能一、保持(Holdout)方法将被标记的原原始数据划分分成两个不相相交的集合,,分别成为训训练集和检验验集。在训练练集上归纳分分类模型,在在检验集上评评估模型的性性能。局限性:1、用于训练的的被标记样本本较少。2、模型可能高高度依赖于训训练集和检验验集的构成。。二、随机二次次抽样(randomsubsampling)随机二次抽样样可以多次重重复保持方法法来改进分类类器性能的估估计。由于它没有控控制每个记录录用于训练和和检验的次数数,因此,有有些用于训练练的记录使用用的频率可能能比其他记录录高得多。三、交叉验证证(cross-validation)在该方法中,,每个记录用用于训练的次次数相同,并并且恰好检验验一次。例:假设把数数据分为相同同大小的两个个子集,首先先,我们选择择一个子集作作训练集,而而另一个作检检验集,然后后交换两个集集合的角色,,原先作训练练集的现在作作检验集,反反之亦然,这这种方法叫做做二折交叉验验证。四、自助(bootstrap)法在自助法中,,训练记录采采用有放回抽抽样使得它等等几率地被重重新抽取。如如果原始数据据有N个记录录,可可以证证明,,平均均来说说,大大小为为N的自助助样本本大约约包含含原始始数据据的63.2%的记录录。至少一一个记记录被被自助助样本本抽取取的概概率它通过过组合合每个个自助助样本本的准准确率率和和由包包含所所有标标记样样本的的训练练集计计算的的准确确率计计算算总准准确率率::六、比比较分分类器器的方方法考虑一一对分分类模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论