




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、模糊随机森林Piero Bonissone a, Jos M. Cadenas b,*, M. Carmen Garrido b, R. Andrs Daz-Valladares c摘要:当将单个分类器非常适宜的组合到一起时候,获得的分类精度通常会显著增加。多分类器系统就是几个单独的分类器相组合的结果。接下来文中提到的Breiman研究方法,多分类器系统是建立在模糊决策树形成的“森林根底上的,例如:以提出的模糊随机森林为根底。这种方法结合了多分类器系统的鲁棒性,而且随机性增加了树的多样化,模糊逻辑和模糊集的灵活性也增强了不完全数据的管理能力。本文提出了利用各种组合的方法来获得多分类器系统最终决
2、策的方法,而且对它们进行了比拟。其中一局部用组合方法加权,它给多分类器系统(叶子或树)的不同决策一个权重。对几个数据集的比照研究说明了提出的多分类器系统和不同组合方法的高效性。多分类器系统具有很好的分类精度,当测试普通的数据集,可以同最好的分类器相媲美。然而,与其他分类不同的是,当测试不完整的数据集有缺失和模糊值,提出的分类器测试精度分类精度也很好。引言分类一直是一个具有挑战性的问题1,14。可用于企业和个人的信息爆炸,进一步加剧了这个问题。目前已经有许多技术和算法解决分类问题。在过去的几年里,我们还看到了基于各种方法的多分类系统方法的增加,多分类系统方法已经被证明比单个分类器的结果要好27。
3、然而,不完全信息不可防止地会出现在现实领域和状况下。当测量一个特定的属性时候,实验过程中的器材故障或噪音影响可能会导致数据信息的不完整。换句话说,如果我们想得到非常准确的信息,代价会非常昂贵或者根本不可能。此外,有时从专家那里获得额外的信息可能会很有用,这通常是涉及种类的模糊概念的时候:小,多或少,接近等。大多数现实世界的问题,数据有一定程度的不精确。有时,这种不精确非常小是可以忽略的。其他时候,不精确的数据可以通过一个概率分布建立模型。最后,还第三个问题,不精确是非常明显而且概率分布不是自然模型的情况。因此,本身存在模糊的数据,9,28,30,31也存在一些实际的问题。 因此,有必要用属性来
4、处理信息,反过来讲,分类技术在知识学习和分类方面对信息丧失和值不准确的研究是有价值的。此外,这种方法可取还因为它在处理噪音数据的时候具有鲁棒性。在本文中,我们将集中讨论如何开始多分类器系统,使得他它可以和最好的分类器相媲美甚至比最好的分类器分类效果还要好,然后把它扩展到不完全信息上面缺失值和模糊值,使其在处理符号属性和数值属性6,10有噪音的数据具有鲁棒性。要构建多分类器系统,我们按照随机森林方法8,以及处理不完整信息的方法,我们通过使用模糊决策树作为基分类器构建随机森林。因此,我们尝试综合使用两者的鲁棒性,一个树集成和一个模糊决策树,随机性增加了森林中树的多样性并增强了模糊逻辑及模糊集管理不
5、完整数据的灵活性。多数投票法是随机森林标准组合方法。如果分类器具有不相同的精度,那么当使用加权的多数投票法,在得到最后决策的时候,给比拟有“能力的分类器大点的权值是合理的。在这项工作中,我们提出多分类器系统通过不同加权组合方法获得最终决策的方法,并对它们进行了比拟。在第2节中,我们回忆了构成一个多分类器系统的主要元素,对如何将每个分类器的输出结合起来产生最终的决策提出了简明的描述,我们还讨论了分类技术中模糊逻辑组合方面的一些问题。在第3节中,我们解释了多分类器系统的学习和分类方面问题,多分类器系统我们也把它称作模糊随机森林。在第4节,我们定义了模糊随机森林结合方法。在第5节,我们展示了模糊随机
6、森林不同的计算结果。最后,在第六节中给出了结论。2 多分类器系统和模糊逻辑当我们把单独的分类器合理组合在一起时,多分类器系统和模糊逻辑,在分类精度上通常能有一个更好的性能或者能够更快的找到更好的解决方案1。多分类器系统是由几个单独的分类器相组合而成。多分类器系统在基分类器的类型和数目、每个分类器使用的数据集的属性、最终的决策中每个分类器的决策组合、分类器使用的数据集的大小和性质等方面有所不同。2.1.基于决策树的总效果近年来,一些技术被提出使用在不同的基分类器上。然而,这项工作集中在使用决策树作为基分类器的集成上。因此,我们在论文中按时间顺序说明了这个概念的进化。Bagging 7可以称得上是
7、实现分类器集成的最古老的技术之一。在bagging方法中,通过使用不同的样例集建立每个分类器,可以让分类器多样化,这些样例集合是通过放回式重新采样方法从原始训练集中得到的。Bagging之后便利用这些分类器的决策通过使用统一加权进行投票。boosting算法15,32通过一次增加一个分类器实现集成。第K步参加集成的分类器是从原始数据集选择出的数据集中训练出来的。开始样例分布是均匀的,然后新的数据集增加误判样例的可能性的例子。因此,分布在每一步都在进行修改,在第K步中增加了在第K-1步分类器误判的样例的可能性。 Ho的随机子空间技术19,在训练集成用的单个分类器时,在可用的属性中随机选择子集。D
8、ietterich 13提出一种方法叫做随机化。这种方法中,在集成用的每棵树的每个结点,定好分裂结点最好的20个属性,每一个结点随机的使选择其中一个。最后,Breiman 8提出了随机森林集成,其中,随机属性选择通过串联方式使用bagging方法。森林的每棵树的每个结点,可用属性的子集是随机选取的,结点选择这些属性中可以用的最好的属性。在每个结点属性的数量随机选择,这个数量是这个方法的一个参数。在最近的一篇文章3,Banfield等人比拟了这些决策树集成创新技术。他们提出了在每个数据集上用算法的平均排序进行评估的方法。2.2.组合方法在24,25的文献中有一些关于分类器组合的观点。在这篇文章中
9、,我们继续多分类器系统组合分组方法用于可训练的和不可训练中的观点。非可训练组合器指的是那些集成中的分类器单独训练成之后不再需要训练。可训练组合器指的是在分类器单独训练中或训练之后可能还需要训练。在文献中可训练的组合器也被称为数据依赖的组合器,并分为隐式依赖和显式依赖。隐式数据依赖组包含可训练组合器,在可训练组合器中组合样例的参数不依赖目标例子。换句话说,在系统用于新的样例分类之前参数是训练好的。显式数据依赖组合器使用的参数是目标例子的函数。2.3.分类技术中的模糊逻辑虽然决策树技术已经被证明是可解释的,高效的,能够处理大数据集,但在训练集中遇到小扰动时却高度不稳定。出于这个原因,模糊逻辑已被纳
10、入决策树建立技术。凭借其内在的弹性,模糊逻辑提供了克服这种不稳定性的解决方案。在21-23,26,29中,我们找到一些模糊集及其根本近似推理能力成功地与决策树相结合的方法。这种集成保存了两个组成局部的优势:用可理解性语言变量和决策树的普及及其简易来管理不确定。由此产生的树显示出对噪声的鲁棒性的增强,对模糊和不确定情况进行了扩展应用,并支持树状结构的可理解性,这种树状结构仍然是产生知识的主要代表。因此,我们以模糊决策树为基分类器提出随机森林。在决策树为根底的各种集成技术之中,我们选择随机森林,是因为,如boosting,会产生最好的结果3。此外,如8中的结论,随机森林比基于boosting的集成
11、更耐噪音当训练集中类属性值的一小局部是随机改变的。因此,与单个分类器相比拟,我们采用了多分类器系统的结果,基于随机森林的集成使用模糊决策树作为基分类器而不使用清晰决策树,增强了抗噪能力。此外,模糊决策树的使用增加了随机森林的优势,我们之前已经阐述了这种技术的类型:用语言变量的可理解性管理不确定性,扩展了不确定或模糊的应用。3模糊随机森林:基于模糊决策树的集成继Breimans的方法,我们提出了多分类器系统,它是一种模糊决策树形成的随机森林。我们将它作为模糊随机森林集成,并把它记作FRF集成。 在本节中,我们描述了建立多分类器系统学习阶段的要求,及其分类阶段。在Breiman8提出的随机森林中,
12、每个树建造成最大并且不修剪。在每棵树的建造过程中,每一次结点需要分裂即在结点选择一次测试,我们只考虑可用属性全集的一个子集和实现每次分裂的一个新的随机选择。这个子集的大小是随机森林中唯一的重要设计参数。因此,每次分裂时,一些属性包括最好的可能不会被考虑,但在同一个树中,一次分裂中不包括的属性在其他分裂中可能会被用到。随机森林有两个随机元素8:1bagging用来对每个树的输入数据集的进行选择;及2属性的集合被看成是每个结点分裂的候选。这些随机化增加了树的多样性,当他们的输出组合到一起时,整体的预测精度显著提高。当一个随机森林建成,森林中每棵树约1 /3的样例的训练集中去除。这些样例被称为“走出
13、袋外OOB8;每个树有一组不同的OOB样例。OOB例子并不用来建造树,而是为树建立一个独立的测试样本8。3.1模糊随机森林学习我们提出算法1来生成随机森林,它的树是模糊决策树,因此定义一个根本的的算法来生成FRF集成。 FRF集成中的每一棵树沿着指导生成的都是模糊树,修改它以适应FRF集成的函数方案。算法2展示了生成算法。算法2可以在建树的时候不用考虑分裂结点的所有属性。我们在每个节点随机选择可用属性全集的一个子集,然后选择最好的一个进行分裂。因此一些属性包括最好的那个在每次分裂的时候可能不会被考虑,但是再一次分裂中没有用到的属性在这个树进行其他结点分裂的时候可能会用到。算法2是基于ID3的建
14、树方法,数值属性通过模糊划别离散化。本研究就是用11中提到的对数值属性进行模糊划分算法的方法。每个数值属性的域用梯形模糊集来表示。所以树的每一个内部结点的划分是建立在数值属性根底上的,这将为每一个模糊集的划分产生一个孩子结点。每个属性的模糊划分保证了完整性域中没有点在模糊化分之外,而且是强化分(满足,它们是划分的模糊集,它的隶属函数是)。此外,算法2使用一个叫做的函数,指的是样例满足形成树的结点的程度。这个函数的定义如下:树中用到的每一个样例指派了一个初始值1,说明这个例子刚开始的时候只能在树的根结点找到。 基于数值属性的分裂,根据样例属于不同模糊集划分的隶属程度,这个样例可能属于一个或者两个
15、孩子结点,例如,这个样例到达孩子结点的隶属函数会大于零,。 当样例在结点分裂的属性有缺失值的时候,样例通过修改后的值到达每一个孩子结点。算法2中的停止原那么是(1)结点样例是纯的,例如结点包含的例子都是一类。(2)可用属性集为空(3)结点允许的样例的纯度最大值已经到达。当用上述算法做FRF集成的时候,我们获得了为每一个模糊树获得了OOB集。通过算法1和算法2,我们在Breiman的随机森林的设计原理中融合了模糊树的概念。3.2 模糊随机森林分类在这局部中,我们阐述了用FRF集成如何实现分类。首先,我们介绍用到的概念。然后,我们定义两个为目标样例获得FRF集成的主要策略。这些策略的具体样例将在下
16、一局部中定义,而且我们为FRF集成提出了不同的组合方法。 表示法 我们介绍一下在FRF集成中策略和组合方法用到的需要定义的一些标记。 是FRF集成中树的个数。我们用表示一棵特定的树。是树中到达一个样例的叶子结点的数目。模糊树中的内在刻画是对一个样例进行分类时,由于构成数值属性的划分的模糊集有交集,这个样例可能会被分到一个或者两个叶子中去。我们用表示树中特定的叶子。是类的个数。我们用表示某个特定的类。是我们用来做训练或者测试的一个样例。是样例从树到叶子结点满足的程度,我们在3.1中已经说明。对类的支持,在每个叶子结点可以用来获得,指的是叶子中属于类的程度之和,指的是那个叶子中的样例所有满足程度的
17、和。 是大小的一个矩阵,其中,矩阵中的每一个元素是大小的一个向量,它包含为每一个树起作用的叶子每个类提供的支持。矩阵中的一些元素不包含信息,因为不是所有森林中的树有个可到达的叶子,因此,矩阵包含FRF集成生成的所有信息,当它用来对样例进行分类,它用某些组合方法得到决策或者进行分类。指的是矩阵的一个元素,表示通过树的叶子对类的支持程度。假设矩阵的样例和,可能有:矩阵中的信息由FRF集成的每个模糊树直接提供。在这个矩阵中,我们通过相同的某种变换得到了新的信息,接下来在一些组合方法中我们还会用到这种变换。我们用到的变换是:变换1,定义变换1为:变换提供信息。每个叶子对多数类投出一票。例如,如果对之前
18、的矩阵申请这个变换我们会得到下面的矩阵:变换2:定义变换2为:变换提供信息,每一个叶子对多数类的投票权重是。例如,如果我们对先前的矩阵使用这个变换,我们得到如下的矩阵: 变换3,变换3定义为:变换提供信息,每一个叶子为每一个类提供支持,用样例到达叶子满足的程度来衡量。例如,如果我们对之前的矩阵提供这个变换,令,我们得到下面的矩阵:是一个大小为的矩阵,它包含每棵树对每个类别的肯定。当提供了一些组合方法矩阵中的元素从叶子的每一个支持类中获得。矩阵中的元素由表示。是大小的一个向量,表示FRF集成对每一类指定的肯定程度。当应用一些组合方法,矩阵的元素从叶子结点的类支持中获得。这个向量的一个元素用表示。
19、 FRF集成中的模糊分类模块的策略为了找出FRF集成给出的样例的类别,我们定义模糊分类模块。模糊分类模块操作FRF集成的模糊树,使用的是下面两种可能策略其中的一种:策略1:组合从每棵树中不同的叶子获得的信息来得到每个单独的树的决策,然后使用相同或者其他的组合方法来生成FRF集成的整体决策。为了组合每棵树中叶子的信息,我们使用函数和函数,函数是用来组合由函数得到的输出的。展示了策略。策略2:组合所有树中可达叶子的信息来生成FRF集成的整体决策。我们使用函数组合所有叶子生成的信息。展示了这个策略。函数和定义为在多分类器系统中24,25频繁的使用组合方法。在下一节中,我们将描述定义和函数的不同方法。
20、策略1是关于的,策略2是关于的。在算法3中我们实现了策略1。算法3中用来获取矩阵。在这种情况下,整合树中可达叶子的信息。之后在每棵树中获得值会通过函数的平均来整合,从而获得向量。这个算法用到一个目标样例和FRF集成,然后生成类值作为FRF集成的决策。为了实现策略2,简化之前算法3,使它不会向树里面参加信息,但是却通过FRF集成的不同树中的样例直接用到所有可达叶子的信息,算法4实现了策略2,并用样例进行分类,用FRF集成作为目标值,并给出了类值,这个类值是FRF集成的决策。整合FRF集成中不同树的所有可达叶子信息来形成向量。4.模糊随机森林集成中的组合方法 在前面的章节中,我们已给出分类的一般方
21、法,使用这种分类我们得到了模糊随机森林集成的最终决策。在这一节,我们将介绍为这两种策略所设计的组合方法的具体例子。 在所有的设计方法中,如果是为策略1算法3设计的方法,我们将描述函数和,如果是为策略2算法2设计得方法,我们将只描述,同时意味着我们将使用矩阵或是它的一种变换。 根据2.2章节所给出的分类,我们在以下几组中分列了几种方法。 不可训练方法:在这组中,我们基于简单多数投票给该方法下定义,这种方法在集成分类的单独训练之中或之后不需要再训练。这组包含我们称之为简单多数投票的方法,这种方法取决于分类策略,我们用SM1和SM2分别表示策略1和策略2。可训练方法:这组包含一些方法,它们在集成分类
22、的单独训练之中或之后需要再训练。在这组将给该方法下定义,通过额外训练,得到某些参数的值,这些参数在集成叶子或树各组成局部的决策中起加权或权重的作用。在这组中我们使用了显式数据依赖和隐式数据依赖。显式数据依赖方法:在替补组中的这种方法需要学习一个参数,这个参数依赖于用于分类的例子依赖于输入数据并且对于替补组的所有方法而言是很常见的。这个参数表示在集成中用于分类的例子到达各叶子的满足程度。在替补组中我们区别如下:通过叶子加权多数投票法应用于策略1和策略2,分别是MWLI和MWL2。那么不需要去学习任何其它的参数。通过叶子和树加权多数投票法应用于策略1和策略2,分别是MWLT1和MWTL2。这两种方
23、法都需要寻找一个额外的参数来指明集成决策中每个树的权重。该权重由OOB数据集获得。通过叶子和局部融合加权多数投票法应用于策略1和策略2,分别是MWLFUS1和MWLFUS2这需要寻找一个额外的参数。再者,它也是每个树权重的参数,而且它用一些和分类样例相似的样例局部融合通过考虑每个树的行为来得到。通过叶子和隶属函数加权多数投票法应用于策略1和策略2,分别是MWLF1和MWLF2。这需要寻找一个额外的参数来说明集成策略中每个树的权重,该参数通过一组函数来获得,而这组函数用以说明关于OOB数据集错误率的每个树的重要性。通过叶子和隶属函数最少加权法应用于策略1MIWLF1。这种方法与上面所提到的MWL
24、F1获得方法相同,只是以最少投票代替了最多投票。隐式数据依赖方法:替补组的方法需要学习的所有参数不依赖于分类例子。通过隶属函数加权多数投票法应用于策略1和策略2,分别是MWF1和MWF2,它只需要寻找一个参数以说明集成决策中每个树的权重,该参数通过一组函数来获得,而这组函数用以说明关于OOB数据集错误率的每个树的重要性。通过隶属函数加权最低投票法应用于策略1和策略2,分别是MIWF1和MIWF2。这两种方法与MWLF1和MWF2获得方法相同,只是以最低投票代替了最多投票。以上所提到的方法下面有详细描述。 4.1非可训练方法在这一组中,我们定义如下的方法:简单的多数投票法:在这个组合方法中,变换
25、适用于算法3和算法4中第2步的矩阵,以便每个可达叶子对多数类分配一个简单的投票。我们在使用的策略的根底上得到这种方法的两个版本:策略1SM1方法算法3中函数被定义为:在这个方法中,通过树中的样例。每个树分配一个简单的投票个可达叶子中简单的一票。 算法3中的函数定义为: 策略2SM2方法在策略2中有必要定义函数通过样例组合集成中所有可达叶子的信息,因此算法4中函数被定义为:4.2可训练的显式依赖方法 在这一节我们定义了如下的方法: 通过叶子加权多数投票法:在这些组合方法中,在算法3的第2步中,变换被用在矩阵中,从而使每个可达叶子给多数类分配一个加权的投票。投票用样例到叶子的满足程度加权。再次,我
26、们根据使用的策略有两个版本: 策略1-MWL1方法 函数和定义如下: 策略2-MWL2方法函数被定义为: 通过叶子和树加权多数投票法:在这种方法中,在算法3和算法4的第2步中,变换被用在矩阵中,使得根据对多数类满足的程度,每一个可达叶子给出一个加权投票。 此外,在这种方法中用OOB数据集训练每个单独的树来获得每个树权重。是分配给每个树的权重向量。每个由计算得到,其中是测试第个树用到的OOB数据集时分类正确的样例的数量,表示这些数据集中样例的总数目。 策略1-MWLT1方法 函数定义如下: 在函数中用到向量:策略2-MWLT2方法策略2用到权重向量:通过叶子和局部融合加权多数投票:这个组合方法,
27、在算法3和算法4的第2步,变换被用在矩阵中,使每个可达叶子分配一个加权票,另外根据满足的程度,用在多数类中。策略1-MWLFUS1方法函数定义如下:另外,对于每一个树和要分类的样例,中使用权重,可以通过下面讲的方法获得。为了获得这种组合方法,首先,在FRF集成的学习的过程中,我们从每个生成的树获得了额外的一个树,我们称作过失树。建立和第个树相关的过失树过程如下:我们用第个树的训练集建立树的一个测试。这样的话,我们用训练数据集作为测试集。用这个测试的结果,我们用相同的数据建立一个新的数据集(),属性错误说明样例是否被第个树正确分类例如,如果样例被树正确分类,约束属性可以取0,如果没被正确分类,就
28、是树产生了错误,取1。用这个新的数据集,建立新的树来学习属性错误。 在,是第个树的训练集,它包含用向量代表的样例。其中是第个树的训练集的第个样例;第个样例的属性类的值。这个属性是FRF集成的分类目标。是第 个树相关的错误数的训练集。它包含一些向量,表示如下: 是第个树中训练集的第个样例。是在数据集中作为类的属性。它用值约束属性。如果用第个树分类是错误的,取值为1。如果用第个树分类是正确的,取值为0。 一旦FRF集成和额外的过失树建立起来,对每个样例我们就会得到向量用来进行分类,FRF集成的每棵树用权重指派给每个树样例局部权。每个可由获得,其中指的是第个树的过失树。是错误树中样例可达叶子结点的数
29、量,是用样例到达过失树的叶子的满足程度,是在过失树的叶子中0类样例的划分约束属性错误=0的值。对于局部信息整合的模糊随机森林的结构我们想得到并使用这种方法的关键是使用一个局部的权重或者是一个局部的融合方法5。设一个新的样例,我们首先计算由那些和给定样例相似的样例所构成的树的性能,这些相似的样例来自训练数据集合。这些相似的样例属于某些过失树的叶子结点,而这些过失树能够使得样例到达最大广度。然后,根据这些样例的性能,我们就产生一个权值,这个权值和这棵树的决策有关。最后,函数由对应着每一个的样例e和树t所产生的权重的树的决策值来定义的。即策略2 MWLFUS2方法这种方法使用的是被用于策略2的权重向
30、量 。主要的权衡方法是由叶子和隶属函数决定的:在这种结合的方法中,TRANS2的变换被应用于算法3和4的Step 2的矩阵L_FRF中,因此对于大多数的分类情况,根据满意度,使得每一个最后一层的叶子节点被分配一个权重值。策略1 MWLF1方法函数定义如下:在这种方法中,函数衡量FRF整体的每一棵树的决策值,使用的是隶属函数,即,其中: pmax 是FRF整体的树的误差的最大比值,在一棵树t中,误差比值被定义为,其中是树t中分类错误的个数把数据集看成测试集,是数据集的基数。正如上面指出的一样,数据集的样例并没有用于构建树t ,实际上是作为与树t 无关的一个测试集。所以当分类数据集的样例时,我们可
31、以用分类的误差的数目来衡量树t 的好坏。 pmin是FRF整体的树的误差的最小比值。对于决策函数,在FRF整体的决策中,所有的树都有一个权重值,这个权重大于零。当误差率增加时权重值会减小,使得对应于最小的误差率的树的权重值等于1。因此,函数被定义如下:策略2 MWLF2方法在这种方法中,函数定义为;极小值权重由叶子和隶属函数来决定:在这种结合的方法中,TRANS3的变换被应用于算法3的Step 2的矩阵L_FRF中。策略1 MIWLF1方法函数被定义为:包含着权重的函数被定义为下式这个权重是由前面的模糊隶属函数定义的:4.3 可训练的完全依赖方法在这一局部,我们定义下面的方法。主要的权值依赖于
32、隶属函数:在这种结合方法中,TRANS1的变换被应用于算法3和4的Step 2的矩阵L_FRF中,使得根据大多数的分类情况,最后一层的叶子节点被分配到一个简单的权值。策略1 MWF1方法函数被定义为:。包含着权重的函数被定义为下式这个权重是由前面的模糊隶属函数定义的:。策略2 MWF2方法包含着由前面的模糊隶属函数定义的权重的函数被定义为下式:。极小值权重由隶属函数来决策。在这种结合的方法中,没有任何变形被应用于算法3的Step 2的矩阵L_FRF中。策略1 MIWF1方法函数被定义为:包含着由前面的模糊隶属函数定义的权重的函数被定义为下式:。5. 实验和结果在这一局部,我们给出了几种实验结果
33、,这些结果反映了提出的FRF集成方法的精度。实验局部安排如下:5.3局部的实验是用于评价FRF集成方法对于那些不完整的和有噪音的数据的性能和稳定性。换句话说,我们想测试FRF集成这种方法的性能,主要是对那些包含着丧失值的数据集。这些值由模糊集合产生模糊值,类别上的噪音或者是异常的样例。因此,我们进行两组实验:FRF集成方法对于那些不完整的数据的性能 丧失值 模糊值FRF集成方法对于那些有噪音的数据的性能 类别上的噪音 异常的样例5.4局部的实验是用于比拟FRF集成方法和其他的分类器和方法。首先,我们比拟FRF集成方法和其他的方法。和FRF集成方法相同,所有的这些方法都是使用相同的基分类器形成的
34、。我们仍然使用Breiman随机森林。其次,我们比拟FRF集成方法和文献中提到的其他的分类器和方法。表 2FRF集成在不同百分比的丧失数据情形下的测试精度5.1.FRF集成的数据集和参数我们使用UCI数据库2中的一些数据集来获得这些结果,数据集的描述见表1. 表1描述了每个数据集中样例的个数,属性的个数,和类别的个数. “Abbr表示实验中每个数据集的缩写. 最终,除了中的实验,我们在FRF集成中均使用大小为的树,5.4.1中实验的描述见表7. 对于一个给定的结点,随机抽取的属性的个数为,表示当前结点可利用的属性的个数. FRF集成中的每棵树被构造成具有最大规模(结点是纯的,或可利用属性集为空
35、),并且没有被修剪过。 5.2.利用无参数检验测试实验结果我们使用统计知识针对每一子局部分析实验结果. 根据16中的方法,我们使用无参数测试. 我们使用Wilcoxon测试来比拟两个方法. 这个测试是通过在两个方法之间进行成比照拟的一种无参数的统计过程,与无参数统计过程中的配对t检验类似;因此,它用于检测两个样本的期望之间的显著性差异,即两个方法的性能的匹配检验. 当比拟多个方法时,我们使用Friedman测试和Benjamin-Hochberger程序4作为事后检验(后者优于Bonferroni-Dunn测试,Holm测试和Hochberger过程)。Friedman测试是利用反复性方法做方
36、差分析等价的无参数检验.,等价于在零假设中定义这些方法,因此拒绝假设意味着当前研究的方法在性能上存在着差异.,接着使用Benjamin-Hochberger程序判断提出的方法与其它的方法相比,是否显示出统计上的差异.5.3.FRF集成处理不完全数据和噪音的性能和稳定性 .不完全数据的处理为了往一个包含个样例,每个样例包含个属性(不含类别属性)的数据集中引进的不完全数据,我们从数据集中按照均匀分布随机选择个数据. 针对于每个值,它与某个样例的某个属性相对应,我们修改这个值. 我们在训练集和测试集中都引入不完全数据. 我们将检验分成三个实验:第一个实验,我们在包含缺少属性值数据的数据集上运行FRF
37、集成,丧失的数据可以是数值型或者符号型属性的数据. 第二个实验,我们在包含模糊的数值属性值的数据集上运行FRF集成. 这些模糊值与数据集关于每个数值属性进行模糊分割所得到的模糊集对应. 第三个实验,我们往数据集中插入许多缺少属性值和模糊值的数据. 当使用一个模糊值代替数据集中的一个样例的某个数值属性值,按如下步骤进行:数值属性在进行模糊分割时被分成几段,属性值将会以一定的隶属度隶属于一个或两个分割后模糊集中, 我们将模糊集中该样例的属性值用可以获得的最大隶属度代替. 在这三个实验中,不完全数据占整个数据集的百分比分别为5%,15%,和30%1. 在第三个实验中,不完全数据所占的百分比被均等地分
38、成缺少属性值和模糊值数据两局部. 在这些实验中,要进行五次按不同比例分配的十次交叉验证510的交叉验证,然后用不完整数据集,我们给出了对于F集成方法的平均分类精度的百分比。然而对于不完整的数据集,F集成方法的平均分类精度的百分比是下降的,结合着集成的组合的一些方法,这些方法主要包含着一些数值这个符号说明至少有四种方法可以得到那个平均值。分类平均精度百分比的下降量见表,是用下面的公式计算的,其中是那些对于含有不完整数据的数据集的平均分类精度,而是最原始的数据中的平均分类精度。在表24中可以看到,FR集成表现出很稳定的性质,即使数据集中有很多的不完整数据。噪音的影响在这一局部,我们分析由于噪音的存
39、在对于FR集成的影响。我们将测试分成两局部的实验,首先,在还有异常点样例的数据集上我们运行FRF集成。然后,在接下来的实验中,我们有噪音的数据集上运行FRF集成,这个噪音主要是类别的属性值。.1 数据集上的异常点样例的说明一种验证数据样例是否是异常点的方法是四分位法。这种方法使用下四分位或者是25个百分比,对于上四分位法或者是75个百分比,对于数据集上的每一个属性四分位法对应着属性的平均值,而min 和max 分别对应着每个属性的最小和最大值。我们可以使用这种方法来生成异常点值然后将其嵌入到不同的数据集。 我们选取大于为异常点值,其中k 是给定的一个正数,IQ 是四分位间距。因此,含有着异常点
40、的数据集就按照下面的步骤产生。为每个数据集选择一个数值属性.对于每个数据集及选择的属性,计算,E是数据集中的样例构成的集合,k在集合中取值,属性的(四分位间距),下四分位(25th 百分位),上四分位数(75th 百分位)(见图3). 对于每个数据集,我们选择1%的样例. 我们定义. 对于每个选择的样例,我们从区间中随机选取一个值替换数值属性的值. 我们可以发现(见图4),对于每次替换我们可以获得三个可能的值,这三个值依赖于. 因此,对于每个数据集,我们将获得三个与对应的包含异常点的数据集. 这是在训练集上的工作. 我们运行三个实验,每个实验对应于选定的和前面局部获得的每个数据集.实验使用45
41、交叉验证. 表5显示了关于不包含异常点的数据集的平均分类精度百分比(期望和标准差),和原数据与包含异常点的数据之间的平均分类错误增长的百分比. 另外,表中说明了获得这些值的组合方法(符号“*表示值是由多余四个的组合方法获得的). 如表5所示,平均分类错误的增长百分比方下计算increase error=,表示包含异常点的数据集的平均分类错误,CE(original)表示原始数据集的平均分类错误. 并且,标示出了组合方法获得的这些值符号“*表示的是这里有多于4种的组合方法来获得这些值。表5中的平均分类错误增长的百分比通过计算,其中是数据集中有异常点时的平均分类错误,是原始数据集的平均分类错误。当
42、我们实施非参数统计测试来比照这4种样本集时,我们没有发现她们在95%的置信水平下没有明显的区别。从这些结果,我们可以得出下面的结论:引入的与样本差异很大的异常点使FRF集成的效果与没有异常点的情况类似。在类别属性中引入噪声数据 我们在同样的实验中比照了FRF集成的效果和18中报道的最好的技术。最好的技术定义为在10字交叉验证中原始数据集和带噪声的数据集分类平均错误增长最低的技术。 带噪声的数据集通过以下方式获得:选择10%的数据,我们将这些数据的类别属性的值用一个随机的其他可能值代替。这只是在训练集上进行。并且,噪声被引入到训练集使用的是NIP 1.5 tool12.增长的平均错误分类率通过计
43、算如表6,其中是有噪声的数据集的分类错误,是原始数据的分类错误。实验结果如表6。使用Wilcoxon测试来比照18中的结果和FRF集成的结果。我们发现最明显的差异到达了97.3%。根据这些结果我们得出,当类别属性中有噪声时,FRF集成方法比18中的方法错误增长的要少。5.4比照FRF集成方法与其他分类集成方法比照FRF集成和其他集成方法使用同样的基分类器 这局部我们总结了一系列的实验来观察FRF集成的效果,当它与基分类器及其一些有这些基分类器建立的集分类器:1基分类器2基于Boosting的集分类器3基于bagging的集分类器(4)FRF集成分类器。我们还比照了FRF集成方法和以模糊决策树为
44、基分类器的方法。每个实验都使用的是同样的参数。在这个实验中,我们使用4*5的交叉验证。表7展示了获得的实验结果,指示了平均分类精度均值和标准差。在这个实验中获得的实验结果清楚的说明FRF集成式是连续生成最好结果的集成。在大多情况下bagging比boosting好。当我们实施统计测试在这些结果上,我们首先应用Friedman测试,获得了一个置信水平为99.9%的空假设的拒绝域。也就是,它接受存在明显差异的样例。当我们实施post-hoc测试,我们得到FRF集成与RF,模糊决策树FT,boosting,bagging在置信水平为95.98%的情况下有明显的不同,FRF集成式最好的方法。对于其他方
45、法,当置信水平为99.9%时,RF,FT和boosting有明显的不同,其中RF最好;当置信水平为99.7%我们得到bagging,FT,boosting明显不同。 和文献中的其他方法比照在这节中,我们比照了FRF集成操作和文献中找到的其他分类器和集成方法。在每种情况下,我们都会说明比拟式怎么进行的。.1和其他分类器的比照学习 我们已经比照了FRF集成方法和其它分类器,借鉴20中报道的结果,在20中,它比照了基于GRA的分类器灰度相关分析,基于CIGRA的分类器和其他很知名的分类方法包括MLP多层感知器,C4.5决策树,径向基函数RBF,朴素贝叶斯,Cart决策树,基于模糊和遗传算法结合的机器
46、学习算法以及模糊决策树。为了评估FRF集成方法的泛化能力,我们使用10*10折交叉验证。我们展示了所有方法的平均分类精度以及FRF集成方法和FRF集成组合方法的标准差。结果如表8.当我们在这些结果上实施统计分析时,我们首先应用Friedman测试来获得置信水平为99.6%的空假设空间的拒绝域。也就是我们接受明显的差异的样本。当我们应用posthoc分析时,我们得到FRF集成和其他方法如在置信水平为98.2%GRA,CIGRA,MLP,C4.5,RBF,Bayes,Cart以及模糊决策树时有明显的差异,与GBLM在置信水平为96.9%时有明显差异。此时FRF集成是最好的方法。因此我们得出FRF集
47、成式一个有效的分类器而且具有很好的性能。.2和其他集成方法的比照学习 在18中,我们找到了一个最好的基于数的集成方法的比照学习。我们将比照FRF集成的结果和18中报道的工作。10折交叉验证被使用。然后我们简单的描述在那篇文章中使用的基于树的集成方法。使用的集成方法如下:1.剪枝的单一树CART2.有100棵树的BaggingCART3.RF:有100棵树的随机森林属性的个数在给出的个节点中随机选择,其中M是属性的集合4.BO:具有100棵和250棵树的boostingCART。分割标准:熵,线性组合,NLC:没有线性组合实验结果如表9.在FRF集成方法和18中提出的最好的集成方法的比照中,当置
48、信水平为95.2%时,这两种方法有明显的不同,FRF方法最好。6.总结在这篇文章中,我们提出了一个基于模糊决策树集成的方法叫做FRF集成。我们实现了随机森林和模糊决策树结合的方法来训练。提出的这种方法对于处理有瑕疵的数据很有优势,对噪声具有鲁棒性并且和其他相对的小型集成相比具有很好的分类率。 我们已经定义了各种方法来在组合FRF集成方法的基分类器的输出。这些方法是基于组合的方法,在文献中被频繁使用以获得集成的最后决策。因此我们定义了不可训练方法:在这组中,方法都是基于简单的投票。可训练的显示依赖的方法:在这组中的方法使用的是权重,这个权重是通过定义分类不同的叶子结点所到达的样本的满意度以及FR
49、F集成树的权重来实现的。可训练的隐式依赖的方法:在这组中的方法使用从FRF集成树种学习到的权重。我们已经展示了通过应用FRF集成方法到各种各样的数据集中的各种结果。总体来说,加权的结合方法和典型的基于随机森林的集成方法相比到达较好性能。在这些使用加权成员关系函数的加权的方法取得了很好的性能,在实施的所有试验中65%的实验,它的效果最好。尽管这些结合的方法大多数有相同的计算消耗,在这里我们强调基于局部混合的方法增长的消耗。无论如何,这些最近的方法在类别属性中有噪音的数据集中获得了很好的性能。特别的,FRF集成的方法在有瑕疵的数据集上有丧失和模糊值获得的结果很好。在这些数据集上加权的方法比不加权的
50、方法性能好。在有异常点的数据集上,FRF集成方法表现出了很好的性能并且我们可以得出以下结论:引入的与样本差异很大的异常点使FRF集成方法的性能与没有噪声的一样。当我们将分类属性中引入噪声,FRF集成方法比其他方法表现出了明显的优势并且MWLFUS2结合方法在大多数情况下取得了最好的性能。因此FRF集成方法对噪声具有鲁棒性。当我们将FRF集成方法与基分类器进行比拟时,RF和集成器使用的是同样的基分类器,FRF集成方法获得了最好的结果。在将FRF集成的结果与通过一系列的分类器和多分类器的进行比拟,我们得到FRF集成方法是一个有效的分类器并且在大多数情况下,获得了最好的结果。所有的结论已经通过在每个
51、比照实验中用统计方法来分析不同的方法或算法得到了验证。References1 H. Ahn, H. Moon, J. Fazzari, N. Lim, J. Chen, R. Kodell, Classification by ensembles from random partitions of high dimensional data, ComputationalStatistics and Data Analysis 51 (2007) 61666179.2 A. Asuncion, D.J. Newman, UCI Machine Learning Repository, University of California, School of Information and Computer Science, Irvine, CA, .3 R.E. Banfield, L.O. Hall,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 7可爱的动物(教学设计)-2023-2024学年道德与法治一年级下册统编版
- 2024-2025学年高中历史 第一单元 东西方先哲 第3课 百科全书式的学者亚里士多德(2)教学教学实录 岳麓版选修4
- 2023一年级数学上册 8 20以内的进位加法练习课(2-3)教学实录 新人教版
- 工程施工项目管理合作协议书
- 2024-2025学年新教材高中物理 第十章 静电场中的能量 第三节 电势差与电场强度的关系教学实录 新人教版必修3
- 某迎宾大道道排桥工程施工组织设计方案
- 南京经五路北上(一期)A3标工程施工组织设计方案
- 2024-2025学年高中历史 专题四 中国近现代社会生活的变迁 三 大众传播媒介的更新(2)教学教学实录 人民版必修2
- 2024年春八年级语文下册 第六单元 21《庄子》二则教学实录 新人教版
- 2《祖父的园子》教学设计-2024-2025学年语文五年级下册统编版
- 哈尔滨LED广告市场 媒体数据分析
- 童眼看电力5年级
- 载波与测距码
- 钢结构设计手册
- (新版)特种设备安全管理高分通关题库600题(附答案)
- 各地座机区号
- AGV小车的设计与研究
- 康复医疗中心基本标准(试行)康复医疗中心管理规范(试行)
- 施工进度计划技术交底
- GB/T 1551-2009硅单晶电阻率测定方法
- GB/T 33589-2017微电网接入电力系统技术规定
评论
0/150
提交评论