数据挖掘Adaboost_第1页
数据挖掘Adaboost_第2页
数据挖掘Adaboost_第3页
数据挖掘Adaboost_第4页
数据挖掘Adaboost_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Adaboost算法周明,熊毅Catalog1234IntroductionAdaboostHow Boosting Algorithms works?ThanksIntroductionPART.1分类器、弱分类器和强分类器提升(boosting)方法过度拟合(overfitting)决策树桩Concept比如:银行贷款员需要分析贷款申请者们的各项数据,建立分类模型以便搞清楚哪些贷款申请者是“安全的”;销售经理需要分析客户和产品的数据,以便帮助他预测如何定向对具有不同特征的客户投放针对性的产品广告;医学研究人员需要分析癌症数据,以便预测病人应该接受三种具体治疗方案中的哪一种。数据挖掘中分类的

2、算法有很多,比如KNN算法(王飞,吴小萌),C4.5算法(汪意,杨小涛),朴素贝叶斯算法(何鹏)等,分类是一种重要的数据分析形式,它提取出能刻画数据类型的模型,也就是我们常说的分类器。弱分类器:在二分情况下弱分类器的错误率会低于50%。其实任意的分类器都可以做为弱分类器,比如KNN、决策树、Nave Bayes、logiostic回归和SVM都可以。这里我们采用的弱分类器是单层决策树,它是一个单节点的决策树。它是adaboost中最流行的弱分类器,当然并非唯一可用的弱分类器。强分类器:识别准确率很高并能在多项式时间内完成的学习算法提升方法是一种常用的统计学习方法,应用广泛且有效,在分类问题上,

3、它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。一个分类器在训练数据上能够获得比其他分类器更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据,这时就称为该分类器出现了过拟合(overfitting)。提升算法能够有效地防止过拟合现象的发生。Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaboostPART.2 初始化训练数据集的权值分布 迭代: a、选取弱分类器 b、计算弱分类器的分类误差率,使得这个值尽量小 c、计算分类器的权重 d、更

4、新训练数据集中数据的权值的分布,放大被错误分类数据的权值,减小正确分类数据的权值 当某一轮迭代完后组成的强分类器使得分类误差率很低的时候就可以得到最终的强分类器。给定一个二类分类的训练数据集。假设弱分类器由xv产生。其阀值使得该分类器在训练数据集上分类误差率最低,使用Adaboost学习一个强分类器x0123456789y111-1-1-1111-1x0123456789111-1-1-1-1-1-1-10.10.10.10.10.10.10.10.10.10.1x0123456789111-1-1-1-1-1-1-10.07140.07140.07140.07140.07140.07140.

5、16670.16670.16670.0714x0123456789111-1-1-1-1-1-1-10.42360.42360.4236111-1-1-1-1-1-1-1x0123456789111111111-10.07140.07140.07140.07140.07140.07140.16670.16670.16670.0714x0123456789111-1-1-1-1-1-1-10.04550.04550.04550.16670.16670.16670.10600.10600.10600.0455x0123456789111-1-1-1-1-1-1-1111111111-11.0732

6、1.07321.07320.2260.2260.2260.2260.2260.226111111111-1x0123456789-1-1-1-1-1-111110.04550.04550.04550.16670.16670.16670.10600.10600.10600.0455x0123456789-1-1-1-1-1-111110.1250.1250.1250.1020.1020.1020.0650.0650.0650.125x0123456789111-1-1-1-1-1-1-1111111111-1-1-1-1-1-1-111110.32180.32180.3219-0.5245-0.

7、5245-0.52450.97740.2260.226111-1-1-1111-1How Boosting Algorithms works?PART.3如何通过训练集来训练不同的弱分类规则为了找到弱分类规则,我们应用基础学习算法(决策树桩)。每次应用基础学习算法都会生成一个新的弱分类规则。这是一个迭代过程。多次迭代后,提升算法结合这些弱分类规则形成一个强大的分类预测规则。如何调整训练集,使得再训练集上训练的弱分类器得以进行Step 1:算法对每个训练元组赋予相等的权重Step 2: 使用基础学习算法来预测分类,对这一次的基础学习算法中预测错误的训练元组提高权重,并将它们应用于下一轮基础学习算

8、法;记录下本次产生的弱分类规则。Step 3: 迭代Step 2,结合所产生的这些弱分类规则形成一个强大的分类预测规则如何将训练得到的各个弱分类器联合起来形成强分类器对于训练得到的各个弱分类器计算它的分类错误率,错误率越低,它的预测准确性就越高,因此它的表决权重就越高。算法输入l一个复合模型。(一个强分类器)算法输出AdaBoost-box12022-3-28你可以看到,我们给每个数据点赋予相等的权重(大小一样),并应用决定树桩将其归类为+(加)或 - (减号)。该决策树桩算法(D1)在左侧画一条垂直线将空间分成两份,从而将数据点分成两类。我们看到,该垂直线已不正确地预测的三个+(加)为- (负)。在这种情况下,我们会将这三个+(加)赋予较高的权重,并应用到下一个决定树桩。AdaBoost-box22022-3-28在这里,你可以看到,相对于数据点,三个被错误地预测+(加)的size变大了。在这种情况下,第二次使用决策树桩(D2)将尝试正确预测它们。现在,在该图右侧的垂直线将3个误分类的+(加)分类正确。但同样,这也造成误分类误差。此时有三个- (负)被错误分类。同样,我们将指派较高的权重给三个- (减号)并应用下一次决定树桩。AdaBoost-box32022-3-28在这里,三个- (减)被给予更高的权重。第三次决定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论