集成学习2 各种集成算法_第1页
集成学习2 各种集成算法_第2页
集成学习2 各种集成算法_第3页
集成学习2 各种集成算法_第4页
集成学习2 各种集成算法_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程内容纲要强分类器与弱分类器123能力提升在于实践456bagging与随机森林boost算法原理boost初改进-adaboostboost再改进-GBDTboost现代科技-LGB,XGB,CATB内容纲要树算法进阶汇总78能力提升在于实践相关API与超参数头歌教学研究中心头歌人工智能专业系列课程全面推动学习者能力提升升级实践教学激发技术创新助力产业变革机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程强分类器与弱分类器强分类器与弱分类器强分类器与弱分类器模型数据结果强分类器与弱分类器高低强分类器弱分类器依据学习器的效果,将某个特定任务的学习器分为强学习器和弱学习器强分类器与弱分类器ten任务弱分类器弱分类器弱分类器弱分类器强分类器头歌教学研究中心头歌人工智能专业系列课程全面推动学习者能力提升升级实践教学激发技术创新助力产业变革机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程bagging与随机森林bagging与随机森林Abagof

d学习器1学习器2学习器3学习器4学习器5学习器6学习器7Votebootstrapbagging与随机森林mNeoees

prntoemNes

prnte1-11-1-11-1-1-1112-1-1-1-1-1-1-1-1-1-131-11-111-11-1141111111-1115-111-111-1-11-16-1-11-1-11-11-1-17-1-1-1-1-1-11-111vote-1-11-111-1-111truth-1-11-1-11-1-111学习器1学习器2学习器3学习器4学习器5学习器6学习器760%60%60%50%70%70%70%bagging与随机森林NemopresentNemo

presentbagging与随机森林tenes

prmoNe不是将数据集做bootstrap再构建树然后组成森林,而是直接用整个数据集构建随机森林使用没被选中的数据做validation-

不进行剪枝头歌教学研究中心头歌人工智能专业系列课程全面推动学习者能力提升升级实践教学激发技术创新助力产业变革机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程Boost算法原理Boost算法原理baggingboostingBoost算法原理Abag

ofdataofBoost算法原理ten任务弱分类器弱分类器弱分类器弱分类器强分类器Boost算法原理tesnAbagof

dbootstrap弱分类器强分类器弱分类器弱分类器...Boost算法原理AdaboostGBDTLGB/XGB/CATBoost算法原理损失函数集成算法优化计算数据结构分类器的组合方式头歌教学研究中心头歌人工智能专业系列课程全面推动学习者能力提升升级实践教学激发技术创新助力产业变革机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程AdaboostAdaboostAdaboost自适应提升加法模型向前分布指数损失函数核心思想1,让更优秀的基分类器占更大权重2,在处理过程中,更加注重处理难处理的样本AdaboostTH

(x)

ihi

(x)i1强分类器 权重

弱分类器H

(x)

h11(x)

2

h2

(x)

....hii(x),i

1,2,3.....THi

(x)

Hi1

(x)

ihi

(x)Adaboost弱分类器h(x)经典的Adaboost中采用的默认分类器为stump(树桩)分类器即只有一个节点的决策树,并不支持多分类与概率预测现代的Adaboost算法,使用的弱分类器为CART(ClassificationandRegression

Tree)Adaboost弱分类器Adaboost1,让更优秀的基分类器占更大权重核心思想2,在处理过程中,更加注重处理难处理的样本h(x)111-1-1label-111-1-1D10.20.20.20.20.2D20.50.1250.1250.1250.125h(x)111-1-1label-111-1-1D20.50.1250.1250.1250.125D30.750.0630.0630.0630.063tt1ta

1

ln( )2 头歌教学研究中心头歌人工智能专业系列课程全面推动学习者能力提升升级实践教学激发技术创新助力产业变革机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程GBDTGBDT以Adaboost为代表的传统boost算法,不一定每一轮boost都会向更优的方向提升GBDTGBDT(GradientBoostingDecision

Tree),梯度提升决策树数据和结构上的提升优化计算的提升损失函数弱分类器组合方式集成算法GBDTGBDT通过梯度来确定优化的方向使优化的方向总是正确f

(x)

T

(x;

m

)GBDTF3

(x)

T1

(x;

1

)

T2

(x;

2

)

T3

(x;

3

)100

85

10

5初始状态:目标值100,初始值0,

差值100轮次1:轮次2:轮次3:目标值100,预测值85,差值15目标值15,

预测值10,差值5目标值5, 预测值5,

差值0GBDT中,每轮的输入值是上一轮目标值与预测值的差值,这个差值也成为了本轮的预测的目标,往复迭代GBDTNemo

presentF3

(x)

T1

(x;

1

)

T2

(x;

2

)

T3

(x;

3

)100

85

10

5F3

(x)

T1

(x;

1

)

T2

(x;

2

)

T3

(x;

3

)100

105

3

2GBDTFm

(x)

Fm1

(x)

T

(x;

m

)

T

(x;

))2L(y,F)(y

F)2(y

(F

T

(x;

))2

(

y

Fm m m1 m1resm

y

Fm1(x)i i, imiF(x

)L(

y

F

(x

)

res

GBDTmo

Nees

prFm

(x)

Fm1

(x)

T

(x;

m

)codingspeakinglate_workdrinkday11801500.95day21774200.13day31363510.45day41746500.80day51412810.26与ID3和C4.5不同的是,在计算时不使用GINI/IG/IGRm(标签是连续型,无法统计概率)使用MSE(均方差)选择均方差最小的作为分裂依据MSE

(

f

(x(i

)

)

c(i

)

)2i1其中c为该区域内标签值的平均值coding:(136,141),(174,177,

180)drink:(0.45,0.26),(0.80,0.13,0.95)0.3350.627拟合目标:标签值(区域平均)GBDTNepr

moent

secodingspeakinglate_workdrinkday11801500.95day21774200.13day31363510.45day41746500.80day51412810.26使用CART树,决策树深度为20.950.130.450.80.260.950.280.280.80.280-0.150.170-0.02GBDTNemopresent0.950.130.450.80.260.950.280.280.80.280-0.150.170-0.020-0.150.170-0.02-0.075-0.0750.17-0.01-0.010.075-0.07500.01-0.01GBDTetnNe0.950.130.450.80.260.950.280.280.80.280-0.150.170-0.020-0.150.170-0.02-0.075-0.0750.17-0.01-0.010.075-0.07500.01-0.010.950.280.280.80.281.0250.2050.280.810.270.950.130.450.80.26GBDTFm

(x)

Fm1

(x)

T

(x;

m

)回归分类JmjP exp(Fmj

(x;

))j

1exp(Fmj(x;

))resm

ym

Fm1

(x)resm

差值resm

概率的差值样本是类别J的概率为GBDTF3

(x)

T1

(x;

1

)

T2

(x;

2

)

T3

(x;

3

)100

85

10

5初始状态:目标值100,初始值0,

差值100F3

(x)

T1

(x;

1

)

T2

(x;

2

)

T3

(x;

3

)1

0.80

0.15

0.05初始状态:目标概率1,初始值0,

差值1GBDTShrinkageFm

(x)

Fm1

(x)

T

(x;

m

)F3

(x)

T1

(x;

1

)

T2

(x;

2

)

T3

(x;

3

)1

0.985

0.01

0.005Fm

(x)

Fm1

(x)

vT

(x;

m

)学习比率“小心驶得万年船”GBDT优点:预测精度高处理数据相对较快非常适合非线性数据处理缺点:不能并行计算(后期可改进)头歌教学研究中心头歌人工智能专业系列课程全面推动学习者能力提升升级实践教学激发技术创新助力产业变革机器学习

——集成算法头歌教学研究中心头歌人工智能专业系列课程LGB,XGB,CATLGB,XGB,CATXGBLGBCATLightGBM微软,2016年底Xgboost(eXtremeGradientBoosting)TianQi

ChenUniversityof

Washington,2014CatboostYendex2017高精度机器学习商业应用主力军GBDT的具体高级实现(结构,存储,计算)LGB,XGB,CATGBDT/Tree特征筛选,节点分裂特征预处理LGB,XGB,CATm特征筛选,节点分裂对于每个特征的每个潜在划分点,计算MSE

(

f

(x(i

)

)

c(i

)

)2i1当特征量十分巨大,样本量十分巨大时,这样的过程十分耗时LGB,XGB,CATLGB,XGB,CAThist235911171921235911171921235911171921WeightedQuantile

Sketchslightly

differerentpaperpart3:FightingGradient

BiasLGB,XGB,CATLGB,XGB,CATsparse

input1000.....17192111719210000.....稀疏矩阵中忽略0,再进行划分对于xgb,是默认这样对待的对于lgb,需设置超参数zero_as_missing=

Trueuse_missing=

TrueLGB,XGB,CATLGB,XGB,CATGOSSGradient-basedOne-Side

Sampling重要tA

b不那么重要Loss,

节点分裂前后1slightly

differerentpaperpart3:FightingGradient

BiasLGB,XGB,CATLGB,XGB,CATGOSSGradient-basedOne-SideSamplingSubsampling只选择梯度大对应的数据点可能会导致bias增加LightGBM中,会根据实际情况,使用大部分大梯度数据+随机小部分小梯度数据slightly

differerentpaperpart3:FightingGradient

BiasLGB,XGB,CATLGB,XGB,CATEFBExclusiveFeatureBundling某些非零元素可能一辈子都不可能在一起举个例子:”铝合金“和”心理学“所以可以直接将此类特征融合成一个特征,降低特征数量特别适用于高维的稀疏矩阵130000531900002100330000064000130330053190640021LGB,XGB,CAT并行计算LGB,XGB,CATLGB,XGB,CAT并行计算LGB,XGB,CATFm

(x)

Fm1

(x)

T

(x;

m

)串行算法235911171921block在特征层面进行并行,不是一次处理一个特征,再处理下一个而是通过block结构同时处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论