版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GradientBoostingDecisionTree AndItsApplication班级:**学生:**学号:**GradientBoostingDecisionTre报告大纲第一部分:引言(概念介绍)
决策树 boosting方法
损失函数
GBDT定义
第二部分:GBDT算法原理
加法模型
前向分步算法
提升树算法
梯度提升树算法
Regularization第三部分:GBDT应用
应用范围
实例:CTR预估 GBDT特征转换 LR+GBDT第四部分:总结报告大纲第一部分:引言(概念介绍)第一部分:概念介绍决策树boost方法损失函数GBDT定义
第一部分:概念介绍决策树第一部分:概念介绍决策树:是将空间用超平面进行划分的一种方法分类树回归树单决策树时间复杂度较低,模型容易展示,但容易over-fitting决策树的boost方法:是一个迭代的过程,每一次新的训练都是为了改进上一次的结果.传统Boost:对正确、错误的样本进行加权,每一步结束后,增加分错的点的权重,减少分对的点的权重。GB:梯度迭代GradientBoosting,每一次建立模型是在之前建立的模型损失函数的梯度下降方向第一部分:概念介绍决策树:是将空间用超平面进行划分的一种方法第一部分:概念介绍
损失函数(lossfunction):描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错。对于不同的Lossfunction,其梯度有不同的表达式:第一部分:概念介绍损失函数(lossfunction):第一部分:概念介绍GBDT(GradientBoostingDecisionTree):是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终结果。GBDT这个算法还有一些其他的名字,MART(MultipleAdditiveRegressionTree),GBRT(GradientBoostRegressionTree),TreeNet,Treelink等。第一部分:概念介绍GBDT(GradientBoostin第二部分:GBDT算法原理加法模型前向分步算法提升树算法梯度提升树算法Regularization
第二部分:GBDT算法原理第二部分:GBDT算法原理提升树利用加法模型与前向分布算法实现学习的优化过程。第二部分:GBDT算法原理提升树利用加法模型与前向分布算法实第二部分:GBDT算法原理前向分布算法第二部分:GBDT算法原理前向分布算法第二部分:GBDT算法原理对于决策树,可以表示为:其中参数表示树的区域划分和各区域上的常数回归问题提升树使用以下前向分步算法所以,对于回归问题的提升树算法,
只需简单拟合当前模型的残差。
第二部分:GBDT算法原理对于决策树,可以表示为:第二部分:GBDT算法原理
第二部分:GBDT算法原理第二部分:GBDT算法原理当损失函数是平方损失和指数损失函数时,每一步优化是简单的,但对一般损失函数而言,并不简单。Freidman提出了GradientBoosting算法,利用最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值
作为回归问题提升树算法中的残差的近似值,拟合一个回归树。StochasticGradientBoosting
当N很大的时候,非常耗费时间,这时我们可以从中随机选取一些数据来拟合。
第二部分:GBDT算法原理当损失函数是平方损失和指数损失函数第二部分:算法原理第二部分:算法原理第二部分:GBDT算法原理RegularizationcrossvalidationShrinkage参数v(0<v<1)可以认为是boosting方法的学习速率。如果使用很小的v,要达到相当的训练误差,就需要使用较大的M。反之亦然。在通常情况下,较小的v在独立测试集上的performance更加好,但是这时需要较大的M,比较耗时。Subsampling使用前面提到的stochasticgradientboosting不仅减少了训练时间,同样可以起到bagging的效果,因为每次随机抽样减小了overfitting的机会。第二部分:GBDT算法原理Regularization第三部分:GBDT应用
应用范围
实例:CTR预估 LRGBDT特征转换 LR+GBDT
第三部分:GBDT应用应用范围第三部分:GBDT应用应用范围GBDT几乎可用于所有回归问题(线性/非线性)亦可用于二分类问题(设定阈值,大于阈值为正例,反之为负例);不太适合做多分类问题;排序问题;常用于各大数据挖掘竞赛(模型融合);广告推荐第三部分:GBDT应用应用范围第三部分:GBDT应用CTR预估:广告点击率(Click-ThroughRatePrediction)CTR预估中用的最多的模型是LR(LogisticRegression),LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种线性模型很容易并行化,处理上亿条训练样本不是问题,但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,从而去间接增强LR的非线性学习能力。第三部分:GBDT应用CTR预估:广告点击率(Click-T第三部分:GBDT应用LR模型中的特征组合很关键,但又无法直接通过特征笛卡尔积解决,只能依靠人工经验,耗时耗力同时并不一定会带来效果提升。如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题Facebook2014年的文章介绍了通过GBDT(GradientBoostDecisionTree)解决LR的特征组合问题,随后Kaggle竞赛也有实践此思路GDBT+FM,GBDT与LR融合开始引起了业界关注第三部分:GBDT应用LR模型中的特征组合很关键,但又无法直第三部分:GBDT应用GBDT+LRGBDT的思想使其具有天然优势,可以发现多种有区分性的特征以及特征组合,决策树的路径可以直接作为LR输入特征使用,省去了人工寻找特征、特征组合的步骤。第三部分:GBDT应用GBDT+LR第三部分:GBDT应用由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。第三部分:GBDT应用第三部分:GBDT应用实验Kaggle比赛:DisplayAdvertisingChallenge详细介绍:实验过程:(比赛第一名:GBDT+FM)参考:(Xgboost:/xgboost)实验结果:尚未完成,报告加上第三部分:GBDT应用实验第四部分:总结总结展望第四部分:总结
References《统计学习方法》FriedmanJH.Greedyfunctionapproximation:agradientboostingmachine[J].Annalsofstatistics,2001:1189-1232.FriedmanJH.Stochasticgradientboosting[J].ComputationalStatistics&DataAnalysis,2002,38(4):367-378.HeX,PanJ,JinO,etal.PracticalLessonsfromPredictingClicksonAdsatFacebook[C]//EighthInternationalWorkshoponDataMiningforOnlineAdvertising.ACM,2014:1-9.YuanTT,ChenZ,MathiesonM.PredictingeBaylistingconversion[C]//Proceedingsofthe34thinternationalACMSIGIRconferenceonResearchanddevelopmentinInformationRetrieval.ACM,2011:1335-1336.TyreeS,WeinbergerKQ,Agrawal
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年玉林货运从业资格仿真考题
- 2024商标转让及品牌升级合同:携手共进品牌升级之旅3篇
- 2024商混合同范本:商混混凝土生产与质量控制合作协议3篇
- 2025厨房设备销售合同版
- 商业综合体电力施工合同范本
- 城市公园旁咖啡馆租赁合同
- 城市绿化带扩建植树合同
- 出入境文件公证办理规范
- 智能家居维修员招聘合同模板
- 汽车研发中心施工协议
- 【道法广角】成语故事会:立木为信
- 《我们去看海》阅读答案
- 智慧酒店无人酒店综合服务解决方案
- 考研英语一新题型历年真题(2005-2012)
- 健身房会籍顾问基础培训资料
- 9脊柱与四肢、神经系统检查总结
- 秀场内外-走进服装表演艺术智慧树知到答案章节测试2023年武汉纺织大学
- 【高分复习笔记】王建《现代自然地理学》(第2版)笔记和课后习题详解
- TSGD0012023年压力管道安全技术监察规程-工业管道(高清晰版)
- SMM英国建筑工程标准计量规则中文 全套
- 2023-2024学年浙江省富阳市小学数学四年级上册期末通关题
评论
0/150
提交评论