分类模型算法决策树_第1页
分类模型算法决策树_第2页
分类模型算法决策树_第3页
分类模型算法决策树_第4页
分类模型算法决策树_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、八斗大数据培训分类算法-决策树决策树 八 斗 大 数 据, 盗 版 决策树简介ID3算法C4.5、CART算法【实践】决策树 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树O u t L i n e 树形结构决策规则 分类问题,对样本: 从根节点出发 根据节点规则决定走哪个子节点 一直走到叶子节点 根据叶子节点的输出规则输出 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树决 策 树 例子:评估 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树决 策 树 - 例 子八斗大数据培训分类算法-决策树决 策 树 - 例 子 如何做到?计数收入学生信誉是否64青高

2、否良否64青高否优否128中高否良买60老中否良买64老低是良买64老低是优否64中低是优买128青中否良否64青低是良买132老中是良买64青中是优买32中中否优买32中高是良买64 八老 斗 大 数据中否, 盗 版 否作为根节点 青年,否,买 中年,买 老年,否,买 “中年”停止分解,“青年”、“老年”继续分解 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树决 策 树 - 例 子 对“青年”分解 经分析,高收入和低收入,只对应一个签作为叶子节点,停止,直接将该标 八 斗 大 数 据, 盗 版 计数收入学生信誉是否64青高否良否64青高否优否128青中否良否64青低是良买64青

3、中是优买八斗大数据培训分类算法-决策树决 策 树 - 例 子 对“中收入人群”继续分解 经分析,学生特征可以完全区分,停止 八 斗 大 数 据, 盗 版 计数收入学生信誉是否128青中否良否64青中是优买八斗大数据培训分类算法-决策树决 策 树 - 例 子 于是生成“青年”侧的决策树 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树决 策 树 - 例 子 对最终的结果进行概率计算 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树决 策 树 - 例 子 提前将各个特征值离散化:0(青年),1(中年),2(老年) 收入:0(高收入),1(中收入),2(低收入) 学生:0(是

4、),1(否) 信誉:0(优),1(良) 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树特 征 离 散 化 不确定性函数I称为的信息量,U发生概率p的单调递减函数:1=𝑙𝑜𝑔𝐼𝑈= 𝑙𝑜𝑔𝑝𝑝 信息熵:一个信源中,不能仅考虑单一发生的不确定性,需要考虑所有可能情况的平均不确定性,为𝑙𝑜𝑔 𝑝 的统计平均值E𝐻𝑈= 𝐸

5、;𝑙𝑜𝑔𝑝 𝑢𝑖= 𝑝 𝑢𝑖𝑖𝑙𝑜𝑔𝑝 𝑢𝑖 信息熵是事物不确定性的度量标准 决策树中,不仅可用来度量类别不确定性,也可以度量包含不同特征的数据样本与类别的不确定性。 熵越大,不确定性越大,即度越大 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 熵 , 香 农 定 理 学习算法 给定训练数据,决定树的结构 节点规则 叶子

6、结点输出规则 著名算法 ID3 C4.5 连续变量、缺省值、剪枝等 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树学 习 算 法 简 介决策树简介ID3算法C4.5、CART算法【实践】决策树 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树O u t L i n e ID3 输入:离散值(属性) 使用信息增益来学习 信息熵(Entropy) S是样例集合规则𝐻𝑆= 𝑝𝑖𝑢𝑖𝑙𝑜𝑔𝑝𝑢w

7、894; p(ui)表示S中第i类样例的比例 信息增益: 用规则r将样例集合S分为k个子集S1、Sk | · |表示集合元素个数 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树I D 3 学 习 算 法 节点规则: 按属性:k种可能的属性值->k个子集 学习问题:挑那种属性? ID3算法:信息增益最大的! 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树I D 3 学 习 算 法 设S是s个数据样本的集合,假定类别具有m个不同值,定义m个不同类𝐶𝑖𝑖 = 1,2, , 𝑚 ,设Ү

8、78;𝑖是𝐶𝑖的样本数,对于一个给定的样本分类所需要的信息熵由下式给出:𝐼𝑠1, 𝑠2, , 𝑠𝑚= 𝑝𝑖𝑙𝑜𝑔𝑖𝑝𝑖𝑠𝑖 𝑝 是任意样本属于𝐶 的概率,并用𝑝=估计𝑖𝑖𝑖𝑆 八 斗 大 数 据, 盗

9、 版 八斗大数据培训分类算法-决策树信 息 增 益 如 何 计 算 ? 用信息熵来度量每种特征不同取值的不确定性 设A具有v个不同的值𝑎1, 𝑎2, 𝑎𝑣 某一特征A将S划分为v个不同的子集𝑆1, 𝑆2, 𝑆𝑣, 其中𝑆𝑗包含S中这样一些样本:他们在A上具有值𝑎𝑗,若选A作测试特征,即最优划分特征,那么这些子集就是S节点中生长出来的决策树分支。设𝑠𝑖𝑗是子集

10、𝑆𝑗中类𝐶𝑖的样本数。 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 如 何 计 算 ? 由A划分成子集的熵或期望信息由下式给出:𝑣𝑠1𝑗+ 𝑠2𝑗 + + 𝑠m𝑗𝐸𝐴= 𝑗=1𝐼𝑠1𝑗, 𝑠2𝑗, , 𝑠m𝑗𝑠

11、19904;+𝑠+𝑠 其中,是第j个子集的权,并且等于子集(即A值为𝑎 )中的样本个数1𝑗2𝑗m𝑗𝑗𝑠除以S中的样本总数,其信息熵值越小,子集划分的纯度越高𝑚= 𝑝𝑖𝑗𝑙𝑜𝑔𝑖=1 其中,𝑠𝑖𝑗𝑝𝑖𝑗=𝐼𝑠1

12、9895;, 𝑠2𝑗, , 𝑠m𝑗𝑝𝑖𝑗𝑠𝑗 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 如 何 计 算 ? 最后,实用信息增益确定决策树分支的划分依据Gain(A) = 𝐼- E(A)𝑠1, 𝑠2, , 𝑠𝑚 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 如 何 计 算 ? 接前面例子: 类别S划分为两类:买或

13、不买𝑆1(买) =640𝑆1(不买) =384 总体S=S1+S2=1024384640𝑝= 0.375𝑝= 0.6252110241024 根据公式:𝑚𝐼𝑠1, 𝑠2= 0.9544𝐼𝑠 , 𝑠, , 𝑠= 𝑝 𝑙𝑜𝑔𝑝12m𝑖𝑖𝑖=1 八 斗 大 数 据, 盗 版 八斗大数据

14、培训分类算法-决策树信 息 增 益 计 算 举 例 接下来计算每个特征的信息熵 1、先计算“”特征的熵,共分3组,青年(0),中年(1),老年(2) 其中青年占总样本的概率为p(0)=384/1024=0.375 青年中的买/不买=128/256 所以:S1(买)=128,p1=128/384S2(不买)=256,p2=256/384S=S1+S2=384𝑚= 𝑝𝑖𝑙𝑜𝑔𝐼𝑠1, 𝑠2= 0.9183 根据公式𝐼𝑠1,

15、𝑠2, , 𝑠m𝑝𝑖 八 斗 大 数 据𝑖, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 计 算 举 例 其中中年占总样本的概率为p(1)=256/1024=0.25 中年中的买/不买=256/0 所以:S1(买)=256,p1=1S2(不买)=0,p2=0S=S1+S2=256 根据公式𝑚= 𝑝𝑖𝑙𝑜𝑔𝑖=1𝐼𝑠1, 𝑠2= 0𝐼

16、𝑠1, 𝑠2, , 𝑠m𝑝𝑖 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 计 算 举 例 其中老年占总样本的概率为p(1)=384/1024=0.375 老年中的买/不买=256/128 所以:S1(买)=256,p1=256/384S2(不买)=128,p2=128/384S=S1+S2=384 根据公式𝑚= 𝑝𝑖𝑙𝑜𝑔𝑖=1𝐼𝑠1, &#

17、119904;2= 0.9157𝐼𝑠1, 𝑠2, , 𝑠m𝑝𝑖 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 计 算 举 例 所以汇总 “ E( G(”的平均信息期望:)=0.375*0.9183+0.25*0+ 0.375*0.9157=0.6877)=0.9544-0.6877=0.2667从所有特征中选择信息增益最大的作 同理: E(学生)=0.7811 E(收入)=0.9361 E(信誉)=0.9048为根节点或者内部节点,根据计算,G(学生)=0.1733G(

18、收入)=0.0183 G(信誉)=0.0496首次选取“”来划分 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 计 算 举 例 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 计 算 举 例 ID3(Dataset, attrList)终止条件1、创建根节点R2、如果当前Dataset中数据是“纯”的:将R的节点类型标记为当前类型3、如果当attrList为空:将R的节点类型标记为当前Dataset中,样例个数最多的类型4、其余情况:1) 从attrList中选择属性A2) 按照属性A所有的不同值𝑉𝑖 ,

19、将Dataset分为不同的子集𝐷𝑖,对于每个𝐷𝑖a) 创建节点Cb) 如果𝐷𝑖为空:节点C标记为Dataset中,样例个数最多的类型c) 𝐷𝑖不为空:节点C=ID3(𝐷𝑖,attrList-A)d) 将节点C添加为R的子节点5、返回R 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树I D 3 学 习 算 法 ID3(Dataset, attrList)终止条件1、创建根节点R2、如果当前Dataset中数据是“纯”的:将R

20、的节点类型标记为当前类型3、如果当attrList为空:将R的节点类型标记为当前Dataset中,样例个数最多的类型4、其余情况:1) 从attrList中选择属性A2) 按照属性A所有的不同值𝑉𝑖 ,将Dataset分为不同的子集𝐷𝑖,对于每个𝐷𝑖a) 创建节点Cb) 如果𝐷𝑖为空:节点C标记为Dataset中,样例个数最多的类型c) 𝐷𝑖不为空:节点C=ID3(𝐷𝑖,attrList-A)d) 将节点

21、C添加为R的子节点5、返回R递归条件 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树I D 3 学 习 算 法 ID3(Dataset, attrList)1、创建根节点R2、如果当前Dataset中数据是“纯”的:将R的节点类型标记为当前类型3、如果当attrList为空:将R的节点类型标记为当前Dataset中,样例个数最多的类型4、其余情况:1) 从attrList中选择属性A2) 按照属性A所有的不同值𝑉𝑖 ,将Dataset分为不同的子集𝐷𝑖,对于每个𝐷𝑖a) 创建节点Cb)

22、 如果𝐷𝑖为空:节点C标记为Dataset中,样例个数最多的类型c) 𝐷𝑖不为空:节点C=ID3(𝐷𝑖,attrList-A)d) 将节点C添加为R的子节点5、返回R 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树I D 3 学 习 算 法 缺点? 倾向于挑选属性值较多的属性,有些情况可能 贪婪性提供太多有价值的信息剃刀原理:尽量用较少的东西做的事 不适用于连续变量 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树I D 3 算 法决策树简介ID3算法C4.5、CART算法

23、【实践】决策树 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树O u t L i n e 相对于ID3: 克服了用信息增益选择属性时偏向选择取值多的属性的不足 支持连续变量 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树C 4 . 5 算 法 信息增益率:𝑚= 𝑝 𝑢𝑖𝑙𝑜𝑔i=1𝐻𝑆𝑝𝑢𝑖𝑆𝑣𝐺𝑎𝑖

24、;𝑛𝑆, 𝐴= 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) 𝑣𝑉𝑎𝑙𝑢𝑒(𝐴)𝐸𝑛𝑡𝑟𝑜𝑝𝑦𝑆𝑣𝑆𝐺𝑎𝑖𝑛(&

25、#119860;)𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜 𝐴=𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐴)属性A的分布情况,度越大,ratio越小,越纯净,ratio越大 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树信 息 增 益 率 C4.5(Dataset, attrList)1、创建根节点R2、如果当前Dataset中数据是“纯”的

26、或其他终止条件:将R的节点类型标记为当前类型3、如果当attrList为空:将R的节点类型标记为当前Dataset中,样例个数最多的类型4、其余情况:1) 从attrList中选择gainratio最大的属性A2) 按照属性A所有的不同值𝑉𝑖 ,将Dataset分为不同的子集𝐷𝑖,对于每个𝐷𝑖a) 创建节点Cb) 如果𝐷𝑖为空:节点C标记为Dataset中,属性值个数最多的类型c) 𝐷𝑖不为空:节点C=C4.5(𝐷

27、19894;,attrList-A)d) 将节点C添加为R的子节点5、返回R 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树C 4 . 5 算 法 信息增益(比例)增长低于阈值,则停止 阈值需要调校 将数据分为训练集和测试集 测试集上错误率增长,则停止 没有用全部样本训练 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树停 止 条 件 先较为充分地生长过拟合 剪枝: 相邻的叶子节点,如果合并后不纯度增加在 测试集错误率下降,则合并 等等其他条件 反复尝试,较耗时间范围内,则合并 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树剪 枝 叶子节点输出大多数样例

28、所属的类别 八 斗 大 数 据, 盗 版 八斗大数据培训分类算法-决策树叶 子 输 出 规 则 CART: 二叉回归树 Gini系数|𝑦|𝑦|= 𝑝𝑘𝑝𝑘 = 1 𝑝𝑘2𝐺𝑖𝑛𝑖𝐷𝑘=1 𝑘𝑘𝑘=1𝑉= 𝑣=1𝐷𝑣𝐷𝑣𝐺𝑖𝑛𝑖_𝐼

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论