




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工主讲教师:景妮琴智能决策树
—如何决策最有效率目录什么是决策树如何决策最有效率信息熵信息增益1234什么是决策树?1合格声音不合格质量不合格质量合格不合格合格图像图像合格质量不合格不合格合格外观外观合格质量不合格根结点:样本全集内部结点:属性测试什么是决策树?叶结点:决策结果
决策树一种分类方法或分类器决策树一个根结点若干个内部结点若干个叶结点电视机如何决策最有效率?2图像合格不合格合格图像不合格合格声音电视机外观合格不合格合格外观质量合格客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是3是单身否是4是离婚否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是9是已婚否是10否离婚否否如何决策最有效率?质量不合格质量不合格质量不合格图像合格不合格合格图像不合格合格声音电视机外观合格不合格合格外观质量合格如何决策最有效率?质量不合格质量不合格质量不合格如何决策最有效率?合格声音不合格质量不合格质量合格不合格合格图像图像合格质量不合格不合格合格外观外观合格质量不合格电视机如何决策最有效率?拥有没有房产客户批准发放婚姻离婚批准贷款贷款贷款批准拒绝无有1批准1拒绝无有拒绝无单身已婚如何决策最有效率?有无2,3,4,5,6,9,10贷款客户2批准1拒绝6批准1拒绝单身已婚离婚婚姻如何决策最有效率?1948年,香农发表文章系统论述了信息的定义,怎样数量化信息,怎样更好地对信息进行编码。克劳德·艾尔伍德·香农美国数学家、信息论的创始人。信息熵—香农熵同时他还提出了信息熵的概念,衡量信息的不确定性。依据属性划分数据划分原则:将无序的数据变得有序如何决策最有效率?构建决策树信息论:量化处理信息的分支科学计算每个属性划分数据集获得的信息增益,信息增益最高的属性就是最好的选择如何决策最有效率?信息熵信息增益:在划分数据集之前之后信息发生的变化如何决策最有效率如何计算信息增益信息熵3信息:如果xi是分类,则xi的信息定义为:信息熵
信息的期望值信息熵信息熵:
中国日本卡塔尔阿曼朝鲜韩国阿联酋科威特0.2250.0250.150.0650.1850.20.1250.025中国日本卡塔尔阿曼0.50.250.050.2信息熵某届亚洲杯预测8强夺冠的概率某届亚洲杯预测4强夺冠的概率问题2:假设这届亚洲杯足球赛4强的夺冠率变成势均力敌,那么彩票公司应该设立较大的奖金池还是缩小奖金池?问题1:8强产生的时候和4强产生的时候,哪个更容易推断冠军归属?中国日本卡塔尔阿曼朝鲜韩国阿联酋科威特0.2250.0250.150.0650.1850.20.1250.025
信息熵某届亚洲杯预测8强夺冠的概率8支队伍夺冠的信息熵为
中国日本卡塔尔阿曼0.50.250.050.2信息熵某届亚洲杯预测4强夺冠的概率4支队伍夺冠的信息熵为4强产生的时候,更容易推断冠军归属结论一个系统越有序(信息越明确),信息熵就越低;系统越混淆,信息熵就越高信息熵某届亚洲杯预测4强夺冠的概率都相同中国日本卡塔尔阿曼0.250.250.250.25
4支队伍夺冠的信息熵为信息增益4
信息增益一个系统越有序(信息越明确),信息熵就越低;系统越混淆,信息熵就越高系统有序的过程系统信息熵降低的过程
信息熵减少的越多越好信息增益:决策前的信息熵-决策后的信息熵拥有没有房产客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是3是单身否是4是离婚否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是9是已婚否是10否离婚否否客户批准发放婚姻离婚批准贷款贷款贷款批准拒绝无有1批准1拒绝无有1拒绝无信息增益单身已婚客户数批准不批准1073
信息增益
信息熵为概率0.70.3
客户数批准不批准有房产30无房产43
信息增益
客户数批准不批准有房产30无房产43
信息增益房产的信息增益:Gain(D,房产)=0.1916E(无房)=0.9852E(有房)=0
拥有没有房产客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是3是单身否是4是离婚否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是9是已婚否是10否离婚否否按照信息增益最大原则,房产属性和有无贷款属性都可以作为第一次划分的属性客户批准发放?信息增益
信息增益小结什么是决策树?1如何决策最有效率?2信息熵3信息增益4本节结束!主讲教师:景妮琴人工主讲教师:景妮琴智能决策树
—开发人工智能的信用卡审批系统目录决策树如何分类构建决策树--信用卡审批系统过拟合与剪枝123决策树如何分类1客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是3是单身否是4是离婚否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是9是已婚否是10否离婚否否11是离婚是?决策树如何分类有监督学习决策树算法从给定的数据集,构造一棵决策树训练阶段分类阶段从根开始按照决策树的分类属性逐层往下划分,直到叶结点,获得分类结果开发人工智能信用卡审批系统构建决策树——信用卡审批系统2构建决策树—信用卡审批系统构建决策树—ID3算法终止条件一个节点上的数据属于同一个类别没有属性可以再用于分割自上而下,递归过程开始时所有数据在根结点选择某个属性对数据集进行划分决策树原理使用信息增益最大的属性对数据集进行划分构建决策树—信用卡审批系统计算样本集的信息熵计算各个属性的信息熵计算每个属性的信息增益选择获得最大信息增益的属性进行划分当所有叶结点是纯的,划分过程终止理想情况当数据不可进一步划分,终止0102030405算法步骤可能无法达到构建决策树—信用卡审批系统1计算样本集的信息熵客户数批准不批准1073
信息熵为概率0.70.3
构建决策树—信用卡审批系统2计算各个属性(房产)的信息熵
客户数批准不批准有房产30无房产43
构建决策树—信用卡审批系统
客户数批准不批准有房产30无房产43
房产的信息增益:Gain(D,房产)=0.1916E(无房)=0.9852E(有房)=03计算各个属性(房产)的信息增益客户数批准不批准单身21已婚41离婚11构建决策树—信用卡审批系统
2计算各个属性(婚姻)的信息熵
客户数批准不批准单身21已婚41离婚11
婚姻状况的信息增益:Gain(D,婚姻)=0.0448构建决策树—信用卡审批系统3依次计算每个属性(婚姻)的信息增益
E(已婚)=0.7219E(单身)=0.9183E(离婚)=1
客户数批准不批准有贷款12无贷款61
构建决策树—信用卡审批系统2计算各个属性(贷款)的信息熵
构建决策树—信用卡审批系统有无贷款的信息增益:Gain(D,贷款)=0.19163依次计算每个属性(贷款)的信息增益
E(无贷款)=0.5917E(有贷款)=0.9183拥有没有构建决策树—信用卡审批系统
4选择获得最大信息增益的属性:房产按房产划分批准发放3,4,91,2,5,6,7,8,10客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是10否离婚否否拥有没有客户数批准不批准无房产43构建决策树—信用卡审批系统E(无房)=0.9852批准发放3,4,91,2,5,6,7,8,101计算新样本集(无房)的信息熵重复1-4按房产划分客户数批准不批准单身11已婚31离婚01
构建决策树—信用卡审批系统2计算剩余各个属性(婚姻)的信息熵
客户数批准不批准单身11已婚31离婚01E(单身)=1
E(离婚)=0E(无房)=0.9852
构建决策树—信用卡审批系统3计算剩余每个属性(婚姻)的信息增益婚姻状况的信息增益:Gain(无房,婚姻)=0.2359
客户数批准不批准有贷款12无贷款31
构建决策树—信用卡审批系统2计算剩余各个属性(贷款)的信息熵
构建决策树—信用卡审批系统有无贷款的信息增益:Gain(无房,贷款)=0.12813计算剩余每个属性(贷款)的信息增益1,2,5,6,7,8,10拥有没有构建决策树—信用卡审批系统4选择获得最大信息增益的属性:婚姻按房产划分批准发放3,4,9单身1,2已婚5,6,7,8离婚10拒绝Gain(无房,婚姻)=0.2359Gain(无房,贷款)=0.1281单身1,2已婚5,6,7,8有贷款1拒绝无贷款2批准无贷款5、6批准有贷款7拒绝8批准构建决策树—信用卡审批系统5当所有叶结点是纯的,划分过程终止当,数据不可进一步划分,也终止1,2,5,6,7,8,10拥有没有按房产划分批准发放3,4,9单身1,2已婚5,6,7,8离婚10拒绝客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是10否离婚否否客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡11是已婚是?无房产批准发放单身离婚拒绝有贷款拒绝无贷款批准无贷款批准有贷款1拒绝1批准客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡12否已婚是?批准?构建决策树—信用卡审批系统按房产划分已婚过拟合与剪枝3过拟合与剪枝影响分类模型的泛化能力过拟合导致:过拟合问题(Over-fitting)学习能力过于强大欠拟合问题(under-fitting)学习能力低下无房产客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡12否已婚是?批准拥有没有过拟合与剪枝解决方法:剪枝(Prunning)先剪枝:控制决策树生长后剪枝:允许决策树过拟合生长,之后进行剪枝离婚拒绝单身有贷款拒绝无贷款批准批准发放已婚无贷款批准有贷款1拒绝1批准按房产划分已婚1:3批准小结决策树如何分类?1构建决策树2开发人工智能的信用卡审批系统3过拟合与剪枝4本节结束!主讲教师:景妮琴人工智能决策树
—处理数据的瑕疵以及特征工程目录特征工程连续值处理编程完成决策树的项目应用14缺失值处理23特征工程1客户ID拥有房产(是/否)婚姻情况年收入(单位:元)是否发放信用卡1否单身85000是2否单身70000否3是单身125000否4是离婚110220否5否已婚60000否6否已婚100000否7否单身90500是8否已婚72000否9是已婚120000否10否离婚90500是客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是3是单身否是4是离婚否是5否已婚否是6否已婚否是7否已婚是否8否已婚是是9是已婚否是10否离婚否否月均可支配收入特征工程有贷款拒绝无贷款批准无房产拥有没有按房产划分批准发放单身离婚拒绝已婚
1:3批准分为特征构建、特征提取、特征选择三个部分特征工程特征工程把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征。找出数据特征,减少特征的维度、数据冗余作用特征工程在机器学习中占有非常重要的作用连续值处理2连续值处理客户ID拥有房产(是/否)婚姻情况年收入是否发放信用卡1否单身T2是2否单身T2否3是单身T3否4是离婚T3否5否已婚T2否6否已婚T3否7否单身T2是8否已婚T2否9是已婚T3否10否离婚T2是客户ID是否拥有房产婚姻情况年收入(单位:元)是否被批准发放信用卡1否单身85000否2否单身70000是3是单身125000是4是离婚110220是5否已婚60000是6否已婚100000是7否已婚90500否8否已婚72000是9是已婚120000是10否离婚90500否连续属性离散化将连续值设定为几个区间:[0,10K],(10K,100K),[100K,200K]并给三个离散值:T1,T2,T3如何划分区间更合适?连续值处理划分区间的特殊“点”平均值(算术平均值)--样本的密度
将n个样本排序后第n/2上取整的位置元素的值。数据中一半小于中位数,一半大于中位数中位数连续值处理
衡量“数据分布特性”的数据指标方差与均方差方差
标准差就是方差的算术平方根样本方差,只是将总体方差中取所有n个样本的平均转变为取n-1个样本的平均连续值处理根据样本选取情况的不同,方差和标准差又有总体方差、总体标准差和样本方差、样本标准差的不同
缺失值处理3缺失值处理机械原因:数据存储失败,存储器损坏,机械故障导致未能收集数据人为原因:主观失误、历史局限或有意隐瞒造成的数据缺失缺失值的产生原因删除存在缺失值的个案和缺失值插补缺失值的处理方法缺失值插补针对:客观数据思想:以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。以可能值对缺失值进行插补。编程完成决策树的项目应用4编程完成决策树的项目应用准备数据1划分训练集和测试集2构建模型3编程利用决策树处理分类问题的步骤测试模型4输出结果,投入生产5客户ID是否拥有房产婚姻情况是否有未还贷款是否被批准发放信用卡1否单身是否2否单身否是3是单身否是4是离婚否是5否已婚否是6否已婚否是7否已婚是否
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳动合同范本 工伤
- 代理钻床销售企业合同范本
- 京东商城合同范本
- 人事中介合同范本
- 保险合作合同范本
- 前公司劳务合同范本
- 募资合同范本
- 2024年普洱市澜沧县县第二人民医院招聘考试真题
- 2024年宿迁市人大常委会办公室招聘笔试真题
- 2024年钦州市第二人民医院信息工程师招聘笔试真题
- 四则混合运算100道(专项训练)-2024-2025学年五年级上册数学人教版
- 投资学基础(第2版)教案
- 智慧燃气安全监管平台整体解决方案
- 《静脉治疗护理技术操作规范》测试题考试试题及答案
- 《鸿门宴》优教课件1
- 工厂用电安全培训课件(课件)
- 风电项目施工进度计划
- 急性呼吸窘迫综合征-课件
- DB14∕T 1319-2016 公路工程标准工程量清单及计量规范
- 《黄金介绍》课件
- 2024年吉林省中考语文真题版有答案
评论
0/150
提交评论