![数据仓库与数据挖掘技术第六章决策树_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/c2251656-8909-44aa-8988-84c59808f545/c2251656-8909-44aa-8988-84c59808f5451.gif)
![数据仓库与数据挖掘技术第六章决策树_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/c2251656-8909-44aa-8988-84c59808f545/c2251656-8909-44aa-8988-84c59808f5452.gif)
![数据仓库与数据挖掘技术第六章决策树_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/c2251656-8909-44aa-8988-84c59808f545/c2251656-8909-44aa-8988-84c59808f5453.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 6 章 决策树方法6.1 信息论的基本原理6.1.1 信息论原理6.1.2 互信息的计算1. 定义2. 出现概率3. 条件概率4. 子集概率5. 子集条件概率6. 信息熵7. 互信息6.2 常用决策树算法6.2.1ID3 算法1. 基本思想»61训纺样本篇编号性至别气温湿度凤力1热无风N2热适中无风N3器云高无凤F4W适中高无风P5雨正常无风P6冷正常有风N7多云冷正常有风Pg适中高无风N9睛正常无凤P10适中正常无凤P11适中正常有风F12家云适中高有凤F13正常无风P14雨适中高有风N天气图6-1ID3决策树2. 主算法图6-2ID3算法流程3. 建树算法4. 实例计算6.2
2、.2C4.5 算法1信息增益比例的概念2. 连续属性值的处理3. 未知属性值的处理4. 规则的产生5. 案例计算温度湿度凤婪别执/I l b>75无适合热>75不适合适巾>75无适合冷75无适合睹 八菩社 雨温度湿度凤类刖 热>75无适合冷7SU 适合适巾>75 首适合 热頁无适合温度湿麽凤类别适中>75无适合冷>?5无适合冷75有不适會适中>75无适合适中>75不适合图6-4C4.5算法形成的决策树表卜2 C4円算穗训域样本集編号属n类别天气气盥輕度凤晴S5无凤N2热90无凤N3參云78无风F4适中96无凤P5冷80无风P670有凤N7爭
3、云冷£5有风P8睛适中95无风N9冷70无风P10.雨适中80无风P11适中70有风P13务云适中90有风P13案云热75无风P14南适中80冇凤N6.3决策树剪枝631先剪枝后剪枝6.4由决策树提取分类规则获得简单规则I-'J图6-5决策树642精简规则属性« « 3 规则農盖实例暑Class C英他类満足条件為Y1E1潢足条件為,怛不满足X¥2E26.5利用SQL Server 2005进行决策树挖掘数据准备挖掘模型设置W6 4列的用法字段名称列的用法字段窖称列的用法ID雄列客户状态输人列客户名称输入列重点标志输入列客户类母输入列可疑预测列经
4、济性质输入列预测列隶属关系输入列正常预测列关注输人列余新预测列法人资格输人列预测列挖掘流程图6-6选择数据挖掘技术图6-7选择数据源视图孰塀總坷向导图6-8指定表类型洽定定at簞躍 折走比斬中承用能列a a*1锻刁Q:曲初sffmu.SAJSW疏理:祕住厲則柱審尸代周窖户兇且:若好峯户状:麻口事曜关廉m天*需止笫口:S.Q再 551 «>! M入圖*SifliaSfinesrfPiilHSHFEi »V<|铠冈ID图6-9指定定型数据用壬列的内無和帝怅英那扭定初的秋功内盘和蝕翳真乱W向 SPSS事ft年酸冋 JDKjefLrmg皴恵憾si向?PS®SF
5、ttibDtsa-ie-正审曲#主i Qifcrusj;Tr*tTtwJl boubfa"处l«iVi皿 Cc4.ht DuUA T我:.丄步個 f-±. 芳畑 r恥旳图6-10指定列的内容和数据类型超向导”陀第结杓出供念幣“从而亮成数18据悔向号.t颐】FSE15S.3SKD):|心】1| 允汗讷预冷加祐币 2 强性 类J; 瓯AS京琏户.1 D次拦壬虽可S* 乌JFi也曲也FiE rpnd-a<ai詢加 II 聖泊图6-11完成数据挖掘结构的创建挖掘结果分析图6-12挖掘得到的“次级”决策树图6-13挖掘得到的依赖关系图图6-14 “余额”结点的依赖关系
6、图图6-15与“余额”结点链接强度最强结点示意图表&5 “余韻"结点铁勃关靈表预测结点决鹽结点依袒关系强弱顺序余额竄要标志1隶属关累2客户类型3軽群地质4容户狀峦5扶人资格6挖掘性能分析卩栅RiVJriMSn-mi-i I|j* 母更阿+ Iww-li"* >-dtSi:+l m星 na湖 |&nmi显 & nm显,.耳乎 nmmii厂 nmiEiwi :*W 剜田T M ii-ilnh SiiTh ! B 2 WiCiw.*I Vhd-¥l Siafh注斑O W.i-pIi+I L M.ltnii 痂离aIT囲舟电 £
7、171;¥->-AH «住也那 A i* h*A H割Dtttl图6-16列映射图立悴囚1UD1I HO>EI ±AE>輦甲去 EAHbn »ts> UlJD El蛰曲p flfeoii kJ 淨Qb Ti>3RD«» a 月看全 iE F .函丽apt s igb 歯!:+i jmm jT M鼻糜阿 * iMW- diJ K-UrilEl 乜 E«il->>- 白比肚“ ElflU-i!盃隹聲鼻口 氏 I » I OhM4 ra湖| & nmg 晶nmi锐配 丄nm电丽一挣nmipiw巒科!I却S Hj?qaim皿/IF临和的疳|£敢抒升画:1 E 1越 E ®W«>K* 学 3faMJriK hrrmi-i Q l|/予til 任0斟5Wwlid图6-17属性“次级”的预测提升图习题61. 概率分布0:0625;0:0625;0:125;0:5 的熵是多少?2. 汽车保险例子。假定训练数据库具有两个属性:年龄和汽车的类型。年龄序数分类。汽车类型一一分类属性。类一一L:低(风险),H:高(风险)。年龄汽车类型类>21MrutiL>21HyundaiH<21Ma
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三农产品网络营销作业指导书
- 2025年怀化考从业资格证货运试题
- 小学二年级数学上册口算题
- 2025年武威货运上岗证模拟考试试题
- 2025年楚雄驾校考试货运从业资格证模拟考试
- 电力调试合同(2篇)
- 电动车补充协议书范文(2篇)
- 2024-2025学年高中语文课时作业4毛泽东词两首含解析粤教版必修2
- 六年级班主任第二学期工作总结
- 小学班主任工作计划二年级
- 2024年安徽省高校分类对口招生考试数学试卷真题
- ISO45001管理体系培训课件
- 动画课件教学教学课件
- 会所股东合作协议书范文范本
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)数学试卷(含答案逐题解析)
- 人教版(2024)七年级上册英语期中复习单项选择100题(含答案)
- 2024年胡麻油市场前景分析:全球胡麻油市场规模达到了25.55亿美元
- 小学英语800词分类(默写用)
- 《 西门塔尔牛脸数据集的研究》范文
- 八年级上册 第三单元 11《简爱》公开课一等奖创新教学设计
- 真实世界研究指南 2018
评论
0/150
提交评论