决策树方法在数据挖掘中的应用_第1页
决策树方法在数据挖掘中的应用_第2页
决策树方法在数据挖掘中的应用_第3页
决策树方法在数据挖掘中的应用_第4页
决策树方法在数据挖掘中的应用_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

决策树方法在数据挖掘中的应用1KnowledgeSEEKER简介2数据准备3定义研究对象4建立模型5理解模型6预测1KnowledgeSEEKER简介KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序。该程序具有相当完整的分类树分析功能。KnowledgeSEEKER采用了两种著名的决策树分析算法:CHAID和CART算法。CHAID算法可以用来对于分类性数据进行挖掘。CART算法则可以对连续型因变量进行处理。Angoss公司在增强这些算法的用户友好性方面作了大量的工作。优点:响应快,模型,文档易于理解,决策树分析直观,性能良好缺点:决策树不能编辑打印,缺乏数据预处理阶段的函数,没有示例代码1KnowledgeSEEKER简介应用行业案例:FrostNational银行CRM收益率、客户满意度、产品功效SASI公司利用其开发行业数据挖掘应用软件(零售行业)Montreal银行客户分片、越区销售模型、市场站的准备、抵押支付的预测、信用风险的分析2数据准备使用的样例数据集是从一个团体健康检查中有关高血压的研究项目中得到的。Angoss公司已将这一数据集包括在产品演示中。有关高血压研究方面的数据(表中给出数据集中各个数据列的取值范围及其含义说明)2数据准备数据预处理:1)对数据域中所含的整数值进行标注:Hypertension(高血压)域中可以出现整数值1,2,3,这几个值将分别被标注为低,正常,高。TypeOfMilk域中包含整数值1~5,将分别标注为纯牛奶、2%,脱脂牛奶,奶粉及根本不喝牛奶2)处理导出型的数据域字段Age中包含的值1,2,3分别表示32~50岁、51~62岁及63~73岁。然而,字段Age中通常包含的都是某个人的实际年龄而非整数值1,2,3,因此,字段Age中的值是在数据挖掘开始之前就已经导出了,即按照实际年龄的范围32~50岁、51~62岁及63~73岁对该字段选择适当的值。3定义研究对象1、定义挖掘目标在开始使用KnowledgeSEEKER之前,有必要定义出挖掘的目标。在给定的数据集的例子中展示了哪些饮食因素会对人的血压高低有关键性的影响。其挖掘的目标可以明确地描述为:分析出饮食因素对血压偏低、正常及偏高所产生的影响。3定义研究对象2、启动3定义研究对象3、设置因变量一开始,字段Hypertension就已经被自动设置为因变量。稍后,还将改变因变量的设置。打开bpress数据集之后将出现如图所示的屏幕。3敌定义速研究块对象图中冬的根雄结点钞对应肯的是我因变抗量。羊在根元节点疮中血傅压已大经分矿别被躲分为缸3类永:偏测低、渠正常很和偏勤高。堤我们厘现在惊要了劳解的老是血岔压偏饭低、桶正常湖和偏教高的妥人都宾分别托具有展哪些附特征抬。从须图中辽可以该看出腔:研究伍对象悔中有澡18察%的混人(枕即6谦6个责人)电血压劳偏低研究酱对象市中有港60哀%的册人(蚀即2稳17产个人窄)血能压正螺常研究活对象枯中有注21忙%的过人(候即7猾7个房诚人)锅血压旨偏高4剃建立女模型目前Kn忠ow棕le雾dg术eS痛EE辨KE谊R已经绝构造葱出模由型树百的下努一层割分支宫。当象然,路模型脆树还虚可以真自动吼生成粉出多车层分获支。图中别的模悲型树勾的下澡一层嘴分支鞋表明拨上一坛层的立双亲各节点斤是按牌年龄颜(ag兴e)进行隙分叉帆的。搁年龄仔只是寻影响椅血压镇的一勾个变阵量,藏但是拉在目许前这德个例态子中典,年看龄似公乎是答导致鉴一个降人的岁血压架是否怕偏高接的最你重要晶因素享。如图再所示养,研猪究对至象按挡年龄键分为层以下阁3组煎:32垃~5嗓0岁拖,5屡1~液62骆岁,拔63令~7尤3岁它们候分别暮对应狠于模虏型树俊的三柔个叶移节点赠。此外激,还敌可以运用除Ag亮e以外径的其岂他字香段为柳模型志树创偷建新片的叶膏节点拾。在爬模型五树上校通过攀指定害其它依字段药以创亲建新撒的叶盆节点送称为咽分叉格。对集于当陶前这移个数具据集刊,系担统会诵自动趁发现坑12起个分熔叉。5吼理解水模型1)霉观察央其分浮叉观察惕其分馆叉将鸭使我滋们可驴以看慕到除谣年龄隆以外斤对血珍压还蜡有影均响的边其他祝重要倘变量律的作茄用。Kn鞭ow尼le拉dg租eS则EE蒜KE阿R可以蜓计算扬出所缸有变项量对监血压亚影响催的大国小并披将使附它们老按顺桃序排馒列起奇来。沃用另渗一个嗓变量依直接扩在根玩节点昌下面减构造是叶节沙点即问可进雄入模跪型树锻的另允一个老分叉搂。这注样,替我们汗就可兴以很赔容易盾地观恳察到彩其他钞数据伴元素待对血赞压的怕影响开。对于纳自动御生成萝的每恨一个塌分叉饼所作捷的概及述将体为我群们考衣虑下纽奉一步轿的研漂究方笨向提药供有甘益的侄线索瓣。很蹄明显定,所阴获得及的信殊息中升有一若些符趣合我掌们的猜预先刻估计惧;然旅而,藏我们壮从数瞎据集偶中也宴发现剖了一庸些预棉先没退有估汉计到体的结滚果,器如人链的身柔高与岸其高票血压残之间肌的关算系就址是我喷们预战先没辽有估剩计到冬的。5苏理解汪模型2)原进入罚特定洗分叉3)学扩展松模型雨树以sm同ok跑in预g为分韵叉变掉量构援造的趟模型窗树目泽前还远只有毅一层葬。我岁们可五以对谁这棵衬模型扯树作愁进一分步扩槐展。植在模昆型树丧的第厘二层是中选爸择经息常吸秘烟者悔相对天应的余节点葬,然痒后,灵在Gr伙ow下拉姐菜单浪中选缓择Fi竭nd螺S谷pl靠it沙,即可呼以看冬到如唉图所侦示的芳屏幕垦。5叙理解欢模型Kn扬ow张le纷dg值eS夸EE众KE煤R发现勉对于朱描述塌经常意吸烟朋者特丢征最淹为有师效的瞧分组状变量渔就是党年龄改。也就远是说肠,对法于经蜻常吸耐烟的兔人而尤言,嘉年龄滔将是押确定船其是沸否患薪高血援压的钟最关小键的轧指标排,数甩据表白明年秒龄在画63怜~7也3岁嗓之间诞经常拥吸烟骡的人限当中懒有5忍6.斩7%状患有卖高血甲压,栋而年叶龄在县32输~5妙1岁厌之间讨且经撇常吸扩烟的乒人当外中患绳有高烟血压略的比怒例仅抗为4屠.8伏%。为进郊一步屡描述笑经常传吸烟面者的忙特征雅,Kn储ow阁le犁dg绒eS吴EE货KE唤R总共料发现套了6危个分血叉变星量,困分别饲是Ag凭e,葱He蓬ig购ht承,P蚊or崇kL净as平tW梢ee院k,梨Dr略in琴kP虑at活te拜rn烦,G鸣en呈de驴r以及Sa胞lt赵Co默ns叛um价pt赤io畅n。其中烂以年骄龄最坚为有缠效。5翁理解喝模型4)腥强制患分叉有时便我们锻还想寒观察鼓一下屯那些剖没有亦自动昏发现卵的变爆量的宰作用帜。例捞如,聋我们焦可能乖想知狐道Po芬ul箩tr纯yL倘as梨tW迟ee肉k对人参们患愿有高欧血压桂有什篇么影筐响。愚为此挎,我攻们可弄以在柜模型拦树上被作强掀制分摊叉。5铸理解割模型5)怎对模寨型进高行验舌证当我羊们从彼一个询数据注集中胁发现掌某些原结果画之后要,总尊是希罢望能端够用根另外总一个亩数据周集再长对其农进行赞验证篮。An球go祖ss将那判些用液于验垫证的抛数据球集又梨称为馒测试乌分区凑(Te集st宽P匀ar权ti治ti俭on袖)。Kn市ow粉le永dg杜eS胶EE域KE侄R允许临我们决用另尿一个段数据滚集(悲即测巷试分德区)辅对新秘发现漏的结芦果进贷行验倦证。5肉理解麦模型6)穴重新扮定义灶挖掘屯对象假如咸我们触想要孕改变帆所研英究的外内容善(例搏如,冬想要泪研究性饮酒敲数量教不同窑的人周之间仍的差鱼别)梯,那思么就伏需要鞠重新脚定义述研究卷对象病。改变呀模型挤树的暂根节傍点为Dr蜻in咐kP匙at锋te亭rn,即新井的模炸型树陪的根容节点易对应遮的因叔变量云为Dr汇in恰kP顾at维te躲rn,其中个可以泊含有蚂下列剥值:Re满gu背la薯r(经常稠饮酒净)Oc葛ca亦si曲on嘱al日(偶然饭饮酒处)Fo扭rm膀er伏(以前拳曾经什饮酒像)Ne赵ve货r(从不冒饮酒挖)可以嗽对这尚棵以Dr赛in呆kP立at李te臣rn为因社变量生的模佣型树肢作进灰一步泛的扩挂展。除虽然役这期昨间使茫用Kn茄ow纤le阀dg斯eS暮EE万KE算R的工健作方汪式与拜前面韵是一新样的补,但俊所要裕研究言的内略容与采前面旨完全满不同牌了,瓣即现讨在要到研究兽的是爽人们洲的饮陵酒方录式及标其影亮响。5颠理解揉模型7)住模型仇树的台自动均扩展前面龟所演幸示的竿都是庆如何督一个测一个庭节点视地扩毫展模担型树舌。此外击,还改可以垦让系牲统对剑模型颂树作程自动忽扩展脉。8)感数据典分布Kn简ow深le辉dg金eS仇EE脂KE毛R提供治了若珠干种撕方法日以便盟我们村能够巧对正观在挖老掘的迷数据赖的状骑态进育行观残察。首先甜,我榨们能回够通赞过Kn世ow夏le拘dg保eS债EE昌KE担R对正扎在挖氧掘的亏原始届数据刚进行友详细导观察贞。另外仪,还俯可以忍通过Kn甘ow众le负dg览eS届EE赤KE咏R对数锅据几亮种不效同数财据项予的交沿叉列催表视忆图进见行观闪察。6扫预测现在活我们华已经拉有了娃一个误可以旨用来将作预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论