




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS Classification Trees 分类树的应用分类树的应用深圳市医学信息中心深圳市医学信息中心内容内容基本概念基本概念快速入门快速入门知识拓展知识拓展一、基本概念一、基本概念什么是分类树?什么是分类树?对资料的要求对资料的要求用途用途如何确定变量的重要性、相互关系、交如何确定变量的重要性、相互关系、交互作用互作用分类树的优缺点分类树的优缺点分类树的运算法则分类树的运算法则1. 什么是分类树?什么是分类树?分类树产生一个基于树状的分类模型;分类树产生一个基于树状的分类模型;它将研究对象分组,可以根据自变量预它将研究对象分组,可以根据自变量预测因变量;是探索性和证实性分类分析测因
2、变量;是探索性和证实性分类分析的有效工具。的有效工具。2. 对资料的要求:任何类型对资料的要求:任何类型不要求解释变量不要求解释变量Xi 和结果变量和结果变量Y具有某种特具有某种特定的分布。定的分布。允许不同数据类型的解释变量一起进入模允许不同数据类型的解释变量一起进入模型,可以使用不同数据类型的结果变量。型,可以使用不同数据类型的结果变量。传统方法对资料的类型和分布有相对严格传统方法对资料的类型和分布有相对严格的规定(如多元线性回归);不易处理共的规定(如多元线性回归);不易处理共线性问题和多水平变量之间复杂的交互作线性问题和多水平变量之间复杂的交互作用(如用(如logistic 回归)。回
3、归)。 l根据解释变量对结果变量进行分类和根据解释变量对结果变量进行分类和预测。预测。l识别影响因素间的交互作用识别影响因素间的交互作用3. 用途用途1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素儿童肥胖症的儿童肥胖症的高危人群和低危人群高危人群和低危人群4. 变量的重要性及变量的重要性及变量间的相互关系如何确定?变量间的相互关系如何确定?解释变量的重要性表现为该解释变量解释变量的重要性表现为该解释变量出出现在树干的起始部位,或离起始部位很现在树干的起始部位,或离起始部位很接近接近;另一方面,重要性还表现为同一;另一方面,重要性还表现为同一解释变量解释变量多次在模型中出现多次在模型中
4、出现。利用解释变量之间上下的关系分析解释利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果变量间是否有可能存在交互作用。如果某些解释变量在单因素分析时与结果变某些解释变量在单因素分析时与结果变量之间无明显关联,而在模型中的某些量之间无明显关联,而在模型中的某些局部有明显的效应,提示这些解释变量局部有明显的效应,提示这些解释变量之间可能存在交互作用。之间可能存在交互作用。5. 分类树的优缺点分类树的优缺点是一种新的多因素分析方法,其结果直是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失观、明了、易于解释,能有效处理缺失数据及变量之间的共线性,对资料分布数据及
5、变量之间的共线性,对资料分布无任何要求。无任何要求。只适合大样本资料。如果结果变量是连只适合大样本资料。如果结果变量是连续性资料,样本含量可以小一些。如果续性资料,样本含量可以小一些。如果结果变量是分类资料,样本含量要大。结果变量是分类资料,样本含量要大。6. 运算法则运算法则 CHAID 结果变量:分类资料(最常结果变量:分类资料(最常用)用) 、计量或等级资料、计量或等级资料Exhaustive CHAID:结果变量:分类资结果变量:分类资料(最常用)料(最常用) 、计量或等级资料、计量或等级资料CRT结果变量:计量资料(最常用)、结果变量:计量资料(最常用)、分类或等级资料分类或等级资料
6、QUEST 结果变量:仅用于分类资料结果变量:仅用于分类资料二、快速入门二、快速入门 Quick Start1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素银行对客户的信贷风险评估银行对客户的信贷风险评估学生压力的影响因素分析学生压力的影响因素分析(一)结果变量是分类资料(一)结果变量是分类资料 例例1 1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素性别:男、女性别:男、女年龄组:年龄组:7-9岁,岁,10-12岁,岁,13-15岁,岁, 16岁岁胆固醇:胆固醇:5.18(mmol/L),5.18(mmol/L)甘油三脂:甘油三脂: 0.50(mmol/L),0.50(mmo
7、l/L)1. 数据文件数据文件2. SPSS过程过程单击单击OK(不必在此定义变量属性)(不必在此定义变量属性)右键单击变量,定义变量类型右键单击变量,定义变量类型定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:Scale定义变量定义变量“性别性别”Nominal定义变量定义变量“年龄组年龄组”Ordinal定义变量定义变量“胆固醇胆固醇”Nominal定义变量定义变量“甘油三脂甘油三脂”Nominal 定义变量定义变量“肥胖症肥胖症”Nominal肥胖症肥胖症Dependent Variable性别、年龄组
8、、胆固醇、甘油三脂性别、年龄组、胆固醇、甘油三脂 Independent VariableGrowing Method Exhaustive CHAID单击单击OK3. 主要结果主要结果例例2 2 银行对客户的信贷风险评估银行对客户的信贷风险评估A bank wants to categorize credit applicants according to whether or not they represent a reasonable credit risk. Based on various factors, including the known credit ratings of
9、 past customers, you can build a model to predict if future customers are likely to default on their loans.数据文件数据文件2. To Obtain Classification TreesAnalyzeClassify Tree.3. Define Variable Properties定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:ScaleClassification Tree dialog box
10、Define Variable Properties可对变量设置变量值标签可对变量设置变量值标签可更改变量类型和设置变量值标签可更改变量类型和设置变量值标签单击单击OK4. 分类树分类树主主对话框对话框(1)Selecting CategoriesGrowing Method: CHAID(2)Force the first variable Influence variable 一般不选择这一般不选择这2项项(3)Validation 是否需要交叉核实和分是否需要交叉核实和分开开2样本核实?样本核实? 默认:不需要默认:不需要 (4)CriteriaGrowth Limits、CHAID、I
11、ntervalsTree Depth: AutomaticParent Node:400; Child Node:200CriteriaCHAID,默认拆分及合并的检验水准均定位拆分及合并的检验水准均定位0.05CriteriaIntervals,对连续性变量,默认分为10个区间(5) Output treeTree in table format:非默认,可不选非默认,可不选Output StatisticsOutput Plots5. 主要结果主要结果CHAID, Exhaustive CHAIDModel Summary:记录了主要操作:记录了主要操作Model SummaryCHAID
12、Credit ratingAge, Income level, Number of credit cards,Education, Car loansNONE3400200Income level, Number of credit cards, Age1063Growing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild NodeSpecificationsIndependent Variables
13、IncludedNumber of NodesNumber of TerminalNodesDepthResultsTree Editor改变图形方向改变图形方向增大图形增大图形单击单击“”或右键或右键隐蔽子结隐蔽子结Hide ChildrenTree Table(非默认,可不选)(非默认,可不选)Tree Table102041.4%144458.6%2464100.0%Good45482.1%9917.9%55322.4%Bad0Incomelevel.000662.4572 Medium42256.7%32243.3%74430.2%Bad2Number ofcreditcards.00
14、0193.11315 or more5413.8%33686.2%39015.8%Good2Number ofcreditcards.000193.1131Less than 58017.6%37582.4%45518.5%Good3Number ofcreditcards.00038.58715 or more103.1%31296.9%32213.1%Good3Number ofcreditcards.00038.5871Less than 521180.8%5019.2%26110.6%Bad4Age.00095.2991 28.079205818990676Node0123456789
15、NPercentBadNPercentGoodNPercentTotalPredictedCategoryParent NodeVariableSig.aChi-SquaredfSplit ValuesPrimary Independent VariableGrowing Method: CHAID Dependent Variable: Credit rating Bonferroni adjusteda. Target Category: Bad子结子结1、8对区分对区分Bad的区分作用大的区分作用大Bad的比例的比例41.4(1020/2464)Index=Response/41.4*1
16、00%Gains for Nodes55322.4%45444.5%82.1%198.3%26110.6%21120.7%80.8%195.3%48319.6%21120.7%43.7%105.5%45518.5%807.8%17.6%42.5%39015.8%545.3%13.8%33.4%32213.1%101.0%3.1%7.5%Node189657NPercentNodeNPercentGainResponseIndexGrowing Method: CHAID Dependent Variable: Credit rating 246=2464*10%; 493=2464*20%;如
17、累计如累计Gain Percent快速接近快速接近100,则分类和预测效果好则分类和预测效果好Gains for Percentiles 124620219.8%82.1%198.3% 149340539.7%82.1%198.3% 1 ; 873960459.3%81.8%197.6% 8 ; 998674072.6%75.1%181.3% 9123284883.1%68.8%166.2% 9 ; 6147890889.0%61.4%148.4% 6172595193.3%55.1%133.2% 6 ; 5197198696.7%50.0%120.9% 5 ; 72218101299.3%4
18、5.6%110.3% 724641020100.0%41.4%100.0%Percentile102030405060708090100NodesNNPercentGainResponseIndexGrowing Method: CHAID Dependent Variable: Credit rating 横坐标为调查总例数的百分比,纵坐标为目标分横坐标为调查总例数的百分比,纵坐标为目标分类如类如bad的百分比。的百分比。1009080706050403020100P ercenti l eP ercenti l e100%80%60%40%20%0%G ai nG ai nD epende
19、nt Vari abl e: C redi t rat i ngG row i ng M et hod: C H AI DTarget C ategory:B adTarget C ategory:B adFor a good model, the index value should start well above 100%, remain on a high plateau as you move along(说明区分度高的节(说明区分度高的节点多)点多), and then trail off sharply toward 100%. For a model that provides
20、 no information, the line will hover around 100% for the entire chart.从应答率或检出率的角度,说明各节点的作从应答率或检出率的角度,说明各节点的作用。如果多数节点的应答率接近用。如果多数节点的应答率接近41.4(1020/2464,没有建立模型的情况),则说,没有建立模型的情况),则说明模型效果不好。明模型效果不好。模型评价:总的正确率模型评价:总的正确率是是79.5,Bad的正确率的正确率是是65.2。Risk.205.008EstimateStd. ErrorGrowing Method: CHAID Dependent
21、 Variable: Credit ratingClassification66535565.2%149129589.7%33.0%67.0%79.5%ObservedBadGoodOverall PercentageBadGoodPercentCorrectPredictedGrowing Method: CHAID Dependent Variable: Credit rating 小结:小结:Dependent为分类变量的操作为分类变量的操作单击单击OK选择选择CHAID;单击;单击CategoriesBad TargetOutput TreeOutput StatisticsOutpu
22、t Plots是否需要交叉核实和分开是否需要交叉核实和分开2样本核实?样本核实?默认:不需要默认:不需要Criteria Growth Limits默认类别分默认类别分3层;母结层;母结100,子结,子结50;本例样本大,调整为本例样本大,调整为400,200如有过多的如有过多的Missing data:用用CRT or QUEST methods取代取代(二)结果变量是连续资料(二)结果变量是连续资料学生压力的影响因素分析(学生压力的影响因素分析(61例)例)性别:男;女性别:男;女专业:会计系;注册会计师系专业:会计系;注册会计师系专业满意:很满意;满意;一般;不满意专业满意:很满意;满意
23、;一般;不满意学业成绩:很好;好;一般;较差学业成绩:很好;好;一般;较差压力总分:压力总分:0181. 数据文件数据文件2. SPSS过程过程单击单击OK定义变量定义变量“性别性别”、“系系”Nominal定义变量定义变量“专业满意专业满意”、“学业成学业成绩绩”Ordinal Growing Method: CRT;单击单击CriteriaParent Node:20; Child Node:10单击单击OK3. 主要结果主要结果Parent NodeChild Node模型构建的主要参数如下模型构建的主要参数如下应变量为分类资料,选用应变量为分类资料,选用Exhaustive CHAID
24、 或或CHAID算法。算法。拆分及合并的检验水准一般设置为拆分及合并的检验水准一般设置为0.05分类树的最大生长深度定为几层(默认分类树的最大生长深度定为几层(默认为为3层,可最多设定层,可最多设定8层)?层)?设定母结点和子结点中的最少例数分别设定母结点和子结点中的最少例数分别为多少(默认:母结点为多少(默认:母结点100;子结点;子结点50)?)?知识拓展知识拓展对乳腺癌患者死亡的相关因素进行分类树分析对乳腺癌患者死亡的相关因素进行分类树分析主要操作主要操作主要结果主要结果在在Word中重新绘制的图形中重新绘制的图形2病理肿瘤大小(cm)2Node 1死亡率0.9%观察例数326Node 4死亡率19.1%观察例数89Node 5死亡率7.0%观察例数86Node 3死亡率6.0%观察例数439Node 0死亡率6.0%观察总例数1207Node 2死亡率=4.1%观察例数2671.01.11.41.53.03.0未检测Node 6死亡率6.5%观察例数370Node 7死亡率15.9%观察例数69腋下淋巴结转移个数图1 乳腺癌患者死亡相关因素的分类树结果分类树方法及其结果的文字描述分类树方法及其结果的文字描述方法方法结果结果分类树分类树方法方法的文字描述的文字描述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《全通径管道视镜用耐压玻璃管》征求意见稿
- 人教宁夏 九年级 下册 语文 第三单元《 文言文主题阅读》习题课 课件
- 人教河南 九年级 下册 语文 期末专题训练《 专题七 古诗文默写》习题课 课件
- 计算机基础实践与创新课件 第六章 办公软件-WPS 演示
- 借款合同范例藏文
- 兑店合同范例
- 信息建设合同范例
- 出租各种塔吊合同范例
- 书籍出版英文合同范例
- 中纤板采购合同范例
- 《哈利·波特与火焰杯》
- 2024年国信证券股份有限公司招聘笔试参考题库含答案解析
- 新课程关键词
- 粮油仓储企业一规定两守则试题(新改版附答案)
- DLDS-1508工业机器人技术应用系统拓展方案技术说明
- 回风巷道掘进开口安全技术措施
- 房屋租赁运营服务投标方案
- 异地灾备中心建设方案
- 立法学(第五版)课件 第9-16章 立法程序-立法语言
- 中国法律服务行业市场运行动态及投资潜力报告(2023版)
- 2023年中国造纸化学品发展现状与趋势
评论
0/150
提交评论