




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树模型
----QUEST报告人:李福娟指导教师:谢邦昌时间:2007年11月20日决策树模型
1
Clementine的决策树模型
决策树(DecisionTree)模型,也称规则推理模型通过对训练样本的学习,建立分类规则依据分类规则,实现对新样本的分类属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量)属性变量(输入变量)决策树模型与一般统计分类模型的主要区别决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的基于逻辑是指通过对属性变量值的布尔比较来实现分类判断
Clementine的决策树模型
决策树(Decision2Clementine的决策树模型决策树模型的特点优势:推理过程容易理解,决策推理过程可以表示成IF、THEN的形式推理过程完全依据属性变量的取值特点可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数目提供参考Clementine的决策树模型决策树模型的特点优势:3Clementine的决策树模型决策树模型的主要算法:C&RTC5.0CHAIDQUESTClementine的决策树模型决策树模型的主要算法:4QUEST算法
QUEST:QuickUnbiasedEfficientStatisticalTree它是Loh和Shih1997年提出的建立决策树的一种二元分类方法。QUEST算法也主要涉及分支变量和分割值的确定问题,但它将分支变量选择和分割点选择以不同的策略进行处理它的运算过程比C&R更简单有效。QUEST算法5要求属性变量(输入变量)分类型变量、数值型变量目标变量(输出变量)必须是二值分类型变量(如果是多值的转化成二值的),建立二叉树模型中涉及到的顺序变量必须存储为数值型该模型中不可以应用权数变量要求属性变量(输入变量)分类型变量、数值型变量6确定分支变量分别检验各属性变量对目标变量的独立性。如果属性变量为定类的,则采用卡方检验如果属性变量为定距,则采用F检验
选择P-值最小且小于显著性水平的属性变量作为当前的最佳分支变量确定分支变量分别检验各属性变量对目标变量的独立性。7确定分支变量如果最小的P-值尚未小于显著性水平:在F检验检验中,意味着在水平下目标变量不同分类下属性变量的均值不存在显著。此时,应利用Levene’F检验其方差。选择方差齐性最不显著的变量可作为当前的分支变量否则,该树节点无法再分支确定分支变量如果最小的P-值尚未小于显著性水平:8当前分支变量是定距的如果目标变量有两个以上的分类水平,则应首先将其合并为两个超类(目标变量的预处理)分别计算目标变量不同分类下当前分支变量的均值如果各均值没有显著差异,则将权重最大(该组包含的样本个数最多)组所对应的属性变量值作为一组,其余为另一组如果各均值存在显著差异,则利用2-Means聚类将样本聚成2类(初始类中心为两个极均值),从而使将目标变量值合并成两类(多分类问题转换为二分类问题)确定分割值当前分支变量是定距的确定分割值9确定分割值当前分支变量是定类的先将定类分支变量转化为定矩变量将该分支变量转换为哑变量组,依据目标变量,建立若干个判别函数,并取第一个典型判别函数(特征根最大)计算各样本在第一个判别函数坐标上的值,作为值再依据前述定距分支变量的方法处理
确定分割值当前分支变量是定类的10Clementine11.0中的应用
市场研究案例一个有限电视公司做了一项市场调查以了解哪些用户会订阅某种交互式的新闻服务。选择的变量有:年龄(age)、性别(gender)、受教育程度(educate)、收入水平(inc)、每天看电视时间(tvday)、家庭拥有孩子个数(childs)。(NewsChan.sav
)Clementine11.0中的应用11Clementine11.0中的应用Clementine11.0中的应用12Clementine11.0中的应用可以通过连接并执行输出节点Table查看数据源数据Clementine11.0中的应用可以通过连接并执行13Clementine11.0中的应用设置变量类型输入变量输出变量Clementine11.0中的应用设置变量类型输入变量输出14Clementine11.0中的应用建立QUEST决策树模型(Modeling-QUEST)建立一个QUEST结点与源数据相连,然后右击对QUEST结点进行编辑Clementine11.0中的应用建立QUEST决策树模型15Clementine11.0中的应用QUEST节点的Model选项分割数据集训练样本检验样本模式Generatemodel直接给出最终模型;LaunchInteractivesession可以逐层建立,修改和删除节点。Usetreedirectives指定任意层节点的分割方式或子节点数最大树深自定义判别树的最大层数Clementine11.0中的应用QUEST节点的Mode16Clementine11.0中的应用QUEST节点的高级(expert)选项框最大替代数:当某记录有缺失值时,QUEST会根据与其相似的记录所归入节点的取值进行替代分裂的显著性水平:设定分裂标准,越小,则树的分叉越少终止条件修剪树:usestandarderrorrule删除分类不纯的节点先验概率Clementine11.0中的应用QUEST节点的高级(e17Clementine11.0中的应用分类回归树节点终止选项终止法则决定何时终止分割树的具体分支设置最小分支数目以避免分割出过小的子群使用百分数:按照占整个训练集的百分比来指定大小使用绝对值:用绝对记录数来指定大小
Clementine11.0中的应用分类回归树节点终止选项18Clementine11.0中的应用先验概率(priors)选项在根本不知道预测值前对每个可能的目标域值所做的概率估计。Basedontrainingdata先验概率基于各类在训练集中的相对次数Equalforallclasses各类的先验概率指定为1/k,k为目标类数Custom自定义,要求:所有类的先验概率总和为1。
Clementine11.0中的应用先验概率(priors)19Clementine11.0中的应用QUEST节点的成本(cost)选项错误归类矩阵显示预测类和实际类每一个可能组合的损失,所有预设为1选择Usemisclassificationcosts可以自定义损失值Clementine11.0中的应用QUEST节点的成本(c20Clementine11.0中的应用执行QUEST节点Clementine11.0中的应用执行QUEST节点21Clementine11.0中的应用决策树的生长和修剪
显示标签值生长并修剪树Clementine11.0中的应用决策树的生长和修剪显示标22Clementine11.0中的应用通过统计检验确定的分支变量根据Adj.Prob确定最佳分支变量,概率值越小,则根据该分支变量所确定两个类的异质性越强,分支越有效Clementine11.0中的应用通过统计检验确定的分支变23Clementine11.0中的应用确定的最佳分支变量为年龄节点2在年龄大于44.142的人群中,确定一个人订阅的概率已经达到67.143%
Clementine11.0中的应用确定的最佳分支变24Clementine11.0中的应用Clementine11.0中的应用25Clementine11.0中的应用Gains选项卡选择Targetcategory=1.0索引值大于100%的节点所确定的人群接受的概率明显大于随机选择的人群。Clementine11.0中的应用Gains选项卡26Clementine11.0中的应用Chart横坐标通常为分位点纵坐标是累计Lift值理想的Lift图应在较高的累计Lift上保持较长一段,然后迅速下降到1Clementine11.0中的应用Chart27Clementine11.0中的应用生成模型(GenerateModel)根据建立的决策树可以生成或输出决策结果Clementine11.0中的应用生成模型(Generat28Clementine11.0中的应用风险(risk)选项在某些情况下,特定类型的错误比其他类错误所引起的损失更大。例如,把高风险信用卡申请者归入低风险信用类(一种错误)比把低风险信用卡申请者归入高风险类(另一种错误)损失要大。错误归类代价提供用户在识别不同的预测误差的相对重要性。Clementine11.0中的应用风险(risk)选项29Clementine11.0中的应用Clementine11.0中的应用30Clementine11.0中的应用生成的模型显示在流编辑窗口,与Type节点连接,然后双击就可以查看该模型Clementine11.0中的应用生成的模型显示在流编辑窗31Clementine11.0中的应用总体显示决策树模型Clementine11.0中的应用总体显示决策树模型32Clementine11.0中的应用树深为2目标变量输入变量Clementine11.0中的应用树深为2目标变量33Clementine11.0中的应用连接Table到生成模型看决策结果$R-NEWSCHAN的值=1表示为订阅的客户;其值为0,表明该客户不会订阅。
Clementine11.0中的应用连接Table到生成模型34
谢谢!决策树模型QUEST---谢邦昌教授课件35决策树模型
----QUEST报告人:李福娟指导教师:谢邦昌时间:2007年11月20日决策树模型
36
Clementine的决策树模型
决策树(DecisionTree)模型,也称规则推理模型通过对训练样本的学习,建立分类规则依据分类规则,实现对新样本的分类属于有指导(监督)式的学习方法,有两类变量:目标变量(输出变量)属性变量(输入变量)决策树模型与一般统计分类模型的主要区别决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的基于逻辑是指通过对属性变量值的布尔比较来实现分类判断
Clementine的决策树模型
决策树(Decision37Clementine的决策树模型决策树模型的特点优势:推理过程容易理解,决策推理过程可以表示成IF、THEN的形式推理过程完全依据属性变量的取值特点可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数目提供参考Clementine的决策树模型决策树模型的特点优势:38Clementine的决策树模型决策树模型的主要算法:C&RTC5.0CHAIDQUESTClementine的决策树模型决策树模型的主要算法:39QUEST算法
QUEST:QuickUnbiasedEfficientStatisticalTree它是Loh和Shih1997年提出的建立决策树的一种二元分类方法。QUEST算法也主要涉及分支变量和分割值的确定问题,但它将分支变量选择和分割点选择以不同的策略进行处理它的运算过程比C&R更简单有效。QUEST算法40要求属性变量(输入变量)分类型变量、数值型变量目标变量(输出变量)必须是二值分类型变量(如果是多值的转化成二值的),建立二叉树模型中涉及到的顺序变量必须存储为数值型该模型中不可以应用权数变量要求属性变量(输入变量)分类型变量、数值型变量41确定分支变量分别检验各属性变量对目标变量的独立性。如果属性变量为定类的,则采用卡方检验如果属性变量为定距,则采用F检验
选择P-值最小且小于显著性水平的属性变量作为当前的最佳分支变量确定分支变量分别检验各属性变量对目标变量的独立性。42确定分支变量如果最小的P-值尚未小于显著性水平:在F检验检验中,意味着在水平下目标变量不同分类下属性变量的均值不存在显著。此时,应利用Levene’F检验其方差。选择方差齐性最不显著的变量可作为当前的分支变量否则,该树节点无法再分支确定分支变量如果最小的P-值尚未小于显著性水平:43当前分支变量是定距的如果目标变量有两个以上的分类水平,则应首先将其合并为两个超类(目标变量的预处理)分别计算目标变量不同分类下当前分支变量的均值如果各均值没有显著差异,则将权重最大(该组包含的样本个数最多)组所对应的属性变量值作为一组,其余为另一组如果各均值存在显著差异,则利用2-Means聚类将样本聚成2类(初始类中心为两个极均值),从而使将目标变量值合并成两类(多分类问题转换为二分类问题)确定分割值当前分支变量是定距的确定分割值44确定分割值当前分支变量是定类的先将定类分支变量转化为定矩变量将该分支变量转换为哑变量组,依据目标变量,建立若干个判别函数,并取第一个典型判别函数(特征根最大)计算各样本在第一个判别函数坐标上的值,作为值再依据前述定距分支变量的方法处理
确定分割值当前分支变量是定类的45Clementine11.0中的应用
市场研究案例一个有限电视公司做了一项市场调查以了解哪些用户会订阅某种交互式的新闻服务。选择的变量有:年龄(age)、性别(gender)、受教育程度(educate)、收入水平(inc)、每天看电视时间(tvday)、家庭拥有孩子个数(childs)。(NewsChan.sav
)Clementine11.0中的应用46Clementine11.0中的应用Clementine11.0中的应用47Clementine11.0中的应用可以通过连接并执行输出节点Table查看数据源数据Clementine11.0中的应用可以通过连接并执行48Clementine11.0中的应用设置变量类型输入变量输出变量Clementine11.0中的应用设置变量类型输入变量输出49Clementine11.0中的应用建立QUEST决策树模型(Modeling-QUEST)建立一个QUEST结点与源数据相连,然后右击对QUEST结点进行编辑Clementine11.0中的应用建立QUEST决策树模型50Clementine11.0中的应用QUEST节点的Model选项分割数据集训练样本检验样本模式Generatemodel直接给出最终模型;LaunchInteractivesession可以逐层建立,修改和删除节点。Usetreedirectives指定任意层节点的分割方式或子节点数最大树深自定义判别树的最大层数Clementine11.0中的应用QUEST节点的Mode51Clementine11.0中的应用QUEST节点的高级(expert)选项框最大替代数:当某记录有缺失值时,QUEST会根据与其相似的记录所归入节点的取值进行替代分裂的显著性水平:设定分裂标准,越小,则树的分叉越少终止条件修剪树:usestandarderrorrule删除分类不纯的节点先验概率Clementine11.0中的应用QUEST节点的高级(e52Clementine11.0中的应用分类回归树节点终止选项终止法则决定何时终止分割树的具体分支设置最小分支数目以避免分割出过小的子群使用百分数:按照占整个训练集的百分比来指定大小使用绝对值:用绝对记录数来指定大小
Clementine11.0中的应用分类回归树节点终止选项53Clementine11.0中的应用先验概率(priors)选项在根本不知道预测值前对每个可能的目标域值所做的概率估计。Basedontrainingdata先验概率基于各类在训练集中的相对次数Equalforallclasses各类的先验概率指定为1/k,k为目标类数Custom自定义,要求:所有类的先验概率总和为1。
Clementine11.0中的应用先验概率(priors)54Clementine11.0中的应用QUEST节点的成本(cost)选项错误归类矩阵显示预测类和实际类每一个可能组合的损失,所有预设为1选择Usemisclassificationcosts可以自定义损失值Clementine11.0中的应用QUEST节点的成本(c55Clementine11.0中的应用执行QUEST节点Clementine11.0中的应用执行QUEST节点56Clementine11.0中的应用决策树的生长和修剪
显示标签值生长并修剪树Clementine11.0中的应用决策树的生长和修剪显示标57Clementine11.0中的应用通过统计检验确定的分支变量根据Adj.Prob确定最佳分支变量,概率值越小,则根据该分支变量所确定两个类的异质性越强,分支越有效Clementine11.0中的应用通过统计检验确定的分支变58Clementine11.0中的应用确定的最佳分支变量为年龄节点2在年龄大于44.142的人群中,确定一个人订阅的概率已经达到67.143%
Clementine11.0中的应用确定的最佳分支变59Clementine11.0中的应用Clementine11.0中的应用60
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡村地基出售合同范本
- 2025年铁岭考货运从业资格证
- 2025年永州货运从业资格证怎么考试
- 加工合同范本道客
- 买车库出售合同范本
- it购销合同范本
- 医院业务合同范本
- 写医疗合同范本
- 加气块供应合同范本
- 单位更夫合同范本
- 《脑胶质瘤诊疗指南2024版》解读
- 税务会计岗位招聘面试题与参考回答2024年
- 学校开学安全隐患自查表
- 经济法学学习通超星期末考试答案章节答案2024年
- 浙江宁波前湾控股集团有限公司招聘笔试题库2024
- 结构化学(PDF电子书)
- 产科腹部四步触诊要点
- 第10课 人类社会及其发展规律-【中职专用】2024年中职思想政治《哲学与人生》金牌课件(高教版2023·基础模块)
- SLT 478-2021 水利数据库表结构及标识符编制总则
- 2024年春学期人教版小学道德与法治六年级下册教学计划附教学进度表
- 深度学习视角下“尺规作图”教学策略
评论
0/150
提交评论