版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
14/14目录引言 31.决策树演算法(DecisionTree)简介 31.1决策树演算法的原理 31.2决策树演算法的选择 41.3CHAID算法简介 42.自行车销售数据栏位和特征分析 53.建立决策树模型串流 63.1读取数据 63.2数据类型定义 73.3决策树节点设定 74.生成模型与修正模型 95.模型分析 13
基于SPSSModeler的自行车销售预测分析引言随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用IBMSPSSModeler进行实作,介绍决策树(Decisiontree)演算法于零售领域的应用实例。IBMSPSSModeler包含多种决策树模型,包括C5.0、C&RTree、Quest、CHAID。首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据(某公司自行车销售数据)进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。本文所用分析工具为IBMSPSSModeler17试用版,所建立模型需IBMSPSSModeler15及以上版本才可正常查看。1.决策树演算法(DecisionTree)简介1.1决策树演算法的原理决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。一个决策树的架构,是由三个部分所组成:叶节点(LeafNode)、决策节点(Decisionnodes)以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。决策树演算法的比较决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在IBMSPSSModeler中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST以及C&RTree四种。1.)C5.0由C4.5演化而来。此演算法的分类原理主要是利用资讯衡量标准(InformationMeasure)来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0的目标字段(Target)测量级别,不适用于连续类型(Continuous)的测量级别。而输入字段的数据型态则适用连续类型(Continuous)的测量级别。2.)CHAID(Chi-SquareAutomaticInteractionDetector)此演算法和前述的C5.0概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定(Chi-squareFtest)来进行分支,通过卡方检定来计算节点中的P-value,来决定数据是否仍须进行分支。另外,CHAID的目标字段(Target)的测量级别可适用于连续类型(Continuous)的测量级别,但在输入字段则只适用分类类型(Categorical)的测量级别。3.)QUEST(QuickUnbiasedEfficientStatisticalTree)此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST在变数的数据型态限制上,跟C5.0一样,目标字段(Target)测量级别,不适用于连续类型(Continuous)的测量级别。但在输入字段的测量级别则适用连续类型(Continuous)的测量级别。4.)C&RTree(ClassificationandRegressionTree)又称为CART,构建决策树的原理是使用GiniRatio作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数(Target)以及输入字段的测量级别均适用连续类型(Continuous)的测量级别做分析。1.2决策树演算法的选择在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果,选择最适合的决策树演算法。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分仅针对CHAID算法进行简单的介绍和应用展示。1.3CHAID算法简介CHAID,或卡方自动交互效应检测,是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。“卡方”是在分类模型中应用的一个统计量;“交互作用”是指进行成功预测所需要考虑的各变量之间的相互关系;“检验”是研究者想要完成的工作;“自动”则意味着这项指导性技术是可用的。下文中列举了一些在响应模型中应用CHAID的好处。
研究人员通常会搜集大量的预期解释变量。CHAID可以用来提前筛选数据以剔除随机变量(对预测没有贡献的变量)。另外,对于那些已进入CHAID的变量,其进入的次序揭示了他们对预测的重要程度。一个分类变量包含着若干类别,但对响应变量而言并不是每一个类别都实际显著。CHAID可以帮助解决哪些类别需要合并的问题。比如,一组数据分为十二类,分别代表不同的地区,但是也许这12个类别仅有3种不同的响应模式。在这种情况下,应该合并地区分类。CHAID将进行统计检验,合并不显著的类别。
有些解释变量可能由无序类别组成,有些则可能由有序类别组成。如果统计上可行的话,研究人员希望合并前者中所有的无序类别,而仅合并后者中临近的类别。CHAID可以实现这两种合并。
回归分析适用于揭示线性关系。例如,假设随着受访者受教育程度的增加,针对相应问题回答“是”的百分比也增加了。那么这种模式就是线性的,回归分析可以揭示出这种关系。但是,如果随着受教育程度的增加,针对相应问题回答“是”的百分比是先增加后下降的,那么,单纯的运用回归分析就无法揭示应答与教育水平之间的显著关系了,因为这个模式不是线性的。换句话说,CHAID揭示非线性关系。
回归分析揭示出主要的影响因素。也就是说,我们做回归分析时假设某个解释变量的影响相对于其他解释变量的取值而言是不变的。但事实未必如此。因此,研究人员在确定某一个解释变量对响应变量的影响之前,需要指定其他解释变量的水平。这被称为一个“指定影响”或一个“交互作用”。CHAID能够揭示解释变量间的交互作用。CHAID会生成一个分类树。研究人员可以从该分类树上找到统计上显著的分割点。由于CHAID在内置统计检验中运用了Bonferroni调节,这种基于一组数据构建的分割模型在一个类似的抽样样本中可以得到很好的交叉验证。2.自行车销售数据栏位和特征分析这次分析使用的数据来自某自行车零售商的自行车销售数据,数据内容包括:客户的基本数据(年龄、婚姻状况、性别、年收入、教育等),及客户的业务相关数据(是否已购买自行车),一共十四个字段。数据的前十条记录预览情况如图1所示。图1自行车销售数据展示 为了保证样本抽取的随机性,我们设置一个“样本抽取”节点,随机抽取70%的样本进行模型分析。如图2所示。图2样本抽取在模型建置前,首先要了解数据的组成。通过“数据审核”中简单的图表及统计数据(如图3所示),我们可以察觉数据的异常、极端值。以年龄栏位为例,我们可以通过最大、最小及平均值,来观察有无异常分布。年龄32~102岁及平均51岁属于正常分布,所以不需要做特殊处理。其它栏位可以通过同样方式检视,以增加对客户数据的了解。图3数据审核3.建立决策树模型串流3.1读取数据SPSSModeler中需要根据数据档案格式,来选择不同的源节点读取数据。本文使用的数据档案格式为.xls,因此我们将使用EXCEL文件节点。在节点设定方面,文件标签下我们先读入数据“vTargetMail.xls”,选择工作表“按索引”,工作表范围“范围从第一个非空行开始”,对于空行选择“停止读取”,接着勾选“第一行存在列名称”。过滤掉不分析的字段。如图4所示。图4读取数据3.2数据类型定义为了产生决策树模型,我们需要在数据建模前就定义好各栏位的角色,也就是加入字段选项下的“类型”节点(请见图5)。将类型节点拉入串流后,我们会先点选读取值按钮,接着设定角色。在本案例中,字段“BikeBuyer”是我们最后预测的目标,因此将其测量设定为“标记”,角色设定为“目标”,余下的栏位则是要设定为“输入”。在完成这一步后,点击“读取值”读取数据,就已经完成数据准备(请见图6),可以套用决策树模型节点了。图5“促销购买”类型节点设置图6数据准备完成3.3决策树节点设定如前面所述,SPSSModeler共提供四种决策树节点建模,包括C5.0、C&R树、Quest和CHAID。由于篇幅有限,因此本文将只建立CHAID分类模型。将CHAID节点与分区节点连结后,我们将于此节点编辑页面中的模型标签下设定相关的变数。由于CHAID节点设定较多,以下将挑选我们有修改预设值的变数进行详细介绍。此定义来自“SPSSModeler17ModelingNodes文件”。最大树深度:指定根节点以下的最大级数(递归分割样本的次数)。修剪树以防止过拟合:修剪包括删除对于树的精确性没有显着贡献的底层分割。修剪有助于简化树,使树更容易被理解,在某些情况下还可提高广义性。停止规则:设置最小分支大小可阻止通过分割创建非常小的子组。如果节点(父)中要分割的记录数小于指定值,则父分支中的最小记录数将阻止进行分割。如果由分割创建的任意分支(子)中的记录数小于指定值,则子分支中的最小记录数将阻止进行分割。在建模节点的“字段”选项卡中,已选中“使用预定义角色”,这意味着将按在类型节点中的指定使用目标和输入。如图7所示。图7模型字段选项卡“构建选项”包含的选项可以用于指定要构建的模型类型。由于我们想要一个全新的模型,因此使用默认选项构建新模型。我们还要求它为单个标准决策树模型,并且不包含任何增强,因此保留默认目标选项构建单个树。如图8所示。图8构建选项除图9和图10设置,其它设置按照默认设置不变。图9构建选项——基本图10构建选项——高级4.生成模型与修正模型决策树节点设定完成后,点击主工具列的运行当前流前即可看到决策树模型的产生。添加一个“评估”图形节点和“分析”输出节点,方便后续比较预测模型精确度并检验预测结果。模型整体如图11所示。图11自行车销售CHAID预测模型双击决策树模型则可看到模型结果,而我们最主要要观察的是模型标签及查看器标签下的内容。模型标签内容如图9所示,左栏位使用文字树状展开,表现每一阶层的分类状况及目标变数的模式;右栏位则是整体模型预测变量的重要性比较。我们也将会根据变量重要性调整模型设定、变数选择,持续的训练出较佳的模型。查看器标签则是将一样的决策树结果用树状图的方式展现。对于CHAID模型块,“模型”选项卡以规则集的形式显示详细信息,规则集实际上是可根据不同输入字段的值将各个记录分配给子节点的一组规则。在规则集的右侧,“模型”选项卡显示预测变量重要性图表,该图表显示评估模型时每个预测变量的相对重要性。通过这一点,我们看到“NumberCarsOwned”变量的重要性水平最显著,其次是“Age”、“YearlyIncome”、“TotalChildren”、“CommuteDistance”等,而最不重要的就是“Gender”变量。模型分析结果如图12-14所示。图12图13图14图15图16图15和图16表明,预测数据与原始数据拟合程度不够好,由于预测结果的错误率较高,经过思考与探索发现是由于数据没有清洗导致,所以在模型中加入“自动准备数据”节点进行预处理并进行“数据审核”。如图17所示。图17修改后的模型经过运行之后,得到的模型分析结果。可以看到错误率明显下降了,正确率从66.2%提高到73.79%。但是预测准确率依然不是很理想的原因有可能是分析的数据量不够大或者不具有代表性的原因。图18修改后的模型正确率提高5.模型分析如图19所示,各预测变量的重要性由高到低排列分别为:NumberCarsOwned(0.34),TotalChildren(0.18),YearlyIncome(0.17),Age(0.16),Region(0.05),CommuteDistance(0.03),HouseOwnerFlag(0.02),MaritalStatus(0.02),NumberChildrenAtHome(0.02),Gender(0.01),有上述权重我们可以看出NumberCarsOwned变量是最重要的预测变量,权重最大,其次分别为TotalChildren、YearlyIncome、Age和Region,因此这五个变量将作为决策树的重要分支用于目标预测,而Gender是最不重要的预测变量,所占权重只有0.01。图19预测变量重要性排序图20决策树中树干决策树中树干“BikeBuyer”两个类别(1表示已购买自行车,0表示未购买自行车)的比例各自接近50%,说明抽取样本的分布比较均匀,结果具有一定的分析意义。从上面我们也可以看出,抽取的样本数为5644。P值<0.001表示样本通过显著性检验。见图20。以下是根据“NumberCarsOwned(拥有汽车的数量)”变量分出的第一层枝干,可以看到拥有车辆数量小于等于1的情况下,客户偏向于购买自行车;而拥有车辆数量大于1的情况下,客户选择不购买自行车。联系实际,如果客户出行时有二至四辆代步小汽车,那通常不会骑自行车出门,购买自行车的可能性就比较低。图21决策树第二层树枝模型的分析结果如图22所示。由于我们的关注点在于哪些类型的是购买自行车的潜在客户,所以以下仅选取“NumberCarsOwned”变量值为0或1的情况进行下一步分析。“NumberCarsOwned”变量第一层枝干之下是根据“Age”变量分出的第二层枝干,拥有汽车数量为0且年龄在49岁以下的客户偏向于购买自行车,而年龄高于49岁的客户可能由于身体状
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44785-2024电子营业执照数据规范
- GB/T 34430.5-2024船舶与海上技术保护涂层和检查方法第5部分:涂层破损的评估方法
- 《普通物理实验2》课程教学大纲
- 2024年出售杀鸡厂屠宰场合同范本
- 2024年代理记账合同范本可修改
- 江苏省无锡市江阴市六校2024-2025学年高一上学期11月期中联考试题 生物(含答案)
- 爱国敬业团课课件
- 2024至2030年中国挺柔西服行业投资前景及策略咨询研究报告
- 2024至2030年中国防爆蓄电池式电机车数据监测研究报告
- 2024年营养液用输液器项目评估分析报告
- SMT电子物料损耗率标准 贴片物料损耗标准
- 王阳明心学课件
- 马克思主义基本原理概论(湖南师范大学)智慧树知到答案章节测试2023年
- 环境影响评价智慧树知到答案章节测试2023年桂林电子科技大学
- 2023年江苏小高考历史试卷含答案1
- 2022年全国统一高考日语真题试卷及答案
- GB/T 3280-2015不锈钢冷轧钢板和钢带
- GB/T 28655-2012业氟化氢铵
- 氧气(MSDS)安全技术说明书
- 第一章膳食调查与评价
- GB 5606.3-2005卷烟第3部分:包装、卷制技术要求及贮运
评论
0/150
提交评论