SPSS关联模型步骤之欧阳道创编_第1页
SPSS关联模型步骤之欧阳道创编_第2页
SPSS关联模型步骤之欧阳道创编_第3页
SPSS关联模型步骤之欧阳道创编_第4页
SPSS关联模型步骤之欧阳道创编_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

欧阳道创编 欧阳道创编 2021.03.06欧阳道创编 欧阳道创编 2021.03.06SPSSClementines预测分析模型啤酒+尿片故事的卖现机理(使用11版本卖现丿时间:2021.03.06创作:欧阳道SPSSClenmentines提供众多的预测模型,这使得它们可以应用淮.多种商业领域中:如超市南岚如何摆放可以提嵩销量;分析商场蒼销的打折方案,以制定新的更为有效的方案;保险公司分析以往的理赔案例,以推出新的保险%种等等,具有很强的商业价值。趨市典型亲例如何摆放超市的商%引导谄费者购扬从而提寓销量,这对大型连荻超市来说是一个现卖的营销问題。关联规则模型自它诞生之时为此类问題提供了一种科学的解决方出。该模型利用数据挖掘的技术,亦海量数擔中依据该模型的独特算比发现数据内在的规律性朕糸,进而提供具有洞案力的分析鮮决方案。通过一则超市销巻南%的亲例,利用“关朕规则模型",来分析商醃交易流水数据,以其发现合理的南%摆放规则,来帮助提嵩销量。关联规则简介关联规则的定义关联规则表示不同数擔项目在同一事件中出现的相关性,就是从大量数据中挖煽出关朕规则。有关数擔挖煽关联规则的具体理论依据这里不做详细讲鮮,大家可以参看韩家坤的数擔挖握概论。为了更直观的理解关朕规则,我们首先来看T面的场景。-个市场分析人员经帝要考虑这样一个问題:哪些商%是频繁彼顾农同时购买的?顾农1:牛奶+面包+谷类顾瘵2:牛奶+面包+続+呜蛋顾农3:牛奶+面包+黄油顾鑒4:糖+呜養以上的情景类似于当年沃余玛做的市场调查:啤酒+尿片摆放A.同一个货架上,销隽业绩激增的著名关朕规则应用。市场分析员分析顾彖购买商%的场景,顾彖购买面包同时也会购买牛奶的购扬模式就可用以下的关联规则来描述:而包=>牛奶[支持度=2%,置信度=60%](式1丿式1中面包是规则前项(Antecedent),牛奶是规则后项(Consequent)o卖例数仃nstancesj表示所有购买记录中包含面包的记录的数量。支持度fSupport;表示购买面包的记录数占所有的购买记录数的百分比。规则支持度fRuleSupportJ表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。置信度(confidence丿表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。提升fLiftJ表示置信度与己知购买牛奶的百分比的比值,提升大于1的规则才是有意义的。关联规则式1的支持度2%意味着,所分析的记录中的2%购买了面包。置信度60%表朗,购买面包的顾瘵中的60%也购买了牛奶。如果关朕满足最小支持度阈值和最小置信度阈值,就说关朕规则是有意义的。这些阈值可以由用户或领域专家设文。就顾鑒购杨而言,根擔以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,就找到颍农经帝同时购买的南%。此戏进行关联规则应用可以使用两种数擔格式:1,交易数据格式,2,表格格式。

1•交易格式CustomerlDITEMbread233421•交易格式CustomerlDITEMbread23342•表格格式jamjuicejammilkCustomerlDe milk1F2F3F4breadjamjuicT关朕规则挖握算法Aprior>Carma和序列节点是帝用的关朕规则挖妮算法,它们都可以使用交易格式和表格格式数擔进行挖握处理。其中Aprior算法,处.理速度快,对包含的规则数没有限制,是一种最有影响的挖掘关朕规则的方法。本次试验琦使用SPSSClementine11t带的安裝目录下的Demos丈件夹下的BASKETSIn数捱。希望分析出哪些商%会和啤酒一起购买,以此来合理安排商%的摆放,进而提嵩啤酒的销量。此数据属于表格格式数据,毎条记录表示顾农的一次购杨。记录的字段包括卡号、顾农基本信息、付敕方式和商%名称(每个商%—个字段,该商醃字段值为T,表示购买该商%,值为F表示未购买,具体可参考表2,表格格式数据丿o商%名称都有fruitveg(水果蔬莱丿,freshmeat(生鮮肉丿,dairy(奶制%丿,cannedveg蔬莱丿,cannedmeat(罐裝肉丿,fozenmeal(冻肉),beer(啤酒丿,wine「酒类丿,softdrink(软饮丿,fish(鱼丿,confectionery(甜食丿。首先打开Clementine,会出现一版空勺的流界面,这时用户可以在里面创建自己的流。第一步,为流添加一个数推节点,这里选择Clementine自带的Demo数推。将界面下方选项卡的“数擔源''选项中的“可变丈件''拖放到空勺界面中,玖击打开,柱丈件选项卡中选择Clementine匂带的Demo数擔BASKETSIn,如图所示。点击确定按钮,这时就成功的创建了数擔节点。第二步,为流添加类型节点,类型节点是显示和设置数据毎个字段的类型、格式和角色。从界面下方的“字段选项"卡中,将“类型"节点拖放到界面中,接着将数据节点和类型节点连接起.来,或者直接柱“字段选项"卡中玖击“类型"节点,将两者连接起.来。这时玖击打开“类型"节点,此时“类型''节点中显示了数据的字段和其类型,点击"类型"节点界面上的'‘读取值"按钮,这时会将数擔节点中的数擔读取过来。如下图所示。接着可以为参与建模的数擔字段设置角色,角色分“输入",“目榇",“两者"和“无"。输入表示该字段可供建模使用,目榇表示该字段为建模的预测目标,两者表示该字段为布余型的输入字段,无表示该字段不参与建模。Apriori节点需要一个或多个输入字段和一个或多个目棕字段,输入字段和输出字段必、须是符号型字段。在此可以选择一个或多个字段为目栋字段,表朗该模型的预测目榇字段;对于Apriori建模节点,也可以不设置目棕字段,则需要往建模节点中设置"后项"。第三步,为流添加过滤节点,將•不参与的字段排除征外。该步骤为可选步骤。从“字段选项"卡中选择“过谑"节点,并琦其拖入到界面中,将“过德"节点加入到流中。玖击打开“过德"节点,亦不参与建模字段的箭头上点击,会出现一个红叉,表示该字段彼过滤掉了,不参与建模,如图所示。对于一些与建模关糸不大的节点可以将•其过滤掉,比如卡号、性别、家乡和年龄字段。第四步,有了这些前期的准备过程,接下来就可以开始创建关联规则模型节点了,柱此之前,让我们先添加一个图形节占——网络节点,建立此节点的目的是为了让用户首先可以直观的看到商%之间的关朕程度,有一个感性认识。选择“图形''选项卡中的“网络"节点,琦此拖入界面,将“网络"节点加入流中,与“过滤"节点连接起.来。玖击打开网络节点,柱“字段''列表中选择添加字段,可以将•所有的商醃字段添加进来;也可以点击“仅显示真值榇志",将只显示那些“两者'‘的字段,如图所7JTo点击“选项''卡,进入选项设置,用户可以淮.此设置链接数量的显示范谢,不显示一些链接数量低的链接,如图所示。点击“运行"按钮,这时会生成一个商氐之问关朕程度(链接数量丿的网络图,用户可以莊下方的调节杆上调节链接数量的显示施国。上图中,线的粗细和深疡代表联糸的强弱,可以直观的看到beer和frozenmeat,cannedeg朕糸程度比较强。第五步,添加“建模"节点到流中,开始关朕规则模型设置和使用的篇章。首先点击界面下方“建栈'‘选项卡,再点击Apriori,节点拖放到界面中,连接该节点到过滤节点上,或者玖击Apriori节点。接着设置Apriori节点的参数,建立关联规则模型。玖击打开Apriori节点,如下图所示。该“字段"选项卡,是设置参与建模的字段和目标字段的,可以看到其中包括两个选项,“使用类型节点设置"和“使用定制设置",这里將•为用户分别呈现两种选项的使用方法。这里无论选择哪个选项,都需要将市场分析员重点关注的商岚包括柱其中,其他商%可以不包括。如果用户选择“使用定制设置"选项,则需要将啤酒设置柱“后项"列表中,将其他重点关注的南%设置症“前项"列表中,如下图所示。这里,分区允许您使用指定字段将•数据分劃为几个不同的样本,分别用于模型构建过程中的训练、测试和验证阶段。如果设置了“分区",除了柱此选择分区字段外,还需要往“模型''选项卡中,勾上“使用分区数推"的选择框。关于“分区''的概念、作用和使用方出,本丈不做详细介绍。除此,“使用事务处理格式''选择桓,是针对于事务性数据的,如果数据为交易格式,需要勾上此选择框,但本示例的数据为表格格式,坎无需选择。设置好了字段后,占击“模型"选项卡,进入模型设置。如下图所示。用户可以淮.“模型名称"戏为本模型设置一个名字,如果想使用分区功能,则需要勾上“使用分区数据"选项。用户为规则模型设置一个最低条件支持度,那么模型将•从所有规则中选择那些为真,并且其对应的记录的百分比大于此值的规则。如果您荻得的规则适用于非常小的数据子集,请尝试增加此设置。接着,用户需要为模型设置一个最小规则置信度,表朗正确预测的百分比。置信度低于指定榇准的规则将•彼放弃。如果您获得的规则丈多,请尝试增加此设置。如果您获得的规则丈少(甚至根本无法获得规则丿,请尝试啥低此设置。用户还可以为任何规则指定“最丸前项数"。这是一种用来限制规则复杂性的方式。如果规则太复杂或者丈具体,请尝试啥低此设置。对于“仅包含标志变量的真值"选项,如果对于表格格式的数据选择了此选项,则淮.生成的规则中只会出现真值。这样使得规则更彖易理鮮。该选项不运用于事务格扎的数擔。为了提需建模性能,设置了“优化"选项供用户选择。选择“速度"可指示算出从不使用该盘溢出,以便提嵩性能。选择“内存"可指示算法症合适.的时候,以辆牲某些速度为代价使用滋盘溢出。接下来,进入“专家''选项卡,对于一般用户,则选择“简单"选项;而对于需级用户,则可以通过此页面进行微调,如下图所示。此时,我们己经创建好了关朕规则模型的整个流,点击工具栏的绿色需头,运行该流,会生成一个"模型''节点,该节点里包含了模型运行结果。整个运行后的流图,如下图所示。第六步,淮.得到了运行结果后,我们玖击打开生成的“模型'‘节点,点击“显示/隐藏栋准莱单"下拉框,选择“显示所有",结果如下图所示。从结果可以看出,通过关朕规则模型挖握出了三个规则,分别是规则一,购买了冻肉(frozenmealJ和銭裝蔬粟(cannedvegJ的颍瘵都会购买啤酒(beer);其中,第一列代表结果,而下一列代表条件,后面的列包含规则信息,如置信度、支持度和提升等。购买了冻肉和毎裝蔬莱的顾农会购买啤酒,此规则中购买了冻肉和罐裝蔬莱的记录有173条,占17.3%。而淮.购买了冻肉和龜裝蔬粟的顾彖中会有84.393%的颍瘵会购买啤酒,并且提升为2.88,表朗此规则的柏关性很强,部署能力和置信度类後,可以不考虑。通过对规则信息的分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论