SPSS关联模型步骤_第1页
SPSS关联模型步骤_第2页
SPSS关联模型步骤_第3页
SPSS关联模型步骤_第4页
SPSS关联模型步骤_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS Clementines 预测分析模型-啤酒+尿片故事的实现机理使用11版本实现SPSS Clenmentines提供众多的预测模型,这使得它们可以应用在多种商业领域中:如超市商品如何摆放可以提高销量;分析商场营销的打折方案,以制定新的更为有效的方案;保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。超市典型案例如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规那么模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具有洞察力的分

2、析解决方案。通过一那么超市销售商品的案例,利用“关联规那么模型,来分析商品交易流水数据,以其发现合理的商品摆放规那么,来帮助提高销量。关联规那么简介关联规那么的定义关联规那么表示不同数据工程在同一事件中出现的相关性,就是从大量数据中挖掘出关联规那么。有关数据挖掘关联规那么的具体理论依据这里不做详细讲解,大家可以参看韩家炜的数据挖掘概论。为了更直观的理解关联规那么,我们首先来看下面的场景。一个市场分析人员经常要考虑这样一个问题:哪些商品是频繁被顾客同时购置的?顾客1:牛奶+面包+谷类顾客2:牛奶+面包+糖+鸡蛋顾客3:牛奶+面包+黄油顾客4:糖+鸡蛋以上的情景类似于当年沃尔玛做的市场调查:啤酒+

3、尿片摆放在同一个货架上,销售业绩激增的著名关联规那么应用。市场分析员分析顾客购置商品的场景,顾客购置面包同时也会购置牛奶的购物模式就可用以下的关联规那么来描述:面包 = 牛奶 支持度 =2%, 置信度 =60% 式 1式 1中面包是规那么前项Antecedent,牛奶是规那么后项 (Consequent)。实例数Instances表示所有购置记录中包含面包的记录的数量。支持度Support表示购置面包的记录数占所有的购置记录数的百分比。规那么支持度Rule Support表示同时购置面包和牛奶的记录数占所有的购置记录数的百分比。置信度confidence表示同时购置面包和牛奶的记录数占购置面包

4、记录数的百分比。提升Lift表示置信度与购置牛奶的百分比的比值,提升大于 1 的规那么才是有意义的。关联规那么式 1的支持度 2% 意味着,所分析的记录中的 2% 购置了面包。置信度 60% 说明,购置面包的顾客中的 60% 也购置了牛奶。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规那么是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,根据以往的购置记录,找出满足最小支持度阈值和最小置信度阈值的关联规那么,就找到顾客经常同时购置的商品。此处进行关联规那么应用可以使用两种数据格式:1,交易数据格式,2,表格格式。1.交易格式CustomerIDITEM1 bread2 ja

5、m3 juice3 jam4 milk2.表格格式CustomerID bread jam juice milk1 T F FF2 F T F F3 F T T F4 F FF T关联规那么挖掘算法Aprior、Carma 和序列节点是常用的关联规那么挖掘算法,它们都可以使用交易格式和表格格式数据进行挖掘处理。其中Aprior 算法,处理速度快,对包含的规那么数没有限制,是一种最有影响的挖掘关联规那么的方法。本次试验将使用SPSSClementine11 自带的安装目录下的 Demos 文件夹下的 BASKETS1n 数据。希望分析出哪些商品会和啤酒一起购置,以此来合理安排商品的摆放,进而提高

6、啤酒的销量。此数据属于表格格式数据,每条记录表示顾客的一次购物。记录的字段包括卡号、顾客根本信息、付款方式和商品名称每个商品一个字段 , 该商品字段值为 T, 表示购置该商品 , 值为 F 表示未购置,具体可参考表 2, 表格格式数据。商品名称都有 fruitveg水果蔬菜,freshmeat生鲜肉,dairy奶制品,cannedveg罐装蔬菜,cannedmeat罐装肉,fozenmeal冻肉,beer啤酒, wine酒类,softdrink软饮,fish鱼, confectionery甜食。首先翻开Clementine ,会出现一张空白的流界面,这时用户可以在里面创立自己的流。第一步,为流

7、添加一个数据节点,这里选择 Clementine自带的 Demo 数据。将界面下方选项卡的“数据源选项中的“可变文件拖放到空白界面中,双击翻开,在文件选项卡中选择Clementine 自带的 Demo 数据BASKETS1n,如下图。点击确定按钮,这时就成功的创立了数据节点。第二步,为流添加类型节点,类型节点是显示和设置数据每个字段的类型、格式和角色。从界面下方的“字段选项卡中,将“类型节点拖放到界面中,接着将数据节点和类型节点连接起来,或者直接在“字段选项卡中双击“类型节点,将两者连接起来。这时双击翻开“类型节点,此时“类型节点中显示了数据的字段和其类型,点击“类型节点界面上的“读取值按钮,

8、这时会将数据节点中的数据读取过来。如下列图所示。接着可以为参与建模的数据字段设置角色,角色分“输入,“目标,“两者和“无。输入表示该字段可供建模使用,目标表示该字段为建模的预测目标,两者表示该字段为布尔型的输入字段,无表示该字段不参与建模。Apriori 节点需要一个或多个输入字段和一个或多个目标字段,输入字段和输出字段必须是符号型字段。在此可以选择一个或多个字段为目标字段,说明该模型的预测目标字段;对于 Apriori 建模节点,也可以不设置目标字段,那么需要在建模节点中设置“后项。第三步,为流添加过滤节点,将不参与的字段排除在外。该步骤为可选步骤。从“字段选项卡中选择“过滤节点,并将其拖入

9、到界面中,将“过滤节点参加到流中。双击翻开“过滤节点,在不参与建模字段的箭头上点击,会出现一个红叉,表示该字段被过滤掉了,不参与建模,如下图。对于一些与建模关系不大的节点可以将其过滤掉,比方卡号、性别、家乡和年龄字段。第四步,有了这些前期的准备过程,接下来就可以开始创立关联规那么模型节点了,在此之前,让我们先添加一个图形节点网络节点,建立此节点的目的是为了让用户首先可以直观的看到商品之间的关联程度,有一个感性认识。选择“图形选项卡中的“网络节点,将此拖入界面,将“网络节点参加流中,与“过滤节点连接起来。双击翻开网络节点,在“字段列表中选择添加字段,可以将所有的商品字段添加进来;也可以点击“仅显

10、示真值标志,将只显示那些“两者的字段,如下图。点击“选项卡,进入选项设置,用户可以在此设置链接数量的显示范围,不显示一些链接数量低的链接,如下图。点击“运行按钮,这时会生成一个商品之间关联程度链接数量的网络图,用户可以在下方的调节杆上调节链接数量的显示范围。上图中,线的粗细和深浅代表联系的强弱,可以直观的看到 beer 和 frozenmeat,cannedeg 联系程度比拟强。第五步,添加“建模节点到流中,开始关联规那么模型设置和使用的篇章。首先点击界面下方“建模选项卡,再点击 Apriori,节点拖放到界面中,连接该节点到过滤节点上,或者双击 Apriori 节点。接着设置 Apriori

11、 节点的参数,建立关联规那么模型。双击翻开 Apriori 节点,如下列图所示。该“字段选项卡,是设置参与建模的字段和目标字段的,可以看到其中包括两个选项,“使用类型节点设置和“使用定制设置,这里将为用户分别呈现两种选项的使用方法。这里无论选择哪个选项,都需要将市场分析员重点关注的商品包括在其中,其他商品可以不包括。如果用户选择“使用定制设置选项,那么需要将啤酒设置在“后项列表中,将其他重点关注的商品设置在“前项列表中,如下列图所示。这里,分区允许您使用指定字段将数据分割为几个不同的样本,分别用于模型构建过程中的训练、测试和验证阶段。如果设置了“分区,除了在此选择分区字段外,还需要在“模型选项

12、卡中,勾上“使用分区数据的选择框。关于“分区的概念、作用和使用方法,本文不做详细介绍。除此,“使用事务处理格式选择框,是针对于事务性数据的,如果数据为交易格式,需要勾上此选择框,但本例如的数据为表格格式,故无需选择。设置好了字段后,点击“模型选项卡,进入模型设置。如下列图所示。用户可以在“模型名称处为本模型设置一个名字,如果想使用分区功能,那么需要勾上“使用分区数据选项。用户为规那么模型设置一个最低条件支持度,那么模型将从所有规那么中选择那些为真,并且其对应的记录的百分比大于此值的规那么。如果您获得的规那么适用于非常小的数据子集,请尝试增加此设置。接着,用户需要为模型设置一个最小规那么置信度,

13、说明正确预测的百分比。置信度低于指定标准的规那么将被放弃。如果您获得的规那么太多,请尝试增加此设置。如果您获得的规那么太少甚至根本无法获得规那么,请尝试降低此设置。用户还可以为任何规那么指定“最大前项数。这是一种用来限制规那么复杂性的方式。如果规那么太复杂或者太具体,请尝试降低此设置。对于“仅包含标志变量的真值选项,如果对于表格格式的数据选择了此选项,那么在生成的规那么中只会出现真值。这样使得规那么更容易理解。该选项不适用于事务格式的数据。为了提高建模性能,设置了“优化选项供用户选择。选择“速度可指示算法从不使用磁盘溢出,以便提高性能。选择“内存可指示算法在适宜的时候,以牺牲某些速度为代价使用

14、磁盘溢出。接下来,进入“专家选项卡,对于一般用户,那么选择“简单选项;而对于高级用户,那么可以通过此页面进行微调,如下列图所示。此时,我们已经创立好了关联规那么模型的整个流,点击工具栏的绿色箭头,运行该流,会生成一个“模型节点,该节点里包含了模型运行结果。整个运行后的流图,如下列图所示。第六步,在得到了运行结果后,我们双击翻开生成的“模型节点,点击“显示 / 隐藏标准菜单下拉框,选择“显示所有,结果如下列图所示。从结果可以看出,通过关联规那么模型挖掘出了三个规那么,分别是规那么一,购置了冻肉frozenmeal和罐装蔬菜cannedveg的顾客都会购置啤酒beer;其中,第一列代表结果,而下一列代表条件,后面的列包含规那么信息,如置信度、支持度和提升等。购置了冻肉和罐装蔬菜的顾客会购置啤酒,此规那么中购置了冻肉和罐装蔬菜的记录有 173 条,占 17.3%。而在购置了冻肉和罐装蔬菜的顾客中会有 84.393% 的顾客会购置啤酒,并且提升为 2.88,说明此规那么的相关性很强,部署能力和置信度类似,可以不考

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论