版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第16章SPSS在数据挖掘中的应用,16.1实例提出:168信息点播业务,数据16-1.sav是某月陕西主要地区各类业务的流量数据,数据16-2.sav是该月每天各类业务的流量数据。请利用这些资料分析以下问题:问题一:请分析在168信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。问题二:请指出该月点播业务最好三项栏目,并分析它们之间的流量有无显著性差异。问题三:请预测该月点播业务最好栏目的长期发展趋势。,16.2实例的SPSS软件操作详解,问题一操作详解问题一要求分析在168信息点播服务方面陕西各地区(西安、宝鸡、咸阳等)总流量的差别。由于各地区在股票点播、指数点播等业务上的流量
2、数据差异较大,并没有统一的大小顺序关系,因此可以采用聚类分析研究陕西各地区的总流量差异。第一步:打开数据文件及对话框打开数据文件16-1sav,选择菜单栏中的【分析】【分类】【系统聚类】命令,弹出【系统聚类分析】对话框第二步:选择聚类分析变量在左侧的候选变量列表框中选择西安、宝鸡等十个地区变量设定为聚类分析变量,将其添加至【变量】列表框中。同时点选【变量】单选钮,表示选择聚类对象为指标变量。,第三步:输出聚类数目在主对话框中单击【统计量】按钮,弹出相应对话框。点选【单一方案】单选钮,并在【聚类数】文本框中键入数字“3”表示利用聚类分析将十个地区分为三类。其他选项保持系统默认,单击【继续】按钮返
3、回主对话框。第四步:输出聚类图在主对话框中单击【绘制】按钮,弹出【绘制】对话框。勾选【树状图】复选框,表示输出样品的聚类树形图。其他选项保持系统默认,单击【继续】按钮返回主对话框。第五步:聚类方法选择在主对话框中单击【方法】按钮,弹出【方法】对话框。在【转换值】选项组的【标准化】下拉菜单中选择【Z得分】标准化方法。其他选项保持系统默认,单击【继续】按钮返回主对话框。,第六步:单击【确定】按钮,完成操作。,问题二操作详解,第一步:计算各项业务的日平均流量打开数据文件16-2.sav,选择菜单栏中的【分析】【比较均值】【均值】命令,弹出【均值】对话框。在左侧的候选变量列表框中选择“股票点播”、“指
4、数点播”等业务。其他选项保持系统默认,单击【确定】按钮完成操作。接着根据输出的业务流量统计数据表16-2.sav,可以确定日平均流量最大的三项业务“股票点播”“每日运程”和“劲爆笑话”为点播业务最大的业务。,第二步:业务流量的差异性研究选择菜单栏中的【分析】【非参数检验】【旧对话框】【K个相关样本】命令,弹出【多个关联样本检验】对话框。在候选变量列表框中同时选择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检验变量,将其同时添加至【检验变量】列表框中。在【检验类型】选项组中勾选【Friedman】复选框作为配对样本检验的方法。最后单击主对话框中的【确定】按钮,完成操作。,问题三操作详解,
5、第一步:绘制序列图打开数据文件16-2.sav,选择菜单栏中的【分析】【预测】【序列图】命令,弹出【序列图】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【变量】列表框。其他选项保持系统默认,单击【确定】按钮完成操作。根据序列图,观测到股票点播数据虽然平稳,但具有明显的周期性波动特征,因此可以利用ARMA模型来描述点播数据的波动性。,第二步:时间序列ARMA模型选择菜单栏中的【分析】【预测】【创建模型】命令,弹出【时间序列建模器】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【因变量】列表框,表示对其进行ARMA模型分析。选择【方法】下拉菜单中的【ARIMA】选项,表示
6、进行ARMA模型估计。接着单击【条件】按钮,弹出ARIMA模型阶数设定窗口。观察序列图发现点播数据以7天为周期进行波动,反复进行ARMA模型滞后阶数的尝试后,最终选择AR(7)模型来描述股票点播流量的波动性。于是在【时间序列建模器】窗口【自回归(p)】选项组的【非季节性】文本框中填入数字“7”。在【转换】选项组中点选【自然对数】单选钮,再单击【继续】按钮,返回主对话框。,单击【统计量】按钮,勾选其中的【参数估计】复选框,表示输出模型参数估计结果和模型预测值;同时取消勾选【拟合优度】复选框,其他选项保持系统默认。单击【图表】选项,勾选其中的【残差自相关函数】和【残差部分自相关函数】复选框,表示绘
7、制残差的自相关图和偏相关图。不仅如此,勾选【拟合值】复选框输出模型的拟合效果图。其他选项保持系统默认。最后,单击【确定】按钮完成操作。,16.3实例的SPSS输出结果详解,(1)聚类过程表SPSS软件首先给出了进行系统聚类分析的过程表,它动态显示了所有地区的聚类过程。下表显示第二地区和第九个地区首先被合在一起,聚类系数等于2.356,它们将在第二步中与其他类再进行合并。其他结论可以依此类推。,(2)聚类分析结果表下表显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类:第类:西安;第类:宝鸡、咸阳、铜川、汉中;第类:榆林、延安、渭南、安康、商洛。其中第类地区西安是168信息各类点播业务流量最
8、大的地区,第类的五个地区在所有地区中是相对168信息点播业务流量最低,而第类地区的点播业务流量是介于第类和第类之间,保持中游水平。分析地区间的点播量的差异部分是由于地区特征的差异引起的,例如人口数量、经济发展状况(收入水平、手机拥有量、物价水平等),同时也与地区业务的宣传力度有密切联系。分析清楚这些原因后公司就可以采取相应的措施扩大业务。,问题一输出结果详解,(3)树形图上表已给出了相关聚类结果,最后用树形图直观反映整个聚类过程和结果。,问题二输出结果详解,下表(部分)是利用【均值】功能计算的各项业务在当月的平均点播量。表中具体给出了均值、统计数目及标准差等基本统计量。比较均值大小可以看到,“
9、股票点播”、“每日运程”和“劲爆笑话”为点播量最大的业务,说明这些业务深受消费者欢迎,公司应努力增加在这些业务方面的内容更新及促销。而相反的,“商讯点播”、“区号邮编”等业务的点播量太低,因此公司可以考虑停止这些服务功能以节约成本。,(2)秩统计表下表是多配对样本非参数检验的秩统计表。可以看到,“股票点播”变量的平均秩最大,等于2.42,说明它的点播量最大,排名更靠后;相反的,“劲爆笑话”变量的平均秩最小,等于1.35,说明它的点播量最小,排名更靠前。,(3)Friedman统计表Friedman检验结果如下表所示,样本容量等于31,Chi-Square统计量等于19.935,自由度df等于2
10、,近似相伴概率P值为0.000,远远小于显著性水平0.05。所以拒绝零假设,认为这三种业务的点播量存在显著差异。这说明虽然它们位居所有业务的前三位,但其点播量还是存在显著的差异。因此,公司需要分开对待它们各自的点播业务特点。,问题三输出结果详解,(1)时间序列折线图下图绘制了“股票点播”业务在该月每日点播量的时间序列图。可以看到,股票点播量是平稳的,但具有显著的周期性,在每个周末的点播量明显低于周内的点播量,这与股票周末休市有密切联系。于是考虑利用ARMA模型来刻画其波动性。,(2)模型拟合优度检验表下表给出了AR(7)模型的拟合优度值,可以看到拟合优度统计量R2等于0.880,说明模型的整体的拟合效果较好。Ljung-BoxQ统计量是对点播序列的线性相关性进行检验。从检验结果看,LB检验概率P值大于显著性水平0.05,说明序列基本不存在自相关性,(3)模型参数估计值表下表列出了AR(7)模型的参数估计值。可以看到除了滞后7阶(Lag7)的系数显著外,其他滞后项系数都没有通过显著性检验,其t检验的概率P值都大于0.05。假设“每日股票点播量”记为Xt,则最终拟合的模型为:Xt=8.268+0.916Xt-1,(4)残差自相关和偏相关图下图给出了不同阶数下拟合模型的残差的自相关和偏相关图。可以看到,两列相关系数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年生态园林木制景观工程设计施工合同3篇
- 2024年度单位二手房买卖合同范本解析3篇
- 2024年民爆物品研发成果转化与购销合同3篇
- 大班体育游戏教案及反思
- 2024-2027年中国中间件软件行业市场调查研究及发展战略研究报告
- 2025年中国公共图书馆数字化行业市场深度评估及投资策略咨询报告
- 2025年中国少儿编程行业市场全景评估及发展战略规划报告
- 2024年粘合剂项目提案报告模板
- 江苏飞泰电子有限公司介绍企业发展分析报告模板
- 智慧市可行性研究报告
- 云计算应用-云服务平台部署计划
- 《国有企业采购操作规范》【2023修订版】
- 保密与信息安全培训
- 砂石料供应、运输、售后服务方案-1
- 2022-2023学年江苏省徐州市铜山区四校联考五年级(上)期末科学试卷(人教版)
- 个体工商户公司章程范本:免修版模板范本
- 2023四川测绘地理信息局直属事业单位招考笔试参考题库(共500题)答案详解版
- 山东师范大学《古代文学专题(一)》期末复习题
- 【《“双减”背景下小学数学创新作业设计问题研究》(论文)】
- 健康养生管理系统
- 口风琴在小学音乐课堂中的运用与实践 论文
评论
0/150
提交评论