![《数据仓库》课程设计报告_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-5/31/3762a008-7464-45e3-9e30-6cd30e1f6f50/3762a008-7464-45e3-9e30-6cd30e1f6f501.gif)
![《数据仓库》课程设计报告_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-5/31/3762a008-7464-45e3-9e30-6cd30e1f6f50/3762a008-7464-45e3-9e30-6cd30e1f6f502.gif)
![《数据仓库》课程设计报告_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-5/31/3762a008-7464-45e3-9e30-6cd30e1f6f50/3762a008-7464-45e3-9e30-6cd30e1f6f503.gif)
![《数据仓库》课程设计报告_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-5/31/3762a008-7464-45e3-9e30-6cd30e1f6f50/3762a008-7464-45e3-9e30-6cd30e1f6f504.gif)
![《数据仓库》课程设计报告_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-5/31/3762a008-7464-45e3-9e30-6cd30e1f6f50/3762a008-7464-45e3-9e30-6cd30e1f6f505.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、GDOU-B-11-112广 东 海 洋 大 学 学 生 实 验 报 告 书 ( 学 生 用 表 )实验名称 关于福布斯排行榜的数据挖掘课程名称 数据仓库设计与应用课程号学院(系)信息学院专业信息管理与信息系统班级信管 1124学生姓名一、实验目的学号实验地点科技楼关于福布斯排行榜的数据挖掘实验日期2015 年 11月 28 日(1) 了解数据挖掘中的聚类分析;(2) 充分了解 IBM SPSS Modeler 的数据挖掘能力;二、实验目标(1) 理解聚类分析的概念;(2) 对福布斯排行榜的数据(源数据来源:福布斯中文网,经过加工整理)进行聚类分析,掌握 SPSS 软件进行数据挖掘的常用步骤;
2、(3) 了解聚类分析中各个数据模型的内涵和意义。三、实验内容及结果1. 用自己的话概括 数据挖掘中的聚类分析 概念。答:聚类分析是将一组对象分成若干类,想同类中的对象具有相似性,不同类中的对象相异性较大。聚类与分类不同的是后者不依赖给定的标准给对象进行分类。2. 使用“福布斯排行榜”数据进行数据挖掘分析。根据 2010 年至 2015 年福布斯企业排行榜 50 强在Excel 表格中计算 5 年各自的平均销售额、平均利润、平均资产和平均市值,并在 IBM SPSS Modeler 中用“Excel”节点导入数据。图 1“2010-2015 总汇”节点预览图 2“多重散点图”编辑窗口在进行完 X
3、 轴及 Y 轴的设置后,运行得到如图 3 显示的多重散点图。这一结果反映了从2010 年到 2015 年能进入福布斯排行榜前列对其规模、盈利能力和在资本市场影响力的要求不断提高。图 32010-2015 年福布斯排行榜 50 强(平均)金额变化趋势此“Excel”节点的数据来自 2015 年福布斯排行榜 100 强,在图 4 编辑窗口中,选择过滤“排行”和“企业(名)”,以方便后面的聚类分析。图 4原始数据过滤在“Excel”节点之后建立“类型”节点,如图 5 所示,六个字段的角色均设置为“输入”, 其它参数为默认。图 5“类型”节点编辑窗口图 6“类型”节点预览建立“K-Means”节点。如
4、图7 所示,编辑窗口中,在“使用分区数据”一栏中打钩,其他选择默认。点击运行即生成“K-Means”聚类分析。图 7“K-Means”模型编辑窗口分析 K-Means 聚类分析。从图 8 中可以看到,聚类分析将源数据分成了五个聚类,每个类占总数的比例分别为 45%,19%,14%,11%和 11%。其中,对分类字段的依赖性依次由行业、国家、资产、销售额、市值、利润逐渐递减。图 8“K-Means”模型聚类分析结果查看 K-Means 模型。利用“输出”选项卡中的“表”节点对模型的数据进行查看,如图 9。在表中,可以看到每个企业所属的聚类,表中最后一列“$KND-K-Means”是指每一个元素距
5、离类中心的距离,距离越小,表示效果越好。图 9表节点查看“K-Means”模型图 10“分析分布图”编辑窗口分析分布图。如图 11 所示,从分布图中可以看到每个聚类所占的比例和个数,以及该类所拥有的国家。如果想查看“行业的聚类情况,可以在图10 的编辑窗口中,交叠字段的“颜色”下拉栏中选择“行业”。图 11“分析分布图”查看聚类结果图 12“集合”节点编辑窗口除了对聚类分析模型进行分析外,还可以对源数据直接分析。在这里,使用“图形”选项卡下的“集合”节点对原始数据进行分析。运行该节点流,既可获得如图13 的分布图。图中横轴表示“利润”的数额,纵轴表示在横轴上所有该“利润”数额对应的企业所具有的
6、“市值”金额之和。图 13“集合”节点流分布图查看原始数据图 14数据挖掘“工作流”展示四、实验总结这次数据仓库课程的小组实验对我们组来说非常难忘,从最初的讨论实验选题,再到开始实验的通力合作,以及遇到问题后默契地寻找解决方法,最后顺利完成答辩,过程充满着挑战,但我们都感到很满意整个过程和最后的结果。回顾这个课程实验的细节,我们小组能充分体会到数据挖掘的不易。比如实验题目其实很多方向和备选项,但是数据源却是一个不小的问题,很多数据在网上难以搜索或者不能满足实验的格式,几经思索和讨论,决定才用“福布斯排行榜”的数据。其实做完整个实验会发现,使用SPSS Modeler 进行数据挖掘的这个流程并不
7、复杂,而且这次实验采用的聚类分析方法和模型在之前课程作业中有比较充分的认识和实践,实验的难点除了要对聚类分析的结果进行文字形式的解释外,还在于对源数据进行筛选和整理,而我们小组在这一过程中也是边学习边实践。典型的例子是源数据的企业排行榜在 2010 年是有行业划分的,但之后的几年却没有这一分类,实验却需要这个关键因素,如果只是手动地一个个企业输入其所处行业,即使数据只筛选前50 个,这一工作量是非常大的。负责数据编辑任务的我在网上找到了利用 Excel 中的 VLOOKUP 公式这一便捷有效的方法,通过这个公式可以很快匹配企业和行业,所以这次实验中学到的一些经验和方法不一定只适用于数据挖掘工作, 在普通的办公领域也是非常有用的。在准备最后的答辩时,原本想采用比较常见的 PPT 形式讲解实验,但小组总觉得就算制作华丽也不容易体现我们努力的精华部分,而且如果过多在实验运行和 PPT 间转换会打乱展示的节奏,因此我们选用了 X-Mind 思维导图做一个展示提纲,重头戏放在实验运行和嘴巴表述上。临场的效果也的确符合预期,思维导图兼具了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人货车司机劳动合同
- 买卖合同协议书样本
- 三人共同投资合同模板(版)
- 个人卖房合同及相关附件
- 个人土地使用权抵押借款合同样本
- 产学研技术转化合同
- 二手注塑机买卖合同模板
- 专利使用权转让合同模板
- 人力资源劳动合同样本合集
- 临时工劳动合同标准合同格式
- 二零二五版电力设施维修保养合同协议3篇
- 最经典净水厂施工组织设计
- VDA6.3过程审核报告
- 《心脏血管的解剖》课件
- 2024-2030年中国并购基金行业发展前景预测及投资策略研究报告
- 2024年湖南商务职业技术学院单招职业适应性测试题库带答案
- 骨科手术中常被忽略的操作课件
- 《湖南师范大学》课件
- 2024年全国各地中考试题分类汇编:作文题目
- 2024年高压电工操作证考试复习题库及答案(共三套)
- 《糖拌西红柿 》 教案()
评论
0/150
提交评论