长江大学商业数据处理与分析_第1页
长江大学商业数据处理与分析_第2页
长江大学商业数据处理与分析_第3页
长江大学商业数据处理与分析_第4页
长江大学商业数据处理与分析_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商业数据处理与分析实验一 SPSS的基本统计功能1、 频数分析(Frequencies过程)实例一:抽查某高校一个班级7名学生的期末考试语文、数学和化学三门课程的成绩,如下图所示。现利用频数分析对这几名学生的语文成绩进行分析。从下表可以看出,有效样本为7个,没有缺失值。语文的平均成绩为75分,中位数为75,标准偏差5.1962,最小值为67,最大值为83等。从下表可以看出学生语文成绩的频数分布,从左至右依次是次数、百分比、有效百分比和累计百分比。从下图可以看出学生语文成绩的直方图,从图中可以看出学生的语文成绩基本服从正态分布,其中75-80分的学生居多。2、 描述性分析(Descriptive

2、s过程)实例二:某高校一个班级的男生的身高资料,如下图所示。现利用描述性分析对这个班级的男神身高进行描述。从下表可以看出样本个数20个,有效的20个,范围为27,最小值为165,最大值为192,平均值为178.05,平均数的标准错误为1.6897,标准偏差为7.5566等信息。从下图可以看出描述性统计还可以把原始变量转换成标准化的变量并以变量的形式在数据窗口呈现,图所示的“Z身高”。3、 探索分析(Explore过程)实例三:某公司20名员工一年的薪水资料,如下图所示。现利用探索分析对此公司员工的薪水进行分析。从下表可以看出女员工共5个样本,男员工共5个样本,没有缺失值。从下表可以看出女员工的

3、平均薪水为39710,标准错误为6097.5077,平均值的95%置信区间为(22780.605,56639.395),5%修整的平均值是排除掉数据首尾两端5%的变量值后得出的平均值为25248.30等描述统计信息。下面一系列图为其他一些描述统计信息。4、交叉列联表分析(Crosstabs过程)实例四:一份关于工作满意度的调查问卷的结果,如下图所示。现利用列联表分析对男女员工对工作满意度是否有差异进行分析。从下表可以看出样本数为15,有一个缺失值。每种组合的十几计数、预期计数、百分比在性别内、百分比在工作满意度内等信息。下表为卡方测试的结果。实验二 相关与回归分析1、 两变量的相关分析(Biv

4、ariate过程)实例五:关于一组汽车价格、马力和燃料效率的资料统计,如下图所示。现利用双变量相关分析对价格和马力之间是否存在相关性进行分析。从下表可以看出,价格、马力的平均值和标准偏差从右表可以看出价格和马力的相关系数为0.924,右上角标示“ * ”,相伴概率小于0.01,表示在0.01的显著水平上极显著,说明价格和马力呈显著正相关,即马力高的汽车,价格随之增高。从下表可以看出非参数相关性的结果,斯皮尔曼等级相关系数和肯德尔tau_b相关系数得出的结论与person相关系数一致。2、 偏相关分析(Partial 过程)仍使用实例五。现利用偏相关分析对在控制变量“马力”存在的情况下,价格和燃

5、料效率之间是否存在相关性进行分析。从下表可以看出,价格、燃料效率和马力三者的平均值和标准偏差。从下表可以看出,在不控制马力变量时,价格和燃料效率是显著负相关的,但是控制马力变量后,价格和燃料效率的相关性变得不显著,所以不能简单的判断汽车价格和燃料效率之间是否存在着相关关系,结论应该为 在马力不变的前提下,汽车价格和燃料效率之间不存在显著的相关关系。3、 距离分析(Distances过程)实例六:5个学生的百米成绩、跳远成绩和实心球成绩,如下如所示。现利用机理分析来分析学生体育成绩之间的相关性。个案间的距离分析-个案间的非相似性测量:从下表可以看出,个案数全部有效,无缺失值。相关性矩阵形式给出了

6、两两个案之间的Euclidean距离,相似性矩阵形式给出了两两个案之间的pearson相关系数。4、 线性回归分析(Linear过程)实例七:某公司员工的基本情况,如下图所示。现利用公司员工的一些基本情况来拟合多元线性回归方程。分析结果如下所示。5、曲线回归(Curve Estimation过程)实例八:1978年-2005年中国人均消费、人均可支配收入和教育支出的数据统计,如下图所示。现分析年人均可支配收入和教育支出之间的关系。从下表可以看出模型的一些描述信息,包括模型名称、因变量等,还可以看出共有28个个案,排出的为12个,从数据中可以看出1978-1989年教育支出数据缺失。从下表可以看

7、出各个模型的拟合优度,可以看出立方的R方最高,其次为二次项和复合模型,最后为线性。同时,从模型的显著性检验结果看,显著性均小于0.01,说明模型成立的统计学意义都非常显著,同时可以看出立方模型的回归系数检验都小于0.5,说明立方模型的回归系数显著。下图为各个模型拟合回归线,从中可以看出线性相关对于其他3种模型,拟合优度较差。实验三 聚类分析1、 系统聚类法(Hierarchical Cluster过程)实例九:一些省市高校教职工的情况,如下图所示。现利用系统聚类分析对各地区的高校进行聚类。从下表可以看出,一共18个个案参与聚类,无缺失值。从下表可以看出,整个聚类过程,表格“阶段”一列表示聚类的

8、步数,以第4行为例,此步是将第2和18类合并为一类,其中第2类首次出现是在第三步(从首次出现阶段集群中的集群1中显示数字为3),而18类是首次出现(从首次出现阶段集群中的集群中显示数字为0),所以第4步中和第2类其实包含了第2个个案和第15个个案,所以第4步是将第2个、第15个和第18个个案归为了第2类,而这第2类下一次合并是在第7步。最后,18个观测经过17步聚为一类。从下表可以看出,聚类个数为2-5的各个案的最终归属类别。下图是冰状图,用柱状图的方式显示了最终聚成2-5类的聚集过程。横轴为18个个案,纵轴为聚类个数,冰柱中最长的空格长度表示当前的聚类步数。下图为谱系图(树状图),直观地显示

9、了聚类的整个过程,也可以很方便地指定聚类个数的分类结果,如图中横轴5处的黑色线条,其与三条横线相交,表明将全部观测分为了3类。在数据窗口中,可以看到保存的“CLU5_1”、“CLU4_1”、“CLU3_1”和“CLU2_1”,如下图所示,表示的是聚类数为2-5各个案的最终归属类别。2、快速聚类法(K-Means Cluster过程)实例十:某公司员工的基本情况,如下图所示。现利用通过起始薪金和当前薪金对员工进行快速聚类。从下表可知,由于没有指定聚类的初始聚类中心,此表中所显示的作为类中心的观测量是系统确定的,以及每次迭代后类中心的变化量,经过9次迭代后,类中心的变化为0,迭代停止。从下表可以看

10、出,个案的最终所属类别和与所属类中心的欧试距离,本例只截取了前26个个案,如个案1,被分到第2类,与类中心的欧式距离为3462.323.从下表可以看出,最终3类的类中心的2个变量的值,3个聚类中心之间的距离等信息。实验四 因子分析与主成分分析1、因子分析(Factor过程)实例十一:对代表期刊学术影响力的8项指标进行研究,如下图所示。现从中提取能够体现期刊学术影响水平的潜在因素,即公共因子。下表是8个初始变量的描述统计量,包括平均值、标准偏差和分析数。下表是初始变量的相关系数矩阵表。从相关系数矩阵中可以看出多个变量间的相关系数较大,且对应的显著性普遍较小,说明这些变量之间存在显著的相关性,进而说明有进行因子分析的必要。下表是KMO检验和球形Bartlet检验表、公因子方差表。下表为总方差解释表,给出了每个公共因子所解释的方差及累积和。下图是关于初始特征值(方差贡献率)的碎石图(陡坡图),是根据上表的“初始特征值”栏的“合计”列的数据所作的图形。第2个公因子后的特征值变化趋缓。故而选取2个公共因子是比较合适的。下面的一系列表是“元件矩阵”-未经旋转的因子载荷矩阵、旋转后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论