版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、spss(statistical product and service solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(solutionsstatistical package for the social sciences),但是随着spss产品服务领域的扩大和服务深度的增加,spss公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着spss的战略方向正在做出重大调整。综述spss是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生norman h. nie、c. hadlai (tex) hull 和 dale h.
2、bent于1968年研开发成功,同时成立了spss公司,并于1975年成立法人组织、在芝加哥组建了spss总部。1984年spss总部首先推出了世界上第一个统计分析软件微机版本spss/pc+,开创了spss微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就spss的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。2009年7月28日,ibm公司宣布将用12亿美元现金收购统计分析软件提供商spss公司。具体的收购方式为,ibm将以每股50美元的价格进行收购,该交易将全部以现金形式
3、支付,预计于年底前完成。spss称将在2009年10月2日召开特别股东大会,投票表决有关将该公司出售给ibm的交易。如今spss已出至版本20.0,而且更名为ibm spss。迄今,spss公司已有40余年的成长历史。spss是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。spss采用类似excel表格的方式输入
4、与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的spo格式,可以转存为html格式和文本格式。对于熟悉老版本编程运行方式的用户,spss还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的spss程序。极大的方便了中、高级用户。spss for windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。spss的基本功能包括
5、数据管理、统计分析、图表分析、输出管理等等。spss统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、logistic回归、probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。spss也有专门的绘图系统,可以根据数据绘制各种图形。spss for windows的分析结果清晰、直观、易学易用,而且可以直接读取excel及dbf数据文件,现已推广到多种各种操作系统的计
6、算机上,它和sas、bmdp并称为国际上最有影响的三大统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用spss软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。最新的12.0版采用daa(distributed analysis architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和html格式报告。spss输出结果虽然漂亮,但是很难与一般办公软件如office或是wps2000直接兼容,如不能用word等常用文字处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘
7、制相关图表,这已经遭到诸多统计学人士的批评;而且spss作为三大综合性统计软件之一,其统计分析功能与另外两个软件即sas和bmdp相比仍有一定欠缺。虽然如此,spss for windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。发展历史1968年:斯坦福大学三位学生创建了spss1968年:诞生第一个用于大型机的统计软件1975年:在芝加哥成立spss总部1984年:推出用于个人电脑的spss/pc+1992年:推出windows版本,同时全球自spss 11.
8、0起,spss全称为“statistical product and service solutions”,即“统计产品和服务解决方案”2009年:spss公司宣布重新包装旗下的spss产品线,定位为预测统计分析软件(predictive analytics software)pasw,包括四部分:pasw statistics (formerly spss statistics):统计分析pasw modeler (formerly clementine) :数据挖掘data collection family (formerly dimensions):数据收集pasw collabora
9、tion and deployment services (formerly predictive enterprise services):企业应用服务2010年:随着spss公司被ibm公司并购,各子产品家族名称前面不再以pasw为名,修改为统一加上ibm spss字样编辑本段功能介绍数据管理在10版以后,spss的每个新增版本都会对数据管理功能作一些改进,以使用户的使用更为方便。13版中的改进可能主要有以下几个方面:1)超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。2)改进的autorecode过程
10、:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ascii码顺序进行变量值的重编码。另外,autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。3)改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易上。结果报告从10版起,对数据和结果的图表呈现功能一直是spss改进的重点。在16版中,spss推出了全新的常规图功能,报表功能也达到了比较完善的地步。13版将针对使用中出现的一些问题,以及用户的需求对图表功能作进一步的改善。1)统计图:在经过一年的使用后,新的常规图操作界面已基本完善,本次的改进除使得操作更
11、为便捷外,还突出了两个重点。首先在常规图中引入更多的交互图功能,如图组(paneled charts),带误差线的分类图形如误差线条图和线图,三维效果的简单、堆积和分段饼图等。其次是引入几种新的图形,目前已知的有人口金字塔和点密度图两种。2)统计表:几乎全部过程的输出都将会弃用文本,改为更美观的枢轴表。而且枢轴表的表现和易用性会得到进一步的提高,并加入了一些新的功能,如可以对统计量进行排序、在表格中合并/省略若干小类的输出等。此外,枢轴表将可以被直接导出到powerpoint中,这些无疑都方便了用户的使用。统计建模complex samples是12版中新增的模块,用于实现复杂抽样的设计方案,
12、以及对相应的数据进行描述。但当时并未提供统计建模功能。在13版中,这将会有很大的改观。一般线形模型将会被完整地引入复杂抽样模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能,例如对市场调研中的客户满意度数据进行建模。对于分类数据,logistic回归则将会被系统的引入。这样,对于一个任意复杂的抽样研究,如多阶段分层整群抽样,或者更复杂的pps抽样,研究者都可以在该模块中轻松的实现从抽样设计、统计描述到复杂统计建模以发现影响因素的整个分析过程,方差分析模型、线形回归模型、logistic回归模型等复杂的统计模型都可以加以使用,而操作方式将会和完全随机抽样数据的分析操作没有什么差别。可以预
13、见,该模块的推出将会大大促进国内对复杂抽样时统计推断模型的正确应用。模块这个模块实际上就是将以前单独发行的spss answertree软件整合进了spss平台。笔者几年前在自己的网站上介绍spss 11的新功能时,曾经很尖锐地指出spss目前的产品线过于分散,应当把各种功能较单一的小软件,如answertree、sample power等整合到spss等几个平台上去。看来spss公司也意识到了这一点,而answertree就是在此背景下第一个被彻底整合的产品。classification tree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细
14、分,而不需要用户有太多的统计专业知识。目前在市场细分和数据挖掘中有较广泛的应用。现在已知该模块提供了chaid、exhaustive chaid和c&rt三种算法,在answertree中提供的quest算法尚不能肯定是否会被纳入。为了方便新老用户的使用,tree模块在操作方式上不再使用answertree中的向导方式,而是spss近两年开始采用的交互式选项卡对话框。但是,整个选项卡界面的内容实际上是和原先的向导基本一致的,另外,模型的结果输出仍然是answertree中标准的树形图,这使得answertree的老用户基本上不需要专门的学习就能够懂得如何使用该模块。由于树结构模型的方法
15、体系和传统的统计方法完全不同,贸然引入可能会引起读者统计方法体系的混乱。为此,本次编写的高级教程并未介绍该模块,而将在高级教程的下一个版本,以及关于市场细分问题的教材中对其加以详细介绍。兼容性随着自身产品线的不断完善,spss公司的产品体系已经日益完整,而不同产品间的互补和兼容性也在不断加以改进。在13版中,spss软件已经可以和其他一些最新的产品很好的整合在一起,形成更为完整的解决方案。例如,spss、spss data entry和新发布的spss text analysis for surveys一起就形成了对调查研究的完整解决方案。而新增的spss classification tre
16、es模块将使得spss软件本身就能够针对市场细分工作提供更为完整的方法体系。编辑本段产品特点操作简便界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。编程方便具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,spss的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。功能强大具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带1
17、1种类型136个函数。spss提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、logistic回归等。数据接口能够读取及输出多种格式的文件。比如由dbase、foxbase、foxpro产生的*.dbf文件,文本编辑器软件生成的asc数据文件,excel的*.xls文件等均可转换成可供分析的spss数据文件。能够把spss的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。模块组合spss for window
18、s软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。针对性强spss针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析,大多青睐于spss,像薛薇的基于spss的数据分析一书也较适用于初学者。而那些熟练或精通者也较喜欢spss,因为他们可以通过编程来实现更强大的功能。编辑本段spss18.02010年,业界领先的预测分析软件提供商 spss 公司推出其旗舰统计分析软件 spss 的新版本 spss 18.0 for windows。该版本继承了原有产品的特点之外还增加了许多显著的新特性。公司从大量的客户反馈信息中提取有益的建议,并加入到
19、该新版本中。spss 18 在数据管理、统计分析和可编程性方面增加了许多新的特性。除此之外,spss 18 还提供了新的图形选项以及 pdf 格式输出功能这些都是用户强烈要求的新特性。如果用户使用了 dimensions 软件用于调查研究,spss 同样能够直接导入和导出各种 dimensions 数据模型。对于企业用户来说,spss 服务器不仅性能得到加强,其中用于 spss 预测企业服务萡 spss 适配器能够让企业内部的各个部门能够更有效地使用一致性的数据。spss广泛应用于各个领域,但是每个行业都存在着自己与众不同的行业特点和行业需求,因此spss根据各个行业数据分析和数据挖掘的特点,
20、设计了更具有针对性的解决方案。图形和输出在spss 以往版本中已经使用的一种高度可视化的构造图表交互界面图形构建器在 spss 新版中得到了进一步的加强。新式的图表能够让用户将复杂的信息清晰地表现出来。而 pdf 格式的输出功能够让用户更好地同其它人员进行信息共享。数据和访问管理spss base 18 提供了更强大的数据管理功能帮助用户通过 spss 使用其它的应用程序和数据库。用户还可以定制 spss 内部信息显示的方式,这样在管理数据的时候能够节省时间,也具备一定的灵活性。分析功能spss base 18 还包括了 ordinal regression(次序回归)分析算法,该算法在以前的
21、版本中包含在 spss advanced models 附属模块中。在 18.0 中用户可以直接在 base 模块中直接使用这种新的算法来对两种以上的变量的次序输出进行预测。例如,预测客户忠诚度及其与客户满意度的相关性。可编程性spss 18.0 中包括了 spss programmability extension 功能,在 spss 命令语法语言的基础上提供与其它编程语言的结合功能。用其它语言编写的程序代码,如 python®,可以管理使用 spss 语法所编写的任务流。使用 spss 18.0 提供的扩展编程功能和特性,让 spss for windows 成为了最强大的统计开
22、发平台之一。编辑本段spss20数据管理在10版以后,spss的每个新增版本都会对数据管理功能作一些改进,以使用户的使用更为方便。13版中的改进可能主要有以下几个方面:1)超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。2)改进的autorecode过程:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ascii码顺序进行变量值的重编码。另外,autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。3)改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算
23、,以及对日期变量值的增减更为容易上。结果报告从10版起,对数据和结果的图表呈现功能一直是spss改进的重点。在16版中,spss推出了全新的常规图功能,报表功能也达到了比较完善的地步。13版将针对使用中出现的一些问题,以及用户的需求对图表功能作进一步的改善。1)统计图:在经过一年的使用后,新的常规图操作界面已基本完善,本次的改进除使得操作更为便捷外,还突出了两个重点。首先在常规图中引入更多的交互图功能,如图组(paneled charts),带误差线的分类图形如误差线条图和线图,三维效果的简单、堆积和分段饼图等。其次是引入几种新的图形,目前已知的有人口金字塔和点密度图两种。2)统计表:几乎全部
24、过程的输出都将会弃用文本,改为更美观的枢轴表。而且枢轴表的表现和易用性会得到进一步的提高,并加入了一些新的功能,如可以对统计量进行排序、在表格中合并/省略若干小类的输出等。此外,枢轴表将可以被直接导出到powerpoint中,这些无疑都方便了用户的使用。统计建模complex samples是12版中新增的模块,用于实现复杂抽样的设计方案,以及对相应的数据进行描述。但当时并未提供统计建模功能。在13版中,这将会有很大的改观。一般线性模型将会被完整地引入复杂抽样模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能,例如对市场调研中的客户满意度数据进行建模。对于分类数据,logistic回归
25、则将会被系统的引入。这样,对于一个任意复杂的抽样研究,如多阶段分层整群抽样,或者更复杂的pps抽样,研究者都可以在该模块中轻松的实现从抽样设计、统计描述到复杂统计建模以发现影响因素的整个分析过程,方差分析模型、线性回归模型、logistic回归模型等相对复杂的统计模型都可以加以使用,而操作方式将会和完全随机抽样数据的分析操作没有什么差别。可以预见,该模块的推出将会大大促进国内对复杂抽样时统计推断模型的正确应用。模块这个模块实际上就是将以前单独发行的spss answertree软件整合进了spss平台。笔者几年前在自己的网站上介绍spss 11的新功能时,曾经很尖锐地指出spss目前的产品线过
26、于分散,应当把各种功能较单一的小软件,如answertree、sample power等整合到spss等几个平台上去。看来spss公司也意识到了这一点,而answertree就是在此背景下第一个被彻底整合的产品。classification tree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分,而不需要用户有太多的统计专业知识。目前在市场细分和数据挖掘中有较广泛的应用。现在已知该模块提供了chaid、exhaustive chaid和c&rt三种算法,在answertree中提供的quest算法尚不能肯定是否会被纳入。为了方便新老用
27、户的使用,tree模块在操作方式上不再使用answertree中的向导方式,而是spss近两年开始采用的交互式选项卡对话框。但是,整个选项卡界面的内容实际上是和原先的向导基本一致的,另外,模型的结果输出仍然是answertree中标准的树形图,这使得answertree的老用户基本上不需要专门的学习就能够懂得如何使用该模块。编辑本段软件平台spss自spss16.0起推出linux版本。spss最新版本为spss 21.0,已支持windows 7、mac os x、linux及unix/2012年,提供mac、windows、linux及unix四种平台产品版本下载。2一:认识spsssps
28、s是三大著名统计软件之一: spss(statistical package for the social sciences,社会科学统计软件包;更改为statistical product and service solutions,统计产品与服务解决方案) sas(statistical analysis system,统计分析系统)bmdp(biomedical programs,生物医学程序) 20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件spss,同时成立了spss公司,并
29、于1975年在芝加哥组建了spss总部。 其spss软件包发展演化过程如下: · 七十年代开发的用于大中型计算机。· 84年推出v1.0a的微机版。(dos版)· 86年推出v2.0版。 (dos版)· 87年以后推出v3.0-5 .0版 。(dos版)· 93年以来推出v6.0以上(windows版) 迄今spss软件已有30余年的成长历史,全球约有25万家产品用户,是世界上应用最广泛的专业统计软件。世界上许多有影响的报刊杂志纷纷就spss的自动统计绘图、数据的
30、深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。 国际学术界默认:凡是用spss统计分析的结果,在国际学术交流中可以不必说明算法。其权威性和信誉度是世界公认的。 spss的应用领域:经济学、生物学、教育学、心理、医学以及体育、工业、农业、林业、商业和金融等各个领域。二:spss功能简介一般性统计描述研究· 频度分析frequencies· 统计描述
31、descriptives· 数据考察分析explore这些研究可以实现: 对研究对象的一般定性统计描述,如:频度、频率、百分比、有效百分比、积累百分比等。以及定量统计描述,如:描述集中趋势的平均值、中位数、众数、求和等。描述离心趋势的最大值、最小值、全距、标准差、标准误、方差等。描述分布的峰度系数及其标准误、偏度系数及其标准误、百分位数、四等分百分位数和n等分百分位数等。上述统计描述主要实现对单一变量的统计分析。样本差异性检验研究在多变量、多样本对照研
32、究中主要有下面的几个统计分析手段:· t检验t-test· 一元方差分析one-way anova· 多元方差分析和协方差分析unianova· 复方差分析manova在样本处于正态分布情况下的统计分析可以对不同样本之间的均值比较。例如:· 单因素双水平的t - 检验、单因素多水平的一元方差分析、多因素多水平以及· 含协变量的多元方差分析和协方差分析、多因变量多因素的复方差分析。样本分布检验研究在单样本的分布的研究主要是如下统计分析手段:· 非参数检验nonpar test· 在非正态或分布不明确情况下
33、的统计分析中可以对样本的分布做非参数检验。例如:卡方检验、游程检验、k-s检验等。从而判断样本分布符合哪种理论分布。数据的规律性研究在多变量或多样本彼此之间满足什么规律的研究中主要有下面的几个统计分析手段:· 相关分析correlation :用以研究变量之间共同变化的关系,从而揭示彼此之间的变化规律。· 偏相关分析partial corr· 回归分析regression:将自变量与因变量之间共同变化的关系用方程(回归方程)表示。· 聚类分析cluster:将属性相近的个案或变量归类的统计分析手段。· 快速聚类分析quick cluster
34、183; 判别分析discriminant:是一种判别个体所隶属的群体的统计分析手段。· 因素分析factor:找出诸多变量中具有共同变化规律的各个综合变量(因素),由因素对各个变量的信息资料进行解释。上述统计操作主要是围绕着对数据变化趋势进行概括和归纳,以建立数据之间变化的规律。5.作图(17种图) 条形图、线图、面积图、饼分图、高低图、帕累托图、控制图、箱形图、误差条形图、散点图、直方图、p-p图、q-q图、序列图、受试者工作特征曲线、时间序列图等。三:统计方法、条件与作用小结 统计方法适用范围 相关分析biva
35、riate相关两个或两个变量之间的相关关系 偏相关分析对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数。距离相关分析变量间的接近程度或预测值与实际值的拟合程度 回归分析线性回归分析线性关系及其关系系数曲线拟合拟合11种曲线二值多元lgistic回归分析因变量为二分变量概率单位法样本半数发生特定的作用而所需的变量值非线性回归分析非线型关系的拟合优度 聚类分析(分类分析)逐步聚类分析多变量大样本的样本分类分析,初始分类,逐步调整,得到最终分类。系统聚类分析(分层聚类分析)样本(q型)聚类分析、
36、指标(r型)聚类分析判别分析根据聚类分析的结果,判断指标对事物的影响,判别样本所属类型 尺度分析信度分析检测量表的可靠性和稳定性,也可衡量教学评价过程中,受干扰因素所造成的随机误差的大小多维尺度分析分析距离资料,用于指出两个相似或相异事件的一致性生存分析多用于临床医学方面 非参数检验卡方检验(2)配合度检验,主要用于分析实际频数与某理论频数是否相符。二项分布检验两分变量是否服从概率等于p的二项分布,单一样本的非参数检验游程检验检验两个不同观测值出现的次序是否具有随机性,单一样本的非参数检验单样本柯尔莫柯罗夫-斯米尔诺夫检验比较某一变量观测值的累积分布函数与指定的理论分布间是否存在差异多个独立样本非参数检验多个样本比较的秩和检验两相关样本非参数检验检验配对变量间是否有差异多个相关样本非参数检验检验k个相关样本是否来自同一总体案例:关于家庭主观环境对学生学业成绩影响的实验研究一、 问题的提出: 人的个性及其发展是社会环境的产物。在社会环境的微观环境中,家庭可谓是对人产生了重大影响。家庭是建立在婚姻、血缘关系基础和一定经济基础之上的亲密合作、共同生活的社会群体。它是伴随一个人的出生、成长乃至死亡的全过程的社会单位,对每个人的影响是都深远的。来自不同地域的不同家庭的学生在同一学校中所获
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论