统计软件SPSS教案(全)_第1页
统计软件SPSS教案(全)_第2页
统计软件SPSS教案(全)_第3页
统计软件SPSS教案(全)_第4页
统计软件SPSS教案(全)_第5页
已阅读5页,还剩151页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE 154第一单元 SPSS基本操作实验一 SPSS基本操作一、实验目的1、掌握SPSS数据分析的一般步骤;2、能根据实际情况定义变量,建立SPSS数据文件;3、能根据数据分析的要求,对原始数据进行适当的预处理;4、能够对SPSS的运行结果进行适当的编辑并导入到分析报告中。二、实验原理及步骤讲解(一)SPSS概述SPSS(Statistical Package for the Social Science,社会科学统计软件包)是世界著名的统计软件之一。1968年美国斯坦福大学三位研究生研制了最早的SPSS统计软件系统,并基于这一系统于1975年在芝加哥成立SPSS公司,推出SP

2、SS 中小型机版SPSSX。1984年推出世界第一个统计分析软件微机版SPSS/PC+。迄今为止软件已有30多年的成长历史,应用遍布于通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等领域,是世界上应用最广泛的专业统计软件。随着SPSS产品服务领域的扩大和服务深度的加深,2002年公司将软件更名为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”。SPSS主界面有两个,一个是SPSS数据编辑窗口,另一个是SPSS结果输出窗口。数据编辑窗口是最重要的,使用也最为频繁,是SPSS的基本操作平台。对SPSS的数据进行定义、录

3、入、修改、管理等基本操作的窗口,各统计分析功能都是针对该窗口中的数据进行的;窗口中的数据以.sav存于磁盘上;SPSS运行过程中自动打开,且只能打开一个窗口;运行过程中无法关闭。本节先介绍数据编辑窗口。SPSS属于电子表格软件,其数据编辑窗口与微软公司的Excel窗口有些相似,并且有一些功能也相同。不过SPSS的数据统计功能要比Excel强很多。数据编辑窗口由标题栏、菜单栏、工具栏、编辑栏、变量名栏、内容区、窗口切换标签页和状态栏组成。如图1-1所示。标题栏中显示编辑的数据文件名,本图中所编辑的数据文件为Hair&eye.sav。菜单栏中列出了SPSS的命令菜单,每个菜单对应一组相应的功能。其

4、中File是对SPSS文件的操作;Edit是SPSS文件的编辑菜单;Data是数据文件的建立和编辑菜单;View是用户界面设置菜单;Transform是数据基本处理菜单;Analyze是统计分析菜单,主要统计功能都集中在该菜单中;Graphs是统计图形菜单;Utilities是相关应用和设置菜单;Windows是SPSS各窗口切换菜单;Help是SPSS帮助菜单。标题栏编辑栏标题栏编辑栏变量名栏菜单栏内容区窗口切换标签状态栏工具栏图1-1 数据编辑窗口编辑栏中可以输入数据。变量名栏中列出了该文件中所含有的变量名。SPSS自动命名变量名为var001、var002等。本文件中有三个变量:num、

5、hair、eye。内容区列出了各个个案在变量中的取值。SPSS中每一行表示一个个案(记录)。内容区的最左边是行的标号,这和Excel类似。该窗口下方有两个标签:“Data View”(数据视图)和“Variable View”(变量视图)。这两种视图提供了一种类似于电子表格的方法,用以产生和编辑SPSS数据文件中的变量和数据。“ Data View”对应的表格用于查看、录入和修改数据;“ Variable View ”对应的表格用于输入和修改变量的定义。这样使用者就可以非常方便地进行变量类型的定义和数据的输入。相对于Excel来讲,“Data View ”所对应表格有以下特点:(1)一个列对应

6、一个变量,即每一列代表一个变量或一个被观测量的特征。例如问卷上的每一项就是一个变量。(2)行是观测,即每一行代表一个个体、一个观测、一个样品,在 SPSS中称为事件(Case)。例如,问卷上的每一个人就是一个观测。(3)单元包含值,即每个单元包括一个观测中的单个变量值。单元(Cell)是观测和变量的交叉。(4)数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。数据编辑窗口最下面的状态栏用来显示SPSS当前的运行状态。当SPSS等待用户操作时,会出现“SPSS Processor is ready”的提示信息。在数据编辑窗口中完成变量定义、数据输入后,单击某个统计功能菜单,

7、SPSS会自动完成统计分析,并将弹出结果输出窗口,其中存放了数据统计的结果。(二)数据分析概述1、数据分析一般流程任何一个数据分析项目,如果按照整个分析过程的流程结构来看,都可被划分为大致7个阶段:计划阶段、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布阶段。计划阶段:在分析项目的初始阶段,需要花费大量的时间来设计分析计划,以减少盲目分析,避免资源浪费。该阶段要对数据分析的各个行动步骤做好规划确定以下几个问题:确定研究问题。建立项目预算确定研究范围即确定研究总体和个体确定样本抽取方法分析评估所需样本量确定数据收集方式确定与研究问题相关的数据,即确定应该收集个体的哪些数据确定研究问题

8、的分析方法和分析工具数据收集阶段:如果手头已经有现成的数据,就可不必再进行数据收集。 数据收集的方式有很多种,可以是电话式访问,可以是面谈式收集,也可以是拦截式访问。如果是从头进行数据收集,则应当有标准问卷,问题的设计不仅要相关,还要能够从中的出有意义的结论。数据获取阶段。该阶段的目的是将分散的、原始格式各不相同的数据读入分析工具中,使分析工具可以对数据进行分析。数据准备阶段。该阶段的主要任务是:清理数据以保证数据的准确性。对数据进行必要的转换。如生成一些新的字段以供分析;将连续字段离散化;将字符型字段数值化等。目的是将数据结构转换成合适的形式。填充缺失数据。对各种缺失字段,利用适当方法进行填

9、补对数据进行合并、汇总等。将数据文件进行合并,将个体数据进行汇总,生成各组数据。数据分析阶段:利用各种数据分析工具对数据进行分析,得出结论。数据分析阶段可分为几个部分:预分析:包括概括性描述统计和探索性统计推断两部分,使用统计图和统计表对数据进行更好的理解,基于对数据的理解开始尝试进行分析。精确分析:基于上一步得到的各种信息,开始尝试拟和最佳的统计模型,以寻求对数据中所蕴涵信息最完美的解释。完成这一部分工作往往需要统计知识和专业知识相互补充,所使用的统计方法一般是多元统计分析方法。 结果报告阶段:结果报告的目的是将整个数据分析项目的结果以一种非学术化的方式表达出来,使得决策者能够快速理解,并基

10、于此分析结果做出决策。模型发布阶段:结果报告仅仅是对基于历史数据所建立的模型加以阐述。当需要利用该模型进行预测时,具体的做法是在分析软件中加以预测,该阶段的目标是将分析阶段得到的模型、信息和知识带给机构决策者以便他们能为机构作出更好的未来规划。在大多数分析过程中,不一定会经历所有的这7步。例如,根据分析目的,所需的数据仅是日常工作产生的交易数据,那么就不必再经历“数据收集”阶段,而直接进入“数据获取”阶段。另外,各阶段之间可能交叉进行。例如,有时在对原始数据进行分析之后,即进入“数据分析”阶段后,突然发现其他数据也是分析必需的,所以又返回“数据收集”阶段。又如,在“数据分析”阶段发现某个字段因

11、其格式不能参与分析,所以就需要进行“数据准备”阶段所做的工作。2、用SPSS做数据分析作为一家信息统计决策支持服务的提供商,SPSS公司在以上涉及的各个数据分析阶段均有相应的产品与其对应,其核心功能是数据分析阶段。建立SPSS数据文件,包括:定义数据文件结构;录入、修改和编辑待分析的数据分析数据。根据设计初步判断可能用到的统计方法,先进行必要的预分析,以确定数据是否满足方法的要求;根据预分析的结果,选择适当的统计方法和模型进行分析。结果的说明和解释,若结果不合适,则重新选择预分析和统计分析方法。数据和分析结果导出并保存(三)SPSS数据文件的建立与管理SPSS数据文件是一种有结构的数据文件:姓

12、名性别学号 变量名张三女0101 记录李四男01021、定义数据文件的变量(Variable view)例1.1:下面是国外某工厂的职员对周围环境满足程度的调查问卷(如下图所示),1、对满足度的调查对于下面事项您感觉满足程度,请在横线上用“钩”表示。 很不满意 不满足 一般 满足 很满足(1)家庭 (2)工厂 (3)政治现实 (4)经济状况 2、个人情况调查性别(1男,2女)学历(1高中,2专科,3大学以上)年龄身高体重(cm/kg)平均收入(千元)生活费(千元)家庭人口(人)住房面积(平方米)试据此定义数据文件结构。打开数据编辑窗口后单击下方的Variable View标签,切换到变量定义界

13、面,开始定义新变量。根据以上问卷内容,定义x1x13,共13个变量来分别表示对家庭的满意程度、表示对工厂的满意程度、表示对政治的满意程度、表示对经济的满意程度、性别、学历、年龄、身高、体重、平均收入、生活费、家庭人口和住房面积。下面来具体看一看变量视图中各个栏目的意义和用法:变量名(Variable name)Name栏:用于设定变量名,变量名是变量存取的唯一标志。SPSS11中变量名长度应在8位以内,但SPSS13已无此限制。虽然键入中文也可以,但最好使用英文,由于SPSS是英文软件,变量名采用中文可能会有潜在的冲突(100%的兼容性是不存在的,典型的例子就是微软公司的产品);其次,当需要将

14、数据转换为其他格式时,中文变量名也可能不能被完全识别,这里分别对13个变量命名为x1x13。Type栏:选择该框时右侧会出现形如的按钮,单击它会弹出变量类型对话框,用于设置变量类型,相应的可以在右侧更改变量运算宽度等格式,一般按默认的普通数值型(Numeric)即可。SPSS 中变量一共有三种:数值型、字符型(String)和日期型(Date),根据不同的显示方式,数值型又被细分为五种,所以SPSS中的变量类型共有八种,但实际上只要分得清楚数值型、字符型和日期型就可以了。这里13个变量全部定义为普通数值型。With栏:设置变量运算宽度,如数值型默认为8位,一般不用变。该宽度只会改变输出结果的显

15、示宽度,数据的存储结果和运算精度完全不受影响。Decimals栏:设置小数位,默认为2位,即数值型变量默认情况下为5位整数、1位小数点位和2位小数。Label栏:用于定义变量名标签,该变量名标签是对对变量名的进一步描述,长度可达120个字符,可以是中文,变量名标签会在结果中输出,阅读会非常方便。如上题中若用x1这个变量表示对家庭的满意程度,x1为变量名,变量名标签可定义为“对家庭的满意程度”,从而是x1的含义较明确。Value:用于定义变量值标签,变量值标签是对对变量的每一个可能取值的进一步描述。该功能非常有用。以变量x5为例,单击value框右部的省略号,会弹出变量值标签对话框如图所示。|上

16、部的两个文本框分别为变量值输入框和变量值标签输入框,分别在其中输入“1”和“男”,此时下方的Add钮变黑,单击它,该变量值标签就会被加入下方的标签框内。与此类似定义变量值“2”为“女”,最后按OK,变量值标签就设置完成。这样,一方面使阅读该数据文件的人能清楚得理解数据,另外做任何分析,在结果中都有相应的标签出现,阅读结果也就更方便了。Missing栏:用于定义变量缺失值。SPSS中默认缺失值用表示,如果所用数据集中还有其他表示方法,则用该框来定义。Columns栏:定义显示的列宽,实际上它用的非常少,因为改变列宽简便的方法就是将鼠标放在数据窗口中两个变量名的中间直接拖动。Align栏:定义显示

17、对齐方式,按照默认的右对齐即可。Measure栏:定义变量的测量尺度,这一项不应被忽略,它可以对变量进行精确的定义。仅靠变量类型还不足以完全传递所有信息,比如说有序分类变量和连续性变量的类型都是数值型,并无差异。为此,在SPSS中又引入了测量尺度的概念,它和变量类型联合起来可以对变量作更精确的限定,测量尺度一共有以下三种:标度测量 (scale Measurement) :是测量的最高水平,数值可以是两个测量间的差值,比如温度,35和50相差就是15;可以是两个测量间的比值,如比例测量,如重量,80公斤就是40公斤的两倍。可以使用标度测量的数据只能是数值型变量。本例中的月收入、年龄等均为标度测

18、量。有序测量(Ordinal Measurement):比标度测量的信息量少一些,测量数值代表了有序分类,如4、3、2、1代表了优、良、中、差,显然这里“优”并非“中”的两倍,即测量数值不代表绝对的数量大小。能使用有序测量的数据可以是数值型,也可以是字符型变量。本例中的学历即为有序测量。名义测量(Nominal Measurement):是几种测量中最低的水平,其数值仅代表某些分类或属性,它们之间无法比较出大小。比如说测量的血型值,只能分为A、B、AB、O四种,不可能分出哪个高哪个低。能使用名义测量的数据可以是数值型,也可以是字符型变量。本例中的性别即为名义测量。2、数据录入和保存直接录入在数

19、据编辑窗口单击Data View标签,切换到数据视图,在该视图下可直接输入数据,输入时注意数据和变量的对应关系。中小批量的数据,直接用SPSS输入比较方便的,如果数据量非常大,就应备考虑采用专用数据库软件,如Access来录入。数据录入技巧和其他常用统计软件相比,SPSS数据界面最大的优势就是支持鼠标的拖放操作,以及拷贝粘贴等命令,下面的数据录入技巧就是对这些功能的利用。连续多个相同值的输入:如果变量有连续多个相同数据输入,比如连续几个单元格都要输入1,可以在第一格内输入1并回车,然后回到刚才的单元格并单击copy,最后用拖放方式选中所有应输入1的单元格,单击右键并选择paste,所有选中的单

20、元格就:会都被刚才拷贝的1填充。将Excel数据直接引入SPSS:Excel已经打开原数据,并且数据量较少的时候,可以直接用拷贝粘贴的方法将数据引入SPSS。先在Excel中选中所有的数据(不包括变量名),然后选择拷贝命令,然后切换到SPSS,最好使行1列1单元格成为当前单元格,然后执行粘贴命令,数据就会全部转入SPSS,再定义相应的变量即可。如果数据中含有文本,则不能直接粘贴,否则会丢失数据。这是因为SPSS默认的数据格式均为数值型,这样将文本粘贴过来就会变为缺失值。将Word中的数据表格直接引入SPSS:如果表格中全部都是数值,则可以选中整个表格,选择拷贝命令然后切换到SPSS,再执行粘贴

21、命令,数据就会全部转入SPSS,并且原来的单元格会自动对应为SPSS中的一个单元格。此时再定义相应的变量名即可。用SPSS直接打开其他文件:SPSS可以直接打开多种其他类型文件,如各种版本的Excel文件、dBase文件、纯文本文件等,这些文件可由SPSS直接引入。SPSS数据文件建立起来以后,单击保存,可以保存为SPSS数据文件类型,扩展名为.sav;也可以存为其他多种文件类型,如Excel、DBF、Access等。(四)SPSS数据管理SPSS数据(的基本加工和处理的)管理命令集中在Transform菜单和Data菜单,这些命令不属于统计分析的范畴,其处理结果在数据文件上体现出来,而不在结

22、果输出窗口,主要提供的是数据管理方面的基本功能,也可以看成是对数据预处理的过程。其中Data菜单主要实现变量级别的数据管理,如计算新变量、变量取值重新编码等,Transform菜单主要实现文件级别的数据管理,如变量排序、文件合并拆分等。1、变量级别的数据管理Transform菜单Transform菜单主要集中了一些对变量进行变换的过程,如对原始数据进行四则运算、对数据重新编码、求变量秩次等,在统计分析的预处理中起着重要作用,下面列出常用的三个。计算新变量Compute过程计算新变量就是在原有SPSS数据文件的基础之上,根据用户要求,使用SPSS算术表达式以及函数,对所有记录或满足条件的记录,计

23、算出一个新结果,并将结果存入一个指定的变量中。这个指定变量可以是一个新变量,也可以是一个已经存在的变量。Coumpute命令能轻松完成这样的任务。例1.2:根据调查问卷.sav中的数据,如果要对所有记录的月收入上全部加上100元,并把新的月收入存入一个新变量,操作对话框如图1-2。Target Variable框为用来存储新数据的目标变量名,可以是新变量,也可以是文件中已经存在的变量(此时会覆盖原内容),此处输入xx10;左下方为候选变量列表,用于将计算所需变量直接引入;Numeric Expression框用于给目标变量赋值,这里选入x10,并给出赋值表达式:x10+100;Numeric

24、Expression框下方为软键盘和备构造表达式所需的函数。按OK后,原数据文件中会产生一个新变量xx10,其大小为对应x10的值加上100。图1-2 Compute过程主对话框对变量进行分组和并Recode过程数据分析中,将连续变量转换为等级变量,或者将分类变量不同的变量等级进行合并是经常采取的方法,Recode过程主要完成这一类工作。例1.3:根据调查问卷.sav中的数据,根据年龄对受访者重新分组,年龄小于等于30为一组,用1表示;年龄大于30为一组,用2表示,并将分组变量存入新变量xx7。操作如下:选择菜单Transform,Recode Different Variables,Reco

25、de对话框如图1-3所示。图1-3 Recode into Different Variables 过程主对话框将年龄(x7)选入Input Variable-Variable框,此时Output Variable框变黑,在其中键入新变量名xx7,并单击Change,可见原来的x7-?变成了x7-xx7,意即由原变量x7生成新变量xx7。现在单击O1d and New values,系统弹出变量值定义对话框如图1-4所示。根据时间情况确定旧值和新值,需要注意的是所有范围包含了端点,而且前面设定的变换会优先于后侧的变换。这里选择Range:Lower through,右侧框中输入30,然后在右上

26、方的Value右侧框中键入对应的新变量值1,时下方Add键变黑,单击它,Old -New框中就会加入Lower thru 30 -1;再选择Range: through highest,右侧框中输入30,然后在右上方的Value右侧框中键入对应的新变量值2,时下方Add键变黑,单击它,Old -New框中就会加入30 thru Highest 30 -2。现在单击Continue,再单击OK,系统就会按要求生成新变量xx7。图1-4 变量值定义子对话框求变量秩次Rank Case过程:Rank Cases过程就是用来排次序的一个专用过程。具体来说,它根据某变量的大小来排出次序(秩次),然后将秩

27、次结果存储到一个新变量中去。例1.4:根据调查问卷.sav中的数据,计算年龄的秩次。操作如图1-5。图1-5 Rank Case过程主对话框单击OK后系统会自动生成一个新变量Rx7(即原变量前加r表示Rank之意),其取值为x7的秩次。2、文件级别的数据管理Data菜单Transform菜单是对变量进行操作,而在许多情况下,我们需要对整个数据文进行加工整理,比如根据统计分析的要求对数据进分组、合并等操作。Data菜单主要是对整个文件的加工整理,排序、筛选、分组、合并、转置等。这里只介绍最常用的四个过程。记录排序Sort cases过程即变量排序过程,变量排序是非常常用的一项功能,学会它的使用技

28、巧会使工作效率大大提高,例如:数据输入完毕后, 某个变量按升序或降序排列,利于发现输入错误、查找数据及了解数据。例1.5:根据调查问卷.sav中的数据,按月收入对所有记录重新排序。在如下的Sort cases对话框中,将x10选入Sort by框,再按OK即可,原数据文件的记录将按月收入从小到大排列。如果希望从大到小排列,则选择Descending,即为降序排列。图1-6 Sort cases主对话框数据汇总Aggregate过程Aggregate过程用于对数据进分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行组,对每组记录的各变量值求指定的描述统计量,并对结果进行存储。例1.6:根据调

29、查问卷.sav中的数据,计算男女两个人群的平均月收入。该问题属于分组进行描述统计,用Aggregate过程。操作界面如图1-7。图1-7 Aggregate过程主对话框图中Break Variables框用于选择分组变量,这里选入x5(性别);Summaries of Variables框用于选择被汇总的变量,这里选入x10(月收入);Name & Label用于定义新产生的汇总变量的名称和标签;function按钮用来定义汇总函数,共有五组函数,分别为常用汇总函数、特定值、记录数、百分比和百分片断。以最常用的一组可选的函数有均数、中位数、总和、标准差四种,这里选择均值;Save 用于定义分类

30、汇总结果的存储方式:将分类汇总结果加入当前数据文件,还是产生一个只包含分类汇总接的新文件,还是用分类汇总的结果代替当前文件。这里按默认选择即可。单击OK完成。这时当前文件后面会产生一个新变量x10_mean,其值分别为男女的平均月收入。多个数据文件的合并Merge file过程Merge file过程用于合并数据文件,实际上包括了两个过程,分别对应了两种合并方式:纵向合并,从外部数据文件中增加记录到当前数据文件中,用Add Cases对话;横向合并从,指外部数据文件增加变量到当前数据文件,用Add variable对话框完成。注意纵向合并要求互相合并的数据文件有相同的变量,否则会舍弃不匹配的变

31、量;横向合并对数据集要求高,默认按记录号合并,若按关键变量匹配,则记录应按关键变量升序,且关键变量一一对应。例1.7:将数据集tables.sav中的记录添加到tab1.sav中,注意在tab1.sav中的变量 xingbie对应了tables.sav中的sex。因为是记录添加,所以用Add Cases。首先应当打开文件tab1.sav,然后选择菜单DataMerge FileAdd Cases,系统会弹出打开数据文件对话框,选中需要添加的数据文件tables.sav并按OK,系统才弹出Add Cases对话框如图1-8所示。图1-8 Add Cases过程主对话如图,左侧显示的是新、老数据文

32、件中不匹配的变量名。星号表示为当前数据集中变量,加号代表是添加数据集中的变量,左侧显示的是已匹配的变量名,可以用Rename按钮对不匹配变量改名再纳入,这里我们用鼠标强行匹配(即选中两个需要匹配的变量再单击Pare按钮),此时两个变量以Sex & xingbie的形式加入右侧,表明最终的变量数值为两者的接和,但变量名仍以当前数据集的sex为准。右下方的Indicate case source variable复选框用于定义一个新变量以区分哪些记录是新添加的,这里不使用。选择完后单击OK,该操作就完成了。例1.8:数据集brain1.sav中包含了ID号190(有缺号)的病人的性别、年龄和血小板

33、值,brain2.sav则包含了11100号病人的收缩压、舒张压和迟发性脑损伤结果。将两个数据集按ID号合并,并尽可能多的保留病人记录。根据题意,我们要将两个数据集按ID号相同的原则进行合并,并且要保留110和91100这些只存在于一个数据集内的记录。首先我们要将两个数据集分别按ID进行排序,然后重新打开brain1.sav,选择菜单DataMerge FileAdd Variables,系统会首先弹出打开文件对话框,指定需要合并的第二个数据文件名,找到brain2.sav并单击打开,系统就会弹出添加变量对话框如图1-9所示:图1-9 添加变量对话框New Working Data File框

34、内被纳入合并后新数据集的变量列表,同样,星号表示来自当前数据集,加号表示来自第二个数据集;Excluded variables框里为未被纳入的变量列表;选中Match Case on key variables in sorted file,即按已排序关键字合并,此时系统默认按记录号相等来合并,显然这不符合我们的要求,将ID选入Key Variable框作为关键子;下侧的三个单选框变黑可用,它们分别表示纳入两个文件提供的所有记录、以当前数据为主纳入外部文件的变量和以外部数据为主纳入当前文件的变量,显然我们这里要选择第一种情况。单击OK即可。新产生的文件将包含1100号病人的ID、性别、年龄、血

35、小板值、收缩压、舒张压和迟发性脑损伤七个变量的信息。文件拆分Split file过程Split file过程用于将数据文件分组进行处理。一般来讲,若没有特别设置,统计分析时将会把所有记录一起处理。若想分组进行处理,则可以在分析以前用Split file过程先将文件拆分为两部分,则之后的分析将分组进行。其对话框如图1-10及解释如下:图1-10 Split file过程主对话Analyze all cases,do not create groups和下面的两个单选框为一组,选中本框表示不拆分文件;Compare groups表示按所选变量拆分文件,各组分析结果放在一起便于比较;Organize

36、 output by groups意即按所选变量拆分文件,各组分析结果单独放置;Groups based on框用于选择拆分数据文件的变量;Sort the file by grouping variables与File is already sorted为一组,用于选择是否要求拆分时将数据按所用的拆分变量排序,或所用的拆分变量已经排过序了。(五)SPSS的结果浏览窗口和结果的导出SPSS的结果浏览窗口和Windows资源管理器的结构完全相同,操作也几乎相同。除了菜单栏和工具栏以外,窗口被分为左右两部分:左侧为大纲视图,又称结构视图,用于概要地显示结果的结构,在宏观上对结果进行管理;右侧显示详

37、细的统计分析结果(统计表、统计图及文本)两侧的元素是完全一一对应,当选中左侧大纲视图中的某一元素,则右侧的该元素的具体输出结果也被选中。1、结果的导出选中要导出的结果,右击弹出属性菜单,单击Export,打开Export对话框如图1-11。其中Export下拉列表用于确定需要输出的内容,有全部结果、无统计图的文档和只输出统计图三种选择;在Export File框里输入输出目标文件位置和目标文件名,也可以用右侧的Browse按钮指定;Export What单选钮组用于确定输出的范围,有全部对象、全部可见对象和所选择的对象三种选择;Export Format下拉列表用于选择导出文件的格式,有HTM

38、L、Excel、PowerPoit和文本格式等。选好后单击OK,系统就会将结果按你的要求输出。图1-11 Export主对话框2、如何在WORD等软件中引用分析结果现在Word、Excel等办公处理软件使用的越来越广,SPSS漂亮的输出结果如果无法在Word等中使用将会带来极大地不便。统计表格:选中需要的统计表,在拷贝时会有两种选择:拷贝(Copy)或拷贝对象(Copy Object),拷贝时是将统计表按普通的Word表格来拷贝,粘贴后格式大部分会丢失,但被转换为Word表格,可以进一步修改;拷贝对象是将统计表拷贝为特殊的图片,格式与以前完全一样,但不能进行修改。含中文字符的统计表格:如果所用

39、的统计表格里有中文字符,则不能直接用拷贝粘贴的方法读入Word,粘贴过去的中文可能会全部变成乱码,需要一律重新输入。这时可在Word中使用编辑菜单的“选择性粘贴”然后选择其中的无格式文本,这样整个表格就会按照Tab键分隔的纯文本形式粘贴入Word,里面的中文也完好无损。再将文本选中,使用表格菜单中的“文字转换到表格”,就又可以转换为表格,且中文完好无损。统计图:和统计表的情况类似,这里也有拷贝或拷贝对象两种选择,但我们推荐一直使用后者,直接粘贴过去的就是普通的图片。在Excel 2000中使用输出结果:在 Excel2000建议中使用普通的拷贝/粘贴方式来操作。Excel的兼容性要比Word好

40、些,可以完全兼容SPSS输出的表格,表格内容就会基本无损的被移入Excel工作表单中,含中文的表格粘贴过来后,中文并不会变为乱字符,并且可以进一步修改贴。三、实验报告1、纽约55名棒球佼佼者样本的位置数据列在下表,每一项数据表示这些佼佼者们所担任的首要位置:投手(P)、接手(H)、一垒(1)、二垒(2)、三垒(3)、游击手(S)、左外场(L)、中外场(C)和右外场(R)。L P C H 2 P R 1 S S 1 L P R P R 1 2 H S P P P R C S L R P C C P P R P 3 H 2 L P2 3 P H L P 1 C P P P S 1 L R 根据以上

41、信息建立SPSS数据文件。2、美国个人投资协会报道了90家新的影子股票。术语“影子”表示中小型企业的股票,不被证券公司紧紧跟随。有关股票在哪交易(OTC、AMEX、NYSE),每股赢余和价格/赢余比率的信息由20个影子股票的样本给出。(数据见影子价格)每股赢余数据用组限0.000.19,0.200.39等,价格/赢余比率数据用组限0.09.9,10.019.9。根据以上规则实现对数据的重新编码。完成以上两道题,并完成实验报告。四、上机选做练习题1、下面是30名学生对食堂情况的反馈问卷,根据问卷内容完成对SPSS数据文件变量的设计。(1)你在食堂用餐时认为下面内容的重要程度如何完全不重要 一般

42、非常重要 1 2 3 4 5 6 7卫生饭量等待时间味道亲切(2)你每周去这个食堂几次?(3)性别(1男,2女)2、根据成绩表.sav中的数据,按90以上(包括90)、8090(包括80)、7080(包括70)、6070(包括60)及60以下的标准,对现代企业管理的成绩进行重新编码,用优、良、中、及格和不及格表示。第二单元 描述统计与基本统计分析统计描述是对所收集的数据资料进行加工整理、综合概括,通过图示、列表和计数对资料进行分析和描述。但统计描述只能对统计数据的结构和总体情况进行描述,并不能深入了解统计数据的内部规律。统计描述主要分三方面的内容:单变量截面数据的描述;相对数的统计描述;双变量

43、截面数据的描述。描述性统计分析是统计分析的第一步,做好这一步是进行正确的统计推断的先决条件。SPSS的许多模块均可进行描述性统计,但专门为该目的而设计的模块集中在Descriptive Statistics菜单中。有五个过程:Frequencies过程的主要功能是产生频数表;Descriptive 过程则是一般性的统计描述;Explore过程用于对数据概括不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验;Ratio过程描述了两个定比变量的比率。实验二 单变量截面数据的描述性分析一、实验目的1、能够应用SPSS完成描述统计量的计算:计算算术平均数、中位

44、数、众数;计算全距、四分位间距、标准差、方差等,并根据统计指标对数据分布给予解释;2、能够做出数据的频数分布表,并利用频数分布表解决问题;3、能够完成统计图的绘制(主要包括直方图、箱图、茎叶图等),并作出合理的解释;4、能根据统计指标的含义解决实际问题。二、实验原理及步骤讲解(一)单变量截面数据的描述统计概述单变量截面数据又称一维变量,是指总体各单位所承载的某一数据标志的一系列观察结果。一维变量的统计数据经过整理后,形成了次数分布的各种图表,这些图表在一定程度上已经表现了一组数据的分布规律和特征。如果仔细观察这些数据就可以发现,即使在同一组内,一方面各种数据存在参差不齐,另一方面各种数据又有集

45、中在某一个数值周围的趋势,这就是单变量截面数据次数分布的三个重要特征:集中趋势、离散趋势及偏态和峰度。1、集中趋势频数分布数列中各观察值有一种向中心集中的趋势,在中心附近的观察值数目较多,远离中心的较少,这称为集中趋势。常用的集中趋势的指标是:众数、中位数、均值。众数:在数据分布中出现最多的变量的值。它代表数据集中程度。对于不分组的资料,确定众数意义不大,甚至没意义。中位数:中位数就是一组n个数据的资料, x1,x2xn,若按大小顺序排列,处在数列的中点的数据。也就是说,把一个有序变量的全部数值分成数量相等的两部分,一半比它大,一半比它小。中位数是反映现象的一般水平和集中趋势的代表性数值。均值

46、:也称算术平均值,它是一个分布数列的全部值的和除以数列项数所得的商。均值是变量集中趋势的主要测量度,同时均值也是变量的重心,是变量规律性的反映。其中均值适用于正态分布和对称分布资料,对严重偏态的分布会失去其代表性,中位数适用于所有分布类型的资料。2、离散趋势离散趋势与集中趋势相反,离散趋势反映的是一组资料中各观测值之间的差异和离散程度。集中趋势和离散趋势的计量指标相反,离散趋势较小时,集中趋势指标的代表性就高。常用离散趋势指标有:方差和标准差、四分位间距、极差等。四分位间距是从小到大排序后的数列中的第三个四分位数和第一个四分位数之差。它避免了受极端值影响,但数据资料的利用率很低。方差和标准差:

47、四分位间距是用于有序变量的较为粗糙的离散趋势的计量,而方差和标准差是测量离散趋势的最重要、最常用的计量指标。其中方差和标准差只适用于正态分布资料,四分位间距适用于各种分布类型的资料。3、分布特征偏态和峰度的计量除了以上两种基本趋势之外,随着对数据特征的了解的深入,还应了解 数据应当是服从什么分布的。针对每一种分布类型,都可以由一系列的只来描述数据偏离分布的程度。例如对于正态分布,偏度系数、峰度系数反映当前数据偏离正态分布的严重程度。一般这些指标使用较少。偏度系数(skewness)是描述频数分布数列中各观察值是否对称地分布在中心两侧,或者说某一侧的观察值是否比另一侧的观察值对中心偏离得更远一些

48、。偏态系数小于0时,均值在众数左侧,是一种左偏的分布,图象左边有“小尾巴”;偏态系数大于0时,均值在众数右侧,是一种右偏的分布,图象右边有“小尾巴”;偏态系数等于0时,图形与正态分布图形相似,为对称形分布。峰度系数可描述频数分布数列中各观察值是否较为均匀地分布,还是侧重出现在中心附近。即描述次数分布曲线的高峰形态。峰越高尖,峰度值越大;峰越低阔,峰度值越小。峰度高低程度以正态分布为标准进行比较,正态分布的峰度系数为0,大于0者成为高狭峰,小于0者称为低阔峰。SPSS的许多模块都可以进行描述性分析,单变量截面数据的描述性分析的专门工具有三个:Frequencies、Descriptive和 Ex

49、plore,集中在Descriptive Statistics菜单中。其中Frequencies过程的特色是产生频数分布表,对分类资料和定量资料都适用;Descriptive过程进行一般性的统计描述,适用于定量资料;Explore过程用于对数据分布不清时的探索性分析,能给出各种可能用到的统计指标和统计图,适用于定量资料。下面分别介绍。(二)频数(Frequencies)过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数分布表设计的,它不仅能产生频数分布表,而且还能产生常用的条图、圆图等统计图。例2.1:根据调查问卷.sav中的数据,对年龄进行频数分析,你

50、能得到什么信息?AnalyzeDescriptive StatisticsFrequenciesVariable框:x7 *选入要分析的变量Statistics : Mean Median Std.deviation *要求计算均数、中位数和标准差 Percentiles:键入2.5:Add *要求计算P2.5和P97.5百分位数 Percentiles:键入97.5:Add Continue Charts Bar charts *做频数分布的直方图 ContinueOK 主要界面说明【主对话框】(见图2-1)1、Variable(s)框:用于选入需要进行描述的变量,若选入多个,系统会分别进行

51、分析。2、Display frequency tables:确定是否在结果中输出频数表,默认输出。图2-1 Frequencies过程主对话框【Statistics子对话框】(见图2-2)该对话框的功能为定义需要计算的各种描述统计量。(或以表格形式给出)1、Percentile Values复选框组:定义需要输出的百分位数,可计算四分位数,可以计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)或直接指定某个百分位数(Percentiles),本例就在其中直接指定输出P2.5和P97.5。2、Central tendenc

52、y复选框组:用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。图2-2 Statistics子对话框3、Dispersion复选框组:用于定义描述离散趋势的一组指标:标准差(Std. Deviation)、方差(Variance)、全距(Range)、最小值例Minimum)、最大值(Maximum)、标准误(S.E mean)。4、Distribution复选框组:用于定义描述分布特征的两个指:偏度系数(Skewness)和峰度系数(kurtosis)。5、Values are group midpoints:当输出的数据是分组频数数

53、据,并且具体数值是组中值时,选中该复选框以通知SPSS,这样它在计算各种百分位数的时候会将数据按频数表对待,而不会认为同一组内的数据取值都是组中值的大小。当然,如果你不计算百分位数,选不选它无所谓。【Charts子对话框】(见图2-3)该对话框用于设定所做的统计图。1、Chart type单选钮组:定义统计图类型,有四种选择:无、条图(Bar charts)、饼图(Pie charts)、直方图(Histograms)。其中直方图还可以选择是否加上正态曲线(With normal curve)。2、Chart Values单选钮组:当选择绘制条图和饼图时定义是按照频数还是按百分比做图(即影响纵

54、坐标刻度)。【Format子对话框】(见图2-4)用于定义输出频数表的格式,不过一般不用更改,使用默认设置即可。1、Order by单选钮组:定义频数表的排列次序,有四个选项:Ascending values:根据数值按升序从小到大作频数分布。Descending values:根据数值按降序从大到小作频数分布。Ascending counts:根据频数按升序从少到多作频数分布。Descending counts:根据频数按降序从多到少作频数分布。 图2-3 Charts子对话框 图2-4 Format子对话框2、Multiple variables单选钮组:如果选择了两个以上变量做频数表,则

55、Compare variables可以将它们的结果在同一个频数表过程输出结果中显示,便于互相比较;Organize output by variables则将结果在不同的频数表中显示结果。主要结果解释Statistics年龄 NValid28 Missing2Mean32.21Median31.00Std. Deviation5.724Skewness.386Std. Error of Skewness.441Kurtosis-.240Std. Error of Kurtosis.858Percentiles2.522.00 2528.00 5031.00 7535.00 97.545.00上

56、表输出了各种统计量,表格做上方指分析的变量为年龄,有效人数为28人 (即对年龄应答人数),缺失值2(有2人没对年龄作回答),平均年龄为32.21岁,中位数为31,均值和中位数相差不大,说明数据分布应该基本对称;标准差为5.724岁;峰度系数为-0.240, 表示正偏,即图象右边有小尾巴。表格最下方为五个百分位数。年龄 FrequencyPercentValid PercentCumulative PercentValid2213.33.63.6 2313.33.67.1 2513.33.610.7 2613.33.614.3 2713.33.617.9 28310.010.728.6 3041

57、3.314.342.9 31310.010.753.6 3226.77.160.7 3413.33.664.3 35413.314.378.6 3713.33.682.1 3913.33.685.7 4013.33.689.3 4113.33.692.9 4213.33.696.4 4513.33.6100.0 Total2893.3100.0 MissingSystem26.7 Total30100.0 上表为对年龄做的频数分布表,Valid右侧为原始值,为频数,Percent为各组频数占总例数的百分比(包括缺失值),Valid Percent为各组频数占总例数的有效百分比(即不包括缺失值)

58、,Cumulative Percent,各组频数占总例数的累积百分比,如89.3表示40岁以下的人占总人数的89.3%。SPSS的频数分布表是按单个值给出的频数分布和累积频数分布,而不能按某种要求确定组距和组数,所以它更适合对离散变量做频数分析,对于连续变量做频数分析意义不太大。如果想用Frequencies过程得到分组的频数分布表,可以先用Recode过程产生一个新变量代表所需的各组段,再对该新的分类变量做频数表。图2-5 直方图上图为直方图,可见数据基本上呈正态分布,图上曲线为正态曲线,可以把直方图与理论上的正态曲线作比较。右侧为年龄的均值、标准差和有效例数。实例引申把分析变量该成x1(对

59、家庭的满意程度),则得到的频数表为:对家庭的满意程度 FrequencyPercentValid PercentCumulative PercentValid很不满意310.010.010.0 不满意1033.333.343.3 一般826.726.770.0 满意620.020.090.0 很满意310.010.0100.0 Total30100.0100.0 这是一张分类变量的频数表,可见对家庭很不满意的人占10%,不满意的人占33.3%,无所谓的占26.7%,累计占到70%,说明现代社会人们对家庭的满意程度上并不是很理想。相对于连续变量的频数表,分类变量的频数表更有意义。(三)Descr

60、iptive 过程Descriptive 过程是连续资料统计描述应用最多的过程,它对变量进行描述性统计分析,计算出一系列的统计指标。AnalyzeAnalyzeDescriptive StatisticsDescriptiveVariable框:x10 *选入要分析的变量月收入OK主要界面介绍【主对话框】(见图2-6)1、Variables框:用于选入需要进行描述的变量,如果选入多个,系统会对它们依次进行描述,并输出在同一张表格里。2、 standardized values as variables: 确定是否要将原始数据进行标准正态变换并存为新变量。当要把数据进行标准正态变换时这是一个非常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论