spss简介和基本操作_第1页
spss简介和基本操作_第2页
spss简介和基本操作_第3页
spss简介和基本操作_第4页
spss简介和基本操作_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS应用应用1:基本知识:基本知识 1. SPSS简介简介2. SPSS菜单命令菜单命令3. SPSS数据文件的建立:变量定义及数数据文件的建立:变量定义及数据录入据录入4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作SPSS的基本知识的基本知识SPSSSPSS的发展的发展1.1SPSSSPSS的版本的版本1.2SPSSSPSS的运行方式的运行方式1.3SPSSSPSS的启动、主界面和退出的启动、主界面和退出1.41. SPSS简介简介SPSSSPSS是世界著名的统计分析软件之一。经近是世界著名的统计分析软件之一。经近4040余年的发展,在全球已拥有大量的用户。目余年的发

2、展,在全球已拥有大量的用户。目前,前,SPSSSPSS使用使用WindowsWindows的窗口方式展示各种管的窗口方式展示各种管理和分析数据的方法,可方便地用于特定的科理和分析数据的方法,可方便地用于特定的科研统计。概要介绍研统计。概要介绍SPSSSPSS的发展、主要版本、运的发展、主要版本、运行方式、启动与退出以及帮助系统的使用。行方式、启动与退出以及帮助系统的使用。 1968年,年,3位美国斯坦福大学的学生开发了最早的位美国斯坦福大学的学生开发了最早的SPSS系统,并基于这一系统于系统,并基于这一系统于1975年在芝加哥合伙成立了年在芝加哥合伙成立了SPSS公公司。司。 SPSS的基本功

3、能包括数据管理、统计分析、图表分析、输的基本功能包括数据管理、统计分析、图表分析、输出管理等。出管理等。 SPSS最初名为社会学统计软件包(最初名为社会学统计软件包(Solutions Statistical Package for the Social Sciences),这是为了强调其社会科学),这是为了强调其社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学和概率论的定理来进行研究)。要使用统计学和概率论的定理来进行研究)。 但是随着但是随着SPSS产品服务领域的扩大和服务深度的增加,产品服务领域的扩大和服务深度的

4、增加,SPSS公司已于公司已于2000年正式将英文全称更改为年正式将英文全称更改为“统计产品与服统计产品与服务解决方案务解决方案” (Statistical Product and Service Solutions)。)。 到目前为止,到目前为止,SPSS已成为适合于已成为适合于DOS,Windows,UNIX,Macintosh及及OS/2等多种操作系统使用的产品,国等多种操作系统使用的产品,国内常用的是其适用于内常用的是其适用于DOS和和Windows的版本。的版本。SPSS for DOS通常称为通常称为SPSS/PC+,现已较少使用。,现已较少使用。 2009年年4月月9日日 美国芝

5、加哥美国芝加哥SPSS公司宣布重新包装旗下的公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件产品线,定位为预测统计分析软件(Predictive Analytics Software) PASW,IBM于于2009年年7月月28日宣布以日宣布以12亿美元收购亿美元收购SPSS公司,公司,SPSS正式成为正式成为IBM Information Management产品线下品牌。产品线下品牌。 2010年:随着年:随着SPSS公司被公司被IBM公司并购公司并购,各子产品家族名各子产品家族名称前面不再以称前面不再以PASW为名为名,修改为统一加上修改为统一加上IBM SPSS字样。字样。

6、 SPSS版本升级在近几年非常快,目前市场上已出现版本升级在近几年非常快,目前市场上已出现IBM SPSS Statistics 21.0。 spss17.0版本占用空间小且运行版本占用空间小且运行快,非常适合使用。快,非常适合使用。 PASW 18.0具有过度性,具有过度性, IBM SPSS Statistics 19.0在最新教材中开始使用。在最新教材中开始使用。19.0是多国语言版。是多国语言版。 SPSS的系列产品有的系列产品有 SPSS Statistics (统计分析软件),(统计分析软件),SPSS Collection(数据收集产品),(数据收集产品),SPSS Modele

7、r(数据(数据挖掘产品)等。挖掘产品)等。SPSS功能强大,在国际学术界有条不成文功能强大,在国际学术界有条不成文的规定,即在国际学术交流中,凡是使用的规定,即在国际学术交流中,凡是使用SPSS完成的计算完成的计算和统计分析,可以不说明算法,可见该软件的影响之大和和统计分析,可以不说明算法,可见该软件的影响之大和信誉之高。信誉之高。SPSSSPSS主要有主要有3 3种运行方式:种运行方式:n完全窗口菜单运行方式:录入数据后,大部完全窗口菜单运行方式:录入数据后,大部分操作和统计方法的实现都是通过菜单、图分操作和统计方法的实现都是通过菜单、图标和对话框来完成标和对话框来完成n批处理方式和程序运行

8、方式是从使用者的特批处理方式和程序运行方式是从使用者的特殊的分析需求出发,编写殊的分析需求出发,编写SPSSSPSS命令程序,通命令程序,通过语句直接运行的。过语句直接运行的。1.4.1 安装与安装与启动启动SPSS SPSS SPSS安装完毕后,系统会自动在安装完毕后,系统会自动在WindowsWindows菜单中创建快捷方式菜单中创建快捷方式。1.4.2 SPSS的数据编辑窗口的数据编辑窗口 SPSS SPSS主界面主要有两个,一个是主界面主要有两个,一个是SPSSSPSS数数据编辑窗口,另一个是据编辑窗口,另一个是SPSSSPSS输出窗口。输出窗口。 数据编辑窗口由标题栏、菜单栏、工具栏

9、、数据编辑窗口由标题栏、菜单栏、工具栏、编辑栏、变量名栏、内容区、窗口切换标签页编辑栏、变量名栏、内容区、窗口切换标签页和状态栏组成,如图和状态栏组成,如图1-21-2所示。所示。 标题栏 菜单栏 编辑栏 变量名栏 内容区 窗口切换标签页 状态栏 工具拦 该窗口下方有两个标签:该窗口下方有两个标签:“Data View”Data View”(数据视图)和(数据视图)和“Variable View”Variable View”(变量视(变量视图)。图)。 如果使用过电子表格,如如果使用过电子表格,如Microsoft Microsoft ExcelExcel等,那么数据编辑窗口中等,那么数据编辑

10、窗口中“Data View”Data View”所对应表格许多功能应该已经熟悉。但是它和所对应表格许多功能应该已经熟悉。但是它和一般的电子表格处理软件还有以下区别。一般的电子表格处理软件还有以下区别。 (1 1) 一个列对应一个变量,即每一列代一个列对应一个变量,即每一列代表一个变量(表一个变量(VariableVariable)或一个被观测量的)或一个被观测量的特征。例如问卷上的每一项就是一个变量。特征。例如问卷上的每一项就是一个变量。 (2 2) 行是观测,即每一行代表一个个体、行是观测,即每一行代表一个个体、一个观测、一个样品,在一个观测、一个样品,在SPSSSPSS中称为事件中称为事件

11、/ /个个案(案(CaseCase)。例如,问卷上的每一个人就是一)。例如,问卷上的每一个人就是一个观测。个观测。 (3 3)单元包含值,即每个单元包括一个)单元包含值,即每个单元包括一个观测中的单个变量值。单元(观测中的单个变量值。单元(CellCell)是观测和)是观测和变量的交叉。变量的交叉。 (4 4)数据文件是一张长方形的二维表。)数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据,数据文件边界以外键入数据,SPSSS

12、PSS将数据长方将数据长方形延长到可包括那个单元和文件边界之间的任形延长到可包括那个单元和文件边界之间的任何行和列。何行和列。1.4.3 SPSS结果输出窗口结果输出窗口 SPSS SPSS结果输出窗口名为结果输出窗口名为ViewerViewer,它是显,它是显示和管理示和管理SPSSSPSS统计分析结果、报表及图形的窗统计分析结果、报表及图形的窗口。可以将此窗口中的内容以结果文件口。可以将此窗口中的内容以结果文件.spv.spv的的形式保存。形式保存。 结果输出部分分成左右两个部分,左边部分是索引结果输出部分分成左右两个部分,左边部分是索引输出区,用于显示已有的分析结果标题和内容索引;右输出

13、区,用于显示已有的分析结果标题和内容索引;右边部分是各个分析的具体结果,称为详解输出区。这和边部分是各个分析的具体结果,称为详解输出区。这和WordWord的文档结构视图十分类似。编辑输出的表格时,可的文档结构视图十分类似。编辑输出的表格时,可以双击在输出窗口中显示,也可以在点以双击在输出窗口中显示,也可以在点“透视透视透视托透视托盘盘”在新的窗口显示。编辑图形可以双击或者点右键选在新的窗口显示。编辑图形可以双击或者点右键选择择 索引输出区 详解输出区 1.4.4 退出退出SPSS 选择数据编辑窗口的选择数据编辑窗口的“File”File”菜单中的菜单中的“Exit”Exit”命令,或单击标题

14、栏上的命令,或单击标题栏上的“关闭关闭”按按钮退出钮退出SPSSSPSS。1.4.5 有关统计方法指导有关统计方法指导 SPSSSPSS对一些基本模块中的统计提供了对一些基本模块中的统计提供了StatisticsStatistics CoachCoach帮助,也就是帮助,也就是“手把手手把手”式的指导式的指导2. SPSS菜单命令菜单命令2.1 基本菜单栏单栏名称基本用途File文件操作Edit文件编辑View视图编辑Data数据操作数据操作Transform数据转换数据转换Analyze统计分析方法统计分析方法Diect Marketing直销分析Graphs 图形编辑图形编辑Utiliti

15、es实用程序Add-ons附加程序Windows窗口控制Help帮助SPSS中英文界面的转换中英文界面的转换当首次安装软件时,当首次安装软件时,SPSS界面为英文显示,此时可界面为英文显示,此时可以采用如下方法将其转换为中文界面。以采用如下方法将其转换为中文界面。1. 选择菜单栏中的【选择菜单栏中的【Edit(编辑编辑)】菜单中的】菜单中的【Option(选项选项)】命令。】命令。 2.2.在弹出的对话框的在弹出的对话框的【User Interface(用户界面用户界面)】选项卡的【选项卡的【Language(语言语言)】选项组中点选】选项组中点选【Simplified Chinese(简体中

16、文简体中文)】单选钮,表】单选钮,表示选定软件中文界面显示。示选定软件中文界面显示。3.3.最后单击【最后单击【OK(确定确定)】按钮,表示】按钮,表示SPSS软件的界软件的界面语言转换过程结束。面语言转换过程结束。 如果需要从中文界面转换为英文界面,也可按照上如果需要从中文界面转换为英文界面,也可按照上述操作来实现。述操作来实现。3. SPSS的数据文件建立的数据文件建立变量定义及数据录入变量定义及数据录入3.1 变量的定义变量的定义3.2 创建和读取创建和读取SPSS数据文件数据文件3.3 变量及数据显示的相关设置变量及数据显示的相关设置3. SPSS的变量定义及数据录入的变量定义及数据录

17、入1.SPSS数据的属性及其定义方法 一个完整的一个完整的SPSS数据结构包括数据结构包括: 变量名、变量类型、变量名、变量类型、变量取值的长度变量取值的长度、变量名标签、变量的小、变量名标签、变量的小数点位数、变量名的标签、变量值的标签、缺失值的定义、数点位数、变量名的标签、变量值的标签、缺失值的定义、变量在数据窗口显示的长度、变量在数据窗口显示的长度、变量在数据格中的对齐方式、变量在数据格中的对齐方式、度量的尺度(变量取值的测量类型)、度量的尺度(变量取值的测量类型)、角色角色(定义变量在后(定义变量在后继分析中的功能作用,目标:输出变量;分区:划分样本)继分析中的功能作用,目标:输出变量

18、;分区:划分样本)3.1 变量的定义变量的定义3.1.1 变量名 首字符必须是字母或汉字,后面可以是除首字符必须是字母或汉字,后面可以是除(!、?、?*)之外的任之外的任意字符。意字符。 变量名的结尾不能是圆点、句点、下划线变量名的结尾不能是圆点、句点、下划线 变量名的长度:版本差异变量名的长度:版本差异 变量名必须唯一,不可以有空格,不区分大小写变量名必须唯一,不可以有空格,不区分大小写 SPSS的保留字不能作为变量名(的保留字不能作为变量名(ALL、NE、LE、BY、GE、EQ、GT、AND、OR、NOT、WITH等)等) 如不指定变量名,则系统默认变量名以如不指定变量名,则系统默认变量名

19、以VAR开头后面跟开头后面跟5个个数字数字 为了便于记忆和理解,变量名与其所代表的具体含义最好一为了便于记忆和理解,变量名与其所代表的具体含义最好一致。致。3.1.2 变量的类型(Type) 数值型数值型:根据其功能和形式又可细分为根据其功能和形式又可细分为(标准数值型、逗号标准数值型、逗号型、句点型、科学计数型、美元型和自定义货币型型、句点型、科学计数型、美元型和自定义货币型)默认默认长度为长度为8,小数位数为,小数位数为2 字符串型字符串型 日期型日期型系统默认为标准数值型系统默认为标准数值型(1) 数值型变量 标准型标准型:是是SPSS默认的类型,宽度默认的类型,宽度8、小数点、小数点2

20、、小数点用圆、小数点用圆点。点。 科学计数类型:适合数值很大或很小的变量科学计数类型:适合数值很大或很小的变量,变量显示为指数变量显示为指数形式。如:形式。如:-1.28E+002表示表示-1.28102 逗号型逗号型(comma ):整数部分从右到左每三位用,分割:整数部分从右到左每三位用,分割 圆点型圆点型(Dot):整数部分从右到左每三位用:整数部分从右到左每三位用.分割,小数点用,分割,小数点用,表示表示 美元型美元型(Dollar) 自定义货币型自定义货币型(2) 日期型变量(Date) 用于表示日期和时间的变量类型用于表示日期和时间的变量类型SPSS提供提供了多达了多达29种日期型

21、变量的格式种日期型变量的格式.(3) 字符型变量(String) 是非数值型变量类型是非数值型变量类型,其值是由字符串组成其值是由字符串组成的的.对其定义的对话框只有一个输入项,不对其定义的对话框只有一个输入项,不参与运算,且区分大小写参与运算,且区分大小写(4) 修改数据变量的默认值 对于对于SPSS变量的参数变量的参数,系统都会自动给出系统都会自动给出默认值默认值.也可通过也可通过Edit菜单中的菜单中的Data对话框对话框重新设置重新设置点击3.1.3 变量标签(Label) 变量名标签(变量名标签(variable label) 对变量名含义的进一步补充说明。对变量名含义的进一步补充说

22、明。 变量值标签(变量值标签(alue Label) 是对数值型变量各个取值的含义给予进一步是对数值型变量各个取值的含义给予进一步的解释和说明的解释和说明3.1.4 变量缺失数据(missing value) 系统默认无缺失值:如当前变量测试值、记录完全正确、系统默认无缺失值:如当前变量测试值、记录完全正确、无遗漏,则可用无缺失值。无遗漏,则可用无缺失值。离散缺失值:如性别0、3、4都是非法的,可分 别填入点击 定义缺失值范围:这种缺失值针对连续的变量值。当指定定义缺失值范围:这种缺失值针对连续的变量值。当指定某一范围的值出现在当前定义的变量中,则被当作缺失值某一范围的值出现在当前定义的变量中

23、,则被当作缺失值处理。如在性别变量值中输入了处理。如在性别变量值中输入了3、4、5、6。可以在。可以在LOW后面输入后面输入3,HIGHT后面输入后面输入6。注意这个定义范围。注意这个定义范围内不能有合法值内不能有合法值。”0“就是包括不了的离散值 如果不能明确数据中如果不能明确数据中可能存在的缺失值,可能存在的缺失值,可以选择可以选择“数据数据定义变量属性定义变量属性”来确来确认。认。 SPSS默认缺失值用默认缺失值用一个圆点表示一个圆点表示3.1.5 度量标准 度量(度量(S):定距):定距 (scale)以上尺度,包括定距和定比尺度以上尺度,包括定距和定比尺度,可以表示如温度、重量等含义

24、的可以表示如温度、重量等含义的连续性连续性数值变量数值变量,也可以表也可以表示年龄、次数等离散型变量示年龄、次数等离散型变量.还可以表示时间的日期变量或还可以表示时间的日期变量或者货币的货币型变量者货币的货币型变量,但不能是字符型变量但不能是字符型变量. 序号(序号(O):定序尺度):定序尺度(ordinal),其值表示一种顺序的前后,其值表示一种顺序的前后,如职称变量可分为高中低三个档次如职称变量可分为高中低三个档次,可用可用A(1)、B(2)、C(3)表示,定序型变量可以是数值型也可以字符型表示,定序型变量可以是数值型也可以字符型 名义名义(N):即定类尺度:即定类尺度(nominal)

25、,该变量不存在变量值之,该变量不存在变量值之间的大小、顺序的前后等。只表示属于的类别。如性别中间的大小、顺序的前后等。只表示属于的类别。如性别中“1”表示男,表示男,“2”表示女等表示女等,可以是数值型也可以字符型可以是数值型也可以字符型3.2 创建和读取SPSS数据文件 SPSS数据文件由数据数据文件由数据结构结构和数据和数据内容内容构成,构成, 结构规定了数据文件的基本构成属性结构规定了数据文件的基本构成属性 (变量名、变量类型、变量名标签、变量值变量名、变量类型、变量名标签、变量值标签、缺失值定义、度量尺度及数据显示标签、缺失值定义、度量尺度及数据显示属性如宽度列宽度和对齐方式等属性如宽

26、度列宽度和对齐方式等) 如一个班考试成绩表包含姓名、考号、各科科目成绩(英语、数如一个班考试成绩表包含姓名、考号、各科科目成绩(英语、数学、政治、专业)等六个变量。对每一个变量定义其属性,如学、政治、专业)等六个变量。对每一个变量定义其属性,如“姓名姓名”变量定义为字符型、宽度定义为变量定义为字符型、宽度定义为8个字符,度量尺度为定类型,由于个字符,度量尺度为定类型,由于变量含义清楚,无须定义变量标签和变量值标签,缺失值默认为变量含义清楚,无须定义变量标签和变量值标签,缺失值默认为03.2 创建和读取SPSS数据文件1. 在在“变量视图变量视图”窗口定义变量及其变量的窗口定义变量及其变量的属性

27、属性2.在在“数据视图数据视图” 窗口录入数据文件的内容窗口录入数据文件的内容 浏览数据文件变量名的三种方法浏览数据文件变量名的三种方法 在在Variable View视区中浏览视区中浏览 在在SPSS菜单中选择实用程序菜单中选择实用程序Utilities Varibles 在在SPSS主界面选择主界面选择File Display Date File information3. 2 创建和读取SPSS数据文件 当变量的属性定义完成后就可以开始进行当变量的属性定义完成后就可以开始进行数据的输入数据的输入 切换窗口从切换窗口从Variables View Date View出出现了二维的空白表格如

28、现了二维的空白表格如Excel(见见03 Date1) Enter输入一列相同参数输入一列相同参数 Tab 输入一行同一案例的数据输入一行同一案例的数据Shift+Tab光标左移光标左移 多项选择题的变量定与编码多项选择题的变量定与编码 不定项选择:每个选项看作一个变量,选则编码为不定项选择:每个选项看作一个变量,选则编码为1,不选则编码为不选则编码为0 定项选择:限选几项就定义几个变量,编码与单项定项选择:限选几项就定义几个变量,编码与单项选择一样选择一样 排序题:根据参与排序的选项数目定义变量个数,排序题:根据参与排序的选项数目定义变量个数,编码与单项选择一样编码与单项选择一样 开放式问题

29、的编码:时候抽查部分问卷结果确定开放式问题的编码:时候抽查部分问卷结果确定 缺失值编码:没有回答的问题,用研究者容易识别缺失值编码:没有回答的问题,用研究者容易识别的数字表示的数字表示SPSS数据的编辑 保证录入的数据准确无误保证录入的数据准确无误,需要对需要对SPSS数数据进行修改、删除、插入、复制、定位等据进行修改、删除、插入、复制、定位等操作。操作。3.2 创建和读取SPSS数据文件 缺失值的处理方法缺失值的处理方法:转换:转换替换缺失值替换缺失值 删除法:删除所有缺失值,但会减少样本容量删除法:删除所有缺失值,但会减少样本容量 插补法:在计算相关系数时,去掉这些位置上的插补法:在计算相

30、关系数时,去掉这些位置上的缺失数据上的点,以最可能的值来插补缺失值。缺失数据上的点,以最可能的值来插补缺失值。信息缺失少信息缺失少该变量的所有非缺失值的均数做替代用缺失值相邻点的非缺失值的均数做替代用缺失值相邻点的非缺失值的中位数做替代用该列数据缺失值前一个数据和后一个数据建立插值直线,然后用缺失点在线性插值函数的函数值填充该缺失值应用缺失值所在的整个序列建立线性回归方程,然后用该回归方程在缺失点的预测值填充缺失值 例:对例:对“就业意愿就业意愿.Sav”数据中的工资缺失数据中的工资缺失值进行替换值进行替换 执行如下操作,在数据窗口中会出现一个执行如下操作,在数据窗口中会出现一个无缺失值的新变

31、量无缺失值的新变量选择进入缺失值分析的变量分析时按列表排除个案按配对的方式对缺失值进行分析用Expectationt Maxiumum方法对缺失值进行修补用线性回归的方法对对缺失值进行修补 缺失值的分析方法缺失值的分析方法:分析:分析缺失值分析缺失值分析3.2 创建和读取SPSS数据文件1. 直接通过直接通过SPSS数据编辑窗口定义变量输数据编辑窗口定义变量输入数据(如前所述)入数据(如前所述)2. 通过打开不同格式的数据文件,间接创建通过打开不同格式的数据文件,间接创建SPSS数据文件。数据文件。 支持支持*.doc,*.xls,*.txt等等保存SPSS数据 经读取、修改后把经读取、修改后

32、把SPSS窗口的数据以数据窗口的数据以数据文件的形式保存到外部的储介质中。文件的形式保存到外部的储介质中。3. 2创建和读取SPSS数据文件3.3变量及数据显示的相关设置变量及数据显示的相关设置 编辑编辑选项选项3.3 变量显示的相关设置变量显示的相关设置在数据窗口在数据窗口及分析窗口及分析窗口顺序显示的顺序显示的规则规则角色设置:输角色设置:输入(自变量),入(自变量),输出(因变输出(因变量),分区量),分区(区分、检验、(区分、检验、验证样本,无验证样本,无(无角色分配)(无角色分配)设置单元格设置单元格的度量单位的度量单位程序运行结程序运行结果显示方式果显示方式设置输出文设置输出文字的

33、字体、字的字体、颜色、大小颜色、大小等等设置数据处设置数据处理过程的更理过程的更新方式、新新方式、新变量的显示变量的显示格式、随机格式、随机数的生成等数的生成等先挂起,先挂起,下次用到下次用到再计算,再计算,可加快速可加快速度度新的生成新的生成器器设置输出结果中设置输出结果中的标签选项(可的标签选项(可以方便的观察个以方便的观察个变量的实际意义)变量的实际意义)设置输出窗口设置输出窗口的图形默认参的图形默认参数:比例、边数:比例、边框、线形、颜框、线形、颜色、填充方式色、填充方式等等指定新输出图指定新输出图表的填充方式表的填充方式图表边框图表边框设置设置即:要点表,即:要点表,能方便地改变能方

34、便地改变表格行、列的表格行、列的交叉显示方式交叉显示方式设置枢纽表的设置枢纽表的显示风格、调显示风格、调整列款方式和整列款方式和编辑模式等编辑模式等最近使用的文件列表,最近使用的文件列表,在文件下拉菜单在文件下拉菜单最近使用的文件的显最近使用的文件的显示数量示数量为缺失值的标记和生为缺失值的标记和生成可能的数值进行设成可能的数值进行设定定4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作 4.1 个案标识个案标识4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作 4.1 个案标识个案标识 数据检查

35、,识别无效个案、变量或数值,并采取数据检查,识别无效个案、变量或数值,并采取纠偏措施,标识出异常个案纠偏措施,标识出异常个案 (1)数据验证:)数据验证:数据数据验证验证验证数据验证数据 首先要定义验证规则首先要定义验证规则 单变量规则:对单一变量的特定检查(单变量规则:对单一变量的特定检查(SPSS提提供了一些单变量验证规则)供了一些单变量验证规则) 交叉变量规则:变量之间关系,逻辑表达式交叉变量规则:变量之间关系,逻辑表达式 操作:操作: (2)标识重复个案:)标识重复个案:数据数据标识重复个案标识重复个案 (3)标识异常个案:)标识异常个案:数据数据标识异常个案标识异常个案4. SPSS

36、数据的预处理:一些基本操作数据的预处理:一些基本操作u4.2 个案排序:个案排序:数据数据排序个案排序个案 按照某个变量进行排序:于数据的浏览,有助于了按照某个变量进行排序:于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等;快捷的解数据的取值状况、缺失值数量的多少等;快捷的找到数据的最值,进而可计算数据的全距,初步把找到数据的最值,进而可计算数据的全距,初步把握离散程度;发现数据的异常值等。握离散程度;发现数据的异常值等。 举例:将举例:将“休闲调查休闲调查”数据文件按照数据文件按照“年龄年龄”和和“住房住房面积面积”两个变量重新排序。两个变量重新排序。 应用举例:应用举例: 200

37、5GDP2005GDP. .savsav列出了列出了20052005年我国部分省份的地区年我国部分省份的地区生产总值及第一产业、第二产业和第三产业的生产总值,请生产总值及第一产业、第二产业和第三产业的生产总值,请根据这些数据分析不同省份经济发展状况的差异性。根据这些数据分析不同省份经济发展状况的差异性。 4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.3 变量排列:变量排列:数据数据排列变量排列变量 操作与个案排序相似操作与个案排序相似选择之后可以形成一个新变量,用于恢复原来的变量排序4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.4 数据文件的

38、转置:数据文件的转置:数据数据转置转置u对社会调查结果的分析,有时既需要对变量对社会调查结果的分析,有时既需要对变量进行分析,也需要对个案进行分析。进行分析,也需要对个案进行分析。SPSS主主要是针对变量进行分析的,而需要对个案进行要是针对变量进行分析的,而需要对个案进行分析时,需要先把个案转变成变量。分析时,需要先把个案转变成变量。u转置之后会形成一个新的数据文件转置之后会形成一个新的数据文件u例:对数据文件例:对数据文件“休闲调查休闲调查1”中的中的“满意度满意度1”、至、至“满意度满意度7”、进行转置。、进行转置。名称变量:可以使数据文件中的序号变量,也可以使在每个个案上取值都是名称变量

39、:可以使数据文件中的序号变量,也可以使在每个个案上取值都是唯一的变量。在转置后的文件中,名称变量的值称为新变量的变量名。唯一的变量。在转置后的文件中,名称变量的值称为新变量的变量名。4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.5 合并文件:合并文件:数据数据合并文件合并文件u添加个案:即观测量合并,添加个案:即观测量合并,将两个文件的个案合并将两个文件的个案合并在一起,具体事把外部文件的与当前工作文件具有在一起,具体事把外部文件的与当前工作文件具有相同变量的观测量添加到当前工作文件中相同变量的观测量添加到当前工作文件中u添加变量:添加变量:将两个文件的变量合并在一起

40、将两个文件的变量合并在一起n直接合并:直接合并:n按关键变量合并:按关键变量合并:注意:按某一关键变量进行合并,需要先对两个数注意:按某一关键变量进行合并,需要先对两个数据文件按照该关键变量进行升序排序据文件按照该关键变量进行升序排序4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.5合并合并 文件:文件:数据数据合并文件合并文件 例例1 1:将:将“休闲调查休闲调查1”1”和和 “ “休闲调查休闲调查2”2”中的个案中的个案合并,合并过程中对不匹配的变量要作出处理(进合并,合并过程中对不匹配的变量要作出处理(进入新变量入新变量oror不进入)不进入) 例例2 2:已知:

41、已知固定投资固定投资1.sav1.sav、固定投资固定投资2.sav2.sav和和固定投固定投资资3.sav3.sav中的数据是部分省市在中的数据是部分省市在20052005年部分行业的固年部分行业的固定投资额(亿元)数据,分别执行个案合并(定投资额(亿元)数据,分别执行个案合并( 固定固定投资投资1.sav+1.sav+固定投资固定投资2.sav2.sav,省份不同但行业类型相,省份不同但行业类型相同)和变量合并(同)和变量合并( 固定投资固定投资1.sav1.sav、固定投资固定投资3.sav3.sav,省份相同但行业类型不同省份相同但行业类型不同 )。)。非成对变量即两个数据非成对变量即

42、两个数据文件不匹配的变量,两文件不匹配的变量,两个文件中变量名不相同个文件中变量名不相同的变量,或者变量名虽的变量,或者变量名虽相同但变量定义不同的相同但变量定义不同的变量。变量。选中则生成一个新的变量,选中则生成一个新的变量,用于表明每个个案的来源:用于表明每个个案的来源:是来自当前文件还是外部是来自当前文件还是外部文件文件已排除的变量:两文件已排除的变量:两文件中的同名变量中的同名变量关键变量:两文件中的相关键变量:两文件中的相同变量(变量名、变量类同变量(变量名、变量类型、变量值排序完全相同)型、变量值排序完全相同)4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.

43、64.6分割文件:数据分割文件:数据拆分文件拆分文件 (为了后继分析)(为了后继分析)u两种分割形式:两种分割形式:n比较组:分割之后,进行其它分析,输出分析结比较组:分割之后,进行其它分析,输出分析结果时,果时,各组分析结果放在同一表格中各组分析结果放在同一表格中,可对比,可对比n按组织输出:分割之后,进行其它分析,输出分按组织输出:分割之后,进行其它分析,输出分析结果时,析结果时,单独显示每一分组的分析结果单独显示每一分组的分析结果u 举例:将举例:将“职工工资职工工资.sav.sav”数据数据按按“行业类型行业类型”变量进行分割,并分别统计不同组的平均值变量进行分割,并分别统计不同组的平

44、均值u将将“休闲调查休闲调查1.sav”1.sav”数据数据按按“性别性别”变量进行分割变量进行分割可以选择多个变量进入可以选择多个变量进入4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.7数据重组:数据重组:数据数据重组重组 分析数据时,常常需要分析变量随着某分析数据时,常常需要分析变量随着某个条件如何变化,而在数据文件中关于个条件如何变化,而在数据文件中关于变量的信息可能位于多个列中,关于个变量的信息可能位于多个列中,关于个案的信息可能位于多个行中。如果分析案的信息可能位于多个行中。如果分析所需要的数据结构与当前的数据文件中所需要的数据结构与当前的数据文件中的结构不

45、符合,则就需进行重组来变换的结构不符合,则就需进行重组来变换数据结构。数据结构。4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u 4.7数据重组:数据重组:数据数据重组重组个案组结构:变量与因子记录在单独的列中,一个因子的每个水个案组结构:变量与因子记录在单独的列中,一个因子的每个水平占一行或不止一行,一个因子的若干水平称为一个个案组。在平占一行或不止一行,一个因子的若干水平称为一个个案组。在SPSSSPSS数据分析中,当数据以这种方式构造时,因子通常称为分组数据分析中,当数据以这种方式构造时,因子通常称为分组变量。(变量。(单因素方差分析、多因素方差分析、独立样本体检验等

46、单因素方差分析、多因素方差分析、独立样本体检验等)变量组结构:变量与因子记录在同一列中,一个因子的每个水平变量组结构:变量与因子记录在同一列中,一个因子的每个水平占一列,一个因素的若干列称为一个变量组。在占一列,一个因素的若干列称为一个变量组。在SPSSSPSS数据分析中,数据分析中,当数据以这种方式构造时,因子通常称为重复度量。(重复测量当数据以这种方式构造时,因子通常称为重复度量。(重复测量的方差分析、协方差分析、配对样本的方差分析、协方差分析、配对样本T T检验)检验)肥肥料料的的不不同同水水平平高高度度的的不不同同水水平平变量或因素变量或因素4. SPSS数据的预处理:一些基本操作数据

47、的预处理:一些基本操作 以文件以文件“西红柿西红柿.sav”为例为例 数据数据重组重组选择选择“将个案将个案重组为变量重组为变量”肥肥料料的的不不同同水水平平高高度度的的不不同同水水平平变量或因素变量或因素 选择个案组的标识符变量或索引变量选择个案组的标识符变量或索引变量用于标识个案组的用于标识个案组的变量,以便能将每变量,以便能将每个组合并到新文件个组合并到新文件的单独一行中的单独一行中用于组成新变量组的变量用于组成新变量组的变量 选择是否对当前数据进行排序。系统根据上一步选择选择是否对当前数据进行排序。系统根据上一步选择的标识符变量,每次遇到标识值的新组合时,将创建一个的标识符变量,每次遇

48、到标识值的新组合时,将创建一个新行,因此当前文件的个案应按标识符变量的值排序,顺新行,因此当前文件的个案应按标识符变量的值排序,顺序与序与“标识符变量标识符变量”列表中列出变量的顺序相同。列表中列出变量的顺序相同。 选择:是选择:是 下一步下一步 设置应用于重组数设置应用于重组数据文件的选项据文件的选项用于表明观测的一个值是用于表明观测的一个值是出现(出现(1)还是缺失()还是缺失(2)用于在心数据文件中创建行的用于在心数据文件中创建行的当前数据中的行数当前数据中的行数 完成操作完成操作 还可以反过来操作,还可以反过来操作,把变量组结构转换把变量组结构转换为个案组结构。不为个案组结构。不再讲解

49、!再讲解!用于表明观测的一个值是用于表明观测的一个值是出现(出现(1)还是缺失()还是缺失(2)用于在心数据文件中创建行的用于在心数据文件中创建行的当前数据中的行数当前数据中的行数4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.8 分类汇总:分类汇总:数据数据分类汇总分类汇总u 以指定分类变量的取值为依据,将另一个或多个变量按照以指定分类变量的取值为依据,将另一个或多个变量按照分类的结果进行统计,并将统计结果生成新的数据文件分类的结果进行统计,并将统计结果生成新的数据文件u 分类变量分类变量必须为必须为定序变量或定类变量定序变量或定类变量u 汇总变量汇总变量必须为必须为

50、定序及以上的数值型变量定序及以上的数值型变量u 例:对例:对“考试成绩考试成绩”中的各门课程按照中的各门课程按照“班级号班级号”分类,分类,以各科成绩的平均值为内容进行分类汇总以各科成绩的平均值为内容进行分类汇总u 将将“班级号班级号”进入到进入到“分组变量分组变量”中,将五门课程进入中,将五门课程进入到到“汇总变量汇总变量”中,此时激活下面的两个按钮:中,此时激活下面的两个按钮:“函数函数”,“变量名和标签变量名和标签”,这两个按钮就是要输出的汇总变量的描,这两个按钮就是要输出的汇总变量的描述统计内容。述统计内容。u 选定选定“个案数个案数”,命名文件,然后选择存放地址,命名文件,然后选择存

51、放地址决定了按照什么量合并4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作u4.9 选择个案选择个案/数据:数据筛选,选出符数据:数据筛选,选出符合需要的数据,分析时只对这些数据进合需要的数据,分析时只对这些数据进行分析。行分析。数据数据选择个案选择个案u 举例:在举例:在“休闲调查休闲调查1”中选择年龄中选择年龄50岁以上的个案岁以上的个案 ;从前;从前100个个案中随机个个案中随机选择选择30个个案;选择第个个案;选择第3到第到第6个个案;个个案;选择文化程度为过滤变量选择文化程度为过滤变量 在该变量中有在该变量中有缺失值的个案缺失值的个案将被过滤掉将被过滤掉4. SPS

52、S数据的预处理:一些基本操作数据的预处理:一些基本操作u4.10 数据加权:数据加权:数据数据加权个案加权个案u 加权操作对于列联表分析非常重要,在绘加权操作对于列联表分析非常重要,在绘制散点图、直方图以及回归分析等过程中都制散点图、直方图以及回归分析等过程中都非常重要。非常重要。u某经销商希望掌握菜市场的蔬菜销售的平均价格,某经销商希望掌握菜市场的蔬菜销售的平均价格,收集数据见数据文件收集数据见数据文件“蔬菜销售蔬菜销售.sav”。现请利用这。现请利用这些数据,求出这些蔬菜的平均价格。些数据,求出这些蔬菜的平均价格。 分析:由于经销商要求掌握蔬菜的平均价格,如果仅仅只分析:由于经销商要求掌握

53、蔬菜的平均价格,如果仅仅只用蔬菜的单价进行简单的算术平均是很不合理的,这是因用蔬菜的单价进行简单的算术平均是很不合理的,这是因为不同蔬菜的销售量不同,所以要考虑销售量对平均价格为不同蔬菜的销售量不同,所以要考虑销售量对平均价格的影响。因此,我们以蔬菜的销售量为权重计算各种蔬菜的影响。因此,我们以蔬菜的销售量为权重计算各种蔬菜销售的平均价格更为合适。销售的平均价格更为合适。 这里选择这里选择“销售量销售量”变量作为权重变量,将其放入频率变量作为权重变量,将其放入频率变量列表框中,此时就可以进行后续的求平均值工作了。变量列表框中,此时就可以进行后续的求平均值工作了。4. SPSS数据的预处理:一些

54、基本操作数据的预处理:一些基本操作 4.11 SPSS运算符与函数运算符与函数4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作 4.11 4.11 变量计算:转换变量计算:转换计算变量计算变量 目的:目的:产生新变量,例如根据职工的基本工资、失业保产生新变量,例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入;险、奖金等数据,计算实际月收入;对原变量进行必要对原变量进行必要的转换处理(尤其是对数据的原有分布状态进行转换),的转换处理(尤其是对数据的原有分布状态进行转换),由于数据分析和建模中某些模型对数据的分布有一定的要由于数据分析和建模中某些模型对数据的分布有一定

55、的要求,因此可以利用变量计算对原有数据的分布进行转换。求,因此可以利用变量计算对原有数据的分布进行转换。如预测问题、产生比率数据、偏态数据的正态处理、时间如预测问题、产生比率数据、偏态数据的正态处理、时间序列的平稳处理等。序列的平稳处理等。 包括变量的重置和计算包括变量的重置和计算4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作 4.11 4.11 变量计算:变量计算:转换转换计算变量计算变量 (1 1)变量的重置:)变量的重置: 例:例:“贫困调查贫困调查”数据是数据是20062006年在哈尔滨和沈阳进行的,当时年在哈尔滨和沈阳进行的,当时询问的是被调查者的出生年份,现将该

56、变量的内容重置为年龄。询问的是被调查者的出生年份,现将该变量的内容重置为年龄。 解:定义年龄变量,年龄解:定义年龄变量,年龄=2006-=2006-出生年份,输入出生年份,输入“数字表达式数字表达式”内,确定即可内,确定即可 例:在上例数据中,将来自哈尔滨的个案的问卷编号前加例:在上例数据中,将来自哈尔滨的个案的问卷编号前加1 1,来,来自沈阳的个案问卷编号前加自沈阳的个案问卷编号前加2 2。 解:单击对话框中的解:单击对话框中的ifif按钮,选择按钮,选择”如果个案满足条件则包如果个案满足条件则包括括”,输入,输入“所在城市所在城市=1”=1”,继续,回到原对话框,在,继续,回到原对话框,在

57、“数字数字表达式表达式”中输入:问卷编号中输入:问卷编号+1000+1000。同理,沈阳的也如此操作。同理,沈阳的也如此操作。4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作 4.11 4.11 变量计算:转换变量计算:转换计算变量计算变量 (2 2)新变量的生成:)新变量的生成: 例:例: “贫困调查贫困调查”数据中的数据中的“粮油粮油”、“副食副食”、“水果水果”三个三个变量是贫困家庭的食品总支出,变量变量是贫困家庭的食品总支出,变量“总总支出支出”是贫困家庭一个月所有支出之和,计算贫困家庭的是贫困家庭一个月所有支出之和,计算贫困家庭的恩格尔系数。恩格尔系数。 解:恩格尔

58、系数解:恩格尔系数= =食品总支出食品总支出/ /总支出总支出 =(=(粮油粮油 + + 副食副食 + + 水果水果) / ) / 月支出月支出4. SPSS数据的预处理:一些基本操作数据的预处理:一些基本操作 4.12 4.12 计数过程:转换计数过程:转换对个案内的值计数对个案内的值计数 计算一些变量在同一个观测量中满足要求的特定变量计算一些变量在同一个观测量中满足要求的特定变量值出现的次数。例如:在产品市场调查中,要了解被值出现的次数。例如:在产品市场调查中,要了解被调查者中有多少人使用过该产品。调查者中有多少人使用过该产品。 例:利用我国城乡消费价格分类指数数据(数据文件例:利用我国城乡消费价格分类指数数据(数据文件“消费价格指数消费价格指数.sav.sav”),请找出城市和农村居民消),请找出城市和农村居民消费价格指数费价格指数都都较去年上涨超

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论