spss数据文件的建立与整理

上传人：2*** IP属地：湖北上传时间：2023-02-05 格式：PPT 页数：136 大小：1.58MB 积分：30 举报 版权申诉

已阅读5页，还剩131页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

StatisticalProgramforSocialSciencesSPSSforWindows第二章数据文件的建立与整理第一节重点介绍spss软件及其数据文件的建立第二节数据文件的整理第三节简单介绍Minitab软件及其数据文件的建立学习目标1.熟悉SPSS统计软件中数据文件的建立数据的预处理一.数据的审核与筛选二.数据的排序数据的审核、筛选与排序数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序数据的审核

（原始数据）审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况，内容是否符合实际检查数据是否有错误，计算是否正确等数据的审核

（第二手数据）适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定这些数据是否符合自己分析研究的需要时效性审核应尽可能使用最新的统计数据确认是否必要做进一步的加工整理数据的筛选对审核过程中发现的错误应尽可能予以纠正当发现数据中的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，需要对数据进行筛选数据筛选的内容包括：将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来，而不符合特定条件的数据予以剔出引例：某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下,问该地急性克山病患者与健康人的血磷值是否不同？患者:

0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.87具体工作流程如下：

建立数据文件数据的加工整理统计分析解释分析结果定义数据文件的结构录入修改保存数据统计软件参与的主要是:数据输入数据分析数据输出§2.2

SPSS数据文件的建立一.SPSS软件简介二.SPSS数据文件的建立第一讲SPSS简介1简介SPSS是StatisticalProgramforSocialSciences的简称，即社会科学统计程序，由美国SPSS公司1970年代推出，迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一（SAS、SPSS、Statis）。我们现在使用的是SPSSforWindows12.0版。SPSSForWindows的概述

SPSSForWindows的特点SPSSForWindows对环境的要求SPSSForWindows的软件安装SPSSForWindows的启动与退出1.1SPSSForWindows的特点操作界面极为友好，输出结果美观漂亮多种实用分析方法，强大的图形处理能力操作简便，易于学习、易于使用与其他软件有数据转换接口(ODBC)1.2SPSSForWindows对环境的要求

对硬件环境的要求16M以上内存30％以上自由空间对软件环境的要求Windows95.98.2000关于spss的汉化1.3SPSSForWindows的软件安装

SPSSForWindows系统的启动SPSSForWindows系统的退出§2.1数据的输入和保存1.1.1进入SPSS的界面1.1.2定义变量1.1.3输入数据1.1.4保存数据1.1.1进入SPSS的界面数据视图：用于查看、录入和修改数据

变量视图：用来定义和修改变量的定义

请将鼠标在上图中的各处停留，很快就会弹出相应部位的名称。现在所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面，有菜单栏、工具栏。特别的，工具栏下方的是数据栏，数据栏下方则是数据管理窗口的主界面。该界面和EXCEL极为相似，由若干行和列组成，每行对应了一条记录，每列则对应了一个变量。由于现在我们没有输入任何数据，所以行、列的标号都是灰色的。

小贴士：对数据表界面操作不熟悉的朋友可先学习一下EXCEL的操作（因为它的帮助是中文的）。

§2.1数据的输入和保存1.1.1进入SPSS的界面1.1.2定义变量1.1.3输入数据1.1.4保存数据1.1.2定义变量在VariableView对话框中对变量进行定义，变量的定义要符合规则，对不同数据的变量类型要合乎定义，如单击“Type”按钮可以实现变量类型的定义等。

单击VariableView按钮后该资料是定量资料，设计为成组设计，因此我们需要建立两个变量，一个变量代表血磷值，习惯上取名为X，另一个变量代表观察对象是健康人还是克山病人，习惯上取名为GROUP。在VariableView对话框中第一个变量定义为group，Type为Numeric，并在Lable处注明1为患者，2为健康人；第二个变量定义为X，Type为Numeric，Width为8，Decimals为2等等。

变量标签就在Label框中直接输入，变量值标签则在它右侧的Value框定义。以group为例，单击Value框右半部的省略号，会弹出变量值标签对话框如下：上部的两个文本框分别为变量值输入框和变量值标签输入框，分别在其中输入“1”和“克山病患者”，此时下方的Add钮变黑，单击它，该变量值标签就会被加入下方的标签框内。与此类似定义变量值“2”为“健康人”，最后按OK，变量值标签就设置完成。此时你做任何分析，在结果中都有相应的标签出现。如果你现在就想看效果，切换回DataView界面，然后选择菜单View==>ValueLabels，怎么样，看到了吗？值标签定义方法缺失值

单击missing框右侧的省略号，会弹出缺失值对话框如下：界面上有一列三个单选钮，默认值为最上方的“无缺失值”；第二项为“不连续缺失值”，最多可以定义3个值；最后一项为“缺失值范围加可选的一个缺失值”，文如其意，不用我多解释了吧。缺失值定义方法数据表达——常量

常量类型数值型普通书写方式例如2638.4科学记数法用于表示特大或特小的数字如1.23E182.56E-16字符型被单引号或双引号括起来的一串字符如：‘book’“I’maboy”日期型SPSS变量名由不多于8个字符组成首字母是可为字母或数字或除?-!和*以外的字符注意不能以下划线_和园点“.”作为变量名的最后一个字符变量名不能与SPSS保留字相同,SPSS的保留字有ALLANDBYEQGEGTLELTNENOTORTOWITH不区分变量名的大小写,如ABC和abc

被认为是同一个变量数据表达——Spss变量（变量命名原则）数据表达—Spss变量(变量类型与默认长度）三种基本类型：数值型、字符型、日期类型长度小数显示方式输入显示Numeric8.2标准格式，圆点表示小数点38.4238.42Comma8.2圆点做小数点，逗点做三位分割符1,343,438.11,343,438.1Dot8.2逗点做小数点，圆点做三位分割符34.3434E23.434,34Scietific8.2科学计数法457.8E4457.8E4Date8.2格式非常多Dollar8.2前缀为$，以逗点为分割符$12343$12343Cuscurrency8.2String8.2一串字符串BelieveBelieve数据表达—Spss变量（标签、值标签和格式）

变量标签VariableLabels例如：变量名变量标签

Wweight或体重

HHeight或身高值标签ValueLabels例如变量值值标签

SexfFemalemMale

变量格式显示宽度对齐方式缺失值（MissingValue)原始数据的组织方式

SPSS数据的基本组织方式在原始数据的组织方式中，数据编辑窗口中的一行称为一个个案（Case），数据编辑窗口中的一列称为一个变量，每个变量都有一个名字。居民储蓄调查问卷性别职业年龄1、请问您的收入是（）

A1000以内B1000～2000C2000～5000D5000以上。。。。。。一份关于居民储蓄的调查问卷变量1变量2变量3变量4原始数据组织形式性别职业年龄收入11124A22333B…….…….…..频数数据的组织方式

SPSS数据的基本组织方式在频数数据的组织方式中，数据编辑窗口中的一行为变量的一个分组（Case），数据编辑窗口中的一列仍为一个变量，代表某个问题及频数。频数数据举例年龄段职称35岁以下（1）36～49岁（2）50～60岁（3）60岁以上教授015835副教授102022讲师201010变量1变量2变量3：人数频数数据组织形式职称年龄段人数1101215。。。。。。。。。。录入下面10名学生成绩调查表

上机转化为学生成绩的调查表编码将个人的学号（姓名）作为地址码用数字表示，该变量相应由字符型变为数字型，性别编码为男性为M，女性为F，对于未答、缺失、缺考、情况不清的编码，使用不可能出现的码表示。如字符变量用U码、数据变量用-9表示，编码后的结果如下图学生成绩的调查表编码所示：

问卷调查数据处理实例步骤：1、问题分类2、建立变量3、输入数据4、验收2进入SPSS之前的准备工作2-1-1数据资料的形式：矩阵式数据:数据要求每一横行为一个个案（Case,即一份调查数据），纵列按变量排列，一列是一个变量（问卷中的一道问题），从而形成矩阵格式。2-1数据资料的形式及编码编码录入2-1-2

编码的概念:根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。问题025：您认为打工的外地人对北京市的社会秩序是否有影响？（单选）1□有很大影响2□有较大影响

3□没有影响4□不好说4编码答案2-1-3编码的步骤：1)确定变量；变量：用来反映文意概念的量化形式。在统计中往往指最小的分析单位。编码就是对变量进行编码。变量由两个部分构成：变量名和变量值。要注意区分何为变量，何为变量值。在调查问卷中还要注意区分问题和变量。问题009：您有几个儿子？几个女儿？

1□儿子_______人

2□女儿________人

23问题变量1变量2变量1的值变量2的值2）制作编码表直接过录0-1编码变量名:一个数据文件中,一个变量只能有一个唯一名称。码位：某一变量在数据文件中占据的栏位码数：某一变量由几位数组成。该变量是数值型（Numeric）——如定距、定比，还是字串型（String），如定类、定序。前者在统计中可以做高级运算，后者则不可以。不适于被访人回答的问题的编码。一般采用7，97，997等。被访人回答不知道时的编码。一般采用8，98，998等。被访人拒绝回答某变量时的编码。一般采用9，99，999等。问卷中出现漏答时的处理编码。一般采用9，99，999等。23100011不好进行后续的数据分析！多选项问题将多选项问题进行分解！解决办法方法多选项二分法多选项分类法将多选项问题中每个答案设为一个SPSS变量，每个变量只有0或1两个取值，分别表示选择了该答案和不选择该答案。应估计多选项问题最多可能出现的答案个数；然后为每个答案设置为一个SPSS变量，变量取值为多选项问题中的可选答案。案例1你家中是否有下列物品：（1）电话（2）传真机（3）有线电视（4）卫星电视（5）大哥大（6）BP机对应设置6个SPSS变量，其取值为1或0，其中1表示报考，0表示不报考。多选项二分法SPSS变量名变量名标签变量值V1有电话吗？0/1V2有传真机吗？0/1V3有有线电视吗？0/1V4有卫星电视吗？0/1V5有大哥大吗？0/1V6有BP机吗？0/1假设问卷调查中出现的最多答案个数为4，则可设置4个SPSS变量，分别表示答案一、答案二、答案三，答案四，变量取值为0～6，其中0代表此答案未选，其余对应6个可选答案。多选项分类法SPSS变量名变量名标签变量值V1答案一0/1/2/3/4/5/6V2答案二0/1/2/3/4/5/6V3答案三0/1/2/3/4/5/6V4答案四0/1/2/3/4/5/6如选择了电话（1），大哥大（5），BP机（6），则V1,V2,V3,V4依次取值为1，5，6，0某地区高三学生的高考志愿调查中，为分析学生填报志愿的倾向性，设计了这样一道问题。案例2按照你的志愿，请按顺序依次选择你打算报考的三所大学：（1）北京大学（2）清华大学（3）南京大学（4）南京理工大学（5）东南大学（6）南京师范大学对应设置6个SPSS变量，其取值为1或0，其中1表示报考，0表示不报考。多选项二分法SPSS变量名变量名标签变量值V1报考北京大学吗？0/1V2报考清华大学吗？0/1V3报考南京大学吗？0/1V4报考南京理工大学吗？0/1V5报考东南大学吗？0/1V6报考南京师范大学吗？0/1由于问卷要求被调查者选择三个答案，所以可设置3个SPSS变量，分别表示志愿一、志愿二、志愿三，变量取值为1～6，依次对应6所大学。多选项分类法SPSS变量名变量名标签变量值V1志愿一1/2/3/4/5/6V2志愿二1/2/3/4/5/6V3志愿三1/2/3/4/5/6两种方法选择依据便于分析是否丢失信息案例1中，无论采用哪种分解方法都会存在一定的问题。但从避免信息丢失方面考虑，第一种方式要优于第二种，因为第二种方式会导致较多的缺失数据。案例2两种方法对比多选项二分法优点：能很方便地分析出各个学校的考生报考情况。缺点：不便于分析考生在各个志愿中的报考学校情况。多选项分类法优点：能很方便地分析出考生在各个志愿中的报考学校情况。缺点：但不便于分析各个学校的考生报考情况。从信息丢失方面考虑，第二种分解方式没有造成信息丢失。结论在选择多选项问题的分解方法时，应考虑到具体问题和具体分析目标，在避免信息丢失的前提下，减少稀疏数据。

SPSS变量的数据类型大多应定义成数值型，这样有利于以后的数据分析；不同的数据应根据其实际含义规定其度量尺度，如存（取）款目的，职业等应为定类型变量，收入水平、年龄等为定序型变量，存（取）款金额为定距型变量等；变量值标签的定义在问卷数据的处理中有重要作用。小贴士：§2.1数据的输入和保存1.1.1进入SPSS的界面1.1.2定义变量1.1.3输入数据1.1.4保存数据1.1.3输入数据直接在第一行第一列group下方用键盘键入1，第一行第二列X下方用键盘键入0.84，其余依次键入，从第12行开始为健康人，因此group应取为2，最终该数据集应该有24条记录。数据录入方法——直接敲就是了！按行输入数据（按Tab键）按列输入数据（按Enter键）录入带有变量值标签的数据（通过下拉按钮完成）

数据的录入

但在此之前应首先通过选择菜单：view==>ValueLabels，打开变量值标签的显示开关，如果它前面显示一个√，则表示变量值标签的显示开关已经打开，变量值标签将显示在数据编辑窗口中；反之，则表示开关尚未打开，不显示变量值标签只显示变量值。

应当说明的是，在值标签显示开关打开的状态下，虽然屏幕显示的是标签，但实际内部存储的仍是变量值。§2.1数据的输入和保存1.1.1进入SPSS的界面1.1.2定义变量1.1.3输入数据1.1.4保存数据1.1.4保存数据单击保存类型列表框，可以看到SPSS所支持的各种数据类型，有DBF、FoxPro、EXCEL、ACCESS等，这里我们仍然将其存为SPSS自己的数据格式（*.sav文件）。在文件名框内键入Li1_1并回车，可以看到数据管理窗口左上角由Untitled变为了现在的变量名Li1_1。

选择菜单File==>Save，由于该数据从来没有被保存过，所以弹出Saveas对话框如下：根据居民储蓄调查问卷，设计SPSS变量，并定义SPSS数据的结构，并选取部分填答好的问卷，建立居民储蓄调查数据文件。上机题目可选答案1.您认为现在买东西合算还是存钱合算？（1）买东西合算（2）存钱合算2.您今年的收入比去年增加了还是减少了？（1）增加（2）基本不变（3）减少3.预计未来一两年中您的收入？（1）增加（2）基本不变（3）减少4.您的月收入水平属于？（1）800元以下（2）800～1500元（3）1500～5000（4）5000元以上5.您本次存（取）款的金额是多少？（）元6.您本次存（取）款的种类？（1）三年以上定期（2)三年以下定期（3）活期（4）定活两便（5）有奖储蓄（6）个人通知存款（7）活期工资账户（8）各类信用卡表1居民储蓄调查问卷题目可选答案7.存（取）款的目的（可多选）？（1）买高档消费品（2)结婚用（3）正常生活零用（4）做生意（5）购买农业生产资料（6）买证券及单位集资（7）买房或建房（8）支付孩子教育费（9）养老金（10）防止意外事故（11）得利息8.您认为现在的物价水平？（1）过高，难以接受（2）偏高，可以接受（3）正常9.您对近期市场物价趋势的看法？（1）会迅速上升（2）基本稳定（3）会略有下降10.若物价上升幅度较大，您准备？（1）提款购物（2）购买其它证券（3）继续存款11.如果目前利率维持不变，您准备？（1）继续存款（2）提款购物（3）购买其它证券12.您手中一部分现金不存入银行的原因？（1）日常生活用钱（2)生意周转金（3）便于随时购买中意商品（4）购买国库券、债券、股票等续表题目可选答案13.您的户口属于？（1）城镇户口（2)农村户口14.您的工作单位或职业是？（1）国家机关（2）商业服务业（3）文科卫行业（4）公交建筑业（5）经营性公司（6）学校（7）一般农户（8）种粮棉专业户（9）种果菜专业户（10）工商运输个体户（11）退休人员（12）金融机构（13）现役军人15.您的年龄是？（1）20岁以下（2）20～35岁（3）35～50岁（4）50岁以上续表补充说明——读取其他格式的数据文件直接读入其他格式的数据文件使用文本向导读入文本文件选择菜单File==>Open==>Data或直接单击快捷工具栏上的按钮，系统就会弹出OpenFile对话框：1、直接打开选择数据文件类型，并输入数据文件名即可。其次中间还有一个“Paste”按钮，该按钮在SPSS的大多数对话框中都存在，是用于自动生成SPSS程序的。2、

使用文本导入向导读入文本文件选择菜单File==>ReadTextData，系统就会弹出OpenFile对话框：对！和前面的情况完全一样，只是文件类型自动跳到了Text(*.txt)。实际上，该功能在SPSS中已被整合到了OpenFile对话框中之所以在菜单上保留该条目有两个原因：1.读入纯文本的情况非常普遍，放在这里更加醒目；2.为了和SPSS老版本的使用上保持兼容。2.1.3.3

使用文本导入向导读入文本文件例2.1现有一数据文件以纯文本的形式存为“e:\work\经济管理统计分析软件\SPSSDATA\Li1_1.txt”，且第一行为变量名，请将其读入SPSS。解：在OpenFile对话框选中相应的文件名并单击“确定”，系统会自动启动文本导入向导对话框如下：2.1.3.3

使用文本导入向导读入文本文件可以看到该向导共分6步，这是第一步。中部为一对单选按钮，问题为“你的文本文件和预定义格式相一致吗？”，下方为按预定义格式读入的数据文件的预览。显然，SPSS的预定义格式并没有正确识别该文件。因此选择“No”并单击“下一步”，系统弹出向导的下一个对话框如下：2.1.3.3

使用文本导入向导读入文本文件最上方的问题是“你的变量是如何排列的？”，下面的选项分别为Delimite（用某种字符区分）和FixedWidth（固定宽度），一般都是Delimite，第二个问题是“变量名包括在文件最前面了吗？”，我们当然选“Yes”,单击“下一步”，系统弹出第三个对话框：2.1.3.3

使用文本导入向导读入文本文件最上方的句子意为“第一条记录从第几行开始？”，右侧可以输入行数。由于我们所用的数据第一行为变量名，因此这里输入2。下面的问题是“你的记录是怎样存储在文件中的？”。可以是“每一行代表一条记录”，或者“每**个变量代表一条记录”，数据一般都是第一种情况。下一个问题是“你想导入多少条记录？”，可以是“所有记录”、“前**条”或“随机导入**%的记录”。一般也选前者。单击“下一步”，第四个对话框如下：2.1.3.3

使用文本导入向导读入文本文件最上方的问题为“变量间用的是哪种分隔符？”，可选的有Tab键、空格、逗号、分号或自行定义的其他符号。本数据采用的是空格，可见系统已经自动识别并选择了空格，而下方的数据预览窗口显示出了正确的数据读入情况。单击“下一步”，第五个对话框如下：2.1.3.3

使用文本导入向导读入文本文件上方的提示为“定义在数据预览窗口中所选择的变量。”。顾名思义，在这个对话框中你可以在数据预览窗口中选择某一列变量，然后更改其变量名和类型。当然，在这里我们不用这样做，直接单击“下一步”，系统弹出文本导入向导的最后一个对话框如下：2.1.3.3

使用文本导入向导读入文本文件最上面的问题为“你愿意保存这次的文件（读入）格式设置以备下次使用吗？”，第二个问题为“你是否愿意将以上操作粘贴为SPSS语句？”，一般这两个问题我们都可以不管。单击“完成”，系统最终成功的读入了Li1_1.txt。3、

读取EXCEL文件现在SPSS10.0以上的版本读取EXCEL数据和读取SPSS的数据并无太大差异。选择菜单File==>Open==>Data或直接单击快捷工具栏上的按钮，系统就会弹出OpenFile对话框：3、

读取EXCEL文件输入文件名，选择文件类型为EXCEL(﹡.xls），然后单击『打开』按钮：3、

读取EXCEL文件在显示的对话框中单击OK按钮：事实上，SPSS11.0以上版本在出现最终数据文件之前还会跳出一个output1SPSSViewer输出窗口，可以保存，也可以不保存。SPSS数据的编辑主要包括对数据的定位、增加、删除、修改和复制等工作。补充说明——SPSS数据的编辑SPSS数据的定位自动定位1、按个案号码自动定位选择菜单Data==>Gotocase2、按变量值自动定位选择菜单Edit==>Find人工定位：适用于数据量较少的情形；（略）自动定位：按用户给出的定位条件自动寻找满足条件的第一个数据单元，适用于数据量多的情形。SPSS数据个案的插入和删除1、插入一个个案选择菜单Data==>Insertcase2、删除一个个案单击鼠标左键，选中待删除的个案，然后单击鼠标右键，从弹出菜单中选择Cut选项SPSS数据的移动、复制和删除定义源数据块：将鼠标移到到源数据块的左上角单元上，并拖动鼠标至源数据块的右下角单元上；单击鼠标右键：如果要清除数据块内容，则选Clear选项；如复制，选Copy；如移动，选Cut；指定目标单元：将鼠标移到目标单元的左上角，然后单击右键，选择Paste选项。SPSS能够将数据保存成多种格式的数据文件，常见的有SPSS格式文件、Excel、dbf和文本格式文件。补充说明——SPSS数据保存的格式文件优点缺点SPSS文件可以被SPSS软件直接读取，且能够将SPSS数据的结构和数据两部分全部完整保存下来无法被其它软件读取，通用性差Excel文件Dbf格式文件文本文件可以被相应软件直接读取。其中保存为Excel文件时，会将各变量的变量名写入Excel工作表的第一行上，且一个个案为一行；保存为Dbf文件时，会将变量名和相应的数据类型转成数据库文件的字段名和字段类型，且一个个案为一条记录；保存为文本文件时，第一种，固定格式，依据每个变量显示的宽度，将变量值数据以空格左补齐对齐；第二种以Tab键作为各数据之间的分隔符，第一行是变量名，第二行以后是数据，一个个案为一行；仅保存SPSS数据编辑窗口中的变量值，而不保存变量的其它属性。如果用户希望将SPSS数据与其他软件共享，则可将SPSS数据保存成两份，一份为SPSS文件格式，另一份为其他软件可以读取的数据文件格式，从而方便数据共享。读入居民储蓄调查数据.xls文件和居民储蓄调查数据.Dat文件上机SPSS的运行步骤如下:录入数据定义数据整理数据统计数据察看结果§

2.2

数据文件的整理在SPSS中，数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中，这两个菜单的内容如下所示：Data菜单项Transform菜单项

【SortCases对话框】

2.【Transepose对话框】2.2.1用于数据管理的菜单项——Data菜单项

3.【MergeFiles对话框】

4.【Aggregate对话框】

5.【SplitFile对话框】

6.【SelectCases对话框】

7.【WeightCases对话框】

8.【Data菜单中的其余对话框】例2.5

对数据集li1_1.sav按group升序，x降序的次序排列。【SortCases对话框】解：选择菜单Data==>SortCases，系统弹出SortCases对话框：该对话框并不复杂，其中比较特殊的是下方的SortOrder单选钮，有升序和降序两种选择。请注意，该单选钮是和上方的SortBy框一起使用的.请注意：group和x后面分别跟着Ascending和Descending，表明前者是按升序、后者按降序排列；由于Group在前，因此排序时以Group优先。数据排序步骤：Data=>sortcase1、数据文件：数据加工（职工数据）.sav

按照年龄排序；按照基本工资排序；先后按年龄和基本工资排序。2、数据文件：学生成绩调查表.sav

按照年龄排序；找出数学成绩最高分和物理成绩最低分。上机【MergeFiles对话框】

——合并数据文件合并的方式增加观测量到当前数据（纵向合并）增加变量到当前数据文件（横向合并）纵向合并数据文件选择菜单Data==>MergeFile==>

AddCases，然后输入一个已存在于磁盘上的需进行纵向合并处理的SPSS数据文件名。弹出对话框如下：

【MergeFiles对话框】纵向合并数据文件

VariablesinNewWorkingDataFile框中显示的变量名是两个数据文件中的同名变量，SPSS默认它们有相同的数据含义，并将它们作为合并后新数据文件中的变量；

UnpairedVariables框中显示的变量名是两个数据文件中的不同名变量，变量名后面的﹡表示该变量是当前数据编辑窗口的变量，+表示该变量是欲插入数据文件中变量；选Indicatecasesourceasvariable项，可在合并后数据文件中将自动生成一个名为source01的变量，取值为0代表个案来自第一份数据文件，取值为1代表个案来自第二份数据文件；横向合并数据文件选择菜单Data==>MergeFile==>

AddVariables，然后输入一个已存在于磁盘上的需进行横向合并处理的SPSS数据文件名。弹出对话框如下：

利用职工数据文件演示数据文件的纵向合并和横向合并。上机用于对数据进行分类汇总，所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量值求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。选择菜单Data==>Aggregate,系统弹出Aggregate窗口：【Aggregate对话框】上图中各个零件的含义如下：

BreakVariables框：用于选择分组变量；

AggregateVariables框：用于选择被汇总的变量；

Name&Label钮：用于定义新产生的汇总变量的名称和标签；

Function钮：用于定义汇总函数，共有三组函数，以最常用的第一组为例，可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共8个；

其他不再一一介绍。例2.6

计算Li1_1.sav中两组的血磷值标准差。【Aggregate对话框】解：该题完全可以用更简单的方法完成，这里只是演示一下汇总对话框的用法。

BreakVariables框：GroupAggregateVariables框：xFunction钮：(Standarddeviation单选钮：Continue钮)Addaggregatedvariablestoworkingdatafile单选钮：选中

OK1、利用居民储蓄调查数据，分析城镇储户和农村储户的一次平均存（取）款金额是否有显著的差异（计算各自的均值和标准差）。2、利用学生成绩调查表数据，分析数学、物理、化学、英文各科成绩的平均成绩和标准方差。上机【SelectCases

对话框】很多时候我们不需要分析全部的数据，而是按某种要求分析其中的一部分（比如只分析男性的身高、只对前200个数据进行分析以了解大概情况），这时使用SelectCases对话框可以大大简化工作。该对话框界面如下所示：【SelectCases

对话框】

Allcases单选钮：和下面的4个单选钮为一组，选中它则分析所有的记录；

Ifconditionissatisfied单选钮：只分析满足条件的记录；

If按钮：和If单选钮一起使用，单击后弹出If对话框；

Randomsampleofcases单选钮：从原数据中随机抽样；

Sample按钮：和Random单选钮一起使用，可以设定按百分比抽取记录，或者精确设定从前若干个记录中抽取多少个记录；

Basedontimeorcaserange单选钮：基于记录序号来选择记录；

Range按钮：和Based单选钮一起使用，用于输入记录序号范围；

Usefiltervariable单选钮：使用筛选指示变量来选择记录，必需在下面选入一个筛选指示变量，该变量取值为非0的记录将被选中，进入以后的分析；

Filtered单选钮：和下面的Deleted单选钮为一组，表示未被选中的记录只是被隔离，这些记录的记录号会被加上斜杠以示区别；

Deleted单选钮：未被选中的记录将被删除，一般不要使用。当对数据集做出筛选后，所做的筛选将在以后的分析中一直有效，直到再次改变选择条件为止。同时在多数情况下，系统会自动产生一个名为filter_$的筛选指示变量，被选中的记录该变量取值为1，反之则为0。利用居民储蓄调查数据，根据不同的分析要求采用不同的数据选取方法抽样：如果只希望分析城镇储户的情况，则可以通过数据选择功能采用指定条件的抽样方法进行抽样；如果只希望对其中的70%的数据进行分析，可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。上机

【SortCases对话框】

2.【Transepose对话框】2.2.1用于数据管理的菜单项

3.【MergeFiles对话框】

4.【Aggregate对话框】

5.【SplitFile对话框】

6.【SelectCases对话框】

7.【WeightCases对话框】

8.【Data菜单中的其余对话框】【Transepose对话框】该对话框用于对数据进行行列转置，可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为case_lbl的字符变量中。该对话框也非常简单，左侧为候选变量框；右上方为Variable框，用于选入需要转置的变量，一般应选入除名称变量外的所有其他变量，如果有变量未选入，则转置时会被自动丢弃；右下方为NameVariable框，用于指定原数据文件中记录转置后变量名的字符变量，但不是必需的，此时系统会将新变量自动按var001、var002...的顺序命名。【SplitFile

对话框】用于将数据文件分组进行处理，该对话框我们在第一章时已经使用过了，这里再介绍一下各个对话框元素的用途：

Analyzeallcases单选框：和下面的两个单选框为一组，选中本框不拆分文件；

Comparegroups单选框：按所选变量拆分文件，各组分析结果紧挨在一起便于相互比较；

Organizeoutputbygroups单选框：按所选变量拆分文件，各组分析结果单独放置；

Groupsbasedon框：用于选择拆分数据文件的变量；

Sortthefilebygroupingvariables单选框：将数据按所用的拆分变量排序；

Fileisalreadysorted单选框：数据保持原状，不按所用的拆分变量排序。【Weight

Cases

对话框】在默认情况下，每一行就是一条记录，这在多数情况下没有什么问题，但有时却非常麻烦，想想看如果你需要计算一个四格表卡方，有100例，如果每一行就是一条记录，你就需要输入100条记录！如果希望在计算过程中利用不同的变量对数据进行加权处理，就需要用到WeightCases对话框。该对话框的使用极为简单，界面上有两个单选钮，分别是不权重记录和用某变量权重记录，如果选择后者，则需要选中一个权重变量。【Data菜单中的其余对话框】

Definedates对话框：可以自动生成时间变量。

InsertVariable命令：在当前列插入新变量（在当前列点右键选择InsertVariable

命令亦可）。

Insertcases命令：在当前行插入新记录（在当前行点右键选择InsertCases命令亦可）

。

Gotocases对话框：到达指定记录号的记录，该命令在记录数极多时（1000条以上）非常有用。

【ComputeVariable对话框】

2.【Count对话框】2.2.2用于数据管理的菜单项——Transform菜单项

3.【Record对话框】

4.【RankCases对话框】

5.【AutomaticRecode对话框】

6.【CreateTimeSeries对话框】

7.【ReplaceMissingValues对话框】

8.【Transform菜单中的其余对话框】【ComputeVariable对话框】例3.2

在li1_1.sav中建立新变量temp，令其值当血磷值大于1时为2，否则为1。解：这里需要用到ComputeVariable对话框，外加一点技巧。第一步：给变量temp均赋值为1，然后将血磷值大于1的记录其temp变量值改为2即可。选择菜单Transform==>Compute，弹出ComputeVariable对话框如下：

【ComputeVariable对话框】左上角为需要计算的变量名，在其中键入“temp”，此时“Type&Lable”按钮就会变黑，左下方为候选变量列表，现在还用不着；中部为类似计算器的软键盘，可以用鼠标按键输入数字和符号，这里我们直接输入“1”，输入的内容会立刻在右上方的数值表达式窗口中出现；软键盘右侧为函数窗口，可以在这里找到并使用所需的SPSS函数；这次也用不到。好，现在“OK”按钮已经变黑，单击他，系统就会自动生成一个新变量temp，并且取值均为1。【ComputeVariable对话框】软键盘上几个奇奇怪怪的符号的含义如下：~=&|**~不等号，等价于<>逻辑符号AND逻辑符号OR乘方，相当于函数EXP()逻辑符号NOT在函数窗口中选中某个函数并单击右键，系统就会弹出该函数的用法说明。函数主要是和变量名组合起来使用的，比如说ABS(x)就是取变量x的绝对值。【ComputeVariable对话框】第二步：再次选择菜单Transform==>Compute，系统也再次弹出这个对话框，将数值表达式窗口中的1改为2，然后单击中下部的“If”按钮，系统弹出记录选择对话框如下：

由于我们这里不是对所有记录做变换，因此选中第二个单选钮“Includeifcasestatisfies

confition:”，此时下方的所有窗口变亮，表明现在可用；在左侧选中血磷值(x)，然后单击“”，x就被引入了右侧的变量框，任你用键盘或者用鼠标，总之将下面这个算式补充完：x>1，单击continue按钮。第三步：单击“OK”按钮，由于我们要替换变量值，系统会弹出一个确认对话框，确认替换，就ok了。1、利用学生成绩调查表计算每位同学的总分和平均分，并排名；2、利用职工基本情况数据，假设职称1至4级职工的工资分别上调50%，30%，20%，10%，依据职称级别计算实发工资。提示：定义实发工资变量名：sfgz，并输入计算方法：（sr-bx）×系数，系数因职称不同而不同。上机【Count对话框】Count对话框用于计算某个值或某些值在某个变量的取值中是否出现，比如我们想看看有哪些记录的血磷值在2～3之间，选择菜单Transform==>Count，系统弹出Count对话框如下：TargetVariable框中用于指定记录变量值是否出现的变量名，在这里输入temp2；选中血磷值(x)，将其选入Variables窗口，此时“DefineValues”按钮变黑，单击它，系统弹出变量值定义窗口如下：【Count对话框】左半部为变量值定义窗口，可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况：选择Range，在through两侧分别键入2、3，然后单击已变黑的“Add”按钮，“2thru3”就会被加入“ValuestoCount”框内。然后单击“Continue”，再单击Count对话框的“OK”，可以看到系统自动生成变量temp2，其中10、11号记录因血磷值介于2和3之间，temp2取值为1，其余的记录temp2取值均为0。利用居民储蓄调查数据，分析近些年储户收入的总体状况。提示：由于数据的限制，我们暂且认为，如果储户收入今年比去年增加了，且认为今后两年内收入仍会增加，则认为收入状况较好。因此可对所有个案计算“今年收入”和“未来收入”这两个变量中有几个取1（1代表收入增加）。如果计算结果为2，则表示两变量值均为增加，相应的储户收入状况较好。进一步，还可以计算计数值为2的个案数占总个案数的百分比，进而分析被调查储户的总体收入状况。上机1、利用学生成绩调查表，找出各科成绩在85分以上的人数各有多少？2、利用数据加工（职工数据），找出年龄在20-30，30-40，40-50以及50以上的人数各有多少？基本工资在1000以上的有多少人？上机【Recode对话框】Recode对话框用于从原变量值按照某种一一对应的关系生成新变量值，可以将新值赋给原变量，也可以生成一个新变量。例2.3

在Li1_1.sav中生成新变量temp3，当血磷值小于1时取值为0，1～2时取值为10，大于2时取值为20。解：选择菜单Transform==>Record==>IntoDifferentVariables，Recode对话框如下：【Recode对话框】将血磷值(x)选入InputVariable->OutputVariable框，此时OutputVariable框变黑，在其中键入新变量名temp3并单击Change，可见原来的x->?变成了x->temp3。单击“OldandNewValues”，系统弹出变量值定义对话框如下：按照题目的要求，选择Range:Lowestthrough，在右侧框中键入1，然后在右上方的Value右侧框中键入对应的新变量值0，此时下方Add键变黑，单击它，Old->New框中就会加入Lowestthru1->0，按照类似的方法依次加入另两条转换规则，最终Old->New框中共有Lowestthru1->0、1thru2->10、Else->20三条，现在单击Continue，再单击OK，系统就会按要求生成新变量temp3。【Recode对话框】

OutputVariable框：选入xOutputVariableName框：键入temp3：单击Change钮选中x->temp3：单击OldandNewValues钮：

Range:Lowestthrough单选钮：键入1：NewValueValue单选钮：键入0：单击Add钮

Range:through单选钮：两侧分别键入1、2：NewValueValue单选钮：键入10：单击Add钮

Range:Allothervalues单选钮：NewValueValue单选钮：键入20：单击Add钮单击Continue

单击OK。图片太多了，虽然这样非常直观，但太慢了。等大家对基本界面操作熟悉了后，我们将对比较简单的对话框试着对操作用文字的方式描述，比如上面的操作我们将用文字表达为：【Recode对话框】在连续变量或变量值较多的情况下，可采用组距分组。组距分组是将全部变量值依次划分为若干个区间，并将这一区间的变量值作为一组，为以后的频数分析以及直方图的绘制打下基础。【Recode对话框】组距分组

a.选择组数。=6b.确定各组的宽度。=(2.11-0.54)/6=0.266,可近似取为0.3分组操作

a指定分组变量

b定义分组区间

c指定存放分组结果的变量选择菜单Transform==>Record==>

intoDifferentVariables：将分组变量血磷值X选择到NumericVariable→Output框中；在OutputVariable框后输入存放分组结果的变量名，并单击Change钮确认，可以在Lable后输入相应的变量名标签；单击OldandNewValues按钮进行分组区间定义。指定分组区间的下限和上限，并在NewValue框中给出该区间对应的分组值（也可以指定该区间数据在分组后为系统缺失值）单击Add按钮确认分组区间并加到Old→New框中，单击Change和Remove按钮用来修改和删除分组区间。如果仅对符合一定条件的个案分组，则单击If按钮并输入SPSS条件表达式，否则本步可略去。

例2.4对血磷值数据进行组距分组。【Recode对话框】一般选择DifferentVariables，否则会覆盖掉原来的变量选择菜单Transform==>CategorizeVariables：将分组变量选择到CreateCategories框中；在Numberofcategories框后输入分组数目（如四分位数分组，组数为4）；在连续变量或变量值较多的情况下，分位数分组是一种较为有效而快捷的分组方法。分位数分组与组距分组类似，所不同的是，分位数分组中各组的下限值和上限值是由分位数决定的。【CategorizeVariables对话框】SPSS将自动计算各四分位数并进行分组，分组结果将存放在一个名为n+分组变量名的新变量中。选择菜单Transform==>AutomaticRecord：将分组变量血磷值X选择到Variable→NewName框中；在NewName框后输入存放分组结果的变量名，并单击AddNewName钮；在RecordStartingfrom框中选择单变量值分组按升序还是按降序进行，Lowestvalue表示升序，Highestvalue表

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

spss数据文件的建立与整理

文档简介

温馨提示

最新文档

评论

spss数据文件的建立与整理

文档简介

温馨提示

最新文档

评论

相关文档