spss_第三章_SPSS数据的预处理.ppt_第1页
spss_第三章_SPSS数据的预处理.ppt_第2页
spss_第三章_SPSS数据的预处理.ppt_第3页
spss_第三章_SPSS数据的预处理.ppt_第4页
spss_第三章_SPSS数据的预处理.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 SPSS数据的预处理,为什么要进行数据的预处理,在数据文件建立之后,通常还需要对分析的数据进行必要的预加工处理,这是数据分析过程中必不可少的一个关键步骤。 数据的预加工处理服务于数据分析和建模,主要包括以下几个方面 数据的排序 变量计算 数据选取 计数 分类汇总 数据分组 数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排 秩、 定义变量集。,3.1 数据的排序,(1)SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。 (2)这里的变量也称为排序变量。排序变量只有一个时,排序称为单值排序。排序变量有多个时,排序称为多重排序。 (3)多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等。,(1)数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等; (2)通过数据排序能够快捷的找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度; (3)通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否会对分析产生重要影响提供帮助。,3.1.1数据排序的作用,SPSS数据排序的基本操作步骤 (1)选择菜单DataSort Cases (2)将主排序变量从左边的列表中选到Sort by框中,并在Sort Order框中选择按该变量的升序还是降序排序。 (3)如果是多重排序,还要一次指定第二、第三排序变量及相应的排序规则。,3.1.2 数据排序的基本操作,在左边的源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。,在Sort Order 栏内选择排序方式升序与降序,1.数据排序是整行数据排序,而不是只对某列变量排序; 2.多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序; 3.数据排序后,原有数据的排序次序必然被打乱,应保存原始数据。,说明,数据排序应用举例,利用住房状况调查数据,通过数据排序功能分别找到本市户口和外地户口住户现住面积的最大值和最小值: 分析: (1)多重排序 (2)主排序变量:户口状况 第二排序变量:现住面积,3.2 变量计算,(1)数据的转换处理 在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如根据职工的基本工资、失业保险、奖金等数据,计算实际月收入,这些新变量具有更直观更有效的特点。 (2)对数据的原有分布状态进行转换 对原有数据的分布进行转换,以满足建模中某些模型对数据分布的要求。 非正态或非线性数据的处理 时间序列平稳化处理 标准化处理 ,3.2.1 变量计算的目的,SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量。 (1)变量计算是针对所有个案(或指定的部分个案)的,每个个案都有自己的计算结果。 (2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。 在变量计算过程中涉及到几个概念:SPSS算数表达式、SPSS条件表达式和SPSS函数。,指出按照什么方法计算变量; SPSS算术表达式(Numeric Expression)是由常量、变量、算术运算符、圆括号、函数等组成的式子。 字符型常量应当用引号括起来 变量是指那些已存在于数据编辑窗口中的原有变量 算术运算符主要包括、*、/、*(乘方) 在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算,3.2.2 SPSS算术表达式,在变量计算中通常要求对不同的个案分别按照不同的方法进行计算,于是就需要通过一定的方式来指定个案; SPSS条件表达式是一个对条件进行判断的式子。其结果有两种取值: 如果判断条件成立,则结果为真; 如果判断条件不成立,则结果为假。 条件表达式包括简单条件表达式和复合条件表达式。,3.2.3 SPSS条件表达式,(1)简单条件表达式 由关系运算符、常量、变量以及算术表达式等组成的式子。其中关系运算符包括、。 (2)复合条件表达式 又称逻辑表达式,是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。 逻辑运算符号包括&或AND(并且)、|或OR(或者)、或NOT(非)。 NOT的运算优先级最高,其次是AND,最低是OR。 可以通过圆括号改变运算的优先级。 (年龄=35)and not (职称3),(1)SPSS函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。 (2)函数书写的具体形式为:函数名(参数) 函数名是SPSS已规定的 参数可以是常量(字符型常量用引号引起)、变量或算术表达式; 参数可以是一个,也可以是多个,各参数间用逗号分隔。,3.2.4 SPSS函数,(3)SPSS函数大致可以分成八大类: 算术函数:完成特定的算术计算功能。P64 统计函数:计算基本的描述统计量。P64 分布函数:产生一个服从某种统计分布的随机数序列。P65 逻辑函数:用于逻辑判断。P66 字符串函数:对字符型数据进行处理。P66 缺失值函数:用于判断缺失值。P67 日期函数:对日期进行处理。P67 其他函数:一些辅助函数。P68,(1)选择菜单TransformCompute,弹出Compute Variable对话框如下:,3.2.5 变量计算的基本操作,(2)在Target框中输入存放计算结果的变量名。 该变量可以是一个新变量,也可以是已经存在的变量。 如果指定存放计算结果的变量为新变量,SPSS会自动 创建它;如果指定产生的变量已经存在,SPSS会提问是否以计算结果覆盖原有值。 新的变量默认为数值型,用户可以根据需要单击Type&Label按钮修改,还可以对新变量加变量名标签。 (3)在Numeric Expression框给出SPSS算术表达式。可以手工输入,也可以按窗口的按钮以及函数下拉菜单输入。,(4)如果希望对符合一定条件的个案进行变量计算,则单击If按钮,出现下面的窗口,选择Include if case satisfies condition选项,然后输入条件表达式。对不满足条件的个案,将不进行变量值计算,对新变量取值为系统缺失值。,1.利用职工基本情况数据,依据职称级别计算实发工资。实发工资等于基本工资,依据职称1至4等级分别上调5,3,2,1。 分析: (1)基本工资*系数 (2)选择“IF”按钮,对不同职称的职工分别计算实发工资。,3.2.6 变量计算的应用举例,3.3 数据选取,(1)数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为抽样。 抽样的作用 提高数据分析效率 检验模型的需要 (2)SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止。,(1)选取全部数据(All cases) (2)按指定条件选取( If condition is satisfied ) SPSS要求用户以条件表达式给出数据选取的条件,SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中。,3.3.1 数据选取的基本方式,(3)随机抽样( Random sample of cases ), 对数据编辑窗口中的所有个案进行随机筛选,包括如下两种方式: 近似抽样(Approximately) 近似抽样要求用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案。 注: 由于SPSS在样本抽样方面的技术特点,抽取出的个案总数不一定恰好精确地等于用户指定的百分比数目,会有小的偏差(此偏差不会对数据分析产生重要影响),因而称为近似抽样。,精确抽样(Exactly) 精确抽样要求用户给出两个参数。第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。SPSS自动在数据编辑窗口的前若干个个案中随机精确地抽出相应个数的个案来。,(4)选取某一区域内的样本( Based on time or case range ) 即选取数据编辑窗口中样本号在指定范围内的所有个案,要求给出这个范围的上、下界个案号码。这种抽样方法适用于时间序列数据。 (5)通过过滤变量选取样本( Use filter variable ) 即依据过滤变量的取值进行样本选取。要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。,说明: (1)完成数据选取后,以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止。 (2)采用指定条件选取和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filter_$的新变量,取值为1或0。1表示本个案被选中,0表示未被选中。该变量是SPSS产生的中间变量,如果删除它则自动取消样本抽样。,(1)选择菜单DataSelect cases (2)根据分析需要选择数据选取方法 (3)Unselected cases are指定对未选中个案的处理方式 Filtered表示在未被选中的个案号码上打一个“/”标记; Deleted表示将未被选中的个案从数据编辑窗口中删除。,3.3.2 数据选取的基本操作,Select Cases对话框,Filtered:未被选中的个案号码上打一个“”标记 deleted:未被选中的个案删除,利用住房状况调查数据,根据不同的分析要求采用不同的数据选取方法抽样: (1)只希望分析本市户口的住房状况。 可以通过数据选择功能采用指定条件的抽样方法进行抽样; (2)只希望对其中的70的数据进行分析。 可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样。,3.3.4 数据选取的应用举例,3.4 计数,3.4.1 计数目的 (1)SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。 (2)例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。 (3) SPSS实现计数的关键步骤是: 指定哪些变量参与计数,计数的结果存入哪个新变量中 指定计数区间(尤为关键),SPSS中的计数区间可以有以下几种描述形式: 单个变量值(Value) 系统缺失值(System-missing) 系统缺失值或用户缺失值( System or user-missing) 给定最大值和最小值的区间(n through m) 小于等于某指定值的区间(Lowest through n) 大于等于某指定值的区间(n through highest),3.4.2 计数区间,(1)上述后三个计数区间很容易理解。 例如评价学生成绩,成绩为优的计数区间可以指定为90 through highest,成绩为良的计数区间指定为80 through 89,不及格的计数区间指定为Lowest through 59。 (2)前三个计数区间实际上是一些离散的数据点,严格讲并不是区间,但SPSS仍将其归在广义区间的范畴内,目的是方便一些其他的应用。,(1)选择菜单TransformCount,出现如下窗口:,3.4.3 计数的基本操作,(2)将参与计数的变量选到 Variables框中 (3)在Target Variable框中输入存放计数结果的变量名,并在Target Label框中输入相应的变量名标签。 (4)单击Define Values按钮定义计数区间,出现如下图窗口:,通过单击Add、Change、Remove按钮完成计数区间的增加、修改和删除。,(5)如果仅希望对满足某条件的个案进行计数,则单击If按钮并输入相应的SPSS条件表达式。否则,本步可略去。,利用住房状况调查数据分析被调查家庭中有多少比例的家庭对目前的住房满意且今后三年不准备买房。 分析: (1)参与计数的变量:住房满意、未来三年,3.4.4 计数的应用举例,3.5 分类汇总,3.5.1 分类汇总的目的 分类汇总是按照某分类变量进行分类汇总计算。 SPSS实现分类汇总涉及两个主要方面 (1)按照哪个变量进行分类 (2)对哪个变量进行汇总,并指定对汇总变量计算哪些统计量。,(1)选择菜单DataAggregate,出现如下所示的窗口:,3.5.2 分类汇总的基本操作,(2)将分类变量选到Break Variable(s)框中 (3)将汇总变量选到Aggregate Variable(s)框中 (4)单击Function按钮,指定对汇总变量计算哪些统计量。SPSS默认计算均值。,(5)指定将分类汇总结果保存到何处。有三种选择: Add Aggregated Variables to working data file,表示将结果存放到当前数据编辑窗口中。 Create new data file,表示将结果存放到系统默认的名为aggr.sav的SPSS数据文件中,可以单击File按钮,重新指定文件名; Replace working data file,表示用分类汇总结果覆盖数据编辑窗口中的数据。 一般选择第二种方式,结果比较清晰。,(6)单击Name&Label按钮,重新指定结果文件中的变量名或添加变量名标签。SPSS默认的变量名为原变量名后加_统计量名称。如:a_mean。 (7)如果希望在结果文件中保存各分类组的个案数,则选择Number of case选项。于是,SPSS会在结果文件中自动生成一个默认名为N_Break的变量,可以修改该变量名。,说明: (1)分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总。 (2)类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量,其他的依次为第二、第三分类变量等,它们决定了分类汇总的先后次序。,例1:根据住房状况调查数据分析本市户口和外地户口家庭目前人均面积的平均值是否存在较大差异?未来打算购买住房计划面积的平均值是否存在较大差异? 分析: (1)利用分类汇总功能计算不同户口家庭住房面积的平均值、未来购房面积的平均值进行比较。 (2)分类变量:户口状况 汇总变量:人均面积、计划面积,3.5.3 分类汇总的应用举例,3.6 数据分组,3.6.1 数据分组的方法 (1)数据分组就是根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。在数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征。 (2)为适用于不同的统计分析需要,SPSS提供了以下几种数据分组方法: 单项式分组 组距分组,居民家庭按人口数单项式分组,离散型变量如果变量值的变动范围不大,可以将一个变量值作为一组,称单项式分组。如右表:,单项式分组,在连续型变量或离散型变量值较多的情况下,可采用组距式分组形式。 组距式分组就是把全部变量值划分为几个区间,每一区间的变量值作为一组。如右表:,组距式分组,组距式分组中涉及的几个关键点: (1)全距:最大值与最小值之差 (2)组数:组数的多少以分组后能恰当反映总体内部的分布特征和规律为好。可按Sturges经验公式确定组数: (3)组距全距组数。,(4)根据各组的组距是否相等,又可以分为等距分组和不等距分组两种方式。 (5)组限:组距两端的数值称为组限, 每组的最大值称为上限,用U(Upper limit)表示,每组的最小值称为下限,用L(Lower limit)表示。 统计数据时,注意“上组限不在内”法则。 极端组可采用开放式组距。,(6)组中值:每组上、下限之间的中点数值。 闭口组:组中值=(上限十下限)2 缺上限组:组中值=下限+邻组组距/2 缺下限组:组中值=上限-邻组组距/2,例如:职工基本情况数据,可按基本工资对职工进行分组,见下表:,SPSS单变量值分组的基本操作步骤: (1)选择菜单TransformAutomatic Recode (2)将分组变量选择到VariableNew Name框中 (3)在New Name框后输入存放分组结果的变量名,并单击Add New Name按钮 (4)在Recode Starting from框中选择单变量值分组按升序还是按降序进行。Lowest value表示升序;Highest value表示降序。,3.6.2 SPSS的单项式分组,单变量值分组应用举例: 1.按职工的职称升序进行分组。,(1) 组数和组距确定后,便可实施分组操作了,在分组操作时应: 指定分组变量 定义分组区间(注意遵循“不重不漏”原则) 指定存放结果的变量 (2)SPSS对分组结果有两种存放策略: 用分组变量值覆盖原变量(Into Same Variables), 将分组结果存到一个新变量中(Into Different Variables)。相应的操作也略有差异。通常采用第二种策略。,3.6.3 SPSS的组距式分组,1. Into Same Variables分组操作 (1)选择菜单TransformRecode Into Same Variables。 (2)在出现的窗口中将分组变量选择到Variables框中。 (3)单击Old and New Values按钮进行分组区间定义。 (4)在分组区间定义窗口中指定分组区间的下限和上限,并在New Value框中给出该区间对应的分组值。单击Add按钮确认分组区间并加到OddNew框中。单击Change和Remove按钮来修改和删除分组区间。 (5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。,2. Into Different Variables分组操作 (1)选择菜单TransformRecode Into Different Variables。 (2)在出现的窗口中将分组变量选择到Input Variable Output Variable框中。 (3)在Output Variable后输入存放分组结果的变量名,并单击Change按钮确认。可以在Label后输入相应的变量名标签。 (4)单击Old and New Values按钮进行分组区间定义(方法与前面相似)。 (5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去。,利用职工数据按职工基本工资分别采用Into Same Variables和Into Different Variables两种方式进行如下分组:,3.6.4 组距式分组的应用举例,例2:,利用住房状况数据,分析被调查家庭的人均住房面积的分布特征。 分析: (1)人均面积是连续变量可通过组距分组实现。 (2)确定组数4组、组距10 (3)利用Into different variables实现,3.7 数据预处理的其他功能,3.7.1 数据转置 SPSS的数据转置就是将数据编辑窗口中数据的行列互换。基本操作步骤如下: (1)选择菜单DataTranspose。 (2)指定数据转置后应保留哪些变量,将它们选入Variables框中,未被选中的变量将在新文件中缺失。,(3)指定转置后数据文件中各变量如何取名。 应选择一个取值唯一的变量(如职工号)作为标记变量并放到Name Variable框中。转置后数据各变量取名为K_标记变量值(如K_001、K_002、K_003等)。如果略去本步,则转置后数据各变量名默认为VAR00001,VAR00002,VAR00003等。 同时,SPSS还会自动产生一个名为Case_lbl的新变量,用来存放原数据文件中的各变量名。,例:将职工数据进行数据转置,3.7.2 加权处理,统计分析中的加权处理是极为常见的,如计算加权平均数等。 例如,蔬菜销售的平均价格、用户满意度测评等,SPSS中指定加权变量的操作步骤: (1)选择菜单DataWeight Cases。 (2)选择Weight Cases by选项,并将某变量作为加权变量选到frequency框中。 注意 (1)一旦指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权应选择Do not weight cases选项。 (2)加权操作完毕后,数据编辑窗口中的数据并没有变化,仅在状态栏有已经加权(weight on)的提示信息。 例:根据蔬菜数据对蔬菜价格进行加权计算。,SPSS的数据拆分与数据排序很相似,但有一个重要的不同点: 数据拆分不仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后的分组统计分析提供便利。,3.7.3 数据拆分,1.SPSS数据拆分的基本操作步骤: (1)选择菜单DataSplit File,出现窗口,(2)将拆分变量选到Groups Based on框中 (3)拆分会使后面的分组统计产生两种不同格式的结果。Compare groups表示将分组统计结果输出在同一表格中,以便于不同组之间的比较; Organize output by groups表示将分组统计结果分别输出在不同的表格中。通常选择第一种输出方式。 (4)如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序,则可以选择File is already sorted项,可以提高拆分执行的速度; 否则,选择Sort the file by grouping variables项。,2.说明: (1)数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将按拆分变量的不同组别分别分析计算。如果希望对所有数据进行整体分析,则需要重新执行数据拆分,在数据拆分窗口中选择Analyze all cases项。 (2)对数据可以进行多重拆分,类似于数据的多重排序。多重拆分的次序决定于选择拆分变量的前后次序。,3.数据拆分应用举例: 利用职工情况数据选择职称和(或)性别变量进行数据拆分。,大量的缺失值会给数据分析带来极大的影响,这就需要采用科学的方法对缺失值进行插补。操作步骤如下: (1)选择菜单Transformreplace missing values (2)将需要插补的变量单击按钮送到New Variables框中,该变量自动会生成一个新的变量,变量名为原变量名_1 (3)在Method中选择插补方法。,3.7.4 SPSS缺失值处理,(1)Series mean :该变量所有非缺失值的均值 (2)Mean of nearby points:该变量相邻非缺失值的均值 (3)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论