第3章 SPSS数据的预处理_第1页
第3章 SPSS数据的预处理_第2页
第3章 SPSS数据的预处理_第3页
第3章 SPSS数据的预处理_第4页
第3章 SPSS数据的预处理_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS数据的预处理数据的预处理提纲提纲数据的排序数据的排序变量计算变量计算数据选取数据选取计数计数分类汇总分类汇总数据分组数据分组453261一、数据的排序一、数据的排序SPSSSPSS的数据排序是将数据编辑窗口中的数据按照的数据排序是将数据编辑窗口中的数据按照某某个或多个个或多个指定变量指定变量的变量值的变量值升序或降序升序或降序重新排列。重新排列。u 数据排序便于数据的浏览数据排序便于数据的浏览u 通过数据排序能够快捷地找到数据的最大值和最小值通过数据排序能够快捷地找到数据的最大值和最小值u 通过数据排序能够快捷地发现数据的异常值通过数据排序能够快捷地发现数据的异常值作作用用主要操作步骤

2、主要操作步骤 1)数据)数据排序个案排序个案 2)指定主排序变量到)指定主排序变量到“排序依据排序依据”中中 3)选择)选择“排列顺序排列顺序” 4)如果是多重排序,再指定第二、第三等)如果是多重排序,再指定第二、第三等排序变量排序变量注意注意1、数据排序是整行数据排序,而不是只对、数据排序是整行数据排序,而不是只对某列变量排序某列变量排序2、多重排序中指定排序变量的次序很关键、多重排序中指定排序变量的次序很关键3、必要时保留数据的原始排列顺序、必要时保留数据的原始排列顺序二、变量计算二、变量计算SPSSSPSS变量计算是变量计算是在原有数据的基础之上在原有数据的基础之上,根,根据用户给出的据

3、用户给出的SPSSSPSS算术表达式以及函数,算术表达式以及函数,对对所有个案或满足条件的部分个案所有个案或满足条件的部分个案,计算产生计算产生变量变量。作用:在原有数据的基础上,计算产生含有作用:在原有数据的基础上,计算产生含有更丰富信息的新变量。更丰富信息的新变量。1、SPSS算术表达式算术表达式SPSSSPSS算术表达式是由算术表达式是由常量、变常量、变量、算术运算符、圆括号、量、算术运算符、圆括号、函数函数等组成的式子。等组成的式子。注意:算术表达式针对每个注意:算术表达式针对每个个案进行,得到的结果是一个案进行,得到的结果是一个系列,个系列,每个个案都有相应每个个案都有相应的计算结果

4、的计算结果。2、SPSS条件表达式条件表达式简单条件表达式:由简单条件表达式:由关系运算符关系运算符、常量、变量以及、常量、变量以及算术表达式等组成的式子。算术表达式等组成的式子。2、SPSS条件表达式条件表达式复合条件表达式:由复合条件表达式:由逻辑运算符逻辑运算符、圆括号、圆括号、简单条简单条件表达式件表达式等组成的式子。等组成的式子。年龄小于等于年龄小于等于35岁并且职称不低于岁并且职称不低于3(nl=35)and not (zc3)3、SPSS函数函数 算术函数算术函数 统计函数统计函数 分布函数分布函数 查找函数查找函数 字符串函数字符串函数 日期函数日期函数 缺失值函数缺失值函数

5、其他函数其他函数算术函数算术函数函数名函数名功能功能举例举例Abs(Abs(算数表达式算数表达式) )求绝对值求绝对值AbsAbs(sr-850sr-850):分别计算每):分别计算每条个案变量条个案变量srsr与与850850之差的绝之差的绝对值对值Sqrt(Sqrt(正数正数) )求平方根求平方根Sqrt(4):Sqrt(4):函数值函数值=2=2SinSin(弧度单位的角度数)(弧度单位的角度数)求正弦值求正弦值SinSin(3030* *3.14/1803.14/180):函数):函数值:值:0.500.50CosCos(弧度单位的角度数)(弧度单位的角度数)求余弦值求余弦值CosCo

6、s(6060* *3.14/1803.14/180):函数):函数值值=0.50=0.50ExpExp(算数表达式)(算数表达式)求求e e的若干次幂的若干次幂ExpExp(5 5):函数值):函数值=148.41=148.41LnLn(算数表达式)(算数表达式)求以求以e e为底的自然对数值为底的自然对数值LnLn(srsr)分别计算每个个案)分别计算每个个案变量变量srsr的自然对数值的自然对数值Lg10Lg10(算数表达式)(算数表达式)求以求以1010为底的对数值为底的对数值Lg10Lg10(5 5)函数值)函数值=0.7=0.7RndRnd(算数表达式)(算数表达式)求四舍五入后的整

7、数求四舍五入后的整数RndRnd(2.662.66):函数值):函数值=3.0=3.0TruncTrunc(算术表达式)(算术表达式)求截去小数部分后的整数求截去小数部分后的整数TruncTrunc(4.74.7):函数值):函数值=4=4ModMod(算数表达式,常数)(算数表达式,常数)求除以常数后的余数求除以常数后的余数ModMod(20,320,3)函数值)函数值=2=2统计函数统计函数函数名函数名功能功能举例举例MeanMean(变量名,变量名(变量名,变量名)求多个变量的平求多个变量的平均值均值MeanMean(MathMath,EnglishEnglish,ChineseChin

8、ese):分别):分别计算每个个案三门成绩的平均值计算每个个案三门成绩的平均值SdSd(变量名,变量名(变量名,变量名)求多个变量的标求多个变量的标准差准差SdSd(MathMath,EnglishEnglish,ChineseChinese):分别计):分别计算每个个案三门成绩的标准差算每个个案三门成绩的标准差VarianceVariance(变量名,变量(变量名,变量名名)求多个变量的方求多个变量的方差差VarianceVariance(MathMath,EnglishEnglish,ChineseChinese):):分别计算每个个案三门成绩的方差分别计算每个个案三门成绩的方差SumSu

9、m(变量名,变量名(变量名,变量名)求多个变量的总求多个变量的总和和SumSum(MathMath,EnglishEnglish,ChineseChinese):分别):分别计算每个个案三门成绩的总和计算每个个案三门成绩的总和CfvarCfvar(变量名,变量名(变量名,变量名)求多个变量的变求多个变量的变异系数(变异系异系数(变异系数数= =标准差标准差/ /均值)均值)CfvarCfvar(MathMath,EnglishEnglish,ChineseChinese):分):分别计算每个个案三门成绩的变异系数别计算每个个案三门成绩的变异系数MaxMax(变量名,变量名(变量名,变量名)求多

10、个变量中的求多个变量中的最大值最大值MaxMax(MathMath,EnglishEnglish,ChineseChinese):分别):分别计算每个个案三门成绩的最高分计算每个个案三门成绩的最高分MinMin(变量名,变量名(变量名,变量名)求多个变量中的求多个变量中的最小值最小值MinMin(MathMath,EnglishEnglish,ChineseChinese):分别):分别计算每个个案三门成绩的最低分计算每个个案三门成绩的最低分分布函数分布函数函数名函数名功能功能举例举例Rv.normal(x,y)Rv.normal(x,y)产生服从均值为产生服从均值为x x,标准差,标准差为为

11、y y的正态分布的随机序列的正态分布的随机序列Rv.Normal(0,1):Rv.Normal(0,1):产生服从标准正态分布的产生服从标准正态分布的随机序列随机序列Rv.Uniform(x,y)Rv.Uniform(x,y)产生服从产生服从xyxy间均匀分间均匀分布的随机序列布的随机序列Rv.Uniform(0,1):Rv.Uniform(0,1):产生服从产生服从0101间均匀分间均匀分布的随机序列布的随机序列Rv.Rv.分布名(参数,分布名(参数,)参数名参考参数名参考SPSSSPSS函数函数选项选项产生服从指定统计分布的产生服从指定统计分布的随机序列随机序列Rv.T(10):Rv.T(

12、10):产生服从自由度为产生服从自由度为1010的的t t分布的分布的随机序列随机序列CDF.Normal(x,m,s)CDF.Normal(x,m,s)求均值为求均值为m m,标准差为,标准差为s s的的 正态分布中小雨等于正态分布中小雨等于x x的累的累积概率值积概率值CDF.Normal(1.96,0,1):CDF.Normal(1.96,0,1):计算标准正态分布计算标准正态分布中小于等于中小于等于1.961.96的累计概率值,函数为的累计概率值,函数为0.9750.975IDF.Normal(p,m,s)IDF.Normal(p,m,s)0=p=10=p=1求均值求均值x x,标准差

13、为,标准差为s s的正的正态分布中累积概率为态分布中累积概率为p p的分的分位值位值IDF.Normal(0.975,0,1):IDF.Normal(0.975,0,1):计算标准正态分计算标准正态分布中累计概率值为布中累计概率值为0.9750.975的分位值,函数为的分位值,函数为1.961.96CDF:CDF:分布名(分布名(x x,参数),参数)在指定分布中计算小于等在指定分布中计算小于等于于x x的累积概率值的累积概率值CDF.T(1.96,10):CDF.T(1.96,10):计算自由度为计算自由度为1010的的t t分布分布中小于等于中小于等于1.961.96的累积概率值,函数值为

14、的累积概率值,函数值为0.960.96IDF.IDF.分布名(分布名(p p,参,参数,数,)0=p=10=p=1在指定分布中计算累计概在指定分布中计算累计概率为率为p p的分位置的分位置IDF.T(0.96,10):IDF.T(0.96,10):计算自由度为计算自由度为1010的的t t分布分布中累积概率等于中累积概率等于0.960.96的分位值,函数值为的分位值,函数值为1.961.96查找函数查找函数函数名函数名功能功能举例举例Range(变量名,变量名,x1,x2)其中:其中:x1=x2 查找判断某变量值是查找判断某变量值是否在否在x1至至x2之间之间 Range(Math,80,90

15、):分分别对每条个案判断其数别对每条个案判断其数学成绩是否在学成绩是否在80至至90分分之间之间Any(变量名,变量名,x1,x2,) 查找判断变量值是否查找判断变量值是否是是x1、x2中的一个中的一个 Any(Math,80,90,70):分别对每条个案判断其分别对每条个案判断其数学成绩是否为数学成绩是否为80或或90或或70分分字符串函数字符串函数函数名函数名功能功能举例举例Concat(s1,s2,) 将将s1和和s2等首尾相接等首尾相接 Concat(“AB”,”CD”):将字符串将字符串AB和和CD首尾相接,函数值首尾相接,函数值=ABCDIndex(s1,s2)其中:其中:s1的长

16、度应大于的长度应大于s2 求求s2在在s1中第一次出现的字符位置。中第一次出现的字符位置。如果没出现则结果为如果没出现则结果为0 Index(“ABCDEF”,”CDE”):找到字符找到字符串串CDE在字符串在字符串ABCDEF中第一次出中第一次出现的位置,函数值现的位置,函数值=3Length(s) 得到得到s的字符个数的字符个数Length(“ABCD”):函数值函数值=4Lower(s) 将将s中的所有字符都转换成小写中的所有字符都转换成小写Lower(“ABCD”):函数值函数值=abcdUpcase(s) 将将s中的所有字符都转换成大写中的所有字符都转换成大写 Upcase(“abc

17、d”):函数值函数值=ABCDChar.Lpad(s,x,c)说明说明:1=x=255 将将s左补若干个字符左补若干个字符c后,使其字符后,使其字符长度等于长度等于x Char.Lpad(“AB”,5,”c”):函数值函数值=cccABChar.Rpad(s,x,c)说明说明:1=x=255 将将s右补若干个字符右补若干个字符c后,使其字符后,使其字符长度等于长度等于x Char.Rpad(“AB”,5,”c”):函数值函数值=ABcccLtrim(s) 将将s前的空格删掉前的空格删掉Ltrim(“ ABC”):函数值函数值=ABCRtrim(s) 将将s尾部的空格删掉尾部的空格删掉Rtrim

18、(“ABC “):函数值函数值=ABCChar.Substr(s,x1,x2) 将将s的第的第x1位置开始取位置开始取x2个字符个字符 Char.Substr(“ABCDE”,2,3):函数值函数值=BCD日期函数日期函数函数名函数名功能功能举例举例Date.dmy(d,m,y)D、m、y分别表示日、月、分别表示日、月、年年将日期型变量赋值为将日期型变量赋值为y年、年、m月、月、d日日 Date.dmy(31,12,2003):函数函数值值=12.31.2003或其他日期格或其他日期格式式Date.qyr(q,y)q、y分别表示季度年份分别表示季度年份 将将q转化成相应月份后,赋转化成相应月份

19、后,赋值给日期型变量值给日期型变量 Date.qyr(4,2003):函数值函数值=01.10.2003或其他日期格式或其他日期格式Date.yrday(y,x)Y、x分别表示年、天数分别表示年、天数 将将y和和x转化成相应的日期转化成相应的日期后,赋值给日期型变量后,赋值给日期型变量 Date.yrday(2003,32):函数值函数值=01.02.2003或其他日期格式或其他日期格式Xdate.mday(日期型变量日期型变量) 求出日期型变量值所对应求出日期型变量值所对应的的日期是该月中的第几天的的日期是该月中的第几天Xdate.mday(Date.dmy(31,12,2003):函数值函

20、数值=31Xdate.jday(日期型变量日期型变量) 求出日期型变量值所对应求出日期型变量值所对应的的日期是该年中的第几天的的日期是该年中的第几天Xdate.jday(Date.dmy(3,2,2003):函数值函数值=34Xdate.week(日期型变量日期型变量) 求出日期型变量值所对应求出日期型变量值所对应的的日期是该年中的第几周的的日期是该年中的第几周Xdate.week(Date.dmy(3,2,2003):函数值函数值=5缺失值函数缺失值函数函数名函数名功能功能举例举例Missing(变量名)该变(变量名)该变量必须是数值型变量量必须是数值型变量判断指定变量是否为判断指定变量是否

21、为系统缺失值或用户缺系统缺失值或用户缺失值失值Missing(Math):分别对每条个案):分别对每条个案判断判断Math这个变量是否为系统缺失这个变量是否为系统缺失值或用户缺失值。值或用户缺失值。1表示是,表示是,0为不是。为不是。Sysmis(变量名)该变(变量名)该变量必须是数值型变量量必须是数值型变量判断指定变量是否取判断指定变量是否取值为系统缺失值值为系统缺失值Sysmis(Math):分别对每条个例判):分别对每条个例判断断Math这个变量是否取值为系统缺这个变量是否取值为系统缺失值,失值,1表示是,表示是,0为不是。为不是。Nmiss(变量名(变量名1,变量,变量名名2,.)计算

22、在指定变量中有计算在指定变量中有几个变量含有系统缺几个变量含有系统缺失值或用户缺失值失值或用户缺失值Nmiss(Math,English,Chiness):):分别对每条个案计算三科成绩中有几分别对每条个案计算三科成绩中有几科取值为系统缺失值或用户缺失值。科取值为系统缺失值或用户缺失值。Value(变量名)(变量名)忽略用户缺失值,即忽略用户缺失值,即将用户缺失值看成普将用户缺失值看成普通数据通数据Value(Math):忽略):忽略Math这个变量这个变量重定义的用户缺失值。重定义的用户缺失值。其他函数其他函数函数名函数名功能功能举例举例Lag(变量名,(变量名,n)产生新变量,该变量的前产

23、生新变量,该变量的前n个数个数据为系统缺失值,第据为系统缺失值,第n个以后的个以后的数据为指定的变量值。即将指定数据为指定的变量值。即将指定变量后移变量后移n期后的结果存入新变期后的结果存入新变量,方便时间序列中数据的差分量,方便时间序列中数据的差分计算计算Lag(cz,1):对历年):对历年的产值数据后移的产值数据后移1期期Number(s,格式),格式)s应为数字字符串。应为数字字符串。格式以字符格式以字符f开头开头将将s按照格式要求转换为数值。按照格式要求转换为数值。如果字符串不能转换,则结果为如果字符串不能转换,则结果为系统缺失值系统缺失值 Number(“12345”,f5.2):将

24、字符串):将字符串12345转换为总长度为转换为总长度为5、2位小数的数值型位小数的数值型数据,函数值数据,函数值=123.45String(x,格式),格式)格式以字符格式以字符f开头开头将将x转换成字符型数据转换成字符型数据 String(123.45,f5.1):):将将123.45取一位小数后取一位小数后转换成总长度为转换成总长度为5的字的字符串,函数值符串,函数值=123.54、变量计算的基本操作、变量计算的基本操作 1)转换)转换计算变量计算变量 2)在)在“数字表达式数字表达式”中给出中给出SPSS算术表算术表达式和函数达式和函数 3)在)在“目标变量目标变量”中输入存放计算结果

25、的中输入存放计算结果的变量名变量名 4)个案条件:)个案条件:“如果如果”按钮按钮三、数据选取三、数据选取数据选取:根据分析的需要,从已收集到的大批量数据选取:根据分析的需要,从已收集到的大批量数据数据(总体)(总体)中按照一定的规则抽取部分数据中按照一定的规则抽取部分数据(样(样本)本)参与分析的过程,通常也称为样本抽样。参与分析的过程,通常也称为样本抽样。作用作用提高数据分析效率提高数据分析效率检验模型的需要检验模型的需要常用方法常用方法按指定条件抽样按指定条件抽样随机抽样随机抽样选定某一区域内的样本选定某一区域内的样本通过筛选变量选取样本通过筛选变量选取样本基本操作步骤基本操作步骤 1)

26、数据)数据选择个案选择个案 2)选择抽样方法)选择抽样方法 3)指定对未选中个案的处理方式)指定对未选中个案的处理方式练习练习1 1、利用、利用“职工数据职工数据”进行进行数据排序数据排序 2、复习算术表达式、条件表达式,了解、复习算术表达式、条件表达式,了解SPSS常常用函数用函数 3、利用、利用“职工数据职工数据”计算期望工资计算期望工资 期望工资期望工资=(工资(工资-保险)保险)*1.2 4、如果只希望分析本市户籍的情况,利用、如果只希望分析本市户籍的情况,利用“商商品房购买意向调查数据品房购买意向调查数据”进行进行数据选取数据选取四、计数四、计数 计数区间的描述形式:计数区间的描述形

27、式: 单个变量值单个变量值 系统缺失值系统缺失值 系统缺失值或用户缺失值系统缺失值或用户缺失值 给定最大值和最小值的区间给定最大值和最小值的区间 小于等于某指定值的区间小于等于某指定值的区间 大于等于某指定值的区间大于等于某指定值的区间计数:对所有个案或满足某条件的部分个案,计数:对所有个案或满足某条件的部分个案,计算计算若干个变量中有几个变量的值落在指定的区间内若干个变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量的过程。并将计数结果存入一个新变量的过程。基本操作步骤基本操作步骤 1)转换)转换对个案内的值计数对个案内的值计数 2)选择参与计数的变量)选择参与计数的变量 3)输入存放计数结果的变量名)输入存放计数结果的变量名 4)定义计数区间)定义计数区间示例示例五、分类汇总五、分类汇总分类汇总是按照某分类分别进行计算。分类汇总是按照某分类分别进行计算。SPSSSPSS实现分实现分类汇总涉及两个主要方面:类汇总涉及两个主要方面:1 1)按照哪个变量进行分类按照哪个变量进行分类2 2)对哪个变量进行汇总对哪个变量进行汇总,并指定对汇总变量计算哪,并指定对汇总变量计算哪些统计量些统计量基本操作步骤基本操作步骤 1)数据)数据汇总汇总 2)指定分类变量和汇总变量)指定分类变量和汇总变量 3)单击)单击“函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论