第2讲(SPSS入门)-3自学部分_第1页
第2讲(SPSS入门)-3自学部分_第2页
第2讲(SPSS入门)-3自学部分_第3页
第2讲(SPSS入门)-3自学部分_第4页
第2讲(SPSS入门)-3自学部分_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预测理论与方法授课教师:杨小宝副教授北京交通大学2012.112023/2/3第2讲SPSS入门-自学章节2.2.3SPSS数据的录入、编辑2.2.6SPSS数据文件合并2.3.7数据预处理的其它功能2.4.4多选项分析2.4.5比率分析2.4.6探索性分析SPSS数据的录入(与Excel类似,自学)

SPSS数据的编辑(与Excel类似,自学)

SPSS数据的定位

插入和删除一条个案

插入和删除一个变量

数据的移动、复制和删除2.2.3SPSS数据的录入、编辑1)录入定义好SPSS数据结构后,可将具体的数据输入到SPSS中,最终形成SPSS数据文件。SPSS数据的录入操作在数据编辑窗口中的数据视图(DataView)卡片中实现。其操作方法与EXCEL基本类似,也是以电子表格的方式进行录入。录入带有变量值标签的数据时,可以在下拉按钮中的值标签列表中选择一个作为输入。2)SPSS数据的编辑

数据必须输入正确才能保证正确的分析结果。但很难一次输入正确,所以就需要进行修改,一般包括数据的定位、插入、删除、修改、复制等。2a)SPSS数据的定位

数据的定位目的是将当前数据单元定位到某个特定的单元中。有三种定位方式:

1、按个案号码定位:将当前单元格定位在任何单元格中,选择菜单编辑(Edit)转至个案(GotoCase),出现如下对话框,输入欲定位的个案号码并确认。2.按变量号码定位:编辑(Edit)转至变量(GotoVariable)

3、按变量值定位:编辑Edit查找Find将当前单元定位在某变量列的任何一个个案上选择菜单编辑Edit查找Find,出现如下对话框输入定位变量值并确认于是,SPSS自动对指定的变量进行搜索,并将当前单元定位于定位变量值相等的第一个个案上。2b)插入和删除一个个案插入一个个案,即在数据编辑窗口的某个个案前插入一个新个案:将当前数据单元确定在一个个案上,选择菜单编辑Edit插入个案InsertCase(或工具栏插入个案图标按钮)

删除一个个案,在欲删除的个案号码上单击鼠标左键,于是待删除的个案数据全部反向显示;单击鼠标右键,从弹出菜单中选择清除cut选项。2c)插入和删除一个变量插入一个变量,即在数据编辑窗口的某个变量前插入一个新变量:将当前数据单元确定在一个变量上,选择菜单菜单编辑Edit插入变量InsertVariable删除一个变量,在欲删除的变量名上单击鼠标左键,于是待删除的数据全部反向显示;单击鼠标右键,从弹出菜单中选择清除cut选项。2d)数据的移动、复制和删除

数据的移动、复制和删除:与一般的应用程序相同选择操作对象(变量、个案、若干连续单元等)剪切:Edit+Cut(Ctrl+X)复制:Edit+Copy(Ctrl+C)粘贴:Edit+Paste(Ctrl+V)

恢复删除或修改前数据Edit+Undo(或工具栏Undo图标按钮)纵向合并数据文件横向合并数据文件2.2.6SPSS数据文件合并

当数据量较多时经常会把一份大的数据分成几个小的部分,有几个录入员分别录入,以期加快数据录入速度,但一份完整的数据被分别存储在几个数据文件中,如果要分析这份数据就必须首先将若干个小的数据文件合并起来。要实现两个或多个SPSS数据文件的合并,应首先将其中的某个数据文件读入数据编辑窗口中,然后依次与其他数据文件合并。合并的方式有两种:纵向合并和横向合并。1)纵向合并数据文件从外部数据文件中增加个案到当前数据文件中,称为纵向合并,相互合并的数据文件应该有相同的变量。步骤:打开一个数据文件;菜单:数据Data合并文件MergeFiles添加个案AddCases在弹出窗口中打开一个存在于磁盘上的需要纵合并的文件不同名变量同名变量注意:有变量的Pair(配对)问题,右边的新的活动数据集中的变量VariablesInnewworkingdatafile框中显示的变量名是两个数据文件中都有的变量名,左边的非成对变量UnpairedVariables框中的变量名是两个文件中的不同变量名,其中变量名后面的*表示该变量是当前数据编辑窗口中的变量,+表示该变量是待合并文件中的变量。如果希望在合并后的数据文件中看出个案的来源,可以选择将个案源表示为变量Indicatecasesourceasvariable项将自动生成一个变量名为source01取值0或1的变量。可选择其中的两个变量名并单击对pair按钮指定配对,表示虽名称不同但数据含义是相同,可合并的数据;也可指定某变量,不经匹配,强行合并。匹配合并后的数据结果2)横向合并数据文件从外部数据文件增加变量到当前数据文件,称为横向合并,横向合并文件时要注意以下三个问题:1、相互合并的数据文件必须至少有一个名称相同的变量,该变量是两文件横向合作的依据,称为关键变量;2、两个数据文件都必须先按关键变量进行升序排列;3、不同数据文件中数据含义不相同的数据项变量名不应相同。步骤:打开一个数据文件;菜单:数据Data合并文件MergeFiles添加变量AddVariables在弹出窗口中打开一个存在于磁盘上的需要横向合并的文件横向合并后的数据结果计数数据转置加权处理SPSS缺失值处理数据排秩SPSS变量集2.3.7数据预处理的其它功能(自学)1)计数目的2)计数区间3)计数的基本操作4)计数的应用举例1.计数1)计数目的SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。例如对大学毕业班学生的成绩进行综合测评时,可以依次计算每个学生的若干门课程中有几门课程得了优,有几门课程得了良,有几门课程不及格。SPSS实现计数的关键步骤是:指定哪些变量参与计数,计数的结果存入哪个新变量中指定计数区间(尤为关键)SPSS中的计数区间可以有以下几种描述形式:单个变量值(Value)系统缺失值(System-missing)系统缺失值或用户缺失值(Systemoruser-missing)给定最大值和最小值的区间(nthroughm)小于等于某指定值的区间(Lowestthroughn)大于等于某指定值的区间(nthroughhighest)2)计数区间(1)选择菜单转换Transform对个案内的值计数Count,出现如下窗口:3)计数的基本操作居民储蓄调查数据.sav(2)将参与计数的变量选到

变量(V)NumericVariables框中(3)在目标变量TargetVariable框中输入存放计数结果的变量名,并在目标标签TargetLabel框中输入相应的变量名标签。(4)单击定义值DefineValues按钮定义计数区间,出现如下图窗口:通过单击添加Add、更改Change、删除Remove按钮完成计数区间的增加、修改和删除。(5)如果仅希望对满足某条件的个案进行计数,则单击如果If按钮并输入相应的SPSS条件表达式。否则,本步可略去。居民储蓄调查数据.sav利用居民储蓄调查数据分析近些年储户收入的总体状况。我们认为如果储户收入今年比去年增加了,且认为今后收入仍会增加则认为收入状况较好。试分析有多少个储户的收入状况较好。收入情况为顺序数据,其中1表示增加,2表示基本不变,3表示减少。4)计数的应用举例思路:从两个变量中分别选出其值为1,即收入增加的,计数为1。若两变量都为1,则计数为2结果居民储蓄调查数据.savSPSS的数据转置就是将数据编辑窗口中数据的行列互换。基本操作步骤如下:

(1)选择菜单数据Data转置Transpose。

(2)指定数据转置后应保留哪些变量,将它们选入变量Variables框中,未被选中的变量将在新文件中缺失。

(3)指定转置后数据文件中各变量如何取名。2.数据转置

应选择一个取值唯一的变量(如职工号)作为标记变量并放到名称变量NameVariable框中。转置后数据各变量取名为K_标记变量值(如K_001、K_002、K_003等)。如果略去本步,则转置后数据各变量名默认为VAR00001,VAR00002,VAR00003等。同时,SPSS还会自动产生一个名为Case_lbl的新变量,用来存放原数据文件中的各变量名。注:字符串数据不能转置数据加工(职工数据).sav应用举例结果3)加权处理统计分析中的加权处理是极为常见的,如计算加权平均数等。例如,希望掌握菜市场某天蔬菜销售的平均价格。如果仅用各种蔬菜销售单价的平均数作为平均价格就很不合理,还应考虑到销售量对平均价格的影响。因此,以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数,就能够较准确地反应平均价格水平。SPSS中指定加权变量的操作步骤是:

(1)选择菜单数据Data加权个案WeightCases。

(2)选择加权个案WeightCasesby选项,并将某变量作为加权变量选到WeightCasesby框中。注意的是一旦指定了加权变量,那么以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权应选择请勿对个案加权Donotweightcases选项。

大量的缺失值会给数据分析带来极大的影响,这就需要采用科学的方法对缺失值进行插补。操作步骤如下:

(1)选择菜单转置Transform替换缺失值replacemissingvalues。(2)将需要插补的变量单击按钮送到新变量NewVariables框中,该变量自动会生成一个新的变量,变量名为原变量名_13)在方法Method中选择插补方法。

4)SPSS缺失值处理Seriesmean:该变量所有非缺失值的均值Meanofnearbypoints:该变量相邻非缺失值的均值Medianofnearbypoints:该变量相邻非缺失值的中位数Linearinterpolation:线性内插法(用缺失值前后两点的中点值做替代,如果前后值有一个是缺失值,则得不到替换值)Lineartrendatpoint:用线性拟合方式确定替代值,自变量为1-n的数值。

结果数据排秩是根据某变量观测值的大小,按一定的顺序排秩,生成一个代表其秩次的新变量,但原始观测值本身顺序不发生改变。操作步骤如下:

(1)选择菜单转置Transform个案排秩rankcases(2)将需要排秩的变量单击按钮送到变量Variables框中,该变量自动会生成一个新的变量,变量名为R+原变量名;可选择分类变量到排序标准By框中,如果选择,系统将按照此变量的不同组别分别进行排秩。5)数据排秩(3)选择将秩指定给AssignRank1to下面的复选框选择排秩的顺序。(4)在秩的类型RankTypes对话框中选择排秩方式;在结Ties对话框中选择相同观测值排秩方式。

秩结果=(N+1)/2数据加工(职工数据).sav应用举例实际统计分析中SPSS数据编辑窗口的变量会有几十甚至上百个,此时简化变量选择的操作变显得非常必要,SPSS变量集变是一种通过减少变量显示个数而简化变量选择操作的方式。6)SPSS变量集SPSS变量集是存放许多SPSS变量名的集合。SPSS变量集包括系统变量集和用户变量集两大类。系统变量集用户变量集系统变量集

SPSS事先定义好的的变量集,它包括两个集合,分别名为ALLVARIABLES和NEWVARIABLES。其中ALLVARIABLES变量集中存放数据编辑窗口中的所有变量名,NEWVARIABLES变量集中存放数据编辑窗口中所有尚未存盘的新定义的变量名。这两个系统变量集有时包含的变量名是完全相同的。用户变量集是用户根据实际需要自己定义的变量集,可以有若干个。如果用户仅希望对SPSS众多变量中的某几个变量进行相同的处理及分析,则可以先将这几个变量定义到一个用户变量集中,然后再指定使用这个变量集。于是,在数据处理或分析时,SPSS仅显示指定变量集中的变量名,进而大大减少了显示变量的个数,加快了变量选择的操作速度。1、定义用户变量集

SPSS定义用户变量集的操作步骤如下:(1)选择菜单实用程序Utilities定义变量集DefineSets(2)在设置名称SetName框中输入用户变量集的名称。(3)选择若干变量单击小箭头按钮将它们送到集合中的变量VariablesinSet框中,表示用户变量集将包含这些变量。(4)单击添加集合AddSet按钮将定义的用户变量集加到SPSS变量集中。更改集合ChangeSet按钮可对已定义的用户变量集做修改。删除集合RemoveSet按钮可从SPSS变量集中删去某个用户变量集。2、变量集的使用

SPSS有许多变量集,用户应告知将使用哪个变量集。系统默认使用的变量集是系统变量集。使用SPSS变量集的基本操作步骤如下:(1)选择菜单实用程序Utilities使用变量集UseSets(2)单击小箭头按钮将需使用的变量集选到选择应用的变量集SetinUse框中。还可将不需使用的变量集从SetinUse框中剔出。需要说明的是,在SPSS运行过程中应至少有一个变量集正在被使用,因此在SetinUse框中应至少有一个变量集。结果:现在只包含6个变量居民储蓄调查数据.sav2.4.4多选项分析多选项分析的目的多选项分析的基本操作多选项分析的应用举例1)多选项分析的目的多选项问题的概念:多选项问题是根据实际调查的需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。可以选多个,分为限选和不限选多选项问题分析的一般步骤第一,将多选项问题分解第二,利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。一、多选项问题的分解分解原因:对一个多选项问题仅设置一个SPSS变量在数据处理和分析中是行不通的。解决思路:将问卷中的一道多选项问题分解成若干个问题,对应设置若干个SPSS变量,分别存放描述这些问题的几个可能被选择的答案。分解的两种方法:多选项二分法(MultipleDichotomiesMethod)和多选项分类法(MultipleCategoryMethod)。多选项二分法多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择了该答案和不选择该答案。如对下面问题有9个可能的答案,每个可选择的答案由一个变量表示,每个变量的值只能有表明“是”和“否”的两个代码0或者1。编号调查内容选项

1您喜欢红色吗□是□否

2您喜欢橙色吗□是□否

3您喜欢黄色吗□是□否

4您喜欢绿色吗□是□否

5您喜欢青色吗□是□否

6您喜欢蓝色吗□是□否

7您喜欢紫色吗□是□否

8您喜欢黑色吗□是□否

9您喜欢白色吗□是□否二分法的编码在建立数据文件时,变量名使用相同的变量主名,后面加以不同序号组成,本组问题的9个变量名可以是color1-color9。而答案的编码规则为:回答“是”变量值为1,回答“否”变量值为0,其他值为缺失值。编号调查内容选项

1您喜欢红色吗□是□否

2您喜欢橙色吗□是□否

3您喜欢黄色吗□是□否

4您喜欢绿色吗□是□否

5您喜欢青色吗□是□否

6您喜欢蓝色吗□是□否

7您喜欢紫色吗□是□否

8您喜欢黑色吗□是□否

9您喜欢白色吗□是□否多选项分类法多选项分类法中,首先应估计多选项问题最多可能出现的答案个数;然后为每个答案设置一个SPSS变量,变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色,您可以选择喜欢的三种,在提供的10种答案前上选择。

1、红2、橙3、黄4、绿5、青

6、蓝7、紫8、黑9、白 10、说不清分类法的编码这个问题可以有三个答案。在建立数据文件时,要建立三个变量color1,color2,color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑,则变量color1的值为1,变量color2的值为6,变量color3的值为8。

如果采用多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。如果采用多选分类法,则编码为1,3,5,6,0,0。1356136问题2:您择业中考虑的主要因素有(限选三项)1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9社会地位

10其他

因为限选三项,故应设三个变量,编码依次为1,3,6。2)多选项分析的基本操作首先将每个题的若干答案组成一个综合变量即变量集(Set),然后对综合变量的各种取值进行分析。只有通过定义多选项变量集,SPSS才能确定应对哪些变量取相同值的个案数进行累加。多选项分析在SPSS中是通过分析Analyze多重响应MultipleResponse中的各项功能实现的。居民储蓄调查数据.sav1.定义变量集DefineSets:(1)从左边的变量中将多选变量集的变量选择到集合中的变量variablesinsets框中,建立多选二分变量集或多选分类变量集。(2)在将变量编码为variablesarecodedas框中指定多选变量集中的变量是按照那种方法编码的。二分法Dichotomies表示以多选二分法编码,并在countedvalue中输入用哪个数值来表示选中该选项。类别categories表示以多选分类法编码,并在range框中输入变量取值的最小值和最大值。居民储蓄调查数据.sav(3)为多选项变量集命名,系统会自动在该名字前加字符$。(4)单击添加add按钮将定义好的多选项变量集加到多响应集multiresponsesets框中。SPSS可以定义多个多选项变量集。2.频率Frequencies:对多选变量集进行频数分析。从多响应集multiresponsesets中把待分析的多选项变量集选择到表格tablesfor框中;3.交叉表Crosstabs:对多选变量集与其他变量集或与原基本变量进行交叉表分析。(1)选择列联表的行变量并定义取值范围;(2)选择列联表的列变量并定义取值范围;(3)选择列联表的控制变量并定义取值范围;(4)单击option按钮选择列联表的输出内容和计算方法。Matchvariableacrossresponsesets选项表示,如果列联表的行列变量均为多选项变量集时,第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组,依次类推。结果中:注意PctofResponses(占总回答数的%)和PctofCase(占总个案数%)的区别。3)多选项分析的应用举例利用居民储蓄调查数据进行分析,实现以下两个分析目标:

1.分析储户的储蓄目的;

2.分析不同年龄段储户的储蓄目的。居民储蓄调查数据.sav

分析1.为进行多选项分析,首先定义名为cxmd的多选项变量集,其中包括a7_1、a7_2、a7_3三个变量,然后对多选项变量集进行频数分析;2.对不同年龄段储户储蓄目的进行分析,采用多选项交叉分组下的频数分析。一、定义多变量集(如前述)二、频率分析操作(如下)居民储蓄调查数据.sav频率分析输出结果三、交叉表下的频率分析操作居民储蓄调查数据.sav交叉分组输出结果2.4.5比率分析比率分析的目的和主要指标比率分析的基本步骤与应用举例1)比率分析的目的和主要指标比率分析用于对两变量间变量值比率变化的描述分析,适用于数值型变量。例如根据1999年各地区保险业务情况的数据,分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度。SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴,具体包括:(1)加权比率均值(Weightedmean):两变量均值的比,属集中趋势描述指标。加权比率均值的计算:相对数(或比率)用Y表示,有Y=a/b,a、b为总量指标。求各期Y的平均一般不能采用简单算术平均法,因为各期数据Yi的对比基础bi不同,它们对全期总平均水平的影响作用应轻重有别。计算公式:分别计算其分子、分母的平均数,对比得:

上式实质上等于对各期Y加权算术平均。(2)AAD(AverageAbsoluteDeviation)平均绝对离差:是对比率变量离散程度的描述,计算公式为:其中,是比率数,M是比率变量的中位数,N为样本数(3)COD

(CoefficientofDispersion)离散系数:也是对比率变量离散程度的描述,计算公式为:(4)PRD

(Price-relatedDifferential)相关价格微分:是比率均值与加权比率均值的比,也是比率变量离散程度的描述。(5)COV变异系数:用于对比率变量离散程度的描述,分为基于均值的变异系数(MeancenteredCOV)和中位数的变异系数(MediancenteredCOV)。前者是通常意义下的变异系数,是标准差除以均值;后者定义为:2)

基本步骤与应用举例(1)选择菜单分析Analyze描述统计DescriptiveStatistics比率Radio,出现窗口基本分析(各地区保险业务保费收入).sav(2)将比率变量的分子选择到分子Numerator框中,将比率变量的分母选到分母Denominator框中。(3)如果做不同组间的比率比较,则将分组变量选择到组变量GroupVariable框中。(4)单击统计量Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:基本分析(各地区保险业务保费收入).sav统计量框输出结果2.4.6探索分析探索分析的目的和方法探索分析的基本步骤探索分析的应用举例1)探索分析的目的和方法分析目的和方法奇异性:数据过大或过小(找出、分析原因、是否剔除)分布特征:数据是否来自正态总体考察方法:统计量和统计图形(箱式图、茎叶图、QQ图)一般是考察定距变量

分析Analyze描述统计DescriptiveStatistics探索Explore分析变量(DependentList):数值型变量分组变量(FactorList):分类变量标识变量(LabelCasesby):用某变量的值作为观察值得标识如id2)探索分析的基本步骤选择一个或多个变量进入Dependent框作为分析变量,单击OK可获得分析变量的一系列基本统计量和图形。此作为分组变量,可以是字符变量,对分析变量的分析将按该变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论