利用SSS调查问卷数据_第1页
利用SSS调查问卷数据_第2页
利用SSS调查问卷数据_第3页
利用SSS调查问卷数据_第4页
利用SSS调查问卷数据_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用SPSS分析调查问卷数据马青华问卷数据的预处理SPSS分析调查问卷数据的方法当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以spss为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存.下面将从这四个方面来对问卷的处理做详细的介绍.定义变量大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到DataView,VariableView两个标签,只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位)、label(变量标签)、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类).调查问卷中的数据编码和录入调查问卷中的数据编码和录入调查问卷中的数据编码和录入调查问卷中的数据编码和录入把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值.现在我们以问卷第一个问题为例来说明变量的设置.为了便于说明,可假设此题为:

1.请问你的年龄属于下面哪一个年龄段(

)?

A:20—29

B:30—39

C:40—49

D:50--59变量设置可可如下:

name即变量名为为1,type即类型可根根据答案的的类型设置置,答案我们可可以用1、2、3、4来代替A、B、C、D,所以我们选选择数字型型的,即选选择Numeric,width宽度为4,decimals即小数位数数位为0(因为答案案没有小数数点),label即变量标签签为“年龄段查询询”。Values用于定义具具体变量值值的标签,单击Value框右半部的的省略号,,会弹出变变量值标签签对话框,在第一个文本本框里输入1,第二个输入20—29,然后单击添加加即可.同样道理我们们可做如下设设置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用于定义变变量缺失值,单击missing框右侧的省略略号,会弹出出缺失值对话话框,界面上有一列列三个单选钮钮,默认值为为最上方的“无缺失值”;第二项为“不连续缺失值值”,最多可以定定义3个值;最后一一项为“缺失值范围加加可选的一个个缺失值”,在此我们不不设置缺省值值,所以选中第一一项如图;Colomns,定义显示列列宽,可自己根据实实际情况设置置;Align,定义显示对对齐方式,有居左、居右右、居中三种种方式;Measure,定义变量类类型是连续、、有序分类还还是无序分类类。开放式题型的的设置:诸如你所在的的省份是_____这样的填空题题即为开放题题,设置这些变量量的时候只需需要将Value、Missing两项不设置即即可.数据录入:Spss数据录入方式式在spss的数据录入窗窗口中直接输输入就可以了了,几点注意事项项:a.在数据录入窗窗口,可看到有一个个表格,这个表格中的的每一行代表表一份问卷,也称为一个个个案.b.在数据录入窗窗口中,可看到表格上上方出现了1、2、3、4、5…….的标签名,这其实是我们们在第一步定定义变量中,我们为问卷的的每一个问题题取的变量名名,即1代表第一题,2代表第二题.以次类推.只需要在变量量名下面输入入对应问题的的答案即可完完成问卷的数数据录入.比如上述年龄龄段查询的例例题,如果问卷上勾勾选了A答案,在1下面输入1就行了(不要忘记我们们通常是用1、2、3、4来代替A、B、C、D的).c.一行代表一份份问卷,所以有几分问问卷,就要有有几行行的数数据.在数据据录入入完成成后,要做的的关键键部分分就是问卷的的统计计分析析了.1.读取SPSS格式的的数据据2.读取Excel等格式式的数数据3.读取文文本数数据((Fixed和Delimiter)4.读取数数据库库格式式数据据(分如下下两步步)(1)配置置ODBC(2)在SPSS中通过过ODBC和数据据库进进行Rich.sav数据\Rich.xls数据录录入(rich.sav):福布布斯世世界富富豪排排行榜榜Rank:排名名Name:姓名名Citizenship:国籍籍Region:地区区Age:年龄龄NetWorth:净财财富((10亿美元元)Residence:居住住地问卷调调查数数据常常用的的统计计分析析方法法频数分分析、、描述述统计计分析析和列列联表表分析析这这是问问卷调调查最最基本本、最最常用用的分分析方方法。。频数数分析析是描描述统统计的的初步步,分分门别别类的的统计计有效效样本本量,,计算算其比比重。。频数数分析析可以以计算算的统统计量量有::分位位数、、中位位数、、众数数等,,并可可以绘绘制柱柱状图图、直直方图图、饼饼图。。描述统统计分分析主主要是是计算算一些些基基本的的统计计量,,其中中比较较重要要的统统计量量有均均值、、方差差和标标准差差、峰峰度、、偏度度。数据的的描述述在对数数据进进行深深入加加工之之前,,总应应该对对数据据有所所印象象。可以借借助于于图形形和简简单的的运算算,来来了解解数据据的一一些特特征。。由于数数据是是从总总体中中产生生的,,其特特征也也反映映了总总体的的特征征。对对数据据的描描述也也是对对其总总体的的一个个近似似的描描述。。§1如何用用图来来表示示数据据?定量变变量的的图表表示:1.直方图对于一个定定量变量,,比如某个个地区(地地区1)测量了163个高三男生生的身高(S3height1.txt)。用图形来表表示这个数数据,使人人们能够看看出这个数数据的大体体分布或““形状”的的一个办法法是画直方图(histogram)。图1就是利用这这个数据由由SPSS软件所画的的直方图。。该图的横坐坐标是身高高区间,这这里每一格格代表5cm的身高范围围(格子宽宽度因不同同的数据性性质或要求求而定,这这里的格子子宽度为5cm),而纵坐坐标为各种种身高区间间的身高的的频数。直方图定量变量的的图表示:2.盒型图简单一些的的是盒形图(boxplot,又称箱图图、箱线图图、盒子图图)。图2的左边一个个是根据地地区1高三男生的的身高数据据所绘的盒盒形图;其其右边的图图代表另一一个地区((地区2)的高三学学生的身高高(height.txt,height.sav,第三章例.xls)。盒型图盒子的中间间横线是数数据的中位位数(median),封闭盒子子的上下两两横线(边边)为上下下四分位数数(点);;按照SPSS的默认选项项,如果所所有样本中中的数目都都在离四分分位点1.5倍盒子长度度之内,则则线的端点点为最大和和最小值,,否则线长长就是1.5倍的盒子长长度(盒子子长度称为为四分位间间距),在在其外面的的度量单独独点出定量变量的的图表示:3.茎叶图在直方图和和盒形图中中,很难恢恢复数据的的原貌。而而另一种图图:茎叶图(stem-and-leafplots)可以恢复数数据以地区1高三男生身身高为例((图3),茎叶图图既展示了了分布形状状又有原始始数据。它它象一片带带有茎的叶叶子。茎为为较大位数数的数字,,叶为较小小位数的数数字。茎叶图其中茎叶图图中茎的单单位为10cm,而叶子单单位为1cm。比如,由由于第一行行茎为150cm,因此叶子子中的九个个数字001223344代表九个数数目150、150、151、152、152、153、153、154、154cm等。每行行左边有有一个频频数(比比如第一一行有9个数目,,第二行行有17个等等));可以以看出最最长的一一行为从从165cm到169cm的一段((有35个数)。。定量变量量的图表表示:4.散点图数据会有有两个变变量,如如美国男男士和女女士初婚婚年限数数据(marriage.txt)。该数据描描述了自自1900年到1998年男女第第一次婚婚姻延续续的时间间。这里年份份是一个个变量,,婚姻延延续时间间是第二二个变量量。由于于不可能能将所有有人的婚婚姻年限限都给出出来,所所以每年年就取了了一个中中间的值值(中位数)作为代表表。散点图定性变量量的图表表示:饼饼图定性变量量(或属属性变量量,分类类变量))不能点点出直方方图、散散点图或或茎叶图图,但可可以描绘绘出它们们各类的的比例。。下面用SPSS绘的图5(饼图,,piechart)表示了说说世界各各种主要要语言人人数的比比例(language.txt).饼图定性变量量的图表表示:条条形图而用同样样数据画画的图6称为条形图((barchart)。从每一条条可以看看出讲各各种语言言的实际际人数,,而且分分别给出出了每个个语种中中母语和和日常使使用的人人数(在在图中并并排放置置)。条条形图显显示比例例不如饼饼图直观观。条形图如何用少少量数字字来概括括数据??大量的数数字既繁繁琐又不不直观;;需要对对数据做做人们时时间和耐耐心所允允许的简简化我们可以以用““平均””,“差差距”或或百分比比等来概概括大量量数字。。由于定性性变量主主要是计计数,比比较简单单,常用用的概括括就是比比例或百百分比。。下面主主要介绍绍关于定定量变量量的数字字描述。。小结例(rich.sav):福布斯斯世界富富豪排行行榜Rank:排名Name:姓名Citizenship:国籍Region:地区Age:年龄NetWorth:净财富富(10亿美元))Residence:居住地地37定量变量量的图表表示直方图Age,NetWorthSPSS:GraphsInteractiveHistogram38横坐标要研究的的变量的的取值范范围格子的宽宽度因数数据性质质而定纵坐标频数百分比数据分布布的简单单描述单峰/双峰对称/非对称数据的疏疏密39盒型图不同区域域年龄分分布SPSS:GraphsInteractiveBoxplot40中间横线线中位数封闭盒子子的上下下两边上下四分分位点线段的端端点最大值,,最小值值(线长长小于1.5倍盒长))离群点(outlier),极端值(extreme)41茎叶图欧洲区域富人人的年龄龄SPSS:AnalyzeDescriptiveStatisticsExploreFrequencyStem&Leaf1.00Extremes(=<22)2.003.449.003.7899999997.008.55668992.009.221.009.5Stemwidth:10.00Eachleaf:1case(s)42茎的单位位:10岁叶的单位位:1岁优点还原原始始数据类似直方方图显示示数据分分布缺点无法描述述大量数数据不常用43散点图两个定量量变量之之间的关关系:年年龄和财财富SPSS:GraphsInteractiveScatterplot44定性变量量的图表表示饼图RegionSPSS:GraphsInteractivePie类别不宜宜过多45条形图RegionSPSS:GraphsInteractiveBar不同于直方图图46§2如何用少量数数字来概括数数据?可用少量所谓谓汇总统计量量或概括统计量(summarystatistic)来描述定量变变量的数据。。这些数字是从从样本数据得得来的,因而而也是样本的的函数,任何样本的函函数,只要不不包含总体的的未知参数,,都称为统计量(statistic)。样本的随机性性决定统计量量的随机性((统计量也是是随机变量))§2如何用少量数数字来概括数数据?概括统计量经经常对应于总总体的无法观观测到的某些些参数。这时,统计量量可作为这些些参数的估计计。一些统计计量还可以用用来检验样本本和假设的总总体是否一致致。§2如何用少量数数字来概括数数据?注:一些统计量前前面有时加上上“样本”二二字,以区别别于总体的同同名参数。如如“样本均值值”和“样本本标准差”,,以区别于总总体均值和总总体标准差;;但在不会混混淆时可以只只说“均值””和“标准差差”。数据的“位置置”数据有位置吗吗?这里三个数据据的位置一样样吗?数据的“位置置”“位置”一般是是关于数据中中某变量观测测值的“中心心位置”或者者数据分布的的中心(center或centertendency)。和这种“位置置”有关的统统计量就称为为位置统计量(locationstatistic)。位置统计量当当然不一定都都是描述“中中心”了,比比如后面要讲讲的k百分位数(或或k%分位数)。。数据的“位置置”最常用的位置置统计量就是是小学时所学学到的算术平平均数,它在在统计中叫做做均值(mean);严格地说叫叫做样本均值值(samplemean),以区别于总总体均值。如果记样本中中的观测值为为x1,…,xn,则样本均值值定义为(样本)中位数(median)是数据按照大大小排列之后后位于中间的的那个数(如果样本量为为奇数),或者中间两两个数目的平平均(如果样本量为为偶数)。由于中位数不不易被极端值值影响,所以以中位数比均均值稳健(robust)。数据的“位置置”上下四分位数数(或分别称为为第一四分位数数和第三四分分位数,firstquantile,thirdquantile)则分别位于((按大小排列列的)数据的的上下四分之之一的地方。。数据的“位置置”数据的“位置置”一般地还称上上四分位数为为75百分位数(75pecentile,有75%的观测值小小于它),下下四分位数为为25百分位数(有25%的观测值小小于它)。一般地,k百分位数(k-pecentile)意味着有k%的观测值小小于它。如果令a=k%,则k百分位数也称称为a分位数(a-quantile)。样本中出现最最多的数目,,称为众数(mode)数据的“尺度度”这两个数据““胖瘦”一样样吗?数据的“尺度度”数据中数目的的分散程度由由尺度统计量((scalestatistic)来描述。尺度统计量是是描述数据散散布,即描述述集中与分散散程度或变化化(spread或variability)的度量。数据的“尺度度”从前面两个高高三男生身高高数据的盒形形图。左边的的数据平均要要高些,但右右边的数据散散布范围要小小得多。统计中有许多多尺度统计量量。一般来说说,数据越分分散,尺度统统计量的值越越大。数据的“尺度度”极差(range);就是极大值值和极小值之之间的差。前面两个高三三男生身高数数据的极差分分别为50cm和32cm。盒形图盒子的的长度为两个个四分位数之之差,称为四分位数极差差或四分位间间距(interquantilerange);它描述了中中间半数观测测值的散布情情况。极差和和四分位极差差实际上各自自只依赖于两两个值,信息息量太少。数据的“尺度度”另一个常用的的尺度统计量量为(样本))标准差(standarddeviation)。度量样本中中各数值到均均值距离的一一种平均。标准差实际上上是方差(variance)的平方根。如如果记样本中中的观测值为为x1,…,xn,则样本方差差为数据的“尺度度”两个均值一样样,但右边的的要“胖”些些,方差为左左边的一倍数据的标准得得分假定两个水平平类似的班级级(一班和二二班)上同一一门课,但是由于两个个任课老师的的评分标准不不同,使得两两个班成绩的的均值和标准准差都不一样样(数据:grade.txt)。数据的标准得得分一班分数的均均值和标准差差分别为78.53和9.43,而二班的均均值和标准差差分别为70.19和7.00。那么得到90分的一班的的张颖是不不是比得到到82分的二班的的刘疏成绩绩更好呢??怎么比较较才能合理理呢?数据的标准准得分虽然这种均均值和标准准差不同的的数据不能能够直接比比较,但是是可以把它它们进行标标准化,再再比较标准准化后的数数据。一个标准化化的方法是是把某样本本原始观测测值(亦称称得分,score)和该样本本均值之差差除以该样样本的标准准差;得到到的度量称称为标准得分(standardscore,又称为z-score)。数据的标准准得分即,某观测测值xi的标准得分分定义为数据的标准准得分在我们的例例子中,张张颖的标准准得分为(90-78.53)/9.43=1.22,而刘疏的的标准得分分为(82-70.19)/7=1.69。显然如果两两个班级平平均水平差差不多,刘刘疏的成绩绩应该优于于张颖的成成绩;这是是在标准化化之前的数数据中不易易看到的。。可以看出,,原始数据据是在各自自的均值附附近,而散散布也不一一样。但它它们的标准准得分则在在0周围散布,,而且散布布也差不多多。实际上上,任何样样本经过这这样的标准准化后,就就都变换成成均值为0、方差为1的样本。标标准化后不不同样本观观测值的比比较只有相相对意义,,没有绝对对意义。小结统计量:(statistic)样本的函数数,不包括括总体的未未知参数随机变量((样本的随随机性)作为总体参参数的估计计68数据的位置置(location)样本均值((samplemean)中位数(median):稳健k百分位数((k-percentile)众数(mode):定性变量69SPSS:AnalyzeDescriptiveStatisticsExplore/Frequencies/Descriptives例(rich.sav):Age70数据的尺度度(scale)极差(range)四分位数极极差(interquantilerange)方差(variance)标准差(standarddeviation)标准误差((standarderror)71SPSS:AnalyzeDescriptiveStatisticsExplore/Frequencies/Descriptives例(rich.sav):Age72数据的标准准得分样本原始观观测值与样样本均值之之差除以样样本标准差差新样本:均均值0,方差:1(grade.sav)数据的变换换指数对数7374基本背景调调查样本量:65(outof81)SPSS:AnalyzeDescriptiveStatisticsFrequencies75767778798081建议统计眼光,,统计思想想分析方法,实实际应用软件使用821频数分析:Frequencies过程可以做单单变量的频数数分布表;显显示数据文件件中由用户指指定的变量的的特定值发生生的频数;获获得某些描述述统计量和描描述数值范围围的统计量。。适用范围:单单选题,排序序题,多选题题的方法二实现:Descriptivestatistics……Frequencies2描述分析:Descriptives:过程可以计算算单变量的描描述统计量。。这些述统计计量有平均值值、算术和、、标准差,最最大值、最小小值、方差、、范围和平均均数标准误等等。适用范围:选选择并排序题题、开放性数数值题。实现:Descriptivestatistics……Descriptives,需要的统计计量点击按钮钮Statistics……中选择总结3多重反应下的的频次分析::适用范围:多多选题的二分分法实现:第一步步在MultipleResponse……DefineSets把一道多选问问题中定义了了的所有变量量集合在一起起,给新的集集合变量取名名,在DichotomiesCountedvalue中输入1。第二步在MultipleResponse……Frequencies中做频数分析析。4交叉频数分析析:解决对多变量量的各水平组组合的频数分分析的问题适用范围:,,适用于由两两个或两个以以上变量进行行交叉分类形形成的列联表表,对变量之之间的关联性性进行分析。。比如要知道道不同工作性性质的人上班班使用交通工工具的情况,,可以通过交交叉分析得到到一个二维频频数表则一目目了然。实现:第一步步根据分析的的目的来确定定交叉分析的的选项,确定定控制变量和和解释变量((如上例中不不同工作性质质的人是控制制变量,使用用交通工具是是解释变量))。第二步选选择Descriptivestatistics……Crosstabs9、静夜夜四无无邻,,荒居居旧业业贫。。。1月-231月-23Friday,January6,202310、雨中中黄叶叶树,,灯下下白头头人。。。21:05:3421:05:3421:051/6/20239:05:34PM11、以我我独沈沈久,,愧君君相见见频。。。1月-2321:05:3421:05Jan-2306-Jan-2312、故人江江海别,,几度隔隔山川。。。21:05:3421:05:3421:05Friday,January6,202313、乍见翻疑梦梦,相悲各问问年。。1月-231月-2321:05:3421:05:34January6,202314、他乡乡生白白发,,旧国国见青青山。。。06一一月月20239:05:34下下午21:05:341月-2315、比不了了得就不不比,得得不到的的就不要要。。。。一月239:05下午午1月-2321:05January6,202316、行动出成果果,工作出财财富。。2023/1/621:05:3421:05:3406January202317、做前前,能能够环环视四四周;;做时时,你你只能能或者者最好好沿着着以脚脚为起起点的的射线线向前前。。。9:05:34下下午9:05下下午午21:05:341月-239、没有有失败败,只只有暂暂时停停止成成功!!。1月-231月-23Friday,January6,202310、很多事事情努力力了未必必有结果果,但是是不努力力却什么么改变也也没有。。。21:05:3421:05:3421:051/6/20239:05:3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论