SSS调查问卷数据的方法_第1页
SSS调查问卷数据的方法_第2页
SSS调查问卷数据的方法_第3页
SSS调查问卷数据的方法_第4页
SSS调查问卷数据的方法_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

利用SPSS分析调查问卷数据马青华问卷数据的预处理SPSS分析调查问卷数据的方法当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以spss为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存.下面将从这四个方面来对问卷的处理做详细的介绍.定义变量大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到DataView,VariableView两个标签,只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位)、label(变量标签)、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类).调查问卷中的数据编码和录入调查问卷中的数据编码和录入调查问卷中的数据编码和录入调查问卷中的数据编码和录入把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值.现在我们以问卷第一个问题为例来说明变量的设置.为了便于说明,可假设此题为:

1.请问你的年龄属于下面哪一个年龄段(

)?

A:20—29

B:30—39

C:40—49

D:50--59变量设置置可如下下:

name即变量名名为1,type即类型可可根据答答案的类类型设置置,答案我们们可以用用1、2、3、4来代替A、B、C、D,所以我们们选择数数字型的的,即选选择Numeric,width宽度为4,decimals即小数位位数位为为0(因为答答案没有有小数点点),label即变量标标签为“年龄段查查询”。Values用于定义义具体变变量值的的标签,单击Value框右半部部的省略略号,会会弹出变变量值标标签对话话框,在第一个个文本框框里输入入1,第二个输输入20—29,然后单击击添加即即可.同样道理理我们可可做如下下设置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用于定定义变量量缺失值值,单击missing框右侧的的省略号号,会弹弹出缺失失值对话话框,界面上有有一列三三个单选选钮,默默认值为为最上方方的“无缺失值值”;第二项项为“不连续缺缺失值”,最多可可以定义义3个值;最最后一项项为“缺失值范范围加可可选的一一个缺失失值”,在此我我们不设设置缺省省值,所以选中中第一项项如图;;Colomns,定义显显示列宽宽,可自己根根据实际际情况设设置;Align,定义显显示对齐齐方式,有居左、、居右、、居中三三种方式式;Measure,定义变变量类型型是连续续、有序序分类还还是无序序分类。。开放式题题型的设设置:诸如你所所在的省省份是_____这样的填填空题即即为开放放题,设置这些些变量的的时候只只需要将将Value、Missing两项不设设置即可可.数据录入入:Spss数据录入入方式在spss的数据录录入窗口口中直接接输入就就可以了了,几点注意意事项:a.在数据录录入窗口口,可看到有有一个表表格,这个表格格中的每每一行代代表一份份问卷,也称为一一个个案案.b.在数据录录入窗口口中,可看到表表格上方方出现了了1、2、3、4、5…….的标签名名,这其实是是我们在在第一步步定义变变量中,我们为问问卷的每每一个问问题取的的变量名名,即1代表第一一题,2代表第二二题.以次类推推.只需要在在变量名名下面输输入对应应问题的的答案即即可完成成问卷的的数据录录入.比如上述年龄龄段查询的例例题,如果问卷上勾勾选了A答案,在1下面输入1就行了(不要忘记我们们通常是用1、2、3、4来代替A、B、C、D的).c.一行代表一份份问卷,所以有几分问问卷,就要有几行的的数据.在数据录入完完成后,要做的关键部部分就是问卷的统计分分析了.1.读取SPSS格式的数据2.读取Excel等格式的数据据3.读取文本数据据(Fixed和Delimiter)4.读取数据库格格式数据(分如下两步)(1)配置ODBC(2)在SPSS中通过ODBC和数据库进行行Rich.sav数据\Rich.xls数据录入(rich.sav):福布斯世界界富豪排行榜榜Rank:排名Name:姓名Citizenship:国籍Region:地区Age:年龄NetWorth:净财富(10亿美元)Residence:居住地问卷调查数据据常用的统计计分析方法频数分析、描描述统计分析析和列联表分分析这是问问卷调查最基基本、最常用用的分析方法法。频数分析析是描述统计计的初步,分分门别类的统统计有效样本本量,计算其其比重。频数数分析可以计计算的统计量量有:分位数数、中位数、、众数等,并并可以绘制柱柱状图、直方方图、饼图。。描述统计分析析主要是计算算一些基本本的统计量,,其中比较重重要的统计量量有均值、方方差和标准差差、峰度、偏偏度。数据的描述在对数据进行行深入加工之之前,总应该该对数据有所所印象。可以借助于图图形和简单的的运算,来了了解数据的一一些特征。由于数据是从从总体中产生生的,其特征征也反映了总总体的特征。。对数据的描描述也是对其其总体的一个个近似的描述述。§1如何用图来表表示数据?定量变量的图图表示:1.直方图对于一个定量量变量,比如如某个地区((地区1)测量了163个高三男生的的身高(S3height1.txt)。用图形来表示示这个数据,,使人们能够够看出这个数数据的大体分分布或“形状状”的一个办办法是画直方图(histogram)。图1就是利用这个个数据由SPSS软件所画的直直方图。该图的横坐标标是身高区间间,这里每一一格代表5cm的身高范围((格子宽度因因不同的数据据性质或要求求而定,这里里的格子宽度度为5cm),而纵坐标标为各种身高高区间的身高高的频数。直方图定量变量的图图表示:2.盒型图简单一些的是是盒形图(boxplot,又称箱图、、箱线图、盒盒子图)。图2的左边一个是是根据地区1高三男生的身身高数据所绘绘的盒形图;;其右边的图图代表另一个个地区(地区区2)的高三学生生的身高(height.txt,height.sav,第三章例.xls)。盒型图盒子的中间横横线是数据的的中位数(median),封闭盒子的的上下两横线线(边)为上上下四分位数数(点);按按照SPSS的默认选项,,如果所有样样本中的数目目都在离四分分位点1.5倍盒子长度之之内,则线的的端点为最大大和最小值,,否则线长就就是1.5倍的盒子长度度(盒子长度度称为四分位位间距),在在其外面的度度量单独点出出定量变量的图图表示:3.茎叶图在直方图和盒盒形图中,很很难恢复数据据的原貌。而而另一种图::茎叶图(stem-and-leafplots)可以恢复数据据以地区1高三男生身高高为例(图3),茎叶图既既展示了分布布形状又有原原始数据。它它象一片带有有茎的叶子。。茎为较大位位数的数字,,叶为较小位位数的数字。。茎叶图其中茎叶图中中茎的单位为为10cm,而叶子单位位为1cm。比如,由于于第一行茎为为150cm,因此叶子中中的九个数字字001223344代表九个数目目150、150、151、152、152、153、153、154、154cm等。每行左边边有一个频数数(比如第一一行有9个数目,第二二行有17个等等);可可以看出最长长的一行为从从165cm到169cm的一段(有35个数)。定量变量的图图表示:4.散点图数据会有两个个变量,如美美国男士和女女士初婚年限限数据(marriage.txt)。该数据描述了了自1900年到1998年男女第一次次婚姻延续的的时间。这里年份是一一个变量,婚婚姻延续时间间是第二个变变量。由于不不可能将所有有人的婚姻年年限都给出来来,所以每年年就取了一个个中间的值(中位数)作为代表。散点图定性变量的图图表示:饼图图定性变量(或或属性变量,,分类变量))不能点出直直方图、散点点图或茎叶图图,但可以描描绘出它们各各类的比例。。下面用SPSS绘的图5(饼图,piechart)表示了说世界界各种主要语语言人数的比比例(language.txt).饼图定性变量的图图表示:条形形图而用同样数据据画的图6称为条形图(barchart)。从每一条可以以看出讲各种种语言的实际际人数,而且且分别给出了了每个语种中中母语和日常常使用的人数数(在图中并并排放置)。。条形图显示示比例不如饼饼图直观。条形图如何用少量数数字来概括数数据?大量的数字既既繁琐又不直直观;需要对对数据做人们们时间和耐心心所允许的简简化我们可以用““平均”,,“差距”或或百分比等来来概括大量数数字。由于定性变量量主要是计数数,比较简单单,常用的概概括就是比例例或百分比。。下面主要介介绍关于定量量变量的数字字描述。37小结例(rich.sav):福布斯世界界富豪排行榜榜Rank:排名Name:姓名Citizenship:国籍Region:地区Age:年龄NetWorth:净财富(10亿美元)Residence:居住地38定量变量的图图表示直方图Age,NetWorthSPSS:GraphsInteractiveHistogram39横坐标要研究的变量量的取值范围围格子的宽度因因数据性质而而定纵坐标频数百分比数据分布的简简单描述单峰/双峰对称/非对称数据的疏密40盒型图不同区域年龄龄分布SPSS:GraphsInteractiveBoxplot41中间横线中位数封闭盒子的上上下两边上下四分位点点线段的端点最大值,最小小值(线长小小于1.5倍盒长)离群点(outlier),极端值(extreme)42茎叶图欧洲区域富人的年年龄SPSS:AnalyzeDescriptiveStatisticsExploreFrequencyStem&Leaf1.00Extremes(=<22)2.003.449.003.78999999918.004.00000111233334444414.004.5555567778999927.005.00001111111222333333334444422.005.555566666677788888999927.006.00011111111222222233344444423.006.5555556667888888889999916.007.000000011112333318.007.55566667788899999912.008.0002222333447.008.55668992.009.221.009.5Stemwidth:10.00Eachleaf:1case(s)43茎的单位:10岁叶的单位:1岁优点还原原始数据据类似直方图显显示数据分布布缺点无法描述大量量数据不常用44散点图两个定量变量量之间的关系系:年龄和财财富SPSS:GraphsInteractiveScatterplot45定性变量的图图表示饼图RegionSPSS:GraphsInteractivePie类别不宜过多多46条形图RegionSPSS:GraphsInteractiveBar不同于直方图图§2如何用少量数数字来概括数数据?可用少量所谓谓汇总统计量量或概括统计量(summarystatistic)来描述定量变变量的数据。。这些数字是从从样本数据得得来的,因而而也是样本的的函数,任何样本的函函数,只要不不包含总体的的未知参数,,都称为统计量(statistic)。样本的随机性性决定统计量量的随机性((统计量也是是随机变量))§2如何用少量数数字来概括数数据?概括统计量经经常对应于总总体的无法观观测到的某些些参数。这时,统计量量可作为这些些参数的估计计。一些统计计量还可以用用来检验样本本和假设的总总体是否一致致。§2如何用少量数数字来概括数数据?注:一些统计量前前面有时加上上“样本”二二字,以区别别于总体的同同名参数。如如“样本均值值”和“样本本标准差”,,以区别于总总体均值和总总体标准差;;但在不会混混淆时可以只只说“均值””和“标准差差”。数据的“位置置”数据有位置吗吗?这里三个数据据的位置一样样吗?数据的“位置置”“位置”一般是是关于数据中中某变量观测测值的“中心心位置”或者者数据分布的的中心(center或centertendency)。和这种“位置置”有关的统统计量就称为为位置统计量(locationstatistic)。位置统计量当当然不一定都都是描述“中中心”了,比比如后面要讲讲的k百分位数(或或k%分位数)。。数据的“位置置”最常用的位置置统计量就是是小学时所学学到的算术平平均数,它在在统计中叫做做均值(mean);严格地说叫叫做样本均值值(samplemean),以区别于总总体均值。如果记样本中中的观测值为为x1,…,xn,则样本均值值定义为(样本)中位数(median)是数据按照照大小排列列之后位于于中间的那那个数(如果样本量量为奇数),或者中间间两个数目目的平均(如果样本量量为偶数)。由于中位数数不易被极极端值影响响,所以中中位数比均均值稳健(robust)。数据的“位位置”上下四分位位数(或分别称称为第一四分位位数和第三三四分位数数,firstquantile,thirdquantile)则分别位于于(按大小小排列的))数据的上上下四分之之一的地方方。数据的“位位置”数据的“位位置”一般地还称称上四分位位数为75百分位数((75pecentile,有75%的观测值值小于它)),下四分分位数为25百分位数(有25%的观测值值小于它))。一般地,k百分位数(k-pecentile)意味着有有k%的观测值值小于它。。如果令a=k%,则k百分位数也也称为a分位数(a-quantile)。样本中出现现最多的数数目,称为为众数(mode)数据的“尺尺度”这两个数据据“胖瘦””一样吗??数据的“尺尺度”数据中数目目的分散程程度由尺度统计量量(scalestatistic)来描述。尺度统计量量是描述数数据散布,,即描述集集中与分散散程度或变变化(spread或variability)的度量。。数据的“尺尺度”从前面两个个高三男生生身高数据据的盒形图图。左边的的数据平均均要高些,,但右边的的数据散布布范围要小小得多。统计中有许许多尺度统统计量。一一般来说,,数据越分分散,尺度度统计量的的值越大。。数据的“尺尺度”极差(range);就是极大大值和极小小值之间的的差。前面两个高高三男生身身高数据的的极差分别别为50cm和32cm。盒形图盒子子的长度为为两个四分分位数之差差,称为四分位数极极差或四分分位间距(interquantilerange);它描述了了中间半数数观测值的的散布情况况。极差和和四分位极极差实际上上各自只依依赖于两个个值,信息息量太少。。数据的“尺尺度”另一个常用用的尺度统统计量为((样本)标准差(standarddeviation)。度量样本本中各数值值到均值距距离的一种种平均。标准差实际际上是方差(variance)的平方根。。如果记样样本中的观观测值为x1,…,xn,则样本方方差为数据的“尺尺度”两个均值一一样,但右右边的要““胖”些,,方差为左左边的一倍倍数据的标准准得分假定两个水水平类似的的班级(一一班和二班班)上同一一门课,但是由于两两个任课老老师的评分分标准不同同,使得两两个班成绩绩的均值和和标准差都都不一样(数据:grade.txt)。数据的标准准得分一班分数的的均值和标标准差分别别为78.53和9.43,而二班的的均值和标标准差分别别为70.19和7.00。那么得到90分的一班的的张颖是不不是比得到到82分的二班的的刘疏成绩绩更好呢??怎么比较较才能合理理呢?数据的标准准得分虽然这种均均值和标准准差不同的的数据不能能够直接比比较,但是是可以把它它们进行标标准化,再再比较标准准化后的数数据。一个标准化化的方法是是把某样本本原始观测测值(亦称称得分,score)和该样本本均值之差差除以该样样本的标准准差;得到到的度量称称为标准得分(standardscore,又称为z-score)。数据的标准准得分即,某观测测值xi的标准得分分定义为数据的标准准得分在我们的例例子中,张张颖的标准准得分为(90-78.53)/9.43=1.22,而刘疏的的标准得分分为(82-70.19)/7=1.69。显然如果两两个班级平平均水平差差不多,刘刘疏的成绩绩应该优于于张颖的成成绩;这是是在标准化化之前的数数据中不易易看到的。。可以看出,,原始数据据是在各自自的均值附附近,而散散布也不一一样。但它它们的标准准得分则在在0周围散布,,而且散布布也差不多多。实际上上,任何样样本经过这这样的标准准化后,就就都变换成成均值为0、方差为1的样本。标标准化后不不同样本观观测值的比比较只有相相对意义,,没有绝对对意义。68小结统计量:(statistic)样本的函数数,不包括括总体的未未知参数随机变量((样本的随随机性)作为总体参参数的估计计69数据的位置置(location)样本均值((samplemean)中位数(median):稳健k百分位数((k-percentile)众数(mode):定性变量70SPSS:AnalyzeDescriptiveStatisticsExplore/Frequencies/Descriptives例(rich.sav):Age71数据的尺度度(scale)极差(range)四分位数极极差(interquantilerange)方差(variance)标准差(standarddeviation)标准误差((standarderror)72SPSS:AnalyzeDescriptiveStatisticsExplore/Frequencies/Descriptives例(rich.sav):Age73数据的标准准得分样本原始观观测值与样样本均值之之差除以样样本标准差差新样本:均均值0,方差:1(grade.sav)数据的变换换指数对数7475基本背景调调查样本量:65(outof81)SPSS:AnalyzeDescriptiveStatisticsFrequencies76777879808182建议统计眼光,,统计思想想分析方法,,实际应用用软件使用1频数分析::Frequencies过程可以做做单变量的的频数分布布表;显示示数据文件件中由用户户指定的变变量的特定定值发生的的频数;获获得某些描描述统计量量和描述数数值范围的的统计量。。适用范围::单选题,,排序题,,多选题的的方法二实现:Descriptivestatistics……Frequencies2描述分析::Descriptives:过程可以计计算单变量量的描述统统计量。这这些述统计计量有平均均值、算术术和、标准准差,最大大值、最小小值、方差差、范围和和平均数标标准误等。。适用范围::选择并排排序题、开开放性数值值题。实现:Descriptivestatistics……Descriptives,需要的统统计量点击击按钮Statistics…中选择总结3多重反应下下的频次分分析:适用范围::多选题的的二分法实现:第一一步在MultipleResponse……DefineSets把一道多选选问题中定定义了的所所有变量集集合在一起起,给新的的集合变量量取名,在在DichotomiesCountedvalue中输入1。第二步在在MultipleResponse……Frequencies中做频数分分析。4交叉频数分分析:解决对多变变量的各水水平组合的的频数分析析的问题适用范围::,适用于于由两个或或两个以上上变量进行行交叉分类类形成的列列联表,对对变量之间间的关联性性进行分析析。比如要要知道不同同工作性质质的人上班班使用交通通工具的情情况,可以以通过交叉叉分析得到到一个二维维频数表则则一目了然然。实现:第一一步根据分分析的目的的来确定交交叉分析的的选项,确确定控制变变量和解释释变量(如如上例中不不同工作性性质的人是是控制变量量,使用交交通工具是是解释变量量)。第二二步选择Descriptivestatistics……Crosstabs9、静静夜夜四四无无邻邻,,荒荒居居旧旧业业贫贫。。。。1月月-231月月-23Wednesday,January4,202310、雨中黄黄叶树,,灯下白白头人。。。23:04:0323:04:0323:041/4/202311:04:03PM11、以我我独沈沈久,,愧君君相见见频。。。1月-2323:04:0323:04Jan-2304-Jan-2312、故人江海海别,几度度隔山川。。。23:04:0323:04:0323:04Wednesday,January4,202313、乍见翻疑梦梦,相悲各问问年。。1月-231月-2323:04:0323:04:03January4,202314、他乡乡生白白发,,旧国国见青青山。。。04一一月月202311:04:03下下午午23:04:031月-2315、比不了了得就不不比,得得不到的的就不要要。。。。一月2311:04下下午1月-2323:04January4,202316、行动出出成果,,工作出出财富。。。2023/1/423:04:0323:04:0304January202317、做前,能能够环视四四周;做时时,你只能能或者最好好沿着以脚脚为起点的的射线向前前。。11:04:03下下午11:04下午23:04:031月-239、没有失败败,只有暂暂时停止成成功!。1月-231月-23Wednesday,January4,202310、很多事情努努力了未必有有结果,但是是不努力却什什么改变也没没有。。23:04:0323:04:0323:041/4/202311:04:03PM11、成功就是是日复一日日那一点点点小小努力力的积累。。。1月-2323:04:0323:04Jan-2304-Jan-2312、世世间间成成事事,,不不求求其其绝绝对对圆圆满满,,留留一一份份不不足足,,可可得得无无限限完完美美。。。。23:04:0323:04:0323:04Wednesday,January4,202313、不知香香积寺,,数里入入云峰。。。1月-231月-2323:04:0323:04:03January4,202314、意志志坚强强的人人能把把

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论