版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、缺失值处理缺失值是数据分析中一个非常常见的现象,出现的主要原因有:设备故障、拒绝回答、测验时走神等,对此应对缺失值的进行检测,SPSS默认缺失值以黑点表示,可以通过快速浏览数据列表发现,记录下缺失值所在的变量即数据的列。缺失值的处理方式有以下三种:剔除有缺失值的观测单位,即删除SPSS数据列表中缺失值所在的数据行。在SPSS的统计分析程序中,打开options按钮,便会出现缺失值的处理栏,可分别选择下列选项:“剔除正在分析的变量中带缺失值的观察单位”、“剔除所有分析变量中带缺失值的观察单位”。虽然这种做法可以为执行许多统计分析命令扫清障碍,但要求每一步统计分析都联系于特定的有效样本容量,而
2、样本容量不能稳定会给整个分析带来不便。对缺失值进行估计后补上。主要有两种方法:一是根据文献报道等知识经验进行估计;二是用SPSS提供的工具进行估计。在“transform菜单下的“replacemissingvalues列出了5种替代的方法:seriesmean:以列的算术平均值进行替代;meanofnearlypoint:以缺失值邻近点的算术平均值进行替代;Medianofnearlypoint:以缺失值临近点的中位数替代;linearinterpolation:根据缺失值前后的2个观察值进行线性内查法估计和替代;lineartrendatpoint:用线形回归法进行估计和替代。将缺失值作为
3、常数值,如:作为“0”。2、奇异值和极端值的处理奇异值和极端值是指各变量中与整体数据相距太远的极值,由于它的夸大作用,常常会歪曲统计结果,导致犯一类和二类错误。导致奇异值和极端值的原因:(1)数据输入时出错;(2)在不同数据格式之间进行转换时缺失值处的数码代号被当成了实际观测值;(3)出现奇异值的样本并非属于所要考察的总体;(4)考察的样本相对于正态分布有比较多的极值。奇异值和极端值的检测:在描述统计分析菜单下,点击Explore(探索性分析)对话框后把变量选入Variables框中,单击统计量选择描述统计量,单击图可以选择箱形图、茎叶图、直方图与正态检验的QQ图等检测有无极端值和奇异值。通过
4、箱形图可以发现数据中的异常点,对数据进行核对、检验和筛选。以箱形图为例,箱形图中都标有奇异值的行号。箱形图图形的含义是:中间的粗线为中位数,灰色的箱体为四分位,两头伸出的线条表现极端值(下线为最小值、上线为最大值)。箱形图用离群值和极端值表示那些在绳索外侧的值。离群值,是指值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案,在图种用“o”号表示。极端值是指值距离框的上下边界超过3倍框长的个案,用“”号表示。框的长度是四分位数之间的全距。如图1所示,对某问卷中家庭收入进行分析的箱形图中既有离群值也有极端值。图中3个极端值分别位于:81号家庭、93号家庭、62号;此外2个离群值为:6
5、7号家庭、76号家庭。有时,鉴于81号家庭远远游离于箱体、绳索及邻近的极端值所组成的群体之外,可以把它视作飞点。减少奇异值和极端值影响的方法:将奇异值和极端值作为缺失值处理:在variableview视图中点击missing栏下含有奇异值和极端值的变量,弹出“missingvalues对话框,有3个选项可以使用:1)discretemissingvalues最多可以指定3个数值为缺失值;2)rangeofmissingvalues指定某一取值范围内的数值为缺失值;3)rangeplusoneoptionaldiscretemissing指定某一取值范围和某一特定数值为缺失值;根据检测的奇异值和
6、极端值,用dataselecteases工具中的“if.”对数据的取值范围进行限定,然后再进行统计分析;对奇异值进行估计,方法同缺失值的估计;将原始数据转换成标准Z分数(statistics/summarize/descriptives/save/standardizedvalueas)或进行其他的转换后再进行统计分析;删除奇异值所在的观察单位。3、统计分析前的假设检验许多统计检验都需要样本数据服从正态分布,并且相关联的变量之间应方差齐同。若不符合上述条件便应进行数据转换,否则便会导致错误。但大样本数据可以近似地认为其为正态分布,而不用去进行正态性检验。analyze下的descriptive
7、s,frequencies和explore可以完成这些工作。(1)方差齐性检验(spreadvs.levelwithlevenetest)descriptives和“frequencies的功能基本相同,都可进行正态性检验和方差齐性检验。若满足方差齐性,则可进行下一步工作;若不满足,选powerestimetion进行数据变换来满足。方差齐性,有6种方法可供选择:(1)naturallog:取自然对数;(2)1/squareroot:取平方根的倒数;(3)reciprocal:取倒数;(4)squareroot:取平方根;(5)square:取平方;cube:取立方。若SPSS提供的6种变换均
8、不能满足要求,应考虑采用非参数统计的方法。(2)正态检验(normalityplotswithtests)在“analyzedescriptivesstatisticsexplore中可进行正态检验,及做出QQ图。若不支持正态分布,则应进行数据变换,方法同方差齐性检验,或选用非参数统计的方法。4、相关分析前的数据检查相关分析之前应用descriptivesstatistics对数据进行观察。当一个变量取值范围很窄时,应做数据变换后再进行相关分析,否则会使相关的资料得出不相关的结论;在做连续变量和等级资料的相关或两个等级资料的相关时,若90%的被试都选择等级资料中的一种情况(如:90%的被试都选
9、择“严重”),则相关性通常会很低,对这类数据应用其他方法进行分析;当均值是一个很大的数,而同时标准差很小时,相关系数值通常也会很小,对这样的资料不宜做相关分析。摘自刘莹SPSS在问卷数据校验中的应用研究,科技资讯2008(8)。多项选择题数据的输入方法1:多重二分法。有多少选项就设多少个变量,某个个案选择了某项则在该变量名下录入“1”,未选择某项则录入“0”,即将每个变量变成类似于“是”、“否”的选择题。方法2:多重分类法。有多少选项就设多少个变量,某个个案选择了某项则在该变量名下录入“1”,未选择某项则录入“0”。例如,某个个案选择了第“1”、“3”、“4”项,则依次录入“1、0、1、1、0
10、、0”。方法3:多重分类法。选了多少项就设置多少个变量,如命名为seq1、seq2和seq3,如果某个个案选择了第“1”、“3”、“2”项时,则依次输入“1”、“3”、“2”。方法4:多重分类法,利用Excle的分列功能。第一步,设置一个变量,命名为var1。第二步,录入数据。例如,某个个案选择了第“1、3、2”项,则输入“132”。第三步,将该多选题及其数据另存为Excle文件。第四步,在excle中将varl这一个变量分列,步骤是“选定该变量-数据-分列-固定宽度-下一步-使用鼠标分列-下一步-完成。这样,原来的一个变量组成的数据库转化为由几个变量组成的新的数据库,如下。黒变量和数值新0勺
11、变量名和数值varISeq1Seq2Seq3132盘32145臂斗;$第五步,将新的变量Seq1,Seq2,Seq3保存。最后,使用SPSS软件读取该数据文件。多项选择题的数据集合的定义可从两种方式进入:从菜单Analyze(分析)MultipleResponse(定义多重响应集)进入。(2)从菜单Analyze(分析)Tables(表)MultipleResponseTables(多响应集)进入。例:项目1、您的性别:1男2女项目2、您购车时,哪些因素会影响你的购车决策。(允许选择3个答案,而且要求被调查者按主次顺序选出答案,如521,即价格最重要,其次是款式,再次是性能。)1性能2款式3油
12、耗4品牌5价格6颜色7其他从菜单Analyze(分析)Tab1es(表)MultipleResponseTables(多响应集)进入:第一步:在VariablesinSet(设置定义)框是选入需要加入同一个多项选择题变量集的变量系列,这些变量必须进行分类,并按照相同的方式来编码。若项目是按多重二分法编码,将SetDefinition(设置定义)框中的a1、a2、a3a7放入VariablesinSet(集合中的变量)框,在VariablesAreCodedAs(将变量编码为)单选框中的选择dichotomies(二分法),在Countedvalue(计数值)右侧框中输入1。若项目是按多重分类法
13、编码,将SetDefinition(设置定义)框中的b1、b2、b3放入VariablesinSet(集合中的变量)框,在VariablesAreCodedAs(将变量编码为)单选框中的选择categories(多重分类法编码方式),则需要设定取值范围,在该范围内的记录值纳入分析。一般的取值范围是该多项选择题选项的最大和最小代码,因此,在range右侧框中输入1,through后输入7。第二步:定义多重反应分析的变量集的名称并附上名称标签。在Name(名称)框是输入多项选择题变量集的名称,项目2命名为“GCJCYXYS”。在Lable(标签)框是多项选择题变量集定以一个名称标签,项目2用的是“
14、购车决策影响因素”。第三步:单击Add钮,将定义完成的“变量集”填加到多选集”(MultipieResponsesets)中,此时变量集名前自动添加了集符号“$“(如:$GCJCYXYS)MuitResponseSets框是存放已定义好的多项选择题变量集的列表,在此框中可定义多个,它左侧的三个按钮Add、Change和Remove,分别用于添加、修改和移出变量集的定义。第四步:最后单击Close按钮,相应的多项选择题变量集就定义完成了。在SPSS统计软件中的多重反应分析过程(MultipieResponse),最多可以定义20个多项选择题变量集,对于一次问卷调查一般不会有超过20个的多项选择题
15、,所以完全够用了。多项选择题的分析多项选择题的数据集合定义完成之后,就可以对数据进行分析。分析包括两种:频数分析和列联表分析。1、频数分析过程多项选择题的频数分析过程(Freqencies),只能通过MultipieResponse菜单里的Freqencies过程实现,生成多项选择题的频数分析表比较简单。从菜单AnalyzeMuitipieResponseFreqencies进入。然后从MultResponseSets框中将分析对象(本例如购车决策影响因素$GCJCYXYS)选入右边的Table(s)for框,其他默认,单击OK钮,多项选择题的频数表就生成了。義2血车诀發影呃医褻多项选挥题的顾
16、数分祈親Categorylabel(购车决策影响因素)CedeCountPertengagedRe&ponss(%1PercentagefCasa(怆)性能1:499.628.8款式2備12.73S.2油耗310420.461.2品麗4.Si1S.054.1.价格5iso29.488.2颜色7.823.5:其他7102.05.9Tctalrespcns.es510:100.0300.0如表3所示。在本次调查中,对170名受访者的调查结果为:在决策影响因素中,居于前三位的分别为:价格被选率最高29.4%,其次是油耗为20.2%,再次是品牌为18.0%。2、列联表分析过程多项选择题的列联表分析过程
17、(Crosstabs),可以产生多重交叉列联表,而且可以对单元格进行很细致的分析。列联表分析可以通过两种不同的方式进入:从菜单AnalyzeMultipleResponseCrosstabs进入;从菜单AnalyzeiTablesiMultipleResponseTables进入。在MultResponseSets框中,显示已经定义好得多项选择题变量集,本例把变量集“购车决策影响因素”$GCJCYXYS选入Colums框。把变量sex放入Rows框,并对性别要定义变量值的范围,单击DefineRanges钮,定义最小值和最大值,本例定义最小值为1,定义最大值为2(1=男”,2=女”)。对于Op
18、tion子对话框,本例选择了CellPercengtage(百分比)的Row,PercengtageBasedon选择的是Case,一般选择其默认状况即可。最后单击OK钮,便得到多项选择题的列联表(表4)。价格被选率最高为84.5%(49/58),其次是油耗为60.3%(35/58),再次是性能为58.6%(34/58)。在被调查的112名女性中,价格被选率最高为90.2%(101/112),其次是油耗为60.7%(68/112),再次是品牌为52.7%(59/112)。多项选择题答案的排序分析多项选择题答案的排序分析,其数据编码和变量设置只能采取多重分类法(multiplecategorym
19、ethod)。分析结果若想得到每个选项的交叉列联表,有三种方法:1、从菜单AnalyzeiMultipleResponseiCrosstabs进入,此时需要把变量sex放入Rows框,单击DefineRanges钮,定义最小值为1,定义最大值为2。把变量b1、b2、b3(b1是购车决策影响因素中最重要的、其次是b2、再次是b3)放入Columns框,单击0K钮即可。2、从菜单AnalyzeiDescriptiveStatisticsiCrosstabs进入,把变量sex放入Rows框,把变量b1、b2、b3选入Columns框,单击OK钮即可。3、从菜单AnalyzeiTablesiMulti
20、pleResponseTables进入,把变量sex放入Rows框,把变量b1选入Columns框,单击0K钮得到性别与最重要购车决策影响因素列联表,然后分别把b1换成b2,把b1换成b3,就分别得到性别与其次购车决策影响因素列联表和性别与再次购车决策影响因素列联表。注意不能把变量bl、b2、b3同时选入Columns框。(以上主要摘自李灿、辛玲SPSS软件中多项选择题的处理方法研究,江苏商论2007.10)相关分析研究变量之间的相互关系的密切程度和变化趋势,并用适当的统计指标描述,称为相关分析。把变量间相互关系用函数表达出来,用一个或多个变量的取值来估计另一个变量的取值,则称为回归分析。SP
21、SS提供了三种相关分析方法:1、Bivariate方法用于进行两个/多个变量间的参数/非参数相关分析。如果是多个变量,则给出两两相关的分析结果。该方法十分常用通常会占到所有相关分析的95%以上。2、Partial方法用于偏相关分析,通常在进行相关分析的两个变量其取值均受到其他变量的影响时使用。3、Distances方法对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,在教育教学研究中使用较少。Bivariate相关分析举例:语文成绩与数学成绩是不是相关?假设采集30名学生的数学和语文成绩进行分析。分析方法:输入数据后,对数据的信度进行检查,并绘制散点图,直观查看两变量间是否有相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁监理合同格式
- 黑白棋课程设计源代码
- 2024食品代加工合同范本代加工产品合同范本
- 文化机构网络安全事件应对预案
- 水利工程咨询服务合同协议书
- 中小学教师心理健康培训方案
- 水处理厂PLC系统调试与维护方案
- 科技公司人才盘点及激励方案
- 2024模具钢材购销合同模板
- 煤炭资源优化配置方案
- 冷库安全施工方案
- 翻转课堂教学模式与设计
- 《企划案撰写》课件
- 2024年五粮液集团公司招聘笔试参考题库含答案解析
- 为什么要做好服务
- 工程地质调查规范
- 第15课《诫子书》课件(共31张)语文七年级上册
- 江苏省城镇污水处理厂纳管工业废水分质处理评估技术指南(试行)
- 华为经营管理-华为供应链管理(6版)
- 技术支持与售后服务
- 围墙监控施工方案
评论
0/150
提交评论