版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、09.缺失值处理空缺值(用“.”表示)和输入错误值,都属于缺失值范畴。输入错误值需要做“数据检验”来发现:(1)【分析】【描述统计】【描述】和【频率】(2)【图形】【旧对话框】【箱图】观察极小、极大值、频率、异常值等来判断。例如,性别“男=1,女=2”,若极大值出现3,则是输入错误值;箱线图或3原则发现的异常值,则要先改成缺失值。缺失值的处理方法通常有四种。一、删除有缺失值的个案删除有缺失值的个案,或在具体统计分析时的【选项】【缺失值】框选择某种处理方法:按列表排除个案一一只要任何一个变量含有缺失值,就要剔除出所有因变量或分组变量中有缺失值的观测记录;按对排除个案同时剔除带缺失值的观测量与与缺
2、失值有成对关系的观测量(对照分析);使用均值替换使用该变量的均值替换缺失值。二、替换缺失值SPSS提供了5种简单替换缺失值的方法:序列均值该变量的有效观察值的平均数;临近点的均值该缺失值前后n个观察值的平均数;临近点的中位数该缺失值前后n个观察值的中位数;(4)线性插值该缺失值前后观察值建立插值直线确定【同取n=1的(2)】;(5)点处的线性趋势以编号为自变量用线性回归法预测值。现有数据文件:编号统计成绩课堂焦喘10165.2027B3037234404阴505500685347078780B409097436101067451.【转换】替换缺失值】,打开“替换缺失值”窗口,将变量“统计成绩”
3、选入【新变量】框;【名称和方法】框,设定新变量名称“统计成绩_1”,方法选“序列均值”3.点【确定】,得到失值。三、缺失值分析SPSS中更高级的处理缺失值的方法是缺失值分析,它能够(1)缺失值的描述和快速诊断:用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例是多少,是否与其它变量取值有关,从而得知这些缺失值出现是否会影响分析结论。(2)得到更精确的统计量:提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量更加可靠。(3)用估计值替换缺失值:使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有
4、效地使用所有数据进行分析,来提高统计结果的可信度。【缺失值分析】实例操作,使用SPSS20自带的实例文件:telco_missing.sav1.【分析】【缺失值分析】,打开“缺失值分析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】机缺失值分析畠免费电话廉务设箔租牯equ畠电话卡服务J畠无线展务阿护上月丘途Pon-护上月免费电话於上斗设箔equ夕上月电话卡J於上月无住wr畠參线路multli&语音邮怦品寻呼展务何卸畠互联网Linternet品来电显示callid畠呼叫等待u创北驴.匚
5、飙Lten倉年龄ageI夕现在-士址居仁/家庭收入(千倉顼聪卞二咋直-虹垢姻状况maritalJ豆教育严平ed6返休retire9性别加nder最大类别0):25t_、牛案标签电):估严n唧0=)成时理)匕附画回扫固变孰丫).回S(N)-使用所有变量(刼|确定粘贴巴|重置迟而站确定帮助注意:最大类别(最大分类数)默认为25,超过该数目的分类变量将不引入分析。2.点【描述】,打开“描述统计”子窗口,用来设置要显示的缺失值描述统计量。勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”,点【继续】甑尖值廿析:痫述统计I31至变
6、呈线计宣包)I|泪变呈壻计呈叵岂亡弋不匹配巳JR按照魂矢值模武排厅區)M供帀托討再呈书渤卞能肛井讦打卯尿仃)匸袞包拾冊會豐)愆喘柱夫-宜占总牛室耳的比叨小于5%时芒呈(0)画麵点【模式】,打开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。勾选“按照缺失值模式分组的表格个案”;因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据,“家庭收入”含有大量缺失值,将这些变量选入【附加信息】;+广氓尖值亡祈:環式掃出si扶照讯轧信模式舉翌聲丿韦R)恕時宰歎厂1h|喘比娈呈Q)2拽眶铤士宜模乂列实量出序:或牯医屁#苣模曲悅序的带肓快主宜対“(M)技匿吐厲樸寸ttF哥芷尽但)按照送定娈
7、量指定M呼排神所有个索追)|両|其它保持默认,点【继续】回到原窗口,勾选【估计】框中的塔M”和“回归”其它默认设置。点击【EM】或【回归】按钮可以修改其设置保存完成数据世)倉创建斷软据果CD馳据卑名珂(町A新数据文罕(吕估计调节普通变昼迥)0Studentst娈M(S)EB(D):|5|曲无0最大预测程序数送):|鬥保存完成数眶世)函创建新数皓耒CD魏揺果石硃二|題写磁甲文件隹)i文件(9注意:若要保存替换缺失值之后的数据,需要勾选“保存完成数据”:创建新数据集并命名,或写入新数据文件。另外,默认使用所有变量进行分析,若要选择部分变量,可点【变量】按钮修改。点【确定】,得到输出结果:tTk旦.
8、N均值标准差知J古来hi=ia计数百八比低高1itenure96835.5621.268323.200age97541.7512.573252.500address85011.479.96515015.009income82171.146283.1442417917.9071employ90411.0010.113969.6015reside9662.321.431343.4033marital88511511.5ed965353.5retire916848.49584242a.超出范围(Q1-1.5*IQR,Q3+1.5*IQR)的案例数。提供了数据的一般特征,给出了所有分析变量缺失数据的频
9、数、百分比,定量变量的均值、标准差、极值数目。income(家庭收入)有最多具有缺失值(17.9%),也有最多的极值;而age(年龄)有最少缺失值(5%)。reside所有值35.5641.7511.4771.146211.002.32EM36.1241.9111.5877.394111.222.29回归3577416811597431741099232估计标准差摘addressEreside所有值21.26812.5739.96583.1442410.1131.431EM21.46812.69910.26587.5486010.1651.416211881253499358471430102
10、421423使用EM法和回归法进行缺失值的估计和替换后,总体数据的均值和标准差的变化情况,其中“所有值”为原始数据特征,另两行分别是采用EM法、回归法得到的统计参数。t.4.33.51.41.0df202.2192.5313.6191.1199.5#存在819832850693766824address#缺失1491430128138142均值(存在)35.6841.7911.4774.077911.202.34均值(缺失)34.9141.4955.27349.862.21t-5.0-8.3-3.9-5.93.6df249.5222.8191.1203.3315.2#存在79380169382
11、1741792income#缺失1751741570163174均值(存在)33.9340.0110.6771.14629.912.39均值(缺失)42.9749.7314.9715.932.02t-1.0-.4-.7.5-.3df110.5110.297.6114.9110.9#存在877881766741904874employ#缺失91948480092均值(存在)35.3441.6911.3771.495311.002.31均值(缺失)37.7042.2712.3267.91252.37t.01.81.2-.8.9-2.2df148.1149.5138.8121.2128.3134.2
12、#存在856862748728805857marital#缺失1121131029399109均值(存在)35.5642.0011.6170.388711.102.28均值(缺失)35.5739.8510.4377.075310.172.61t-.6-.4-.4.3.2df95.494.484.093.299.0#存在888893777751904885retire#缺失80827370081均值(存在)35.4441.7011.4271.335611.002.32均值(缺失)368942291196691143230对于每个定量变量,由指示变量(存在,缺失)组成成对的组。a.不显示少于5%个
13、缺失值的指示变量。通过单个方差t检验有助于标识缺失值模式可能影响定量变量的变量。按照相应变量是否缺失将全部记录分为两组,再对所有定量变量在这两组间进行t检验。判断数据是否完全随机缺失(表示缺失和变量的取值无关)。例如,似乎年纪较长的响应者更不可能报告收入水平。当income缺失时,平均age为49.73,与之相比,当income未缺失时为40.01。实际上,income的缺失似乎影响多个定量(刻度)变量的平均值。此指示数据可能并未完全随机缺失。类别变量相对于指示变量的交叉制表总计未婚已婚缺失缺八失jSysMis计数850390358102存在address百分比85.085.583.488.7
14、缺失%SysMis15.014.516.611.3计数82138034893存在income百分比82.183.381.180.9缺失%SysMis17.916.718.919.1计数90441838799存在employ百分比90.491.790.286.1缺失%SysMis9.68.39.813.9计数916423392101存在retire百分比91.692.891.487.8%SysMis847286122不显示少于5%个缺失值的指示变量。观察marital(婚姻状况)表,指示变量的缺失值数量在marital类别之间似乎变化不大。一个人结婚与否似乎并不影响任何定量(刻度)变量的数据缺失
15、情况。例如,85.5%未婚者报告address(当前地址居住年限),83.4%已婚者报告相同变量。差异很小并且很可能是巧合。ed总计未完成中学学历中学学历社区学院大学学位研究生学位缺失缺人SysMis存在计数8501632401751865630address百分比85.083.285.788.481.987.585.7缺失%SysMis15.016.814.311.618.112.514.3存在计数8211552291651935029income百分比82.179.181.883.385.078.182.9缺失%SysMis17.920.918.216.715.021.917.1存在计数9
16、041782541782046030employ百分比90.490.890.789.989.993.885.7缺失%SysMis9.69.29.310.110.16.314.3存在计数8851932781481845230marital百分比88.598.599.374.781.181.385.7缺失%SysMis11.51.5.725.318.918.814.3存在计数9161802591802076030retire百分比91.691.892.590.991.293.885.7缺失%SysMis84Q27591QQ63143不显示少于5%个缺失值的指示变量。观察ed(教育程度)的交叉制表。
17、如果对象至少接受过大学教育,婚姻状况响应更可能缺失。未接受大学教育的对象中至少98.5%报告婚姻状况。另一方面,那些拥有大学学位的人中只有81.1%报告婚姻状况。对于那些曾接受大学教育但未获学位者,数量更少。总计是否缺失缺人SysMis存在计数8507443373address百分比85.085.080.586.9缺失%SysMis15.015.019.513.1存在计数8217321970income百分比82.183.746.383.3缺失%SysMis17.916.353.716.7存在计数904864400employ百分比90.498.797.6.0缺失%SysMis9.61.32.
18、4100.0存在计数8857773870marital百分比88.588.892.783.3缺失%SysMis11511273167不显示少于5%个缺失值的指示变量。在retire(退休)中可看到更大差异。那些退休者与那些未退休者相比更不可能报告其收入。退休客户中只有46.3%报告收入水平,而那些未退休者报告收入水平的百分比为83.7。总计男女缺人山兀人存在计数85036345631address百分比85.078.691.973.8缺失%SysMis15.021.48.126.2存在计数82138140634income百分比82.182.581.981.0缺失%SysMis17.917.5
19、18.119.0存在计数90441245735employ百分比90.489.292.183.3缺失%SysMis9.610.87.916.7存在计数88540044540marital百分比88.586.689.795.2缺失%SysMis11.513.410.34.8存在计数91642046135retire百分比91.690.992.983.3缺人%SysMisO49171167不显示少于5%个缺失值的指示变量。gender(性别)的另一差异明显。男性与女性相比,地址信息经常缺失。虽然这些差异可能是巧合,其似乎不可能。数据似乎并非随机完全缺失。案例数缺失模式a完整数,如果.bincome
20、ceddretirgenderdageresidetenureedgenderretireemploymaritaladdressincome未完成中学学历中学学历社区学院大学学位研究生学位是否男女475109168713601617181637XXXXXXXXXXXXX47558468756248853549149249366052076.585354.436856.000077.216747.812576.235354.111159.4595992752141023091573592732077014871909227034751011712432404488311116160101146
21、39512851359161717140121442010012020147126643567061527462421925101001022不显示少于1%个(10个或更少)案例的模式。以缺失模式排列变量。完整案例数,如果未使用该模式(用X标记)中缺失的变量。在各个唯一模式处的均值在各个唯一模式处的频率分布制表模式显示个别个案中多个变量的数据是否往往缺失,有助于判断数据是否联合缺失。在超过1%的个案中存在三种模式的联合缺失数据。变量employ(当前工作年限)和retire(退休)与其它变量对相比更容易缺失。这并不奇怪,因为retire和employ记录类似信息。如果您不知道对象是否退休,您很
22、可能也不知道其当前工作年限。平均income(家庭收入)似乎因缺失值模式的不同变化很大。实际上,在marital(婚姻状况)缺失时,6%个案的平均Income更高。(当tenure(服务月数)缺失时其更高,但此模式只占1.7%个案。)请记住,那些接受更高水平教育者更不可能响应婚姻状况相关问题。您可以在ed(教育程度)频率中看到此倾向。通过假定那些接受更高水平教育者赚更多钱并且更不可能报告婚姻状况,我们可能解释income的增加。注:下表脚注中的:【Little的MCAR检验】用来检验数据是否完全随机缺失(原假设为:是完全随机缺失)。EM估计统计量EM均值a3612419111587739411122229a.Little的MCAR检验:卡方=179.836,DF=107,显著性=.000口Mresidetenureageaddressincomeemployreside460.893135.326111.341
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 10855-1:2024 EN Offshore containers and associated lifting sets - Part 1: Design,manufacture and marking of offshore containers
- 月亮诗词句子说说
- 保险公司员工培训课件-成功激励
- 农业现代化课件
- 《续表面钝化》课件
- 【语文课件】小指甲变了(沪教版)课件
- 安徽省2024年中考道德与法治真题试卷(含答案)
- 2022年公务员多省联考《申论》真题(重庆二卷)及答案解析
- 猴子造桥课件
- 2024年新高一英语初升高衔接《语法句子成分与基本句型》含答案解析
- 人流量统计技术应用方案及其他应用
- 消防应急照明和疏散指示系统控制调试、检测、验收记录
- 人员定位矿用井口唯一性检测系统
- 电力系统数据标记语言E语言格式规范CIME
- 技能大师工作室建设PPT幻灯片课件(PPT 66页)
- 《逻辑学》第五章-词项逻辑
- 头痛的国际分类(第三版)中文
- 新概念第一册语法知识点汇总(完美版)
- 建筑力学完整版全套ppt课件
- 【课件】Unit4Readingforwriting课件高中英语人教版(2019)必修第二册
- 学生学习过程评价量表
评论
0/150
提交评论