数据处理与分析实用教案_第1页
数据处理与分析实用教案_第2页
数据处理与分析实用教案_第3页
数据处理与分析实用教案_第4页
数据处理与分析实用教案_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.编码(bin m) 编码是给问题的每项答案赋予一个数值代码,以便于数据录入和作进一步处理的过程。编码是给问题的每项答案赋予一个数值代码,以便于数据录入和作进一步处理的过程。 编码具体方法很多,包括:编码具体方法很多,包括: 问卷中已预先问卷中已预先(yxin)编码;编码; 在数据收集完毕之后进行手工编码;在数据收集完毕之后进行手工编码; 通过文本识别软件进行自动编码(即借助软件给一串字符赋予一个代码)。通过文本识别软件进行自动编码(即借助软件给一串字符赋予一个代码)。第1页/共51页第一页,共51页。2)数据录入 数据录入是将回答转化成可机读的形式。数据录入是将回答转化成可机读的形式。 采

2、用纸张式收集数据的方法采用纸张式收集数据的方法(fngf)时,数据录入是在数据收集完毕之后(通常是在对问卷进行一些时,数据录入是在数据收集完毕之后(通常是在对问卷进行一些“梳梳理理”和初步审核之后)进行。和初步审核之后)进行。 采用计算机辅助数据收集方法采用计算机辅助数据收集方法(fngf)时,数据录入是在数据收集的同时完成的。时,数据录入是在数据收集的同时完成的。第2页/共51页第二页,共51页。 下面几种方法可以提高数据录入的效率: 采用计算机辅助数据收集方法; 对纸张(zhzhng)式问卷进行光电扫描; 对纸张(zhzhng)式问卷进行预先编码。第3页/共51页第三页,共51页。 3.审

3、核(shnh) 审核是应用各种检查规则来辨别缺失、无效或不一致的录入,这些会审核是应用各种检查规则来辨别缺失、无效或不一致的录入,这些会导致数据记录的潜在错误。审核的目的就是要保证调查最后所得的数导致数据记录的潜在错误。审核的目的就是要保证调查最后所得的数据的完整性、一致性和有效性(包括逻辑性)。据的完整性、一致性和有效性(包括逻辑性)。 审核主要可分为审核主要可分为(fn wi)三类:即有效性审核、一致性审核与分布审三类:即有效性审核、一致性审核与分布审核。有效性审核和一致性审核是对单张问卷进行的审核;分布审核则核。有效性审核和一致性审核是对单张问卷进行的审核;分布审核则是对全部问卷或部分问

4、卷的数据一起进行审核。是对全部问卷或部分问卷的数据一起进行审核。第4页/共51页第四页,共51页。通常,审核规则的确定基于以下几个方面:关于调查主题的专业知识;问卷和问题的结构;其它(qt)相关的调查或数据;统计理论(如离群值的检测方法)。第5页/共51页第五页,共51页。 数据收集完毕后,对审核失效,通常(tngchng)按下列方法进行处理: 将其剔除; 进行插补; 设立特殊代码。第6页/共51页第六页,共51页。 有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。 在这种情况下,通常可以将这些记录剔除,作为无回答处理

5、,同时将赋予各被调查单元的权数(qunsh)进行调整。第7页/共51页第七页,共51页。 对大多数审核失效都应该加以标示,留待作插补处理。 对于有些项目,我们可以用特殊代码(di m)标示的方法,对确认为审核失效而不可接受的值或无效的空白加以保留。第8页/共51页第八页,共51页。 选择性审核(shnh) 选择性审核基于这样一种思想(sxing):即只有那些“关键”的审核失效,而不是所有的审核失效,才需要采取相应的处理措施。选择性审核一般适于定量数据。 对审核失效进行选择性审核时,可能需要对被调查者进行再访,但对于那些需要进一步处理和插补的记录的审核失效除外。第9页/共51页第九页,共51页。

6、 审核(shnh)的指导方针 审核的目标是:- 更好地理解(lji)数据和数据处理过程;- 检查问卷;- 回访被调查者;- 检出错填或漏填的数据;- 删除无效记录;- 分离需要插补的记录。第10页/共51页第十页,共51页。 审核(shnh)的准则: 审核不仅对整理数据有用,而且(r qi)审核失效发生率不论是对当前调查的质量度量,还是对将来调查的改进都很有用,它能提供调查中有关数据处理的信息; 不论什么时候,开始一项调查时,总是要对数据做一些假定,审核时可以检验这些假定的合理性。例如,可能很明显,有些领域的审核规则太严,或者有些类型的审核失效太频繁,这些情况表明审核规则可能不太合适(或问卷可

7、能存在问题);第11页/共51页第十一页,共51页。 审核应该分阶段进行; 审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识、并且有类似调查经验的人员来进行; 各阶段所进行的审核不应与其它(qt)阶段的审核相抵触; 应该将审核的信息和审核工作对调查数据的影响通知数据的用户。 第12页/共51页第十二页,共51页。 4.插补 插补就是( jish)解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程。插补是对审核过程中发现的所有缺失信息的记录进行补充或用合适的数值进行替代,确保得出内在一致的记录。第13页/共51页第十三页,共51页。 插补方法可以归为两类随机(su j)插补

8、和确定性插补。 确定性插补,对于特定的被调查的数据,可能的插补值只有一个。 随 机 ( s u j ) 插 补 则 含 有 随 机 ( s u j ) 因 素 因 此 , 每 次 得 出 的 插 补 值 可 能 会 不 一 样 。第14页/共51页第十四页,共51页。 几种确定性插补方法(fngf)如下: - 推理插补;- 均值插补;- 比(率)/回归(hugu)插补;- 序贯热平台插补;- 序贯冷平台插补;- 最近邻值插补。每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得出一个插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,就成为随机插补。第

9、15页/共51页第十五页,共51页。 随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实(zhnsh)的变异性。 除供者插补方法外,下面介绍的方法可逐项进行插补。 所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。第16页/共51页第十六页,共51页。 4.1推理(tul)插补 推理(tul)插补:缺失的或不一致的数据能通过推断确定。通常,这种推理(tul)是根据问卷上其它回答项的模式来进行的。 下面简述一些常用的插补方法。对所有这些插补方法,最好是把类似的记录归为一组,就象进行无回答权数调整时一样,这些组称为插补类。第17页/共51页第十七页,共51页

10、。 4.2 均值(jn zh)插补 用均值插补,缺失或不一致的值可用插补类的均值来代替。对缺失数据,用均值插补相当于对同一插补类中的所有被调查者使用相同的无回答权数进行调整。 均值插补会得到较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布状态和变量(binling)之间的关系。因此,如果用常规的抽样方差公式进行计算,就会低估最终的方差。 均值插补通常在没有辅助信息可用或只有少量记录需要作插补处理时,才被采用。 第18页/共51页第十八页,共51页。 4.3 比(率)或回归(hugu)插补 比率或回归插补是使用辅助信息(xnx)及其它记录中的有效回答建立一个比率或回归

11、模型,该模型表明了两个或多个变量之间的关系。例如,比率插补所使用的模型为: 其中:yi是变量y的第i个单元值; xi是与变量y相关的变量x的第i个单元值; R是直线的斜率(即每变动一个单位,平均变动的数值); 是模型的随机误差项,均值为0、方差为。iiiRxyi第19页/共51页第十九页,共51页。 这时, 的插补值按如下公式计算: 式中: 是变量y第i个记录的插补值; 是插补类中记录的x值的均值; 是插补类中记录的y值的均值。 这里我们假定,拟合一个插补类中有效(yuxio)数据(即通过了所有的审核)的比率或回归模型,同样适用于该插补类中审核失效的数据。 iixxyy iyxyiy第20页/

12、共51页第二十页,共51页。 比率和回归估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。 利用前期的数据进行插补,也称前向插补,是比率或回归插补的一个特例,只是直接用前期调查的数据来作为当前(dngqin)调查的缺失数据的插补值。第21页/共51页第二十一页,共51页。 4.4 热平台(pngti)插补 热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。 为了找到一个与受者记录相似的供者记录,必须先确定与需要(xyo)进行插补处理的变量相关的变量,建立插补类。然后,插补类中

13、通过所有审核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数据。 热平台插补可以用来插补定量数据,也可以用来插补定性数据,但通常只用定性变量建立插补类。 第22页/共51页第二十二页,共51页。样本序号样本序号 性别性别 年龄年龄 婚姻状况婚姻状况 收入收入 汽车拥有汽车拥有1 男男 青年青年 未婚未婚 70 无无2 男男 中老年中老年 已婚已婚 100 有有3 女女 青年青年 未婚未婚 50 无无4 男男 中老年中老年 已婚已婚 70 有有5 男男 青年青年 未婚未婚 90 有有6 女女 中老年中老年 丧偶丧偶(sng u) 30 无无7 男男 中老年中老年 已婚已婚 - -8 女

14、女 青年青年 离异离异 45 有有9 男男 青年青年 未婚未婚 - 无无10 女女 中老年中老年 丧偶丧偶(sng u) 20 -11 男男 青年青年 未婚未婚 50 有有12 男男 中老年中老年 已婚已婚 - -第23页/共51页第二十三页,共51页。插补情况(qngkung):受者 收入(shur) 汽车拥有 供者 7 70 有 4 9 90 5 10 无 6 12 70 有 4第24页/共51页第二十四页,共51页。 在序贯热平台插补方法中,数据在插补类中是按某种顺序排列进行处理的,插补就是用这个序列需要插补数据前面某一个有效的回答单元(dnyun)的数据来代替缺失的数值。 如果每次都使

15、用相同的排序及选取方法,序贯热平台法是一种确定性的插补方法。而随机热平台插补,供者是在插补类中随机选出的,因此是一种随机插补方法。第25页/共51页第二十五页,共51页。 供者插补方法(局限于热平台插补和最近邻插补)的优点是,因为相似的供者(如公司和家庭等)具有相似的特征,因此插补出的数值应该是相当准确的。使用(shyng)供者插补可以保持数据的原始分布形式。 第26页/共51页第二十六页,共51页。 4.5 冷平台(pngti)插补 冷平台插补与热平台插补类似,不同之处在于热平台插补使用(shyng)当前调查的供者,而冷平台插补则使用(shyng)其它资料中的供者。 冷平台插补经常使用(sh

16、yng)前期的调查或普查中的历史数据。第27页/共51页第二十七页,共51页。 4.6 最近(zujn)邻插补最近邻插补,就像热平台插补,也是基于匹配(ppi)变量选择一个供者记录。但是,用这种方法,目的不一定是非要找出一个和受者记录在匹配(ppi)变量上完全相同的供者记录,而是要在插补类中按匹配(ppi)变量找到和受者记录最接近的供者记录即找到距离最近的值。“最近”是通过两个观测对象之间的距离来定义的,两个观测对象之间的距离是由辅助数据计算的。 第28页/共51页第二十八页,共51页。4.7 随机性插补任何用于定量数据的确定性插补都能通过加上随机残差变得具有非确定性。例如,我们可以用平均值加

17、上随机残差来进行插补:其中, 是y变量第i个记录的插补值; 是插补类的均值; 是从被调查者或某一分布(fnb)的随机模型中抽取的残差。 iieyyiyyie第29页/共51页第二十九页,共51页。 哪些(nxi)值需要插补 由于无回答或回答无效检出的审核失效的记录一般都需要进行插补。但是并不是所有审核失效的数据都需插补。对一个记录应尽可能限制需插补的项目。 确定哪些字段需要插补应遵循以下三条准则: 应该通过变更尽可能少的数据项(字段),以使每条记录都满足审核规则的要求; 尽可能保持数据文档的原始频数结构; 插补规则的确定,不是参考其它任何具体(jt)规定,而是由相应的审核规则导出。第30页/共

18、51页第三十页,共51页。 举例(j l)说,假设某份问卷中关于一位被调查者的背景资料是:受教育程度(大学),婚姻状况(已婚),性别(女),年龄(10岁)。 显然,这条记录中,年龄-婚姻状况、年龄、受教育程度是不符合审核规则的。为了纠正审核失效,可以同时调整婚姻状况和受教育程度,也可以只对年龄作调整,一般倾向于采用后者。第31页/共51页第三十一页,共51页。插补后数据(shj)的方差估计 前面讲到的所有插补方法都能为每一个缺失的或不一致的值生成一个单一的插补值,这些方法也都会在某种程度上扭曲插补变量的原始分布,并导致使用标准(biozhn)方差估计公式得出的不适当的方差估计。 分布扭曲的程度

19、很大程度上取决于插补量的大小和所使用的插补方法。 第32页/共51页第三十二页,共51页。 插补的准则(zhnz) 虽然插补能改善最终数据的质量,但也要小心选择适当的插补方法。插补方法是否适当取决于调查的类型、目的、可用的辅助信息和错误的性质。审核和插补带来的风险是它们会破坏报告数据,产生符合(fh)预想模型的记录,而这种模型后来可能表明并不正确。第33页/共51页第三十三页,共51页。以下是进行插补的几条准则: 插补得到的记录应该和审核失效的记录非常相似。这通常可以通过(tnggu)只对尽可能少的变量进行插补而尽可能多地保留被调查者的原始回答数据来做到。 基本的假定(在实际工作中并不总成立)

20、是一个被调查者更有可能只出错一两次,而出错多次的情况较少; 好的插补会为评估留下审查的线索,并保证插补的记录具有内部一致性。插补处理过程应该是自动的、客观的、可再现的和有效的;第34页/共51页第三十四页,共51页。 插补得到的记录应该满足所有的审核规则;- 插补值应标明(biomng),插补方法和插补使用的资料也应清楚地标明(biomng)。记录中变量的插补和非插补的值都应该保留,以便对插补的程度和影响进行评估;- 仔细选择插补的方法,考虑每一种插补方法的优缺点以及要插补的数据的类型;第35页/共51页第三十五页,共51页。 - 插补方法应减少无回答偏倚,并尽可能地保持不同变量之间的关系(即

21、不应破坏数据(shj)的多变量结构);- 插补系统应事先思考、提出、编程和调试;- 插补系统应该能处理各种缺失或不一致的字段;第36页/共51页第三十六页,共51页。- 对于(duy)供者插补方法,插补得到的记录应尽可能与选中的供者相似。这有利于保证插补记录中插补值与非插补值的组合不仅满足审核规则而且具有多样性。第37页/共51页第三十七页,共51页。 5) 离群(l qn)值的检测和处理 离群值的检测可以看作审核的一种类型, 主要(zhyo)是用来发现和确认可疑的记录。应该区分极值和影响值。 如果一个记录值和抽样权数的组合对估计有较大的影响,我们就称这样的观测值为影响值。但极值不一定是影响值

22、。第38页/共51页第三十八页,共51页。 应区别单变量离群值和多变量离群值。 如果一个(y )离群值对应一个(y )变量,该观测值就是一个(y )单变量离群值;如果一个(y )离群值对应两个或多个变量,我们就说该观测值是一个(y )多变量离群值。 例如,某人的身高是2米,或体重是45公斤,这种情况可能并不少,但身高2米且体重只有45公斤的人,即是一个(y )多变量离群值的例子。第39页/共51页第三十九页,共51页。有许多原因(yunyn)会导致离群值的产生:数据中有错误(如,数据录入错误);离群值可能来自另一模型或分布,如,大多数数据服从某个正态分布,但所推测的离群值很可能是来自一个指数分

23、布;离群值的出现,可能是由于数据固有的变异性。看起来值得怀疑的东西,可能仅仅是由于数据集固有的变异性。第40页/共51页第四十页,共51页。 离群(l qn)值的检测 传统上,离群值是通过测量(cling)它们和数据中心的相对距离来辩认的。设 是观测到的样本数据,m和s分别是数据集中趋势和离散趋势的度量,离数据中心的相对距离 定义为: 如果大于预先确定的偏离值(如d=1.96,对应的概率为95%,d=2.58,对应的概率为99%),那么该观测值就被认为是一个离群值。nyyy,21idxyzsmydiii或|第41页/共51页第四十一页,共51页。 离群值也可以通过下面的容许区间进行确认: 这里

24、, 和 分别是预先确定的下限和上限的值。如果总体是偏态的, 和 就不相等。落在这个区间之外的观测(gunc)值被认为是离群值。),(scmscmULLcUcLcUc第42页/共51页第四十二页,共51页。 样本均值和样本方差是度量数据集中趋势和离散程度最常用的统计量。但是,由于它们对离群值比较敏感。 因为上述原因,检测离群值的最常用的方法之一是四分(s fn)位数法。这种方法用中位数度量数据的集中趋势,四分(s fn)位数间距度量数据的离散程度,因为这些统计量对离群值更为稳健(即不大敏感)。第43页/共51页第四十三页,共51页。 注意这里所说的中位数和四分位数都是用加权的样本数据计算出来的。 与 分别称为下四分位数间距与上四分位数间距。由此可得容许区间为: 其中(qzhng), 和 可以通过以前的数据或基于过去的经验来确定。任何落到这个区间之外的观测值都被认为是一个离群值。 255qqhL255qqhL),(55UULLhcqhcqLcUc第44页/共51页第四十四页,共51页。离群(l qn)值的处理 在手工审核系统中,对离群值进行检查,如果确认是错误,就要回访并校正。 在自动审核系统中,离群值经常要进行插补处理。 有些情况下,如果认为离群值无妨大碍,可以(ky)不对离群值做任何处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论