版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 问卷在录入前应做哪些工作
2、; 【来源:深圳市万人市场调查有限公司 李香香】 在问卷调查中,从前期准备工作到正式执行,再到最后的数据处理中,在交付录入公司之前,中间存在问卷回收整理这一步骤, 其实
3、这一步骤也是非常重要的环节, 通常的做法是包含下列程序: 1、初步检查问卷 2、对于空白问卷、乱填、与不完整问卷的处理 3、对于多项答案的处理 4、问卷编码与录入
4、60; 5、数据检查 一、问卷初步检查 对于市场调查所回收的问卷,应当场检查,否则等访问员解散回家时对于有疑问的问卷将无法更正,检查时应包括下列项目,且最好负责 该项目的研究员也参与。 1、首先应检查相关配额,查看是否与我们要求的配额一样,若否,应当着访问员的面把该卷作废并要求她重新补做应有的配额。 2、答案是够正确、齐全?问卷的答案是否存在逻辑矛盾,如有,
5、应适法核实清楚,确实无法核实的只能将该题作为遗漏值(Missing Value)来处理。 3、字迹是否清楚,尤其是开放题,有时被访者的答案很多,而访问员无法快速记下来,有时字迹会比较潦草,或用自己的一些符号和缩写来代替,应在访问员解散前跟她确认清楚。 4、应先将问卷按照配额要求分成几叠,方便下一步录入员的录入工作。 二、空白与乱填等不完整问卷的处理
6、; 1、空白不完整问卷的处理。问卷有时由于问题不合适,或者被访者不喜欢回答某些问题,或被访者、访问员本身的疏忽而导致问卷中某部分或某些问题有空白现象,这时如果访问员可以解决的,就当场请访问员更正,如果是无法解决的问题,就以遗漏值(Missing Value)的方式来处理,不予以计算此部分或此题的资料。 2、乱填问卷处理。市场调查的问卷由于受访者不认真作答或者不耐烦,而将问卷的答案乱填,包括全部不相同的答案或乱填。这种问卷一定要把它作为废卷处理,如果把这种问卷也纳入分析的样本,对整个研究结果是一定会有影响的。
7、160; 三、对于有多项答案的问卷处理 若市场调查的问卷是单项的选择题,但由于问卷上并没有注明,或者是被访者觉得答案应有两个以上,而选择两个或两个以上答案,对于这种问卷,目前的处理方法主要有两种: 1、把它视为遗漏值(Missing Value)的方式处理。如果只有极少数的问卷发生这种现象,则对于整个研究分析并不会造成影响,可以直接以这种方式处理。 2、用加权法的方式来
8、处理。如果问卷中这种样本很多,把它视为遗漏值(Missing Value)来处理会影响整个数据分析时,可先把这种答案在数据库录入进去,然后由研究员采用加权法的方式来进行处理。 四、问卷编码与录入 在问卷处理完之后,接着就是对问卷及答案进行编码。首先是对问卷进行编码,问卷编码很简单,只要注意一点:不要重复就可以了。 其次是答案编码,就是把问卷的答案加以量化成电脑可以接受的语言,如1、2、3、4、
9、5等,一般而言,是根据问题的答案进行分类编码,答案分几类就有几种编码,通常是在问卷审核时把碰到的答案都记载下来进行归类然后再编码。 五、数据检查 问卷在录入后,就是对数据进行检查。数据检查一般分三个步骤: 首先把所有数据进行抽查。把每个录入员的数据按照10%-20%的比例对照问卷进行随机抽查,如果发现错误则对该录入员的数据进行加倍的抽查,直到抽查字符差错率控制在千分之三以内为止。 &
10、#160; 其次是对项目要求的总体配额进行核查。检查配额是否与项目要求的配额一致。 再次是对数据的完整性。对有遗漏值(Missing Value)的地方进行检查核实。如何快速录入问卷(一)合理安排问卷的结构2008-05-08 19:41心理学的“看家功夫”就是编制问卷,但是,如何安排问卷的结构,实现问卷的快速录入,恐怕很多人都没有注意过这个问题。今天,我就这个问题,提出一个基于EpiData(一个快速问卷录入的软件)的解决方案。当然了,如果你把问卷编制成网页,让
11、用户通过网页提交的方式,把数据保存到数据库中,自然不存在上述的问题。而且,还省了数据校验这道工序,既快捷方便,又准确可靠。可是,在研究的过程中,往往因为各种条件的限制,用户不能上网填写问卷,那么,这时候就只能通过发放问卷的方式来解决这个问题(比如,针对某个工厂的员工的满意度的调查,而大部分员工都在车间干活,不会上网),而且一发放就是几百份问卷,大部分人这时候想到的唯一的办法就是利用Excel进行录入,的确,不容否认,Excel操作简单方便,是非常好的数据录入工具。但是,一般来说,如果实现快速录入问卷,至少要两个人,一人录入,一个口头报,这样如果配合好的话,是可以实现快速的录入的;但是,如果只有
12、一个人,这个问题就比较麻烦,一边要看问卷,一边还要看屏幕,而且每录入完一个数据都至少要按一个回车键或Tab键,严重影响了数据录入的速度。这里,我向大家推荐一款免费的数据录入软件EpiData,在进入正题之前,我觉得有必要说明一点,那就是要想真正提高数据录入的速度,光有软件是不行的,因为现在录入问卷是人,不是机器,所以问卷结构的安排如果符合人的认知特点,使人更容易识记与复述,就可以有效的提高录入的速度并减少错误。(1) 问卷的结构最好能每5个形成一组。根据短时工作记忆的容量是7±2,所以,5-9个容量都是可以接受的
13、,但是考虑到我们有逢5识记的特点(划“正”字就是一个很好的例子),且要考虑到后期的核对,所以选择5个为一组是比较合适的。(2) 提供一个标记,供视觉停留之用人们在物理世界中要记住行走的路线,往往是利用一些突出的、与众不同的景物标志。在问卷的不同位置提供容易辨认的内容表达方式同样可以帮助我们扫描和记住问卷的内容,因此,添加一些视觉标签,把不同的内容在视觉效果上加以区分,将提高我们扫视问卷的速度。以下是某份问卷的一部分的截图根据上述我提到的两个原则,我将问卷的结构和底纹做了修改,结果,如下图所示(3) &
14、#160; 给每个被择项添加了编号请看下面的例子Q.请问您现在使用的手机厂牌为何?NOKIAMotorolaERICSSONSONYLENOVOSIEMENSPHILIPSPanasonic其它 Q.请问您现在使用的手机厂牌为何?1.NOKIA2.Motorola3.ERICSSON4.SONY5.LENOVO6.SIEMENS7.PHILIPS8.Panasonic9.其它 注:每个选项前的数字仅仅是为后期数据录入方便而设置的,并无任何其他含义。对比上述两种问卷的设计,后面一种由于给每个被择项添加了编号(一定要添加注,以免填写人员产生误解),因而简化了后期
15、的数据录入工作。(4) 回收时一定要给每一份问卷编号(按编号顺序整理好),以便后期核对方便。格式:在每份问卷的最开始的位置如右上角添上如下:问卷编号_访问员编号_如何快速录入问卷(二)如何使用EpiData快速录入问卷1/2数据录入软件EpiData转载于在临床科研观察中,通常我们先要作出一个详尽的病例观察表用来采集临床资料,当这些资料积累到一定数量,我们会将它们输入计算机,使其数字化,方便保存和管理,最后再将这些数据进行统计学处理,找出其中规律性的东西。其中使临床资料数字化是承上启下的一步,对于从事临床工作的医生来说主要
16、存在几个问题:1.没有数据库的基础知识,不知道如何处理临床纷繁复杂的数据;2.在大量数据录入时容易出现错误。而数据录入软件Epidata具有简单、好用、实用的特点,极其方便临床医生使用。1Epidata的基础知识EpiData主要用于数据输入。它可以将我们在临床观察之中所使用的观察表格“计算机化”,计算机上的表格可以与我们的观察表完全一样,使得数据输入变得直观、简便。EpiData由三种基本文件组成:1) .QES文件 (调查表文件文件),它的作用是定义调查表(问卷)的结构。2) .REC文件 (数据文件),它包括数据以及已经定义好的编码。3)
17、;.CHK文件 (数据录入核查文件),数据输入字段的有效性规则。字段是Epidata中最重要的概念,每个字段就是我们临床观察表中的一个小项目。它包括:1)字段的名称,它是给计算机识别的字段的名字,如V1、V2等,当然如果我们不去专门定义的话,Epidata可以自动给字段定义一个名称。2)字段的文本描述,即解释这个字段在我们临床观察表之中所代表的具体观察指标,如年龄、性别、检查结果等。3)字段的数据变量,根据字段的性质,可以规定该字段的变量及变量长度,Epidata支持的数据变量有:数字、文本、大写文本、欧洲日期、美国日期、布尔函数、自动 ID-号、声索引字段等,可以基本满足
18、临床观察的需要。2 EpiData运行界面介绍运行EpiData.exe会出现程序运行界面(图1)。图1第一行是EpiData菜单栏,所有命令都可以在其中找到:1.文件,下列菜单有:新建文件、打开文件、选项、近期使用的文件名及退出等。2.数据核对,下列菜单有:增加/更改检查项。3.数据淙?/span>/输出,下列菜单有:数据输入/修改、根据调查表文件(.QES)产生新的数据文件、备份数据文件、导入数据、数据输出、追加/合并数据文件等。4.其他功能,下列菜单有:显示数据文件结构、数据输入的信息、检查数据、显示数据列表、变量基本描述(编码表)、对两个相同数据文件进行有效性检查、合理
19、性检查、计算记录数等。5.工具,下列菜单有:根据数据文件生成调查表文件、清理数据文件、重建索引、根据修改的调查表更新数据文件、更改字段名、编辑数据文件标签、复制数据文件结构、颜色表、数据重新编码、删除所有核对命令、压缩数据文件、创建文档、恢复文档等。6.窗口设置,下列菜单有:水平平铺、垂直平铺、重叠窗口、显示所有窗口、工具栏等。7.帮助。第二行是EpiData工作过程工具栏,有6个项目:1建立调查表文件,2生成数据文件,3添加核对命令,4数据录入,5其他功能,6数据输出。第三行是EpiData常用的几个快捷工具按钮,大多数是与我们常用的word软件相似,如:新建文件、打开文件、保存、复制、粘贴
20、、剪切等工具按钮,其中“数据表预览、选择字段类型、数码编辑器”按钮是EpiData比较独特的。编辑数据表文件就在下面的空白部分。3使用EpiData建立临床数据录入表3.1建立调查表文件点击“建立调查表文件”按钮,选择“建立新调查表文件”,命名为“脑血管病人血脂调查表”并进行保存。这时生成的是.QES文件。3.1.1 打开原始的调查表(图2)。图23.1.2 根据原始表格在EpiData输入相关内容。在“姓名”之后,点击“选择字段类型”按钮,在选项卡片之中选择“文本”,设置为文本,长度8个字节(注意一个汉字的长度需要2个字节),点击“插入”按钮(图3)图33.1.3
21、0;依此类推将其他观察指标进行输入并保存(如图4)图43.1.4 点击数据表预览按钮,一张电子观察表就诞生了(图5)。图53.2建立数据文件虽然生成的数据预览表与我们的原始观察表很相似,但是这时还不能进行数据的录入,我们需要建立数据文件,即.REC文件。这个步骤很简单。点击“生成数据文件”按钮,选择“生成数据文件”,软件会自动提示要由我们刚刚作成的“脑血管病人血脂调查表.QES”文件,生成“脑血管病人血脂调查表.REC”文件(图6),直接选择确定,这时,软件会要求输入对数据文件的描述(数据文件标签),这里最好输入录入者的姓名,比如“陈医生”。图63.3数据输入点击“输入数据”按钮,打
22、开“脑血管病人血脂调查表.REC”文件,这时会出现与“数据表预览”时看到的一样的表格,不过这个表格是可以填写的,现在我们就可以一项一项将数据输入,数据录入完整后,软件会自动提醒进行保存(图7),确认保存之后就可以输入下一张表格的数据了。图73.4数据输出点击“数据输出”按钮,选择“脑血管病人血脂调查表.REC”文件。EpiData2.1为我们提供了丰富的数据输出类型,如文本文件、dBase III、Excel文件、Stata 文件、spss文件、sas文件等,大大方便了我们后期对数据的处理。图8为输出的文本文件,图9为输出的excel文件。图8图9如何快速录入问卷(二)如何使用Epi
23、Data快速录入问卷2/2 4优化数据表用我们上述介绍的方法已经足以完成一个临床观察表的数字化,并且可以顺利地将数据输出并进行统计计算。但是Epidata的功能不仅于此,我们知道,Epidata有三种主要文件,上面的方法只涉及了.QES文件和.REC文件,.CHK文件有什么作用呢?我们对于某些字段的数据并不满足于仅仅是长度或位数的设置,Epidata提供了对这些字段的进一步设置功能。点击工作过程工具条中“添加核对命令”按钮,仍旧选择“脑血管病人血脂调查表.REC”这个数据文件,同样会出现我们做好的电子表格,这时软件也会自动生成同名的.CHK文件,同时会有一个数据核对窗口(如图10)。图10可以
24、看到这个数据核对窗口上半部是字段的名称、字段的内容及字段数据类型,下半部份就是我们需要设置的内容了。4.1 Rang,Legal:是定义一个字段的数字范围及合理数。例如,我们对“年龄”字段进行设置,输入“50-85”(图11),表示这个字段只能输入5080的数字,否则软件会弹出错误信息。图11同样,对“性别”字段我们可以将Rang,Legal设置为“男,女”,那么在录入数据时,一旦输入任何其他文字,软件也会弹出错误信息(图12)。图124.2 Jump:跳转命令。临床上有些问题只是需要部分人来回答,例如当前字段为性别sex (1=male, 2=female) ,则可定义如果sex=1跳转至字
25、段V23,而当sex=2跳转至V40,我们就可以在Jump后填入1>V23, 2>V40。4.3 Must enter:如果当前字段必须输入数据,则需要使用这个规则,选择Yes。Epidata的默认选择为No。4.4 Repeat:如果在编辑表中Repeat选择项中选择“Yes”则前一个记录中的该字段值将自动出现在下一个记录的该字段中,当然这个数值是可以改变的。4.5 Value label:是将一组具有解释数值意义的文本与数值结合。例如,我们对“职业”这个字段进行设置,点击Value label后的“”,在“数据编辑标签”中设置数字和其所代表的职业,数字和职业之间用空格分开,选择
26、“接受并关闭”(图13)。图13当录入职业时,按F9键,这时会弹出一张转换表,我们可以分别选择1,2,3,4,5,6分别代表工人,干部,职员,教师,农民,其他(图14)。图145如何核查数据文件为了保证数据录入的可靠性,我们可以让两个人分别输入同样的一组调查表数据,Epidata提供了对两个相同数据文件的检查功能。我们还是以“脑血管病人血脂调查表.QES ”调查表文件生成“脑血管病人血脂调查表1.REC”数据文件,用“章医生”作为数据文件标签,录入和“脑血管病人血脂调查表.REC”(文件标签是“陈医生”)同样的数据,当然为了检验Epidata的数据检查功能,部分字段的变量是不同的。点击工作过程
27、工具条中“其他功能”按钮,选择“对两个相同数据文件进行有效性检查”,选择“章医生”和“陈医生”录入的两个数据文件,Epidata会自动对两个文件进行比较,并给出报告,这时我们发现这两个数据文件“记录1”的“FIELD5”和“记录3”的“AA”变量是不一样的(图15),追溯原表,我们发现是“记录1”和“记录3”中的“学历”和“病案号”的录入有错误。这个报告也可以存成.not文件,方便将来核查及修改。图15Epidata的这些功能已经能够满足一般临床科研观察数据的需要,当然如果你还有一些编程的知识就可以更好地使用这个软件。Epidata是一个免费软件,有汉化版,网上可以找到并下载,目前最新的版本号
28、是3.02版。希望大家能试用一下这个软件,你会觉得它对你的问卷录入有很大的帮助的。注:程序及帮助文件下载网址:http:/www.epidata.dk/download.php o(_)o.调查问卷录入流程的计算机优化作者:复旦大学社会学系 转贴自: 调查问卷数据的编码、录入是问卷调查中极其不起眼的一个环节,以至于几乎所有的社会研究方法的教材中都只有寥寥几页来介绍它的实施方法,而且彼此大同小异,以至于缺乏足够的操作性。但调查问卷数据的编码录入却又是一个问卷调查中极其重要的环节,因为它是调查的结果向计算机的二进制数据转变的一个关键环节,
29、如果处理不当,不但可能延长编码录入所需要的时间,而且有可能在这个环节上造成数据错误,降低调查的可信度和有效性。因此,保证高效率、低错误率的完成问卷数据的编码和录入工作便是一个调查顺利完成的必要条件了。 然而,在很多从事问卷调查工作或研究的相关人士眼中,数据的编码和录入环节是一个机械的步骤,而不像诸如问卷设计、调查报告撰写等环节那样需要相当的知识积累,并且充满着艺术性。在理想的状态下,情况的确是如此,只有要足够的金钱和人力的投入,数据编码、录入的工作是可以在足够短的时间里毫无差错的完成的。但是在现实生活中,由于受到了经费和人力的限制,我们不可能以人海和钱海战术来提高效率、降低错误率。因此,在经费
30、、人力的局限条件下(这种情况下最好寻求专业的问卷录入公司比较好-编者注),如何在不增加大成本的投入的前提下通过优化编码录入流程的方法来提高效率、降低错误率便成为一个值得研究的问题了。在接下来,本文便将致力于通过计算机技术的利用来实现上述目的,并希望能够达到以下几点目标: 1.降低录入的错误率,提高录入效率。除了通过改善工作环境来提高编码、录入工作的正确率以外,本文同样希望能够通过分析研究,借助计算机技术在编码录入阶段避免错误的产生,同时在事后能够提供强大而且方便的纠错查找和校验手段。 2.降低对于登录员、录入员的要求。在一项问卷调查中,一般必须要对登录员、录入员进行时间不短的必要培训以使其能够
31、按照调查的要求完成工作(对登录员还需要配以必要的编码手册),而在要求严格的商业调查中,登录员甚至都需要通过相关的考核。而对登录员、录入员的高要求也就意味着整个问卷调查成本的提高。本文希望能够通过分析研究,借助计算机技术降低对于登录员、录入员的要求(理想目标是将登录员和录入员合而为一),缩短对于登录员、录入员的培训时间。 3.改善登录员、录入员的工作环境。编码及录入过程是一个极其枯燥的过程,长时间的编码、录入工作很容易导致相关工作人员的心理烦躁,进而影响编码、录入工作的速度和正确率。本文希望能够通过分析研究,借助计算机技术改善登录员、录入员的工作环境,进而提高工作速度和正确率。 4.提供多种数据
32、格式输出的解决方案。在数据分析的阶段里,国内较多使用的统计软件便有SPSS、SAS、STATA、MINITAB、QUANTUM等多种统计软件,如果能够借助相关的计算机技术输出尽可能多的数据格式,以方面之后的数据分析同样也是本文的目标之一。 传统的数据编码、录入环节 正如本文开头所述,在国内的诸多社会研究方法教材中,对于数据编码、录入环节的介绍大同小异,因此本文便引用高等教育出版社出版袁方主编的社会调查原理与方法一书中的相关章节来介绍传统的问卷调查数据的相关步骤。在袁方的书中,资料的电子计算机汇总大致分成四个步骤:编码、登陆、录入和程序编制。除了最后一个程序编制环节现在一般已经由事先编制完成的统
33、计软件完成外,其他的三个环节还是在被应用在目前较多的问卷调查中的。对于这三个环节,袁方是这样介绍的: (一)编码 编码是将问卷中的信息数字化,转换成统计软件和统计程序能够识别的数字,这项工作是一种信息代换的过程。编码工作主要是建立编码手册,编码手册纪录着每一个数字所表示的实际意义,它相当于打电报的密码手册。调查者要根据它将问卷调查资料转换成能够统计、计算的数字、录入计算机,然后再根据它将计算机整理出来的结果转换成我们能阅读的文字。 (二)登录 登录是将编好码的问卷资料过录到资料卡片上去,以便于将它们录入到计算机的磁带、软盘或硬盘上去。登录是一项简单工作,但要耐心细致,要保证资料全息转换不出差错
34、。 (三)录入 录入是将登录在资料卡片上的数据录入到计算机的存储设备(磁带、软盘、硬盘)上,其工作性质同登录相同。所不同的是登陆的操作是在资料卡片上进行,录入是在计算机的终端上进行。一般来说在完成了这项工作后原始资料就可以束之高阁了。只要有编码手册、资料卡片或磁带、磁盘就能再现原始资料。 对于上面的介绍,我们首先不在细节上分析整个流程的问题(这将是下面重要内容),光光是从大局来看我们便很容易就可以发现整个流程一个根本的问题没有充分的利用计算机。随着计算机软件硬件的不断发展,计算速度越来越快、界面越来越友好,计算机能够辅助我们干的事情也就越来越多了。可能是传统的问卷数据编码录入过程中,计算机始终
35、扮演着一个简单的录入工具的作用,而大量本来最合适计算机的高强度机械工作却留给了登录员和录入员。在这样的工作分配下,编码和录入的效率是不可能有大幅度的提高,而人面对高强度机械工作必然会产生的状态下降情况也必然会影响编码和录入的效率。因此,在下面的分析部分中,在充分发现传统流程弊端的前提下重新定位计算机所应当扮演的角色,尽量让计算机分担高强度、机械工作,便成为重中之重。
36、160; 传统方法的问题 按照袁方一书的定义,编码是一种信息代换的过程,也就是按照一定的规则将原始的信息映射成计算机可以接受的数字信息。虽然编码的定义相当简单,但是实际上在操作过程中却远远没有那么简单,经常会出现这样那样的问题,下边将结合具体的事例(如果不加说明,本文中所有的事例均取自复旦大学社会学系浦东新区社会发展调查问卷)进行分析。 常见问题一:伪文字内容转换成数字选项的效率低下。在一份调查问卷中,除了少数的开放式文字题以外,实际上还有不少伪文字题出现。比如在问卷卡一中的第4题“文化
37、程度”提供了8个选择项,第5题“您的职业”提供了12个选择项,属于标准的封闭式选择题。而问卷卡一中的第17题“您父亲的职业是_文化程度是_”表面上看上去是开放式的文字题,但实际上是和前面两题同类型的选择题,而且共享同样的选择项。只不过因为选择项占用过多的问卷幅面,基于节省问卷篇幅的考虑而是以文字题的形式表现。这些题目在访问员访问的时候应该参照前面填入相关的编号,但是由于访问员或者方法的问题,实际填入的往往是文字。对于这些题首先要根据填写的内容在前两题中找出对应的选择项,然后再进行登陆。从问卷设计的角度来看,上述提到的处理方式的确可以起到缩短问卷篇幅,提高访问者回答的意愿,但是从编码上来看,却给
38、登录员带来了额外的工作,要么将所有的选择项全部背出来,要么反复察看问卷前面的选择项,而前者可能因为记忆错误带来额外的编码错误,后者则必然因为反复察看延长编码的时间,降低编码的速度。 常见问题二:高位补零。在编码的过程中,我们一般使用的都是固定长度的编码表(栏),对于某一题所占用的编码长度都事先有所规定。如果本题填写内容没有使用到事先规定的编码长度,那么就需要在高位补零。如问卷卡一中的第题“出生年月:_年_月”,本题一共占用第至第共四个编码列,分别是年两个,月两个。在处理月份的编码时,由于有的月份是一位数,有的月份是两位数,所以在处理一位数月份的时候就需要在高位补一个零。比如问卷填写的是月,那么
39、在编码时就需要编码为。在实际的操作中来看,高位补零是一项执行起来效率比较低的工作。除了必须填写大量不表示任何信息的数字信息外,在登陆的过程中还需要随时留意在需要的地方补零,而这同样也会降低效率。而且如果登录员使用的是简单的编码表或者问卷边上的编码栏没有清楚的标明编码长度的话,登录员很容易忘记补零,使接下来的信息被编在错误的编码列中。 常见问题三:处理缺填选项。由于种种原因(如访问员不尽责任、被调查者因为隐私问题拒绝回答),在调查问卷中往往会出现一些没有填写的调查项。对于这些缺填的选项,登陆工作同样需要进行。对于此部分工作,在袁方一书中有详细的规则介绍,这里就直接引用。“给无回答答案的编码最常用
40、的是,对需要不指一个格的可以重复所给的数字(如或);给不知道答案的编码常为或,。对大多数问题上述方法是可行的,因为指派数字往往从开始,又很难超过,所以让无回答为,不知道为很方便,但对少数问题,和两者均可能是被回答的问题本身所需要的数字(如家庭中子女的数目),在这种情况下,无回答和不知道的编码必须是在经验上绝不会出现的数字(例如,;因为子女数目决不会有那么多)。这样往往在编码时要多增加个格,如问家庭的子女数目,要占两格,如果回答有个孩子,在登陆时要写(高位空格补);无回答的编码为,不知道编码为。”而在实际的处理过程中,最麻烦的就是对于不同的题目缺填选项有不同的映射规则。比如问卷卡一中的第题“您或
41、您的祖辈搬迁到浦东来居住已经_年”,本题编码列为共列,本题对于缺省项可以使用或者处理,因为既然是在浦东接受访问的浦东居民那么在浦东居住的年份必然不可能是年,而且从经验上来看浦东这块土地成型不过百年,居住的年份不可能为年,因为用和都可以表示缺填。但是问卷卡一的第题“如果您已结婚,那么您有几个子女?_个”,本题中可以用来作为缺填的选项,因为经验上目前家庭几乎不可能出现拥有个子女的情况,但是没有子女而需要用来表示的情况却经常可见。又如问卷卡七第题,“您目前的月收入状况:()基本工资_元;()各种补贴_元;()奖金_元”,本题第三小题奖金一项共占用共三个编码列。在处理此题缺填情况的时候,一般就必须使用
42、来表示。因为被访人很有可能没有任何月奖金收入,填写的的确是,在编码时需要用表示。而从经验上来看,一个人的奖金收入恰巧是元的可能性很小,因此可以用来表示缺填的情况。上面的三个例子便可以发现在实际的编码过程中如何处理缺填项是一件极其复杂的事情,编码人员必须随时警惕才能够在不同的调查项中使用不同的映射规则来正确的完成编码工作。 常见问题四:相倚问题的处理。按照袁方一书的说法,“在设计问题时,常常遇到这样的情况,有的问题只适用于一部分被调查对象。而一个被调查者是否需要回答这一问题,常常依据它对于该问题前的另一个问题的回来来定我们通常把前一个问题叫做过滤性问题或筛选性问题,而把后一问题叫做相倚问题。”从
43、某种程度上来说,对于相倚问题的处理实际上和映射规则五中处理缺填选项是大同小异的,因为相倚问题的过滤性问题必然带来大量漏填的问题,比如问卷卡四第42题X小题“您是否知道上海市政府制定的七不规范”?,如果你的选择是(1)知道,那么就需要回答下边的七道题目“您已经做到了哪几条?”,但如果你的选择是(2)知道一部分或者(3)不知道(虽然发生这种情况的机会很小,但的确会有发生的可能),那么刚才的七道题目就无需回答了。而在登陆的时候就仍旧需要把这七道题目进行登陆。上文已经说过处理缺填选项有时候是一件相当麻烦的事情,而当遇到相倚问题的时候却不得不面对大量的缺填选项,处理的难度可见一斑,可想而知,在处理这部分
44、内容的编码时,效率和正确率可想而知。 常见问题五:错输漏输数据。登录和录入是两个极其机械的环节,而且在录入所有的编码时,由于整个编码一般比较长(对于一些大型的调查更是如此,虽然很多大型调查将问卷分成了多个编码卡来处理,比如浦东新区社会发展调查问卷便将整个问卷分成了张编码卡,但即使这样每张卡的编码长度仍旧比较长,比如卡一的编码长度是,卡二的编码长度是,卡三的编码长度是,卡四的编码长度是,卡五的编码长度是,卡六的编码长度是,卡七的编码长度是,卡八的编码长度是),因此在登录录入的环节中无论登录员录入员工作是多么的耐心细致,但是出现错误便是在所难免的。 以上便是笔者总结归纳的传统过程中的几个常见问题,
45、同时总结了可能降低效率或者带来错误的地方。在目前绝大多数的问卷调查中,以上六条映射规则都是由人工来执行的,因此下面我们所要做的就是结合现有的计算机技术,对于计算机在编码过程中的作用重新定位,看看计算机在提高效率降低错误率上究竟可以做些什么。 计算机优化的思路 先来看问题一:文字内容转换成数字选项。对于登录员来说最大的困难便是必须记忆或者反复察看问卷前半部分以便知道所填写文字所对应的编码项。而这个过程完全可以由计算机来代替,一来利用计算机强大的存储功能,只需要实现把所有的文字对应编码项全部实现录入电脑,计算机便可以立即而且是随时给出相关的信息,而不像登录员必须有一个漫长的记忆过程;二来由于计算机
46、是在数据库中读取文字对应的编码项,因此几乎不可能出现错误发生的可能,而不像登录员很容易出现记忆错误而导致编码的错误。因此笔者认为,这个过程完全可以由计算机来代替,登录员只需要在计算机中选择需要的文字,然后由计算机配对进而输出对应的编码项。 接着再来看问题二:高位补零。人工处理的时候困难主要在于很容易忘记执行这条规则,造成编码长度不正确的问题。而且从这条映射规则出现的原因来看,只是为了保证计算机能够正确识别信息而制定的由人适应电脑的规则。由人适应电脑的初衷本来违背了本文由计算机代替人工进行机械繁琐工作的原则,因此笔者认为与其保留这个步骤给登录员代来麻烦,不如索性废除这条映射规则。只需要能够告诉计
47、算机问卷中每一道题目的内容已经录入完毕,由计算机自动处理进行下一题的录入,这样就不需要随时记住额外的录入大量的零,给登录员造成困惑。 然后再来看问题三:处理缺填选项。这条规则对于登录员而言是最为麻烦,因为必须随时面对不同的处理方案。但是从计算机处理的角度来看,其实记忆那么多的处理方案完全不必要由登录员来完成,完全可以交由计算机来完成,而登录员所需要做的只是告诉计算机本项缺填,至于缺填之后应该对应的编什么样的码,那么就是计算机的工作了。 继续看问题四:相倚问题的处理。正如前面所说的,相倚问题的处理很大程度上就类似于处理大量的缺填规则。所以就像我们用计算机来处理缺省规则五的方案那样,具体的缺选项究
48、竟应该编什么码肯定将继续由计算机来代劳。除此之外,计算机还有什么可以代劳的呢?我们可以发现,如果一道筛选问题带来的是跳过多道甚至大量的题目,登录员仍旧需要一道一道的告诉计算机这些题目均为缺填,这仍然是一件麻烦的事情。因此我们更希望计算机能够自动判断筛选问题,如果需要跳过大量题目的话,那么由计算机自动将所有跳过的选项都按照缺填的方法来处理,这样可以避免登录员的无效录入,有效的提高编码效率。 最后问题五:既然录入时的错误是在所难免的,那么我们应当做的就应当是利用计算机把这个错误发生的可能降低到最小。首先,我们在录入的过程中就要避免录入错误。计算机应当能够一发现可能的录入错误立刻提示录入员,防患于未
49、然。计算机不是万能的,它当然不可能完全的就在录入过程中发现错误所在,但是对于某些明显的录入错误,它还是有可能发现的。仍旧以浦东新区社会发展调查问卷为例,问卷卡一第题“您的性别:()男()女”,对应的编码列是第列。它可能的编码只是或者,如果出现、以外的编码,那么显然是出现了登录或者录入的错误。计算机对于这样的错误,通过事先设定的校验规则,完全是可以事先找出。其次,当录入完成后发现多录入或者少数入了数据之后,如何能够快速的进行查找。对于查错,一般而言二分法或者黄金分割法都是用来处理数据查错较好解决方案(具体的实施方法请参见相关资料),但是要利用二分法或者黄金分割法来进行差错,有两个必要的前提:一、
50、能够准确快速的定位任何一个编码列;二、快速的找出特定编码列对应的问卷答题项,以便两者进行对比确定是否出现错误。而在传统的登录录入过程中要做到这两点缺是相当困难,对于第一个前提,在编码表上固然可以增加竖向的列号,但是在录入到计算机时,一般采用的文本编辑软件都缺乏相应的编码列号;而第二点,则必须在知道编码列号之后再查找问卷以确定相应的题目,速度较慢。因此如何利用计算机来更好的解决这两个问题,便是我们下文所要仔细解决的问题了 以上便是笔者对于计算机优化的简单分析,当然上面讨论的仍旧只停留在一个思路的阶段,至于具体怎样通过计算机来实现,并且是最好的实现,那便是本文后半部分的事情了。
51、60; 常用的计算机优化方法的分析 对于上述的分析,相关的社会调查、市场调查人士多少早已有所认识,因此已经有了一些通过计算机优化的方法,方法的具体操作方法很多,不过如果从实现原理上来看,大致有种。而这三种计算机的优化方法有一个共同的特点:将编码、登录、录入的过程融为一体,登录
52、员在脑中完成编码过程后便直接录入计算机,跳过登录和录入的过程。国内的一些调查研究书中都没有提到,但是在艾尔·巴比的社会研究方法中提到了此种方法的可行性,“假使搜集到的问卷资料已经整理的非常完备了,你们就可以直接将这些资料录入到电脑中,而不必要再用另外的编码表甚至是连页缘编码也不用。” 第一种:利用非固定字段长度的数据库(或者类似产品)。在很多小型的问卷调查中,我们会发现很多调查的问卷编码录入过程是利用EXCEL这样的无固定长度数据库产品来完成的,每一道题目占用EXCEL的一个表格列,登录员每录入完一道题目,按下TAB按钮,进入下一题的录入。这种录入方法的改进不大,主要是提高的查错的方
53、便性。利用EXCEL的单元格标记和表格头,可以快速的进行查错。但是这种方法有一个致命的缺点,那就是带来了很多的额外工作必须利用TAB键来表明题目之间的分割,如果遇到题目众多而每一个小题编码列教短的情况的话,那么增加的额外工作是很明显的。还是以浦东新区社会发展调查问卷为例,此问卷共有需要编码的题目289题(以问卷旁的编码列行数计算),总编码长度为585,如果采用传统的录入方法需要击键586次(585个编码数字+1个分行符表示问卷结束),而采用这种优化方法,总共需要击键874键(585个编码数字+1个分行符表示问卷结束+288个TAB分隔符号表示题目技术),比原来的录入方法多击键49.15%,差错
54、便利性随之带来的录入内容冗长十分明显。经常容易造成在查错上节省的时间远远比不上多击键的时间,优化方法反而起不到优化的作用,因此一般除了小型调查外,较少采用这种优化方法。 第二种:利用固定字段长度的数据库(或者类似产品)。这种方法实际上是对上面一种优化方法的再次优化,针对额外需要录入的TAB分隔符进行了改进。至于改进方法就是不使用EXCEL这样的非固定字段长度的数据库(或者类似产品),而是使用诸如FOXBASE、FOXPRO这样的固定字段长度的数据库(或者类似产品)。只需要实现设定好每一题的编码长度,以后在编码录入的时候只要录入完相应的编码,系统便会自动跳到下一题的录入,免去了大量徒劳的TAB按
55、键,提高了效率。不过这种方法同样只能够在时候差错上有一些优化,其他的优化作用几乎没有。 第三种:自编程序法。这种优化方法较少看到有人采用,但是去不能否认这是最完善的解决方案。所谓自编程序法就是请专门的程序员编制出针对特定问卷的录入软件,在程序编制的过程中就把事先设想好的优化方法全部做到相应的软件中去。利用这样的软件进行录入优化程度是最高的,几乎可以完成上文中提到的所有的优化思路,在给录入工作带来极大便利的同时还可以大大提高准确性。但是,这种方法的优化程度高是以牺牲通用性为代价的,为每一份问卷的录入都必须要编写一个特定的程序,不但因此必须付出额外而且是高昂的编制费用,而且每换一份问卷就必须重新编
56、写一次,可复用程度很低。而且如果需要诸如两遍录入校验或者网络协同录入等功能的时候,程序编制的难度会急剧增加,随之而来的就是费用的急剧增加。一般而言除非经费十分宽裕,否则不会采用这种方法。 以上简单介绍了现在经常采用的三种优化方法,我们会发现他们虽然有优点,但是缺点更多。 但是我们从上述的三种方法里,可以大致的看出一个优化的思路来,一个理想的计算机优化方案应该具有以下几个特性: 1.所用软件的廉价性。如果需要额外指出大笔费用购置相应软件,这对于绝大多数调查来说是不可能的。所以我们希望解决方案中涉及的软件价格最好相对较低,甚至免费更好。 2.按题录入,同时自动处理题与题的间隔。也就是像上文说的优化
57、方法二中的软件那样利用事先设定的题目编码长度就可以自动识别题与题的间隔。 3.录入时即提供基本的查错功能,能够处理诸如仅涉及(1)男(2)女的编码项中出现3或者0的情况 4.提供良好的编码提示。遇到诸如文字转化为相应编码项的题目,能够在登录员需要的时候弹出选择项供登录员选择。 5.对于相倚问题的自动跳过。 6.支持双录入,并提供完善的双录入 查错功能,将可能的录入错误降到最低。 &
58、#160; 回首页简要介绍几种问卷录入软件 作者:复旦大学社会学系 转贴自:
59、; 针对问卷数据录入的问题,目前已经由软件开发者开发了多款相应的数据录入专用软件。既然在上文中我们已经提出了作为一个优秀的数据录入软件的几点要求,那么下面就结合上述的几个要求,一一对它们进行比较分析,从中选择出最适合我们要求的软件来。 选择一:SPSS Data Entry。从这个软件的
60、名称中我们就可以看出这个软件和我们常用的社会统计软件SPSS有着千丝万缕的关系。SPSS Data Entry正是由同一个软件软件公司专门针对问卷设计、录入环节开发的专用软件,是一种快速、精确地录入数据的有力工具。包括以下功能:1, 问卷设计,同时建立数据库结构,数据有效性检验、字段间逻辑关系检验、条件跳转等。可处理多选题。2, 问卷录入,核对。在实际的使用过程中,不得不感叹它的强大功能,几乎可以完成我们上面谈到的所有录入优化方法,而且都完成的尽善尽美。即使将它称作最优秀的问卷录入软件也毫不过份,但是最为遗憾的就是,SPSS Data Entry是一个大型的商业软件,价格不菲,在国内尚没有看到
61、公开的报价,虽然有代理公司代理销售,但是从其台湾95000新台币(约合31000人民币)的售价来估算,它在国内的售价也绝对不是普通的研究者所能够承受的。高昂的价格使得它所带来的优势变得毫无意义,因此在这里我们不得不被迫放弃选择它作为编码录入计算机优化的实现软件。 选择二:Quantum。Quantum是一套综合统计软件,一共由个部分组成,分别是:quanqest:主要是设计问卷;quancept:CATI;quinput:数据录入(包含逻辑查错功能);quantum:程序编写(包含再查错功能);quanver:交叉分析功能,并与SPSS、SAS有交口,轻松得到SPSS格式数据。其中我们需要使用
62、的就是它quinput的部分。和SPSS Data Entry类似,quinput同样是一个优秀的录入优化方案,它的方便程度不输于SPSS Data Entry,国内很多的市场调查公司使用的都是这款软件。但是,Quantum的价格同样令我们感到遗憾,该软件采用软件狗加密,在市场上不出售,只提供出租(类似SAS),年租金在人民币8万元左右。这样的价格更不是我们所能够承受的,因此只能够忍痛割爱了。 选择三:EPI INFO2000。EPI INFO 2000是专门为流行病学调查所设计的一套综合统计软件。与上面的软件不同,它是CDC(美国疾病预防与控制中心)编制、为第三世界国家提供的免费软件,设计时
63、充分考虑了不发达国家的国情(所以对系统的要求非常低)和疾病调查数据的特点,能很方便的对数据进行储存、核对、连接,当然也可以进行各种常用的流行病学统计分析,是到研究现场收集数据、进行预分析的及好工具。该软件可以从/epiinfo/下载得到,国内曾经流行过它之前的6.0版本,这里介绍的是最新的在WINDOWS下使用的2000版本。在EPI INFO2000中有一个十分好用的数据录入模块,在数据录入时,可执行如重复(REPEAT)、只读(READ ONLY)和必须(REQUIRED)等字段特点。合法和编码字段有下拉(dropdown)数值表。多行字段在录入文字时自动翻滚。纯文本字段翻滚到128个字符。是我们一个较好的选择。不过在实际的使用过程中,笔者发现EPI INFO2000有两个不小的缺陷:1.由于是使用Visual Basic进行设计的,所以EPI INFO2000的执行速度较慢。而且BUG(错误不少),经常会无缘不顾报错,出现无法使用的情况。2.录入过程以牺牲效率为代价过于简单化了。使用过EPI INFO 2000录入的人都会觉得用它录入太简单了,就和我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024跨境电商服务平台居间合同
- 二零二四年中英文教育培训机构合作服务合同3篇
- 2025年度物流仓储场地租赁及供应链管理合同6篇
- 2025年度航空航天产业技术工人劳动合同3篇
- 2025年度网络安全监测预警服务合同6篇
- 2025年度大型企业员工培训服务采购合同范本3篇
- 二零二四年A公司网站开发合同协议书
- 二零二五年度大厦商场租赁合同(含节假日营业规定)3篇
- 2025年度餐厨废弃物处置与废弃物处理设施运营管理合同3篇
- 2025版煤矿安全生产责任险投保合同3篇
- 春节文化常识单选题100道及答案
- 12123交管学法减分考试题及答案
- 2024年杭州师范大学附属医院招聘高层次紧缺专业人才笔试真题
- 制造业BCM业务连续性管理培训
- 商场停车场管理制度
- 24年追觅在线测评28题及答案
- TGDNAS 043-2024 成人静脉中等长度导管置管技术
- 《陆上风电场工程概算定额》NBT 31010-2019
- 皮带输送机工程施工电气安装措施要点
- 药房(冰柜)温湿度表
- QJ903.9A-1995航天产品工艺文件管理制度管理用工艺文件编制规则
评论
0/150
提交评论