版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章
市场调查与分析资料的整理本章主要内容:一、整理资料的意义、原则和步骤二、文字资料整理的方法三、问卷资料的整理四、数字资料整理的方法五、统计表的统计图的种类调查能否出成果和成果质量高低,在很大程度上取决于这个阶段的工作。第一节整理资料概述一、整理资料的涵义和意义1、涵义指运用科学的方法,将调查的原始资料按调查目的进行审核、汇总与初步加工,使之系统化和条理化,并以集中、简明的方式反映调查对象总体情况的过程。2、意义
(1)它是提高调查资料质量及其使用价值的必要步骤。因为,运用各种调查方法获得的调查资料往往是分散的、零乱的,而且难免出现虚假、差错、短缺、余冗等现象。所有这些现象,都会降低调查资料的质量和使用价值,甚至根本无法使用。要解决这些问题,除了在调查阶段组织调查人员就地自查、互查和指派专人督查外,还必须在研究阶段开始时进行一次全面检查和整理,以区分资料的真假和精粗,消除资料中的假、错、缺、冗等现象,以保证资料的真实、准确和完整。从一定意义上说,整理资料实际上是对调查工作的一次全面检查,必要时还应该组织力量进行补充调查。通过整理工作,调查资料的质量和使用价值就会大大提高。(2)它是进一步分析调查资料的基础。研究阶段的任务在于获得正确的调查结论,而正确的调查结论来源于科学的统计分析和思维加工,科学的统计分析和思维加工又有赖于调查资料的真实、准确和完整。为此,就必须把各种资料差错、特别是数据差错消灭在统计分析和思维加工之前。如果到统计分析和思维加工时才发现调查资料中的差错,再去改正这些差错,那么就会花去更多时间和精力。因此,在开展研究之前,一定要认真鉴别、整理调查资料,坚决纠正或淘汰一切不合格资料,这是保证研究工作顺利进行的重要基础。(3)它是保存资料的客观要求。社会调查的原始资料,不仅是当时得出调查结论的客观依据,而且对今后研究同类社会现象具有重要参考价值。因此,每次社会调查都应认真整理调查资料,以便长期保存和研究。实践证明,真实、准确、完整的调查资料,往往具有长久研究价值,而且随着时间推移,其价值将越来越大。总之,如果说调查阶段是认识的感性阶段、研究阶段是认识的理性阶段的话,那么,整理资料则是从调查阶段过渡到研究阶段、由感性认识上升到理性认识的一个不可缺少的中间环节。二、整理资料的原则
1.真实性原则。
整理的资料必须是真实的、实事求是的,而不是虚假的、主观杜撰的。郭沫若曾指出:“无论作任何研究,材料的鉴别是最必要的基础阶段。材料不够固然大成问题,而材料的真伪或时代性如未规定清楚,那比缺乏材料还要更加危险。因为材料缺乏,顶多得不出结论而已,而材料不正确便会得出错误的结论。这样的结论比没有更要有害。”真实性原则,是整理资料首要的、最根本的原则。2.准确性原则。即整理后的资料所反映的情况应符合事实和逻辑,数据应是准确的。如果整理出来的资料事实含混不清,数据互相矛盾,那么,就不可能得出科学结论。当然,对准确性要求应从实际出发,以能说明问题为原则,而不是越精确越好。例如,了解人均收入,以元为单位就可以了;了解一个县的GDP,以万元为单位就能说明问题。如果精度要求过高,不仅会增加许多工作量,而且可能会更不准确。对于那些模糊社会现象,就应用模糊概念来反映,否则,越“精确”就可能越不准确。3.完整性原则。整理资料应该尽可能地全面、完整,即:既要有历史的资料,又要有现实的资料;既要有正面的、肯定的资料,又要有负面的、否定的资料;既要有主体的、主流的资料,又要有辅助的、支流的资料等等。只有这样,才能真实地反映调查对象的全貌。如果资料残缺不全,就有可能犯以偏概全错误,甚至从根本上失去了研究价值。4.统一性原则。整理出来的资料要统一,包括调查对象要统一,调查指标及其操作定义要统一,调查数据的计算公式、计量单位要统一,调查结果表现形式要统一。如果调查对象不一样,调查指标的解释和操作定义不统一,调查数据的计算公式或计量单位不一致,那么,调查资料就会失去统计和研究价值。5.简明性原则。整理所得的资料应该尽可能地系统化、条理化,并以集中、简明方式反映调查对象的总体情况。如果整理后的资料仍然杂乱无章、没有条理,臃肿、零乱,使人对调查对象的总体情况难以形成一个完整、清晰的概念,那么,就会给以后的研究工作增加许多困难。6.新颖性原则。
整理资料时,要尽可能用新观点、新角度来审视资料、组合资料,尽量避免按照陈旧思路考虑问题、反映问题,更不能简单重复别人已经走过的老路。只有勤于思考、勇于创新,从调查资料中发现新情况、新问题,才能为创造性研究打下良好基础。总之,整理资料应力求真实、准确、完整、统一和简明,并尽可能新颖。只有在这样的调查资料基础上,才能得出科学的调查结论。三、整理资料的一般步骤资料的整理主要是文字资料和数字资料的整理。步骤:
1、资料的审核—审核资料的真实性、准确性和完整性。
2、资料的编码—为计算机处理准备。
3、资料的分组—根据分组标志分组。
4、资料的汇总—将分散的资料以集中的形式显示出来。分手工、计算机汇总两种。
5、统计表和统计图—通过编制统计表和统计图以集中、简明、直观的形式显示出来。第二节文字资料的整理文字资料的来源一般有两个:一是实地调查资料,包括访谈资料和观察记录等;二是文献资料,包括机关档案、政府文件、会议记录、个人日记、传记、信件和公开发表的调查报告和研究论文等。资料来源不同,整理的方法会有所差别,但一般都要经过审查、分类、编码三个程序。一、文字资料的审核审查,指是通过仔细推究和详尽考察,来判断、确定文字资料的真实性、准确性和适用性。无论是官方文献资料还是非官方文献资料、实地调查资料,无论是一次文献资料还是二、三次文献资料,在没有审查之前都不能认为是完全真实的、可靠的,更不能认为是完全适用的。真实性审核也称信度审查,包括两个方面:一是资料本身的真实性审查,二是资料内容的可靠性审查。1、真实性审查,是指通过细究和考察以判明调查所得的文献资料、观察和访问记录等资料本身的真伪。它一般采用两种方法:①外观审查,即从作者、编者、出版者、版本、印刷技术、纸张等外在情况来判断文献的真伪。②内涵审查,即从文献内容,使用词汇、概念,写作技巧和风格等内在情况来判断文献的真伪。观察和访问记录等资料的真实性审查,还可从记录时间、地点、内容、语言、字迹和使用墨水等情况来判断其真伪。例如,那些内容贫乏、时间重叠或不填时间、语言雷同、字迹和墨水相同的记录,就可能是调查人员伪造的记录。2、可靠性审查。资料内容的可靠性审查,是指通过细究和考察以判明资料内容是否真实地反映了调查对象的客观情况。它一般采用4种方法:①根据以往实践经验和常识来判断资料的可靠性,如果发现资料中有明显违反实践经验和常识的内容,那么就应重新调查或核实。②根据资料内在逻辑来检验资料的可靠性,如果发现资料内容有逻辑矛盾,或者违背事物发展的逻辑,那么就应对这些资料重新核实,剔除不符合事实的资料。③根据资料来源来判断资料的可靠性。一般地说,当事人反映的情况比局外人反映的情况可靠性大一些,多数人反映的情况比少数人反映的情况可靠性大一些,有文字记录的情况比人群中口耳相传的情况可靠性大一些,多种来源互相印证的情况比单一来源反映的情况可靠性大一些,引用率高的文献比引用率低的文献可靠性大一些。④利用资料间的比较进行审核。如果资料是多种方法获得的,例如既有访谈资料,又有观察记录和文献资料,就可以将这些资料进行比较看有无出入,以判断真伪。对于观察资料,如果观察是集体进行的,则可将组内各人的观察结果进行比较。真实性审查是资料整理中的最根本要求,因为错误和虚假的资料有可能导致错误的研究结论,甚至导致整个研究的失败准确性审查准确性审查也称效度审查。包括两个方面:一是审查收集到的资料是否符合课题设计的要求,对于那些离题太远,效用不大或不符合要求的资料要予以清除;二是审查资料对于事实的描述是否准确,对答非所问的访谈资料,含混不清的事实资料和笼统模糊的数据资料予以剔除。适用性审查适用性审查,是考察资料是否适合分析与解释。包括:资料的分量是否合适、资料的深度与广度如何、资料是否完整。资料的审查,一方面是在搜集资料的过程中进行的,边搜集边审核,这叫实地审查;一方面是在资料收集完毕后集中进行的,这叫系统审查。对于访问和观察资料,收集过程中的审查特别重要,就是因为可以防止遗忘,而且在发现错误、遗漏和矛盾时能就地补充和改进,及时弥补准确性和适用性上出现的问题,新发现的问题和新线索也能就地及时收集有关资料。对于无法通过补充调查来弥补的不真实或不合格资料,应坚决剔除,弃之不用,以免影响整个调查资料的真实性和科学性。知识窗:《阅读及评估文件》下面这些评论的目的是想让你们对于资料来源的批判取向有一个了解,以帮助你们了解如何用既有的资料来重建过去,如何评估不同文件的可信度,以及如何确认推论及解释的范围等等。以下是一些对于文件所提出的问题:1.谁做了这些文件?为什么有人写出这些文件呢?为什么这些文件保存这么多年?它们使用什么方法来取得文件中的信息呢?2.文件中的偏见是什么?如何检查或修改这些偏见?文件涉及的个人、事件等等的样本是如何计算或代表的?文件是在什么样的制度限制和组织形式下准备的?在什么程度上文件提供了制度性活动指标而不只是被研究的现象?对事件观察的文件与对事件目击的文件的时间差距是什么?文件的制作人希望它有多秘密或公开?成规、习俗及风俗在文件中扮演什么样的角色?如果只是依赖这些文件所包含的证据,你们对过去的见解将受到如何的扭曲?对于相同的议题你们还可能看到哪些文件?
3.文件的作者使用哪些主要的范畴或概念来组织想传达的信息?这些范畴有怎样的选择性或根本没有选择性?4.这些文件提出了什么样的理论议题和辩论议题?这些文件帮助回答了什么样的历史或者社会学的问题?人们从这些文件提供的信息中可以做什么样的有效推论?人们根据这些文件提供的信息,可以做哪种概化?(艾尔•巴比著、邱泽奇译:社会研究方法(第10版),北京:华夏出版社,2005,328页)二、文字资料的分类
分类就是根据资料的性质、内容或特征,将相异的资料区别开来,将相同或相近的资料合为一类的过程,使之条理化、系统化,为找出规律性的联系提供依据。1、分类的关键在于正确确定分类标准,要遵循以下原则:有效性原则、科学性原则、互斥性原则、完整性原则。
①有效性原则,即分类能有效地服务于研究目的,能有效地反映社会现象的本质特征。②科学性原则,即分类标准必须符合科学原理。例如,企业经营情况分类,根据科学发展观要求,就不应仅仅以GDP增长速度为依据,而应以经济、社会和生态效益相统一为标准。又如,区域城镇化水平分类,就不应以人口的户口类别(农村户口和城镇户口)为主要根据,而应以人口的实际居住地或实际生活来源的主要行业为标准。③互斥性原则,即分类后的各种类别必须互相排斥,每一条资料只能归于某一类,而不能既属于这一类别、又属于那一类别。④完整性原则,即分类后的各种类别必须完整,每一条资料都应有所归属,而不应有任何遗漏。2、方法:
前分类法,即在设计调查提纲和表格时,就按照事物和现象的类别设计调查指标,然后再按分类指标搜集资料、整理资料。如有结构观察的卡片、标准化访问的记录等大多采取前分类办法。后分类法,即在调查资料搜集起来之后,再根据资料的性质、内容或特征将它们分别集合成类。如文献调查的资料、非结构观察和访问的记录、问卷调查中开放型回答等,一般都无法事先作出明确的分类,只有在搜集资料之后再去做分类工作。在整理资料中,分类决不是一个简单的程序性、技术性问题,而是对调查资料的一种分析和研究。一般地说,分类过程是一个从具体到抽象的过程,即“合并同类项”的过程,这个抽象过程反映了研究的理论背景和对现象的概括能力以及概念的抽象能力。如在研究闲暇生活时,访谈中可能会得到有关闲暇活动的很多类活动,但是在分析和概括时研究者就要进一步抽象,比如把它们分为“高雅休闲类、大众娱乐类、学习类、健身类”等,在其背后实际上隐藏着研究者的理论解释:不同阶层的休闲方式不同。3、分类的意义:①它是认识社会现象的初步成果。人们关于社会现象类别的概念就是通过分类形成的,而类别概念的形成正是人们认识社会现象第一批成果的集中表现。②它是揭示事物内部结构的前提。要揭示事物的内部结构,必须首先将事物区分为不同的组成部分,分类就是根据一定标准把事物区分为不同组成部分,因而它就成为揭示事物内部结构的必要前提。③它是研究不同类别事物之间关系的基础。要研究不同类别事物之间的关系,必须首先将不同类别事物区别开来,而要区分不同类别事物就离不开分类,因而分类就成为研究事物之间关系的基础。
三、文字资料的编码文字资料分析中的编码与数据资料分析中的编码具有不同的含义,同样它们所扮演的角色也不同。数据研究中的编码是将数字形式的变量测量值整理成计算机可以读取的形式,以便进行统计分析,主要采用前编码的方法。文字资料中的编码是资料分析的有机组成部分,采用的是后编码,具有分类学的意义,其作用是将原始资料组织到不同的概念类别中,并且创造主题或概念,然后再利用这些主题或概念来分析资料。总而言之,形象资料的编码包含两个方面的意义:资料的机械减少与类别化分析,它可以使我们从零散、繁杂的原始资料中解放出来,使得资料中所蕴含的意义由具体上升到抽象,进而提出新问题。比如:农业产业化(AgricultureIndustrialization)是以市场为导向,以经济效益为中心,以主导产业、产品为重点,优化组合各种生产要素,实行区域化布局、专业化生产、规模化建设、系列化加工、社会化服务、企业化管理,形成种养加、产供销、贸工农、农工商、农科教一体化经营体系,使农业走上自我发展,自我积累、自我约束、自我调节的良性发展轨道的现代化经营方式和产业组织形式。文字资料编码有三种类型,即开放式编码、轴心式编码、选择式编码。(1)开放式编码在对文字资料进行初次分析时,一般采用开放式编码,其具体的做法是:在初步翻阅资料后,便制作一份主题清单,并赋予其相应编码。也可以采用词汇、短语、句子和段落作为编码单位。接着,仔细阅读原始资料,根据主题清单编码在资料右边空白处标上编码。在阅读资料的过程中,可以不受主题清单的约束,创造新的主题,也可以改变原来的编码。但需要注意的是,此时的主题处于一种比较低的抽象层次上,大部分来源于最初的研究问题、相关文献中的概念、社会情景中人们所用的词语,以及阅读资料过程中刺激出的新想法。文字研究的编码会存在一定的主观性,同样的原始资料,由于对资料涵盖的完整性与细节理解不同,编码就会有较大的差异。因此,开放式编码要求研究者以一种开放的心态,尽量排除个人的偏见,将所有的材料按其本身所呈现的属性分类。(2)轴心式编码在开放式编码过程中,研究者的注意力集中在资料本身,并为主题制定编码标签,这时并不重视建立主题之间的相关性或使主题所代表的概念精确化。在进行轴心式编码时,研究者从一组已经被组织过的初步编码或初始概念入手,在这第二关的处理中,研究者比较重视已经过初步编码的主题而非资料本身。额外的编码或新的想法可能在这个时候出现,而研究者也会对此进行记录,但是他的主要工作在于回顾与审查初步编码。研究者一步步地组织想法或主题,并其确定分析时关键概念的主轴。轴心式编码着重发现和建立类别之间的各种联系,包括因果关系、时间关系、语义关系等,在轴心式编码过程中,研究者思考原因和结果、阶段和过程,并寻找将他们聚合在一起的类别或概念。在轴心编码时,研究者询问有关原因与结果、条件与互动、策略与过程的问题,并且搜寻那些彼此离得较近的类别或概念。他们提出的问题类似于:已有的概念能够再被分为次级维度或次级类别?能否将几个紧密相关的概念结合成更为抽象概念呢?能否将资料总的这些类别按某种时间顺序、空间顺序或按照他们与主题相关程度进行组织?例如,一位研究普通人生活的实地研究者,将婚姻的一般议题分为几个部分(如订婚、结婚)。他标识所有涉及婚姻部分的笔记,然后把婚姻与爱情、家务工作的劳力分配、对子女的看法等主题相联系,当主题在不同地方重复出现时,研究者对其进行比较,以便找出新的主题(例如,男人与女人对子女有不同的态度)。轴心式编码可以刺激研究者对概念与主题之间的关系进行思考,同时它也有助于提出新的问题,他可能会建议扬弃某些主题,或者更深入检验另外一些主题,此外,他还会增强证据和概念之间的相关性。当研究者要确定编码、找出证据时,他会在许多地方发现关于核心主题的证据,并从文字资料编织起支持这些主题的浓密网络。这与描述信度和变量测量时的多重指标的思想相类似,主题与资料之间的联系会因经验证据总有多重实例的支持而获得增强。(3)选择式编码选择式编码包括浏览资料和先前的编码工作,研究者有选择地查找那些说明主题的个案,并在大部分或所有的资料收集完成之后,进行对比和对照,研究者在发展出某些概念,并开始围绕几个核心概括或观点来筹划整体性的分析之后再开始进行选择性编码。例如研究婚姻生活的研究者决定以性别关系作为首要主题,在进行选择性编码时,研究者浏览他的笔记,找出男人女人的谈话约会、订婚、结婚、离婚、婚外情的差异,然后比较男人与女人对于婚姻这个主题的每个部分的态度。在选择性编码的过程中,主要的主题或概念始终指引着研究者的研究,他不断地对在早起编码中所识别的特定主题进行再组织,并探讨和分析多个不同的重要主题。例如,在婚姻生活的研究中,研究者检查对婚姻的意见,以便同时了解性别关系主题与生命周期中的不同阶段主题。采取这个做法,主要是因为婚姻可以从这两个方面来加以了解。选择性编码也可以说是在主题中找到一个可以统领其他一些相关主题的核心主题,将所有的研究结果统一在这个核心主题的范围之内,这种做法可能将一些无法分类、但对回答研究问题十分重要的材料都排除在研究结果之外。编码完成后还要编制编码簿,编码簿的作用在于说明代码的意义,了解代码的数量和类型,同时为查阅代码提供方便。四、建立档案在完成编码后,就可以为资料建立档案。实际上,伴随着调查工作的启动就已经开始了。如研究计划、背景资料、研究进程的记录以及研究中对所使用的方法或研究策略的反思等。编码完成后所要建立的档案是一种分析档案,这是资料分析过程中最主要的档案类型。具体做法是:先保存好原始档案,即把最原始的访谈记录、录音记录、观察记录、文献资料等各类原始资料复制一份保存好,以便研究过程中发现问题时随时查阅或对照。然后建立分析档案,即根据分析的主题将资料“打散”,通过“剪贴、复制”方法建立分类档案。在分类建档时,要注明原件编号,以便在撰写报告时注明。需要特别注意的是,有些资料(某一段落或者某一句话)的意义是多重的,因此,要把它们同时归入不同的主题中。在调查过程中除了建立工作档案外,还应当建立:(1)背景档案,调查研究对象的背景资料;(2)传记档案,实地研究中涉及到的有关人物的资料,将某个人物的档案放在一起时,有助于更加全面地认识这个人,也可以从中发现不同事物之间的联系;(3)参考书目档案,将资料分析过程中,甚至整个研究过程中所查阅、摘录过的各种书目、文献资料都系统地整理和归档。我们必须要养成勤做笔记的习惯,并将笔记组织成档案,而且经常要做不同类型笔记的档案。五、勾画概念图概念图,就是将一些概念搁在一个图标上,以图表的形式标示概念和概念之间的关系。这种绘制概念图的方法对形成理论很大帮助,主要表现在两个方面:一方面,把隐而不显的理论放到一起,使它们直观可见,或用来澄清一个已有的理论,这样能更好地看清理论的内在逻辑关系以及它们与当前研究的关系;另一方面,概念图也是一种文本思考的方法,有助于发现研究中意料之外的某种联系,或寻找到现有理论的漏洞或矛盾,从而提出新理论。概念图可以用纸绘制,也可以用电子文档绘制。一般说来,随着对研究现象理解的加深,概念图的绘制需要不断地修改和完善,不要指望一次就能绘制出最终的概念图概念图是理论的直观展示,是理论对所研究现象的图画式阐释,是一种提出设计概念框架的工具。概念图画好后,还应写出一段说明文字,介绍概念图对研究现象说明了什么,即用语言捕捉体现在图表中的思想,为理论的提出打好基础。需要注意的是:绘制概念图本身并不是目的,它只是提出理论并使理论更加清晰的一种工具。因此,不要过分注重概念图的外在形式,而忽视了概念图的理论洞察力。第三节
问卷资料的整理数据资料包括两大类,一类是问卷资料,一类是统计资料。本节主要介绍问卷资料的整理。问卷资料的整理过程通常分为资料的审查、编码、录入和清理四个阶段。一、资料审查问卷资料的审查是指研究者对所收集的问卷进行初步的审阅,矫正错填、误填的答案,剔除乱填、空白和严重缺答的废卷。其目的是使原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理、录入和统计分析工作打下良好的基础。资料审查工作包括两方面:一是检查问卷资料中的问题;二是重新向被调查者核实。审查的内容主要包括:①调查对象的选择是否符合原设计要求;②调查指标的理解和操作定义的操作是否符合规定;③对询问问题的回答是否符合原设计要求;④填写的数据是否真实、准确;⑤对检验性问题的回答是否经得起检验;⑥如果是访问问卷,还应审查访问员访谈的起止时间、对回答的评价和复核员的复核意见是否填写完整、符合要求。⑦编码是否正确、完整。⑧问卷的填写是否有漏填项目。此外,还要检查填写问卷的字迹是否清楚等。在实践中,资料核实有两种不同的做法:实地审查和集中审查(系统审查)。前者是在资料收集的过程中进行审查,一旦发现填答错误、漏填误填或其他一些有疑问的情况,就及时进行询问核实;后者先将资料全部收回,然后再集中进行审核。两种审查方式各有优点,实地审查的长处是发现及时且效果较好,困难在于资料收集工作的组织和安排要特别仔细,调查员个人处理各种情况的能力要比较强;系统审查的长处是资料收集工作便于统一组织安排和管理,审查可以统一在研究者的指导下进行,审查的标准比较一致,审查的质量也相对能得到保证,但是工作周期会相对较长,少数个案的重新询问和核实工作有时会因时间相隔较长或空间相距太远而无法落实。对审查中发现的问题,处置的原则是:1.凡在问卷已有答案中能够解决的问题,都应在审查过程中立即予以更正,以免时过境迁遗忘了,留下质量隐患。2.凡在问卷已有答案中无法解决的问题,都应力争在当地通过补充调查弥补问卷填写的缺陷,努力使这些问卷成为完全合格或基本合格的问卷。3.凡既无法进行补充调查、又无法采取其他措施弥补的不合格回答,可对该项指标作无回答或无效回答处理。4.凡调查对象的选择违背原设计方案的问卷,以及问卷中主要内容填写错误而且无法弥补的问卷,均应作为不合格问卷予以坚决淘汰。5.访问员和被调查者对于调查的意见要集中起来,供撰写报告、阐明结果、估计偏误时参考。总之,通过审查要努力提高问卷合格率和指标合格率,坚决淘汰一切不合格问卷和不合格指标。只有如此,才能保证问卷调查的基本质量。二、资料编码编码是给每个问题及答案一个数字作为它的代码,从资料整理的角度看,编码就是用阿拉伯数字代替问卷总的每一个问题的答案,或者说是将问卷中的答案转换成数字的过程。下表就是一份问卷中前几个问题的答案和编码。从上表中可见,这几个问题的回答具有一定层次性,这时对于第一个问题,即赞同节俭的看法,我们按1=非常同意,2=同意,3=无所谓,4=不同意,5=很不同意来赋值,而对于赞同婚事大操大办的看法,我们则按照5=非常同意,4=同意,3=无所谓,2=不同意,1=很不同意来赋值。这样上例中的三种看法的具体赋值情况如下表:对于一些具有定序层次答案的梯度问题,编码时还要注意它的方向性,如下表。每一个回答者在这一量表上的三个得分加起来就构成他/她对婚事操办方式的态度得分。按照我们上述赋值的方式,则一个回答者在该量表上的得分越高,表明他的态度越倾向于婚事大操大办。由于社会研究的样本规模通常达到成百上千,而一份问卷通常又包括几十个问题,这样问卷编码的任务往往十分繁重,需要多人共同完成。位了减少编码工作中的误差,保证编码数据的质量,研究者需要编制一份编码手册(编码簿),然后每个编码员按照编码手册的要求统一进行编码。在编码手册中,研究者将编码的项目和问题逐一列出,一一规定它们的代码、宽度、栏码、简要名称、答案赋值方式以及其他特殊规定等等。此外,还需要注意的是,整个编码手册的格式要规范统一,指示明确且容易理解,便于操作。对于问卷中的开放性回答的后编码,其方法与文字资料的编码方法大致相同。具体做法是:首先在问卷总数中任意选择10%左右的问卷,把对有关问题的回答分类罗列出来并编码,从而形成预分类和预编码。其次,按照预分类类别和预编码代码,对另90%左右问卷中有关问题的回答“对号入座”进行分类和编码。如果在这些问卷的有关回答中,发现预分类中没有的新回答类别,就在预分类中“加座”,增加一个新类别;同时在预编码中“加座”,增加一个新代码。第三,按照研究需要,对预分类的类别清单进行选择和归并,即归并相近类别,保留有用类别,删除无用类别。最后,对选择归并后定型的回答类别正式编码,从而完成后编码工作。三、数据录入数据录入就是把问卷结果、记录表或类似的原始资料形式转换为计算机可读取的格式,输入到计算机中储存起来。数据录入的方式主要有以下四种:1.登录表法。汇集资料,在问卷上编号码,然后将编码数据转录到专门的登录表上,接着再从登录表上将数据录入计算机。这种录入法的优点是:计算机录入人员比较方便,速度相对较快,但它增进=加了一次转录过程,可能存在增加差错的风险。2.直接录入。资料收集完成后,进行录入计算机。利用FoxBASE、FoxPro等这些专门软件可以对编码范围、变量之间的逻辑关系加以控制,减少输入差错。直接录入的长处是避免了再次转录中可能出现的差错。但不足是录入时要不断地翻动问卷,录入的速度相对要慢一些。3.光学扫描(opticalscan)。汇集资料,然后通过把方框或圆圈涂满的方式将它录入到光学扫描卡上,接着再利用光学扫描器将资料转换到计算机中。4.条形码(barcode),汇集资料转换成不通宽度的条形,分别表示不通的数值,然后利用条码读写器将其转入到计算机中。数据录入看似简单,实际上很容易出错。要搞好数据录入工作:一要思想上高度重视;二要工作中认真负责、精力集中;三要反复校对。四、数据清理录入数据后,在开始进行计算机统计分析之前,还应借着计算机仔细地进行数据清理,不要让错误的数据进入运算过程。清理的方法有以下几种:1.有效范围清理对于问卷中的任何一个变量来说,它的有效的编码值往往都有某种范围,而当数据中的数字超出了这一范围时,可以肯定这个数字一定是错误的。比如,对数据资料的“性别”这一变量的赋值是:1男、2女、0无回答。如果这一变量栏中,出现了其他数字,就是错误的编码值。即可找到错码的问卷编号(个案号码),然后查找原始问卷,根据问卷上的答案改进。如果一份问卷中错答的问题不止一两处,则可考虑将这个个案的全部数据取消,作为废卷处理。2.逻辑一致性清理逻辑一致性清理比有效范围清理复杂一些。其基本思路是依据问卷中的问题相互之间所存在内在的逻辑联系,来检查前后数据之间的合理性。比如过滤性问题是:“你们有孩子吗?”答案为“1有、2没有”。而后问题是:“请问你们的孩子今年多大了?”那么,对于选“没有”的人次,在第二个答案上出现了4、6的数字,那么这些个案的数据就一定有问题。3.数据质量抽查如数据录入时有输入错误,但输入的数据在正常有效的编码值范围中,查出这类输入错误的唯一办法是拿着原始问卷一份一份地、一个答案一个答案地进行核对。由于逐一核对的工作量过大,一般采用随即抽样的方法,即从样本的全部个案中,抽取一部分个案,进行校对。用这一部分个案校对的结果,来估计和评估全部数据的质量。第四节
数据资料的检验
数据资料的整理包括:检验、分组、汇总、制作统计表或统计图
数据资料的检验检验,就是检查、验证各种数字资料是否完整和正确。1、完整性检查
主要包括两个方面的内容。一是检查应该调查的单位和每个单位应该填报的表格是否齐全,有没有漏单位或漏表格的现象;二是检查每张调查表格的答案是否完整,有没有缺报的指标或漏填的其他内容。
2、正确性检验就是看资料的内容是否符合实际和计算是否正确。数字资料的正确性检验,一般采用三种方法:一是判断检验,二是逻辑检验,三是计算检验。(1)判断检验。就是根据已知情况来判断数字资料是否真实和正确。如已知某单位是比较落后的单位,而调查指标的数字却明显超过先进单位,那么,对于这些数字就应设法进一步审证和核实。(2)逻辑检验。就是从数字资料的逻辑关系中来检验其是否正确和符合实际。一般说来,正确的答案是合乎逻辑的,而不合乎逻辑的答案则可能是不正确的。比如,收入与支出,播种面积与总产量,教师数与学生数,职工人数与工资总额,人口的年龄、文化与婚姻、职业等状况之间,都有一定的逻辑联系。如果发现支出大大超过收入、播种面积与总产量不相吻合、教师数与学生数不合比例、12岁的孩子填已婚、小学文化程度的人填自己的职业是中学教师等情况,就是显然不符合逻辑的。(3)计算检验。就是通过各种数字运算来检查各项数学有无差错。比如,各分组数字之和是否等于总数,各部分的百分比相加是否等于1,各种平均数、发展速度、增长速度、指数的计算是否正确等等,都可通过数学运算来进行检验。此外,对同一调查指标的数字所使用的量度单位是否一致,不同表格对同一调查指标的计算方法是否统一等,也应进行必要的检查。通过检验发现的各种问题,或表格不齐,或答案不全,或数字不真,或计算错误等等,都应及时查明原因,采取相应措施,予以补充或更正。对于一切无法补充或更正的数据,都应将整个调查表作为无效表格,剔除不计,以免影响整个调查数据的准确性。分组,就是按照一定的标志,把数字资料划分为不同的组成部分。即根据统计对象的某些特征或标志把调查数据划分为不同的类别。基本原则:分组要与研究目的相一致,与客观实际相一致,应界限明确,坚持穷尽性和互斥性原则。统计数据的分组(一)分组的意义
1、可以找出总体内部各个部分之间的差异,。
2、可以深入了解现象总体的内部结构。
3、可以显示现象之间的依存关系。经初步加工,大致可看出资料的集中趋势。资料的最小值为56分,最大值为99分,则全距=99-56=43分,即数列中最大值与最小值之差。根据考试成绩性质的不同,在60分的数量界限的基础上分为不及格、及格、中等、良好、优秀五个类型,并将每组组距定为10分,编制如下组距数列,则基本上能准确反映学生的分布特征。表
某班学生统计学考试成绩表
(二)分组的步骤步骤:选择分组标志、确定分组界限、编制变量系列。
1、选择分组标志分组标志,就是分组的标准或依据。分组标志多种多样。调查目的不同,调查对象情况不同,选择分组标志就应有所不同。常用的分组标志有4种,即质量标志、数量标志、空间标志和时间标志。(1)质量标志,就是按事物性质或类别分组。例如,人口可按性别分为男人和女人,可按民族分为汉族和少数民族;产品可按质量分为优质产品和劣质产品,合格产品和不合格产品;企业可按行业、规模、经营情况等标志分成多种多样类型等等。按质量标志分组,可以把不同性质或类别事物区别开来,有利于认识不同质事物的数量特征,有利于对不同质的事物进行对比研究。(2)数量标志,就是按事物发展规模、水平、速度、比例等数量特征分组。例如,城市可按非农业人口规模来分组,如200万人以上为超大城市、100万∼200万人为特大城市、50万∼100万人为大城市、20∼50万人为中等城市,20万人以下为小城市。农民可按年人均纯收入分组,城镇居民可按年人均可支配收入分组等。按数量标志分组,可以把不同发展规模、水平、速度、比例的事物区别开来,有利于从数量上认识客观事物,有利于对不同数量特征的事物之间的关系进行分析和研究。(3)空间标志,就是按事物的地理位置、区域范围等空间特性分组。例如,中国的经济发展状况,可按东部、中部、西部3大地理区域分组;文化教育普及程度,可按省、县、乡等不同等级、不同规模行政区划分组等等。按空间标志分组,可以把不同地域事物区别开来,有利于了解事物空间分布状况,有利于对不同地理位置、不同区域范围内的事物进行对比研究。(4)时间标志,就是按事物持续性和先后顺序分组。例如,工业总产值可按月、按季、按年度分组;国内生产总值增长速度,可按季度、年度、5年、10年分组;人口增长率可按1年、5年、10年分组等等。按时间标志分组,可把不同时点或时期的事物区别开来,有利于认识事物在不同时点或时期的变化,有利于揭示事物运动、发展的趋势。上述4种标志是最基本的分组标志。在这4种标志基础上,可以用两个或两个以上标志组合成多种多样的复合标志。例如,20世纪90年代我国有关部门规定,特大型钢铁联合企业的标准是:①年产钢150万吨及以上:②生产性固定资产原值l0亿元及以上。发电企业,①装机容量120万千瓦及以上;②生产性固定资产原值6亿元以上。汽车制造企业,①年产5吨以上载重汽车8万辆及以上;②生产性固定资产原值10亿元及以上。纺织企业,①年产能力化纤30万吨及以上;②生产性固定资产原值6亿元及以上等等。随着科学技术进步和经济社会发展,复合标志中质量标志和数量标志的具体内容是不断变化发展的,但是,任何复合标志都离不开上述4种基本标志,都是在这4种基本标志基础上组合而成的。选择分组标志,是数字资料分组的关键。因为,分组标志选择是否正确,直接关系到分组的科学性,关系到分组结果能否正确反映调查对象总体情况。因此,一定要根据调查目的和要求,以科学理论为指导,实事求是地慎重选择分组标志。(二)确定分组界限分组界限,是指划分组与组之间的间隔限度。确定分组界限,包括组数、组距、组限、组中值的确定和计算等内容。(1)组数,就是组的数量。组数的确定,应从实际出发。当数量标志变动范围很小、标志值项数不多时,可直接将每个标志值确定为一组。这时,组数等于数量标志值项数。例如,调查7∼12岁学龄儿童入学率,就可将每一岁儿童确定为一组。当数量标志变动范围很大、标志值项数很多时,就可将邻近几个标志值合为一组,以减少组的数量。例如,调查人口年龄结构,就可将邻近的5个年龄合为一组,这就可大大减少组数。(2)组距,就是各组中最大数值与最小数值之间的距离。确定组距后,应编制组距数列。编制的组距数列,各组组距相等的,叫等组距数列;各组组距不相等的,叫不等组距数列。确定组距数列时,究竟采用等组距数列还是不等组距数列,应从实际情况出发。如编制等组距数列,应先确定组数,再用全部变量最大值与最小值之间的差距即全距除以组数,就可得出组距的大小。如编制不等组距数列,就应根据研究目的的需要来确定组距。例如,上个世纪80年代,从我国农村实际情况出发,对农民中的贫困户、温饱户、小康户、宽裕户和富裕户,就可按不等组距数列确定组距:年人均纯收入1000元以下为贫困户;1000∼2000元为温饱户;2000∼5000元为小康户;5000∼10000元为宽裕户;10000元以上为富裕户。因为,只有这样划分组距,才比较符合农村实际。(3)组限,就是组距两端数值的限度。一般将每组的起点数值(最小数值)称为下限,终点数值(最大数值)称为上限。组限有两种表现形,一种是封闭式组限,即在变量数列中最小组的下限值和最大组的上限值都是确定的;一种是开口式组限,即在变量数列中最小组的下限值或最大组的上限值是不确定的。如下表,左为封闭式组限,右为开口式组限。划分组限后,如果某一数值正好与某一组组限的起点值或终点值相同,就应该遵循统计学中“上限不在内”原则,将某一数值划归属于下限的那一组。例如,某一农民人均年纯收人为2000元,就应划归属于下限2000--5000元的小康户组。(4)组中值,就是各组标志值的代表值。组中值是根据各组组距上限与下限之间的中点数值确定的。封闭式组距数列组中值的计算公式是:组中值=(下限十上限)/2例如,上表中小康户的组中值=(2000+5000)/2=3500开口式组距数列组中值的计算公式是:缺下限的组中值=开口组上限—相邻组组距/2缺上限的组中值=开口组下限+相邻组组距/2例如,上表中贫困户组中值=1000—(2000—1000)/2=500富裕户组中值=10000+(10000—5000)/2=12500(三)编制变量数列数量标志中可以取不同数值的量,统计上称为变量。把数量标志的不同数值编制为数列,称为编制变量数列,即把各数量标志的数值汇总归人适当的变量数列表中。下面是几种常用的变量数列表:(1)按质量标志分组的变量数列表。例如下表:(2)按数量标志分组的变量数列表。例如下表:(3)按空间标志分组的变量数列表。例如下表:(4)按时间标志分组的变量数量表,例如下表:汇总所谓汇总,就是根据研究目的把分组后的数据汇集到有关表格中,并计算、加总,以集中、系统形式反映调查对象总体的数量情况。汇总方法,分为手工汇总和电子计算机汇总两大类。手工汇总的具体方法有:①画记法,就是在汇总表的相应组内,先用画点或画线作为记号,然后再汇总的方法。②折叠法,就是按照相同项目或指标栏次,把表格一张张折叠、排列和对齐,然后再加总的方法。③分表法,就是按照汇总要求将调查表分类,然后分别计算、加总的方法。④过录法,就是先将调查数据过录到预先设计的过录表或汇总表上,然后计算、加总的方法。⑤卡片法,就是利用特制卡片摘录有关数据,然后分组汇总的方法。这5种方法,前3种方法比较简便,但易出错漏;后两种方法准确性较高,但费时较多。随着计算机日益普及,手工汇总方法已逐渐为计算机汇总方法代替。计算机汇总的方法是把原始资料转变为计算机可识别的数据的过程。现在大多是通过SPSS、Excel、dBASE统计软件等,直接登录数据资料来建立数据文件。统计表统计表是显示统计数据的基本工具。在数据的收集、整理、描述和分析过程中,我们都要使用统计表。杂乱的数据,既不便于阅读,也不便于理解和分析,一旦整理在一张统计表内,就会使这些数据变得一目了然、清晰易懂。充分利用和绘制好统计表是做好统计分析的基本要求。统计表的形式多种多样,根据使用者的要求和统计数据本身的特点,我们可以绘制形式多样的统计表。从表可以看出,统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,此外,必要时可以在统计表的下方加上表外附加。表头应放在表的上方,它所说明的是统计表的主要内容.行标题和列标题通常安排在统计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江公务员面试模拟105
- 新疆行政职业能力2010年7月
- 河北省公务员面试模拟88
- 宁夏回族自治区申论模拟5
- 二手车买卖协议合同2024年
- 2024年家具买卖合同协议书模板转让协议
- 2024年畜牧业承包合同范本
- 2024年房屋买卖委托协议
- 山东面试模拟14
- 业务营销合作提成合同协议书范本2024年
- 企业工商过户合同模板
- 雨污水管合同模板
- 《篮球:行进间单手肩上投篮》教案(四篇)
- 2024-2025学年部编版初一上学期期中历史试卷与参考答案
- 2024年山东地区光明电力服务公司第二批招聘高频难、易错点500题模拟试题附带答案详解
- 职业技能大赛-鸿蒙移动应用开发赛初赛理论知识考试及答案
- 2024山东高速集团限公司招聘367人高频难、易错点500题模拟试题附带答案详解
- DB34T 3730-2020 耕地损毁程度鉴定技术规范
- 【人教版】《劳动教育》二下 劳动项目一 洗头 课件
- 第三单元长方形和正方形(单元测试)-2024-2025学年三年级上册数学苏教版
- 北京市历年中考语文现代文之议论文阅读30篇(含答案)(2003-2023)
评论
0/150
提交评论