




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 统计数据的搜集与整理第一节 数据的计量与类型统计研究客观事物的数量方面,离不开统计数据,统计数据是对客观现象进行计量的结果。对统计数据的属性、特征进行分类、标示和计算,称为统计测定或统计度量,有定性测定和定量测定之别,并且可分不同的层次。根据计量学的一般分类方法,按照对事物计量的精确程度,可将所采用的计量尺度由低级到高级、由粗略到精确分为四个层次,即:定类尺度、定序尺度、定距尺度和定比尺度。采用不同计量尺度可以得到不同类型的统计数据,而不同类型的逃难数据又适用于不同的统计分析方法。一、数据的计量尺度(一)、定类尺度(Nominal scale)定类尺度也称类别尺度或列名尺度,是最粗略、
2、计量层次最低的计量尺度。它只能按照事物的某种属性对其进行平行的分类或分组。使用该尺度对事物所作的分类,各类别之间是平等的并列关系,无法区分优劣或大小,各类别之间的顺序是可以改变的。由于定类尺度只能区分事物是同类或不同类因此它具有=或的数学特性。定类尺度是对事物最基本的测度,是其他计量尺度的基础。要求:必须符合穷尽性和互斥性的要求。(二)定序尺度(Ordinal scale)定序尺度又称顺序尺度,是对事物之间等级差或顺序差别的一种测度。它不仅可以竟事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。定序尺度对事物的计量要比定类尺度精确些,但它也只测度了类别之间的顺序,而未测量出类别之间的准确
3、差值。因此该尺度具有和 + 二、数据的类型和分析方法(一) 数据类型与分析方法统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据,有以下四种类型:定类数据:表现为类别,但不区分顺序,是有定类尺度计量形成的。定序数据:表现为类别,但有顺序,是有定序尺度计量形成的。定距数据:表现为数值,可进行加、减运算,是由定距尺度计量形成的。定比数据:表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。前两类数据说明的是事物的品质特征,不能用数值表示,其结果均表现为类别,也称为定性数据或品质数据(Qualitative data);后两类数据说明的是现象的数量特
4、征,能够用数值来表现,也称为定量数据或数量数据(Quantitaive date)。由于定距尺度和定比尺度属于同一测度层次,所可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。特别指出:适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性;反之,适于较高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。(二) 变量及其类型在统计中,把说明现象某种特征的概念称为变量(Variable),变量的具体表现称为变量值。统计数据就是统计变量的具体表现,变量可分为以下几种类型:1、定类变量(Nominal va
5、riable)。如果一个变量由定类数据来计录就称为定类变量。如2、定序变量(Ordinal variable)。如果一个变量由定序数据来计录就称为定序变量。如3、数字变量(Numerical variable)。如果一个变量由数量数据来计录就称为数字变量。如三、统计调查的种类(一)按调查的组织方式不同,分为统计报表和专门调查。(二)根据调查对象包括的范围不同,分为全面调查和非全面调查。全面调查即对调查对象的全部单位无一例外的进行调查,它又包括全面统计报表的普查;非全面调查即对调查对象中的一部分单位进行调查,包括抽样调查、重点调查、典型调查和非全面统计报表。(三)按调查登记时间连续与否,分为经常
6、性调查和一次性调查。经常性调查也称连续性调查,是指随着被研究现象的变化,连续不断地进行登记,以取得这些现象在一段时期内发展的总量。一次性调查又称不连续性调查,是指对被研究现象每间隔异端相当长的时间所进行的登记,以取得这些现象在一定时点状况上的总量。(四)按搜集资料的方法不同,分为直接观察法、凭证(报告)法、询问(采访)法。直接观察法由调查人员亲临现场对被调查单位进行观察、点数、计量;凭证法是以各种原始记录和核算凭证为基础,依据统一的表格形式和要求,按照隶书关系逐机向有关部门提供统计资料的方法;询问法只指派调查员对被调查者询问、采访,提出所要了解的问题,根据被调查者的答复来搜集统计资料的方法。第
7、二节 统计数据搜集的组织形式统计数据主要来源于两种渠道:一是直接的调查和科学实验;二是别人调查和科学实验。一、 统计数据的直接来源统计数据的直接来源是指由直接的调查和科学实验获得第一手资料,主要有两个渠道:专门组织的调查和科学试验。(一)统计调查方式统计调查是取得时候经济数据的主要来源,也是获得直接统计数据的重要手段。常用的统计调查方式有以下几种:1、普查。普查市委某一特定目的而专门组织的一次性全面调查,如,它是使用于特定目的、特定对象的一种调查方式,主要用于搜集处于某一时点状态上的社会经济现象的数量,摸底是掌握特定社会经济现象的基本全貌,为国家提供有关政策或措施提供依据。普查的特点:(1)普
8、查通常是一次性的或周期性的;(2)普查一般须要规定统一的标准时点;(3)普查的数据一般比较准确,规范化程度较高,可以为其它调查提供依据;(4)普查的使用范围比较窄,只能调查一些最基本及特定的现象。2、统计报表。统计报表是所统计数据的一种重要形式,在我国几十年的政府统计工作中,已形成了一整套比较完备的统计报表制度,它已成为国家和地方政府部门统计数据的主要来源。统计报表是按国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。它要以一定的圆熟数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。种类:按调查对象所包括的范围不同可分为全面报表和非全
9、面报表;按报送时间不同可分为日报、月报、季报、半年报和年报等;按报表的内容和实施范围的不同可分为国家统计报表(国民经济基本统计报表)、部门统计报表和地方统计报表;按填报单位不同,可分为基层统计报表和综合统计报表等优点:统计数据的统一性和时效性、全面性、连续性、相对可靠性。3、抽样调查。它是实际中应用最广泛的一种调查方式和方法,它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查的结果来推断总体数量特征的一种非全面调查。抽样调查的特点:(1)经济性;(2)时效性强;适用面广;(4)准确性高。4、重点调查。它是专门组织的一种非全面调查,它是在调查对象中只选择一部分重点单位所进行
10、的调查,借以了解总体的基本情况。重点单位:是指在总体中具有举足轻重的地位的单位。这些单位虽然数目较少,但就调查的标志值来说在懊恼共同标志总量中占有绝大的比重,能够反映出总体的基本情况。如,它可以四一次性调查也可以是经常性调查。通常情况下,可以同统计报表制度想结合,采用统计报表取得所需要的资料。5、典型调查。它也是专门组织的一种非全面调查,它是根据调查研究的目的和要求,在对总体进行全面分析的基础上,有意识地选择其中有代表性的典型单位进行深入细致的调查,借以认识事物的本质特征、因果关系和发展变化的趋势。典型单位:是指那些最充分、最集中地体现总体某一方面共性的单位。选典的方法:(1)“解剖麻雀”式的
11、方法。它适用于总体内各单位差别不太大的情况。通过对个别代表性单位的调查,即可估计总体的一般情况。(2)“划类选典”的方法。总体内部差异明显,但可以划分出若干个类型组,使各类型组内部差异较小。从各类性组中抽选一两个具有代表性的单位进行调查,即为划类选典。(3)“抓两头”的方法。既分别从先进单位和落后单位中选择典型,以便总结经验和教训,带动中间状态的单位,推动整体的发展。(二)数据的搜集方法数据的搜集方法即统计调查方法可分为两大类:询问调查和观察实验。1、询问调查。是调查者与被调查者直接或间接接触以获得数据的一种方法。具体包括:(1)访问调查。访问调查又称派员调查,是调查者与被调查者通过面对面地交
12、谈从而得到所需统计资料的调查方法。其调查的方式有标准式访问和非标准式访问两种。标准式访问又称结构式访问,是按照调查人员事先设计好的、有固定格式的标准化问卷或表格,有顺序的依次提问,并由受访者作出回答。非标准式访问又称非结构式访问,是由调查人员给被调查者一个题目或提纲,由调查人员和受访者自由交谈,以获得所需资料。(2)邮寄调查。是通过邮寄或宣传媒体等方式将调查表或调查问卷送至被调查者手中,由被调查者填写,然后将调查表寄回或投放到指定收集点的一种调查方法。它是一种标准化调查,其特点是,调查人员和被调查者没有直接的语言交流,信息的传递完全依赖于调查表。邮寄调查的问卷或表格发放方式有邮寄、宣传媒介传送
13、、专门场所分发三种。(3)电话调查。是调查人员利用电话同受访者进行语言交流,从而获得信息的一种方式。它具有时效快、费用低的特点。电话调查所提问题要明确,问题数量不宜过多。(4)电脑辅助调查。电脑不仅可以完成调查数据的处理,而且整个调查过程,包括问卷的设计和显示、样本设计、数据处理等也多可以由电脑来控制和完成。电脑辅助调查也称为电脑辅助电话调查,是在电话调查时,调查的问卷、答案都有计算机显示,整个调查过程,包括拨号、调查记录、数据处理等也都借助于计算机来完成。(5)座谈会。也称为集体访谈法,是将一组被调查者集中在调查现场,让他们对对调查的主题发表意见,从而获取调查资料的方法。这种方法适用于搜集与
14、研究课题有密切关系的少数人员的倾向和意见。参加座谈会的人员不宜太多,通常为610人,并且是所调查问题的专家或有经验的人员。优点:取得的意见较为广泛、深入,且不会遭到拒访。(6)个别深度访问。深度访问是一种依次只有一名受访者参加的特殊的定性研究。它要求不断深入的受访者的思想当中,努力发掘其行为的真实动机。是一种无结构的个人访问,常用于动机研究。2、观察与实验。观察与实验是调查者通过直接的观察或实验获得数据的一种方法。(1)观察法。是指就调查对象的行动和意识,调查人员边观察边记录以收集信息的方法。它是一种可代替直接发问的方法。采用此方法,常常能够在被观察者不易觉察的情况下 获得信息资料。(2)实验
15、法。是一种特殊的观察调查方法,它是在所设定的特殊实验场所、特殊状态下,对调查对象进行实验以取得所需资料的一种调查方法。有室内实验法和时常实验法两种。二、 统计数据的间接来源是指通过其他渠道获取别人调查或科学实验的第二手数据。第二手数据主要是公开出版的或公开报道的数据,当然也有些是尚未公开的数据。还可以在网络上获取所需要的统计数据。如注意:利用第二手数据对使用者来说既经济又方便,但使用时应注意统计数据的含义、计算口径和计算方法,以避免误用或滥用。同时,在引用第二手数据时,一定要注明数据的来源,以尊重他人的劳动成果。第三节 统计调查方案在进行统计调查之前,需要制定一个周密、完整的调查方案,使调查得
16、以顺利的实施和完成。不同调查的调查方案在内容和形式上回一定的差别,但总体上看,一个完整的统计调查方案,至少应回答或解决以下几个方面的问题(五个“W”,一个“H”)。为什么进行调查、向谁调查、调查什么、何时调查、调查何时、怎样调查。一、 确定调查目的调查目的是调查所要达到的具体目标,它所回答的是为什么调查,要解决什么样的问题,调查具有什么样的社会经济意义等。调查目的的写作要简明扼要。如二、 确定调查对象和调查单位调查对象是根据调查目的确定的调查研究的总体或调查范围。调查单位是构成调查对象的每一个单位,它是调查项目和指标的承担者或载体,是搜集数据、分析数据的基本单位。调查对象和单位所解决的是向谁调
17、查,由谁提供所需数据的问题。如。在实际调查中,调查单位可以是调查对象的全部单位,也可以是部分单位。三、 设计调查项目和调查表即回答调查什么的问题,调查项目是调查的具体内容,可以是调查单位的数量特征,业可以是调查单位的某种属性或品质特征。调查项目通常以表格的形式来表现,称为调查表。它是用于登记调查数据的一种表格,一般由表头、表体和表外附加三部分组成。表头是调查表的名称,用来说明调查表的内容、被调查单位的名称、性质、隶属关系等;表体是调查表的主要部分,包括调查的具体项目;表外附加通常有填表人签名、填表日期、填表说明等内容组成。举例。调查表一般有单一表和一览表两种形式。四、 调查时间与调查方法调查时
18、间包括两个方面的涵义:一是统计资料所属的时间,踏回答的是“调查何时”的问题;另一个是统计调查的工作时间,它回答的是“何时调查”的问题,它是一个时间段的概念,是指从搜集资料开始起,到将资料报送到调查方案所规定的部门和机构为止的整个调查工作所需要的时间。举例。五、 调查工作的组织实施计划调查的组织与实施工作具体包括:调查人员的选择、组织和培训;调查表格、问卷、调查员手册的印制;必要调查工作的准备;调查经费的来源和开支预算等。 第四节 统计数据的质量一、 统计数据的误差统计数据的误差通常是指统计数据与客观实际之间的差距,误差主要有登记性误差和代表性误差两类。登记性误差是调查过程中由于调查者或被调查者
19、的人为因素所造成的误差。其中前者造成的误差主要有:调查方案中有关的规定或解释不明确导致的错误、抄录错误、汇总错误等;后者造成的登记性误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据这种误差在统计调查中应予以特别重视。从理论上讲,登记性误差是可以消除的。代表性误差主要是指用样本数据进行推断时所产生的随机误差。二、统计数据的质量要求:就一般的统计数据而言,可将其质量评价标准概括为六个方面:1、精度,即最低的抽样误差或随机误差;2、准确性,即最小的非抽样误差或偏差;3、关联性,即满足用户决策、管理和研究的需要;4、及时性,即在最短的时间里取得公布数据;5、一致性,即保持时间序列的可比性;6、最
20、低成本,即在满足以上标准的前提下,以最经济的方式取得数据。 问卷设计(自学)第五节 统计整理的意义和程序统计资料的整理与显示是统计工作的一个重要环节,它是统计资料的搜集工作的继续,是统计分析的前提。(统计工作分为统计设计、统计搜集、统计整理、统计分析四个环节)。一、统计整理的意义统计整理:指根据统计研究的目的要求,对统计调查所取得的各项资料进行科学的分组和汇总的工作过程;对已整理过的资料(包括历史资料)进行再加工也属于统计整理。1、通过统计调查可以取得第一手资料,但这种资料只能反映总体各单位的具体情况,是分散、零碎、表面的。要说明总体情况,揭示出总体的内在特征,还需要对这些资料进行加工整理,使
21、之系统化,以便通过综合指标对总体作出概括性的说明。2、统计整理是整个统计工作和研究过程的中间环节,起着承前启后的作用。统计整理是统计调查的继续,又是统计分析的基础。统计调查所搜集到的资料,只有通过科学的审核、分类、汇总等整理工作,才能使统计在认识社会的过程中,实现由个别到全体、由特殊到一般、由现象到本质、由感性到理性的转化,才能从整体上反映出事物的数量特征。否则统计调查所得的资料再丰富、再完备,其作用也发挥不出来,统计调查就将徒劳无益,统计分析也将无法进行。3、统计整理还是积累历史资料的必要手段。统计研究中经常要用动态分析,这就需要有长期累积的历史资料,而根据积累资料的要求,对已有的统计资料进
22、行筛选,以及按历史的口径对现有的统计资料重新调整、分类和汇总等,都必须通过统计整理工作来完成。二、统计整理的程序统计整理的全过程包括对统计资料的审核、分组、汇总和编制统计图表四个环节,需要按照一定的步骤进行:(1)对搜集到的资料进行全面审核,以确保统计资料符合统计研究目的的要求,资料准确无误。(2)根据研究目和统计分析的需要,选择整理的标志,并进行划类分组。统计分组是统计整理的重要内容和统计分析的基础,只有正确的分组才能整理出有科学价值的综合指标,并借助这些指标来揭示现象的本质与规律。(3)在分组的基础上,将各项资料进行汇总,得出反映各组和总体数量特征的各种指标。(4)统计资料的显示。即通过编
23、制统计表和绘制统计图,将整理出的资料简捷明了、系统有序地显示出来。第六节 统计资料的审核对调查资料进行审核是统计整理的第一步,包括以下内容:一、审核资料的完整性和及时性审核资料的完整性,就是看调查单位或填报单位是否齐全;规定的项目是否都有答案,应报资料的份数是否符合规定。审核资料的及时性,是看填报单位是否按时报送了有关资料。对不报、漏报或迟报的现象都要及时查清。二、审核资料的正确性审核资料的正确性,是检查所填报的资料是否准确可靠。常用的审核方法有两种:(一)逻辑检查首先,从理论上或常识上检查资料是否有悖常理、有无不切实际或不符合逻辑的地方。比如,一张调查表中,年龄是9岁,职业是教师,其中必有一
24、个是错误的。又如,若在某劳动密集型行业的报表中,企业规模为大型,而职工人数则是100人,这其中也必有一错。其次,是检查各项目之间有无相互矛盾的地方。例如,企业的净产值大于同期总产值就是明显的逻辑错误。(二)计算检查即检查各项指标的计算口径、计量单位是否符合规定,并通过各种计算方法来检查各指标间的数字是否相互衔接。三、历史资料的审核在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的
25、正确性。对不能满足现在要求、缺漏或有疑问的资料,要进行有科学根据的推算、弥补和订正。四、资料审核后的订正通过上述审核,如发现有缺报、缺份和缺项等情况,应及时催报、补报;如有不正确之处,则应分别不同情况作如下处理:(1)对于可以肯定的一般错误,应及时代为更正,并通知原报单位。(2)对于可疑之数或无法代为更正的错误,应要求原单位复查更正。(3)如果所发现的差错在其他单位也可能发生时,应将错误情况通报所有单位,以免发生类似错误。(4)对于严重的错误,应发还重新填报,并查明发生错误的原因,若属于违法行为,则应依法严肃处理。第七节 统计分组一、统计分组的概念1、概念:根据社会经济现象的特点和统计研究的目
26、的要求,按照某个重要标志(或几个标志)把总体划分为若干不同性质的组,称为统计分组。统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志。2、统计分组的深层次理解从分组的性质来看,分组兼有“分和合”双重含义。1)对于现象总体而言,是“分”,即把总体分为性质相异的若干部分;而对于总体单位而言,又是“合”,即把性质相同的许多总体单位合为一组。2)对于分组标志而言,是“分”,即按分组标志将不同的标志表现分为若干组,而对于其他标志而言,是“合”,即在一个组内的各单位即使其它标志表现不相同也只能结合在一组。由此可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然同时掩盖了其他差异,
27、忽略了其他矛盾。不同的分组方法,可能得出不同的结论。缺乏科学根据的分组,不但无法显示事物的根本特征,甚至会把不同性质的事物混淆在一起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本质作全面地、深刻地分析,确定所研究现象类型的属性及其内部差别,而后才能选择反映事物本质的正确的分组标志。二、统计分组的原则统计分组,必须遵循两个原则:穷尽原则和互斥原则。穷尽原则,就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。例如,从业人员按文化程度分组,分为小学毕业、中学毕业(含中专)和大学毕业三组,那么,那些文盲或识字不多的以及大学以上的学历者则无组可归。如果将分组适
28、当调整为文盲及识字不多、小学程度、中学程度、大学及大学以上,这样分组,就可以包括全部从业人员的各种不同层次的文化程度,符合了分组的穷尽原则。互斥原则,就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。例如,某商场把服装分为男装、女装、童装三类,这不符合互斥原则,因为童装也有男、女装之分。若先把服装分为成年与儿童两类,然后每类再分为男女两组,这就符合互斥原则了。三、统计分组的作用统计分组在统计研究中的重要作用可概括为三个方面:(一)划分社会现象的不同类型。社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互关系,必须根据某种标志把它们划分为性
29、质不同的类型,以便揭示不同社会经济现象的质的差异。例如,国民经济按产业分组;农业分成农、林、牧、渔业各组;社会商品零售额按商品用途分组;企业按所有制分组等等。这些分组也叫类型分组。如下表是我国城镇居民家庭收入消费性支出按商品类别分组的统计表,它将全部消费品分为八大类,尽管它们同属于消费品,但在效用上却有“质”的差别。通过这种分类,可以反映我国居民和社会集团的商品性消费中不同类别的商品所占的地位和作用,也为进一步研究我国消费品零售额的水平与结构提供了便利条件。我国城镇居民家庭人均消费支出及构成按商品类别分组零售额(元)构成(%)食品类衣着类家庭设备用品及服务类文化娱乐用品类交通通讯类医疗保健类居
30、住类杂项商品类合计100(二)揭示社会现象的内部结构。从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变到质变的过程,帮助人们掌握事物的特征,认识事物的性质。我国出口产品构成表(%)年份农副产品农副产品加工品工矿产品合计1950196019701980198519901995200057.531.036.718.717.513.07.35.233.242.337.729.526.929.226.225.19.326.725.651.855.657.866.569.710010010010010010010010
31、0如该表,就从我国出口商品构成的变化,反映出我国经济发展水平和经济结构的变化。(三)分析社会现象之间的依存关系。社会经济现象之间广泛地存在着相互依存的关系,如农作物的耕作深度与收成率之间、合理密植与农产量之间、家庭的工资收入与生活费支出之间、工人技术级别与产品质量之间、工人劳动生产率与产品成本之间、市场商品价格与其需求量之间等等,都在一定程度上存在相互依存的关系。所有这些依存关系,都可通过统计分组分析出影响因素与结果因素之间的变动规律。四、统计分组的种类(一)按分组的作用或目的不同,分为类型分组、结构分组和分析分组。1、类型分组:是将复杂的现象总体,划分为若干个不同性质的部分。2、结构分组:是
32、在对总体分组的基础上计算出各组对总体的比重,以此来研究总体各部分的结构。类型分组和结构分组往往紧密联系在一起。3、分析分组:是为研究现象之间依存关系而进行的统计分组。分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。如影响某种商品消费需求的因素有:该商品的价格、消费者收入、相关商品的价格、消费者偏好以及消费者对该商品的预期等。原因标志不同,结果标志也会不同;同一原因标志由于分组的不同,结果标志也会不同。例如,工人的劳动生产率与产值之间、商品流通费用率与商品销售额之间的依存关系,都可以按分析分组法来研究它们之间的联系。(二)按分组标志的多少,可分为简单分组、复合分组和并列分组。
33、1、简单分组:就是对总体只按一个标志进行分组。例如国民生产总值按产业分为第一、第二、第三产业三组;货运量按运输方式分为铁路运输、公路运输、水陆运输、航空运输与管道运输等五组。2、复合分组:就是对总体按两个或两个以上的标志进行的重叠式分组,即在按某一标志分组的基础上再按另一标志进一步分组。本科男例如,为了认识我国高校学生的构成,我们可以同时采用学科、本科或专科、性别等三个标志进行分组:高校学生文科男女 专科女男理科本科女专科男女这样分组的结果就形成几层重叠的组别,把高校学生的构成分析得更为深入、详细。复合分组的优点是,从对同一现象的层层分组和分组标志的联系中,更深入全面地研究总体各个方面的内部结
34、构。但是,采用复合分组时,组数会随着分组标志的增加而成倍增加,使每组包括的单位数相应减少,处理不好就会成为烦琐哲学,不利于分析问题。因此,不能滥用复合分组,尤其不宜采用过多的标志进行复合分组,也不宜对较小总体进行复合分组。3、并列分组:就是同时用两个或两个以上的标志,分别从不同的角度,进行不重叠的多种分组。也就是说,很多简单分组从不同角度说明同一个总体,就构成一个并列的分组体系。例如,职工先按性别分成两组,另按年龄分成若干组;进口总额先按贸易对象分成若干组,另按商品用途分成若干组。并列分组的特点是两种或多种分组相互独立而不重叠,既可从不同的方面反映事物的多种结构,又不致使分组过于烦琐,故被广泛
35、采用。(三)按分组标志的性质,分为品质分组和数量分组。品质分组:是按品质标志进行的分组,即按事物的某种属性分组。如企业按经济类型、行业分组;人口按性别、民族分组;大学生按专业分组等。这种分组可以反映总体的构成和不同属性事物在总体中的地位和作用。数量分组:是按数量标志进行的分组。如企业按生产能力、劳动生产率分组;商店按商品流转额、职工人数分组;人口按年龄、身高分组等。这种分组的目的在于通过事物在数量上的差异来反映事物在性质上的区别。按品质标志分组和按数量标志分组是一对重要的统计分组,统计分组方法主要是围绕这两种分组来阐述的。五、分组标志的选择分组标志是统计分组的依据或标准。正确选择分组标志是进行
36、统计分组的关键,分组标志确定得恰当与否会直接影响统计分组的作用。为了正确选择分组标志,必须遵循以下几条原则:(一)要符合统计研究的目的和要求统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也应有所不同。例如,同是以工业部门为研究对象,当研究的目的是为了分析部门中各种规模的企业的生产情况时,应该选择产品数量或生产能力作为分组标志;当研究目的在于确定工业内部比例及平衡关系时,应该以行业为分组标志,将工业部门划分为重工业与轻工业或冶金、电力、化工、机械、纺织、煤炭等工业行业。(二)必须选择最重要的标志作为分组依据社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分组则应从中
37、选择与统计研究的目的、与有关事物的性质或类型关系最密切的标志,即最主要或最本质的标志作为统计分组的依据。例如,根据统计调查资料,研究人民生活水平变动情况时,可供选择的分组标志有:家庭人口数、每户就业人数、每一就业者负担人数、家庭总收入、平均每人月生活费收入等。而其中最能反映人民生活水平变动的标志是平均每人月生活费收入,故应选择这一标志作为分组标志。(三)要考虑到社会经济现象所处的具体历史条件客观事物的特点和内部联系随着条件的变化而不同,因此选择分组标志时,要具体情况具体分析,根据事物的不同条件来选择分组标志。例如,同是划分企业规模,在劳动密集型的行业或地区,可采用职工人数作为分组标志;而在技术
38、密集型的行业或地区,则应选择固定资产价值或生产能力作为分组标志。六、统计分组的方法在分组标志确定后,就要进行具体的分组。我们说按分组标志的性质不同,分为品质分组和数量分组,这两种分组的具体处理方法也存在着不同。(一)品质分组的方法按品质标志分组时,其组数的确定主要取决于两个因素统计研究的任务与事物的特点。1、对事物进行品质分组,其组数的多少首先取决于事物本身的特点。事物本身所具有的既定的属性,是我们确定组数的基本依据。在有些场合,事物的属性就已确定了总体的组数.例如,人口、职工和学生按性别分组,就只能分为两组;企业按经济类型分组,在我国现行经济体制下,也只有国有、集体、个体、合营和外资等几组。
39、2、对于有些事物构成比较复杂,组数可多可少的情况,就需要考虑统计研究任务的具体要求。例如:人口按职业分组,产品和商品的分组等,就是可粗可细,组数可多可少的,到底分为几组,就只好根据统计研究的任务来确定了。要求较细时,组数可多些;要求较粗时,组数则可少些。我国把社会经济各部门划分为第一产业、第二产业和第三产业,第一产业还可细分为农业、林业、畜牧业和渔业等。但有的品质分组较为复杂,组的界限不易划分,存在着一些交叉过渡状态,组界边缘不清,例如第一产业中的林业与第二产业采掘业中的木材及竹材采运业的区分。对于这一类问题,统计工作中采用统一的分类标准。这样的具体规定分类(组)的标准,为统计整理提供了统一的
40、依据。(二)数量分组的方法按数量标志分组,应注意如下两个问题:首先,分组时各组数量界限的确定必须能反映事物质的差别。例如,学生学习成绩分组,不能把55分和65分合为一组,因为这样的分组未区分及格与不及格的质的差别。其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。1、单项式分组与组距式分组1)单项式分组:就是用一个变量值(标志值)作为一组,形成单项式变量数列。单项式分组一般适用于离散型变量且变量变动范围不大的场合。如,育龄妇女按其生育子女存活数分组,可分为0个、1个、2个、3个、4个、5个等6组。2)组距式分组:就是将变量依次划分为几段区间,一段区间表现为“从到
41、”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。对于连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。例如,反映居民居住水平情况按人均居住面积分组分为:4平方米以下,4-6平方米,6-8平方米,8平方米以上等4组。再如了解某班学生成绩情况,按成绩进行组距式分组。2、间断组距式分组和连续组距式分组在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。间断组距式分组:是指凡是组限不相连的分组。例如,儿童按年龄分组分为未满1岁,1-2岁,3-4岁,5-9岁,10-14岁。连续组距
42、式分组:凡是组限相连(或称相重叠的)分组,即以同一数值作为相邻两组的共同界限的分组。例如,工人按工时定额完成程度分组分为90-100%,100-110%,110-120%等组。如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变量值在一定范围内的表现即可以是整数,也可以是小数,如产值、身高、体重等连续型变量,只能采用连续组距式分组。“上限不在内”原则在进行连续组距式分组时应注意,由于以同一个数值作为相邻两组共同的界限,为了遵循统计分组穷尽和互斥原则,所以统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单
43、位归入作为下限值的那一组内,即所谓“上限不在内”原则。例如学生成绩分组,把70分的学生归入70-80分组内,把80分的学生归入80-90分组内。根据这一原则,离散型变量的分组,各组的上限也可以写为下一组的下限,这样处理既简明又便于计算。连续型变量的分组也可以仅列出左端的数值,即以各组的下限来表示。如上例学生成绩分组也可表示为50-,60-,70-,3、等距分组与异距分组按数量标志进行组距式分组,还可分为等距分组和不等距(或称异距)分组。1)等距分组等距分组:就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。例如,工人的年龄、
44、工龄、工资的分组;零件尺寸的误差、加工时间的分组;农产品单位面积产量、单位产品成本的分组等等。等距分组有很多好处,它便于绘制统计图, 也便于进行各类运算。2)异距分组分组的形式应服从分组的要求,即性质相同的单位应合并在一个组内,性质不同的应当分开。现象的差别取决于现象的本质,而不在于数学形式,必须根据现象的本质特征和统计研究的目的任务来确定分组的等距与否。在下列情况下,就必须考虑采用异距分组:第一,标志值分布很不均匀的场合。例如,学生成绩如果密集于某一范围,如60-80分或70-90分之间,其它部分则分布十分稀少,在这种场合若仍以10分为组距进行等距式分组,则无法显示出分布的规律性,会使得这一
45、密集的分数段分布的信息损失过大。因此,合理的做法是,在分布比较密集的区间内使用较短的组距,在分布比较稀少的其余部分使用较长的组距,形成各组的组距不相等的异距分组。第二,标志值相等的量具有不同意义的场合。例如,生命的每一个月对于新生婴儿和对于成年人是大不一样的,此时,进行人口疾病研究的年龄分组,应采用异距式分组,即1岁以下按月分组,1-10岁按年分组,11-20岁按5年分组,21岁以上按10年或20年分组等等。第三,标志值按一定比例发展变化的场合。例如,百货商场营业额差别是很大的,比如营业额从5万元至5千万元,可采取公比为10的不等距分组5-50万元、50-500万元、500-5000万元。若用
46、等距分组,即使组距为100万元,也得分为50组,显然是不合适的。对于异距分组方法的运用,没有固定模式可供依循,全凭统计人员在实践中不断探索,关键在于对所研究现象的内在联系必须十分熟悉,才能很好运用异距分组来揭示事物的本质。七、组距、组数、组限与组中值在具体进行分组时,首先应对标志值的分布情况进行仔细审查,找出变量的最大值和最小值;其次,在分布比较集中的标志值处确定组距的中心位置;再次,根据预定的组距的大小定出上下限。一般地,第一组的下限必须略小于实际变量值的最小值,最后一组的上限必须略大于实际变量值的最大值,并尽可能使各单位的标志值在组内分布比较均匀。(一)组距在组距式分组中,组距是各组上下限
47、之间的距离,即各组最大标志值和最小标志值之差。1、由于有等距分组与异距分组之分,在后文中将要出现的频数密度的概念,必须具体计算确定每一个组的组距大小。在许多版本的教科书中,笼统地使用如下公式来计算组距的大小,即组距=上限-下限事实上,这一公式只适用于计算连续组距式分组的组距大小,例如成绩分组中,60-70分,70-80分,其组距为10分(=70-60或80-70)。如果将这一公式套用于间断组距式,将会产生谬误。例如,商店规模按职工人数分组,分为1-5人,6-10人,11-15人等等。套用上述公式,得出5-1(或10-6,或15-11)=4,即组距为4人的结论,显然是错误的。2、对于间断式分组的
48、组距大小的计算,必须采用如下公式组距=本组上限-前组上限 (1)(或)=后组下限-本组下限 (2)(或)=本组上限-本组下限+1 (3)在上面的例子中,可见其组距实际上是5人。应当注意到,连续组距式分组的组距大小,也可根据公式(1)或(2)求得。(二)组数全距是总体中最大的标志值与最小的标志值之差。组数的多少直接取决于两个因素,一个是总体的全距,另一个是组距。在等距分组的条件下,组数等于全距除以组距。在组距既定的条件下,全距大则组数多,全距小则组数少;在全距既定的条件下,组距大则组数少,组距小则组数多。全距是客观存在的事实,不以人的意志为转移,所以,确定组数的关键是确定组距。如对学生成绩情况的
49、统计分组中,组数过少,例如学生成绩分为2组,不能很好地达到分组的基本要求;组数过多,例如成绩分为101组,即分组过细,也无法起到化繁为简的作用,难以显示出总体分布的规律。决定组数的多少,并无规则可言,必须凭借经验和所研究问题的性质作出判断。这里,向大家介绍一种确定组数和组距的经验公式,这一公式是美国学者斯特杰斯(Sturges)创立使用的,称为斯特杰斯经验公式,即:n=1+3.3lgN 则有:,公式中,n为组数,N为总体单位数,d为组距,R为全距,即最大变量值Xmax与最小变量值Xmin之差。根据这一公式,可以得出如下(见下表)的组数参考标准。分组组数参考标准表N15-2425-4445-89
50、90-179180-359n56789上述公式及表中数据仅供参考,不能生搬硬套。实际分组时采用组数多少应依据所研究资料的性质而定。(三)组中值组中值:为上下限之间的中点数值,组中值的计算公式为:组中值=(上限+下限)/2 在计算平均指标或进行其它统计分析时,常以组中值来代表各组标志值的平均水平。当各组标志值均匀分布时,组中值代表各组标志值的水平,其代表性就高。因此,分组时应注意:1、尽可能使组内各单位标志值分布均匀;2、为避免产生过大的计算误差,在选取各组上、下限时,应尽可能使组中值恰为整数。3、当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型
51、变量自身的特点。年龄就是比较典型的例子,它实质上是连续型变量,习惯上用整数表示。例如一群大学生分为17-19岁、20-22岁两组,则组距3岁,组中值分别为18.5岁和21.5岁。因为第一组应包括19岁又不到20岁的大学生,上限应视为20岁。同样道理,第二组上限应视为23岁。4、开口组的组中值的确定。在编制组距式变量数列时,使用“以上”或“以下”这样不确定组距的组,称为开口组。例如,反映某工业企业工人生产定额完成情况,按生产定额完成程度分组,分为90%以下,90-100%,100-110%,110%以上。开口组的组距是以相邻组的组距为本组的组距,如上例,90%以下的组,因相邻组的组距为10%(=
52、100%-90%),故第一组视为80-90%,其组中值为(80%+90%)/2=85%,即85%;110%以上的组距以邻组的组距10%为本组组距,视为110-120%,组中值为 =115%。第八节 频数分布一、频数分布的基本概念(一)频数分布在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,并计算各组的单位数称为频数分布,或次数分布。频数分布是统计整理的一种重要形式,通过对零乱的、分散的原始资料进行有次序的整理,形成一系列反映总体各组之间单位分布状况的数列,即分布数列。(二)分布数列的两个要素1、总体按某标志所分的组。就变量数列而言,总体按数量标志分组,分组标志在各组有不同的数量表现
53、,形成标志值数列,亦称变量,一般用x表示;2、各组所出现的单位数,即频数,又称为次数,用f表示。(三)分布数列的种类根据分组标志特征的不同,分布数列可分为品质分布数列和变量分布数列。按品质标志分组所形成的数列称为品质分布数列,亦称品质数列。按数量标志分组所形成的数列叫变量分布数列,亦称变量数列。二、变量数列的编制统计调查所搜集的原始资料,是比较分散零乱,无法显示现象总体的本质特征。一般来说,对所搜集的资料按标志值大小进行排序,再观察各标志值分布是否均匀,决定是否采用等距分组。例如,根据抽样调查,某月某市50户居民购买消费品支出资料如下(单位:元): 830 880 1230 1100 1180
54、 1580 1210 1460 1170 1080 1050 1100 1070 1370 1200 1630 1250 1360 1270 1420 1180 1030 870 1150 1410 1170 1230 1260 1380 1510 1010 860 810 1130 1140 1190 1260 1350 930 1420 1080 1010 1050 1250 1160 1320 1380 1310 1270 1250对上述资料采用等距分组,分为8组,组距为100,以800为第一组下限。经过整理,得出计算结果如下表。表中第1列是变量,第2列是各组出现的次数,即频数,各组频数之和等于总体单位数,第3列是频率,频率反映了各组频数的大小对总体所起的作用的相对强度,它是各组频数与总体单位总和之比,计算公式如下:频率 = 某市50户居民某月购买消费品支出情况表 单位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院实习生个人总结(4篇)
- 商业街门面店铺转让协议(7篇)
- 有关安全生产的发言稿(20篇)
- 4s店计划员岗位职责(15篇)
- 体育与保健实践课教学设计
- 大学生暑假电视台实践总结(4篇)
- 临床药师进修培训总结(3篇)
- 小学数学人教版五年级下册6 分数的加法和减法分数加减混合运算第3课时教学设计
- 2025-2026年安康和意外保险的智能化转型与发展
- 家长评语高中(5篇)
- DB65-T 4765-2024 农牧区标准化羊场建设规范
- 城轨行车课程设计
- 2024年南京市中考历史试题及答案
- 2024羽毛球教案36课时
- A类供应商绩效评价表
- 摄影摄像知识竞赛考试题库500题(含答案)
- 2024至2030年中国丹参行业市场发展监测及投资潜力预测报告
- AQ/T 9009-2015 生产安全事故应急演练评估规范(正式版)
- 《无人机测绘技能训练模块》课件-模块7:无人机航测影像获取
- 人工髋关节置换随访资料库模板
- 2024招商引资协议书范本
评论
0/150
提交评论