统计学,统计资料的收集与整理_第1页
统计学,统计资料的收集与整理_第2页
统计学,统计资料的收集与整理_第3页
统计学,统计资料的收集与整理_第4页
统计学,统计资料的收集与整理_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 统计资料的收集与整理统计资料的收集与整理主要内容第一节 统计数据的收集第二节 统计数据的整理第三节 频数分布第四节 统计表和统计图一、统计调查的重要性(一)统计调查的概念统计调查就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织地收集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的原始资料的工作过程。(二)统计调查的地位统计调查是整个统计工作的基础环节。统计设计统计设计统计调查统计调查统计整理统计整理统计分析统计分析等等(三)统计调查的要求1、准确性准确性:如实反映客观实际。2、及时性及时性:就是时效性,要求按统计调查方案中规定的时间,如期提供

2、资料。3、完整性完整性:不重复、不遗漏所列调查项目的资料。二、数据二、数据收集的种类和方法收集的种类和方法(一)统计数据的来源(一)统计数据的来源直接来源:直接来源: 专门组织的调查(主要用来取得社会经济数据) 科学试(实)验(主要用来取得自然科学数据)间接来源:间接来源: 相关的年鉴、期刊、广播、电视传媒和有关出版物等 有关网站搜寻(二)数据的搜集方法(二)数据的搜集方法1 1、访问调查(派员调查):、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;2 2、邮寄调查:、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;爱轮滑爱轮滑

3、 儿童轮滑鞋儿童轮滑鞋3 3、电话调查:、电话调查:调查者利用电话同受访者进行语言交流以获取信息; 4 4、座谈会(集体访谈):、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料; 5 5、个别深度访问:、个别深度访问:一次只有一名受访者参加的特殊的定性研究。 注意:注意:座谈会与个别深度访问主要是定性方法,目的是获取有关特定主题的定性资料,以研究问题的性质和未来趋势,不对研究总体数量特征进行推断。三、数据收集的主要组织形式三、数据收集的主要组织形式(一)普查(一)普查 为某一特定目的而专门组织的一次性全面调查。 如:如:人口普查、工业普查等普查的特点普查的特点

4、: (1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间; (2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏; (3)准确性一般较高,较规范; (4)适用的对象较窄,只能调查一些最基本、最一般的现象。(二)抽样调查(二)抽样调查 从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。 抽样调查的特点抽样调查的特点(1 1)按照随机原则抽取调查单位。)按照随机原则抽取调查单位。(2 2)根据部分来推断总体。)根据部分来推断总体。(3 3)产生的误差是可以控制的。)产生的误差是可以控制的。优越性优越性(1)经济性强经济性强:工

5、作量小、可节省人、财、物力;(2)时效性高时效性高:可迅速、及时地获得所需要的信息;(3)适应面广适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查;(4)准确性高准确性高:工用量小,从而工作可做得更细,误差往往很小作用作用(1)抽样调查可以承担全面调查无法或很难承担的调查任务;爱轮滑爱轮滑 儿童轮滑鞋儿童轮滑鞋(2)抽样调查和全面调查相结合,可以发挥相互补充和核对的作用;(3)利用抽样方法进行生产过程的质量控制;(4)抽样方法可以用来检验总体特征的某些假设。 3 3、统计报表、统计报表 按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。 特点特点: 统一的表式

6、、统一的指标、统一的报送时间、统一的报送程序。 (1)按报送调查范围调查范围分: 全面报表全面报表:调查对象中的每一个单位都填报 非全面报表非全面报表:只要求调查对象中的一部分单位填报 (2)按报送时间间隔时间间隔分:日报、月报、季日报、月报、季报、年报报、年报(3)按报送地域报送地域(机构)范围分: 国家报表、地方报表、部门报表国家报表、地方报表、部门报表类型类型:4 4、重点调查、重点调查 从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。 重点单位重点单位是这些单位的标志值之和占总体全部单位标志值总量的绝大部分。5 5、典型调查、典型调查 从调查对象的全部单位

7、中有意识地选择一个或几个有代表性的单位进行调查。(不一定针对“大户”) 注意:注意:重点调查、典型调查与抽样调查的重点调查、典型调查与抽样调查的不同不同处处在于:在于: 1 1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征; 2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。四、统计调查方案的设计四、统计调查方案的设计调查方案是指导整个调查过程的纲领性文件,大调查方案是指导整个调查过程的纲领性文件,大体包括调查目的、调查对象、调查项目和调查体包括调查目的、调查对象、调查项目和调查表等内容,具体:表等内容,具体:确

8、定调查内容确定调查内容确定调查对象和调查单位确定调查对象和调查单位确定调查项目,拟定调查标式确定调查项目,拟定调查标式确定调查时间和方法确定调查时间和方法制定调查工作的组织实施计划。制定调查工作的组织实施计划。 统计数据的整理(统计数据的整理(summarizing data)summarizing data)是指对所搜集是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分的数据进行加工整理、使之系统化、条理化,以符合分析的需要。析的需要。包括对包括对原始资料的整理原始资料的整理和和次级资料的整理次级资料的整理 一、统计整理的意义一、统计整理的意义 统计资料的整理统计资料的整理是实现从

9、个体单位标志是实现从个体单位标志值过渡到总体数量特征值的必经阶段,是值过渡到总体数量特征值的必经阶段,是统计分析的前提。统计分析的前提。二、统计整理的内容和步骤二、统计整理的内容和步骤数据与处理统计分组与汇总编制统计图表资料积累与保管设计统计整理方案三、统计分组三、统计分组(一)统计分组的概念与种类1、统计分组的概念统计分组统计分组是将预处理过的数据按照某种标志(特征或标准)分成不同性质的组。统计分组标志:统计分组标志:分组时所依据的特征或标准,有品质标志品质标志和数量标志数量标志。统计分组对总体总体而言是分分,对于单位单位而言是合。合。由此可见,选择一种分组方法,突出一种差异,显示了一种矛盾

10、,同时必然掩盖了其他差异。不同的分组方法,可能得出不同的结论。、统计分组的原则、统计分组的原则穷尽性原则穷尽性原则互斥性原则互斥性原则、统计分组的种类、统计分组的种类(1)按分组标志的多少多少,分为简单分组简单分组和复合分组。复合分组。(2)按分组标志的性质性质不同,分为品质标品质标志分组志分组(或称属性分组)和数量标志分数量标志分组组(或称变量分组)(3)按分组的作用和任务作用和任务的不同,分为类类型分组型分组、结构分组结构分组和分析分组。分析分组。(二)统计分组的方法(二)统计分组的方法 1、品质标志的分组方法、品质标志的分组方法 关键是确定分组标志确定分组标志。一般比较简单,主要采用统一

11、的分类标准。品质标志划分各组界限一般取决于统计分析对各组粗细的要求。但也要注意变异间的过度形态,是组限不易划分。例城乡划分。 2、数量标志的分组方法数量标志的分组方法 关键是确定分组标志确定分组标志和确定分组界限。确定分组界限。 (1)单项式分组与组距式分组 单项式分组单项式分组适用于离散型变量离散型变量且变量变动范围不大的场合。比如育龄妇女按其生育子女存活数分组。 组距式分组组距式分组适合于连续型变量连续型变量或者变动范围较大的离散型变量。(2)间断组距式分组和连续组距式)间断组距式分组和连续组距式分组分组 如果变量值只是在整数整数间变动,可采用间间断组距式分组断组距式分组,也可采用连续组距

12、式分组连续组距式分组。比如企业数、职工人数等。 如果变量值在一定范围内的表现既可以是整数整数,也可以是小数小数,只能采用连续组距式分连续组距式分组组。比如产值、身高、体重。 注意:“上限不在内上限不在内”原则的应用。(3)等距分组与异距分组)等距分组与异距分组 等距分组等距分组适用: 标志值变动比较均匀均匀的情况。 异距分组异距分组适用: 标志值分布很不均匀很不均匀的场合; 标志值相等的量具有不同意义不同意义的场合; 标志值按一定的比例发展变化比例发展变化的场合。(4)组距、组数、组限与组中值的计算)组距、组数、组限与组中值的计算 组距组距=上限-下限= 本组上限-前组上限 =本组下限-前组下

13、限 组数组数的确定: 经验上经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 组数组数的确定:实际分组实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:组中值组中值计算:组中值=(上限+下限)/2N210N10lg322. 31 loglog1K或一、分配数列的概念 在统计分组的基础上,列出各组对应的单位数,形成总体单位数在各个组的分布,称统计分布,又称分配数列或次数分布或频数分布。 分配数列包括两个要素:总体按某标志所分的组组和各组对应的单位数单位数(频数)或频率。频数的表示百分数频数百分数频数(Percentage frequency):is

14、the relative frequency multiplied by 100.相对频数相对频数(Relative frequency)/频率频率/ /比重比重各组频数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)二二、 分配数列的编制分配数列的编制(一)品质数据的分组与频数分布(一)品质数据的分组与频数分布例例1 1购买的不同品牌的机型数据购买

15、的不同品牌的机型数据Table, Data from a sample of 50 computer purchases(11/15,1994)IBMIBMPackard BellCompaqIBMPackard BellGateway200Packard BellCompaqCompaqGateway200Packard BellIBMAppleCompaqIBMPackard BellAppleAppleCompaqGateway2000CompaqPackard BellCompaqCompaqApplePackard BellPackard BellAppleIBMIBMAppleAp

16、pleGateway2000Packard BellAppleAppleIBMAppleIBMPackard BellAppleCompaqAppleCompaqPackard BellGateway200CompaqAppleCompaq 分组与求频数分组与求频数 :Table, Frequency Distribution/Relative and Percentage Frequency of Computer Purchases Company Frequency Relative Percentage Frequency Frequency Apple 13 0.26 26 Comp

17、aq 12 0.24 24 Gatewy2000 5 0.10 10 IBM 9 0.18 18 Packard Bell 11 0.22 22 Total 50 1.00 100The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.(二)(二)数值数据的分组与频数分布数值数据的分组与频数分布 对数值数据(或按数值标志)分组时,可先

18、先将数据进行排序排序,然后后根据需要分组分组;对较少的数据也可不排序直接根据需要分组。 分组计频基本步骤分组计频基本步骤: 确定组数确定组数 确定组距确定组距 (按组)整理成分布频数表整理成分布频数表 账目审计账目审计一会计事务所对其20家客户(clients)年底帐目审计(audits)时间(天)统计如下表:Table Year-End Audit Times(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13例例2 2 第一步第一步,确定组数确定组数(Number of classes)。组数的确定一般视

19、数据本身的特点及数据的多少而定。 按照前面所提,可采用斯特格斯(Sturges)提出的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。例2中K=5。 N210N10lg322. 31 loglog1K或 第二步第二步,确定组距确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定: 组距=(最大值 - 最小值)/组数例2中,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。 第三步,确定各组组限第三步,确定各组组限(Class limits)并据此整理频数分布表并据此整理频数分布

20、表。1、分组所遵循的主要原则主要原则是“不重不不重不漏漏”(each data value belongs to one class and only one class)。因此, 首先,最低组限最低组限(The lower class limit)应等于或小于数据的最小值,最大组限最大组限(The upper class limit)应等于或大于数据的最大值; 其次,对数据在每组中的归属习惯上采用“上组限不在内上组限不在内”。注 意最后,确定组限应遵循的原则原则:一一是各组组限应将总体中事物质的差异区分开来。 二二是按所确定的组限编制的变量数列应能真实地反映总体内部分布的特征。注 意2 2、

21、对离散型数据离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如610,1115,1620等); 对连续型数据连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如510,1015,1520等)。注 意 例2是离散型数据(天),采用组限间断方法,因此可得频数分布表如下: TableTable, Frequency distribution, relative Frequency distribution, relative frequency and percent frequency distribution frequency and percent f

22、requency distribution for the audit-time data for the audit-time data Audit Frequency Relative Percent Audit Frequency Relative Percent Time(days) Frequency FrequencyTime(days) Frequency Frequency 1014 4 0.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 Total 20 1.00 100 在最大值与最小值与其他

23、数据相差悬殊,为避免空白组出现,可以采用开开口组口组,即,即“XX以下”及“XX以上” ; 组距分组有等距分组等距分组和异距分组异距分组。异距分组各组的频数受组距大小不同的影响,需要计算频数密度频数密度(=频数/组距),才能准确反映频数分布实际; 有时为了统计需要,需进一步计算累累积频数积频数(某数值以上或以下的频之数和)。注 意三、累计频数和累计频率三、累计频数和累计频率累计频数(频率)有向上累计向上累计和向下累计向下累计。 例3 某班学生统计学考试成绩考分 频数 频率 向上累计 向下累计 频数 频率% 频数 频率 % 5060 2 5.0 2 50 40 10006070 7 17.5 9

24、 225 38 950 7080 11 27.5 20 500 31 7758090 12 30.0 32 800 20 50090100 8 20.0 40 1000 8 200例例3 3洛伦茨曲线是洛伦茨曲线是20世纪初美国经济学家、统计学家洛伦兹世纪初美国经济学家、统计学家洛伦兹(M.E.Lorentz)绘制成的描述收入和财富分配性质的曲线,)绘制成的描述收入和财富分配性质的曲线,洛伦兹曲线如图所示。洛伦兹曲线如图所示。 累计频率应用:洛伦茨曲线累计频率应用:洛伦茨曲线例例4 4一、统计图表的概念及作用一、统计图表的概念及作用 概念:概念:将一系列说明总体特征的统计资料统计资料,按一定的

25、次序和格式列在一份表上就是统计表作用作用: 1阅读方便,一目了然,比较直观,可在短时间内给人以明确的概念;2通过合理、科学地排列统计资料,便于读者进行对照比较,从而发现现象之间的规律;3便于汇总和审查;4便于计算和分析。(二)统计图定义和作用 概念:概念:统计图是用点的位置、线升降、直条的长短或面积的大小等几何图形直观地表达统计指标的大小、对比关系以及变化趋势作用:作用:具有形象直观的优点。主要用途有:表示现象间的对比关系;揭露总体结构;检查计划的执行情况;揭示现象间的依存关系,反映总体单位的分配情况;说明现象在空间上的分布情况。 二二.统计表统计表(一)统计表的结构与种类(一)统计表的结构与

26、种类1.统计表结构统计表结构从表的形式形式上看,由总标题总标题、横行标题横行标题、纵栏标题纵栏标题和数字资料数字资料构成。总标题总标题:是统计表的名称,它扼要地说明该表的基本内容基本内容,并指明时间和范围。放在表的上方。上方。横行标题横行标题:是横行的名称,主要是所研究问题的类别名称类别名称,一般放在表格的左方左方。纵栏标题纵栏标题:是纵栏的名称,主要是所研究问题的指标名称,指标名称,一般放在表格的上方上方。指标数值指标数值:说明总体特征的各项指标值指标值,它是统计表的核心内容。 从内容上内容上看,统计表由主词栏主词栏和宾词宾词栏栏两个部分组成。 主词:主词:是指被研究的总体总体及其分组分组。

27、结合表的形式,也就是说主词实际就是横横行标题行标题。 宾词:宾词:是说明总体特征的统计指标,统计指标,既包括统计指标的名称,名称,也包括统计指标的数值。数值。 结合表的形式,宾词宾词包括纵栏标题纵栏标题和数字资料数字资料。某市某市2001、2002年国内生产总值年国内生产总值 指标 单位 2001年 2002年 2002年比 2001年增长% GDP 万元 622051 505774 18.7第一产业 万元 64385 60782 6.9第二产业 万元 334301 258651 23.7第三产业 万元 223365 186331 15.3人均GDP 元 5411 4426 16.8总标题总标

28、题主词栏主词栏宾词栏宾词栏纵栏标题纵栏标题横行标题横行标题 统计表统计表例例5 5指标数值指标数值2.统计表的分类统计表的分类 调查表 整理表 分析表 简单表 分组表 复合分组表(1)按用途用途分类分为 (2)按主词的是否分是否分组组和分组的程度分组的程度分为(二)统计表的设计(二)统计表的设计 统计表的设计要求要求:简练简练、明确明确、实用实用、美观美观,便以比较。1、标题的设计统计表的总标题、横行标题、纵栏标题应简明扼要,以简练而有准确的文字表述统计资料的内容、资料所属的时间和空间范围。2、统计表的形状的设计。统计表应设计成纵横交叉线条组成的长方形表格长宽保持适当的比例表的左右两端不分口。

29、 3、线条的绘制、线条的绘制 表的上下两端应以粗线绘制,表内纵横线以细线绘制。表的左右两端一般不划线,采用“开口式”。 4、合计栏的设计、合计栏的设计各纵列合计时,一般应将合计列放在最后一行,各横行须要合计时,可将合计列放在最前一栏或最后一栏。 5、表内数值的填写。、表内数值的填写。 数字应该填写整齐,对准位数,不能空缺。数字小,可填写“0”;数字暂缺,可填写“”;不应有数字时用符号“”,不能出现“同上”、“同下”、“同左”、“同右的字眼 6、计量单位的设置。、计量单位的设置。 只有一个计量单位时可放在表的右上方计量单位不同可在横行标题后面列一单位栏 7、注解和资料来源。、注解和资料来源。三、

30、统计图品质数据品质数据往往使用条形图条形图(Bar graphs)和饼饼状图状图(Pie Charts);数值数据数值数据往往使用直方图直方图(Histograms)、折折线图线图(Polygon)、茎叶图茎叶图(Stem-and-leaf display) 。( (一一) )直方图和折线图直方图和折线图 1、直方图直方图是用距形的宽度和高度来表示频数分布的图形(以横轴表示数据分组,纵轴表示频数或频率)。 注意:注意:爱轮滑爱轮滑 儿童轮滑鞋儿童轮滑鞋 1) 1)、对于等距分组等距分组的数据,可用距形的高度高度直接表示频数的分布;对于不等距不等距分组分组的数据,用距形的面积面积(而不是高度)表

31、示各组的频数分布。 2 2)从本质上说,直方图应用频数密度频数密度来绘制,这样可使直方图总面积为1。Fig 2, Histogram for the Audit-Time DataFig 2, Histogram for the Audit-Time Data 10 8 6 4 2 10 15 20 25 30 352 2、折线图:、折线图:也称频数多边形图频数多边形图(polygon),它是将直方图顶部的中点(即组中值)用直线连接起来而成的图形。Fig 3, Frequency Polygon for the Audit-Time DataFig 3, Frequency Polygon f

32、or the Audit-Time Data 108 6 4 2 10 15 20 25 30 35 注意:注意: 1)、折线图的两个终点要与横轴相折线图的两个终点要与横轴相交交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点与其右竖边中点连接到横轴)。 2)、折线图下所围成的面积与直方折线图下所围成的面积与直方图面积相等图面积相等(为1),从而使二者表示的频率分布是一致的。折线图折线图也可用于表示累计频数分布累计频数分布,称为累计频数分布折线图累计频数分布折线图。它是根据累计频数绘制而成的,有向上累计向上累计和向下累计向下累计两种图形。100100(二 )茎叶图茎叶图

33、茎叶图茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。 A stem-and-leaf displaystem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data. 茎叶图由两部分组成茎叶图由两部分组成: 茎(茎(stemstem)与叶(叶(leafleaf)茎:茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边;叶:叶:通常由每组数的低位数值

34、(last digits)形成,按组横排在“茎”的右边。Fig4Fig4是上述例中会计公司对其20个客户年终财务审计所用时间的茎叶图,可知其对大多数客户的审计时间在1020天之间。Fig 4, Stem-and-leaf display for the Fig 4, Stem-and-leaf display for the Audit-Time DataAudit-Time Data 1 2 3 4 4 5 5 6 7 8 8 8 9 2 0 1 2 2 3 7 8 3 3 上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为Fig5的形式。 Fig 5, Stem-and-leaf d

35、isplay Fig 5, Stem-and-leaf display for the Audit-Time Data for the Audit-Time Data 1 2 3 4 4 1 5 5 6 7 8 8 8 9 2 0 1 2 2 3 2 7 8 3 3 可以看出,Fig5所表现的数据分布特征与Fig3的直方图十分相似。但茎叶图有明明显优势显优势: 1. The stem-and-leaf display is easier to construct; 2. The stem-and-leaf display provides more information because it

36、 shows the actual data values.(三)频数分布的类型(三)频数分布的类型 日常经济生活中,常见的频数分布曲线主要有正态分布正态分布、偏态分布、偏态分布、J J型分布、型分布、U U型分布型分布等几种类型等几种类型(见下图)。其次还有双峰型双峰型、孤孤岛型岛型及锯齿型锯齿型等其他类型。()正态分布()正态分布()偏态分布()偏态分布正偏(右偏)负偏(左偏)正正J型分布型分布反反J型分布型分布()()U型分布型分布()() J型分布型分布(e)孤岛型 (f)双峰型(g)锯齿型练习练习1 40个学生的高等数学测验成绩如下(单位:分) 42 54 58 65 68 78 63 84 75 91 72 45 73 81 84 64 78 69 70

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论