第三章统计整理_第1页
第三章统计整理_第2页
第三章统计整理_第3页
第三章统计整理_第4页
第三章统计整理_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2013年第二季度全国星级饭店经营情况整理统计全国有星罗棋布的宾馆、旅店,各星级饭店的营业收入、房价、出租率等也高低不等。面对海量的数据,科学的归类整理,不仅国家旅游局能心中有数,每一位游客也会一目了然。例如,2013年第二季度,全国共有12101家星级饭店(其中,一星级156家,二星级3100家,三星级5774家,四星级2355家,五星级716家);全国星级饭店的平均房价为326.45元(其中,一星级127.77元,二星级151.35元,三星级210.64元,四星级355.89元,五星级699.34元)。相信伴随着中国经济的发展,一个能满足和适宜大众化休闲旅游的时代必将早日到来。资料来源:国家旅游局,2013-8-31引例第三章统计整理第一节统计整理的基本问题第二节统计整理的审核第三节统计分组第四节统计汇总第五节分布数列第六节统计资料的显示一、学习目的与要求通过对本章的学习,使同学明确统计整理的概念和程序,认识统计分组的意义和作用,掌握统计分组和变量数列的基本理论和方法,了解统计资料汇总的方法和技巧,了解统计表的结构、种类和制表规则。

二、本章重点、难点本章学习重点是统计分组,变量数列的编制方法;难点是掌握并运用统计分组的种类。三、授课学时:4学时变量次数221232243254263271合计1427232424252525242526262226232223232424242525252526262627第一节统计整理的基本问题

一、统计整理的含义与意义(1)含义统计整理:根据统计研究的目的和要求,对调查所得原始材料进行科学分组与汇总和对以往的材料进行再加工,使之系统化、条理化成为能反映事物总体特征的综合资料的过程。(2)意义统计整理是整个统计工作和研究过程的中间环节,起者承前启后的作用,是统计调查的继续也是统计分析的基础。统计整理最后的结果就是形成各种统计表格和统计图。二、统计整理的程序

审核;分组;汇总;制图表第二节统计整理的审核

对调查资料的进行审核是统计整理的第一步,包括以下内容:一、审核资料的完整性和及时性二、审核资料的准确性三、历史资料的审查四、资料审查后的修正审核很重要,准确的资料是进行正确统计分析的关键。

第三节统计分组

一、统计分组的含义二、统计分组的作用三、统计分组的种类四、统计分组的原则和方法五、分组标志的选择六、组数、组距、组限、组中值全国人口男性人口女性人口全国人口按性别分组全国人口全国人口按文化程度分组大学人口高中人口初中人口小学人口文盲人口全国人口全国人口按城乡分组城镇人口乡村人口一、统计分组的含义统计分组就是根据统计研究的需要,按照一定的标志,将总体中所有单位划分为若干个组成部分的一种统计方法。二、统计分组的作用(一)划分不同的社会经济现象某地区城镇居民家庭人均消费构成按商品分类分组构成(%)食品类40.6衣着类4.7家庭设备用品类7.5文化娱乐用品类11.6交通通讯类10.8医疗保健类4.7居住类14.4杂项商品类5.7合计100(二)说明现象总体的内部结构及比例关系

2013年我国国内生产总值568845亿元。第一产业增加值占国内生产总值的比重为10%;第二产业增加值比重为43.9%;第三产业增加值比重为46.1%。(第三产业增加值占比首次超过第二产业)(三)分析社会现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数(2009年)按收入分组(元)低收入户中低收入户中等收入户中高收入户高收入户恩格尔系数(%)

47.0045.8843.7040.5434.76

小麦播种量与产量关系播种量(公斤/亩)亩产量(公斤/亩)4.57.51014.5225300290275三、统计分组的种类(一)按分组标志的多少,可分为简单分组和复合分组。简单分组就是对研究现象按一个指标进行分组。许多简单分组从不同角度说明同一个总体,就构成一个平行的分组体系。在许多场合,要用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分组,又再层叠地按第三个标志分成更小的组,这称为复合分组。例如:全社会固定资产投资基本建设农林牧渔业工业、建筑业商业、运输邮电业其他行业更新改造房地产投资其他投资(二)按分组指标的性质不同,分为品质分组(属性分组)和数量分组(变量分组)品质分组是按品质标志进行分组。一般地,对于定类尺度和定序尺度计量的,采用品质分组。例如,企业按经济类型分组、固定资产按行业分组、人口按性别分组、大学按专业分组等。数量分组是按数量标志进行分组。例如,企业按年销售收入分组、居民按可支配收入水平分组等。品质分组所形成的数列称为品质数列,变量分组所形成的数列称为变量数列。四、统计分组的原则和方法1.统计分组的原则:穷尽原则:使总体中的每一个单位都应有组可归(每个孩子都有家可归),或者说各分组的空间足以容纳总体所有的单位。互斥原则:就是在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。2.统计分组的方法(1)品质分组:按品质标志分组事物本身的属性特征;统计研究的要求(2)数量分组:按数量标志分组。应注意两个问题:第一,分组时数量界限的确定必须能反映事物的差别;第二,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。(A)单项式分组与组距式分组单项式分组:用一个变量值作为一组,形成单项式变量数列。一般适用变动范围不大的离散型变量。组距式分组:将变量依次划分为几段区间,一段区间表现为从“……到……”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。适用于连续型变量或者变动范围较大的离散型变量。(B)间断组距式分组和连续组距式分组组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻的界限,称为组限。凡是组限不相连的,称为间断组距式分组。凡是组限相连的,即以同一数值作为相邻两组的共同界限,称为连续组距式分组。在连续组距式分组中,存在以同一个数值作为相邻两组共同的界限,因此,根据统计分组”互斥原则“,我国统计制度规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一单位归入作为下限值的那一组内,亦称“上限在不内”原则。(C)等距分组与异距分组按数量标志进行组距式分组,还可以分为等距分组与不等距(异距)分组。等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。异距分组即各组的组距不相等。一般地,异距分组适用于以下几个场合:一是标志值分布很不均匀;而是标志值相等的量具有不同意义;标志值按一定比例发展变化。五、分组标志的选择分组标志:是指将总体划分为性质不同的组的标准或依据。分组标志选择的要求:1、要符合统计研究的目的和要求2、必须选择最主要的标志作为分组依据3、要考虑社会经济现象所处的具体历史条件

六、组数、组距、组限、组中值组数:即将总体分为几组。1、全距=最大标志值-最小标志值

2、组距连续型组距式分组的组距=各组最大标志值(上限)-各组最小标志值(下限)=全距÷组数(等距分组)间断型组距式分组的组距=各组最大标志值(上限)-各组最小标志值(下限)+1注意:(1)组数的多少取决两个因素:一是总体的标志变异全距;另一个是组距。在等距分组情况下,组数=全距/组距。(2)在组距既定条件下,全距大则组数多,全距小则组数少;在全距既定条件下,组距大则组数少,组距小则组数多。所以确定组数的关键是确定组距。确定组距涉及两个问题:一是组距的大小;二是组距的形式(等距和异距)3、组数、组距确定的斯特杰斯(美国学者)经验公式式中,n为组数,N为总体单位数,d为组距,R为全距。根据斯特杰斯经验公式,可以得出以下的组数的参考标准:N15-2425-4445-8990-179180-359n567894组限和组中值组限:指每组两端数值。分上限和下限。

上限:每组的终点数值(最大值)

下限:每组的起点数值(最小值)组限的形式与变量的特点密切相关。如果分组标志是连续变量,组限一般重合式;如果分组标志是离散变量,组限一般用不重合式。所谓重合式,就是相邻两组中,前一组中的上限与后一组的下限数值相重。如人口年龄为0-1岁,1-3岁,3-7岁,7-14岁…。形式上相重,实际上两组之间是没有重复的,一般按”含下限不含上限“或”上限不在组内“的原则处理。所谓不重合式就是前一组的上限与后一组的下限,两值紧密相连又不重复。组中值是各组上下限之间的中点值,代表组内标志值的一般水平,具有平均数的性质(但不是平均数)。当两组间的相邻组限重合时:组距=本组上限-本组下限组中值=(上限+下限)/2

或=下限+组距/2

或=上限-组距/2

当两组间的相邻组限不重合时:组距=下组下限-本组下限或=本组上限-前组上限=本组上限-本组下限+1组中值=(本组下限+下一组下限)÷2

或=本组下限+组距/2

或=下组下限-组距/2在组距式分组中,常常会遇见首末两组”开口“的情况,即第一组用”多少以下“(有上限无下限),最后一组用”多少以上“(有下限无上限)来表示。组中值是以相邻组组距为依据,按下式计算:组中值=上限-邻组组距/2

或=下限+邻组组距/2例如,某企业工人生产定额完成情况,按生产定额完成程度分组分为:90%以下,90%-100%,100%-110%,110%以上。当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型变量自身的特点。年龄就是比较典型的例子,是连续型变量,习惯上用整数来表示。例如,一群大学生分为17-19岁、20-22岁两组组距=20-17=3岁组中值为(20+17)/2=18.5岁和(23+20)/2=21.5岁某研究生班学生按年龄分组年龄人数比重%20-25186025-3093030-35310合计30100下限上限组距=上限-下限=25-20=5(岁)组中值=(上限+下限)/2上限不在本组内80名同学统计成绩分布表成绩(分)人数(人)比重(%)60以下78.860-702126.270-802531.280-901923.890以上810.0合计80100无下限组组中值=本组上限-临近组组距/2无上限组组中值=本组下限+临近组组距/2第四节统计资料汇总一、概念和意义1概念:统计汇总:即在统计分组的基础上,将统计资料归并到各组中去,并计算各组和总体的合计数(包括单位总数和标志总量)的工作过程。2意义:揭示出总体的数量特征二、统计汇总的组织形式:1、逐级汇总2、集中汇总3、汇审汇编4、综合汇总手工汇总计算机汇总第五节频数分布一、频数分布基本概念1频数分布和分布数列的定义在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,并计算其相应出现的次数。这样得到的分布称为频数分布或次数分布。频数分布所形成的一系列反映总体各组之间单位分布状况的数列,即分布数列。分布在各组的单位数叫次数(频数)。各组单位数占总体单位数的比重叫频率。次数和频率从不同的角度反映了各组标志值出现的频繁程度,说明总体各单位在各组间的分布。2分布数列的两个要素一个是总体按某标志所分的组,另一个是各组所出现的单位数,即频数,亦称次数。就变量数列而言,总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,一般用x表示;次数(也称频数)用f表示。3频率将个标志出现的频数与总体单位总和相除可以得到频率。即频率具有以下性质:(1)任何频率都是介于0和1之间的一个分数,即(2)各组频率之和等于1,即

4频数密度和频率密度频数密度=频数/组距频率密度=频率/组距各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组组距乘积之和等于1。34等距分组与不等距分组等距分组各组次数的多少不受组距大小的影响可直接根据次数(频数或频率)来观察变量的分布特征和规律不等距分组各组次数的多少要受组距大小不同的影响各组次数不能直接反映频数分布的实际状况用频数密度才能比较各组次数分布的实际状况频数密度=频数/组距异距分组的应用分布数列的编制步骤

1.将总体各单位变量值由小到大排列,计算全距。(全距等于最大值减去最小值)

2.确定组距数列的类型(等距或异距)

3.根据总体的特征,确定组数与组距。(组距以5或10的倍数为好)

4.确定组限。(有极值,用开口组)

5.从最小组开始排列,分别计算各组频数和其它相关指标,形成频数分布统计表。二、分布数列的编制

下面以一个实例说明变量数列的编制例如,根据抽样调查,50户居民的月消费支出资料如下(单位:元):83088012301100118015801210146011701080105011001070137012001630125013601270142011801030870115014101170123012601380151010108608101130114011901260135093014201080101010501250116013201380131012701250首先将这些数据从小到大进行排列,使其序列化:81083086087088093010101010103010501050107010801080110011001130114011501160117011701180118011901200121012301230125012501250126012601270127013101320135013601370138013801410142014201460151015801630对上述资料采用等距分组,分为8组,组距为100,以800为第一组下限,得出计算结果如下表:按户月消费支出额分组(x)频数频率800~90050.1900~100010.021000~110080.161100~1200110.221200~1300110.221300~140070.141400~150040.081500以上30.06合计501三、累计频数与累计频率累计频数(频率)分为向上累计频数(频率)和向下累计频数(频率)。编制向上累计频数(频率)分布的方法是:先列出各组的上限,然后由标志值低的组向标志值高的组依次累计频数(频率)。向上累计频数表明某组上限以下的各组单位数之和是多少,向上累计频率表明某组上限以下的各组单位数占总体单位数的比重。编制向下累计频数(频率)分布的方法是:先列出各组的下限,然后由标志值高的组向标志值低的组依次累计频数(频率)。向下累计频数表明某组下限以上的各组单位数之和是多少,向下累计频率表明某组下限以上的各组单位数占总体单位数的比重。按户月消费支出额分组上限向上累计按户月消费支出额分组下限向下累计频数累计频数频率累计频率频数累计频数频率累计频率900550.10.18005500.111000160.020.129001450.020.911008140.160.2810008440.160.88120011250.220.5110011360.220.72130011360.220.72120011250.220.514007430.140.8613007140.140.2815004470.080.941400470.080.1416002490.040.981500230.040.0617001500.0211600110.020.02合计50

1

合计50

1

累计频数分布具有如下两个特点(1)第一组的累计频数等于第一组本身的频数;(2)最后一组累计频数等于总体单位数。累计频率分布同样具有两个特点(1)第一组的累计频率等于第一组本身的频率;(2)最后一组累计频数等于1。四、分布数列的种类(1)按分组标志的不同分为品质数列和变量数列变量数列按其分组方式不同又有两种:单项式数列组距式数列(等距和异距数列)(2)按次数分布特征分为钟型分布数列、U型分布数列和J型分布数列钟型分布数列分为正态分布和偏态分布数列(右偏和左偏)钟型分布数列指数列中愈靠近变量值中点,分布次数愈多,愈离中点,分布次数愈少,形成“中间大,两头小”的次数分布。U型分布数列则正好与钟型分布数列相反,表现出“两头大,中间小”的次数分布。J型分布数列:一是次数随着变量值的增大而增多;二是次数随着变量值的增大而减少。钟型分布(Ⅰ)(Ⅱ)(Ⅲ)U型分布

102030405060708050403020100死亡率(‰)年龄J型分布正J型图反J型图第六节统计资料的显示一、统计表(一)统计表的定义和结构1定义:对统计调查所获得的原始资料进行整理,得到说明社会现象及其发展过程的数据,并把这些数据按一定的顺序排列在表格上,就形成了统计表。统计表可以清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。2统计表结构从表式和内容两个方面认识:(1)从表式上看,总标题统计表横行标题纵栏标题指标数值48表2-122011年我国城乡居民家庭人均收入及恩格尔系数家庭人均可支配收入恩格尔系数(%)绝对额(元)指数(1978=100)农村居民6977.31046.336.3城镇居民21809.81063.240.4总标题纵列标题数据横行标题资料来源:《国家统计数据》http:///workspace/index;jsessionid=A1EF35F4E8A8E6955673334D00CCEF9E?m=hgnd表外附加(表脚)总标题是统计表的名称,扼要地说明该表基本内容,并指明时间和范围。置于统计表格正上方。横行标题是横行的名称,一般放在表格左方。纵栏标题是纵栏的名称,一般放在表格的上方。横行标题和纵栏标题共同说明填入表格中的统计数据内容。指标数值列在横行和纵栏交叉处说明总体及其组成部分的数量特征,是统计表格的核心部分。(2)从内容来看:由主词栏和宾词栏两个部分组成表12004年我国进出口情况单位:亿美元指标数值比上年增长(%)进出口总额1154835.7出口额593435.4进口额561436(二)统计表的分类1按主词的结构分类,根据主词是否分组和分组的程度,分为简单表、分组表和复合表(1)简单表:主词未经任何分组的统计表。表22004年固定资产投资新增主要生产能力情况指标单位数值新增发电机组容量万千瓦5055新建铁路投产里程公里1433新建公路公里46411(2)简单分组表:主词只按一个标志进行分组形成的统计表。表32004年主要国家进出口情况国家出口额(亿美元)比上年增长(%)美国124935.1韩国27838.4日本73532.3(3)复合表:主词按两个或两个以上标志进行分组形成的统计表。2按宾词设计分类,分为宾词简单排列、分组平行排列和分组层叠排列三种。(1)宾词简单排列:宾词不进行任何分组,按一定顺序排列在统计表上。(2)宾词分组平行排列:宾词栏中各分组标志彼此分开,平行排列。(3)宾词分组层叠排列:统计指标同时有层次地按两个或两个以上标志分组。注意:统计表的主词分组与宾词分组有区别:主词分组的结果使总体分成许多组成部分,需要用统计指标来描述。宾词分组的结果并不增加总体的组成部分,仅仅是比较详细地描述总体已有的各个组成部分。(三)统计表的设计1原则:科学、实用、简明、美观。2要求:标题醒目准确内容简明扼要项目排列有序字迹清楚规范(数字按个位数上下对齐,无数填—号,缺报填……号)规格合乎要求(上下粗线,左右开口,栏间划线,行间空白)计量单位注解或资料来源二、统计图(一)直方图直方图是用直方形的宽度和高度来表示次数分布的图形。注意:对于不等距式变量数列,通常按频数(频率)密度绘制直方图以表示分布。(二)折线图在直方图基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成。(三)曲线图

(四)累计曲线图累计频数(频率)不仅可以用表格形式表示,还可以用图形表示。累计频数(频率)分布图分为向上累计频数(频率)分布图和向下累计频数(频率)。不论向上或下,均以分组变量为横轴,以累计频数(频率)为纵轴。在直角坐标系上将各组组距的上限与其对应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连,即是向上累计分布图。对于向下累计频数(频率)分布图,在直角坐标系上将各组组距的下限与其对应的累计频数(频率)构成坐标点,依次用折线(或光滑曲线)相连。洛伦茨曲线图:累计频数(频率)分布曲线,可以用来研究财富、土地和工资收入的分配是否公平。这种累计分布曲线图最早是由美国洛伦茨博士(Dr.M.O.lorenz)提出的。基尼系数,用以衡量收入分配的平等与否。591.定类数据的整理制作频数分布表用图形显示数据列出各类别计算各类别的频数60定类数据可计算的指标频数:落在各类别中的数据个数比重:某一类别数据占全部数据的比值比率:不同类别数值的比值61定类数据整理—频数分布表【例】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”

1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。广告类型人数(人)比重(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告1121651910256.08.01.0表2-9某城市居民关注广告类型的频数分布62定类数据的图示—条形图人数(人)5191610211204080120

商品广告

服务广告

金融广告

房地产广告

招生招聘广告

其他广告广告类型

图2-7某城市居民关注不同类型广告的人数分布63

其他广告1.0%

房地产广告8.0%

商品广告56.0%

金融广告4.5%

服务广告25.5%

招生招聘广告5.8%图2-8某城市居民关注不同类型广告的人数构成642.定序数据的整理累计频数:将各类别的频数逐级累加累计频率:将各类别的频率(百分比)逐级累加65定序数据频数分布表【例】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?

1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。

表2-10甲城市家庭对住房状况评

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论