统计数据的整理和显示-PPT课件_第1页
统计数据的整理和显示-PPT课件_第2页
统计数据的整理和显示-PPT课件_第3页
统计数据的整理和显示-PPT课件_第4页
统计数据的整理和显示-PPT课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 罗洪群 第三章 统计数据的 整理与展示本 章 主 要 内 容一、统计数据的整理二、统计数据的展示第一节 统计数据的整理 统计资料整理是根据统计研究的任务与要求,对调查得来的各种原始资料,进行科学的整理与加工,使之系统化,从而得出能够反映总体特征的综合资料,包括系统地整理原始资料的过程和为研究特定问题对历史资料或次级资料进行的再加工。一、统计数据整理的概念二、统计资料整理的步骤 设计和编制统计资料的汇总方案对原始资料进行审核用一定的组织形式和方法对原始资料进行整理对整理好的资料再一次进行审核,改正在汇总过程中所发生的各种差错编制统计表,以简明扼要地表达社会经济现象在数量方面的有关联系统计资料的

2、保管与积累三、统计分组(一)统计分组的概念 统计分组就是根据统计研究的目的,将统计总体按照一定的标志区分为若干个不同类型或性质的组成部份的一种统计方法。分组结果 “组内性质更近,组间差异更大”统计分组,对总体而言是“分”(分为范围更小的总体),而对总体单位而言是“合”(合为性质相同的组);对分组标志而言是“分”(按分组标志划分总体成为标志表现不同的许多组),而对其它标志来说又是“合”(其它标志表现的差异不考虑了)。1.划分性质不同的各种类型,研究其特征和规律性 表1 我国近几年农业总产值情况 单位:亿元(二)统计分组的作用、分析总体中各个组成部份的构成情况 表2-2 我国国内生产总值构成情况(

3、%)可以揭示现象之间的依存关系 表 2-3 单位面积产量与耕作程度的关系35018 2032016 1827014 1623012 1420010 12单位面积产量(kg)按耕作深度分组(厘米)(三) 分组标志的选择 统计分组的关键是分组标志的选择关系能否正确反映总体的性质特征能否实现统计研究的目的和任务 正确选择分组标志根据统计研究的目的选择在多个标志中选择最能反映事物本质特征的标志注意不同时代标志的意义变化按品质标志分组或按数量标志分组,或用两种标志结合分组按主要标志与辅助标志分组分组的原则:穷尽和互斥(四)统计分组体系标 志人数(人)比重(%)按性别分组男性女性按企业性质分组国有企业独资

4、企业其他企业按规模分组大型企业中型企业小型企业简单分组与平行分组 对同一总体选择两个或两个以上标志进行重叠分组,就叫复合分组。多个复合分组组成的体系就是复合分组体系。 国民收入使用额 积累 生产性积累 农业 轻工业 重工业 非生产性积累 居民住宅 文化服务设施 消费 居民消费 社会集团消费.复合分组与复合分组体系 在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各单位数在各组间的分配称为次数分配。将各组组别与各组次数依次排列而形成的数列叫次数分配数列,简称分配数列。 四、分配数列(一)分配数列的概念按性别分组绝对数(人数)比重(%)男女30107525合计40100各组组别次数或頻

5、数比率或频率表 2-4 某班学生的性别构成情况单位个数称为频数(次数); 各组次数与总次数之比称为频率 属性分配数列(品质数列)分配数列 单项式分配数列 变量分配数列 等距分组 组距式分配数列 异距分组(二)分配数列的种类按品质标志分组形成的次数分布,称为品质数列;按数量标志分组形成的次数分布,称为变量数列。按性别分组人数所占()男性女性6004006040合计1000100品质标志示例各组名称次数(频数)比率(频率)按月工资收入分组人数(人)所占()1000元以下1000-15001500-20002000-25002500-30003000元以上8015023034015050815233

6、4155合计1000100数量标志示例各组名称次数(频数)比率(频率)1、单项式变量数列的编制 单项式变量数列是按照每个变量值分别列组而编制的。(三)变量数列的编制例如某生产车间20名工人日加工零件数资料如下:117 108 110 112 137 122 131 118134 114 122 125 125 127 120 128117 125 122 128编制要点:一个变量值为一组 适用于离散变量 适用于变量值较少的情况 采用单项式变量分组形成如下分布数列 表2-5 某车间20名工人日加工零件分组表 可见,单项式变量数列由于组数较多,不便于观察数据分布的特征和规律。编制要点:将一个区间的

7、变量值作为一组 连续变量 变量值较多的情况 遵循不重不漏原则 可见,编制组距数列不仅取决于分组标志的选择,而且要看分组界限的确定是否合理。2、组距式变量数列的编制 组距式变量数列是把各变量值按照一定组距进行分组而形成的数列。在编制组距数列中,要按照以下程序进行:第三,分组归类形成变量数列第二,计算出组距、组数等第一,使原始数据序列化( 编制由小到大的单项式数列) 现有某车间50名工人日加工零件的资料如下: 117,108,110,112,137,122,131,118,134,114,124,125,123,127,120,129,117,126,123,128,139,122,133,119

8、,124,107,133,134,113,115,117,126,127,120,139,130,122,123,123,128,122,118,118,127,124,125,108,112,118,121a、使原始数据序列化零件数(件)人数(人)零件数(件)人数(人)零件数(件)人数(人)零件数(件)人数(人)107111731243131110821183125213321101119112621342112212021273135111311211128213711141122412911392115112341301合计50将上述资料排序得到表2-6: 从表2-6看出,变量值的变动范

9、围是在107件139件之间,即最低件数、最高件数。最高件数与最低件数之差称为全距。 即全距最大值-最小值=139-107=32件 组距和组数的关系表现为,在全距一定的情况下,组距与组数之间成反比关系。即: b、计算组距、组数确定组数可参照美国统计学家sturges(斯特古斯)经验公式: 组数=1+3.322lgN, N为总体单位数。 组数=1+3.322lg50=6.647,当然,这只是一个经验结果,到底分多少组还取决于现象本身。 组距=327=4.6,为便于计算,规定组距取5或10的倍数,于是就有组距为5的结果了。 组数与组距成反比关系,组数越多,组距越小,反之,组数越少,组距越大。 根据计

10、算的组距、组数整理形成如下次数分布 表2-7 某车间50名工人日加工零件分组表 在此,构成每组的两个值称为组限,较小的值称为下限,较大的值称为上限,上限与下限之差称为组距,上限与下限的中点位置称为组中值。 产量为连续变量,其相邻两组是以同一数值为界限编制的。区分标示组限与真实组限:组间是连续还是间断连续:真实组限,如60-70,70-80,80-90;间断:标示组限,如1-2,3-5,6-8;转换为0.5-2.5,2.5-5.5,5.5-8.5) 组限上限(大)下限(小)标示上限真实上限= 标示上限+0.5标示下限真实下限= 标示下限-0.5 离散型变量由于各变量值之间以整数断开,变量值之间有

11、明显的界限,上下限都可以用准确的数值表示,即本组的上限和下一组的下限是两个具体的数值,其组限非常清楚。因此 ,确定离散型变量各组界限的原则是:相邻两组的上下限采用两个具体的值。 如:某校按学生人数分组,其组限为: 100人以下 101200 201300 301人以上 组距分组中,上述分组都是等距分组,即各组组距相等,其特点是: 由于各组组距相等,各组次数的分布不受组距大小的影响,它消除了组距对其分布的影响,与次数密度的分布是一致的,一般呈正态分布。 同时也存在不等距分组即只要有一组组距不相等的分组,也称异距分组。例如学生年龄18岁以下,19-20,21-24,25岁以上等。其特点是: 不等距

12、分组各组的次数多少受组距大小的影响,组距大,次数分布的可能多,组距小,则次数分布的可能少,因此必须消除组距大小对其次数分布的影响即需计算次数密度。 在编制组距式变量数列时,如遇到数据之间相差悬殊,可采用如下分组方式。如:学生成绩的分布 如:学生人数的分布 60分以下 30人以下 6070 3160 70以上等 61人以上等 我们把这种分组形式称为开口组。“以下”称之为下开口,“以上”称之为上开口。 下开口的组中值本组上限(1/2)*相邻组的组距 上开口的组中值本组下限(1/2)*相邻组的组距 例如结合上面学生成绩的分布计算其组中值 下开口组中值=60-(1/2)(70-60)=55 上开口组中

13、值=70+(1/2)(70-60)=75 对于连续型变量,在确定各组组限后进行归类整理时,需遵循不重不漏的原则,即“上组限不在内(下组限取等,上组限取等)”原则,即各组只包括本组下限变量值的单位,不包括本组上限变量值的单位。如表2-7中,120这一数值不计算在“115-120” 这一组内,而计算在“120-125”这一组中,其余类推。最终结果见表2-7。c、分组归类,形成变量数列累计次数分布 将变量数列各组的次数或比率逐组累计而形成的分布称为累计次数分布。 向上累计又称较小制累计累计次数 向下累计又称较大制累计累计次数的特点是,同一数值的向上累计和向下累计,其次数之和等于总体总次数,累计比率之

14、和等于100%。表2-8 某班学生某门课考试成绩分布计算及统计意义(1)向上累加cfa.计算:从变量的最小(低或少)值开始,逐行往上加,直至总数。b.意义:表示小于等于变量某个值的累加次数。(2)向下累加cfa.计算:从变量的最大(高或多)值开始,逐行往下家,直至总数。b.意义:表示大于等于变量某个值的累加次数。某企业职工工资累积频数表月工资收入(元)频数向上累计向下制累计人数比率()人数比率()人数比率()1000元以下1000-15001500-20002000-25002500-30003000元以上80150230340150508152334155合计1000100-某企业职工工资累

15、积频数表月工资收入(元)频数向上累计向下制累计人数比率()人数比率()人数比率()1000元以下1000-15001500-20002000-25002500-30003000元以上80150230340150508152334155802304608009501000823468095100100092077054020050100927754205合计1000100-课堂练习教育水平 频数f向上cf 向下cf大学 68 大专 90 高中 106 初中 193 小学 93 课堂练习教育水平 频数f向上cf 向下cf大学 68550 68大专 90482 158高中 106392 264初中

16、193286 457小学 9393 550次数分布的主要类型 正态分布的特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两头的变 量值分布的次数少(如学生成绩分布)。如图a、正态分布 正态分布、U型分布、J型分布 U型分布的特征与正态分布正好相反,靠近中间的变量值分布的次数少,靠近两端的变量值 分布的次数多,形成“两头大,中间小”的U字型分布。(如人口死亡率按年龄的分布) 如图: b、U型分布 J型分布有两种类型,一种是正J型分布,分布次数随着变量值的增大而增多,如投资额按利润率大小的分布;一种是反J型分布,分布次数随着变量值的增大而减小,如随着产品产量的增加,单位成本下降;xy

17、0 x0yc、J型分布累计次数分布的应用: 将全社会从业人员按收入水平分组,从低收入到高收入组汇总计算向上累计频率,得洛伦茨曲线。AB 20世纪初意大利经济学家基尼,根据洛伦茨曲线找出了判断分配平等程度的指标(如上图),设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。 并以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。系数可在零和1之间取任何值。收入分配越是趋向平等,洛伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越是趋向不平等,洛伦茨曲线的弧度越大,那么尼系数也越大。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2

18、-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距大;0.6以上表示收入差距悬殊。 NEXT年份农村城镇总体20000.3620.33640.41720190.3650.3580.45920190.37010.36240.46020190.37630.37320.44720190.36920.34890.46920190.37510.350.4720190.3780.3560.49620190.5020190.469第二节 统计数据的展示一、统计表 (一)统计表的概念 统计表是用规范的表格来表现统计资料的一种形式。1、它是由纵横线交叉组成的一种表格,表格内所列的是整理

19、后系统的统计资料。2、统计表一般采用开口式,即表的左右两条线不画。3、用统计表来显示统计资料,具有条理清晰、简明扼要的特点,便于从各方面进行比较、分析所表现的现象。(二)统计表的形式1、总标题(也称统计表的名称)它用概括性的文字简单明了地说明统计资料的时间、基本内容和范围。一般写在表的上部中端。2、 横行标题反映统计表的主要项目,写在表的左方。3、纵栏标题统计指标的名称,说明纵栏所列各项资料的内容,写在表内右上方。4、数字资料也称指标数值,它是统计表的具体内容,列在各横行标题和各纵栏标题的交叉处。任何一个具体数值都由横行标题和纵栏标题所限定。5、有些统计表还需要在下端增加注解,以说明资料的来源

20、、某些指标数值的计算方法、填表单位和其他需要说明问题。某 市 1991 年 工 业 总 产 值(总标题)按企业规模分组工业总产值(亿元)比重()甲(1)(2)大型企业中型企业小型企业901.51300.67547.7950.3716.9232.35合计1776.97100.00(三)统计表的内容 1、主词栏主词是统计表所要说明的对象。它可以是各个总体单位的名称、总体各个组或全部,一般列在表的左端。 2、宾词栏宾词是说明主词的各种指标,包括指标名称和指标数值,一般列在表的右端。(四)统计表的种类1、简单表 表的主词未经任何分组,仅列出总体各单位的名称或按时间顺序简单排列的统计表。城市名称人口数其

21、中:市辖县的人口数北京市天津市上海市10819407878740213341896345698229303345127460第四次人口普查我国三个直辖市的人口年份黄金储备(万盎司)国家外汇(亿美元)19931994201920191267126712671267211.99516.2735.971050.29黄金和外汇储备2、分组表指表的主词按某一标志进行简单分组的统计表。分组表的主词可以按数量标志分组,也可以按品质标志分组。按性别分组人数所占()男性女性6004006040合计1000100按品质标志分组示例按数量标志分组示例周工资额(元)人数(个)各组人数占总人数百分比% (1)(2)(3

22、)809031090100723100110134311012051712013027合计301003、复合表指表的主词按两个以上的标志进行分组的统计表。项目投资额(亿元)比重()一.全民所有制单位基本建设更新改造及其它措施二.集体所有制单位城镇农村三.个人建房投资城镇农村952594358156451112611724469.543.426.111.43.38.119.11.317.8合计1369100(五)编制统计报表时应注意的问题:1、 统计表的栏数如果过多,要加以编号各栏用甲、乙、丙等文字编写;宾词指标各栏则用(1)、 (2)、(3)等数字编号。 2、表中数字要填写整齐,位数对准。当不存在某项数字时,用符号“一”表示;当缺少某项数字时,用符“”表示。 3、数字资料要注明计量单位。当全表只有一种计量单位时,可把它写在表头的右上方。如果表中需要分别注明不同单位时,横行的计量单位可专设“计量单位”一栏,纵栏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论