《统计学(第二版)》课件第03章 统计数据的整理_第1页
《统计学(第二版)》课件第03章 统计数据的整理_第2页
《统计学(第二版)》课件第03章 统计数据的整理_第3页
《统计学(第二版)》课件第03章 统计数据的整理_第4页
《统计学(第二版)》课件第03章 统计数据的整理_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 统计数据的整理第一节 统计数据的审核在对统计数据进行整理时,首先要进行审核,以保证数据质量,为进一步统计分析打下基础。 对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。审核数据准确性的方法主要有逻辑检查(中学教大学)和计算检查(100%)第二节 统计分组一、统计分组的概念(P33)统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个组成部分的一种统计方法。(含义:分和合) 二、统计分组的作用1、区分不同事物的性质2、反映事物的内部构成及其变化规律性3、揭示现象之间的数量依存关系作用1区分不同事物的性质 区分事物不同的性质是统计分组的根本作用。例如:

2、研究人口时,可以从性别、年龄、民族、文化 程度等方面来区分人口的不同性质。 分组前分组后253342作用2反映事物的内部构成及其变化规律性 通过分组区分了事物的不同性质,可以研究现象的各部分构成,进而识别事物的主要部分与共性特征,以说明事物发展变化的规律。 表21 2004年某地区产业结构100.0189 4.02合 计15.950.933.2301.15964.06628.81第一产业第二产业第三产业比重 %增加值(亿元)产业作用3揭示现象之间的数量依存关系 通过分组将性质上有关联的分组资料联系起来分析,便可研究不同现象总体之间数量上的依存关系。例如表22中的数据便可展现出小麦亩产量与施肥量

3、二者之间的相互依存关系。表22 小麦施肥量与亩产量之间的关系500651490420350280210小麦亩产量(斤) 706050403020100施肥量 (斤) 140三、统计分组的原则与分组变量1、统计分组的原则 组内差异尽量小,组间差异尽量大(分组标志,组限) 一、要有周延性,即不遗漏,每一单位都有所归属。 二、要有互斥性,即不重复,每一单位只能归属于某一组而不能归属于另一组。2、统计分组的变量 分组标志就是将总体分为各个性质不同的标准或根据。 根据分组标志的特征不同,总体可按(1)属性标志分组,也可按(2)数量标志分组。 (1)按属性标志分组 以属性标志作为分组标志,并在属性标志的变

4、异范围内划分各组界限,将总体分为若干组。 属性标志划分,概念明确,容易确定分组组数 但因人而异 (2)按数量标志分组 以数量标志作为分组标志,并在数量标志的变异范围内划分各组界限,将总体分为若干组。四、简单分组和复合分组 1简单分组 对总体只按一个标志分组称为简单分组。 2复合分组 对总体按两个或两个以上标志层叠起来进行分组称为复合分组。即先按一个标志分组,然后再按另一个标志将已经分好的各个组进一步划分为若干组。 3交叉分组 对总体按两个标志交叉进行分组称为交叉分组,它也是一种复合分组。如表23所示。1 简单分组2 复合分组2011-2015中国进出口贸易统计表单位:万美金按业务环节和汇别分组

5、20112012201320142015总计出口合计现汇出口记账外汇出口进口合计进汇进口记账外汇进口表23 2015年三个地区按城乡分组的文盲率 合计6.395.846.203.383.294.07甲地区乙地区丙地区乡村文盲率(%)城镇文盲率(%)地 区3 交叉分组 第三节 次数分布一、次数分布的概念 在统计分组的基础上,将组中的所有单位按组归类整理,形成总体中各个单位在各组间的分布,就叫做次数分布。 分布在各组的个体单位数叫次数,又称频数。各组次数与总次数之比称比率,又称频率。 将各组组别与次数依次编排而成的数列就叫做次数分布数列,简称分布数列。二、次数分布种类 属性次数分布和变量次数分布。

6、 属性次数分布就是按属性标志分组所形成的次数分布。它有两个构成要素:一是组的名称,二是各组的次数。如表24。表24 某 地 人 口 按 性 别 分 组 的 情 况100.0126 5合 计51.6248.3865 361 2男女占总人口比重(%)人 数(万人)性 别 数量次数分布就是按数量标志分组所形成的次数分布。它也有两个构成要素:一是数量,二是各组的单位数。如表25。(学生成绩)表25 某班组工人看管机器台数的情况100.0016合 计20.0053.3026.70385123比 率(%)工人数(人)看管机器数(台) 数量次数分布又分为单项次数分布和组距次数分布。 变量次数分布中的每个组只

7、用一个变量值来表示就是单项次数分布。 如表25。 数量次数分布中的每个组用一定范围的数量值来表示就是组距次数分布。如果数量值的变动范围大,项数较多,就要采用组距次数分布反映总体的分布状态。如表26。 表26 某地区2 004年城镇居民可支配收入情况100.00合 计 2.5514.8224.4522.0017.36 9.64 4.91 2.36 1.91200 以下200 300300 400400 500500 600600 700700 800800 900900 以上百 分 比(%)每人每月可支配收入(元)三、数量次数分布的编制方法步骤:1、编制序列和计数 2、确定组数和组距 3、确定组

8、限和组中值 例如,对某工厂某月50名工人装配零件(件)情况进行调查,得到下列初级资料:10682106979681108841051109811412892112111122104111103911099110710810710411297110861258510510910510396124125931131151061011061028986119这些数据杂乱无章,难以看出其数量特征及其分布的规律性,需编制次数分布。 1编制序列和计数 按一定顺序排列的数值称为序列,即把数值从小到大(从大到小)的顺序排列。编制单项次数分布表27。表27 某企业装配零件数分布表50合 计22211111121

9、110111112113114115119122124125128211122342229798101102103104105106107108109111111121128182838485868991929396人数(人)零件数(件)人数(人)零件数(件)人数(人)零件数(件) 2确定组数和组距 组数是指对总体划分为几个组。 组距就是一个组的范围,它是通过相邻两组的下限(或上限)之差来计算的。 全距=总体最大标志值-总体最小标志值 对于同一总体,组数的多少和组距的大小成反比。因为 全距=组距*组数 如果将表27重新分组,取组数为5,组距为10,就得到表28的次数分布。 表28 工 人 装

10、配 零 件 数 分 布 表10050合 计14183820107919105809090100100110110120120130比 率(%)人 数(人)零 件 数(件) 在组距次数分布中,各组组距相同的次数分布称为等距次数分布(表28)。各组组距不同的次数分布称为异距次数分布。 等距次数分布一般在现象性质差异变动比较均衡的条件下使用。 优点:易于掌握次数分布的特性。各组次数可以直接比较。 连续: 组距=本组上限-本组下限 离散: 组距=本组上限-前组上限 组数 全距/组距 组距全距/组数 组数 全距/组距 组距全距/组数P30 组数=全距/组距=(128-81)/10=4.75例二异距次数分

11、布一般在现象性质差异的变动非均衡的条件下使用。 例一采用异距次数分布应当注意的是:由于各组组距不同,各组次数直接比较没有意义。通常需计算次数密度(次数/组距)。 3确定组限和组中值 组限就是各组间的数量界限。 对于连续变量来说,由于变量的数值是连续不断的,相邻两值之间可取无限数值,因此,相邻组的组限必须重合。 如表28按装配零件分组,第一组的上限与第二组的下限相同,均为90件。 按习惯规定,各组包括下限数值,但不包括上限数值,统计中叫做“上组限不在内”原则。 对于离散变量,相邻组的组限一般要间断。如表29中“100199”一组的上限199和“200299”一组的下限200并不需要重合,只需互相

12、衔接。表29 按工人人数划分的工业企业分布情况285合 计 8012060205100以下100199200299300399400以上工 业 企 业 数(个)工 人 数(人) 常用组中值作为各组变量值的代表值,反映分布在各组中个体单位变量值的一般水平。 组中值是上限与下限之间的中点数值。 计算公式为: 组中值上限+下限 2 用组中值的假定的前提: 各单位的变量值在本组内呈均匀分布或在组中值两侧呈对称分布。 根据表29计算各组组距和组中值,如表210。(闭口组)表210 某企业装配零件数分布8595105115125101010101080-9090-100100-110110-120120-

13、130组中值组距零件数(件)如表211(开口组)表211 按工人人数分组 50150250350450100100100100100100以下100199200299300399400以上 组中值组距 工人数(人)开口组 缺下限的开口组组中值本组上限邻组组距 / 2缺上限的开口组组中值本组下限邻组组距 / 2选择开口组还是闭口组?兼顾习惯,如大量连续组一般用开口组 四、次数分布的表示方法 1、表示法 表示法就是用表格来反映次数分布。表示法的形式有两种:一是次数分布表,二是累积次数分布表。次数可用绝对数或相对数。 需要各组的累计次数时,可编制累计次数分布表,如表2-12。 计算累计次数的方法:

14、向上累计是从变量值最小一组的次数起逐项累计,每组累计次数表示小于该组上限值的次数共有多少。 向下累计是从变量值最大一组累计的次数共有多少。每组累计次数表示大于该组下限值的次数共有多少。 表212 工人装配零件数累计次数表10050合计10086683010504334155143270901007163545501418382010791910580-9090-100100-110110-120120-130比率(%)人数(人)比率(%)人数(人)比率(%)人数(人)向下累计向上累计次 数零件数(件)图示法 图示法给人以更清晰、直观的印象,很容易看出总体分布的特征。图示法就是用图形来表示次数分

15、布。它的种类很多如次数直方图、次数折线图、累计次数分布图、饼形图、环形图和雷达图。在等距分组下,横轴表示变量,纵轴表示各组次数,其宽度与各组组距相适应,这样绘制的各直方形的面积可以表示各组次数的分布状态,称为次数直方图。 020406080100809090100100110110120120130向上累计向下累计折线图折线图也可以反映总体的次数分布情况。绘制次数折线图时,横轴表示变量,变量值用组中值表示。纵轴表示次数,在每组组中值上方按该组的次数描一个点,然后用直线连接起来,即成为次数折线图。 根据累计次数分布表绘制而成。向上累计次数曲线以各组上限为横坐标,向下累计次数曲线以各组下限为横坐标

16、,其纵坐标都是累计次数。 05101520809090100100110110120120130装配零件数工人数累计次数分布图洛伦次曲线Lorenz Curve 实际曲线应用累次饼形图饼形图用以表示把总体分为各个组成部分,各组成部分占全体的百分数用圆内的各个扇形的中心角度占360的相应百分数表示。饼形图不应过多的细分,扇形的标志必须清楚。 环形图中间有一个“空洞”,总体中的每一个数据用环中的一段表示。环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环环形图雷达图 雷达图是显示多个变量的常用图示方法。设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2 ,Xp。要绘制这

17、P个变量的雷达图,做法是:先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再做同一样本的值在P个坐标上的点连线。 五、次数分布的主要类型 1.钟形分布 特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两端的变量值的次数少,绘成曲线图,宛如一口古钟。钟形分布的种类很多,其中有正态分布。 正态分布的特征: 中间变量值分布的次数最多,两侧变量值分布的次数则随着与中间变量值距离的增大而逐渐减少,因而形成中间隆起,左右两尾对称徐徐下降的完全对称

18、分布。 偏态分布的特征: 在非对称分布中,有着不同方向的偏态。 (a)右偏 (b) 对称 (c)左偏U形分布 特征: 靠近中间的变量值 ,分布次数少,靠近两端的变量值分布次数多,形成“中间小,两头大”的分布。如死亡人口总体按年龄分组的分布。如图:J形分布 类型: 正J形分布,如图(a),是次数随着变量值的增大而按某种规律增多。反J形分布,如图(b),反J形分布是次数随着变量值的增大而按某种规律减小。 (a) (b) 第四节 统计表一、统计表的构成 统计表是以横纵交叉的线条所绘制的表格来表现统计资料的一种形式。 主要优点:第一,能有条理、有系统的排列统计资料,一目了然。第二,能合理地、科学地组织

19、统计资料,便于对照比较。统计表由总标题、横行标题、纵栏标题、指标数值四部分所构成(如表3-17)。 表317 2004年某市各类工业企业的总产值 210 3 128 合 计1 2361 857 35(2)(1)( 甲)总产值 (亿元)工业企业数(个)按经济类型分组国有企业集体企业中外合资137 67 6纵栏标题指标数值横行标题总标题是表的名称,用以概括统计表中全部统计资料的内容,一般写在表的上端中部。横行标题是横行的名称,在统计表中通常用来表示各组的名称,它代表统计表所要说明的对象,一般写在表的左方。纵栏标题是纵栏的名称,在统计表中通常用来表示统计指标的名称。一般写在表的上方。指标数值列在各横行标题与各纵栏标题的交叉处。统计表中任何一个数字的内容有横行标题和纵栏标题所限定。 统计表的内容构成 组成部分:一是统计表所要说明的总体,它可以是各个总体单位的名称、总体的各个组、或者是总体单位的全部,习惯称为主词或主体栏。二是说明总体的统计指标,包括指标名称和指标数值,习惯上称为宾词或叙述栏。 2103 128合 计1376761

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论