统计学基础第三章课件_第1页
统计学基础第三章课件_第2页
统计学基础第三章课件_第3页
统计学基础第三章课件_第4页
统计学基础第三章课件_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 统计数据的整理和展示第一节统计数据的审核对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。第二节 统计分组一、统计分组的概念统计分组就是根据统计研究的需要,将统计总体按照一定的变量区分为若干个组成部分的一种统计方法。总体的这些组成部分称“组”。统计分组同时具有两个方面的含义:对总体而言是“分”,即将总体区分为性质相异的若干部分;对个体单位而言,是“合”,即将性质相同的个体单位组合起来。二、统计分组的作用统计分组的作用可以归纳为三个方面: 1.区分不同事物的性质 2.

2、反映事物的内部构成及其变化规律 3.揭示现象之间的数量依存关系三、统计分组的原则与分组标志(一)统计分组的原则统计分组有两点原则:一是要符合周延性,即不遗漏,每一个体单位都有所归属。二是要符合互斥性,即不重复,每一个体单位只能归属于某一组而不能归属于另一组。(二)统计分组的标志分组标志就是将总体分为各个性质不同的标准或根据。根据分组标志的特征不同,总体可按品质标志分组,也可按数量标志分组。1按品质标志分组按品质标志分组就是以品质标志作为分组标志,并在品质标志的变异范围内划分各组界限,将总体分为若干组。按品质标志分组,有些很容易确定分组的组数,并能将所有个体既不遗漏又不重复地分别归入各组,有些就

3、不容易确定。2按数量标志分组按数量标志分组就是以数量标志作为分组标志,并在数量标志的变异范围内划分各组界限,将总体分为若干组。按数量标志分组,不仅体现出各组现象的数量差别,而且要通过各组的数量变化区分现象的不同性质。因此,各组的数量界限如何确定也是比较复杂的。例如,四、简单分组和复合分组(一)简单分组 对总体只按一个标志分组称为简单分组。(二)复合分组 对总体按两个或两个以上标志层叠起来进行 分组称为复合分组。复合分组比简单分组能说明更多的问题,可以对总体作比较全面深入的分析。第三节 次数分布一、次数分布的概念将组中的所有个体单位按组归类整理,形成总体中各个个体单位在各组间的分布,就称为次数分

4、布。分布在各组的个体单位数称为次数,又称频数。各组次数与总次数之比称为比率,又称频率。将各组组别与次数依次编排而成的数列就叫做次数分布数列,简称分布数列。有时也可把比率列入分布数列中。分布数列又称分配数列或次数分布。二、次数分布的种类品质次数分布就是按品质标志分组所形成的次数分布。它有两个构成要素:一是以品质标志表现为各组的名称,二是各组的次数。例如表3-3就是一个品质次数分布。性 别人 数(万人)占总人口比重(%)男女700796670351.248.8合 计136782100.0表3-3 2014年我国人口按性别分组的情况数量次数分布就是按数量标志分组所形成的次数分布。它也有两个构成要素:

5、一是以数量标志作为各组的名称,二是各组的单位数。例如表3-4。 表3-4 某班组学生年龄情况数量次数分布又分为单项次数分布和组距次数分布。数量次数分布中的每个组只用一个标志值来表示就是单项次数分布。如果标志值的变动范围较小,项数不多,在这种情况下,就可以采用单项次数分布反映总体的分布状态。如表3-5就是单项次数分布。年龄人数(人)比 率(%)181920101525203050合 计50100.00数量次数分布中的每个组用一定范围的标志值来表示就是组距次数分布。如果标志值的变动范围较大,项数较多,在这种情况下,就要采用组距次数分布反映总体的分布状态。如表3-5就是组距次数分布。表3-5 某班级

6、学生统计学成绩成绩人数60以下60 -7070 -8080 -9090 以上5 812106合 计41三、数量次数分布的编制方法编制数量次数分布步骤有:编制序列和计数、确定组数和组距、确定组限和组中值。10682106979681108841051109811412892112111122104111103911099110710810710411297110861258510510910510396124125931131151061011061028986119例如,对某工厂某日50名工人生产零件个数情况进行调查,得到下列原始数据: 1.编制序列和计数按一定顺序排列的数值称为序列,即把数值

7、从小到大,或从大到小的顺序排列起来。编制成单项次数分布表如表3-6所示。表3-6 某企业日工人生产量分布表生产量人数/人生产量人数/人生产量人数/人81828384858689919293961111111211297981011021031041051061071081092111223422211011111211311411511912212412512822211111121合 计-502.确定组数和组距组数是指对总体划分为几个组。组距是指分组条件下每组标志值的变化范围。对同一总体,组数的多少和组距的大小成反比。如果将表3-6重新分组,取组数为5,组距为10,就得到表3-8的次数分布。

8、通过这个次数分布就能够清晰地看到工人生产量的分布特征。表3-7 工人日生产量分布表日生产零件数人 数/人比 率(%)80- 9090- 100100-110110-120120-13079191051418382010合 计50100在连续式组距情况下,计算组距的公式为: 组距=上限-下限在离散式组距情况下,计算组距的公式为: 组距=本组上限-前组上限在组距次数分布中,各组组距相同的次数分布称为等距次数分布。各组组距不同的次数分布称为异距次数分布。等距次数分布一般在现象性质差异变动比较均衡条件下使用。在等距的情况下,确定组数、组距可参考下面的公式: 组数 全距/组距 组距全距/组数在表3-6的

9、资料中,全距为47(128-81),假定组距为10,则组数47/104.7,取整数分为5组。表3-7就是等距次数分布。表3-7 工人日生产量分布表日生产零件数人 数/人比 率(%)80- 9090- 100100-110110-120120-13079191051418382010合 计50100异距次数分布一般在现象性质差异变动非均衡的条件下使用。它也有两个优点:一是能准确地描述偏态分布。二是能将性质相同的总体个体单位归为一组。例如,某地区按农民平均收入分组,绝大多数农民的平均收入在1000元以下,而少数农民竟达10000元以上。很明显,不能一律用1000元为组距,否则将使绝大多数的农民都分

10、布在第一组内,从而使现象之间的性质差异不能反映出来。同时也不能用50元为组距,因为这样组数太多,还会出现一些空设的组。所以,这种情况就必须采用异距分组。在总体单位密集的地方采用较小组距,而在总体单位稀少的地方采用较大组距。3确定组限和组中值组限就是各组间的数量界限。一般情况下,每组有两个组限:下限和上限。如表3-7中,第一组8090,80为下限,90为上限。对于连续变量来说,由于变量的数值是连续不断的,相邻两值之间可取无限数值,因此,相邻组的组限必须重合。如表3-7按工人日产量分组,第一组的上限与第二组的下限相同,均为90。按习惯规定,各组包括下限数值,但不包括上限数值,如上例,若日生产零件数

11、为90个的工人,应归入第二组,而不归入第一组。这种规定,统计中叫做“上限不在内”原则。这样,既保证了各个个体单位不被遗漏,又保证了各个个体单位不被重复。日生产零件数人 数/人比 率(%)80- 9090- 100100-110110-120120-13079191051418382010合 计50100对于离散变量来说,变量的数值只能取整数,因此,相邻组的组限一般要间断。如表3-8中“100199”一组的上限199和“200299”一组的下限200并不需要重合,只需互相衔接就行了,因为在199和200间不会出现小数。有时,为了方便起见,可以把相邻组的组限重合,但必须遵循“上限不在内”原则。表3

12、-8 按工人人数划分的工业企业分布情况工 人 数(人)工 业 企 业 数(个)100以下100-199200-299300-399400以上 8012060205合 计285组距次数分布掩盖了分布在各组内单位的实际变量值。为了反映分布在各组中个体单位变量值的一般水平,往往用组中值作为各组变量值的代表值。组中值是上限与下限之间的中点数值。计算公式为: 组中值用组中值来代表组内变量值的一般水平有一个假定的前提:各个个体单位的标志值在本组内呈均匀分布或在组中值两侧呈对称分布。根据表3-7和表3-8计算各组组距和组中值,如表3-9和3-10所示。 表3-9 某企业工人日生产量分布(单位:件) 表 3-

13、10 按工人人数分组(单位:人)在表3-9中,各组都有一个下限和上限,形成一个封闭的区间,这样的组叫做“闭口组”。表3-10中第一组100人以下和最末组400人以上。这样的组叫“开口组”。对“开口组”的组距和组中值的确定,一般是以邻近一组的组距作为开口组的组距,然后再按组中值的公式计算,或者按下面的公式计算: 缺下限的开口组组中值本组上限-邻组组距 / 2 缺上限的开口组组中值本组下限邻组组距 / 2 日生产量组距 组中值80 - 9090 -100100-110110-120120-13010101010108595105115125 工人数/人组距组中值100以下100-199200-29

14、9300-399400以上 100100100100100 50150250350450四、累计次数分布表在表3-11中,我们可能很想知道有多少(或比率)工人的装配零件数低于(或高于)100件。为了回答这一问题,就要编制累计次数分布表。表3-11 工人生产量累计次数表计算累计次数的方法有两种:一种叫向上累计,一种叫向下累计。向上累计是从变量值最小一组的次数起逐项累计,每组累计次数表示小于该组上限值的次数共有多少。向下累计是从变量值最大一组累计的次数共有多少。生产量次 数向 上 累 计次数向 下 累 计次数人数/人比率(%)人数/人比率(%)人数/人比率(%)80-9090-100100-110

15、110-120120-130791910514183820107163545501432709010050433415510086683010合计50100-第四节 数据的图表展示一、统计图统计图是以点、线、面、形状等方法描述、显示统计数据的形式,是统计数据直观的表现形式。1、直方图在等距分组的条件下,图上横轴表示变量,纵轴(直方形的高度)表示各组次数,其宽度与各组组距相适应,这样绘制的各直方形的面积可以用来表示各组次数的分布状态,称为次数直方图。根据表3-7的资料,利用 Excel绘制次数直方图,如图3-1所示。 装配零件数图3-1 工人日生产量次数直方图2折线图折线图和次数直方图一样,也可

16、以反映总体的次数分布情况。以横轴表示变量,变量值用组中值表示。纵轴表示次数,在每组组中值上方按该组的次数描一个点,然后用直线连接起来,即成为次数折线图。根据表3-7的资料,利用Excel绘制次数折线图如图3-2。 3累计次数分布图向上累计次数曲线以各组上限为横坐标,向下累计次数曲线以各组下限为横坐标,其纵坐标都是累计次数。根据表3-11的资料,用Excel绘制累计次数分布图如图3-3所示。 图3-3 生产量累计次数分布图累计次数%4洛伦茨曲线图美国洛伦茨博士(Dr.M.O.lorenz) 把累计频数(或频率)分布曲线用于研究社会财富、土地和工资收入的分配是否公平。这种累次曲线又称为洛伦茨曲线图

17、。绘制方法如下:将分配对象和接受分配者的数量化成结构相对数并进行向上累计。纵轴和横轴均为比例尺度,纵轴自下而上,用以测定分配的对象横轴从左向右用以测定接受分配者根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点使之平滑,所得曲线即所要求的洛伦茨曲线。表3-12 某国某年家庭家收入所得的分配情况按收入的水平分组人口收入累计收入的(%)人口数(万)结构(%)累计(%)月收入额(亿美元)结构(%)实际情况绝对平等绝对不平等12345678最低128.512.8512.851.575512.850中下等348.034.847.654.08131847.650中等466.9

18、46.6994.3416.33527094.340较高45.64.5698.97.54249498.90最高11.01.11001.886100100100合计1000.0100-31.4100-先将人口数及其收入额第(1)(4)列化为结构相对数第(2)(5)列,再求出其累计的百分比第(3)(6)列,然后在制好的比率图上依累计百分比标出点,平滑地连接各点即可,如图所示。5饼形图 饼形图用以表示把总体分为各个组成部分,各组成部分占全体的百分数用圆内的各个扇形的中心角度占360度的相应百分数来表示。根据表3-1绘制的饼形图如图3-5。 表3-1 2014年我国产业结构图3-5 我国2014 年三次

19、产业的构成产业增加值(亿元)比重 %第一产业第二产业第三产业583322713923067399.242.648.2合 计636463100.06环形图环形图与饼形图类似,但又有区别。环形图中间有一个“空洞”,总体中的每一个数据用环中的一段表示。可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可显示各部分所占的相应比例,从而有利于比例研究。在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”(a)非常不满意;(b)不满意;(c)一般;(d)满意;(e)非常满意。调查结果经整理如表3-13和表

20、3-14所示。 表3-13 甲城市家庭对住房状况的评价表 3-14 乙城市家庭对住房状况的评价回答类别户 数(户)百 分 比(%)非常不满意不满意一般满意非常满意24108934530836311510合 计300100回答类别 户 数(户)百 分 比(%)非常不满意不满意一般满意非常满意 21997864387.033.026.021.312.7合 计300100.0图3-6 甲、乙两城市家庭对住房状况的评价7雷达图雷达图是显示多个变量的常用图示方法。设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2 ,Xp。要绘制这P个变量的雷达图,其具体做法是:先做一个圆,然后将圆P等分,得到

21、P个点,令这P个点分别对应P个变量,再将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再做同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。例如,2014年某地城乡居民平均每人各项生活消费支出数据见表3-15。试绘制雷达图。表3-15 2014年某地城乡居民家庭人均生活消费支出 单位:元类 别城 镇 居 民农 村 居 民食品衣着设备用品及服务医疗保健交通和通讯娱乐文教服务居住杂项商品和服务 1 958.31 500.46 439.29 318.07 395.01 627.82 500.49 258.54 820.52 95.95 75.45 87.57 93.13 186.72 258.34 52.46合 计 4 997.991 670.14图3-7 2014年某地城乡居民家庭平均每人生活消费支出二、统计表统计表是以横纵交叉的线条所绘制的表格来表现统计资料的一种形式。统计表是表现统计数据最常用的形式。它的主要优点一是能有条理、有系统的排列统计数据,使人在阅读时一目了然。二是能合理地、科学地组织统计数据,使人在阅读时便于对照比较。(一)、统计表的构成1.统计表的形式构成统计表是由总标题、横行标题、纵栏标题、指标数值四部分所构成的,如表3-16。表3-16 2014年某

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论