版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科课程陈宜治系列课件统计学课件制作:陈宜治
2.2.3统计分组
统计分组的含义
统计分组的种类统计分组的概念和原则概念
根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究对象的总体划分为若干个不同性质的组。原则穷尽原则、互斥原则例1:从业人员按文化程度分组小学毕业中学毕业(含中专)大学毕业文盲或识字不多小学毕业中学毕业(含中专)大专毕业大学及大学以上
(×)25%33%42%(√
)例2:某商场把服装分为①男装、女装、童装。②成年装(男女装)儿童装(男女装)统计分组的种类(√)按分组标志的多少不同简单分组复合分组按分组标志的性质不同品质标志分组数量标志分组(×
)
对总体只按一个标志进行分组,称为简单分组。如:以产值作为划分企业规模的标志;按文化程度对人口总体进行分组。统计对总体往往要从多方面进行研究,仅仅依赖一个分组标志进行分组是难以满足需要的,必须运用多个分组标志进行多种分组,形成一个分组体系,才能满足需要。
1.简单分组对同一总体选择两个或两个以上的标志层叠进行分组,就形成复合分组。例如,为了认识我国高等院校在校学生的基本状况,可以同时选择学科、学制、性别等三个标志进行复合分组,得到如下分组体系。2.复合分组
文科理科本科专科男生女生男生女生本科专科男生女生男生女生按品质标志分组,就是选择反映事物属性差异的品质标志作为分组标志,并在品质标志的变异范围内划定各组界限,将总体划分成为若干个性质不同的组成部分。例如:人口总体按性别,分为男、女两组;再如:企业总体按所有制,分为全民、集体、合营、个体等组。
3.按品质标志分组按数量标志分组,就是选择反映事物数量差异的数量标志为分组标志,并在数量标志的变异范围内划定各组界限,将总体划分为性质不同的若干组成部分。例如,居民家庭按子女数分组,可分为0人(无子女)、1人、2人、3人;等等。
4.按数量标志分组例1
为了了解某地区银行存款的构成,可以选用存款性质、期限两个标志分别进行分组:按存款性质分组企业存款储蓄存款财政性存款按存款期限分组活期存款定期存款简单分组复合分组存款同时按其性质及期限分组企业存款活期定期储蓄存款活期定期财政性存款活期定期例2
企业职工按工龄分组:
5年以下
5~10年
10~15年
15~20年
20年以上品质标志分组数量标志分组统计分组的作用
1、提示类型:统计分组的根本作用是将复杂的社会经济现象按照统计认识的要求区分为各个性质不同的组成部分。
2.说明总体现象的内部结构。现象的内部结构是表明现象本质特点的一个重要方面,将同一总体不同时期的结构联系起来,还可以看到现象的发展趋势和规律。
3、反映变化。将总体的分组资料按时间的移动联系起来进行分析,可以反映总体及各组在数量上的变动情况和变动规律。
4、分析总体现象之间的依存关系。通过分组将有相互影响的现象联系起来进行研究,反映它们在数量上的变动规律。例如:商品销售额与流通费用率的关系;居民收入与储蓄额的关系。
2.2.4分布数列
在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体中各个单位数在各组间的分布,就叫做分布数列(frequencydistribution)。
分布数列的概念
各组名称(即按一定标准划分出来的各个组)两个构成要素各组次数(即各组所对应的总体单位数,
有两种表现形式:绝对数也称频数,用f表示相对数称为频率,用f/∑f表示。)按成绩分组X人数f60分以下360-70分870-80分1280-90分1090分以上7合计40各组名称X各组次数f例:分布数列的种类由于分组是分布数列的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种的分组,分布数列的类型,可归纳为:分布数列品质数列变量数列例:1、某地人口的性别分布按性别分组次数人数(人)比重(%)男女154349271461329751.3748.63合计30048224100.002、学生的成绩分布学生按成绩分组x次数学生数(人)f比重(%)f/∑f60以下60-7070-8080-9090以上2820155416403010合计50100变量数列品质数列分布数列的种类由于分组是分布数列的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种的分组,分布数列的类型,可归纳为:分布数列品质数列变量数列单项数列组距数列某组人群20个人年龄如下(单位:岁):1,5,12,15,21,12,15,21,21,22,30,33,15,30,5,48,49,51,51,33未分组年龄(岁)人数f比重(%)1512152122303348495112233122112510101515510105510合计20100单项数列年龄(岁)人数f比重(%)f/∑f0-1010-2020-3030-4040-5050-60354422152520201010合计20100组距数列分布数列的种类由于分组是分布数列的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种的分组,分布数列的类型,可归纳为:分布数列品质数列变量数列单项数列组距数列等距数列异距数列(不等距数列)组距式变量数列又可分为:等距式数列与不等距式数列;开口式数列与封闭式数列等
分布数列品质数列年龄(岁)人数f比重(%)f/∑f0-1010-2020-3030-4040-5050-60354422152520201010合计20100年龄(岁)人数f比重(%)f/∑f0-1010-3030-5050-60396215453010合计20100等距数列异距数列分布数列的种类由于分组是分布数列的基础,因此有怎样的分组就形成怎样的次数分布。综合上述各种的分组,分布数列的类型,可归纳为:分布数列品质数列变量数列单项数列组距数列等距数列异距数列不连续组距数列连续组距数列变量数列的编制1.单项数列的编制
1)确定变量数列的形式——根据变量的性质及特点选择不同的变量数列。
2)确定组距和组数
——
注意几个概念:上限、下限、组距、组数。
组数过多,组距太小,要避免将相同性质的单位分到不同组中去;反之,如果组数过少,组距太大,要避免将不同性质的单位分到同一组中去。
3)确定组限——(1)客观数量界限。(2)第一组的下限和最后一组的上限。有极端值时,第一组和最后一组可采用开口组。(3)尽可能采用5或10的倍数。“上限不在内原则”
4)确定分配次数——
可利用EXCEL表进行汇总。2.组距数列的编制根据总体各单位的变量值进行同类合并,并列出相应的单位数或比重。单项数列不存在组距的问题1)确定组距和组数编制组距数列时,不仅要考虑各组的划分是否能区分总体内各组成部分的性质差别,还需要确定适当的组距和组数,才能准确而清晰地反映总体的分布特征。在实际进行分组时,采用等距数列或异距数列,应决定于现象的性质和研究的目的。标志值分布比较均匀时,一般用等距数据;标志值分布很不均匀时,应采用异距数列。有时异距数列能比较准确地反映总体内部各组成部分的性质差异。在异距数列中,各组频数或频率不能直接比较。为消除各组组距不同所造成的影响,需要计算频数密度或频率密度。频数密度是频数与组距之比,频率密度是频率与组距之比。各组的频数密度或频率密度可以进行比较。1)确定组距和组数
统计年鉴中按年龄分组为:0-14少年15-64中青年65岁以上老年1)确定组距和组数
当组距、组数确定后,只需划定各组数量界限便可编制组距数列。
2)组限的确定组距数列掩盖了分布在组内各单位的实际变量值。为了反映各组中个体单位变量值的一般水平,统计工作中往往用组中值来代表它。组中值是组内变量范围的中间数值,通常可根据备组的上限、下限进行简单平均,即:组中值=(上限+下限)/2例如:3)组中值的计算
3)组中值的计算在编制组距数列时,为了避免出现空白组,同时又能使个别变量离差较大的单位不致于无组可归,往往在首末两组使用“××以下”及“××以上”的不确定组限的形式。这种形式叫做“开口组”。为进行统计分析,有时也要假定开口组的组限,并计算其组中值。一般可按相邻组的组距来计算“开口组”的假定的组限.然后再计算组中值。计算式为,首组假定下限=首组上限-邻组组距………………(4)组中值=上限-邻组组距/2
末组假定上限=末组下限+邻组组距………………(5)
组中值=下限+邻组组距/2
3)组中值的计算按成绩分组X组中值60分以下60-70分6570-80分7580-90分8590分以上5595次数是分布在各组中的个体单位数。如用相对数形式表示便是比率。比率是一种结构相对数,各组比率之和应等于1或100%。各组次数或比率的大小意味着相应的变量值在决定总体数量表现中所起的作用不同。次数或比率大的组,其变量值在决定总体数量表现中的作用就大,反之就小。
4)分布数列的次数由于社会经济现象性质的不同,各种统计总体都有不同的次数分布,形成各种不同类型的分布特征。1.频率分布的性质按顺序列出各组的组别及相应的频率,就构成频率分布。频率分布可以比频数分布更好地体现出总体分布特征。频率分布有两个基本性质:一是各组频率都是一个介于0与1之间的分数,即大于0而小于1;二是各组频率之和等于1。2.累计频率分布
在频数分布的基础上,将各组频数依次累计,就形成累计频数分布。各组累计频数与总频数之比,就形成累计频率分布。
频率分布累计分布有向上累计分布与向下累计分布两种。向上累计分布是将各组的频数或频率由变量值小的组向变量值大的组累计,累计结果分别说明各组上限以下的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。向下累计分布是将各组的频数或频率由变量值大的组向变量值小的组累计,累计结果分别说明各组下限以上的累计频数或累计频率的分布状况。当累计到最后一组时,其累计频数或累计频率等于总频数或100%。
频率分布表2-4某年年底某高校在职教师年龄累计分布数列教师按年龄分组人数(人)比重(%)向上累计向下累计频数(人)频率(%)频数(人)频率(%)30岁以下30~40岁40~50岁50~60岁60岁以上2013173661511519.1430.1934.8614.381.43
2015188841035105019.1449.3384.1998.57100.00105084953216615100.0080.8650.6715.811.43合计1050100.00————
2.3数据的显示2.3.1统计表2.3.2统计图统计表
将统计数据按一定的顺序排列在表格上,就形成了统计表。从广义讲,统计表包括统计工作各阶段所使用的一切表格,有调查表、汇总表和分析表。本章将侧重就表现统计整理结果所用的统计表进行讨论。
1.从统计表的形式上看,可由总标题、横行标题、纵栏标题和指标数值四部分组成。此外有些统计表在表下还增列补充资料、注解、附记、资料来源、某些指标的计算方法、填表单位、填表人员以及填表日期等。统计表的构成统计表的构成横行标题
指标数值表2-52005年我国三次产业增加值及增长情况表
总标题产业增加值(亿元)占GDP的比重(%)比2004年增长(%)第一产业第二产业第三产业227188620873395
12.40%47.30%40.30%
5.20%11.40%9.60%合计182321100.00%
9.90%资料来源:国统计局,中华人民共和国2005年国民经济和社会发展统计公报,。
主词
宾词纵栏标题总标题是表的名称,用以概括统计表中全部统计资料的内容。一般写在表的上端中部。横行标题是横行的名称,在统计表中通常用来表示各组的名称,它代表统计表所要说明的对象,一般写在表的左方。纵栏标题是纵栏的名称,在统计表中通常用来表示统计指标的名称。一般写在表的上方。指标数值列在各横行标题与各纵栏标题的交叉处。统计表中任何一个数字的内容由横行标题和纵栏标题所限定。统计表的构成统计表的内容可以分为两个组成部分:一部分是统计表所要说明的总体,它可以是各个总体单位的名称、总体的各个组,或者是总体单位的全部,这一部分习惯上称为主词。另一部分则是说明总体的统计指标,包括指标名称和指标数值,这一部分习惯上称为宾词。统计表的内容统计表的种类
统计表根据主词是否分组以及分组程度不同,可分为:
1、简单表,是指对总体未作任何分组而形成的统计表,可以有两种形式:一是按总体单位名称排列的统计表;二是按时间顺序排列的统计表。
2、简单分组表,是指总体仅按一个标志分组而形成的统计表。
3、复合分组表,是指总体按两个或两个以上标志进行复合分组而形成的统计表。统计表年份国内生产总值(亿元)1996199719981999200067884.674462.678345.282067.589403.61、我国近年来国内生产总值资料:2、1999年日均创国内生产总值:按产业和行业分组国内生产总值(亿元)第一产业第二产业工业建筑业第三产业交运仓储邮电通信业批发零售贸易餐饮业其他39.6110.795.814.974.112.218.743.2合计224.4简单表复合表按产业分组国内生产总值(亿元)第一产业第二产业第三产业39.6110.774.1合计224.4简单分组表
简单设计:说明主词的各项指标在表中并列平行排列。
复合设计:说明主词的各项指标在表中层叠排列。统计表的宾词设计统计表3、1999年日均创国内生产总值:按产业和行业分组国内生产总值(亿元)比重(%)第一产业第二产业工业建筑业第三产业交运仓储邮电通信业批发零售贸易餐饮业其他39.6110.795.814.974.112.218.743.217.749.386.513.533.016.525.258.3合计224.41004、某市近年从业人员分布表:年份三次产业第一产业第二产业第三产业小计男女小计男女小计男女1997199819992000总计宾词简单设计宾词复合设计统计表的编制规则开口式上下端线要粗表内一般不打横线,但合计栏要打横线主词有计量单位要专列一栏,宾词的计量单位可写在标题旁或下方。主词分栏用(甲)、(乙)、(丙)……
宾词分栏用(1)、(2)、(3)……表中数字应填写整齐,上下位数要对齐。数字为0时要写上,无数字或不用填写数字的要在格内填上“—”,缺数据的格内要填上“……”。如有必要,给表添加注释、说明及资料来源等……1、意义是用来表示统计资料及其相互关系的各种图形。它是用点的多少,线的疏密或粗细、条的长短、颜色的深浅、面积或体积的大小、曲线的起伏来表现统计资料的多少、分布状况、变化趋势和相互关系。统计图生动形象,给人以深刻印象,往往与统计表同时使用,互补不足。
2、类型按照形式分:折线(曲线)图、饼图、条形(带形)图、直方图、雷达图、象形图、统计地图等,还有统计中一些特殊的图形如质量控制图。按维数分:平面图、立体图。
Word,Excel中均有相应的图形。2.3.2统计图直方图是用直方形的宽度和高度来表示频数分布的图形,即在直角坐标系上,以横轴表示变量,以纵轴表示频数或频率,以各个宽度为组距、高度为频数或频率的直方块矩形所构成的图形。(1)直方图绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(一般标在右方),没有比率的直方图只保留左侧次数。在直方图的基础上,将各组直方形顶边线的中点(即由组中值与频数或频率确定的坐标点)用直线连接起来,就形成为折线图。(2)折线图当变量值非常多,变量数列的组数无限增多时,折线便近似地表现为一条平滑的曲线。曲线图是组数趋向于无限多时折线图的极限描绘,是一种理论曲线。它实质上是对应于连续变量的次数或比率分布的函数关系图。(3)曲线图变量分布曲线图种类很多,常见的有J型分布、U型分布和钟型分布三种。J型分布有两种类型:一种是变量分布的频数或频率随变量值的增大而变大,称为正J型分布,例如商品供应量随着价格的上升而增加。另一种是变量分布的频数或频率随变量值的增大而变小,称为反J型分布,例如商品需求量随着价格的上升而下降。J型分布曲线如图2-5(a)、2-5(b)所示。
(3)曲线图—类型图2-5(a)正J型分布
图2-5(b)反J型分布
U型分布是一种“两头大,中间小”的分布,即靠近中间变量值的分布频数小、频率低,靠近两端变量值的分布频数大、频率高,曲线形式犹如英文字母“U”。例如人口死亡率的年龄分布就是幼儿和老年人死亡率高,青少中年的死亡率低,如图2-6所示。
(3)曲线图—类型死亡率(‰)年龄图2-6U型分布
钟型分布与U型分布正好相反,是一种“中间大,两头小”的分布,即靠近中间变量值的分布频数大、频率高,靠近两端变量值的分布频数小、频率低,形如古钟。在钟型分布中,有一种以变量的平均数为中心,左右两侧完全对称的分布,称为正态分布,其特点是变量平均数两侧的频数或频率随着与平均数距离的增大而完全相等地依次减少,如图2-7(a)所示。如果变量平均数两侧的频数或频率分布不完全对称,则称为偏态分布,分为左(负)偏分布和右(正)偏分布两种,分别如图2-7(b)、2-7(c)所示。
(3)曲线图—类型图2-7(a)正态分布
图2-7(b)左偏分布
图2-7(c)右偏分布
钟型分布与U型分布正好相反,是一种“中间大,两头小”的分布,即靠近中间变量值的分布频数大、频率高,靠近两端变量值的分布频数小、频率低,形如古钟。在钟型分布中,有一种以变量的平均数为中心,左右两侧完全对称的分布,称为正态分布,其特点是变量平均数两侧的频数或频率随着与平均数距离的增大而完全相等地依次减少,如图2-7(a)所示。如果变量平均数两侧的频数或频率分布不完全对称,则称为偏态分布,分为左(负)偏分布和右(正)偏分布两种,分别如图2-7(b)、2-7(c)所示。
(3)曲线图—类型图2-7(a)正态分布
图2-7(b)左偏分布
图2-7(c)右偏分布
累计曲线图根据累计频数或累计频率分布数列,可以绘制累计分布图。它以分组变量为横轴,以累计频数或累计频率为纵轴,以各组的上限(下限)与累计频数或累计频率为坐标点,平滑连接各点即成向上(向下)累计曲线。
(3)曲线图—类型03040506070年龄累计频数(人)20406080100累计频率(%)105084063042021020累计频数(频率)分布曲线,可用于分析社会财富、土地和工资收入等的分配是否公平的问题。该曲线图是由美国洛伦茨博士提出,故称为洛伦茨曲线。洛伦茨曲线某国家收入所得的分配情况按收入所得水平分组人口收入累计收入的(%)人口数(万人)结构%累计%月收入额(亿美元)结构%实际累计%绝对平等绝对不平等最低中下等中等较高最高128.5348.0466.945.611.012.8534.8046.694.561.112.8547.6594.3498.91001.574.0816.337.541.8851352246518709410012.8547.6594.3498.91000000100合计1000.0100.0__31.40100______20406080100
806040200100绝对平等线实际收入分配线绝对不平等线绝对不平等线人口(%)收入(%)洛伦茨曲线AB洛伦茨曲线与基尼系数当A=0时,A/(A+B)=0,则基尼系数为0,收入分配完全平等;当B=0时,A/(A+B)=1,则基尼系数为1,收入分配绝对不平等;所以,基尼系数可在0和1之间取任何值。
联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。基尼系数还可用于财产、资本、资源、产品、市场等资源分配均衡程度的分析。实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。统计局公布数据:2003年0.479、2006年0.487、2008年0.491、2009年0.490、2012年0.474官方数据描绘出过去十年中,基尼系数先是逐步扩大,而后又略有缩小的走势0.474,你们信吗?反正哥笑了。。。/s/blog_3f00a8c20101d9y2.html未分组数据—茎叶图
(茎叶图的制作)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶对于n(20≤n≤300)个数据,茎叶图最大行数不超过
L=[10×log10n
]
5.茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息了解树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图未分组数据—茎叶图
(茎叶图的制作)某车间工人日加工零件数的茎叶图了解未分组数据—茎叶图
(扩展的茎叶图)树茎树叶10s10.11*11t11f11s11.12*12t12f12s12.13*13t13f13s13.78802234577788890012222333344455667778890133445799树茎树叶10*10.11*11.12*12.13*13.78802234577788890012222333344455667778890133445799扩展后的茎叶图了解未分组数据—箱线图
(箱线图的制作)用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me
和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接了解未分组数据—单批数据箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图了解未分组数据—单批数据箱线图
(实例)最小值107最大值139中位数123下四分位数117.75上四分位数12810511011512012513013514050名工人日加工零件数的箱线图了解分布的形状与箱线图
对称分布QL中位数
QU左偏分布QL中位数
QU右偏分布QL
中位数
QU不同分布的箱线图了解未分组数据—多批数据箱线图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年乳胶色浆项目立项申请报告
- 2024年叉车项目规划申请报告
- 医用藤黄市场发展现状调查及供需格局分析预测报告
- 垃圾处理机的修理行业发展趋势预测及战略布局建议报告
- 山西省大同市铁路第一中学2025届高考英语倒计时模拟卷含解析
- 2025届金陵中学高考仿真模拟英语试卷含解析
- 陕西省西北农林科技大学附属中学2025届高三第二次诊断性检测数学试卷含解析
- 绥化市重点中学2025届高考考前模拟英语试题含解析
- 2025届常州市“12校合作联盟”高考英语押题试卷含解析
- 江西上饶市2025届高考英语二模试卷含解析
- PPT用中国地图(可编辑)
- 上海英皇明星城项目初步建议
- 教育科学版小学科学四年级下册教学课件1-6《果实和种子》
- 病人入院与出院流程课件
- 人民群众是历史的创造者教学设计
- 《基础阿拉伯语1》课程教学大纲
- 小学语文人教五年级上册第六单元群文课件
- 思想政治教育学原理课后答案
- 人教部编版八年级历史上册教学课件第五单元全套
- 新高考选科-专业解读课件
- 九种体质调理课件
评论
0/150
提交评论