统计学原理第三章 统计整理_第1页
统计学原理第三章 统计整理_第2页
统计学原理第三章 统计整理_第3页
统计学原理第三章 统计整理_第4页
统计学原理第三章 统计整理_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章统计整理主要内容第一节统计整理的意义和方法12第二节统计分组3第三节统计分布4第四节统计表第一节统计整理的意义和方法一、统计整理的意义

统计资料整理,又称数据整理,指根据统计研究任务的要求,对调查、搜集到的原始资料进行分组、汇总,使其条理化、系统化的过程。统计整理是统计调查的继续,是统计分析的前提和基础,在整个统计工作中发挥着承上启下的作用。统计整理实现了从个别单位的标志值向说明总体数量特征的指标值的过渡,是人们对社会经济现象从感性认识上升到理性认识的过渡阶段。二、统计整理的方法第一节统计整理的意义和方法

统计资料整理的主要内容:根据研究任务要求,选择应整理的指标,并且根据分析的需要确定个体的分组(简称分组)对各项指标进行汇总,计算各组和总体的单位数和标志总量。通过统计表描述分组,汇总结果。统计整理的方法或步骤根据其内容决定:包括分组、汇总和编表。分组是根据研究任务要求,对调查所得的原始资料,确定哪些分组或分类。统计分组是统计整理的关键和前提条件。汇总是在统计分组基础上,把总体单位各种标志的标志值汇总起来。汇总主要有手工汇总和电子计算机汇总。是进行统计整理的中心内容编表是把汇总的资料按一定规则在表格上表现出来。第二节统计分组一、统计分组的意义

定义:根据统计研究任务的要求和现象总体的内在特点,把统计总体按照某一标志划分为若干性质不同而又有联系的几个部分,称为统计分组。总体的变异性是统计分组的客观依据。统计分组是总体内进行的一种定性分类,把总体划分为一个个性质不同的范围更小的总体。总体经过分组以后,各组内部差异缩小趋于同质,组与组之间的差异拉大以表明现象间质的差别或量的不同(组内同质性、组间差异性)1.按某一标志进行分组的结果表现为()A组内差异性、组间差异性B组内同质性、组间差异性C组内同质性、组间同质性D.组内差异性、组间同质性2.统计分组是()A.在统计总体内进行的一种定性分类B.在统计总体内进行的一种定量分类C.将同一总体区分为不同性质的组D.把总体划分为一个个性质不同的范围更小的总体E.将不同的总体划分为性质不同的组练习答案:1.B2.ACD二、统计分组分类第二节统计分组

按照分组的任务和作用,可分为类型分组、结构分组和分析分组。按照分组标志的多少,可分为简单分组和复合分组。按照分组标志的性质,可分为品质分组和变量分组。

(一)类型分组、结构分组和分析分组进行分组的目的,分别是划分社会经济类型(类型分组,通常总体按品质标志分组)、研究同类总体的结构(结构分组,总体按数量标志分组)和分析被研究现象总体诸标志之间的联系和依存关系(分析分组,其分组标志称为原因标志(多数是数量标志,有时也是品质标志),与原因标志对应的标志叫结果标志(一定是数量标志),而且要求计算为相对数或平均数。结果标志受原因标志的影响主要表现在各组相对数或平均值的变异上)。

第二节统计分组

(二)简单分组和复合分组各个组仅按一个标志进行分组,称为简单分组。(例子:(1)为了了解工业企业总体的基本情况,选择经济类型、轻重工业、企业规模等标志进行分组;(2)为了了解某地区男女性别构成情况,选择性别标志进行分组)每个组按两个或两个以上标志重叠起来进行分组,称为复合分组。(比如全国总人口,先按城镇乡村分组,再按性别分组,接着再按年龄分组,即城镇男性女性0~14岁15~64岁65岁及以上0~14岁15~64岁65岁及以上乡村男性女性0~14岁15~64岁65岁及以上0~14岁15~64岁65岁及以上第二节统计分组

(三)品质分组和变量分组品质分组是总体按品质标志分组,如人口按性别、民族、文化程度、职业等标志分组;工业企业按经济类型、部门等标志分组。变量分组是按数量标志进行的分组,如人口按年龄分组。工业企业按职工人数、生产能力分组等。1.下列分组那些是按品质标志分组()A.职工按工龄分组B.科技人员按职称分组C.人口按性别分组D.企业按地区分组E.学生按健康状况分组F.企业按经济类型分组G.人口按民族分组

答案:BCDEFG练习第二节统计分组三、分组体系和分组标志的选择

为全面研究现象的总体,常需要运用多个分组标志对总体进行分组,以形成一系列相互联系、相互补充的分组体系。统计分组是总体按某一标志(分组标志)进行分类的。统计分组的关键在于分组标志的选择。分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就突出了总体在该标志下的性质差别。分组标志选择不当,不但无法显示现象的本质特征,甚至会混淆事物的性质,歪曲社会经济真实情况。分组标志的选择必须根据统计研究目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。练习1.统计分组的关键问题是确定组距和组数(×)(应是分组标志)第二节统计分组四、品质分组与变量分组

选择反映事物属性差异的品质标志作为分组标志。当分组标志一旦确定,组名称和组数就确定,不存在组与组之间界限区分的困难。即使遇到比较复杂的分组,人们常规定统一的统计分类标准或分类目录,对不同的现象总体确定分类名称、分类标准、计量单位和编码方法,作为分组的统一依据,供长期使用。品质分组

选择反映事物数量差异的数量标志作为分组标志。确定各组在数量上的差别,并通过数量上的变化来区分各组的不同类型和性质。变量分组存在组距问题,现就组距相关问题进行解释:

1.单项式分组和组距分组变量分组离散变量

变量值变动幅度小,则一个变量值对应一组,称单项式分组。变量值变动幅度很大,则将整个变量值一次划分为几个区间,每个变量值按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。连续变量

连续变量只能采用组距式分组,且相邻的组限必须重叠

组限:组距两端的数值。每组的起点值称为下限,每组的终点值称为上限。组限重叠:上一组的上限同时也是下一组的下限。第二节统计分组变量分组

在相邻组组限重叠的组距式分组中,若某的那位的标志值正好等于相邻两组的上下限的数值时,一般把此值归并到作为下限的那一组。组距式分组使资料的真实性受到一定程度的伤害通过组距式分组,组内差异被抽象掉,突出组间差异。组距大小、组数确定应根据研究对象的经济内容和标志值的分散程度等因素,不可强求一致。

2.等距分组和不等距分组等距分组即标志值在各组保持相等的组距,也就是各标志值的变动都限于相同的范围。在标志值变动比较均匀的情况下,我们可采用等距分组。当标志值变动不均匀,如急剧增长、下降、变动幅度很大时,我们可采用不等距分组。如果标志值是按一定比例发展变化的,则我们可以按等比的组距间隔来分组。变量分组3.组限和组中值(1)组限:组距两端数值称为组限。每组起点数值称下限、终点数值称上限。下限和上限表示各组标志值变动的两端界限。离散变量,各组的上下限都可以用确定的数值(整数)表示。(间断式确定组限)例如,工业企业按职工人数分组可表示为:500-999、1000-1999、2000人以上等。连续型变量,采用组限重叠表示。凡遇到标志值刚好等于相邻两组上下限的数值是,一般把此值归并到作为下限的那一组。(此法同样适用于离散变量)(2)组中值组中值是上下限之间的中点数值,它是各组上下限数值的简单平均,以代表各组标志值的一般水平。组中值并不是各组标志值的平均数(近似代替)组中值的计算的前提条件:即假定各组标志值的变化是均匀的。组中值的计算公式,见下张幻灯片。第二节统计分组解:第一组组中值:50-(10÷2)=45(缺下限)第二组组中值:(50+60)÷2=55

第三组组中值:(60+70)÷2=65

第四组组中值:70+(10÷2)=75(缺上限)第二节统计分组变量分组一般情况下:组中值=(上限+下限)÷2开口组:即第一组运用“多少以下”,最后一组运用“多少以上”时,组中值的计算可参照邻组的组距来确定。缺下限开口组组中值=上限-1/2邻组组距;(多少以下)缺上限开口组组中值=下限+1/2邻组组距;(多少以上)例如:产值(万元)50以下50~6060~7070以上求各组组中值?练习第二节统计分组1.某连续变量分组数列,其某组为开口组,下限为500,又可知其邻组的组中值为480,组某组的组中值为()A.520B.510C.500D.490解:根据连续变量分组数列组限特点,其应采用组限重叠,所以开口组的邻组的上限为500,又邻组的组中值为480,从而可求出邻组的下限为:(500+下限)÷2=480→下限=460。.开口组缺上限情况:组中值=下限值+1/2邻组组距=500+(500-460)÷2=520,应选A第三节统计分布一、统计分布的意义

(一)统计分布的概念和种类在分组基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间分布,称为统计分布。统计分布实质是把总体的全部单位按某标志所分的组进行分配所形成的数列,又被称为分配数列或分布数列。分配数列明显包含两个要素:总体按某标志所分的组和各组所占有的单位数—次数。根据分组标志不同,分配数列分为品质分配数列(按品质标志分组)和变量分配数列;变量数列又有单项式数列和组距式数列。二、频数与频率第三节统计分布

(一)频数、频率的概念变量数列中的各组单位数表示我们所要考察的标志值在各组中出现的次数,被称为次数或频数。各组次数占总次数比重称为频率。频率=各组次数/总次数在变量数列中,标志值所构成的数列表示标志值的变动幅度,而频数构成的数列则表示标志值的作用程度。各组频率表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率的大小。在变量数列中,频数(频率)表明对应组标志值的作用程度。频数(频率)数值越大表明该标志值对于总体水平所起的作用越大。(参考书本P60表格)按顺序列出各组标志值范围和相应的频率形成的统计分布,亦称频率分布。(频率分布满足:(1)各组的频率大于0;(2)各组的频率总和等于1(或100%)。第三节统计分布

(二)累计频数的累计频率为更加概括总体各单位的分布特征,有时需要编制累计频数数列和累计频率数列。累计频数的求法:首先列出各组的组限,然后依次累计到本组为止的各组频数,求得累计频数。累计频率=累计频数/频数总和。累计有向上累计和向下累计两种方法。向上累计是指将各组频数和频率由变量值低的组向变量值高的组累计,其意义是各组上限以下的累计频数或累计频率,当我们关心标志值较小现象的次数分配情况时,通常用向上累计,以说明在这些数值以下所有数值所占的比重;向下累计是指将各组频数和频率由变量值高的组向变量值低的组累计,其意义是各组下限以上的累计频数或频率,当我们关心标志值较大的现象次数分配情况时,用向下累计,表明这些数值以上所有数值所占的比重。第三节统计分布工资分组(元)职工人数(人)(次数或频数)各组人数所占比重(%)(频率)500~600600~700700~800100200100255025合计400100例:下面是400个工人按工资分组形成的变量分配数列,注意变量分配数列中的两要素:总体所分的各个组(按工资水平进行的分组)和各组所拥有的单位数(职工人数,次数或频数)表一:某企业工人按工资分组的变量分配数列第三节统计分布表二:某企业工人按工资分组的累计频数、频率向上累计工资收入频数累计频数累计频率6007008001002001001003004002575100合计400--向下累计工资收入频数累计频数累计频率5006007001002001004003001001007525合计400--例题1:某班40名学生的学习成绩如下:66898884868775737268758297588154797695767160906576727685899264578381787772617081学校规定60分以下为不及格,60-70为及格,70-80为中,80-90为良,90分以上为优,要求:将该班学生分为不及格,及格,中,良,优五组,编制一张次数分配表,并编制向上和向下的频数、频率分配数列。按照成绩分组人数(f)频数f/∑f向上累计向下累计频数频率频数频率60以下60-7070-8080-9090以上36151247.5%15%37.5%30%10%392436407.2%22.5%60%90%100%403731164100%92.5%77.5%40%10%合计40100%练习:有27个工人看管机器台数如下:542434344243432644223453243试编制分配数列第三节统计分布三、变量数列的编制步骤

第一步:将原始资料按数值大小依次排列第二步:确定变量的类型和分组方法(单项式分组或组距式分组)第三步:确定组数和组距。当组数确定后,组距可计算得到。组距=全距÷组数,全距=最大变量值-最小变量值第四步:确定组限(第一组的下限要小于或等于最小变量值,最后一组的上限要大于最大变量值)第五步:汇总出各组的单位数(注意:不同方法确定的组限在汇总单位数时的区别),计算频率,并编制统计表。间断式确定组限:汇总各组单位数时,按照“上下限均包括在本组内”的原则汇总重叠式确定组限:汇总各组单位数是,按照“上组限不在内”的原则汇总(比较常用)第三节统计分布四、次数分布的主要类型由于社会经济现象性质不同,各种统计总体都有不同的次数分布,形成了各种类型的次数分布。次数分布的四种类型如下:(一)钟形分布钟形分布特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两边得变量值分布的次数少。这种分布在统计学中称为正态分布。例如,学生的成绩分布、居民家庭可支配收入的分布等。(二)U形分布U形分布特征是“两头大,中间小”。例如,人口死亡现象按年龄分布。(三)J形分布次数随着变量值的增大而增多,如投资按利润率大小分布。次数随着变量值的增大而减少,使得图形为倒J形,如人口总体按年龄大小的分布。第三节统计分布(四)洛伦茨分布洛伦茨分布曲线专门用于检验社会收入分配的平等程度。洛伦茨分布曲线运作的条件是:第一,居民或家庭按收入水平分组,计算各组居民或家庭的比重(频率,各组单位数占总体单位数的比重);第二,各组收入的比重(各组标志总量占总体标志总量的比重)根据63页例4说明洛伦茨曲线的绘制原理表3-13为某城镇居民月收入和金融资产分组资料通过汇总,得到表3-14的按月收入分组的某城镇居民户数、月收入和金融资产的向上累计频率。根据表3-14的数据,绘制洛伦茨曲线。(要求洛伦茨曲线的图示域为正方形,横轴表示累计频率,这里指各组户数比重累计(总体单位比重累计);纵轴表示标志总量累计,这里指各组月收入和金融资产等指标的比重累计,得到图3-7洛伦茨曲线图,分别标明该市居民月收入和金融资产的构成分布和集中状况。绘制洛伦茨曲线后,可计算基尼系数,其计算公式见书64页。基尼系数称为标志集中系数,最大值为1,表示标志分布绝对不均匀。第三节统计分布

洛伦茨曲线可拓展运用于一般社会经济现象,借以反映总体单位标志分布的集中存在、集中程度,又称集中曲线。正方形图示域对角线表示各组的频率同各组的标志总量对总体标志总量的比重完全对应,及现象总体标志(变量)成线性均匀分布,不存在集中过程,集中曲线离开了对角线,说明存在集中现象。绘制洛伦茨曲线,必须正确分辨数据中的总体单位和单位标志。前者应放在横轴上,后者放在纵轴上。第四节统计表一、统计表的结构

把汇总结果的资料按一定的规则表现出来的表格,就叫统计表。统计表是由纵横线交叉的一种表格组成。统计表是由标题、横行、纵栏、数字资料等部分构成。标题分为:总标题(表的名称,放在表的上方);横行标题(写在表的左方);纵栏标题(写在表的上方),分别说明横行或纵栏所填写的数字资料的内容。统计表的内容包括主词和宾词两部分。主词就是统计表所要说明的总体、总体的各个组或各个单位的名称;宾词用来说明主词的各种指标。通常,主词列于横行;宾词列于纵栏。统计表的组成部分见下表。指标绝对数(亿元)比上年增长(%)全社会固定资产投资按城乡分城镇其中:国有及国有控股农村按地区分东部地区中部地区西部地区7007358620337131145240242151261374925.827.614.317.424.830.226.6表一:2004年全社会固定资产投资情况主词栏宾词栏横行标题总标题纵栏标题数字资料第四节统计表第四节统计表二、统计表的种类统计表的种类可根据主词的结构来决定,按照主词是否分组和分组程度,可分为简单表、分组表和复合表。(一)简单表简单表是主词未经任何分组的统计表,如主词由研究总体单位清单组成的一览表;主词由地区、国家、城市等目录组成的区域表等。见67页表3-17。(二)分组表(简单分组表)分组表是主词按某一标志进行分组的统计表。常利用分组表来揭示现象不同类型的不同特征,研究总体的内部构成,分析现象之间依存关系,见67页表3-18.(三)复合表(复合分组表)复合表是主词按两个或两个以上标志进行复合分组的统计表,见68页表3-19。.第四节统计表三、宾词指标的分组配置四、统计表的编制规则宾词指标配置即指标体系的顺次列举。宾词指标需要分组时,宾词配置可有平行配置和层叠配置两种。平行配置就是宾词各分组标志彼此分开,各标志的分组指标作平行排列;层叠配置则是将各分组标志层叠在一起,使各标志的分组指标大大增加。第一,统计表的各种标题应该简明,确切,概括地反映出表的基本内容第二,表中的主词各行和宾词各栏,应按先局部后整体的原则排列,即先列各个项目,后列总计。第三,如果统计表栏数过多,通常要加以编号;第四,表中数字应填写整齐,对准位数第五,统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论