《应用统计学(第三版)》课件第4章 统计资料整理_第1页
《应用统计学(第三版)》课件第4章 统计资料整理_第2页
《应用统计学(第三版)》课件第4章 统计资料整理_第3页
《应用统计学(第三版)》课件第4章 统计资料整理_第4页
《应用统计学(第三版)》课件第4章 统计资料整理_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章统计资料整理本章主要阐述统计资料加工整理的基本理论和基本方法,包括分类、汇总、列表、绘图等统计资料整理的技术性知识。4.1统计资料整理程序统计整理是根据统计研究的需要,对搜集的原始资料进行分类、汇总、列表,或对次级资料进行再加工的过程。统计整理的任务:使统计资料系统化、综合化和系列化,为揭示和推断总体的数量特征提供初步加工的统计信息。统计资料整理的一般程序如下:1.设计整理方案:分组方法、统计指标、整理表式、汇总方式方法的设计.2.审核统计资料:审核资料的完整性、准确性和时效性.3.统计分组:根据统计研究的需要,按一定的标志将总体全部单位区分为若干组(类)的一种统计方法。特点:对总体是分,对个体是合,从而体现组间的差异性和组内的同质性.关键:分组标志的选择和各组界限的划分。作用:划分现象的类型;揭示现象的内部结构和分布;显示现象间的依存关系4.统计汇总:采用手工或计算机汇总技术求出各组的单位数、总体单位数、各组指标、总体综合指标等。5.制作统计图表:统计汇总的结果常用统计图和统计表表来陈示。4.1.2统计数列的种类统计分组的结果表现为多种多样的统计数列,归纳起来有六类:1.品质数列。同一时间的总体各单位按某一品质标志分类而形成的数列。2.变量数列。同一时间的总体各单位按某一数量标志分类而形成的数列。3.时间数列。指同一总体的某一变量或指标依时间取值顺序排列而成的数列。4.空间数列。同一时间的同一变量或指标在不同空间的取值排列而成的数列。5.相关数列。具有一定联系的不同变量在不同时间或空间的取值排列而成的数列。6.平衡数列。根据总体的统计指标之间的数量平衡关系而编制的统计数列。4.1.3统计资料的陈示

统计资料表现或陈示的形式有以下五种:1.统计表。统计表是以纵横交叉的线条所绘制的表格来表现统计资料的形式。2.统计图。统计图是以圆点多少、直线长短、曲线起伏、条段长短、柱状高低、面积或体积大小、实物形象大小或多少、地图等图形来表现统计资料。3.统计报告。采用文字与数据相结合的方式表现统计资料。4.统计模型。采用数学模型描述变量或统计指标之间的数量关系。5.统计数据库。利用计算机技术,以一定的组织方式存储统计数据的仓库。

4.2品质数列4.2.1品质数列编制的一般步骤品质数列是指同一时空间条件下,总体各单位按品质标志(属性水准)分类而形成的数列。是由各组名称和各组次数(频率)两个基本要素构成的次数(频率)分布.编制的一般步骤:(1)选择分组标志:根据统计研究目的,选择能够反映现象本质特征的、主要的品质标志作为分组的依据。(2)划分各组界限:区分组别,确定各组名称、规定各组的界限或范围。(3)决定品质数列的形式:一般有简单分组、平行分组和复合分组品质数列三种形式,(4)统计汇总:求出各组的单位数和总体单位数,以及各组的比率或频率。(5)编制统计图表:用统计图表陈示分组结果。4.2.2.简单分组品质数列简单分组品质数列是对统计总体只按一个品质标志进行分组而形成的品质数列。用于整理和表现按列名水准或顺序水准计量的统计资料。按列名水准编制时,各组名称为属性的类别名;按顺序水准编制时,各组名称为次序尺度的类别名。【例4.1】

4.2.3平行分组品质数列平行分组品质数列是对统计总体同时采用两个或两个以上的列名水准(或顺序水准)进行平行排列的分组(面分类)而形成的品质数列。在平行分组品质数列中:不同分组的各组次数之和应分别等于总次数,不同分组的各组频率之和应分别等于1或100%;分组结果上下排列或左右排列均可.分组的总组数等于各标志分组组数之和.【例4.2】

4.2.4复合分组品质数列

复合分组品质数列是对统计总体同时采用二个或二个以上的列名水准(或顺序水准)层叠起来进行分组(线分类)而形成的品质数列。在复合分组品质数列中:

分组具有层次性、交叉性和隶属关系;

分组结果可按主词分层排列(分层列表),亦可采用主宾交叉排列(联列表),分组标志相同时,提供的统计信息量(总组数)比平行分组品质数列更多,因而具有较大的优势性。【例4.3】4.2.3品质数列图示(1)圆面图。是以圆形的面积代表总体指标数值,圆形的各扇形面积代表各组指标数值,或将圆形面积分为若干角度不同的扇形,分别代表各组的频率。(在实际应用时,亦可将圆面改为圆饼或圆台,变成圆形立体图),如图4-1所示。(1)直线图:是以直线的长短来表示属性统计指标数量大小的图形。常以横轴代表属性的不同组别,纵横代表各组的组数或频率。如图4-2所示:(2)长条图。是以若干等宽平行长条的长短来表示属性统计指标数量大小的图形。也是以横轴代表不同的组别,纵轴代表各组的次数或频率,如图4-3所示。长条图中的长条亦可改用长条柱和圆柱体代替,转化为立体图,以增加图形的美观性和感染力。

4.3变量数列编制4.3.1变量数列的类型变量数列是指同一时空条件下,指同一时空间条件下,总体各单位按数量标志(数量水准)分类而形成的数列。是由变量的不同取值及其相应的次数(或频率)两个要素构成的次数(或频率)分布.(1)离散型变量数列(不连续数列)。是对离散型变量的不同取值进行分组处理而编制的变量数列。按组别设置形式不同,可又分为单项数列和组距数列。(2)连续型变量数列(连续数列)。是对连续型变量的不同取值进行分组处理而编制的数列。由于变量取值连续一般编制组距数列。组距数列按组距是否相等又分为等距数列和异距数列。

4.3.2单项式变量数列当离散型变量的取值个数少,且变量变动程度小,则可编制单项式变量数列(简称单项数列),即采用列举式的分组方式,按变量值从小到大的先后顺序排列单个变量值,并计算出单个变量值出现的次数或频率即为单项数列。

【例4.4】

4.3.3等距式变量数列当离散型变量的取值个数较多;且变量值变动的程度较大,或连续变量的取值范围较大,且取值无极端偏斜分布状态时,宜编制等距式数列(等距数列).编制的关键在于确定组数、组距和组限。编制方法和步骤如下:(1)求全距R。最大值与最小值之差,考察全部变量值的变动范围,为决定变量数列的组数和组距提供依据。(2)确定组数。应考虑组距数列的各组之间应能充分反映事物的不同性质的差异及其分布特征。一般来说,组数(i)应取奇数较为合适。(3)确定组距。组距是每组的大小距离,常用全距(R)除以组数(i)、并取整求得。(4)确定组限。每组最小值为下限,最大值为上限。一般来说,离散型变量的相邻两个组的上限和下限应间断,连续型变量的相邻两个组的上限和下限一般应重叠。若变量的取值中有特大、特小值时,为使分组符合穷举和互斥的原则,可设置开口组:最前组可定为“……以下”,最高组定为“……以上”。(5)列表计算各组频数和频率、各组的平均值或组中值。将原始数据依组限分别归人所属各组(连续型变量组距数列的上限不在本组内,列入上一组),即可得到各组的频数。进而可计算各组的频率。为了满足统计研究的需要,亦可计算各组的累计频数和累计频率。有两种累计法:一是较小制,由变量值低的组向变量值高的组累计,可表明各组上限以下的累计频数或和累计频率为多少,二是较大制,由变量值高的组向变量值低的组累计。可表明各组下限以上的累计频数或和累计频率为多少。各组平均值可根据原始数据计算;而组中值的计算有三种情形:(1)组中值=(上限+下限)/2(2)缺下限开口组的组中值=上限-相邻组距/2(3)缺上限开口组的组中值=下限+相邻组组距/2【例4.5】【例4.6】见教材.4.3.4异距式变量数列当连续型变量或离散变量的取值呈极端偏斜分布状态时,宜编制异距式变量数列(简称异距数列)。编制的难点在于确定组数、组距和组限,为此可采用EXCLE作分组处理:先将原始数据从小到大排列(升序排列)其次,对排列的数据列进行合理的分段;最后根据数据分段的结果确定组数、组距和组限,并计算各组的次数、频率和均值,编制出异距数列。异距数列和等距数列编制亦可采用K-均值聚类法进行编制。K-均值聚类法是先确定聚类的组数K,再将差异不大的数据集中在一组(以各组的均值为聚类中心),最后根据聚类的结果来描述次数或频率分布的类型与特征.【例4.7】4.3.5交叉式变量数列

交叉式变量数列是对统计总体同时采用二个或二个以上的数量水准进行交叉分组而形成的变量数列。交叉式变量数列中的各种分组之间具有层次性和隶属关系,在分组标志相同的条件下,提供的统计信息量比平行分组变量数列多,并能揭示变量之间的相互关系。分组结果可按主词分层排列,亦可采用主宾排列。交叉式变量数列也也适应于属性水准与数量水准的交叉分组。【例4.8】4.3.2变量数列图示法变量数列常用的次数或频率分布图有直线图、直方图、折线图和平滑图。1.直线图:用直线的长短来表示离散型变量数列各组次数或频率的大小。2.直方图:以若干等宽的平行直方长条的长短来表示各组次数或频率的大小。常用于表现组距数列的次数分布或频率分布。离散型变量组距的直方图中的条形应间断,连续变量组距数列的直方图的条形应相接起来。3.折线图:是在直方图的基础上,用折线将各组次数或频率高度的坐标点连续起来,或用组中值与次数(或频率)求坐标点连接而成的分布图。用于表现连续型变量数列的总体分布,或表现累计频率的分布。4.平滑图:当变量值非常多,变量数列的组数无限增多时,折线图中的折线便近似地表现为一条平滑的曲线。平滑图又称曲线图,是变量数列的组数趋向于无限多时的折线的极限描绘,是一种理论曲线。5.径叶图:又称枝叶图,是将数字与图形结合使用的表现统计资料的方式,特别适合于描述变量数列的次数分配。当变量值为两位数字时,效果更佳。径(或枝干):表示十位数。叶:个位数,依递增次序排列。将枝叶图翻转90º来看,即为一个可表示特定变量值分布的直方图,此图的效果和直方图一样,但原始数据并未漏失,故枝叶图比直方图更有价值。如图4—8。

4.4空间数列和时间数列4.4.1空间数列空间数列是同一时间、同一变量或统计指标而不同地区、部门、单位的统计数据依特定次序排列而成的数列,具有地区名称和统计指标两个要素。反映统计指标或变量的取值在不同地区或不同单位间的分布状况、数量特征和差异情况。空间数列编制的一般步骤如下:(1)审查统计资料:保持可比性。(2)确定空间数列的形式:有单指标空间数列、多指标空间数列和时空结合数列三种形式,应根据统计研究的需要作出选择。(3)确定空间数列的层次:一级列举层、多级列举层。(4)确定地区的排列顺序:自然顺序排列、数值大小名次排序。(5)编制空间数列表。必要时可绘制空间数列图(统计地图)。4.4.2时间数列1.时间数列的性质和种类时间数列是同一统计指标或变量在同一地区不同时间的数值,按时间先后顺序排列而成的统计数列。具有时间和统计指标数值(或变量值)两个基本要素。时间数列按其排序的统计指标不同,可分为绝对数数列、相对数数列和平均数数列三种。相对数数列和平均数数列都是由绝对数数列派生出来的。绝对数时间数列按性质不同可分为时期数列和时点数列。2.时间数列的编制原则保证各期统计指标数值的可比性,是编制时间数列应遵循的基本原则。具体地应注意以下几点。(1)时期长短应相等。流量的时距应相等,存量的间隔应一致.(2)总体范围应统一。统计指标的系统范围和地区范围应统一。(3)指标内容应统一.统计指标涵盖的业务内容应一致.

(4)计算要素应统一。统一计量单位、计算价格和计算公式.

4.5相关数列和平衡数列4.5.1相关数列1.相关数列的性质相关数列是具有一定联系的不同变量或统计指标在不同时间或不同空间条件下的取值,按照一定顺序排列而成的统计数列.具有一组变量名和变量取值两个基本要素。相关数列是双变量或多变量分组数列的体现。相关数列中的变量可区分为因变量和自变量两种.2.相关数列的种类(1)按取值不同可分为:动态相关数列和空间相关数列。(2)按涉及变量多少分为:两变量相关数列和多变量相关数列。(3)按变量性质不同可分为:属性相关数列和数值相关数列。(4)按因变量是否与其他变量相关分为:因相关数列和自相关数列.(5)按变量是否分组可分为:简单相关数列和分组相关数列。简单相关数列是指因变量自变量都未作分组处理.单变量分组相关数列:自变量分组,因变量不分组.双变量分组相关数列:自变量和因变量都分组.4.5.2平衡数列1.平衡关系与平衡数列平衡数列是利用总体内部有关变量或统计指标之间的数量平衡关系而编制的统计数列,又称平衡表。可用于研究现象之间的相互联系的数量关系,包括结构关系、比例关系等等。平衡关系是平衡数列或平衡表编制和分析的基础,按照项目(指标)之间的对等关系不同,平衡关系有相加平衡关系、相减平衡关系和收支平衡关系3种表现形式。2.平衡数列的分类(1)按内容不同,可分为人口平衡表、劳动力平衡表、自然资源平衡表、资产负债平衡表、主要商品产销平衡表、物资平衡表、财政收支平衡表、国际收支平衡表、信贷资金平衡表、居民货币收支平衡表等。(2)按计量单位不同,可分为价值量平衡表和实物量平衡表。价值量平衡表是采用货币单位计量的平衡表;实物平衡表是采用实物单位编制的平衡表.(3)按统计范围不同,可分综合平衡表和专项平衡表。综合平衡表是对全部产品或商品的价值量进行综合统计的平衡表,如国内生产总值及其使用平衡表,投入产出表、资产负债表等等。专项平衡表是对个别产品或个别商品的价值量或实物量进行统计的平衡表,如粮食产销平衡表、石油平衡表、电力平衡表、钢材平衡表等等.(4)按平衡表项目排列形式不同,可分为收支对照式和棋盘式两种。收支对照式又分为左右排列式和上下排列式两种。表4-17是左右排列式的平衡表,表4-18是棋盘式平衡表。3.平衡数列(表)的编制(1)审核和调整统计资料。保持可比性.(2)确定平衡表的形式。应考虑研究的目的.

(3)确定项目的排列顺序。一般是先收入项目,后支出项目。(4)编制平衡表。一般应进行项目的试算平衡,如不平衡,应查明原因,作出调整,某些平衡表亦可设置平衡差来反映。

4.6统计表的设计4.6.1统计表的概念与构成统计表是以纵横交叉的线条所绘制的表格来表现统计资料的一种形式。统计表能有条理性、系统地排列统计资料,使人一目了然;能合理地、科学地组织统计资料,便于对照比较。1.从形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四个部分构成。(1)总标题。统计表的名称,写在表上端中部.(2)横行标题。横行各组的名称,写在表的左方。(3)纵栏标题。纵栏各指标的名称,写在表的上方。(4)指标数值。列在横行标题和纵栏标题的交叉对应处。

2.从内容上看,统计表由主词和宾词两大部分构成。(1)主词。统计表所要说明的总体各单位或各组别的名称。(2)宾词。统计表所要说明的统计指标名称和指标数值。主词列在横行标题的位置,宾词列在纵栏标题的位置。有时为了编排合理和阅读方便的需要,宾词和主词可以互换位置。4.6.2统计表的分类1、按作用分,广义的统计表有调查表,汇总整理表,分析表。调查表是用于登记、搜集原始资料的表格;汇总整理表用于表现统计汇总整理结果的表格;分析表是用于统计定量分析的表格,通常是整理表的延续,即在整理表的基础上增加若干分析指标的栏目.2、按统计数列的性质不同,可分为品质数列表、变量数列表、时间数列表、空间数列表,相关数列表,平衡数列表。3、按分组情况不同,可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论