第三章数据整理和描述_第1页
第三章数据整理和描述_第2页
第三章数据整理和描述_第3页
第三章数据整理和描述_第4页
第三章数据整理和描述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章

数据整理和描述《统计学》编委制作学习目标1.掌握数据分组的类型和方法,分布数列的概念、种类、编制方法,统计表的结构和编制原则;2.了解数据整理的内容和步骤,统计表和统计图的概念,常见统计图的绘制方法及原则;3.明确数据整理的含义、作用,数据分组的含义、作用,数据分组标志选择的原则。主要内容第一节数据整理第二节数据分组第三节分布数列第四节数据汇总第一节数据整理一、数据整理的含义和作用二、数据整理的内容和步骤一、数据整理的含义和作用含义:就是根据统计研究的目的与要求,对所收集到的大量、零星分散的、不系统的个体资料进行科学加工与综合,使之条理化、系统化、科学化,为统计分析提供反映事物总体综合特征资料的工作过程。作用:是整个统计工作和研究过程的中间环节,起着承前启后的作用,它既是统计调查的继续和深化,又是统计分析的基础和前提。二、数据整理的内容和步骤(一)设计和编制数据整理方案(二)审核数据准确性审核完整性审核及时性审核(三)数据分组(四)数据汇总(五)编制统计表和统计图第二节数据分组一、数据分组的含义二、数据分组的作用三、数据分组标志的选择四、数据分组的类型五、数据分组的方法一、数据分组的含义统计数据分组就是根据统计研究的目的和要求以及现象总体的内在特点,按照某一个或几个标志将总体划分为若干性质不同的组成部分。总体:“分”

个体:“合”最终的结果是“组内性质相同,组间性质相异”

二、数据分组的作用(一)划分社会经济现象的类型(二)揭示社会经济现象的内部结构地区第一产业第二产业第三产业东北地区13.347.339.4东部地区8.450.840.8中部地区18.044.337.7西部地区18.641.140.3地区汇总12.447.640.0各区域GDP总量三次产业结构情况单位:%二、数据分组的作用(三)分析社会经济现象之间的依存关系某种农作物产量与耕作深度的关系按耕作深度分组(厘米)耕种地块数平均亩产量(千克)10-1212-1414-1616-1818-20132329244250270300330380三、数据分组标志的选择数据分组的关键在于正确选择分组标志和确定各组的界限选择原则:要符合统计研究的目的和要求必须选择具有本质性的重要标志作为分组依据要结合社会经济现象所处的具体历史条件或社会经济发展的条件必须遵循穷尽原则和互斥原则四、数据分组的类型按分组标志的多少分为:简单分组对同一总体采用两个或两个以上的标志分别进行简单分组,这几个简单分组就形成了平行分组体系。复合分组复合分组本身就是多个标志结合起来的分组,形成复合分组体系。四、数据分组的类型按分组标志的性质分为:品质标志分组:也称属性分组如企业按经济类型、行业分组;人口按性别、民族分组等数量标志分组:也称变量分组如工人按产品产量、劳动生产率分组;商店按商品流转额、职工人数分组;人口按年龄、身高分组等五、数据分组的方法品质标志分组数量标志分组单项式分组适用于离散型变量且变量值较少、变量值变动范围不大的情况。组距式分组适用于连续型变量或者离散型变量且变量值较多、变量变动范围较大的情况。五、数据分组的方法组距式分组涉及的有关概念(1)组限:表示各组界限的变量值,其中每组的起点数值称为下限,每组的终点数值称为上限。离散型变量:相邻组的组限既可以重叠,也可以不重叠连续型变量:相邻组的组限必须是重叠的“上组限不在内”原则五、数据分组的方法组距式分组涉及的有关概念(2)组数和组距重叠分组:组距=本组上限-本组下限不重叠分组:组距=本组上限-本组下限

或=本组下限-前组下限

斯特杰斯经验公式五、数据分组的方法组距式分组涉及的有关概念(2)组中值组中值=(上限+下限)/2开口组的组中值:

缺下限的开口组的组中值=上限-相邻组的组距/2缺上限的开口组的组中值=下限+相邻组的组距/2假设开口组的组距与邻组组距相等第三节分布数列一、分布数列的概念二、分布数列的种类三、分布数列的编制一、分布数列的概念用来反映统计总体中所有单位在各组间分布状态或分布特征的一个数列,被称为次数(或频数)分布数列,简称分布数列。两个构成要素总体按某一标志所分的组(各组组名)各组所占的单位数(各组次数)二、分布数列的分类分布数列品质数列变量数列单项数列组距数列等距数列异距数列三、分布数列的编制品质数列的编制是根据品质分组标志先进行分组,然后计算出各组的频数和频率。变量数列的编制单项数列的编制组距数列的编制

以等距数列的编制为例,说明组距数列的编制方法三、分布数列的编制798067816670698382617863749275685772707661796985529078838551768190667874608073645082937877748562817968887172678289749077【例】某班60名学生《统计学》课程的考试成绩如下:某班学生《统计学》考试成绩原始数据要求根据以上数据资料编制分布数列。三、分布数列的编制505152576061616263646666676768686969707071727273747474747576767777787878787979798080818181828282838385858588899090909293第一步,将原始资料按从小到大的顺序排列,并计算全距。某班学生《统计学》考试成绩排序数据最大变量值为93分,最小变量值为50分,全距=93-50=43分,从变量值的排列中可以看出成绩的分布集中在60—90分之间。三、分布数列的编制第二步,确定变量数列的形式。根据资料,学生成绩属于连续型变量,所以应编制成组距数列。本例中变量值比较均衡,可编制成等距数列。第三步,确定组数和组距。根据学习成绩的特点,可把组距定为10分,则组数=全距/组距=43/10=4.3,故将学习成绩分为5组。三、分布数列的编制第四步,确定组限。学习成绩属于连续型变量,所以应采用相邻组上下限重叠组限表示。

同时,考虑到学习成绩本身的性质特点,应把及格与不及格这两种类型的学生区别开来,所以组限中必有一变量值为60分,根据最小变量值为50分,最小组可采用开口式,即“60分以下”表示;其余各组采用闭口式,由于最大变量值为93分,所以最大组的上限应确定为100分。三、分布数列的编制第五步,计算各组次数,编制成等距数列。按学生成绩分组(分)人数(人)比重(%)60以下60—7070—8080—9090—100414221556.723.336.725.08.3合计60100.0

某班学生《统计学》考试成绩分布表三、分布数列的编制按学生成绩

分组(分)人数(人)比重(%)向上累计向下累计频数

(人)频率

(%)频数

(人)频率

(%)60以下60—7070—8080—9090—100414221556.723.336.725.08.34184055606.730.066.791.7100.0605642205100.093.370.033.38.3合计60100.0————

某班学生《统计学》考试成绩累计频数和累计频率表第四节数据描述一、统计表和统计图的定义二、统计表的结构三、统计表的种类四、统计表的编制原则五、常见的统计图及其绘制原则一、统计表和统计图的定义统计表是把数据资料按一定的顺序排列在由纵横交叉的线条组成的表格上。统计图是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等简洁直观的图形来表示统计表中枯燥的数据。二、统计表的结构按轻重工业分类

增加值(亿元)比上年增长(%)轻工业1643.8425.0重工业3794.2223.9合计5438.0648.9纵栏

标题数字

资料横行

标题总标题主词栏宾词栏

河南省2007年规模以上工业增加值主要分类情况二、统计表的种类按主词的结构可分为简单表、分组表和复合表。地区进出口出口进口北京天津河北山西内蒙古…3895177526632569823511206467556…166454926804644508616677239977…223062725858612473744529227579…2006年各地区外商投资企业货物进出口总额

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论