数据的整理与显示.ppt_第1页
数据的整理与显示.ppt_第2页
数据的整理与显示.ppt_第3页
数据的整理与显示.ppt_第4页
数据的整理与显示.ppt_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 3 章 数据的整理与显示,第一节 统计整理概述 第二节 统计分组 第三节 次数分布 第四节 统计表,第一节 统计整理概述,一、统计整理的概念和意义 1.概念 统计整理是根据统计研究的目的和任务,对统计调查阶段所搜集到的大量原始资料进行加工汇总,使其系统化、条理化、科学化,以得出反映事物总体综合特征的资料的工作过程。,2.意义: (1)统计整理是统计工作中一个十分重要的中间环节,它既是统计调查阶段的继续,又是统计分析阶段的前提和基础。 (2)统计整理实现了从个别单位的标志值向说明总体数量特征的指标值的过渡,是对社会经济现象从感性认识上升到理性认识的过渡阶段。,(一)统计整理的原则: 要抓住最

2、基本最能说明问题本质特征的统计分组和统计指标,对统计资料进行加工整理。,二、统计整理的原则和步骤(内容),(二)统计整理的步骤(内容) 1.设计和编制统计整理方案 2.对原始资料进行审核 3.按要求进行分组或分类,编制分配数列 4.根据分组分类情况进行汇总(现在主要采用电脑汇总)和计算,得出各项指标值。 5.编制统计表,用统计表体现分组、汇总的结果 6.做好统计资料的汇编和积累,三、统计整理中的常用术语,1、 准确性与精确性 准确性(accuracy)也叫准确度,指观测值与其真值的接近程度。 设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x|越小, 则观测值x的准确性越高;

3、 反之则低。,精确性(precision)也叫精确度,指同一试验指标或性状的重复观测值彼此接近的程度。 若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi xj |越小,则观测值精确性越高;反之则低。准确性、精确性的意义见图2-1。,图2-1 准确性与精确性的关系示意图,2、随机误差与系统误差,随机误差:是由于许多无法控制的内在和外在的偶然因素所造成的差异。 随机误差带有偶然性质,在试验中,即使十分小心的进行试验操作也难以消除。 随机误差不可避免,但可减少。 随机误差影响试验的精确性。,系统误差 :是由于试验对象相差较大,测量的仪器不准 、标准试剂未经校正等所引起差异。 系统误

4、差可以通过改进方法、正确试验设计来避免、消除。系统误差影响试验的准确性。 统计上的试验误差是指随机误差。这种误差愈小,试验的精确性愈高。,第二节 统计分组,一、统计分组的概念 统计分组是根据统计研究的任务和目的,将总体按照一个或几个标志划分为若干个性质不同又有联系的部分。,例1:某班学生(20人)总体按性别标志分组情况,例2:,二、统计分组的意义和作用 统计分组是基本的统计方法之一,通过分组把总体中具有不同性质的单位分开,把性质相同的单位合在一起,保持组内资料的同质性和组间资料的差异性,正确地反映出统计总体的本质特征,以便进一步运用各种统计方法,研究现象的数量表现和数量特征。,统计分组法在统计

5、认识中的作用是多方面的,主要有以下三方面: 1.划分事物的类型:不同类型的事物有不同的特点、性质和规律,只有通过科学的分组才能达到对不同类事物和总体的认识。,2.揭示现象内部结构:一是从静态上来看,各组占总体比重大小的不同,对总体的影响也不同,比重相对大的决定着总体的性质或结构类型;二是从动态上来看,观察各组比重的变化过程能更加深刻的认识现象和事物发展的规律和趋势。,3.分析现象之间的依存关系:不同现象之间的依存关系是一种比较紧密的联系,而统计分组法是分析研究此种关系最基本的一种方法。具体运用时关键是要分清影响因素(自变量)和结果因素(因变量),三、统计分组的种类 统计分组可以按照不同的标准进

6、行分类,一般有以下几种分类: 1.按分组标志的性质划分:统计分组分为品质分组和数量分组。品质分组是按品质标志进行的分组。变量分组是按数量标志的分组。,2.按分组标志的多少划分:统计分组分为简单分组和复合分组。简单分组是对研究的总体仅按一个标志进行的分组;复合分组是对研究的同一总体选择两个或两个以上标志层叠起来进行的分组。,四、分组体系 1.概念:统计分组体系是指在统计整理中,为研究现象总体的情况而运用多个分组标志对总体进行分组,从而形成一系列相互联系、相互补充的分组体系。,2.分类:平行分组体系和复合分组体系。 平行分组体系就是对同一总体进行若干次简单分组。 复合分组体系就是对某一总体进行某种

7、复合分组。,根据统计研究的目的,在对研究对象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组的标志。 分组标志的选择是分组的关键。在统计整理中,选择什么样的标志就会形成什么样的分组体系。且分组标志一经确定,就突出了总体在此标志下的性质差异,而掩盖了总体在其他标志下的差异,五、分组标志的选择,例: 欲了解我校的师资梯队和水平情况,就应该选取职称标志和年龄标志进行分组。 若想了解我校学生的来源情况,就应该选取籍贯标志进行分组。,1.按品质标志分组: (1)涵义:以品质标志为分组标志,并在品质标志的变异范围内划定各组界限。,六、统计分组的方法,2.按数量标志进行的分组(变量分

8、组法): (1)涵义:以数量标志为分组标志,并在数量标志的变异范围内划定各组界限。 (2)数量标志分组的关键是要掌握决定事物质的差异的数量界限。,(3)主要的分法:单项式分组和组距式分组。 单项式分组。单项式分组是对于变量值较少的离散型变量而言的,在此情况下,可将每一个变量值作为一组按顺序排列分组。,例如: 按人口数对某地居民户进行分组,组距式分组。组距式分组是对于连续型变量和变量值较多的离散型变量而言,将整个变量值依次划分为几个区间,一个区间内的所有变量值作为一组。如次数分布表。,第三节 次 数 分 布,一、次数分布及次数的概念 1.次数分布是在统计分组的基础上,将总体的所有单位,按组归并排

9、列,从而形成总体中的各个单位在各组间的分布。又称为分配数列。 2.分布在各组的个体单位数叫次数。次数可以用绝对数表示,即频数;也可以用结构相对数表示,即频率或比率或比重。,二、 数据资料的整理方法-次数分布表,当观测值较多(n30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。,1.连续性资料(计量资料)的整理 连续性资料的整理,需要先确定全距、组数、组距、组中值及组限,然后将全部观测值计数归组。 【例】 为了分析某生产厂的罐头质量,现随机抽取100听罐头样品,分别称取其净重,数据资料见下表。,表 100听罐头样品的净重 g,1.1、求全

10、距 R 全距是数据资料中的最大值与最小值之差,又称为极差(range),用R表示。即 R=Max(xi)-Min(xi) xi为观测值 本例 Max=358.2 Min=331.2 R= 358.2 - 331.2 =27.0,1.2、确定组数 k 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。一般组数的确定,可参考下表。,本例中,n100,初步确定组数为9组。,样本含量与组数,3、确定组距 i 每一组中的最大值与最小值之差称为组距(Class interval),记为 i。分组时一般要求各组的组距相等。 组

11、距(i)全距R组数k 本例 i279=3,各组的最大值与最小值称为组限。最小值称为下限, 最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下: 组中值(组下限组上限)/2组下限1/ 2组距组上限1/2组距,4、确定组限及组中值,组距确定后, 首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。 注意:最末一组的上限应大于资料中的最大值。,分组结束后,将资料中的每一观测值逐一归组,统计每组内所包含的观测值个数,制作次数分布表。

12、,5、制作次数分布表,100听罐头净重的次数分布,表 100盒鲜枣每盒检出不合格枣数,以100盒鲜枣每盒检出不合格枣数为例,说明间断性资料的整理。,3.3 间断性资料(计数资料)的整理,100盒鲜枣每盒检出不合格枣数次数分布表,3.4质量性状资料资料的整理 对于质量性状资料 、 半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。,二、 数据资料的整理方法_次数分布图,统计图绘制的基本要求,1、标题简明扼要,列于图的下方。 2、纵、横两轴应有刻度,注明单位。 3、横轴由左至右、纵轴由下而上,数值由小到大; 图形长宽比例约5:4或6:5。 4、图中需用不同颜色或线

13、条代表不同处理、样品等时,应有图例说明。,数值型数据的图示,分组数据直方图,分组数据的图示(直方图的绘制),某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,分类数据的图示条形图(bar Chart),用宽度相同的条形的高度或长短来表示各类别数据的图形 有单式条形图、复式条形图等形式 绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(column chart),分类数据的图示条形图 (例题分析),分类数据的图示条形图 (例题分析),分类数据的图示对比条形图(side-by-side bar chart ),分类变量在不同时间或不同空间上有多

14、个取值 对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,分类数据的图示对比条形图 (例题分析),直方图与条形图的区别,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,条形图则是分开排列 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,数值型数据的图示,STATISTICA,未分组数据茎叶图和箱线图,未分组数据茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布 由“

15、茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留一位数字 5. 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,未分组数据茎叶图(例题分析),未分组数据茎叶图(扩展的茎叶图),未分组数据箱线图(box plot),用于显示未分组的原始数据的分布 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 其绘制方法是: 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分

16、位数QU) 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 该箱线图也称为Median/Quart./Range箱线图,未分组数据单批数据箱线图(箱线图的构成),中位数,4,6,8,10,12,Median/Quart./Range箱线图,未分组数据单批数据箱线图(例题分析),分布的形状与箱线图,未分组数据多批数据箱线图 (例题分析),【例】 从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析),8门课程考试成绩的箱线图,11名学生8门课程考

17、试成绩的箱线图,Min-Max,25%-75%,Median value,45,55,65,75,85,95,105,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9,学生10,学生11,未分组数据多批数据箱线图 (例题分析),数值型数据的图示,时间序列数据折线图,时间序列数据折线图(line plot), 绘制折线图时应注意以下几点 时间一般绘在横轴,指标数据绘在纵轴 图形的长宽比例要适当,其长宽比例大致为10:7 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据线图 (例题分析),【例】我国1

18、9902006年城乡居民家庭的人均收入数据如表。试绘制线图,时间序列,时间序列数据线图 (例题分析),数值型数据的图示,多变量数据的图示 散点图、气泡图、雷达图,两个变量间的关系二维散点图(2D Scatterplots),展示两个变量之间的关系 用横轴代表变量x,纵轴代表变量y,每组数据(xi ,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图,两变量,两个变量间的关系二维散点图(2D Scatterplots),三个变量间的关系气泡图(bubble chart),显示三个变量之间的关系 图中数据点的大小依赖于第三个变量,也称为蜘蛛图(spider chart) 显示多个变量的图示方法 在显示或对比各变量的数值总和时十分有用 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比 可用于研究多个样本之间的相似程度,多变量数据雷达图(radar chart),多变量数据雷达图 (例题分析),【例】2006年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图,多变量数据雷达图 (例题分析),分类数据的图示饼图(pie Chart),也称圆形图,是用圆形及圆内扇形的面积来表示数值大小的图形 主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论