




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、12主要内容主要内容第一节第一节 统计数据整理的概述统计数据整理的概述第二节第二节 统计分组统计分组第三节第三节 分配数列分配数列第四节第四节 统计表和统计图统计表和统计图3v一、数据审核(一、数据审核(Data Auditing)v是指在进行数据整理之前对原始数据的审查是指在进行数据整理之前对原始数据的审查与核对。与核对。v数据整理是按照数据分析的要求进行的,数数据整理是按照数据分析的要求进行的,数据分析的思路和目的决定着数据整理的分类据分析的思路和目的决定着数据整理的分类或分组。基于人类认识活动的渐进性,往往或分组。基于人类认识活动的渐进性,往往需要采用不同的分组方式对原始数据进行反需要采
2、用不同的分组方式对原始数据进行反复整理,以便得出正确的认识结论。复整理,以便得出正确的认识结论。第一节 统计数据整理的概述4二、数据审核的内容v1、时效性的审核、时效性的审核v检查是否在规定的调查时间内完成数据的搜检查是否在规定的调查时间内完成数据的搜集工作,采集的数据是否为规定调查时点上集工作,采集的数据是否为规定调查时点上或规定的调查时段内的数量特征,以保证统或规定的调查时段内的数量特征,以保证统计数据在时间上的准确性和可比性。计数据在时间上的准确性和可比性。v2、准确性的审核、准确性的审核v检查是否每一调查单位的特征都无偏差、无检查是否每一调查单位的特征都无偏差、无失真、准确无误地记录在
3、登记资料中,抽样失真、准确无误地记录在登记资料中,抽样调查的误差是否有效地控制在规定的范围内调查的误差是否有效地控制在规定的范围内. 5v三、数据审核的方式三、数据审核的方式v1、逻辑审核、逻辑审核v检查原始数据中各项数据是否合理的数据审检查原始数据中各项数据是否合理的数据审核方式。要求检查人员具备较强的逻辑推理核方式。要求检查人员具备较强的逻辑推理能力和丰富的专业知识及数据审核经验。能力和丰富的专业知识及数据审核经验。v2、技术审核、技术审核v对调查数据原始登记表和其他原始材料进行对调查数据原始登记表和其他原始材料进行机械性核对的数据审核方式。由于技术检查机械性核对的数据审核方式。由于技术检
4、查是一种机械性的核对,一般可采用专门的计是一种机械性的核对,一般可采用专门的计算机软件来实现。算机软件来实现。6四、数据的排序v数据排序数据排序是指将一组数据按照大小、高低、是指将一组数据按照大小、高低、优劣等顺序进行依次排列的过程。优劣等顺序进行依次排列的过程。v数据排序为计算取值范围、最大值、最小值数据排序为计算取值范围、最大值、最小值等总体参数提供了便利,有助于人们了解数等总体参数提供了便利,有助于人们了解数据大致的分布状态。数据排序也是有效地进据大致的分布状态。数据排序也是有效地进行数据分类或分组的前期准备工作。行数据分类或分组的前期准备工作。v数据排序可以使用计算机软件来实现,数据排
5、序可以使用计算机软件来实现,vExcel就具有很强的数据排序功能。就具有很强的数据排序功能。7第二节 统计分组v一、统计分组的概念一、统计分组的概念v统计分组就是根据统计研究的需要,将统计统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个不同类型总体按照一定的标志区分为若干个不同类型或性质的部分的一种统计方法。或性质的部分的一种统计方法。v统计分组具有两方面含义:统计分组具有两方面含义:v对对总体总体而言是而言是“分分”,即将总体分为,即将总体分为性质相性质相异异的若干部分。对的若干部分。对总体单位总体单位而言则是而言则是“合合”,即将即将性质相同性质相同的总体单位组合起来。
6、的总体单位组合起来。8v二、统计分组的作用与原则二、统计分组的作用与原则v1 1、统计分组的作用(统计分组的作用(P40-42P40-42)划分现象的类型;划分现象的类型;揭示现象的内部结构;揭示现象的内部结构;分析现象之间的内在关系:分析现象之间的内在关系:v正依存关系:现象之间成同向变动正依存关系:现象之间成同向变动v负依存关系:现象之间成反向变动负依存关系:现象之间成反向变动v2 2、统计分组的原则、统计分组的原则q穷尽原则穷尽原则:组数有限且不宜过多。:组数有限且不宜过多。q互斥原则互斥原则:组间的差异、界限要分明。:组间的差异、界限要分明。9三、分组标志的选择v(一)选择分组标志的原
7、则(一)选择分组标志的原则 P42P42v1.1.目的性原则目的性原则:根据研究问题的目的选择分:根据研究问题的目的选择分组标志。组标志。v2.2.本质性原则本质性原则:选择最能反映现象本质特征:选择最能反映现象本质特征的标志分组。的标志分组。例如反映家庭生活水平的因素:总收入?例如反映家庭生活水平的因素:总收入?平均收入?平均收入?研究学生的学习状况:成绩?性别?年龄?研究学生的学习状况:成绩?性别?年龄?籍贯?籍贯?10(二)统计分组的种类v按按分组标志个数分组标志个数不同分为:不同分为:v 简单分组简单分组与与复合分组复合分组 P44标标 志志人数(人)人数(人)比重比重(%)按按性别性
8、别分组分组男性男性女性女性按按企业性质企业性质分组分组国有企业国有企业独资企业独资企业其他企业其他企业按按规模规模分组分组大型企业大型企业中型企业中型企业小型企业小型企业简单分组简单分组11工业企业按经营组织形式和规模大小同时进行工业企业按经营组织形式和规模大小同时进行分组分组按经营组织形式分组按经营组织形式分组: 按规模分组按规模分组: 大型企业大型企业 内资企业内资企业 中型企业中型企业 小型企业小型企业 大型企业大型企业 港澳台商投资经营企业港澳台商投资经营企业 中型企业中型企业 小型企业小型企业 大型企业大型企业 外商投资经营企业外商投资经营企业 中型企业中型企业 小型企业小型企业12
9、 2按分组标志性质不同可分为: 品质标志分组和数量标志分组标标 志志人数(人)人数(人) 比重(比重(% %)按按性别性别分组分组男性男性女性女性按按产值产值分组分组大型企业大型企业中型企业中型企业小型企业小型企业品质标品质标志分组志分组数量标数量标志分组志分组13v1)品质标志分组品质标志分组:对总体:对总体按照品质标志分按照品质标志分组,如人口按性别分组;企业按所有制、行组,如人口按性别分组;企业按所有制、行业分组等属于简单分组;复杂分组有国家制业分组等属于简单分组;复杂分组有国家制定统一的分类目录。(定统一的分类目录。(P44P44)v2)数量标志分组数量标志分组:对总体:对总体按照数量
10、标志分按照数量标志分组,具体又分为以下两种情况:组,具体又分为以下两种情况:v单项式分组单项式分组:是以一个变量值为一组的分:是以一个变量值为一组的分组方法,只适用于离散型变量的分组。组方法,只适用于离散型变量的分组。14v组距式分组组距式分组:是按变量变动的一定区间来:是按变量变动的一定区间来分组的方法。既适用于连续型变量,也适用分组的方法。既适用于连续型变量,也适用于离散型变量。具体又分为以下两种情况:于离散型变量。具体又分为以下两种情况: v等距分组与异距分组等距分组与异距分组:根据变量值变动的均:根据变量值变动的均匀性来确定。均匀变动的变量适合用等距分匀性来确定。均匀变动的变量适合用等
11、距分组,否则应选择异距分组。组,否则应选择异距分组。v说明说明:离散型变量采用单项式分组还是组距:离散型变量采用单项式分组还是组距式分组主要取决于式分组主要取决于变量值的多少变量值的多少和和变量值变变量值变动范围的大小动范围的大小,变量值少且变动范围小的用,变量值少且变动范围小的用单项式分组,反之用组距式分组。单项式分组,反之用组距式分组。15v一、分配数列的概念和种类一、分配数列的概念和种类v(一)分配数列的概念(一)分配数列的概念(P46P46)v在数据分组的基础上,将总体的所有单位按在数据分组的基础上,将总体的所有单位按组归类整理,并按一定的顺序排列,形成总组归类整理,并按一定的顺序排列
12、,形成总体中各个单位在各组间的分布就称为体中各个单位在各组间的分布就称为分配数分配数列列(次数分布次数分布)。分布在各组的总体单位数)。分布在各组的总体单位数叫叫次数次数或或频数频数,各组次数与总次数之比叫,各组次数与总次数之比叫比比重或频率重或频率。 第三节 分配数列16(二)分配数列的种类分配分配数列数列 单项式数列单项式数列组距式数列组距式数列等距分组等距分组异距分组异距分组品质分配数列品质分配数列(品质数列)(品质数列)数量分配数列数量分配数列(变量数列)(变量数列)17中国2005年人口状况品质分配数列按性别分组按性别分组绝对人数(万人)绝对人数(万人)比重(比重(%)男男67375
13、 51.5女女63381 48.5合合 计计130756100.00(品质分组标志品质分组标志)()18变量数列单项式数列某企业工人平均日产量(离散变量)按平均日产量分按平均日产量分组(件)组(件)() )工工 人人 数数绝绝 对对 数数(f)(f)比重比重(%)(f(%)(fi i/f) f) 1920212223153045352010.3420.6931.0424.1413.79合合 计计145100.0019变量数列等距数列某厂工人生产定额完成情况表(连续变量)工人按完成生产工人按完成生产定额分组定额分组(%)(%)() )工工 人人 数数绝对数绝对数(f)(f)比重比重(%)(f(%
14、)(fi i/f)f)80-9090-100100-110110-120120-130304060302016.722.233.316.711.1合合 计计180100.020二、单项式数列的编制v1、对变量值排序、对变量值排序v通常按照通常按照由小到大由小到大的顺序来排列。的顺序来排列。212、某车间21名工人日加工零件分组表日产生零件数日产生零件数次数或频数(人)次数或频数(人)10821104114311751203124212811301合计合计2122三、组距数列的编制v(一)组距与组数(一)组距与组数v首先对已取得的调查数据进行排序首先对已取得的调查数据进行排序(P48)(P48)
15、。 v1 1、组组、组限组限和和组距组距的概念的概念v在组距数列中用变量变动的一定范围代表在组距数列中用变量变动的一定范围代表一个一个组组。每个组的最小值为该组的下限,。每个组的最小值为该组的下限,最大值为该组的上限,下限与上限合称为最大值为该组的上限,下限与上限合称为组限组限,每个组上限和下限之间的距离称为,每个组上限和下限之间的距离称为组距组距。23 2、组数和组距的关系v组数组数:即整个组距数列中所包含的组的个数:即整个组距数列中所包含的组的个数v组数的多少和组距的大小成反向变动关系:组数的多少和组距的大小成反向变动关系:组距大则组数少,组距小则组数多。因此,组距大则组数少,组距小则组数
16、多。因此,组距的大小会直接影响组数的多少。组距的大小会直接影响组数的多少。v确定组距的原则确定组距的原则:体现组内资料的同质性和:体现组内资料的同质性和组间资料的差异性。一般取组间资料的差异性。一般取510的倍数为的倍数为宜。学生按考试成绩分组:宜。学生按考试成绩分组:24某班学生某班学生统计学统计学考试成绩统计表考试成绩统计表考试成绩考试成绩人数(次数)人数(次数)比重(比重(%) 506025.0 6070717.5 70801127.5 80901230.0 90100820.0合合 计计40100.025(二)等距分组和异距分组v按组距是否相等可将组距数列分为:按组距是否相等可将组距数
17、列分为:v1 1、等距数列等距数列:是指各组组距都相等的组距:是指各组组距都相等的组距数列。数列。v适用范围适用范围:适用于变量值变动比较均匀的现:适用于变量值变动比较均匀的现象,即各组间性质差异是由变量值均匀增加象,即各组间性质差异是由变量值均匀增加或减少而引起的。(或减少而引起的。(P50P50)例如,成绩、身)例如,成绩、身高、体重、计划完成程度等。高、体重、计划完成程度等。26v等距数列可绘制等距数列可绘制次数分布直方图次数分布直方图和和次数次数分布折线图分布折线图,直方图的面积与折线图所,直方图的面积与折线图所围成的面积相等。折线两端应在直方图围成的面积相等。折线两端应在直方图的左右
18、两边各延伸一个假想组,并连接的左右两边各延伸一个假想组,并连接至假想组的中点。至假想组的中点。v根据分组表绘制次数分布直方图根据分组表绘制次数分布直方图v次数分布折线图次数分布折线图27某班学生统计学考试成绩表考分考分人数(人)人数(人)比重(比重(% %)506025.06070717.570801127.580901230.090100820.0合计合计40100.0282930v2、异距数列异距数列:指各组组距不完全相等的组:指各组组距不完全相等的组距数列。距数列。v1)适用范围适用范围:当总体的分布存在明显的偏:当总体的分布存在明显的偏斜状况时,变量不适合等距分组;总体单位斜状况时,变
19、量不适合等距分组;总体单位的变量变动范围较大,若变量按一定比例关的变量变动范围较大,若变量按一定比例关系发展变化的话可按等比间隔分组编制异距系发展变化的话可按等比间隔分组编制异距数列数列( (P52) )。例如,炼钢高炉按容积(。例如,炼钢高炉按容积(m3)的异距分组为:的异距分组为: 31v 钢炉容积(钢炉容积(m3) 组组 距距v 100以下以下 v 100200 100v 200400 200v 400800 400v 8001600 800v 1600以上以上 v 组距间隔等比为组距间隔等比为2322)次数密度与频率密度v在异距数列中,由于各组组距不完全相同,因在异距数列中,由于各组组
20、距不完全相同,因此分布在各组中的次数就不具有可比性。要使此分布在各组中的次数就不具有可比性。要使各组的次数可比,必须要消除组距不同的影响各组的次数可比,必须要消除组距不同的影响将不等组距的次数换算为标准组距次数。将不等组距的次数换算为标准组距次数。v标准组距标准组距的确定:选择数列中的确定:选择数列中最小的组距最小的组距。v次数密度次数密度:单位组距内分布的次数。公式:单位组距内分布的次数。公式:v次数密度次数密度=各组次数各组次数各组组距各组组距v频率密度频率密度:单位组距内分布的频率。公式:单位组距内分布的频率。公式:33v频率密度频率密度=各组频率各组频率各组组距各组组距v通过标准组距次
21、数或次数密度将异距数列中通过标准组距次数或次数密度将异距数列中不可比的各组次数换算成可比的各组次数,不可比的各组次数换算成可比的各组次数,并可根据标准组距次数或次数密度来绘制次并可根据标准组距次数或次数密度来绘制次数分布直方图和次数分布折线图,用以反映数分布直方图和次数分布折线图,用以反映总体的数量分布特征。总体的数量分布特征。v现以某厂工人年龄分布情况为例,将上述两现以某厂工人年龄分布情况为例,将上述两种方法的换算结果列成表格,并绘制种方法的换算结果列成表格,并绘制次数分次数分布直方图布直方图和和次数分布折线图次数分布折线图,并与等距数列,并与等距数列进行比较。进行比较。34某厂工人年龄分布
22、情况表工人按年工人按年龄分组龄分组组距组距人数人数(人)(人)标准组距标准组距人数人数次数密度次数密度1520517173.42025528285.62530540408303557070143545106532.56.54550510102合合 计计23035363738(三)组限与组中值1、组限组限:组距两端的数值称为组限。:组距两端的数值称为组限。v组限的确定也是统计分组中的重要问题。组限的确定也是统计分组中的重要问题。v确定组限的原则确定组限的原则: 体现组内的同质性和组间的差异性体现组内的同质性和组间的差异性 “上组限不在内上组限不在内”原则原则v只要遵循只要遵循“上组限不在内上组限
23、不在内”的原则,无论是的原则,无论是连续变量还是离散变量均可以采用相邻两组连续变量还是离散变量均可以采用相邻两组的上限和下限共用同一个数值做组限的方法。的上限和下限共用同一个数值做组限的方法。 39v2 2、组中值组中值:是各组变量范围的中间数值,可:是各组变量范围的中间数值,可以根据各组的上限与下限的简单平均数来确以根据各组的上限与下限的简单平均数来确定。定。v组中值组中值= =(上限(上限+ +下限)下限) 2 2v为什么要计算组中值为什么要计算组中值v原因原因:组距数列是按变量变动的一段区间来:组距数列是按变量变动的一段区间来分组的,它掩盖了分布在各组内的各单位的分组的,它掩盖了分布在各
24、组内的各单位的实际变量值。为了反映每一组变量值的一般实际变量值。为了反映每一组变量值的一般水平,统计上就用组中值来代表每一组变量水平,统计上就用组中值来代表每一组变量值的一般水平。例:值的一般水平。例:40v学生按体重(公斤)进行分组学生按体重(公斤)进行分组:v40以下以下 39.9以下以下 39.99以下以下v4045 4044.9 4044.99v4550 4549.9 4549.99v5055 5054.9 5054.99v5560 5559.9 5559.99v6065 6064.9 6064.99v65以上以上 65以上以上 65以上以上41某班学生统计学成绩分布情况表某班学生统计
25、学成绩分布情况表考试成绩考试成绩人数(人)人数(人)组中值组中值50602556070765708011758090128590100895合合 计计4042v3 3、开口组组中值的确定:、开口组组中值的确定:v开口组开口组:是组限不齐全的组,可分为有上:是组限不齐全的组,可分为有上限缺下限和有下限缺上限两种。限缺下限和有下限缺上限两种。v缺上限缺上限的开口组组中值的开口组组中值=43完成净产值(亿元)完成净产值(亿元)企业数(个)企业数(个)组中值组中值10以下以下20510207015203095253040210354070605570以上以上4585合合 计计500 国有工业企业净产值
26、完成情况分组表44四、累计次数分布v(一)(一)次数分布次数分布:是指总体中各单位数在各:是指总体中各单位数在各组间的分布。次数分布是统计研究的一个基组间的分布。次数分布是统计研究的一个基本课题,通过次数的分布规律,可以研究大本课题,通过次数的分布规律,可以研究大量现象的统计规律性。量现象的统计规律性。P54v(二)(二)累计次数分布累计次数分布:是指将变量数列各组:是指将变量数列各组的次数和频率逐组累计相加而成的。有两种的次数和频率逐组累计相加而成的。有两种累计方法:累计方法:451.向上累计(较小制累计,上限以下累计)v是将各组次数或比率,由变量值低的组向是将各组次数或比率,由变量值低的组
27、向变量值高的组逐组累计的方法。变量值高的组逐组累计的方法。v含义含义:表明各组:表明各组上限以下上限以下总共所包含的总总共所包含的总体次数或比率有多少。体次数或比率有多少。46v是将各组次数或比率,由变量值高的组向变是将各组次数或比率,由变量值高的组向变量值低的组逐组累计的方法。量值低的组逐组累计的方法。v含义含义:表明各组:表明各组下限以上下限以上总共所包含的总体总共所包含的总体次数或比率有多少。次数或比率有多少。2.向下累计(较大制累计,下限以上累计)47某班统计学考试成绩次数分配表次次 数数向向上上累计累计向向下下累计累计人数人数(人)(人)比率比率(%)人数人数(人)(人)比率比率(%
28、)人数人数(人)(人)比率比率(%)506025.025.040100.06070717.5922.53895.070801127.52050.03177.580901230.03280.02050.090100820.040100.0820.0合合 计计40100.0考考 分分48v(三)累计次数的(三)累计次数的特点特点:(:(P55)v同一数值的向上累计和向下累计次数之和等同一数值的向上累计和向下累计次数之和等于总体总次数,而累计比率之和等于于总体总次数,而累计比率之和等于1或或100%。v单项数列也可以计算累计次数和累计比率。单项数列也可以计算累计次数和累计比率。v累计次数分布是确定各
29、种位置平均数的依据;累计次数分布是确定各种位置平均数的依据;累计次数分布图还可以用于研究社会财富分累计次数分布图还可以用于研究社会财富分配的公平程度等问题。配的公平程度等问题。v累计次数分布折线图见下表:累计次数分布折线图见下表:4950 五、次数分布的类型(一)钟型分布(一)钟型分布特点:特点:“两头小中间大两头小中间大”,即两头次数分,即两头次数分布少,中间次数分布多。布少,中间次数分布多。51b. 052vC.C.左偏分布左偏分布:当变量值中存在极小值时,次:当变量值中存在极小值时,次数分布曲线就会向左延伸,即左偏。数分布曲线就会向左延伸,即左偏。v许多社会经济现象都接近正态分布,如市场
30、许多社会经济现象都接近正态分布,如市场价格、学生成绩、职工的工资等。价格、学生成绩、职工的工资等。53(二)(二)U U型分布型分布v特征:特征:“两头大,中间小两头大,中间小”,即中间变量,即中间变量值分布的次数少,两端变量值分布的次数值分布的次数少,两端变量值分布的次数多。其分布图形像英文字母多。其分布图形像英文字母“”字。字。054(三)(三)J J型分布型分布v特征:特征:“一边小,一边大一边小,一边大”,即大部分变量,即大部分变量值集中在某一端分布,分布曲线图像英文字值集中在某一端分布,分布曲线图像英文字母母“”字。具体分布有两种类型:字。具体分布有两种类型:0055第四节统计表和统
31、计图一、统计表的定义与作用一、统计表的定义与作用(一)统计表的定义:将通过汇总整理的系(一)统计表的定义:将通过汇总整理的系统化的统计资料,按一定顺序填列在一定统化的统计资料,按一定顺序填列在一定的表格内,这种表格称为统计表。的表格内,这种表格称为统计表。(二)作用:(二)作用:1.1.使大量统计资料系统化、条理化;使大量统计资料系统化、条理化;2.2.便于比较各项目之间的关系和计算;便于比较各项目之间的关系和计算;3.3.简明、紧凑、一目了然。简明、紧凑、一目了然。56v1.总标题总标题:是统计表的名称,简要说明全表:是统计表的名称,简要说明全表的内容,位于统计表的上端正中央。的内容,位于统计表的上端正中央。v2.分标题分标题(横标题、纵标题):是指总体名(横标题、纵标题):是指总体名称或分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陈庆军教育专家
- 安全使用天然气方法
- 大连枫叶职业技术学院《中学英语微格教学技能训练》2023-2024学年第一学期期末试卷
- 浙江音乐学院《动物性食品卫生学》2023-2024学年第二学期期末试卷
- 山东省乐陵市第一中学2025届高三高考预测化学试题含解析
- 江西警察学院《品牌文创》2023-2024学年第二学期期末试卷
- 陕西省咸阳市武功县2025年六年级下学期小升初招生数学试卷含解析
- 西藏林芝市广东实验学校2025年三下数学期末学业质量监测模拟试题含解析
- 吉林医药学院《研学旅行理论与实践》2023-2024学年第二学期期末试卷
- 郑州工业应用技术学院《理解当代中国高级英语读写》2023-2024学年第二学期期末试卷
- 医学伦理学的基本原则课件
- 部编版五年级语文下册第六单元测试卷及答案
- 安全用电-触电与急救课件
- 幼儿园绘本故事:《十二生肖》 课件
- 女性外阴肿瘤
- 公司组织架构图(可编辑模版)
- 外研版(2019) 必修第二册 Unit 5 On the road Coast to Coast P57PPT( 共8张)
- 罗马帝国衰亡史pdf罗马帝国衰亡史史
- 北师大版生物七年级下册12.2感受器与感觉器官(第1课时)导学案(无答案)
- 最新露天矿山安全培训课件(经典)
- 环境学概论 考验知识点归纳刘陪同
评论
0/150
提交评论