版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章数据整理
按照研究的目的,将搜集到的原始数据进行整理加工,从中提取有用的信息,并搜索其中的数量规律性。3.1数据分组3.2次数分配3.3统计指标3.4统计表和统计图第三章数据整理按照研究的目的,将搜集到的原13.1数据分组一、统计数据分组的目的及原则分组是将总体所有单位按一定的标准区分为若干部分分组前分组后25%33%42%分组的目的:概括数据,清晰条理3.1数据分组一、统计数据分组的目的及原则分组是将总体所2分组时注意:
将具有共性的个体归入同一组将总体内部个体间的差异通过组别区分开来分组的原则:保证总体中的任何一个个体或原始数据都能归于某一个组且仅能归于某一个组,即保证不重、不漏。统计分组的关键是分组标志的选择分组时注意:分组的原则:保证总体中的任何一31、按分组标志的多少不同分:简单分组:分组仅按一个标志来进行复合分组:分组按两个或两个以上的标志进行,并且层叠在一起。二、统计分组的种类1、按分组标志的多少不同分:二、统计分组的种类4例如:对全国的工业企业进行简单分组:按经济类型分:全民所有制企业、集体所有制企业、城乡个体企业按轻重工业分:重工业、轻工业按企业规模大小分:大型企业、中型企业、小型企业复合分组:全民所有制集体所有制重工业轻工业重工业轻工业大型企业中型企业小型企业例如:对全国的工业企业进行全民所有制集体所有制重工业轻工业重52、按分组标志的性质不同分:品质分组:按品质标志进行的分组如人口总体按性别分组、高校教师按职称分组。变量分组:按数量标志进行的分组如企业按职工人数分------1000人以下、1000-5000人、5000人以上2、按分组标志的性质不同分:6三、分组标志与分组体系的选择1、根据统计研究的目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。2、在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的分组体系。三、分组标志与分组体系的选择1、根据统计研究的目的,在对现象7四、统计分组方法1、品质分组的方法分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。复杂的情况下,各组界限不易划分,从这一组到另一组存在各种过度状态,边缘不清。2、变量分组的方法:变量分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上变化来区分各组的不同类型和性质。四、统计分组方法1、品质分组的方法8单项式分组:是依次将每一个变量值作为一组。(适用于离散型变量且变量取值不多的情况)例如,居民家庭人口数,其取值不可能很多,且每一个取值都可视为一种类型。按家庭人口数分组
1人
2人
3人
4人
5人
6人单项式分组:是依次将每一个变量值作为一组。按家庭人口数分组9组距式分组:把整个变量值依次划分为几个区间,各个变量值按其大小确定所归并的区间,区间的距离称组距。包括等距分组和不等距分组适用于连续型变量或虽为离散型变量但取值很多,不便一一列举的情况。1)连续型变量的组距式分组如对商店按销售额进行分组:按销售额分组(万元)50以下;50—200;200—400;400—600600—800;800以上组距式分组:把整个变量值依次划分为几个区间,各个变量102)离散型变量的组距式分组如对某企业的生产小组按人数分组:生产小组按人数分组(人)组数5—1011—1617—222)离散型变量的组距式分组生产小组按人数分组(人)组数5—111组距式分组中的有关问题:(1)组距和组中值组距两端的数值称为组限,其中:每组的起点数值称下限、每组的终点数值称上限。离散型变量分组:各组的上下限都可以用确定的数值(整数)表示。
连续型变量分组:相邻组的上限和下限无法用两个确定的数值分别表示,因此上一组的上限同时也是下一组的下限。组距式分组中的有关问题:12例如:企业按工人工资对工人进行分组如下:
500—600元
600---700元
700---800元如果某工人工资为700元,应将他归并到哪一组?“上组限不计入”原则:遇到某单位的标志值刚好等于相邻两组上下限时,一般把此值归并到作为下限的那一组。注意EXCEL!例如:企业按工人工资对工人进行分组如下:注意EXCEL!13(2)全距:变量值中最大值与最小值的差数组数=全距/组距组距=上限—下限(3)组中值=(上限+下限)/2缺下限的开口组:组距数列的首组出现“***以下”缺上限的开口组:组距数列的末组出现“***以上”(2)全距:变量值中最大值与最小值的差数缺下限的开口组:组距14合理确定组中值例如:第一组:50人以下第二组:50—200人按公式应定下限为0合理确定组中值例如:应定下限为0153.2次数分配数据观察值在各组中的个数称为次数,各组间的次数称为次数分配。次数分配描述了总体的结构和特征。一、品质次数分配的编制按品质标志进行分组,由总体各组的名称及各组的单位数(次数)组成。
某高校学生的性别分布
按性别分组人数比例(%)女生544841.2男生780458.8合计13262100.0Excel演示3.2次数分配数据观察值在各组中的个数称为次数,各组间的次16二、变量次数分配的编制1、将原始资料按顺序排序2、确定组数与组距(1)当n较大时,k取10~20;当n<50时,k取5~6
;(2)如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:组数=1+3.322log
n式中,n
表示总次数,log
表示以10为底的对数。组距=(观察值中的最大数值-观察值中的最小数值)/组数二、变量次数分配的编制1、将原始资料按顺序排序(2)如果数173、确定组限每组区间的界限称为组限。离散型变量,分组时相邻组的组限必须间断。
如某省企业按职工人数分组,可分为:0-99,100-199,200-299,300-399,…,900-1000等;连续型变量,相邻组的上、下限采用重叠的方法分组界定。
如按职工工资分组,0-500,500-1000,1000-1500,1500-2000,…,等;4、将各个数据按其数值大小归入相应的组内。3、确定组限18某企业非熟练工人的周工资额(元)单位:元人员编号周收入人员编号周收入人员编号周收入11061199218528412942210631111311923101491148724105510915118259669116972610571111710327107810718103281289121199529111101052010630101返回某企业非熟练工人的周工资额(元)单位:元人员编号周收入人员编19分组计算组数=1+3.322logn(n=30)=5.9分6组组距:每组区间的宽度=(观察值中的最大数值-观察值中的最小数值)/组数
=(128-84)/6=7.384-91,91-98,98-105,105-112,112-119,119-126;未包含最大值83-91,91-99,99-107,107-115,115-123,123-131;分组计算组数=1+3.322logn(n=30)20按5组,10元作为组距,计算次数。求次数分配表和直方图结合实际数据,组距为10比较好计算且方便,分组的组数相应从6减少为5。最小值为83,下限从80开始,按5组,10元作为组距,计算次数。求次数分配表和直方图21次数分配表工资收入次数分配表工资收入分组次数80-90390-1007100-11013110-1205120-1302合计30次数分配表工资收入次数分配表工资收入分组次数80-90322累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限的累计百分比%80-9090-100100-110110-120120-1309010011012013037135231023283010337793100累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限23作图作图24如果分两组工资收入次数分配表工资收入分组次数80-10513105-13017合计30反映不出观察值分布特征Excel作直方图如果分两组工资收入次数分配表工资收入分组次数80-10525分组太细会出现什么问题?反映不出观察值的分布特征分组太细会出现什么问题?反映不出观察值的分布特征26前面分组都是等距分组也有不等距分组在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。每组单位组距次数=某组次数/该组组距前面分组都是等距分组也有不等距分组27次数曲线用直线线段连接直方图各组条形顶端中值,形成一条平滑的曲线,即次数曲线。常见的四种次数曲线:正态分布曲线,偏态曲线,J形曲线和U形曲线。次数曲线用直线线段连接直方图各组条形顶端中值,形成一条平滑的28正态分布曲线偏态曲线钟型分布在客观实际中,许多社会现象的总体分布都趋向于正态分布,如农作物单位面积产量的分布、零件公差的分布等。正态分布曲线偏态曲线钟型分布在客观实际中,许多社会现象的总体29U
形曲线J形曲线如人口按年龄死亡率的分布,在人口总体中,幼儿和老年人死亡率高,而中青年死亡率低。自然界某一物种在理想条件下种群数量增长的形式,如果以时间做横坐标,种群数量做纵坐标画出来的曲线表示,曲线大致成J型曲线。
U形曲线J形曲线如人口按年龄死亡率的分布,在人口总体中,幼30洛伦茨(Lorens)曲线洛伦茨曲线是美国经济学家洛伦茨在二十世纪初提出的,应用累积次数分配曲线描述一个国家或一个地区收入分配平均程度的一种图示方法.收入分配不平均的程度可以通过基尼系数来测算。基尼系数=A/(A+B)洛伦茨(Lorens)曲线洛伦茨曲线是美国经济学家洛伦茨在二31G的值在0~1之间。联合国有关组织规定:
G小于0.2可认为收入绝对平等;G在0.2~0.3之间表示比较平等;G在0.3~0.4之间表示相对合理;G在0.4~0.5之间表示收入差距较大;G大于0.6表示收入差距悬殊。基尼系数0.4为国际警戒线,超过0.4则应采取措施缩小收入差距G的值在0~1之间。323.3统计指标统计指标是说明社会经济现象总体数量特征的名称和数值,是统计活动对客观存在的种种社会经济现象,按其具体名称,在一定空间、时间条件下,进行科学计量的数字结果。两个特征:可计量性(具体性)和总体性(综合性)形成指标的现象特征必须是可以用数量来表现的统计指标是由个体数量特征汇总或整理加工后得到的数值3.3统计指标统计指标是说明社会经济现象总体数量特征的33一、统计指标的种类1.总量指标:反映总体现象的规模水平,以绝对数形式表现,故也称为绝对指标。如总人口、国民生产总值等;总量指标按其所说明的总体内容的不同,分为总体单位总量和总体标志总量总体单位总量反映总体单位的总量指标,如企业数目、职工人数等;总体标志总量反映总体各单位某一数量标志值总和的总量指标,如商品销售额、总工资总额等;总量指标按其所反映的不同时间状况,分为时点总量和时期总量。一、统计指标的种类1.总量指标:反映总体现象的规模水平,以绝342.平均指标:将总体标志总量指标除以总体单位总量,得到平均指标;平均指标=总体标志总量/总体单位总量3.相对指标:两个有联系的指标对比所得到的指标都可以叫做相对指标。(1)结构相对指标将总体的部分标志总量与总体的标志总量相比较,或将总体的部分单位总量与总体全部单位数相比较。2.平均指标:将总体标志总量指标除以总体单位总量,得到平均指35
(2)比例相对指标将总体内部的部分与部分对比所得到的指标(3)动态相对指标将同一内容的指标在不同时间上的数值进行对比。
说明现象在时间上的变化。
(4)强度相对指标将同一时期内容不同、但有一定联系的两个总量指标对比。强度相对指标常被用来说明现象的密度、普遍程度。(2)比例相对指标36二、统计指标体系由相互联系的若干统计指标组成的一个指标系统称为指标体系。按指标体系所反映的内容分为基本统计指标体系和专题统计指标体系;基本统计指标体系反映社会经济发展的基本情况,如人口统计指标体系、科技统计指标体系。专题统计指标体系是就某一专门问题而设立的。如企业经济效益评价指标体系。按统计指标体系所实施的范围分为国家统计指标体系、地方统计指标体系、部门统计指标体系和基层统计指标体系;二、统计指标体系由相互联系的若干统计指标组成的一个指标系统称37三、统计指标的应用注意:1.统计指标的内涵和可比性2.多种指标结合应用三、统计指标的应用注意:383.4统计表和统计图一个完整的统计表要求有:表号、表名、分组标志或说明、指标名称及数值;p55统计图有条形图、线形图、圆形图、立体图、枝叶图等;3.4统计表和统计图一个完整的统计表要求有:表号、表名、39树茎树叶
次数84853911947567106975366615571131101981512182
某研究所研究人员月工资收入的茎叶图树茎树叶次数8485391194740第三章数据整理
按照研究的目的,将搜集到的原始数据进行整理加工,从中提取有用的信息,并搜索其中的数量规律性。3.1数据分组3.2次数分配3.3统计指标3.4统计表和统计图第三章数据整理按照研究的目的,将搜集到的原413.1数据分组一、统计数据分组的目的及原则分组是将总体所有单位按一定的标准区分为若干部分分组前分组后25%33%42%分组的目的:概括数据,清晰条理3.1数据分组一、统计数据分组的目的及原则分组是将总体所42分组时注意:
将具有共性的个体归入同一组将总体内部个体间的差异通过组别区分开来分组的原则:保证总体中的任何一个个体或原始数据都能归于某一个组且仅能归于某一个组,即保证不重、不漏。统计分组的关键是分组标志的选择分组时注意:分组的原则:保证总体中的任何一431、按分组标志的多少不同分:简单分组:分组仅按一个标志来进行复合分组:分组按两个或两个以上的标志进行,并且层叠在一起。二、统计分组的种类1、按分组标志的多少不同分:二、统计分组的种类44例如:对全国的工业企业进行简单分组:按经济类型分:全民所有制企业、集体所有制企业、城乡个体企业按轻重工业分:重工业、轻工业按企业规模大小分:大型企业、中型企业、小型企业复合分组:全民所有制集体所有制重工业轻工业重工业轻工业大型企业中型企业小型企业例如:对全国的工业企业进行全民所有制集体所有制重工业轻工业重452、按分组标志的性质不同分:品质分组:按品质标志进行的分组如人口总体按性别分组、高校教师按职称分组。变量分组:按数量标志进行的分组如企业按职工人数分------1000人以下、1000-5000人、5000人以上2、按分组标志的性质不同分:46三、分组标志与分组体系的选择1、根据统计研究的目的,在对现象进行分析的基础上,抓住具有本质性的区别及反映现象内在联系的标志来作为分组标志。2、在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,形成一系列相互联系、相互补充的分组体系。三、分组标志与分组体系的选择1、根据统计研究的目的,在对现象47四、统计分组方法1、品质分组的方法分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。复杂的情况下,各组界限不易划分,从这一组到另一组存在各种过度状态,边缘不清。2、变量分组的方法:变量分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上变化来区分各组的不同类型和性质。四、统计分组方法1、品质分组的方法48单项式分组:是依次将每一个变量值作为一组。(适用于离散型变量且变量取值不多的情况)例如,居民家庭人口数,其取值不可能很多,且每一个取值都可视为一种类型。按家庭人口数分组
1人
2人
3人
4人
5人
6人单项式分组:是依次将每一个变量值作为一组。按家庭人口数分组49组距式分组:把整个变量值依次划分为几个区间,各个变量值按其大小确定所归并的区间,区间的距离称组距。包括等距分组和不等距分组适用于连续型变量或虽为离散型变量但取值很多,不便一一列举的情况。1)连续型变量的组距式分组如对商店按销售额进行分组:按销售额分组(万元)50以下;50—200;200—400;400—600600—800;800以上组距式分组:把整个变量值依次划分为几个区间,各个变量502)离散型变量的组距式分组如对某企业的生产小组按人数分组:生产小组按人数分组(人)组数5—1011—1617—222)离散型变量的组距式分组生产小组按人数分组(人)组数5—151组距式分组中的有关问题:(1)组距和组中值组距两端的数值称为组限,其中:每组的起点数值称下限、每组的终点数值称上限。离散型变量分组:各组的上下限都可以用确定的数值(整数)表示。
连续型变量分组:相邻组的上限和下限无法用两个确定的数值分别表示,因此上一组的上限同时也是下一组的下限。组距式分组中的有关问题:52例如:企业按工人工资对工人进行分组如下:
500—600元
600---700元
700---800元如果某工人工资为700元,应将他归并到哪一组?“上组限不计入”原则:遇到某单位的标志值刚好等于相邻两组上下限时,一般把此值归并到作为下限的那一组。注意EXCEL!例如:企业按工人工资对工人进行分组如下:注意EXCEL!53(2)全距:变量值中最大值与最小值的差数组数=全距/组距组距=上限—下限(3)组中值=(上限+下限)/2缺下限的开口组:组距数列的首组出现“***以下”缺上限的开口组:组距数列的末组出现“***以上”(2)全距:变量值中最大值与最小值的差数缺下限的开口组:组距54合理确定组中值例如:第一组:50人以下第二组:50—200人按公式应定下限为0合理确定组中值例如:应定下限为0553.2次数分配数据观察值在各组中的个数称为次数,各组间的次数称为次数分配。次数分配描述了总体的结构和特征。一、品质次数分配的编制按品质标志进行分组,由总体各组的名称及各组的单位数(次数)组成。
某高校学生的性别分布
按性别分组人数比例(%)女生544841.2男生780458.8合计13262100.0Excel演示3.2次数分配数据观察值在各组中的个数称为次数,各组间的次56二、变量次数分配的编制1、将原始资料按顺序排序2、确定组数与组距(1)当n较大时,k取10~20;当n<50时,k取5~6
;(2)如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:组数=1+3.322log
n式中,n
表示总次数,log
表示以10为底的对数。组距=(观察值中的最大数值-观察值中的最小数值)/组数二、变量次数分配的编制1、将原始资料按顺序排序(2)如果数573、确定组限每组区间的界限称为组限。离散型变量,分组时相邻组的组限必须间断。
如某省企业按职工人数分组,可分为:0-99,100-199,200-299,300-399,…,900-1000等;连续型变量,相邻组的上、下限采用重叠的方法分组界定。
如按职工工资分组,0-500,500-1000,1000-1500,1500-2000,…,等;4、将各个数据按其数值大小归入相应的组内。3、确定组限58某企业非熟练工人的周工资额(元)单位:元人员编号周收入人员编号周收入人员编号周收入11061199218528412942210631111311923101491148724105510915118259669116972610571111710327107810718103281289121199529111101052010630101返回某企业非熟练工人的周工资额(元)单位:元人员编号周收入人员编59分组计算组数=1+3.322logn(n=30)=5.9分6组组距:每组区间的宽度=(观察值中的最大数值-观察值中的最小数值)/组数
=(128-84)/6=7.384-91,91-98,98-105,105-112,112-119,119-126;未包含最大值83-91,91-99,99-107,107-115,115-123,123-131;分组计算组数=1+3.322logn(n=30)60按5组,10元作为组距,计算次数。求次数分配表和直方图结合实际数据,组距为10比较好计算且方便,分组的组数相应从6减少为5。最小值为83,下限从80开始,按5组,10元作为组距,计算次数。求次数分配表和直方图61次数分配表工资收入次数分配表工资收入分组次数80-90390-1007100-11013110-1205120-1302合计30次数分配表工资收入次数分配表工资收入分组次数80-90362累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限的累计百分比%80-9090-100100-110110-120120-1309010011012013037135231023283010337793100累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限63作图作图64如果分两组工资收入次数分配表工资收入分组次数80-10513105-13017合计30反映不出观察值分布特征Excel作直方图如果分两组工资收入次数分配表工资收入分组次数80-10565分组太细会出现什么问题?反映不出观察值的分布特征分组太细会出现什么问题?反映不出观察值的分布特征66前面分组都是等距分组也有不等距分组在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。每组单位组距次数=某组次数/该组组距前面分组都是等距分组也有不等距分组67次数曲线用直线线段连接直方图各组条形顶端中值,形成一条平滑的曲线,即次数曲线。常见的四种次数曲线:正态分布曲线,偏态曲线,J形曲线和U形曲线。次数曲线用直线线段连接直方图各组条形顶端中值,形成一条平滑的68正态分布曲线偏态曲线钟型分布在客观实际中,许多社会现象的总体分布都趋向于正态分布,如农作物单位面积产量的分布、零件公差的分布等。正态分布曲线偏态曲线钟型分布在客观实际中,许多社会现象的总体69U
形曲线J形曲线如人口按年龄死亡率的分布,在人口总体中,幼儿和老年人死亡率高,而中青年死亡率低。自然界某一物种在理想条件下种群数量增长的形式,如果以时间做横坐标,种群数量做纵坐标画出来的曲线表示,曲线大致成J型曲线。
U形曲线J形曲线如人口按年龄死亡率的分布,在人口总体中,幼70洛伦茨(Lorens)曲线洛伦茨曲线是美国经济学家洛伦茨在二十世纪初提出的,应用累积次数分配曲线描述一个国家或一个地区收入分配平均程度的一种图示方法.收入分配不平均的程度可以通过基尼系数来测算。基尼系数=A/(A+B)洛伦茨(Lorens)曲线洛伦茨曲线是美国经济学家洛伦茨在二71G的值在0~1之间。联合国有关组织规定:
G小于0.2可认为收入绝对平等;G在0.2~0.3之间表示比较平等;G在0.3~0.4之间表示相对合理;G在0.4~0.5之间表示收入差距较大;G大于0.6表示收入差距悬殊。基尼系数0.4为国际警戒线,超过0.4则应采取措施缩小收入差距G的值在0~1之间。723.3统计指标统计指标是说明社会经济现象总体数量特征的名称和数值,是统计活动对客观存在的种种社会经济现象,按其具体名称,在一定空间、时间条件下,进行科学计量的数字结果。两个特征:可计量性(具体性)和总体性(综合性)形
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石棉在钢结构中的应用考核试卷
- 渔业品牌建设与形象塑造考核试卷
- 游轮管家职责
- DB11T 202-2013 农业企业标准体系种植业
- 液压系统课件教学课件
- 服装厂新员工培训方案
- 企业HR招聘面试技巧培训课件
- 美白护肤品相关行业投资方案
- 用外购和进口钢材、铁合金再加工生产钢材、铁合金相关行业投资方案
- 软件开发团队的测验与练习实施方案
- 高标准基本农田建设监理工作总结
- 机电安装工程技术专业培训
- 7逆合成分析法与合成路线设计
- 工程材料构配件设备报审表
- 《Monsters 怪兽》中英对照歌词
- 华东地区SMT公司信息
- 隧道弃渣及弃渣场处理方案
- 隔代教育PPT课件
- 签证用完整户口本英文翻译模板
- 金属盐类溶度积表
- 社会工作毕业论文(优秀范文8篇)
评论
0/150
提交评论