版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学原理第三章统计整理第一页,共六十六页,编辑于2023年,星期三2主要内容第一节统计数据整理的概述第二节统计分组第三节分配数列第四节统计表和统计图第二页,共六十六页,编辑于2023年,星期三3一、数据审核(DataAuditing)是指在进行数据整理之前对原始数据的审查与核对。数据整理是按照数据分析的要求进行的,数据分析的思路和目的决定着数据整理的分类或分组。基于人类认识活动的渐进性,往往需要采用不同的分组方式对原始数据进行反复整理,以便得出正确的认识结论。第一节统计数据整理的概述第三页,共六十六页,编辑于2023年,星期三4二、数据审核的内容1、时效性的审核检查是否在规定的调查时间内完成数据的搜集工作,采集的数据是否为规定调查时点上或规定的调查时段内的数量特征,以保证统计数据在时间上的准确性和可比性。2、准确性的审核检查是否每一调查单位的特征都无偏差、无失真、准确无误地记录在登记资料中,抽样调查的误差是否有效地控制在规定的范围内.
3、一致性的审核检查统计数据在时间和空间上的连续性和可比性。第四页,共六十六页,编辑于2023年,星期三5三、数据审核的方式1、逻辑审核检查原始数据中各项数据是否合理的数据审核方式。要求检查人员具备较强的逻辑推理能力和丰富的专业知识及数据审核经验。2、技术审核对调查数据原始登记表和其他原始材料进行机械性核对的数据审核方式。由于技术检查是一种机械性的核对,一般可采用专门的计算机软件来实现。第五页,共六十六页,编辑于2023年,星期三6四、数据的排序数据排序是指将一组数据按照大小、高低、优劣等顺序进行依次排列的过程。数据排序为计算取值范围、最大值、最小值等总体参数提供了便利,有助于人们了解数据大致的分布状态。数据排序也是有效地进行数据分类或分组的前期准备工作。数据排序可以使用计算机软件来实现,Excel就具有很强的数据排序功能。第六页,共六十六页,编辑于2023年,星期三7第二节统计分组一、统计分组的概念统计分组就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个不同类型或性质的部分的一种统计方法。统计分组具有两方面含义:对总体而言是“分”,即将总体分为性质相异的若干部分。对总体单位而言则是“合”,即将性质相同的总体单位组合起来。第七页,共六十六页,编辑于2023年,星期三8二、统计分组的作用与原则1、统计分组的作用(P40-42)划分现象的类型;揭示现象的内部结构;分析现象之间的内在关系:正依存关系:现象之间成同向变动负依存关系:现象之间成反向变动2、统计分组的原则穷尽原则:组数有限且不宜过多。互斥原则:组间的差异、界限要分明。第八页,共六十六页,编辑于2023年,星期三9※三、分组标志的选择(一)选择分组标志的原则
P421.目的性原则:根据研究问题的目的选择分组标志。2.本质性原则:选择最能反映现象本质特征的标志分组。例如反映家庭生活水平的因素:总收入?平均收入?研究学生的学习状况:成绩?性别?年龄?籍贯?3.具体条件原则:结合现象所处的具体历史条件或经济条件选择分组标志。第九页,共六十六页,编辑于2023年,星期三10(二)统计分组的种类1.按分组标志个数不同分为:简单分组与复合分组P44标志人数(人)比重(%)按性别分组男性女性按企业性质分组国有企业独资企业其他企业按规模分组大型企业中型企业小型企业简单分组第十页,共六十六页,编辑于2023年,星期三11工业企业按经营组织形式和规模大小同时进行分组按经营组织形式分组:按规模分组:
大型企业
内资企业
中型企业
小型企业
大型企业港澳台商投资经营企业
中型企业
小型企业
大型企业外商投资经营企业
中型企业
小型企业复合分组第十一页,共六十六页,编辑于2023年,星期三12
2.按分组标志性质不同可分为:
品质标志分组和数量标志分组标志人数(人)比重(%)按性别分组男性女性按产值分组大型企业中型企业小型企业品质标志分组数量标志分组第十二页,共六十六页,编辑于2023年,星期三131)品质标志分组:对总体按照品质标志分组,如人口按性别分组;企业按所有制、行业分组等属于简单分组;复杂分组有国家制定统一的分类目录。(P44)2)数量标志分组:对总体按照数量标志分组,具体又分为以下两种情况:①单项式分组:是以一个变量值为一组的分组方法,只适用于离散型变量的分组。第十三页,共六十六页,编辑于2023年,星期三14②组距式分组:是按变量变动的一定区间来分组的方法。既适用于连续型变量,也适用于离散型变量。具体又分为以下两种情况:等距分组与异距分组:根据变量值变动的均匀性来确定。均匀变动的变量适合用等距分组,否则应选择异距分组。说明:离散型变量采用单项式分组还是组距式分组主要取决于变量值的多少和变量值变动范围的大小,变量值少且变动范围小的用单项式分组,反之用组距式分组。第十四页,共六十六页,编辑于2023年,星期三15一、分配数列的概念和种类(一)分配数列的概念(P46)在数据分组的基础上,将总体的所有单位按组归类整理,并按一定的顺序排列,形成总体中各个单位在各组间的分布就称为分配数列(次数分布)。分布在各组的总体单位数叫次数或频数,各组次数与总次数之比叫比重或频率。※
第三节分配数列第十五页,共六十六页,编辑于2023年,星期三16(二)分配数列的种类分配数列
单项式数列组距式数列等距分组异距分组品质分配数列(品质数列)数量分配数列(变量数列)第十六页,共六十六页,编辑于2023年,星期三17中国2005年人口状况品质分配数列按性别分组绝对人数(万人)比重(%)男67375
51.5女63381
48.5合计130756100.00各组名称次数或频数比率或频率(品质分组标志)(品质分组标志)第十七页,共六十六页,编辑于2023年,星期三18变量数列——单项式数列
某企业工人平均日产量(离散变量)按平均日产量分组(件)(χ)工人数绝对数(f)比重(%)(fi/Σf)1920212223153045352010.3420.6931.0424.1413.79合计145100.00变量次数比率或频率第十八页,共六十六页,编辑于2023年,星期三19变量数列——等距数列
某厂工人生产定额完成情况表(连续变量)工人按完成生产定额分组(%)(χ)工人数绝对数(f)比重(%)(fi/Σf)80-9090-100100-110110-120120-130304060302016.722.233.316.711.1合计180100.0变量次数比率或频率第十九页,共六十六页,编辑于2023年,星期三20二、单项式数列的编制1、对变量值排序通常按照由小到大的顺序来排列。例如,某生产车间21名工人日加工零件数资料如下:
117108110117110117130114110114128120110120108117124114120117124第二十页,共六十六页,编辑于2023年,星期三212、某车间21名工人日加工零件分组表日产生零件数次数或频数(人)10821104114311751203124212811301合计21第二十一页,共六十六页,编辑于2023年,星期三22三、组距数列的编制(一)组距与组数首先对已取得的调查数据进行排序(P48)。1、组、组限和组距的概念在组距数列中用变量变动的一定范围代表一个组。每个组的最小值为该组的下限,最大值为该组的上限,下限与上限合称为组限,每个组上限和下限之间的距离称为组距。第二十二页,共六十六页,编辑于2023年,星期三23
2、组数和组距的关系组数:即整个组距数列中所包含的组的个数组数的多少和组距的大小成反向变动关系:组距大则组数少,组距小则组数多。因此,组距的大小会直接影响组数的多少。确定组距的原则:体现组内资料的同质性和组间资料的差异性。一般取5~~10的倍数为宜。学生按考试成绩分组:第二十三页,共六十六页,编辑于2023年,星期三24某班学生《统计学》考试成绩统计表考试成绩人数(次数)比重(%)50—6025.060—70717.570—801127.580—901230.090—100820.0合计40100.0不及格及格中等良好优秀体现组内资料的同质性和组间资料的差异性第二十四页,共六十六页,编辑于2023年,星期三25(二)等距分组和异距分组按组距是否相等可将组距数列分为:1、等距数列:是指各组组距都相等的组距数列。适用范围:适用于变量值变动比较均匀的现象,即各组间性质差异是由变量值均匀增加或减少而引起的。(P50)例如,成绩、身高、体重、计划完成程度等。第二十五页,共六十六页,编辑于2023年,星期三26等距数列可绘制次数分布直方图和次数分布折线图,直方图的面积与折线图所围成的面积相等。折线两端应在直方图的左右两边各延伸一个假想组,并连接至假想组的中点。根据分组表绘制次数分布直方图次数分布折线图第二十六页,共六十六页,编辑于2023年,星期三27某班学生统计学考试成绩表考分人数(人)比重(%)50—6025.060—70717.570—801127.580—901230.090—100820.0合计40100.0第二十七页,共六十六页,编辑于2023年,星期三28第二十八页,共六十六页,编辑于2023年,星期三29第二十九页,共六十六页,编辑于2023年,星期三302、异距数列:指各组组距不完全相等的组距数列。1)适用范围:当总体的分布存在明显的偏斜状况时,变量不适合等距分组;总体单位的变量变动范围较大,若变量按一定比例关系发展变化的话可按等比间隔分组编制异距数列(P52)。例如,炼钢高炉按容积(m3)的异距分组为:
第三十页,共六十六页,编辑于2023年,星期三31
钢炉容积(m3)组距100以下—100—200100200—400200400—800400800—16008001600以上—组距间隔等比为2第三十一页,共六十六页,编辑于2023年,星期三322)次数密度与频率密度在异距数列中,由于各组组距不完全相同,因此分布在各组中的次数就不具有可比性。要使各组的次数可比,必须要消除组距不同的影响将不等组距的次数换算为标准组距次数。标准组距的确定:选择数列中最小的组距。次数密度:单位组距内分布的次数。公式:次数密度=各组次数÷各组组距频率密度:单位组距内分布的频率。公式:第三十二页,共六十六页,编辑于2023年,星期三33频率密度=各组频率÷各组组距通过标准组距次数或次数密度将异距数列中不可比的各组次数换算成可比的各组次数,并可根据标准组距次数或次数密度来绘制次数分布直方图和次数分布折线图,用以反映总体的数量分布特征。现以某厂工人年龄分布情况为例,将上述两种方法的换算结果列成表格,并绘制次数分布直方图和次数分布折线图,并与等距数列进行比较。第三十三页,共六十六页,编辑于2023年,星期三34某厂工人年龄分布情况表工人按年龄分组组距人数(人)标准组距人数次数密度15—20517173.420—25528285.625—3054040830—35570701435—45106532.56.545—50510102合计—230——标准组距为组距最小值5第三十四页,共六十六页,编辑于2023年,星期三35年龄人数未经处理的异距数列直方图第三十五页,共六十六页,编辑于2023年,星期三36次数密度某厂工人年龄次数分布直方图异距数列标准组距人数年龄第三十六页,共六十六页,编辑于2023年,星期三37标准组距人数异距数列ABCD某厂工人年龄次数分布折线图次数密度年龄B+D与A+C哪一个要大一些?第三十七页,共六十六页,编辑于2023年,星期三38(三)组限与组中值1、组限:组距两端的数值称为组限。组限的确定也是统计分组中的重要问题。确定组限的原则:
①体现组内的同质性和组间的差异性
②“上组限不在内”原则只要遵循“上组限不在内”的原则,无论是连续变量还是离散变量均可以采用相邻两组的上限和下限共用同一个数值做组限的方法。第三十八页,共六十六页,编辑于2023年,星期三392、组中值:是各组变量范围的中间数值,可以根据各组的上限与下限的简单平均数来确定。组中值=(上限+下限)÷2为什么要计算组中值原因:组距数列是按变量变动的一段区间来分组的,它掩盖了分布在各组内的各单位的实际变量值。为了反映每一组变量值的一般水平,统计上就用组中值来代表每一组变量值的一般水平。例:第三十九页,共六十六页,编辑于2023年,星期三40学生按体重(公斤)进行分组:40以下39.9以下39.99以下40—4540—44.940—44.9945—5045—49.945—49.9950—5550—54.950—54.9955—6055—59.955—59.9960—6560—64.960—64.9965以上65以上65以上第四十页,共六十六页,编辑于2023年,星期三41某班学生统计学成绩分布情况表考试成绩人数(人)组中值50—6025560—7076570—80117580—90128590—100895合计40—组中值=(上限+下限)÷2
=
下限+组距/2=上限-组距/2第四十一页,共六十六页,编辑于2023年,星期三423、开口组组中值的确定:开口组:是组限不齐全的组,可分为有上限缺下限和有下限缺上限两种。缺上限的开口组组中值=缺下限的开口组组中值=第四十二页,共六十六页,编辑于2023年,星期三43完成净产值(亿元)企业数(个)组中值10以下20510—20701520—30952530—402103540—70605570以上4585合计500—
5=10-(20-10)÷285=70+(70-40)÷2开口组开口组国有工业企业净产值完成情况分组表第四十三页,共六十六页,编辑于2023年,星期三44四、累计次数分布(一)次数分布:是指总体中各单位数在各组间的分布。次数分布是统计研究的一个基本课题,通过次数的分布规律,可以研究大量现象的统计规律性。P54(二)累计次数分布:是指将变量数列各组的次数和频率逐组累计相加而成的。有两种累计方法:第四十四页,共六十六页,编辑于2023年,星期三451.向上累计(较小制累计,上限以下累计)是将各组次数或比率,由变量值低的组向变量值高的组逐组累计的方法。含义:表明各组上限以下总共所包含的总体次数或比率有多少。第四十五页,共六十六页,编辑于2023年,星期三46是将各组次数或比率,由变量值高的组向变量值低的组逐组累计的方法。含义:表明各组下限以上总共所包含的总体次数或比率有多少。2.向下累计(较大制累计,下限以上累计)第四十六页,共六十六页,编辑于2023年,星期三47某班统计学考试成绩次数分配表次数向上累计向下累计人数(人)比率(%)人数(人)比率(%)人数(人)比率(%)50—6025.025.040100.060—70717.5922.53895.070—801127.52050.03177.580—901230.03280.02050.090—100820.040100.0820.0合计40100.0————考分第四十七页,共六十六页,编辑于2023年,星期三48(三)累计次数的特点:(P55)同一数值的向上累计和向下累计次数之和等于总体总次数,而累计比率之和等于1或100%。单项数列也可以计算累计次数和累计比率。累计次数分布是确定各种位置平均数的依据;累计次数分布图还可以用于研究社会财富分配的公平程度等问题。累计次数分布折线图见下表:第四十八页,共六十六页,编辑于2023年,星期三49考分累计次数分布折线图40383120829203240第四十九页,共六十六页,编辑于2023年,星期三50
五、次数分布的类型(一)钟型分布特点:“两头小中间大”,即两头次数分布少,中间次数分布多。变量次数a.对称分布(正态分布)
中轴线两边的图形完全对称。第五十页,共六十六页,编辑于2023年,星期三51b.右偏分布:当变量值中存在极大值时,次数分布曲线就会向右延伸,即右偏。次数变量0第五十一页,共六十六页,编辑于2023年,星期三52C.左偏分布:当变量值中存在极小值时,次数分布曲线就会向左延伸,即左偏。许多社会经济现象都接近正态分布,如市场价格、学生成绩、职工的工资等。次数变量第五十二页,共六十六页,编辑于2023年,星期三53(二)U型分布特征:“两头大,中间小”,即中间变量值分布的次数少,两端变量值分布的次数多。其分布图形像英文字母“U”字。变量次数(d)U型分布0第五十三页,共六十六页,编辑于2023年,星期三54(三)J型分布特征:“一边小,一边大”,即大部分变量值集中在某一端分布,分布曲线图像英文字母“J”字。具体分布有两种类型:次数次数变量变量(e)正J型分布(f)反J型分布00第五十四页,共六十六页,编辑于2023年,星期三55第四节统计表和统计图一、统计表的定义与作用(一)统计表的定义:将通过汇总整理的系统化的统计资料,按一定顺序填列在一定的表格内,这种表格称为统计表。(二)作用:1.使大量统计资料系统化、条理化;2.便于比较各项目之间的关系和计算;3.简明、紧凑、一目了然。第五十五页,共六十六页,编辑于2023年,星期三561.总标题:是统计表的名称,简要说明全表的内容,位于统计表的上端正中央。2.分标题(横标题、纵标题):是指总体名称或分组名称以及说明总体的各
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园防骗防拐演练
- 知荣辱课件教学课件
- 食品安全与健康相关
- 退行性脊椎病X线
- 酶促反应原理临床治疗
- DB1304T 488-2024大丽花露地栽培技术规程
- 聪聪课件 教学课件
- 高温烫伤应急预案演练
- 肺全切术后护理查房
- 运动治疗仪器及使用方法
- 2022版义务教育(数学)课程标准(含2022年新增和修订部分)
- Hellp综合征专题知识
- 西亚、中亚、北非音乐课件
- 科技政策及科技项目
- 全国英语教师素养大赛大赛一等奖乌鸦喝水Unit-5-Story-Time课件
- 我是一只有个性的狼教学设计及课后反思
- 苏教版六年级科学(上册)第二单元遗传与变异单元测试卷(含答案)
- 中小学德育工作评价细则
- 2022年浙江公务员考试申论真题及答案(A卷)
- 关于增加体检科的可行性报告
- 油藏工程课程设计
评论
0/150
提交评论