统计学第三章统计数据的整理与显示_第1页
统计学第三章统计数据的整理与显示_第2页
统计学第三章统计数据的整理与显示_第3页
统计学第三章统计数据的整理与显示_第4页
统计学第三章统计数据的整理与显示_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第三章统计数据的整理与显示第1页,共78页,2023年,2月20日,星期六第三章统计数据的整理与显示★§3.1统计整理与统计分组§3.2分布数列的编制§3.3统计图表第2页,共78页,2023年,2月20日,星期六§3.1统计整理与统计分组一、统计整理的意义和步骤二、统计整理的基本方法——统计分组★第3页,共78页,2023年,2月20日,星期六统计整理将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程(对调查资料去伪存真、去粗取精、科学分类、浓缩简化)是统计调查的继续,统计分析的前提和基础地位统计数据的处理:

统计资料的分组、汇总及制表统计数据的管理:

数据的传输、贮存、更新及输出内容《统计学》第三章统计数据的整理与显示第4页,共78页,2023年,2月20日,星期六统计整理主要任务资料审核、分组、汇总、制表、制图等。分组频数分布统计表统计图第5页,共78页,2023年,2月20日,星期六分组分组前分组后25%33%42%如:划分现象类型作用:例:按所有制性质划分,我国现有8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济

第6页,共78页,2023年,2月20日,星期六制定统计整理方案对原始资料进行审核数据处理制作统计表或统计图统计整理的步骤《统计学》第三章统计数据的整理与显示第7页,共78页,2023年,2月20日,星期六

(一)数据的审核与筛选

1、审核:对第一手资料(直接调查或试验取得):审核其完整性与准确性

完整性审核:应调查的单位或个体是否有遗漏;所调查的项目是否填齐全。

准确性审核:内容是否符合实际;计算是否正确。

如:文化程度:小学职业:大学教师第8页,共78页,2023年,2月20日,星期六

2、筛选:

筛选包括:

剔除不符合要求的数据或有明显错误的数据;将符合特定条件的数据筛选出来。对第二手资料(获取他人的资料):审核其完整性、准确性、适用性、时效性第9页,共78页,2023年,2月20日,星期六§3.1统计整理与统计分组一、统计整理的意义和步骤二、统计整理的基本方法——统计分组★★第10页,共78页,2023年,2月20日,星期六将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程统计分组统计分组的作用:总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。《统计学》第三章统计数据的整理与显示划分社会经济现象的类型反映社会经济现象的内部结构和比例关系揭示社会经济现象之间的相互依存关系第11页,共78页,2023年,2月20日,星期六选择分组标志确定分组体系总体单位归类科学性:组间差异大,组内差异小。完备性和互斥性:每个单位均能且只能归到某个组中。统计分组的程序与原则第三章统计数据的整理与显示第12页,共78页,2023年,2月20日,星期六对大学生月生活费支出情况进行分组研究:按家庭收入水平分组;按城乡分组;按性别分组;按年龄分组。?统计分组的程序与原则对父母亲下岗情况进行分组研究:

单亲下岗;双亲下岗;双亲在岗。不符合科学性不符合完备性和互斥性城乡区别离退休是否健在?第三章统计数据的整理与显示第13页,共78页,2023年,2月20日,星期六统计分组的程序与原则分组体系指同时使用两个以上标志分组时,分组标志的组合形式。各分组标志并列使用各分组标志交叉结合使用平行分组体系交叉分组体系第三章统计数据的整理与显示第14页,共78页,2023年,2月20日,星期六平行分组体系对教师的分类按性别分类男性女性按职称分类按年龄分类高级中级初级青年中年共计7组2+3+2《统计学》第三章统计数据的整理与显示第15页,共78页,2023年,2月20日,星期六交叉分组体系按性别分类按职称分类按年龄分类男女高级中级初级青年中年共计12组2×3×2《统计学》第三章统计数据的整理与显示对教师的分类第16页,共78页,2023年,2月20日,星期六第三章统计数据的整理与显示★§3.1统计整理与统计分组§3.2分布数列的编制§3.3统计图表★第17页,共78页,2023年,2月20日,星期六§3.2分布数列的编制一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率★第18页,共78页,2023年,2月20日,星期六变量数列品质数列将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列分布数列分类分组标志的具体表现各组的次数或频率构成要素异距数列等距数列组距数列单值数列《统计学》第三章统计数据的整理与显示第19页,共78页,2023年,2月20日,星期六获金牌项目

金牌数占总数比例跳水5枚0.1786举重5枚0.1786乒乓球4枚

0.1429羽毛球4枚

0.1429体操3枚

0.1071射击3枚

0.1071柔道2枚

0.0714田径1枚

0.0357跆拳道1枚0.0357中国体育代表团在悉尼奥运会上获金牌的项目《统计学》第三章统计数据的整理与显示品质数列第20页,共78页,2023年,2月20日,星期六§3.2分布数列的编制一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率★★第21页,共78页,2023年,2月20日,星期六单值数列指每个组值只用一个具体的变量值表现的数列同时具备变量数列的编制变量是离散变量变量的不同取值个数较少编制条件:【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。《统计学》第三章统计数据的整理与显示第22页,共78页,2023年,2月20日,星期六日产量(件)X工人数(人)f202122232425263564321合计24编制结果如下:《统计学》第三章统计数据的整理与显示第23页,共78页,2023年,2月20日,星期六组距数列指每个组的变量值用一个区间来表现的变量数列变量数列的编制变量是连续变量;或:总体单位数较多变量不同取值个数也较多的离散变量。编制条件:变量值变动区间的长度相等变量值变动区间的长度不完全相等等距数列异距数列《统计学》第三章统计数据的整理与显示第24页,共78页,2023年,2月20日,星期六相关概念指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值组中值《统计学》第三章统计数据的整理与显示组中值=第25页,共78页,2023年,2月20日,星期六某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上组限U下组限L如:组距d=U-L=100-50=50(万元)如:组中值x=(U+L)/2=(100+200)/2=150(万元)《统计学》第三章统计数据的整理与显示第26页,共78页,2023年,2月20日,星期六编制等距数列适用于总体单位的标志值变动比较均匀的情况实例己知某地区某年50个商店商品销售额的资料如下(单位:百万元):

7.412.629.02.012.47.014.817.515.018.218.715.512.826.017.38.314.712.03.56.825.019.36.44.011.98.513.214.517.115.613.44.59.520.015.76.011.423.014.216.721.016.013.610.013.95.05.810.516.322.0要求编制组距数列。《统计学》第三章统计数据的整理与显示第27页,共78页,2023年,2月20日,星期六编制步骤:⒈求变异全距⒉确定组距及组数确定组距的原则:要能区分各组的性质差异要能反映总体资料的分布特征为方便计算,尽可能为5或10的整数倍R≤组距(d)×组数(m)编制等距数列《统计学》第三章统计数据的整理与显示第28页,共78页,2023年,2月20日,星期六计算组数(组数不宜过多,也不宜太少)上例中,取d=5,则有编制等距数列(当的结果为整数时)(当的结果为小数时)《统计学》第三章统计数据的整理与显示第29页,共78页,2023年,2月20日,星期六

注:确定组数(Numberofclasses)。组数的确定一般视数据本身的特点及数据的多少而定。

经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。

实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:其中N为数据的个数(总体单位数或样本数),一般对结果取整数。例:K=1+lg20/lg2=1+4.32=5.325第30页,共78页,2023年,2月20日,星期六

确定组距(Widthofclasses):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:

组距=(最大值-最小值)/组数例,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。

第31页,共78页,2023年,2月20日,星期六⒊确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;在最大值和最小值与其他数据相差悬殊时,为避免空白组出现,首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法编制等距数列《统计学》第三章统计数据的整理与显示第32页,共78页,2023年,2月20日,星期六⒋计算次数编制等距数列编制结果:销售额(百万元)组中值商店数5以下5~1010~1515~2020~2525以上2.57.512.517.522.527.5410161343合计—50分组划记法茎叶图法《统计学》第三章统计数据的整理与显示(5+(5-5))/2=2.5(25+(25+5))/2=27.5第33页,共78页,2023年,2月20日,星期六《统计学》第三章统计数据的整理与显示茎叶表示

Stem-and-LeafDisplay将每一观测值分解为茎值和叶值(用直线隔开)垂直线左边的数字称为“茎”,确定组别垂直线右边的数字“叶”,确定频数(计数)

Xi第34页,共78页,2023年,2月20日,星期六§3.2分布数列的编制一、分布数列的定义及种类二、变量数列的编制三、累计次数与累计频率★★★第35页,共78页,2023年,2月20日,星期六频率各组单位数占总体单位总数的比重累计次数(频率)从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。向上累计向下累计从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。《统计学》第三章统计数据的整理与显示第36页,共78页,2023年,2月20日,星期六频数表(用SPSS制作)有效数据频数频率有效频率累计频率约2/3的人身高不超过165cm第37页,共78页,2023年,2月20日,星期六累计频数(频率)分布曲线,可用于分析社会财富、土地和工资收入等的分配是否公平的问题。该曲线图是由美国洛伦茨博士提出,故称为洛伦茨曲线。洛伦茨曲线某国家收入所得的分配情况按收入所得水平分组人口收入累计收入的(%)人口数(万人)结构%累计%月收入额(亿美元)结构%实际累计%绝对平等绝对不平等最低中下等中等较高最高128.5348.0466.945.611.012.8534.8046.694.561.112.8547.6594.3498.91001.574.0816.337.541.8851352246518709410012.8547.6594.3498.91000000100合计1000.0100.0__31.40100______第38页,共78页,2023年,2月20日,星期六20406080100

806040200100绝对平等线实际收入分配线绝对不平等线绝对不平等线人口(%)收入(%)洛伦茨曲线AB第39页,共78页,2023年,2月20日,星期六洛伦茨曲线与基尼系数

20世纪初意大利经济学家基尼,根据洛伦茨曲线找出了判断分配平等程度的指标。实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。以A除以A+B的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。第40页,共78页,2023年,2月20日,星期六洛伦茨曲线与基尼系数当A=0时,A/(A+B)=0,则基尼系数为0,收入分配完全平等;当B=0时,A/(A+B)=1,则基尼系数为1,收入分配绝对不平等;所以,基尼系数可在0和1之间取任何值。

联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大(警戒线);0.6以上表示收入差距悬殊。(2010年我国基尼系数已经达0.46)

基尼系数还可用于财产、资本、资源、产品、市场等资源分配均衡程度的分析。第41页,共78页,2023年,2月20日,星期六第42页,共78页,2023年,2月20日,星期六第三章统计数据的整理与显示★§3.1统计整理与统计分组§3.2分布数列的编制§3.3统计图表★★第43页,共78页,2023年,2月20日,星期六§3.3统计图表一、统计图二、统计表★第44页,共78页,2023年,2月20日,星期六统计图以点、线条、面积等方法描述、显示统计数据的形式具有直观、醒目、易于理解等特点单式图复合图叠加图一个图只用来显示一种现象的数量特征用一个图同时显示几种数量的分布或变化情况《统计学》第三章统计数据的整理与显示品质数据往往使用条形图(Bargraphs)和饼状图(PieCharts);

数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎叶图(Stem-and-leafdisplay)。第45页,共78页,2023年,2月20日,星期六几种常用的统计图条形图(Bar)用于显示离散型变量的次数分布《统计学》第三章统计数据的整理与显示第46页,共78页,2023年,2月20日,星期六几种常用的统计图条形图(Bar)用于显示离散型变量的次数分布《统计学》第三章统计数据的整理与显示第47页,共78页,2023年,2月20日,星期六几种常用的统计图条形图(Bar)用于显示离散型变量的次数分布《统计学》第三章统计数据的整理与显示第48页,共78页,2023年,2月20日,星期六条形图(Bar)用于显示离散型变量的次数分布《统计学》第三章统计数据的整理与显示第49页,共78页,2023年,2月20日,星期六直方图(

Histogram

)用于显示连续型变量的次数分布以横轴表示数据分组,纵轴表示频数或频率《统计学》第三章统计数据的整理与显示第50页,共78页,2023年,2月20日,星期六直方图条形图第51页,共78页,2023年,2月20日,星期六圆形图(饼图

Pie

)用于显示定类变量的次数分布《统计学》第三章统计数据的整理与显示第52页,共78页,2023年,2月20日,星期六《统计学》第三章统计数据的整理与显示第53页,共78页,2023年,2月20日,星期六《统计学》第三章统计数据的整理与显示第54页,共78页,2023年,2月20日,星期六线图(Line)主要用于显示连续型变量的次数分布和现象的动态变化《统计学》第三章统计数据的整理与显示第55页,共78页,2023年,2月20日,星期六散点图(Scatter)主要用来观察变量间的相关关系,也可显示数量随时间的变化情况《统计学》第三章统计数据的整理与显示第56页,共78页,2023年,2月20日,星期六

茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。

茎叶图由两部分组成:茎(stem)与叶(leaf)

茎:通常由每组数的高位数值(leadingdigits)形成,按组竖立在左边;

叶:通常由每组数的低位数值(lastdigits)形成,按组横排在“茎”的右边。茎叶图第57页,共78页,2023年,2月20日,星期六§3.3统计图表一、统计图二、统计表★★第58页,共78页,2023年,2月20日,星期六具有容量大、方便计算等特点统计表的常用结构:统计表以纵横交叉的线条所形成的表格来表现统计资料的形式《统计学》第三章统计数据的整理与显示总标题宾词栏主词栏数据栏第59页,共78页,2023年,2月20日,星期六37.9416.36859.6城镇居民47.7503.82366.4农村居民指数(1978=100)绝对额(元)恩格尔系数(%)家庭人均可支配收入表外附加(表脚)总标题纵列标题横行标题指标数字资料来源:《中国统计年鉴2002》注释:指数是按可比价格计算的。表2001年城乡居民家庭人均收入及恩格尔系数第60页,共78页,2023年,2月20日,星期六《统计学》第三章统计数据的整理与显示统计表的加工方法对主词栏加工对宾词栏加工(对主体进行分组)单式加工复式加工(选择指标及对指标进行分组)简单分组交叉分组第61页,共78页,2023年,2月20日,星期六统计表的编制规则《统计学》第三章统计数据的整理与显示选择合适的总标题;主词栏与宾词栏要各归其位,相互对应;表的上、下端用粗线或双线封口,左右两端一般不封口;可在各列的文字标题下面设置编号加以标识;数据栏不能有空白。第62页,共78页,2023年,2月20日,星期六对主词栏的单式加工《统计学》第三章统计数据的整理与显示第63页,共78页,2023年,2月20日,星期六对主词栏的复式加工————《统计学》第三章统计数据的整理与显示第64页,共78页,2023年,2月20日,星期六开口式组距数列组中值的计算:首组假定下限=首组上限-相邻组组距末组假定上限=末组下限+相邻组组距先计算开口组的假定上、下限:

因此有:首组组中值末组组中值第65页,共78页,2023年,2月20日,星期六销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)5以下5~1010~1515~2020~2525以上410161343820322686合计50100《统计学》第三章统计数据的整理与显示第66页,共78页,2023年,2月20日,星期六销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向上累计5以下5~1010~1515~2020~2525以上41016134382032268641430434750828608694100合计50100——《统计学》第三章统计数据的整理与显示第67页,共78页,2023年,2月20日,星期六销售额(百万元)商店数频率(﹪)累计次数累计频率(﹪)向上累计向下累计向上累计向下累计5以下5~1010~1515~2020~2525以上410161343820322686414304347505046362073828608694100100927240146合计50100————《统计学》第三章统计数据的整理与显示第68页,共78页,2023年,2月20日,星期六按月工资分组按性别分(人)

按级别分小计男女小计技工学徒工300以下300~400400~500500~600600~700700以上416221510516101184310124214162215105024585414181020合计724032722448对宾词栏的简单分组第69页,共78页,2023年,2月20日,星期六按月工资分组按级别分(人)总计技工学徒工小计男女小计男女对宾词栏的交叉分组第70页,共78页,2023年,2月20日,星期六

附录:频数分布的类型日常经济生活中,常见的频数分布曲线主要有正态分布、偏态分布、J型分布、U型分布等几种类型。其次还有双峰型、孤岛型及锯齿型等其他类型。第71页,共78页,2023年,2月20日,星期六第72页,共78页,2023年,2月20日,星期六频数分布的应用:例8:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的床单进行抽检,并做了直方图。按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下:第73页,共78页,2023年,2月20日,星期六频数分布表

床单长度分组(cm)床单数(条)213~2185218~2238223~22816228~23332233~23817

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论