曾五一教材统计整理_第1页
曾五一教材统计整理_第2页
曾五一教材统计整理_第3页
曾五一教材统计整理_第4页
曾五一教材统计整理_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节统计数据的整理本节内容:

一、统计整理概述

二、统计分组

三、统计分布(频数分布)下一页返回目录一、统计整理概述

(一)统计整理意义(二)统计整理的程序(三)Excel中的统计整理工具返回本节首页(一)统计整理意义狭义:根据研究的任务,将调查的原始资料进行分类和汇总,使之系统化、条理化,从而有效的显示所包含的信息。有广义和狭义之分广义:既包括对原始资料的分类和汇总,也包括对次级资料的再整理。本节指狭义的整理10;60;60;60;63;64;66;66;68;68;69;70;71;71;73;75;76;76;77;……;78;79;79;80;81;82;83;83;83;86;87;87;88;97。42名学生统计学成绩:试显示其规律Fanhui3学生统计学成绩分布表分数人数60以下60~7070~8080~9090以上11020101合计42通过整理可以将数据的规律显示出来。对称分布Fanhui3整理的地位

在统计工作过程中起着承前启后的作用统计调查统计分析统计整理Fanhui3(二)统计整理的程序返回本问题分一下几步:

1、对原始数据进行审核2、对数据进行排序3、将数据分组和汇总4、制作统计表和统计图5、积累和保管统计数据

1、对原始数据进行审核返回本问题即检查数据中的错误☆审核无误后将数据录入计算机中以建立数据表录入的数据一般是无序的,不能反映现象本质与规律性。为了发现数据的一些明显特征或趋势,可对其进行排序。2、对数据进行排序☆排序可借助于计算机完成

3、将数据分组和汇总为了更加清楚的显示数据的规律和特征,可将已排序的数据进行分组,并汇总出各种统计指标。分组的目的是使性质相同的数据归为一组,性质不同的数据分开,使数据之间的差异性显示出来

旭日升冰茶可口可乐旭日升冰茶汇源果汁露露

露露旭日升冰茶可口可乐露露可口可乐

旭日升冰茶可口可乐可口可乐百事可乐旭日升冰茶

可口可乐百事可乐旭日升冰茶可口可乐百事可乐

百事可乐露露露露百事可乐露露

可口可乐旭日升冰茶旭日升冰茶汇源果汁汇源果汁

汇源果汁旭日升冰茶可口可乐可口可乐可口可乐

可口可乐百事可乐露露汇源果汁百事可乐

露露可口可乐百事可乐可口可乐露露

可口可乐旭日升冰茶百事可乐汇源果汁旭日升冰茶某超市随机抽取50人进行调查,了解哪种饮料更受欢迎,结果如下。使显示其规律分组人数可口可乐旭日升百事可乐汇源果汁露露1511969合计50饮料分组表饮料分组图4、制作统计表和统计图返回本问题两者均可借助于计算机完成统计表和统计图是统计数据显示的方式更形象更直观社会电冰箱消费者对广告宣传途径的效果评价?您觉得哪种类型的广告宣传效果最好?(仅选一项)

1.电视2.网络3.杂志4.报纸5.路牌6.宣传页电视1120.56056.0网络510.25525.5杂志90.0454.5报纸100.0505.0路牌20.0101.0宣传页160.0808.0广告类型人数(人)比例频率(%)返回26(三)Excel中的整理工具1、数据排序2、频数分布表(Frequency)3、数据透视表4、统计图返回本问题Excel可以根据用户的要求对数据表的行或列数据进行排序。排序时,Excel将利用指定的排序顺序重新排列行、列或各单元格,从而使现象的规则性更加简洁地表现出来。1.数据排序

2.频数分布函数(Frequency)频数分布函数是Excel的一个工作表函数,是编制次数分布的主要工具,通过频数分布函数,可以对数据进行分组与归类,从而使数据的分布形态更加清楚地表现出来。返回本问题3.数据透视表

数据透视表是一种交互式工作表,用于对已有数据表和数据库中的数据进行汇总和分析的一种工具。

Excel可以绘制许多,能够直观形象地描述现象的数量规律性。返回本问题4.统计图二、统计分组(一)统计分组的意义和种类(二)统计分组的原则和方法返回本节首页(一)统计分组的意义和种类1、定义:根据统计研究目的,将总体按照一定的标志区分为若干个组成部分。

分组有两方面含义对总体是“分”,对个体是“合”返回本问题

(1)划分现象的类型,揭示内部结构,发现其本质与规律。(2)分析现象之间的依存关系。返回本问题2、统计分组的作用某年某地区居民的消费结构

分类比重(%)消费品

97.76

食品62.68

其他37.32劳务

2.24合计

100=100%

年度第一产业第二产业第三产业

195250.520.928.6196239.431.329.3197232.943.124.1198528.443.128..5199221.843.934.3200015.950.933.2200513.146.240.7200910.646.842.6

201010.146.843.1201110.1246.7843.1我国历年三次产业结构(%)我国的产业结构状态:第一产业比重下降,第二、第三产业比重上升,合乎经济发展趋势。但第二产业比重偏高,第三产业比重偏低,说明产业结构需进一步优化.发达国家第一产业在2%~3%之间,第二产业在30%~40%之间,第三产业在60%以上。如美国三者的比例为:2%

、25%和75%日本约为:2%

、38%

、60%人均月收入(元)月储蓄(元)家庭数(630户)15001800200025002800300036003800300500600680700880900110025701375400181020居民月收入和储蓄额之间有正依存关系商场按流转额分商场数

各组商品流通费用率%50万元以下50~200万元200~400万元400~600万元600~800万元800~1000万元1000万元以上25701307540181011.210.49.96.75.95.05.5商品流转额和流通费用率之间有反依存关系(流通费用率=费用额/销售额)3、统计分组种类(1)按分组标志的多少:复合分组:用两个或两个以上的标志层叠在一起对总体进行分组简单分组:按一个标志对总体进行分组对学生按学科、学历、性别分学科学历性别

文科大专男生女生本科

研究生及以上理工科平行分组体系和复合分组体系平行分组体系:多个简单分组构成一个平行分组体系复合分组体系:复合分组本身构成复合分组体系(2)按分组标志的性质不同品质分组:

变量分组:又称属性分组,按品质标志分组而成。又称数量分组,按数量标志分组而成学生按籍贯分学生按身高分(米)安徽省山东省河北省……1.5以下1.5~1.61.6~1.71.7~1.81.8以上品质分组变量分组变量分组:

变量分组单项式分组:一个变量值代表一组组距式分组:一组变量值代表一组等距分组和异距分组间断式分组和连续式分组

单项式分组:返回本问题产量(件)2345某厂工人按日产量分组组距式分组,等距分组

某校学生按成绩分(分)60以下60~7070~8080~9090以上异距分组,连续分组

某厂职工按收入分(元)600以下600~10001000~15001500以上异距分组,间断分组:某市所有企业按人数多少分组100以下101~10001001以上说明:

单项式分组只适用于离散型变量且变量值较少的情况,因为如果数据过多,单项式分组达不到显示数据规律的目的。

在数据较多或连续型变量的情况下,需使用组距分组。(二)统计分组的原则和方法要满足:穷尽性和互斥性1、统计分组的原则某百货公司:服装分类销售额(万元)男装女装童装西装101568上述分组是否正确?企业人数企业人数职工工资职工工资100以下101~500501~10001001以上100以下100~500500~10001000以上1000以下1001~30003001~50005001以上1000以下1000~30003000~50005000以上上述分组是否正确?2、统计分组方法(1)品质分组的方法:方法比较简单。(2)数量分组的方法:须注意:采用正确的分组形式确定合适的分组界限采用单项式还是组距式分组;等距还是异距分组;间断式还是连续式分组….能反映事物质的差异组距式分组相关指标介绍组数(n)

组距(d)组限组中值返回本问题A、

组数(n)的计算公式美国统计学家斯特吉斯:n=1+3.322lgN其中,n为组数,N为总体单位总数经验分组见27B、组距(d)

组的最大值减组的最小值返回本问题即:R是已知的,在组数确定后,d=R/组数注意:组数和组距的关系:当全距(R)一定时,两者成反比。100~110110~120

……C、组限分上限和下限70~8080~9090~100组下限组上限若变量为连续型:组限的划分方法:若变量为离散型:相邻组的组限必须重叠;在统计次数时,应遵循的原则为:上组限不统计在本组内。相邻组的组限必须断开

D、组中值各组上限和下限之间的中点值

上限+下限2返回本问题开口组的组中值的求法首组的组中值=首组上限–邻组组距/2末组的组中值=末组下限+邻组组距/2返回本问题注意实际问题:西瓜重量组中值2斤以下2---6斤6斤以上?4?三、频数分布(统计分布)

——是统计整理的结果(一)频数分布的概念(二)频数分布的编制方法(三)累计频数和累计频率分布表返回本节首(一)频数分布的概念1、定义:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布。返回本问题又称统计分布、次数分布、频数分布、分布数列2、频数分布的构成要素返回本问题频率:次数的相对数,即:总体按某种标志所分的组各组出现的单位数(次数或频数)

ff/∑f3、频数分布的种类变量数列品质数列异距数列等距数列组距式数列单项式数列返回本问题注意变量数列的构成要素:标志值和次数品质数列:返回本问题单项式数列:返回本问题组距式数列、等距数列:返回本问题组距式数列、异距数列:返回本问题说明:利用频数或频率可以观察和比较等距数列中各组标志值出现的次数的多少。分数人数60以下60~7070~8080~9090以上31020103人口年龄人数(万人)1以下1~77~1818~6060以上1510259对于异距数列要观察和比较各组标志值出现的次数的多少,需用频数密度或频率密度频数密度=频数/组距含义:单位组距内分布的频数年龄(岁)人数(万人)频数密度1以下1~77~1818~6060以上151025910.830.910.60.21注意频数分布和分组的区别频数分布是在分组的基础上加上次数(频数)的分布。下一页分布数列的要素构成:分组和次数变量数列的构成要素:标志值和次数(二)频数分布的编制方法

1、品质数列的编制(略)2、变量数列的编制返回到节首页2、变量数列的编制第一、对数据进行排序,以了解全部数据的变动范围,确定全距R。第二、确定分组组数n,计算各组组距d=R/n。第三、确定分组的组限。第四、统计各组数值所出现的频数,形成频数分布表如学生英语课的考试成绩(1)编制步骤第一、对数据进行排序对数据进行排序,找出最大值和最小值。

假设组数据中最大为96,最小为48全距等于48。返回本问题排序可利用计算机完成第二、确定分组的组数和组距

A、组数的确定一般使用经验公式,即用斯特吉斯的组数公式。本例中为6.67组,实际中可取6组或7组返回本问题B、计算各组距组距=全距/组数假设本例分6组,全距为48,则:组距=48/6=8返回本问题该组距通常称之为理论组距,实际计算时一般以5或10的倍数为好,所以将组距取为10第三、确定各组上限和下限第一组下限=48第一组上限=48+10=58第二组下限=58+10=68第二组上限=68+10=78……分组48~5858~6868~7878~8888~9898以上分组60以下60~7070~8080~9090~100合适的分组第四、统计各组的频数,形成频数分布组限频数频率%60以下51060~70112270~80163280~90132690分以上510频数分布表即为变量数列,可以用计算机完成,使用的是频数分布函数(FREQUENCY)。返回本问题(2)编制变量数列应注意分组的目的是为了观察数据分布的特征,因此,分组不能过粗,也不能过细。

例:某班40名学生统计学成绩资料:

8988769974608986826093999482777997789592878479659867

59

728485

56

817773656683637970

可作如下分组:

分数人数56~60260~10038合计40返回本问题分组过粗:容易将不同质的单位分在同组,观察不出数据分布的特征。

分数人数56~60260~64364~68468~72172~76376~80780~84484~88588~92392~96496~1004合计40返回本问题分组过细:容易将同质的单位分开,也反映不出数据的分布特征。如下分则基本上能反映出总体分布的特征

分数人数50~60260~70770~801180~901290~1008合计40返回本问题三、累计频数和累计频率分布表甲城市家庭人均收入的频数分布人均收入(元)甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

1000以下

1000~1500

1500~2000

2000~25002500以上24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————作用:可以更简便的概括总体各单位的分布特征人口累计收入累计A收入累计B0%20%40%60%80%100%0%3%7.5%29%49%100%0%5%15%40%70%100%著名的洛伦兹曲线就是利用累计频数画图而成累计频数作用:可用于研究财富、收入等的分配是否公平。如:

洛伦兹曲线:是美国统计学家洛伦兹提出的核定收入分配公平程度的方法,因这种方法用一条曲线图表示,故称其为洛伦兹曲线。横轴为累计人数的百分比,纵轴为累计收入百分比。BAPYIO洛伦兹曲线中有三条线:A、绝对公平线(对角线OY):代表总人口中任一百分比的人口在总收入中也拥有相同的百分比。B、绝对不公平线(折线OPY):代表除一人以外,其余人的收入均为零,而这最后一人得到收入的全部。C、实际收入分配线(曲线OY):代表总人口中一定百分比的人口在总收入中所占有的百分比。

曲线的弯曲程度具有重要意义,它反映了收入分配的不公平程度:弯曲程度越大,收入分配越不公平,弯曲程度越小,收入分配越公平。一个国家的收入分配既不会是完全不平等,也不会是完全平等,一般都介于两者之间人口累计收入累计(1)收入累计(2)0%20%40%60%80%100%0%3%7.5%29%49%100%0%5%15%40%70%100%比较:哪一种收入分配相对公平?基尼系数:G=A/(A+B)利用洛伦兹曲线可计算基尼系数基尼系数的取值在:0≤G≤1世界各国对基尼系数的测算表明,大多数国家的基尼系数在0.2~0.6之间。经济学家根据经验和分析对基尼系数的区间范围作了如下判断:

低于0.2收入分配高度平均,我国1978~1984年城镇居民的基尼系数在0.166左右。在0.2~0.3之间收入分配较为合理,我国1981~1984年总体居民的基尼系数在0.288~0.297左右。在0.3~0.4之间收入分配大致合理,我国1985~1990年总体居民的基尼系数在0.388左右。在0.4~0.6之间收入分配差距过大,世界银行测算我国1995年总体居民的基尼系数在0.415左右(目前我国0.42~0.45)大于0.6,收入分配严重向一部分人倾斜。目前世界各地基尼系数地区基尼系数东欧中国高收入国家

南亚东亚和太平洋中东和北非撒哈拉以南非洲拉丁美洲极加勒比地区0.2890.42~0.470.3380.3180.3810.3800.4700.493根据世界银行的最新报告,美国5%人口掌握了60%的财富。中国是1%的家庭掌握了全国41.4%的财富,财富集中度远远超过了美国,成为全球两极分化最严重的国家之一。欧洲与日本的基尼系数大多在0.24到0.36之间中国基尼系数从30年前改革开放之初的0.28已上升到2009年的0.47,目前仍在继续上升,这是社会利益共享机制发生严重断裂的显著信号。近10年来,我国地区、城乡、行业、群体间的收入差距明显加大,收入分配格局失衡导致社会财富向少数利益集团集中,尤其是向官僚利益集团和垄断利益集团集中,由此带来的诸多问题日益成为社会各界关注的焦点。第三节、统计数据的显示

——统计图和统计表一、统计表二、统计图一、统计表1、统计表的结构2、统计表的种类3、绘制统计表应注意的问题4、用EXCEL制作数据透视表统计数据的表现方式之一返回本问题1、统计表的结构

——从表式上和从内容上认识

主词

宾词(1)按主词是否分组及分组的复杂程度不同,分为:

2、统计表的种类简单表:主词未经过任何分组分组表:主词按一个标志分组复合表:主词按两个或两个以上标志层叠分组分组表:主词按一个标志分组

复合表:

主词按两个或两个以上的标志层叠分组(2)按宾词设计不同分:宾词简单排列宾词分组平行排列宾词分组层叠排列(3)绘制统计表注意的问题

见34页数字:数字小可忽略不计时,用0;无数字用—;缺乏数字用…表式:开口式。计量单位:返回本问题(4)用EXCEL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论