应用统计学:第三章 数据整理_第1页
应用统计学:第三章 数据整理_第2页
应用统计学:第三章 数据整理_第3页
应用统计学:第三章 数据整理_第4页
应用统计学:第三章 数据整理_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章数据整理数据分组的方法;统计指标的概念和计算;统计图表的制作;统计整理的Excel实现3.1数据分组和列联表频数分布与统计分组;列联表统计分组与频数分布统计分组:就是按照研究目的将数据分成若干组的统计方法。关键:选择分组变量和划分各组界限例如按照考试成绩把学生分为优、良、中、及格、不及格。统计分组的结果是形成频数分布(分布数列,FrequencyDistribution)。频数分布举例两个构成要素:各组的分组界限每组中的次数或频率通过频数分布表可以发

现数据分布的特征。频数(frequency):每个组中的数据个数,也称次数。频率(relativefrequency):频数/总数据个数。成绩人数频率60以下37.14%60-70819.05%70-801228.57%80-901535.71%90以上49.52%合计42100.00%定性数据的频数分布表3.15种品牌笔记本电脑购买次数的频数分布表品牌频数频率(%)联想惠普三星华硕索尼198613438%16%12%26%8%合计50100%定量数据的频数分布将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。例如某学院2008年毕业研究生毕业时发表论文篇数的频数分布表(右表)。发表论文篇数人数2345668532合计24组距分组将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。分组必须遵循“不重不漏”的原则。分为等距与不等距分组。各组组距都相等时为等距分组。为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。应用中可能需要把第一组和/或最后一组设为开口组。组距分组的步骤1、确定组数:通常为5到15(20)组。Sturges

提出的经验公式:分组组数K应满足2、确定组距和各组界限,建议为5,10…的倍数。组距≈(最大值-最小值)÷组数

3、根据分组整理成频数分布表

组距分组中的基本概念1、下限:一个组的最小可能值2、上限:一个组的最大可能值3、组距:上限与下限之差4、组中值:下限与上限之间的中点值,(下限+上限)/2。

开口组的组中值可以按以下方法计算:缺下限:上限-邻组组距/2缺上限:下限+邻组组距/2但许多作者认为无法计算开口组的上限或下限。等距分组表:上下组限间断某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~109110~114115~119120~124125~129130~134135~139358141064610162820128合计50100等距分组表(上下组限重叠,上组限不在内)某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计50100等距分组表:(使用开口组)某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~115115~120120~125125~130130~135135以上358141064610162820128合计50100列联表(Contingencytable)如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Crosstabulation)。列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。列联表中的数字为交叉单元格中的频数或频率。以列联表为基础可以对两个变量之间的关系进行多种统计检验。列联表举例市场营销专业的男生有10人。

市场营销专业统计学专业合计男生102030女生301545合计4035753.2统计表统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。一个完整的统计表从结构上看一般包括:总标题、横行标题、纵栏标题、数据资料。对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。

统计表的构成

表3-12003年我国就业基本情况

项目200120022003经济活动人口(万人)就业人员合计(万人)城镇登记失业人数(万人)城镇登记失业率(%)

74432730256813.675360737407704.076075744328004.3

资料来源:2004年统计年鉴中国统计出版社注:1990年至2000年,就业人员总计、城镇和乡村就业人员小计资料根据

第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样

调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计。横行标题总标题纵栏标题数字资料附加统计表的分类简单表:未经任何分组;(课本表3.1)简单分组表:用一个标志分组;(课本表3.7)复合分组表:两个或两个以上标志分组(课本表3.8)统计表设计规则各类标题应简明,确切反映和概括资料的主要内容以及所属的时间;横行和纵栏,一般先列各个项目,后列总体;表中应有计量单位,只有一个单位时可在表的右上角注明;多个横行可设”计量单位”;数字要填写整齐,上下位数对齐;统计栏数较多时,通常要加编号;统计表的表式为开口式,两端不封闭应注明资料来源统计图数据类型定性数据定量数据条形图饼图线图茎叶图箱线图直方图条形图(BarChart)用宽度相同的条形高度或长短来表示数据

变动的图形,条形的排列可以横排,也可

以纵排。条形图有单式、复式等形式。2003年我国就业人员情况(万人)圆形图(PieChart)也叫饼图,它是用圆形及圆内扇形的面积

来表示数值大小的图形。主要用于总体内

部的结构,各组成部分所占比例等。2003年我国国内生产总值中各产业比重直方图(Histogram)用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意对不等距分组:纵轴必须表示为频数密度频数密度=频数/组距(面积之和=总频数)手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。直方图(等距分组)某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表审计时间(天)频数10-15415-20820-25525-30230-351合计20直方图与条形图的异同都是用来反映数据的分布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。折线图(Frequencypolygon)折线图也称频数多边形图是在直方图的基

础上,把直方图顶部的中点(组中值)用直线

连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。审计时间的折线图主要用于显示未分组的原始数据的分布。由“茎”

和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。原始数据:

24,26,24,21,27,27,30,41,32,38从小到大排序后的数据:

21,24,24,26,27,27,30,32,38,41茎叶图:3

0284

12

144677茎叶图(Stem-and-LeafDisplay)3040名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64Stem-and-LeafPlot

FrequencyStem&Leaf

9.00

2.677888999

4.00

3.3344

8.00

3.55566679

10.00

4.0011222233

3.00

4.588

4.00

5.0112

1.00

5.5

1.00Extremes(>=64)

Stemwidth:10.00

Eachleaf:1case(s)

SPSSStatistics生成的一个茎叶图线图(LineChart)利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。1996年-2003年城乡居民人民币储蓄存款年底余额3.2.4绘制统计图时的注意事项1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当,其长宽比例大致为10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。绘制统计图时的注意事项2、图形要尽量简明。图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。4、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。下图增长速度惊人。上图增长速度缓慢。不恰当的统计图形举例:纵横比例

不必要的三维效果:三维图形可能比二维图形更能吸引读者的注意,但只能用来反映变化的趋势,不能用来进行精确的比较。不恰当的统计图形举例:三维效果不恰当的统计图形举例:图形类型1960:$1.001970:$1.601980:$3.101990:$3.80MinimumWage

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论