版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学第三章
数据的描述1——数据的直观展示第三章数据的描述1----数据的直观显示
§1用统计表描述数据§2用统计图描述数据§3用计算机实现制统计图
§1用统计表描述数据§1.1统计表的构成§1.2统计表的类型§1.3统计表的编制规则
§1.4数据的统计表描述
§1.1统计表的构成统计表一般是由四个主要部分构成:表头,行标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。§1.2统计表的类型1.简单表
行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。
§1.2统计表的类型2.分组表行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。
§1.2统计表的类型3.复合表
行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。
§1.2统计表的类型4.交叉表
行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。
§1.3统计表的编制规则
编制统计表的基本指导原则:“简练、美观、科学、实用”表头结构计量单位线条数据表外附加统计表的结构2002~2003年城镇居民家庭抽样调查资料项目单位2002年
2003年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%人元元元453173.041.5851.971.928177.407702.806029.88480283.011.5852.491.919061.228472.206510.94资料来源:《中国统计年鉴2004》,中国统计出版社,2004,第359页。注:本表为城市和县城的城镇居民家庭抽样调查资料。
行标题列标题数字资料表头附加合理安排统计表的结构总标题内容应满足3W
要求(全表的基本内容、时间地点)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明;若表中资料有几个不同的计量单位,就要设专栏注明。表中的上下两条两端的基线应用粗线或双线绘制,其他线用细线通常情况下,统计表的左右两边不封口,这是与会计表形式不同之处统计表的设计6.统计表的纵栏较多时,要编顺序号,一般行标题用文字填列的各栏,用“一”、“二”...的文字序号;数字资料的各栏用(1)、(2)、(3)...编号,各计算栏在编号是要注明计算栏目的关系。7.统计表中的合计数,可以放在各项数值之前,也可以放在各项数值之后,但要做平行分组或复合分组时,一定要将合计数放在各项数值之前。8.表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一9.对于没有数字的表格单元,一般用“—”表示10.必要时可在表的下方加上注释§1.4数据的统计表描述
§1.4.1定性变量的统计表描述
定性变量包括分类变量和顺序变量两种类型。分类变量的取值是对事物的一种分类,而顺序变量的取值是对事物的分类排序。在整理和描述定性变量时,需要根据分类变量和顺序变量的取值进行统计分组,同时计算每一组对应的频数。§1.4.1定性变量的统计表描述分类变量
频数(frequencey)
是指落在某一特定类别(或组)中的数据个数。频率或比例(proportion)
把各类的频数与全部频数之和求比值得到。通常反映总体的构成和结构。比率(ratio)
不同类别数值个数的比值,是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。频数分布(frequencydistribution)和频率分布
把各个类别及其相应的频数或频率全部列出,并用统计表的形式表现出来形成。§1.4.1定性变量的统计表描述例如:假设某项调查中3000名被访问者按性别分类(组)后,即可整理得到男性和女性的人数,从而得到每一类的频数、频率以及比例分布表:§1.4.1定性变量的统计表描述顺序变量累积的方法向上累积:从顺序变量取值的最小一方,向最大一方累加。向下累积:从顺序变量取值的最大一方,向最小一方累加。累积频数:将顺序变量各个取值的观测频数逐级累加起来得到的频数。累积频率或累积百分比将顺序变量各取值所对应频数的百分比累加起来得到的百分比§1.4.1定性变量的统计表描述例如:假设某项调查中3000名被访问者按照受教育水平高低可分为四大类时,除了可以得到每一类所对应的频数、比例分布表,还可计算累积频数或频率分布表:
累积频数分布具有如下两个特点:(1)第一组的累计频数等于第一组本身的频数;(2)最后一组累计频数等于总体单位数。累计频率分布同样具有两个特点:(1)第一组的累计频率等于第一组本身的频率;(2)最后一组累计频数等于1。§1.4.2定量变量的统计表描述
对于定量变量,通常采用统计分组,得到每一组所对应的频数、频率或比例表,用来对数据特征进行描述。统计分组就是根据统计研究的需要,按照一定的标志,将总体中所有单位划分为若干个组成部分的一种统计方法。统计分组的作用(一)划分不同的社会经济现象某地区城镇居民家庭人均消费构成按商品分类分组构成(%)食品类40.6衣着类4.7家庭设备用品类7.5文化娱乐用品类11.6交通通讯类10.8医疗保健类4.7居住类14.4杂项商品类5.7合计100(二)说明现象总体的内部结构及比例关系(三)分析社会现象之间的依存关系小麦播种量与产量关系播种量(公斤/亩)亩产量(公斤/亩)4.57.51014.5225300290275统计分组的种类(一)按分组标志的多少可分为简单分组和复合分组简单分组就是对研究现象按一个指标进行分组。许多简单分组从不同角度说明同一个总体,就构成一个平行的分组体系。在许多场合,要用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分组,又再层叠地按第三个标志分成更小的组,这称为复合分组。(二)按分组指标的性质不同分为品质分组(属性分组)和数量分组(变量分组)品质分组是按品质标志进行分组。一般地,对于分类数据和顺序数据计量的,采用品质分组。例如,企业按经济类型分组、固定资产按行业分组、人口按性别分组、大学按专业分组等。数量分组是按数量标志进行分组。例如,企业按年销售收入分组、居民按可支配收入水平分组等。品质分组所形成的数列称为品质数列,变量分组所形成的数列称为变量数列。统计分组的原则和方法1.统计分组的原则:穷尽原则:使总体中的每一个单位都应有组可归(每个孩子都有家可归),或者说各分组的空间足以容纳总体所有的单位。互斥原则:就是在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。2.统计分组的方法(1)品质分组:按品质标志分组事物本身的属性特征;统计研究的要求(2)数量分组:按数量标志分组。应注意两个问题:第一,分组时数量界限的确定必须能反映事物的差别;第二,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。(A)单项式分组与组距式分组单项式分组:用一个变量值作为一组,形成单项式变量数列。一般适用变动范围不大的离散型变量。组距式分组:将变量依次划分为几段区间,一段区间表现为从“……到……”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区间的距离就是组距。适用于连续型变量或者变动范围较大的离散型变量。(B)间断组距式分组和连续组距式分组组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下限,最大值为上限。组距是上下限之间的距离,相邻的界限,称为组限。凡是组限不相连的,称为间断组距式分组。凡是组限相连的,即以同一数值作为相邻两组的共同界限,称为连续组距式分组。在连续组距式分组中,存在以同一个数值作为相邻两组共同的界限,因此,根据统计分组”互斥原则“,我国统计制度规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一单位归入作为下限值的那一组内,亦称“上限在不内”原则。(C)等距分组与异距分组按数量标志进行组距式分组,还可以分为等距分组与不等距(异距)分组。等距分组就是标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。异距分组即各组的组距不相等。一般地,异距分组适用于以下几个场合:一是标志值分布很不均匀;而是标志值相等的量具有不同意义;标志值按一定比例发展变化。组数:即将总体分为几组。1、全距=最大标志值-最小标志值
2、组距连续型组距式分组的组距=各组最大标志值(上限)-各组最小标志值(下限)=全距÷组数(等距分组)间断型组距式分组的组距=各组最大标志值(上限)-各组最小标志值(下限)+1注意:(1)组数的多少取决两个因素:一是总体的标志变异全距;另一个是组距。在等距分组情况下,组数=全距/组距。(2)在组距既定条件下,全距大则组数多,全距小则组数少;在全距既定条件下,组距大则组数少,组距小则组数多。所以确定组数的关键是确定组距。确定组距涉及两个问题:一是组距的大小;二是组距的形式(等距和异距)3、组数、组距确定的斯特杰斯(美国统计学家)经验公式式中,n为组数,N为总体单位数,d为组距,R为全距。根据斯特杰斯经验公式,可以得出以下的组数的参考标准:
N15-2425-4445-8990-179180-359
n
5
6
7
8
9组距分组
(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5K15确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=(最大值-最小值)÷组数统计出各组的频数并整理成频数分布表组距分组(几个概念)1.组限:指每组两端数值。分上限和下限。2.下限(lowerlimit):一个组的最小值,或者说是每组的起点数值(最小值)3.上限(upperlimit):一个组的最大值;或者说是每组的终点数值(最大值)组限的形式与变量的特点密切相关。如果分组标志是连续变量,组限一般重合式;如果分组标志是离散变量,组限一般用不重合式。所谓重合式,就是相邻两组中,前一组中的上限与后一组的下限数值相重。如人口年龄为0-1岁,1-3岁,3-7岁,7-14岁…。形式上相重,实际上两组之间是没有重复的,一般按”含下限不含上限“或”上限不在组内“的原则处理。所谓不重合式就是前一组的上限与后一组的下限,两值紧密相连又不重复。4.组距(classwidth):上限与下限之差5.组中值(classmidpoint):下限与上限之间的中点值,代表组内标志值的一般水平,具有平均数的性质(但不是平均数)。下限值+上限值2组中值=当两组间的相邻组限重合时:组距=本组上限-本组下限组中值=(上限+下限)/2
或=下限+组距/2
或=上限-组距/2
当两组间的相邻组限不重合时:组距=下组下限-本组下限或=本组上限-前组上限=本组上限-本组下限+1组中值=(本组下限+下一组下限)÷2
或=本组下限+组距/2
或=下组下限-组距/2在组距式分组中,常常会遇见首末两组”开口“的情况,即第一组用”多少以下“(有上限无下限),最后一组用”多少以上“(有下限无上限)来表示。组中值是以相邻组组距为依据,按下式计算:
缺下限时,组中值=上限-邻组组距/2
缺上限时,组中值=下限+邻组组距/2例如,某企业工人生产定额完成情况,按生产定额完成程度分组分为:90%以下,90%-100%,100%-110%,110%以上。当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重叠的形式,组中值的确定应考虑到连续型变量自身的特点。年龄就是比较典型的例子,是连续型变量,习惯上用整数来表示。例如,一群大学生分为17-19岁、20-22岁两组组距=20-17=3岁组中值为(20+17)/2=18.5岁和(23+20)/2=21.5岁某研究生班学生按年龄分组年龄人数比重%20-25186025-3093030-35310合计30100下限上限组距=上限-下限=25-20=5(岁)组中值=(上限+下限)/2上限不在本组内80名同学统计成绩分布表成绩(分)人数(人)比重(%)60以下78.860-702126.270-802531.280-901923.890以上810.0合计80100无下限组组中值=本组上限-临近组组距/2无上限组组中值=本组下限+临近组组距/2§1.4.2定量变量的统计表描述单变量分组:把每一变量取值都作为分组标志。这种方法适用于离散型变量,且变量取值较少时的情形。例如:某项调查中100名调查员每人调查的有效问卷数。
§1.4.2定量变量的统计表描述对于有效问卷数处于130到150份之间的调查员根据其问卷数进行单变量分组,得到分组表:§1.4.2定量变量的统计表描述单变量分组会使得分组过细,组数过多,不利于观察数据分布的特征和规律。对于连续型变量也无法采用单变量分组方式。在连续型变量或变量取值较多的情况下,通常采用组距分组。1.4.2定量变量的统计表描述根据分组结果整理频数分布表:
§2用统计图描述数据§2.1统计图§2.2定性变量的图示
§2.3定量变量的图示
§2.4趋势的图示
§2.1统计图
统计图是以图形形象地表现统计数据的一种形式。
统计图的分类,根据描述统计变量的个数单变量统计图双变量统计图多变量统计图
统计图的分类,根据描述统计变量的性质和外形特征:条形图,饼图,环形图,累计分布图,直方图,折线图,茎叶图,盒形图,散点图。
制作统计图的目的:1、帮助研究者从数据中提取信息2、把统计数据包含的信息传递给使用者,把“枯燥”的统计数据转化为生动形象的图形信息。§2.2定性变量的图示1.条形图
条形图(bargraph)可用于显示分类变量和顺序变量取值的频数或频率分布。
用宽度相同的条形的高度或长短来表示频数的多少或频率的大小。
条形图可以横置或纵置,纵置时也称为柱形(columngraph)。根据图形描述的定性变量的个数,条形图有单式、复式等形式。§2.2定性变量的图示单式条形图复式条形图2007年我国人口城乡分布条形图1978年和2007年我国人口城乡分布条形图§2.2定性变量的图示2.饼图
饼图(piechart)可用于显示分类变量和顺序变量取值所对应的频数或频率分布。用圆形及圆内扇形的面积来表示数值的大小。可用于表示分类变量中各组频数所占的比例,即相对大小。对于研究结构性问题十分有用。
§2.2定性变量的图示2007年我国人口城乡分布比重饼图
§2.2定性变量的图示3.环形图
环形图(doughnutchart)可以同时绘制多个总体或样本的数据系列。每一个总体或样本的数据系列为一个环。环形图可显示多个总体或样本各部分所占的相应比例。有利于进行比较研究。
§2.2定性变量的图示1978年和2007年我国人口城乡分布环形图
§2.2定性变量的图示4.累积分布图
累积分布图(cumulativedistributiongraph)包括累积频数分布图和累积频率分布图。3000名被访者受教育水平累积频数分布图
§2.3定量变量的图示定量变量也称为数值型变量。
按照数据的取值类型,分为:连续性变量和离散型变量
用来描述定性变量取值的图示法都能够用来描述定量变量的数值。此外,还可以采用直方图、折线图、茎叶图、盒形图来进行描述。§2.3定量变量的图示1.直方图
直方图(Histogram)是根据定量变量的取值范围来显示观测频数的图。常用于显示连续型变量在取值区间内的频数分布。用矩形的宽度和高度(即面积)来表示频数的分布。在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图
§2.3定量变量的图示100名调查员的有效问卷数分布直方图§2.3定量变量的图示直方图与条形图的不同:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此,其高度与宽度均有意义。(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(3)条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。§2.3定量变量的图示2.折线图折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。§2.3定量变量的图示100名调查员的有效问卷数分布折线图
§2.3定量变量的图示
当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。
常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布正态分布偏态分布
右偏(正偏)左偏(负偏)§2.3定量变量的图示J型分布
U型分布
§2.3定量变量的图示3.茎叶图
茎叶图(stem-leafplot),可以反映原始数据的分布形状及数据的离散情况。
制作茎叶图时,首先把一个数字分成两部分,将最后一位作为叶,其他的高位数字作为茎。§2.3定量变量的图示100名调查员有效问卷数分布的茎叶图
§2.3定量变量的图示茎叶图与直方图的比较:
茎叶图类似于横置的直方图,但又有不同。
茎叶图既能给出数据的分布状况,又能给出每一个原始数据,从而保留了原始数据的信息,一般适用于小批量数据;
直方图能够反映定性变量取值的分布,但不能保留原始的数据信息,通常适用于大批量数据。§2.3定量变量的图示4.盒形图
盒形图(boxplot)主要用来反映原始数据的分布特征。它由一组数据的最大值、最小值、中位数、上下四分位数这个五个特征数值组成。与茎叶图相比,盒形图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。
§2.3定量变量的图示按性别区分的男女学生外语成绩盒型图
§2.4趋势的图示
当我们需要考虑定量变量取值在不同时间截面上的分布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。§2.4趋势的图示1.线图
线图(lineplot)在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的趋势特征,因此也可以称为时间序列图。§2.4趋势的图示按销售单位所在地分的1998-2007年社会消费品零售总额
§2.4趋势的图示2.散点图
散点图(scatterplot)是用二维直角平面坐标展示两个定量变量取值随时间变化表现出的趋势,主要用来观察变量间的相关关系。用坐标横轴代表变量,纵轴代表变量,两个变量的每组数据在坐标系中用一个点表示。§2.4趋势的图示1998-2007年国内生产总值和货运周转量散点图
§2.5如何制作好的统计图
“图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。一个好图应具备的基本特征:(1)显示数据;(2)注意力集中在图形的内容上,而不是制作程序;(3)避免歪曲事实;(4)强调数据之间的比较;(5)服务于一个明确的目的;(6)有对图形的统计描述和文字说明。§2.5如何制作好的统计图Tufte提出了五种鉴别图形好坏的标准(1)好图应当精心设计,有助于洞察问题的实质;(2)好图应当使复杂的观点得到简明、确切、高效的阐述;(3)好图应当能以最少的笔墨提供最大的信息(4)好图应当是多维的;(5)好图应当表述数据的真实情况。
§2.5如何制作好的统计图你能看出他们的问题吗?我国主要年份社会消费品零售额按行业划分构成
§2.5如何制作好的统计图1999年-2008年我国社会消费品零售总额及其增速
一张好的图表应包括以下基本特征显示数据让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况鉴别图表优劣的准则§3用计算机实现制统计图
§3.1SPSS数据库文件的建立§3.2用SPSS软件制作统计图
§3.1SPSS数据库文件的建立1.录入数据模式2.导入数据模式3.频数分布表和累积频数表的制作§3.2用SPSS软件制作统计图1.条形图2.饼图3.累积分布图4.直方图5.折线图6.茎叶图7.盒型图8.线图9.散点图第一章练习题答案1-5DDABA6-10DCACC11-15ACBDB16-20ADBCA21-25DABCA26-29DCAB第二章练习题答案1-5BAABB6-10CDDDC11-15CADDC16-20CDDBB21-25ACABA26-32BABDACA练习题1、落在某一特定类别或组中的数据个数称为()A频数B频率C频数分布表D累积频数2、一个样本或总体中各个部分的数据与全部数据之比称为()A频数B频率C比例D比率3、样本或总体中各不同类别数值之间的比值称为()A频数B频率C比例D比率4、将比例乘以100得到的数值称为()A频率B百分数C比例D比率5、下面的哪一个图形最适合于描述结构性问题()A条形图B饼图C雷达图D直方图6、下面的哪一个图形适合于比较研究两个或多个样本或总体的结构性问题()A环形图B饼图C直方图D茎叶图7、将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,这样的分组方法称为()A单变量值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 60335-2-43:2024 CMV EN Household and similar electrical appliances - Safety - Part 2-43: Particular requirements for clothes dryers and towel rails
- 黄山学院《材料力学》2021-2022学年第一学期期末试卷
- 淮阴师范学院《中学思想政治学科教学论》2021-2022学年第一学期期末试卷
- 淮阴师范学院《现代教师礼仪》2021-2022学年第一学期期末试卷
- 淮阴师范学院《雕塑》2022-2023学年第一学期期末试卷
- 淮阴师范学院《大学体育》2021-2022学年第一学期期末试卷
- 淮阴工学院《通信电子线路》2022-2023学年期末试卷
- DB5115-T 129-2024《油樟优树选择技术规程》
- DB 3705-T 14-2024《城市大脑场景应用开发规范》
- 噢易教育桌面云解决方案(100点)
- 教师教学述评管理制度
- 建立网络安全管理责任制明确安全工作职责和责任
- 安徽省工伤职停工留薪分类目录
- 30题南昌轨道交通集团供电技术类岗位岗位常见面试问题含HR问题考察点及参考回答
- 农贸市场摊位招商方案
- 医疗设备采购 投标技术方案 (技术方案)
- 《化学课程思政元素》
- 2024继续教育《医学科研诚信与医学了研究伦理》答案
- 门诊品管圈课件:提高门诊治疗患者健康教育的满意度
- 职业生涯报告六篇
- 作业本印制服务投标方案(技术标)
评论
0/150
提交评论