《统计学:思想、方法与应用》第4章定量数据的描述方法_第1页
《统计学:思想、方法与应用》第4章定量数据的描述方法_第2页
《统计学:思想、方法与应用》第4章定量数据的描述方法_第3页
《统计学:思想、方法与应用》第4章定量数据的描述方法_第4页
《统计学:思想、方法与应用》第4章定量数据的描述方法_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章定量数据的描述方法4.1展示数据的分布4.2定量数据的其他图形表示4.3分布的集中位置4.4分布的离散程度4.5分布形态的度量4.6标准得分4.7误用描述方法扭曲事实07:211学习目标

掌握统计数据的整理方法;掌握数据集中趋势的测度方法;掌握数据离散程度的测度方法;了解偏态与峰态指标的含义;了解数据的标准化;相关理论在统计软件中的应用。07:212描述性分析原始数据是反映个体的量,是分散的无系统的,不能反映总体的一般规律。为了使数据系统化,反映总体的特征、规律及发展趋势,这需要使用一定的方法(如一些表格、图形和汇总数字来描述)对数据进行整理和综合,便于人们的理解和使用。这些描述的方法被称为描述统计学(descriptivestatistics)。对数据进行描述性分析能帮助分析人员选择适当的处理和分析方法。07:2134.1展示数据的分布表4.1安然公司1997-2001年股票价格变化的数据(单位:元)稍微搜索一下,我们可以找到最低股价变化值和最高股价变化值分别为21.06元和-17.75元,但这也几乎就是全部可以了解的信息了。确定典型的股价变化值是比较困难的,要看出股价变化值趋向于集中到哪里也是困难的,更难以看出股价变化的趋势。一月二月三月四月五月六月七月八月九月十月十一月十二月1997-1.44-0.75-0.69-0.880.120.750.81-1.750.69-0.22-0.160.3419980.780.622.44-0.282.22-0.52.06-0.88-4.54.121.16-0.519994.284.34-1.220.475.62-1.594.311.47-0.72-0.38-4.250.0320005.7221.064.54.56-1.25-1.19-4.1289.311.12-4.19-17.75200114.38-1.08-10.11-12.115.84-9.37-4.74-2.69-10.61-5.85-17.16-11.5907:2144.1.1统计数据的分组数据分组是统计数据处理的第一步,它是按照统计研究的目的,将数据分别列入不同的组内。分组品质标志分组数量标志分组单变量值分组组距分组等距分组异距分组07:215单变量值分组指每个组值只用一个具体的变量值表现的数列同时具备变量是离散变量变量的不同取值个数较少编制条件:按年龄分组(岁)人数(人)百分比(%)17181920216141893122836186合计5010007:216组距分组指每个组的变量值用一个区间来表现变量是连续变量;或:总体单位数较多,变量不同取值个数也较多的离散变量。

编制条件:变量值变动区间的长度相等变量值变动区间的长度不完全相等等距分组异距分组07:217相关概念指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值

组中值组中值=07:218开口式组距数列组中值的计算:

首组假定下限=首组上限-相邻组组距末组假定上限=末组下限+相邻组组距先计算开口组的假定上、下限:

因此有:首组组中值末组组中值07:219

次数分布表的编制——组距式数列表4.11997-2001年股票价格变化的数据(单位:元)一月二月三月四月五月六月七月八月九月十月十一月十二月1997-1.44-0.75-0.69-0.880.120.750.81-1.750.69-0.22-0.160.3419980.780.622.44-0.282.22-0.52.06-0.88-4.54.121.16-0.519994.284.34-1.220.475.62-1.594.311.47-0.72-0.38-4.250.0320005.7221.064.54.56-1.25-1.19-4.1289.311.12-4.19-17.75200114.38-1.08-10.11-12.115.84-9.37-4.74-2.69-10.61-5.85-17.16-11.5907:2110编制步骤:⒈求离散全距⒉确定组距及组数R≤组距(i)×组数(k)次数分配表的编制07:2111

(1)确定组数:组数的确定应以能够显示数据的分布特征为目的”。“2的K次方原则”:选择使2k大于观测值个数(n)的最小值(k)作为组的个数。在本例中,合适组数是6。在实际分组时,组数一般为5K15次数分配表的编制

07:2112(2)确定组距:一个组的上限与下限之差组距=(最大值-最小值)÷组数组距=[21.06-(-17.75)]÷6=38.81÷6=6.47在实际中,组距大小通常四舍五入到某个简便的数,本次分组组距可取10。确定组距的原则:要能区分各组的性质差异要能反映总体资料的分布特征第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值次数分配表的编制07:2113⒊确定组限对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。注意质变量变的界限组限的表示方法次数分配表的编制07:21144、统计各组的频数计算落在各组中的次数(见统计学练习之范围个数)每个组的数据满足ax<b(上限不计入原则)次数分配表的编制07:2115等距分组表(闭口分组)表4.2股价变化值的频数分布(闭口分组)按股价变化(元)频数频率(%)-20~-10610-10~026430~10264310~201220~3012合计6010007:2116等距分组表(开口分组)表4.3股价变化值的频数分布(开口分组)按股价变化(元)频数频率(%)-10以下610-10~026430~10264310~201220以上12合计6010007:21174.1.2直方图在将统计数据整理分组和次数分配之后,已经可以初步看出数据的一些规律。为了获得更直观、更形象的印象,我们有时候还需要绘制反映变化趋势的简明图形。常用的统计图有直方图,频数折线图和茎叶图(需SPSS)。07:21184.1.2分组数据看分布

--直方图(例)直方图:主要用于表示分组数据分布的一种图形。用矩形的宽度和高度来表示频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图本质上是用矩形的面积来表示频数分布Excel07:2119做法:在SPSS中选择Graphs->Histogram。在主对话框左边列表中选定变量“股价变化值”放入Variable框。单击OK。图4.1安然公司股价变化值的直方图要注意的是,如果用相对频数分布代替实际频数,那么我们会得到相同的结论,并且直方图的形状也一样。唯一的不同是量纲不同。4.1.2分组数据看分布—直方图07:2120i=5K=9i=8K=607:2121i=10K=507:21224.1.2分组数据看分布—直方图

(直方图与条形图的区别)条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列条形图主要用于展示定性数据,而直方图则主要用于展示定量数据07:21234.1.3频数折线图频数折线图(frequencypolygon)类似于直方图,它以各组标志值的中点位置作为该组标志的代表,然后用折线将各组次数(即每组频数)连接起来,形成了折线图。做法:在SPSS中选择Graphs->Line->Simple。在主对话框左边列表中选定变量”频数”放入LineRepresents里面的变量框。“股票变化值”放入分类轴中,单击OK。07:2124折线图与直方图下的面积相等!4.1.3频数折线图

—可比较多个频数分布图07:21254.1.4茎叶图07:21264.1.4茎叶图茎叶图是一种可以较简练的表现数据信息的图表,类似于直方图,但包含了更多的信息。在茎叶图中,每一个数值被分成两部分,打头的数字作为茎,尾随的数字作为叶。茎沿竖直轴线放置,叶沿水平轴线堆放。它像一片带有长短不一的叶子的茎。茎叶图在数据量不那么大时,既显示了完全的原始数据,又显示了数据分布的形状。因此,茎叶图非常适合描述少量数据(十几个到一百多个数据)的分布,但是,当数据量很大时,茎叶图就显然不方便了。07:21274.1.5累积频数分布除了对数据的分布形态有所了解,有时候我们希望了解股价变化值低于0元的月份数量,累积频数分布或累积频数折线图可以帮助我们获得这样的信息。股价变化值(元)频数累积频数由此得到-20~-1066-10~02632←6+260~102658←6+26+2610~2015920~3016007:2128为了画出累积频数分布图,在X轴上按比例标出每组上限,在Y轴上按比例标出相应的累积频数,得到下图4.4。

4.1.5累积频数分布07:2129为了画出累积频数分布图,在X轴上按比例标出每组上限,在Y轴上按比例标出相应的累积频数,得到下图4.4。为了找出30个月的股价变化值低于多少,我们在左边纵轴上找到频数为30的点。然后我们从这个点做一条水平线到折线图,再从折线图做垂线到X轴并读出股价变化值,大约是-5元左右,因此我们估计30个月的股价变化值低于-5元。4.1.5累积频数分布07:2130累积频数--洛伦茨曲线与基尼系数洛伦茨曲线AB基尼系数=A/(A+B)07:21314.2定量数据的其他图形表示4.2.1线图线图经常用来描述时间序列数据,用以反映某些指标或变量随时间的变化趋势,有时候也称为时间序列图。时间序列图事实上只不过是一个后面将要介绍的散点图,它以度量值为纵轴,以度量值发生的时间或者次序为横轴建立,揭示了所监控的变化量(如销售额)的趋势和变化。07:21324.2.1线图图4.5安然公司从1997年1月到2001年12月的股票变化值07:2133【例】已知1991~1998年我国城乡居民家庭的人均收入数据如表3-11。试绘制线图¥

1991~1998年城乡居民家庭人均收入年份城镇居民农村居民199119921993199419951996199719981700.62026.62577.43496.24284.04838.95160.35425.1708.6784.0921.61221.01577.71926.12091.12162.04.2.1线图(实例)07:2134020004000600019911992199319941995199619971998城镇居民农村居民收入

(元)

城乡居民家庭人均收入4.2.1线图(由Excel绘制的线图)07:21354.2.2未分组数据看分布—箱线图

(boxplot)用于显示未分组的原始数据的分布箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的中位数是一组数据排序后处于中间位置上的变量值四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接07:2136

4.2.2未分组数据看分布—箱线图

箱线图(boxplot,box-and-whiskerplot)是一个常用的描述数据的统计图,又称为箱图、盒型图、盒子图等等。其绘制方法是:先根据上四分位数QU、下四分位数QL和中位数Me画出中间的箱子,箱子的长度为四分位数间距IQR=QU-QL。07:2137箱线图上下的两条线的长度则可以有不同的选择。如果没有数据值大于QU+1.5*IQR,那么该线以数据最大值为端点,否则,线的上端点为上四分位数加上1.5倍的箱子长度,比该端点大的数值则分别在其上方按照其实际值点出。如果数据处于QU+1.5*IQR至QU+3*IQR的范围内用圆圈标出,超出了QU+3*IQR的用星号标出。下面的线也类似。由QL至QL-1.5*IQR区间内的最小值向箱子的底部连线;QL-1.5*IQR至QL-3*IQR的范围内用圆圈标出,小于QL-3*IQR的用星号标出。07:2138中位数Me下四分位数QL上四分位数Qu四分位间距Qu-QLQu+1.5*IQRQu-1.5*IQR07:2139未分组数据看分布—多批数据箱线图

(例题分析)【例】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础7665937468705585909581877573917897517685709268817174886984657395707866907378847093637980608781678691837776907082838292848170697278757891886694808571867468796281815578707568717707:2140用SPSS绘制多批数据箱线图

第1步:选择【Graphs】下拉菜单,并选择【Boxplot】第2步:在出现的对话框中选择【Simple】,在

【DatainChatAre】中选择【Summariesofseparatevariables】,点击【Define】

返回主对话框第3步:在主对话框将所有变量(这里是11个学生)选入

【Boxes

Represent】,将“课程名称”选入

【LabelCasesby】。点击【OK】

绘制箱线图SPSS07:2141未分组数据—多批数据箱线图

(例题分析—Median/Quart./Range)8门课程考试成绩的箱线图07:214211名学生考试成绩的Median/Quart./Range箱线图未分组数据—多批数据箱线图

(SPSS绘制的箱线图)07:2143分布的形状与箱线图不同分布的箱线图对称分布Bell-shapeddistributionLeft-skeweddistribution左偏分布右偏分布Right-skeweddistribution07:2144未分组数据—多批数据箱线图

(上证指数K线图)07:21454.2.3散点图—两个变量间的关系展示两个变量之间的关系用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的图有2维、3维、矩阵等形式07:2146两个变量间的关系—二维散点图【例】

右表是我国1981-2006年的税收与GDP的数据,绘制散点图并观察它们之间的关系年份税收收入GDP年份税收收入GDP1981629.89486219945126.88467591982700.02529519956038.04584781983775.59593519966909.82678851984947.35717119978234.047446319852040.79896419989262.87834519862090.7310202199910682.588206819872140.3611963200012581.518946819882390.4714928200115301.49731519892727.416909200216884.5812033319902821.8618548200320338.4413582319912990.1721618200425551.6315987819923296.9126638200530799.7218386819934255.334634200637457.5920940707:2147用SPSS绘制重叠散点图

(OverlayScatter)第1步:选择【Graphs】菜单,并选择【Scatter/Dot】第2步:如果绘制两个变量的简单散点图,点击【SimpleScatter】,点击【Define】,将两个变量分别选入【YPairs】和【XPairs】,点击【OK】如果要绘制重叠散点图,点击【OverlayScatter】,点击【Define】,将所要配对的数据依次选入【Y-XPairs】(本例为“地区生产总值”和“税收”),点击【OK】如果要绘制矩阵散点图,点击【MatrixScatter】,将几个变量同时选入【MatrixVariables】,将区分坐标轴的样本选入【LabelCasesby】,点击【OK】

绘制重叠散点图SPSS07:2148两个变量间的关系—二维散点图07:2149

4.4.3散点图

散点图有很多变种,也有三维散点图,也有几个散点图画在一起的。在多元回归分析中我们经常采用这样的散点图。在SPSS中选择菜单Graphs→Scatter,打开Scatterplot子对话框,单击MatrixScatter图形,按Define,打开MatrixeScatterplot子对话框,将变量都放入MatrixVariables框,按OK键按钮执行,得到结果。07:2150比较多个样本的相似性—雷达图

(radarchart)也称为蜘蛛图(spiderchart)从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图可用于研究多个样本在多个变量上的相似程度当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。线性变换:对数变换:07:2151多变量数据—雷达图

(例题分析)【例2-6】2006年我国东部、中部、西部及东北地区城镇居民的生活消费支出数据如表2—8所示。绘制雷达图,比较不同地区的消费支出构成07:2152多变量数据—雷达图

(例题分析—原始数据)四个地区城镇居民消费支出中,食品支出额都是最多的,杂项商品与服务支出额则是最少的东部地区城镇居民的各项支出额普遍高于其他三个地区,而中部、西部和东北地区的各项支出则相差不大四个地区各项支出额的结构具有很大的相似性07:2153多变量数据—雷达图

(例题分析—标准化变换)更适宜分析多个样本在多个变量上的差异东部地区城镇居民的各项支出额普遍高于其他三个地区,而中部、西部和东北地区的各项支出则相差不大四个地区各项支出额的结构具有很大的相似性07:2154图形的曲解某行业季度销售额数据如下图所示。(a)中以100(百万元)为纵轴单位,看上去四个季度的销售额差不多。实际上,如果以25(百万元)作为纵轴单位,同样的数据在(b)中就不难看出一、二、三季度的销售额不断增加,第四季度锐减。07:2155图形的曲解美国《纽约邮报》1981年4月刊登了如下所示的统计图,并配上其发行量在惊人地攀升的标题。猛一看图(a),《纽约邮报》和《新闻报》的发行量正在接近,似乎已经没有什么差别。仔细观察你会发现,纵轴从800 000直接就跳到1 500 000,数据间断又没有注明,就人为地造成两种报刊发行量接近的错觉。正确的画法如图(b)所示。07:2156一张好的图表应包括以下基本特征让读者把注意力集中在图表的内容上,而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则:一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息表述数据的真实情况鉴别图表优劣的准则07:2157

4.3分布的集中位置

大量的数字既繁琐又不直观;需要对数据做人们时间和耐心所允许的简化我们可以用“平均”,“差距”或百分比等来概括大量数字。由于定性变量主要是计数,比较简单,常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。07:2158数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)07:21594.3分布的集中位置度量—集中趋势指一组数据向某一中心值靠拢的程度,用平均指标来反映。集中趋势众数中位数均值几何平均数数值平均数位置平均数07:2160根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平数据的“位置”数据有位置吗?这里三个数据的位置一样吗?07:2161“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心。和这种“位置”有关的统计量就称为位置统计量。位置统计量不一定都是描述“中心”的,比如后面要讲的k百分位数(k%分位数)。数据的“位置”07:2162指总体中出现次数最多的变量值,用表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。众数(Mode)4.4.1众数是数据的重点。有时众数是一个合适的代表值

比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸,而不是平均尺寸。

07:2163某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100【例】根据以下数据,计算众数07:2164解:

在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告Mo07:2165甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0【例】根据以下数据,计算众数07:2166软饮料频数频率%可口可乐1938雪碧1326杏仁露816新骑士510醒目510总计5010050次购买软饮料的频数【例】根据以下数据,计算众数07:21674.4.1众数众数一般用来描述分类变量,特别是那些有许多个值的分类变量。07:2168当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。众数的应用07:2169出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200413名学生出生时间分布直方图没有突出地集中在某个年份07:2170192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5170.5168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100413名学生的身高分布直方图出现了两个明显的分布中心07:21714.4.1众数优点1.很容易获得一个变量的众数。2.对于分类变量,它是描述平均值的一个最好办法。4.众数具有不受极端大值或者极端小值影响的优点。缺陷1.提供的信息量较少,数据集中的信息就不能被很好地使用。2.并未告诉我们它较别的数值多的程度。07:2172将总体各单位标志值按大小顺序排列后,处于数列中间位置的标志值,用表示中位数(Median)4.4.2中位数(median)07:21734.4.2中位数中位数(median)是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)由于中位数不易被极端值影响,所以中位数比均值稳健(robust)。07:21741.

位置确定2.

数值确定4.4.2中位数07:2175中位数的计算(数据个数为奇数)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序后:7507808509601080

1250150016302000

位置:1234

56789中位数108007:2176【例】10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000位置:12345678910统计函数—MEDIANExcel中位数的计算(数据个数为偶数)07:21774.4.2中位数何时使用中位数呢?当一个数据的直方图显示出是非对称或非正态分布时,我们常常使用中位数,尤其是房价和收入数据。

房价数据就是一个典型的非对称分布。大部分房子的价格在中间部位,但通常也有几个房子的价格特别高,于是直方图的右侧有一个"尾巴"。职工的收入数据也是一个典型的非对称分布。07:2178中位数的数学性质各变量值与中位数的离差绝对值之和最小,即

应用:主要用于定序数据,也可用数值型数据,但不能用于定类数据

或者:大于,小于中位数的值一样多07:2179优点1.只需要很少量的计算。2.当数据存在偏斜分布时,中位数是一个很好的水平的代表值。4.中位数不易受极端值影响4.中位数具有唯一性,一组数据只有一个中位数。5.数据值与中位数之差的绝对值之和最小。缺点1.没有利用数据中的所有信息。2.中位数对极端值不敏感,这在某些情况下是一种缺点。4.4.2中位数07:21804.4.3平均数对中心位置或集中趋势的描述,最常用的是均值,记为是数据的重心07:2181简单算术平均设一组数据为:x1,x2,…,xn样本平均数统计函数—AVERAGEExcel07:2182加权均值—数据已分组设一组数据为:x1,x2,…,xn相应的频数为:f1,f2,…,fn加权平均07:2183加权平均数(例题分析)某电脑公司销售量数据分组表按销售量分组组中值(xi)频数(fi)xifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—1202220007:2184分析:成绩(分)人数(人)甲班乙班丙班603915010013950平均成绩(分)619980起到权衡轻重的作用决定平均数的变动范围07:2185权数的定义:

第一,权数的数量形式可以是多种多样的,可以是绝对数,也可以是相对数;可以是结构相对数,也可以是比例相对数;可以取正数,甚至有时也可以取负数。第二,权数尽管可以以绝对数或比例相对数的形式出现,但权数的实质是结构相对数。第三,权数是用来衡量诸内部因素在总体中重要程度的。权数是以某种数量形式对比、权衡被评价事物总体中诸因素相对重要程度的量值。

07:21864.4.3均值均值具有以下的重要性质:一组数据只有一个样本均值,样本均值具有唯一性。均值对变量的每一个观测值都加以利用。这就意味着比起众数、中位数,它会获得更多的信息。以后我们会说明,比起中位数与众数来,从均值中更容易获得信息。每一数值相对于均值的偏离之和总是为0,均值是唯一一个具有此性质的集中趋势的度量方法。07:2187

4.4.3均值—应用

当数据集有极端值时,我们最好不使用均值。但对称分布时,均值则是很好的统计量,因为小的观测值与大的观测值相互抵消了。如果数据的分布是不对称的,我们最好使用中位数而不是均值,因为中位数对极值并不敏感。为了决定对一个数据集是使用均值还是中位数,最好两种都算出来。如果它们的值很接近,则我们使用均值,如果它们有很大的不同,则我们使用中位数。07:21884.4.4众数、中位数和均值间的关系左偏右偏对称三者的近似关系07:2189众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好07:2190是N项变量值连乘积的开N次方根4.4.5几何平均数用于计算现象的平均比率或平均速度应用:各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。应用的前提条件:07:2191A.简单几何平均数——适用于总体资料未经分组整理尚为原始资料的情况式中:为几何平均数;为变量值的个数;为第个变量值。几何平均数的计算方法07:2192简单几何平均数的应用【例】一位投资者持有一种股票,近五年的收益率分别为5.2%、5.0%、2.5%、2.8%、3%。计算该投资者在这五年内的平均收益率。平均收益率=103.7%-1=3.7%07:2193B.加权几何平均数——适用于总体资料经过分组整理形成变量数列的情况式中:为几何平均数;为第组的次数为组数;为第组的标志值或组中值。07:2194【例】某金融机构以复利计息。近25年来的年利率有1年为3﹪,4年为5﹪,8年为8﹪,10年为10﹪,2年为15﹪。求平均年利率。设本金为V,则至各年末的本利和应为:第1年末的本利和为:第2年末的本利和为:………………第25年末的本利和为:分析:第2年的计息基础07:2195则该笔本金25年总的本利率为:即25年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。解:07:21964.4.6切尾均值计算公式为n

表示观察值的个数;α表示切尾系数去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用07:2197【例】某次比赛共有11名评委,对某位歌手的给分分别是:经整理得到顺序统计量值为去掉一个最高分和一个最低分,取=1/11

07:21984.4.6切尾均值改变

值可以选择数据集中趋势的测度值。切尾均值是综合了均值和中位数两种计量优点的一种新的对集中趋势测度的计量。

=0时,切尾均值等于均值:当

接近1/2时,切尾均值接近于或等于中位数。;07:2199第一四分位数(Q1),又称“较小四分位数,下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数(Q3),又称“较大四分位数,上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距Qd。4.4.7分位数07:21100数据:7,15,36,39,40,41一共6项Q1的位置=1×(6+1)/4=1.75Q2

的位置=2×(6+1)/4=3.5Q3的位置=3×(6+1)/4=5.25Q1=7+(15-7)×(1.75-1)=13Q2=36+(39-36)×(3.5-3)=37.5

Q3=40+(41-40)×(5.25-5)=40.254.4.7分位数实例07:21101

如果你的脚踩在炉子上,而头却在冰箱里,统计学家会告诉你,平均而言,你是相当舒服的。

调侃统计学家

07:21102讨论:怎样评价水平代表值?如果甲地区的平均收入为5000元,乙地区的为3000元。你能否认为甲地区的平均生活水平就高于乙地区呢?首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。

相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区07:21103怎样评价水平代表值?仅仅知道数据的平均水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。

数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越高07:21104例:如果你是一名供应部门经理,与两家原材料供应商联系供货,两家均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?07:21105这两个数据“胖瘦”一样吗?4.4分布的离散程度07:21106

左边的数据平均要高些,但右边的数据散布范围要小得多。4.4分布的离散程度07:21107数据的特征和测度分布的形状离散程度集中趋势众数中位数均值离散系数方差和标准差峰度四分位差极差偏态07:21108指所研究的数据中,最大值与最小值之差极差07:21109离散程度的度量:为什么全距可能会误导忽略数据分布的方式对异常值敏感789101112全距=12-7=5789101112全距=12-7=5

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120全距=5-1=4全距=120-1=11907:21110优点:

计算方法简单、易懂;缺点:

1、全距易受极端值的影响;

2、由于全距只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。往往应用于生产过程的质量控制中全距的特点07:21111四分位间距也称为内距或四分位差上四分位数与下四分位数之差:Qd=Q3

–Q1反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性25%75%07:21112Q3=85Q1=67小时数灯泡数累积43-482248-531353-582558-63212663-68285468-73288273-783311578-832614183-882116288-931918193-981019198-1036197103-1082199108-1130199113-1181200200只灯泡使用寿命频数分布表四分位差与箱线图50%的观测值集中于盒子之内。盒子越窄,表明集中程度越高,即离散程度越低四分位间距07:21113另一个常用的统计量为(样本)标准差,度量样本中各数值到均值距离的一种平均。标准差是方差的平方根。如果记样本中的观测值为x1,…,xn,则样本方差为4.4.2标准差和方差07:21114两个均值一样,但右边的要“胖”些,方差为左边的一倍4.4.2标准差和方差07:21115样本方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!07:21116

自由度

(degreeoffreedom)自由度的概念由统计学家R.AFisher提出是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k07:21117

自由度

(degreeoffreedom)样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x

=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x

,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量07:21118【例3-5】计算9名员工的月工资收入的方差和标准差

15007507801080850960200012501630方差标准差统计函数—STDEVExcel样本方差和标准差(例题分析)07:21119某电脑公司销售量数据平均差计算表按销售量分组组中值(xi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合计—120—55400样本方差和标准差(例题分析)07:21120样本方差和标准差(例题分析)07:21121经验法则当一组数据正态分布时:约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内07:2112207:211234.4.3均值的标准误差对不同的样本,样本均值通常也是不同的。重复产生的各均值的差异是多大呢?它们是否比个体观测的差异小或相同呢?为了区别这两种标准差,由原始观测值算出的叫做标准差,由一组均值算出的叫做标准误差或均值的标准差。标准误差比标准差小。可由一个样本估计标准误差:安然股价标准误差:

07:21124均值的标准误差比观测值的标准差小,这就是说,均值的变化比变量原始观测值的变化小。均值的标准误差是一个很有用的统计量。在安然股票的例子中,两倍的标准误差是1.6。加减两倍的均值的标准误差可以得到一个长度为4.2的区间。如果我们有足够的样本和样本均值,那么大部分的样本的均值会落在这个4.2的区间之中。4.4.3均值的标准误差07:211254.4.4离散系数当进行两个或多个数据集离散程度的比较时,如果均值相同,可以直接利用标准差来比较。但是如果均值不同时,比较其离散程度还能采用标准差吗?假设有一群大象和一群小白兔,现在想知道大象家族的体重差异大还是白兔家族的体重大?显然,大象的体重远远高于白兔,此时要比较各自体重差异就不能采用标准差,而需采用标准差与平均数的比值(离散系数)来比较07:21126可比离散系数指标07:21127离散系数(coefficientofvariation),记为CV,计算公式为

何时使用离散系数:数据具有不同的单位(比如工资和矿工的天数)数据具有相同的单位,但是均值相差甚远(比如大象和老鼠的体重)4.4.4离散系数07:21128身高的差异水平:cm体重的差异水平:kg用离散系数可以相互比较可比07:21129【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。解:一班成绩的离散系数为:二班成绩的离散系数为:因为,所以一班平均成绩的代表性比二班大。07:21130离散系数(实例和计算过程)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度07:21131离散系数X1=536.25(万元)S1=309.19(万元)cv1=536.25309.19=0.577S2=24.09(万元)cv2=32.521524.09=0.710X2=32.5215(万元)结论:cv1<cv2,说明产品销售额的离散程度小于销售利润的离散程度07:21132偏度计算公式:sk>0正偏(右偏);sk<0负偏(左偏);sk=0对称;sk越大,偏态程度越大。4.5分布形态的描述:偏度07:21133峰度计算公式:ku>3尖顶峰;ku

=3正态峰;ku<3平顶峰。4.5分布形态的描述--峰度07:21134偏态/峰态实例【例】已知1997年我国农村居民家庭按纯收入分组的有关数据如表。试计算偏度/峰度系数1997年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.9407:21135计算过程农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组(百元)组中值xi户数比重(%)5以下5—1010—1515—2020—2525—3030—3535—4040—4545—5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1824.1689.02171.43250.72320.741481.81

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论