统计学第四章 数据分布的特征和度量_第1页
统计学第四章 数据分布的特征和度量_第2页
统计学第四章 数据分布的特征和度量_第3页
统计学第四章 数据分布的特征和度量_第4页
统计学第四章 数据分布的特征和度量_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布的特征和度量第一节分布的集中趋势——数值平均数主要内容算术平均数中位数众数几何平均数和调和平均数下面是一个小故事:一个人到某公司求职,经过调查,得出关于该公司工资的一些数据,如果是你,应该如何选择?挠头的数值公司员工的月薪如下:我们有三种方法选择集中趋势:(1)根据频数:哪个变量值出现次数越多,就选择哪个变量值,比如民主决策的表决机制。(2)根据居中:比如一个城镇居民的生活水平,居中的是小康家庭,那么就用小康家庭来代表该城镇的生活水平。(3)根据平均:用平均数来代表变量的平均水平。关于集中趋势的一个故事吉斯莫先生有一个小工厂,生产超级小玩意儿。管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。工作人员由5个领工和10个工人组成。工厂经营得很顺利,现在需要一个新工人。现在吉斯莫先生正在接见萨姆,谈工作问题。吉斯莫:我们这里报酬不错。平均薪金是每周300美元。你在学徒期间每周得75美元,不过很快就可以加工资。萨姆工作了几天之后,要求见厂长。萨姆;你欺骗我!我已经找其他工人核对过了,没有一个人的工资超过每周100元。平均工资怎么可能是一周300元呢?吉斯莫:啊,萨姆,不要激动。平均工资是300元。我要向你证明这一点。吉斯莫:这是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。总共是每周6900元,付给23个人,对吧?萨姆:对,对,对!你是对的,平均工资是每周300元。可你还是蒙骗了我。吉斯莫;我不同意!你实在是不明白。我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。萨姆:每周100元又是怎么回事呢?吉斯莫:那称为众数,是大多数人挣的工资。吉斯莫:老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。萨姆:好,现在我可懂了。我……我辞职!一、统计平均数的含义与作用

(一)、统计平均数的含义表示社会经济现象总体各单位某一标志在一定时间、地点条件下所达到的一般水平,亦即总体各单位标志值的差异抽象化,反映在具体条件下各单位标志值达到的一般水平。(二)、统计平均数的特点将数量差异抽象化只能用于同类现象的计算能反映总体变量的集中趋势集中趋势:总体各单位的次数分布从两边向中间集中的趋势,也叫趋中性。(三)、平均指标的作用反映总体各单位变量分布的集中趋势和一般水平比较同类现象在不同单位的发展水平比较同类现象在不同时期的发展变化趋势和规律可用于分析现象之间的依存关系和进行数量的估算(四)、平均指标的两大类别数值平均数(常用的有算术平均数、调和平均数、几何平均数和幂平均数)位置平均数(常用的有中位数和众数)二、算数平均数算术平均数的统计定义公式计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。实际上由于所掌握的统计资料不同,计算平均数有简单算术平均数和加权算术平均数两种。(一).简单算术平均数(用于未分组资料或变量分配数列中,各组次数都相等的情况)

注意:对求和符号,此时流动脚标的变动范围是1,2,3,…,N,如果为未分组资料,N为总体单位总数,如为次数相等的分组数列,N为组数。

[例]求74、85、69、9l、87、74、69这些数字的算术平均数。[解]

(二).加权算术平均数(用于分组资料中,各分组次数不同的情况)

注意:对求和符号,此时流动脚标的变动范围是1,2,3…,n,n是组数,而不是总体单位数。很显然,算术平均数不仅受各变量值(X)大小的影响,而且受各组单位数(频数)的影响。由于对于总体的影响要由频数(f)大小所决定,所以f也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。(1)、权数的意义和作用权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。当各组的次数都相同时,即当f1=f2=f3=…=fn时:加权算术平均数就等于简单算术平均数。

(2)、权数的选择一般来说,次数就是权数,但也有不合适的情况对于组距数列,要用每一组的组中值权充该组统一的变量值。[例]求下表所示数据的的算术平均数(三)、是非标志的平均数

(成数)在总体中,具有某种性质的单位占总体的比率为p,P也称为总体中具有某种属性的单位成数,是是非标志的平均数。不具有该种性质的单位占总体的比率为q。在总体中,将总体分为两大类,一类为具有某种性质的单位,它的单位数用表示,另一类为不具有某种性质的单位,它的单位数用表示,他们的和为总体单位总数N,即,那么P的计算公式如下:是非标志的平均数主要是针对于品质数据而言,把品质标志性质上的差异过度到数量上的变异。(四)、算术平均数的数学性质(1)算术平均数与标志值个数的乘积等于各标志值的总和。简单算术平均数:加权算术平均数:(2)各个标志值与其算术平均数的离差之和等于零。简单算术平均数:加权算术平均数:(3)各标志值与算术平均数离差的平方和为最小值。三、调和平均数(不能有标志值为0)1.简单调和平均数:标志值的倒数的算术平均数的倒数。

适用场合:各标志值对应的标志总量为一个单位或是相等的情况。n指标志值的项数2.加权调和平均数计算公式:在权数选择合适时,加权调和平均数实际上是加权算术平均数的变形:当各组标志总量相等,m1=m2=…=mn时,加权调和平均数可化简成为简单调和平均数形式。3.平均数计算方法的选择设:则:例:某商品在三个市场上的销售情况四、几何平均数G

(geometricmean)N个变量值连乘积的N次方根。(不能有变量值为0)。适用于:(1)计算某种比率的平均数;(2)计算大致具有几何级数关系的一组数字的平均数,如经济指标的平均发展速度。1、简单几何平均数(适用于为分组资料)对数式:(2)加权几何平均数(适用于分组资料)

对数式:

应该指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实际意义。

例一:某水泥生产企业1995的水泥为100万吨,1996年与1995年相比增长9%,1997年比1996年增长16%、1998年比1997增长20%,求各年的平均增长率。

例二:某投资银行某笔投资的年利率按复利计算,25年的年利率如下:

年利率发展速度年数

103%1

105%4

108%8

110%10

115%2五、幂平均数设有一组变量求各变量k次方的和:根据算术平均数的数学性质1,以幂平均代替各具体变量xi,其数值总和不变,则称为k阶幂平均数,当k取不同的整数值时,幂平均数就给出不同的数值平均数计算公式。

当k=1时,幂平均数,为算术平均数计算公式。当k=-1时,幂平均数,为调和平均数计算公式。当K趋近于0时,为几何平均数计算公式。幂平均数的是关于k阶的递增函数,即幂平均数是随着k的增大而增大,随着k的减少而减少,当k1<k2时,就有:

因为算术平均数、几何平均数、调和平均数都是幂平均数的k阶数由1递减为0又减为-1的特例,三者之间的一般数量关系为:调和平均数小于几何平均数小于算术平均数;当各变量相等时,调和平均数等于几何平均数等于算术平均数。第二节分布的集中趋势—位置平均数一、众数(Mode

)1.定义:众数是指社会现象总体中最普遍出现的标志值。用Mo表示。

众数只与次数有关,可以用于定类、定序、定距、定比资料。2.众数的确定

1).对于未分组资料(直接观察)首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。

2).对于分组资料单项式分配数列确定众数:出现次数最多的标志值就是众数。组距式分配数列确定众数:由组距数列确定众数,先确定众数组,再通过一定的公式计算众数的近似值。组距式数列确定众数的公式下限公式:

上限公式:

求下表中的众数众数求下表中的众数(1)众数仅受上下相邻两组频数大小的影响,不受极端值影响,对开口组仍可计算众数;增强了变量数列的一般水平代表性。(2)受抽样变动影响大;(3)众数不唯一确定。(4)众数标示为其峰值所对应的变量值,能很容易区分出单峰、多峰。因而具有明显偏态集中趋势、且总体单位较多的频数分布,用众数最合适。3.众数的性质二、中位数1.定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。2.中位数的确定1)未分组资料确定中位数。将总体各单位的标志值按照大小顺序排列,当总体单位数n为奇数时:当总体单位数n为偶数时,:例求54,65,78,66,43这些数字的中位数。例、求54,65,78,66,43,38这些数字的中位数。你会吗?2)单项式分组资料确定中位数当为奇数时:,

当为偶数时,3)组距式分组资料确定中位数

当根据组距数列求中位数时,要采用所谓的比例值法:先根据N/2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用以下任何一种方法求出中位数。下限公式:向上累计

上限公式:向下累计[例]某年级学生身高如下,求中位数3.中位数的性质(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。

(2)中位数不受极端值的影响。对某些不具有数学特点或不能用数字测定时可用中位数。

(3)分组资料有不确定组距时,仍可求得中位数。

(4)中位数受抽样变动的影响较算术平均数略大。三.其他分位数

(一)四分位数

中位数所有单位被等分为两部分,因而被称为二分位数。类似于求中位数,我们还可求出四分位数、十分位数、百分位数。将总体中的各单位分割成相等的四部分,则这三个分割的变量值就是四分位数。若以Q1、Q2、Q3分别代表第一、第二、第三四分位数。Q2

即中位数,对于未分组数据,Q1、Q3即为1/4和3/4所对应的标志值;对于单项式分组,求累计频数,找1/4和3/4位置所对应的Q1、Q3值;对于组距式分组,Q1、Q3的计算方法分别分别是:四、各种平均数的比较(一)数值平均数与位置平均数的比较

首先,数值平均数和位置平均数都是表明总体数据的集中趋势和一般特征,都是属于抽象化的代表值,但它们的代表性意义有所不同。数值平均数由总体中全部变量值参与计算,反映了所有数值的代表性水平,但它易受极端数值的影响,如果其中有若干极大或极小数值,就把它的平均数拉高或拉低了,与一般的趋势产生了若干背离。而位置平均数是由数据在数列中的位置来决定的,极端数值的出现并不影响位置平均数总体的代表性,可能更能够说明该数列的一般水平和趋势。对两类平均数的应用,应该根据统计研究目的和数据的特征,分别采用适合的方法加以分析。 其次,两者所依据的统计资料属性不同,各种数值平均数对数据的量化尺度要求只能应用定距数据和定比数据,而位置平均数则不同,它们还适用于各种定序尺度的数据,众数甚至还适用于各种定类数据。(二).众数、中位数和算术平均数的关系区别:1)

三者的含义不相同;2)

三者的计算(确定)方法不同;3)

对资料的要求不同,4)对数据的“灵敏度”、“抗耐性”和“概括能力”不同。联系:(1)

三者都是作为反映总体一般水平(或集中趋势)的平均指标:(2)

三者之间存在着一定的数量关系,A.在对称的正态分布条件下:算术平均数等于众数等于中位数:B.在非对称正态分布的情况下,众数、中位数和平均数三者的差别取决于偏斜的程度,偏斜的程度越大,它们之间的差别越大。(3)、皮尔生经验法则分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:(三)算术平均数、调和平均数和几何平均数的关系假设有数据、,(),对这三者关系证明如下:令:

则:,即又则:,即由上可得,算术平均数≥几何平均数≥调和平均数。第三节分布的离散趋势一、变异指标的含义与作用1.定义:变异指标反映总体内部的离中趋势或变异状况。变异指标值越大,表明总体各单位标志的变异程度越大。2.作用:(1)衡量平均指标的代表性。(2)反映现象变动的均衡性。(3)研究总体标志值分布偏离正态的情况。(4)进行抽样推断等统计分析的一个基本指标。变异指标如按数量关系来分有以下两类;凡用绝对数来表达的变异指标,统称绝对离势;凡用相对数来表达的变异指标,统称相对离势;主要有极差、平均差、四分位差、标准差等。主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。二、极差1)极差也称全距,它是统计总体中两个极端标志值之差,表明总体中标志值变动的范围。2)计算公式: (未分组及单项式) (分组) 式中:Umax代表最高组的上限;Lmin代表最低组的下限。3)特点:计算简便,直观易于理解。三、四分位差1)计算公式:数列的3/4位次与1/4位次的标志值之差。2)特点:四分位差避免了数列中极端值的影响,但去头弃尾,丢失大量的原始数据。四、异众比率() 它是指非众数组的频数与全部频数之比,更多地用来反映定类尺度的众数的代表性。其计算公式:

式中:是众数组的次数,为变量值的总次数。五、平均差(A.D)1、定义:平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数。2、计算公式:3、特点:平均差是根据全部变量计算出来的,所以对整个变量的离散趋势有较充分的代表性。因采取离差绝对值的方法来消除正负影响,不适合代数方法演算,其应用受到限制在实际应用中,平均数可用中位数代替,且以中位数为比较标准,计算出来的平均差为最小值。[例1]试分别以算术平均数为基准,求85,69,69,74,87,91,74这些数字的平均差。[例2]试以算术平均数为基准,求下表所示数据的平均差。

计算左边数列的平均差六、方差与标准差(一)数量标志的方差与标准差1、数量标志方差与标准差的计算。其计算公式为:未分组的资料:方差:标准差:用分组资料计算方差:标准差2、总方差、组间方差和组内方差。在资料分组的条件下,总体各标志值对平均数的方差可以分解为组内方差和组间方差。其关系式:式中:代表总体方差;代表组内方差的平均数;代表组间方差。3、方差与标准差的数学性质:1)变量的方差等于变量平方的平均数减去变量平均数的平方。即:2)变量对其算术平均数的方差小于对任意常数的方差。因为,所以,当(x0为任意常数)时,3)n个同性质独立变量和的方差等于各个变量方差的和。设:则:4)n个同性质独立变量平均数的方差等于各变量方差平均数的1/n。设:则:

5)变量线性变换的方差等于变量的方差乘以变量系数的平方。设:则:(二)是非标志的方差与标准差七、变异系数1、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论