版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
三个教授(一个物理学家、一个化学家和一个统计学家)被召到院长办公室,他们刚刚坐定就发现一个废纸篓着火了。
物理学家说:“我知道怎么办,把材料温度降至可燃温度以下,火自然就灭了。”
化学家不同意,“不对,必须先切断氧气的供应,缺少了反应物,火才会灭。”
正当物理学家和化学家争论不休的时候,他们惊讶得发现统计学家跑来跑去得点燃一个又一个废纸篓。“你在干什么?!”
统计学家答道:“我正在做抽样检验!”
统计笑话之一--统计学家在一所大学的操场上,政治学教授、哲学教授和语言学教授围着一根旗杆。
统计学教授走过来,问:“先生们在忙什么?”
“我们需要这旗杆的高度,正在讨论用什么手段得到它。”政治学教授说。
“瞧我的!”统计学教授说着,弯下腰抱紧旗杆使劲一拔,把旗杆拔出后,放倒在地,拿出卷尺量了量,“正好五米五”说完便把旗杆插回原地,走了。
“这人!”语言学教授望着他离去的背影轻蔑地说,“我们要的是高度,他却给了我们长度,瞎添乱!”
统计笑话之二--统计学教授甲、乙两个班的统计学成绩序号成绩序号成绩序号成绩序号成绩序号成绩173108119882880377527711792090298538873781275218230743951461137122953174407457314892376328541966921584248933744277778166925953482439188117862686358244829791876275936824572序号成绩序号成绩序号成绩序号成绩序号成绩1869461792256933752641079189026893496383117719862779357947412732098287436885581385216429853794693148122923067387177115642391318439558691675248732824095请对两个班的成绩进行对比分析,你会从哪几个方面着手?两班成绩的对比分析指标数值平均79.66667标准误差1.378405中位数80众数82标准差9.246621方差85.5峰度1.31565偏度-0.70131最小值51最大值96求和3585观测数45指标数值平均79标准误差1.923872中位数80众数64标准差12.16763方差148.0513峰度0.037583偏度-0.62146最小值46最大值98求和3160观测数40甲班成绩的描述性指标乙班成绩的描述性指标第三章变量分布特征的描述一、集中趋势的描述二、离散趋势的描述三、分布形状的描述学习要求①理解变量分布三大特征即集中趋势、离散趋势和分布形状的的含义;②理解平均指标、离散指标和形状指标的意义与作用;③熟练掌握各种平均数的计算方法并加以正确的应用,科学理解加权平均数中权数的意义,正确认识算术平均数与调和平均数之间的应用关系,以及算术平均数、中位数和众数三者之间的数量关系;④熟练掌握各种离散指标的计算方法并加以正确的应用,尤其是要深刻理解方差、标准差和离散系数的内涵;⑤了解偏度系数和峰度系数的计算方法并加以正确的应用,尤其是要了解动差的含义。
变量分布特征集中趋势
(位置)离散趋势
(分散程度)偏态和峰度(形状)数据分布的测度峰度偏度数据的特征和测度分布的形状集中趋势离散程度众数中位数变异系数方差和标准差四分位差极差位置平均数数值平均数算术平均数调和平均数几何平均数第一节集中趋势的描述集中趋势
亦称为趋中性,是指变量分布以某一数值为中心的倾向,一般用平均指标来表示。一、集中趋势与平均指标平均指标主要用来表明变量值在一定时间、地点条件下所达到的一般水平。其数值表现平均数。平均指标的种类从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。数值平均数1、反映时间不同,分为静态和动态平均数。2、取得集中趋势代表值方法的不同,可分为数值平均数和位置平均数。先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平。位置平均数有众数、中位数、四分位数等形式。位置平均数平均指标分类示意图平均指标动态平均数静态平均数发展水平平均数数值平均数位置平均数算术平均数调和平均数几何平均数众数中位数四分位数简单加权发展速度平均数平均指标的作用(1)通过反映变量分布的一般水平,帮助人们对研究现象的一般数量特征有一个客观认识。(成绩、收入水平)(2)利用平均指标可以对不同空间的发展水平进行比较,反映总体水平上存在的差距。(3)利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较,以说明这种现象发展变化的趋势或规律性。(4)利用平均指标可以分析现象之间的依存关系或进行数量上的推算。(销售额与流通费用率)(5)平均指标还可以作为研究和评价事物的一种数量标准或参考。(成绩、经济水平)二、数值(计算)平均数数值平均数调和平均数算术平均数几何平均数简单加权(一)算术平均数概念:算术平均数一般就称为平均数(mean)。其定义是:观察值的总和除以观察值个数的商。计算公式为:
在实际工作中,由于所掌握的统计资料的不同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平均数两种。
1.简单算术平均数(SimpleArithmeticMean)
2.加权算术平均数(WeightedArithmeticMean)
1.简单算术平均数
简单算术平均数的公式根据未经分组整理的原始数据计算的均值。设一组数据为x1,x2,x3,…xn.则简单算术平均数的计算公式如下:
例子:据南方人才服务中心调查,从事IT行业的从业人员年薪在40000-55000元之间,表中的数据是IT从业人员年薪的一个样本:
491004860049950488004720049900513505460049300512005100049400514005180049600534004870050300490004980048900486505130051900要求:计算IT从业人员的平均年薪。24名IT从业人员年薪资料表2.加权算术平均数
根据分组整理的数据计算的算术平均数。
加权算术平均数的公式:
式中:f代表各组变量值出现的频数。例子:设某厂职工按日产量分组后所得组距数列如下,据此求平均日产量。按日产量分组(千克)工人数f(人)
60以下
1060–70
1970–80
5080–90
36
90–100
27100–110
14110以上
8合计
164组中值X(千克)Xf65
1235
75
3750
85
3060
95
2565105
1470115
920合计
13550(1)算术平均数的大小,不仅取决于研究对象的变量值(x),而且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,频数或频率较大,该组数据的大小对算术平均数的影响就大,反之则小。
(2)权数的表现形式问题:绝对权数与相对权数注意事项按日产量分组(千克)组中值X(千克)工人数f(人)ff/∑f
60以下
55
100.06
3.360–70
65
190.12
7.870–80
75
500.30
22.580–90
85
360.22
18.7
90–100
95
270.16
15.2
100–110105
140.09
9.45110以上115
80.05
5.75合计-1641.00
82.7例子:不同的权数形式
(1)各变量值与其算术平均数的离差之和等于零。(2)各变量值与其算术平均数的离差平方和最小。
(3)两个独立的同性质变量代数和的平均数等于各变量平均数的代数和。
(4)两个独立的同性质变量乘积的平均数等于各变量平均数的乘积。3.算术平均数的数学性质4.算术平均数的优缺点优点1、可用于推算总体标志总量。2、代表性强。3、可以进行代数运算。4、在抽样中具有良好的稳定性和可靠性。缺点1、当总体中个别单位标志值特别大或特别小时,会导致算术平均数偏大或偏小。2、当组距数列有开口组时,组中值有较大假定性。(二)调和平均数算术题:一辆小车以每小时80公里的速度从山下开到山顶,又以每小时100公里的速度沿原路返回到山下,问:该车的平均速度。80km/h100km/h链接例子:F1赛车时,A车手第一圈时速300公里,第二圈时速340公里,B车手第一圈时速320公里,第二圈时速318。请问:只赛两圈谁获胜?问题的解答:
速度=距离/时间,故平均速度=总距离/总时间。这一计算方式被定义为“调和平均数”(H)。变量值倒数的算术平均数的倒数,故又称为倒数平均数推广:如果该车山下——山顶来回开,n次的速度分别为x1,x2,x3,…,xn,则平均速度就成为:1、简单调和平均数(1)作为算术平均的变形例1:三种不同等级的青菜,每公斤单价分别为2元、4元、5元。每种等级各买1元,则均价是多少?例2:某人在30元/股、50元/股、100元/股的三个不同价位各买进“贵州茅台”股票6000元,则所持该股票的均价是多少?例1等价于:三种等级的青菜单价分别为2元/公斤、4元/公斤、5元/公斤,分别购买0.5公斤、0.25公斤、0.2公斤,要求计算平均价格。等价的计算方式是:例2等价于:A股票30元/股时买了200股,50元/股时买了120股,100元/股时买了60股。要求计算股票均价。等价的计算方式是:显然,此二例资料形式改变一下,就成为加权算术平均公式。可见算术平均与调和平均在此时是等价的。(2)作为独立公式运用在统计综合评价领域,调和平均是一种独立的合成方法。在计算一些变量值的平均值时,如果不考虑变量值本身的物理含义,调和平均与算术平均、对数平均、海伦平均、平方平均、几何平均一样,是独立的平均数公式。例1:计算1与2的调和平均。例2:编制价格总指数时,代表品1的价格指数是110%,代表品2的价格指数是105%,则可用两者的调和平均值作为这一小类的价格指数。例3:甲员工的“德”、“才”、“能”测量分值分别是90分、86分、84分;乙员工的“德”、“才”、“能”测量分值分别为84分、98分、78分。要求采用简单调和平均方法计算并比较甲、乙两人的综合素质。此三例只是“规定”采用简单调和平均数公式进行计算。因而不能“变形”为算术平均,此三例的算术平均结果将会不同:分别为1.5,107.5%,甲=乙(86.67)2、加权调和平均数例:法拉利队的车王迈克尔·舒马赫在2004年9月初的一次试车中(F2004),以每小时320公里的速度开了52圈,以每小时345公里的速度开了35圈,而队友巴里切罗以每小时322公里的速度开了45圈,以每小时337公里的速度开了42圈,求两人各自的平均车速。例2:三种不同等级的青菜分别买5元、6元、10元,每公斤单价分别为2元、4元、5元,则平均价格是多少?(1)加权调和平均数的基本公式
(2)加权调和平均公式的应用——作为算术平均的变形当mi=xifi
时,有:表
两公司员工工资情况表月工资x(元)工资总额m(元)A公司B公司80048000400001000700004000016003200040000合计150000120000要求计算两公司的平均工资。解答:在这里,平均工资作为“单位标志平均数”仍然必须是标志总量(工资总额)与单位总数(员工总数)之比。我们计算A公司的平均工资,得到:
对于B公司,固然也可以采用加权调和平均数公式来计算其平均工资:然而在这里,由于各组的权数(工资总额)相同,实际上并没有真正起到加权的作用。我们采用简单调和平均数的公式来计算,可以得到完全相同的结果,而计算过程却大大简化了:(3)加权调和平均公式应该注意的几个问题第一,与加权算术平均公式类似,加权调和平均公式的权数也有两种类型:绝对权重与比重权重,相应就有两种不同形式的加权方式.调和平均数的权数不是“次数”而是各组的标志值。绝对权重比重权重第二,计算加权调和平均值时,同样需要注意选择合适的x,以及合适的权重m.
应该以组平均作为x,若无,则用组中值近似代表。权重m应该是具有实际意义的“各组标志总量”。第三,调和平均与算术平均的正确选择问题
作为算术平均数变形,调和平均数主要用于“平均数的平均”与“相对数的平均”计算之中。如果掌握了变量值,以及该变量的分子资料时,需要通过基本数量关系推导出分母数值,此时即为“加权调和平均”。这是以分母为权重的加权算术平均这是以分子为权重的加权调和平均第四,简单调和平均与加权调和平均的关系简单调和平均是加权调和平均的一个特例,当权数全部相等时,即:M1=m2=m3=…=mn1.调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。2.只要有一个变量值为零,就不能计算调和平均数。3.当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。4.调和平均数应用的范围较小。
第五,调和平均的特点
某鱼摊有两种鲫鱼:大的每公斤18元,小的每公斤12元,并不能还价。一顾客欲各买一条,但提出两条一起称,每公斤15元,鱼摊主答应。问谁占便宜?思考题:3.由相对数或平均数计算平均数(1)由相对数计算平均数例1:设有某行业150个企业的有关产值和利润资料如表所示,计算该行业一、二季度的平均产值利润率。产值利润率(%)一季度二季度企业数(个)实际产值(万元)企业数(个)实际利润(万元)5-103057005071010-20702050080351420-305022500202250合计150487001506474计算第一季度的平均产值利润率,应该采用实际产值加权,进行算术平均,即有:而计算第二季度的平均产值利润率,则应该采用实际利润加权,即有:产值计划完成程度%)组中值(%)X企业数(个)实际产值(万元)M计划产值(万元)M/X80~9085268080090~10095323752500100~110105101806017200110~120115350604400合计-182617524900例2:计算下表企业的平均计划完成程度(2)由平均数计算平均数例3:某车间各班组工人的平均劳动生产率和实际工时数据如表所示,要求计算车间平均劳动生产率。班组平均劳动生产率(件/工时)实际工时(小时)123412162028200320300190合计1000分析:我们掌握的资料是平均数的母项数值即实际工时数,因而应该以实际工时数为权数,采用加权算术平均数的形式来计算平均劳动生产率。平均劳动生产率(件/工时)实际工时实际产品总量(件)班组1234121620282003203001902400512060005320合计101018840车间平均劳动生产率(件/工时)==解答:(三)几何平均数(GeometricMean)几何平均数也称几何均值,它是n个变量值乘积的n次方根。适用对象:现象的总比率是若干项变量的乘积,或现象的总发展速度是各时期发展速度的连乘积时,计算平均比率或平均发展速度。1.简单几何平均数
(SimpleGeometricMean)
直接将n项变量连乘,对其连乘积开n次方根所得的平均数即为简单几何平均数。计算公式为:例1:某企业的一条生产流水线有四道工序,每一道工序完成的产品都要作一次质量检查,只有合格的中间件才进入下一道工序。工序C工序A工序B工序D合格率98%合格率97%合格率94%合格率95%请问:平均合格率=?适用于连续作业的情况:所谓平均“合格率”,是指每一道工序合格率是相同的。这也就是说,如果记“平均合格率为G,则只有”四道工序全部合格的产品才是合格的,因而,有以下等式:解答:例2:据网上报到,在前几年成都温江的兰花节上,一盆兰花卖价是1100万元,这背后是迅速壮大的10万户成都养兰、炒兰户,不少人是在借高利贷炒兰,图谋暴利。红荷黄金海岸龙女彩蝶设某炒兰投资者从朋友处借得一笔高利贷,以季度为结算单位,每个季度生成的利息到期自动转为本金,一年连本带利付清。各季利率根据兰花价格变化适当调整。实际一年下来,第一季度的利率是3%,第二季度的利率是3.2%,第三季度的利率是3.6%,第四季度的利率是2.8%。问:平均利率是多少?
解答:本题需要注意的是,不能够直接对利率进行几何平均,而应该通过连本带利计算,即若借款总额为L万元,则一年之后的付款额(本息和)为:如果平均利率为G,则应该有:
2.加权几何平均数
(WeightedGeometricMean)
与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。计算公式为:式中:fi代表各个变量值出现的次数。
例3:已知一笔贷款第1年的利率为5%,接下来3年利率为8%,再接下来的8年利率为15%,最后5年的利率为18%,试计算20年的平均利率。即20年的平均年利率为114.14%-1=14.14%1.几何平均数受极端值的影响较算术平均数小。2.如果变量值有负值,计算出的几何平均数就会成为负数或虚数。3.它仅适用于具有等比或近似等比关系的数据。4.几何平均数的对数是各变量值对数的算术平均数。几何平均数特点几何平均数、算术平均数和调和平均数的关系幂平均函数1.算术平均数易受极端值影响;2.调和平均数也受极端值影响,但受极小值影响较大;3.几何平均数受极端值影响较小。
对同一资料来说:几何平均数大于调和平均数而小于算术平均数,即有:数字12345几何平均数2.61算术平均数3调和平均数2.19一般来说:某公司所属三个企业有关生产资料如下:(1)若三个企业生产同一种产品,试计算平均合格率(2)若三个企业生产不同的产品,试计算平均合格率(3)若三个企业为流水作业生产同一种产品,试计算平均合格率企业合格率(%)产品产量(件)实际消耗工时(工时)甲96100500乙95200450丙98300400思考题:在对某一企业领导集体中的五名成员的“综合素质”进行综合评价时,假设指标体系由两个子系统构成:“德子系统”和“才子系统”,经过汇总,得到五位领导成员德、才的评价当量值(百分制),结果如下表所示。假设“德”、“才”两方面是等权的。分别用不同平均方法来比较这五名领导。被评价者“德”总得分“才”总得分甲乙丙丁戊808488941008076726660算术平均名次8080808080
并列调和平均名次8079.8079.2077.5575.0012345几何平均名次8079.9079.6078.7777.46
12345平方平均名次8080.1080.4081.2282.46
54321例子:结论:(1)算术平均是一种“取长补短式的平均”(折衷型平均);(2)几何平均是一种“惩罚落后式的平均”,体现了“鼓励均衡发展”的评价要求(惩罚型平均);调和平均是一种比几何平均惩罚力度更强的“惩罚型平均”(3)平方平均是一种“抓大放小式的平均”,体现了“鼓励搞突出抓重点”的评价原则(激励型平均)。实践中可以根据“奖罚程度”的不同要求而灵活选择一个适当的k值。(4)上述性质是针对“平均值越大越好”的情形。对于平均值越小越好的现象,上述结论相反。三、位置平均数位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。常用的众数、中位数。(一)中位数与分位数1.中位数(Median)的含义中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。Me50%50%在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。2.中位数的计算确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:A.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:491004860049950488004720049900513505460049300512005100049400514005180049600534004870050300490004980048900486505130051900例1:24名IT从业人员年薪资料表如下所示,计算该24名IT人员的中位数排序得:中位数的位置在(24+1)/2=12.5,中位数在第12个数值(49800)和第13个数值(49900)之间,即
Me=(49800+49900)/2=49850(元)。例2:某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112B.由分组资料确定中位数(1)由单项数列确定中位数,直接按的公式求出中位数所在组的位置,计算累计次数确定中位数所在的组,组值即是中位数。
(2)由组距数列确定中位数。应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。Sm–1--中位数所在组以下的累计次数。Sm+1--中位数所在组以上的累计次数。
例3:某企业50名工人加工零件中位数计算表,计算50名工人日加工零件数的中位数按零件数分组(个)频数(人)向上累计(人)向下累计(人)105~1103350110~1155847115~12081642120~125143034125~1301040201301404504Sm-1Sm+1A.中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。B.有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。C.缺乏敏感性。
中位数特点2.分位数分位数是将变量的数值按大小顺序排列并等分为若干部分后,处于等分点位置的数值。常用的分位数有四分位数、十分位数和百分位数根据中位数的原理,你能写出四分位数的公式吗?(二)众数(Mode)1.众数的含义众数是指总体中出现次数最多的那个标志值。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。众数也不受数列中极端变量值的影响,它可反映总体各单位某一标志值的集中趋势。2.众数的计算(众数的不唯一性)无众数
原始数据:
10591268一个众数
原始数据:
659855多于一个众数
原始数据:
252828364242某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—例:根据表中的数据,计算50名工人日加工零件数的众数数值型分组数据的众数(要点及计算公式)A.众数的值与相邻两组频数的分布有关D.该公式假定众数组的频数在众数组内均匀分布B.
相邻两组的频数相等时,众数组的组中值即为众数MoC.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo组距数列确定众数的方法下限公式上限公式式中:
L——众数所在组下限;U——众数所在组上限;Δ1——众数所在组次数与其下限的邻组次数之差;Δ2——众数所在组次数与其上限的邻组次数之差;d——众数所在组组距。
例子根据下表的数据,计算50名工人日加工零件数的众数。按零件数分组(个)频数(人)向上累计(人)向下累计(人)105~1103350110~1155847115~12081642120~125143034125~1301040201301404504解:从上表的数据可以看出,最大的频数值是14,即众数组为120--125这一组,根据众数计算公式)得50名工人日加工零件的众数为:众数特点
1.众数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,它不受分布数列的极大或极小值的影响,从而增强了众数对分布数列的代表性。2.众数是一种位置平均数,是总体中出现次数最多的变量值,因而在实际工作中有时有它特殊的用途。诸如,要说明一个企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数。表英国男性鞋子尺码及所占比例鞋的尺寸比例(%)鞋的尺寸比例(%)60.041017.616.50.2210.512.1070.88116.487.52.7011.52.7086.48120.888.512.1012.50.22917.61130.049.519.95注:英国7码大致对应中国41码。3.从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数。只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。
4.如果与众数组相比邻的上下两组的次数相等则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,而下一组的次数较少,则众数在众数组内会偏向该组下限;如果与众数组比邻的上一组的次数较少,而下一组的次数较多,则众数在众数组内会偏向该组上限。众数特点左偏分布均值
中位数
众数对称分布
均值=中位数=
众数右偏分布众数
中位数均值(三)中位数、众数和算术平均数的关系(三)中位数、众数和算术平均数的关系在对称分布(即正态)时在右偏时在左偏时适度偏态时众数与算术平均数的距离约为中位数与算术平均数距离的3倍!中位数、众数和算术平均数的关系在次数分布完全对称时,算术平均数、众数和中位数都是同一数值;在次数分布非对称时,算术平均数、众数和中位数不再是同一数值了,而具有相对固定的关系。在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大;在尾巴拖在左边的负偏态(或左偏态)分布中,众数最大,中位数适中,算术平均数最小,见后图。
例子:某城市抽样调查资料如表所示,如何计算算术平均数、中位数和众数?年收入水平组中值居民户数向上累计向下累计8000以下7000181810008000-100009000749298210000-150001250018027290815000-200001750024051272820000-250002250026077248825000-300002750014091222830000-3500032500539658835000-4000037500269913540000以上42500910009合计1000解答:算术平均数=(7000*18+9000*74+…+37500*26+42500*9)/1000=20022中位数=15000+(500-272)/240*5000=19750或者=20000-(500-488)/240*5000=19750众数=20000+(260-240)/[(260-240)+(260-40)]*5000
=20714或者=25000-(260-140)/[(260-240)+(260-40)]*5000
=20714常用的几种平均数概念计算公式特点 优点:①容易理解,便于计算②灵敏度高③稳定性好④和缺点:①易受极值影响②在偏斜分布和U形分布中,不具有代表性1.算术平均数()标志总量与总体单位总数的比值 简单:加权:常用的几种平均数概念 计算公式 特点 优点:①灵敏度高②在某种不能计算的条件下,可以代替
缺点:①不易理解②易受极值影响③有“0”值时不能计算
2.调和平均数(
)标志值倒数的算术平均数的倒数简单:加权:常用的几种平均数概念 计算公式 特点 优点:灵敏度高②受极值影响小③适宜于各比率之积为总比率的变量求平均缺点:①有“0”或负值时不能计算②偶数项数列只能用正根3.几何平均数(
)几个变量值连乘积的几次根简单:加权:常用的几种平均数概念 计算公式 特点 4.中位数(Me)标志值由小到大顺序排列,居中间位置的标志值。属于位置平均数 上限公式:下限公式:优点:①容易理解,②不受极值影响③适宜于开口组资料和些不能用数字测定的事物缺点:①灵敏度和计算功能差②间断数Me常用的几种平均数概念 计算公式 特点 5.众数(Mo)分配数列中出现次数最多的标志值。属于位置平均数 上限公式:下限公式:优点:①容易理解,②不受极值影响缺点:①灵敏度和计算功能差②稳定性差③具有不唯一性有关平均数的几个问题:如果一个醉鬼在马路上以钟摆式左右晃荡,平均来说他会不会被汽车撞伤?平均来说彩虹是什么颜色?国家统计局浙江调查总队今日首次发布了我省城乡居民收入中位数。据国家统计局浙江调查总队抽样调查,2011年浙江城镇居民人均可支配收入中位数为27283元,比上年增加3883元,增长16.6%;农村居民人均纯收入中位数为11553元,比上年增加1557元,增长15.6%。据国家统计局此前公布的数据,2011年,全国城镇居民人均可支配收入中位数为19118元,农村居民人均纯收入中位数为6194元。有关平均数的问题根据年度统计调查结果,2011年,浙江省城镇居民人均可支配收入30971元,人均消费支出20437元;农村居民人均纯收入13071元,人均生活消费支出9644元。2011年城镇居民人均总收入23979元,其中,人均可支配收入21810元,比上年增加2701元,增长14.1%。剔除价格因素影响,城镇居民人均可支配收入实际增长8.4%,增速同比提高0.6个百分点。2011年全国农村居民人均纯收入6977元,比上年增加1058元,增长17.9%。剔除价格因素影响,实际增长11.4%,一名统计学家遇到一位数学家,统计学家调侃数学家说道:你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男生你也会喜欢罗!?”数学家想了一下反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!”集中趋势下的离散程度平均数反映出集中趋势,除集中趋势外,变量值显然还有偏离中心值的离散趋势。如何衡量离散程度?离中趋势
(分散程度)第二节离散趋势的描述一、离散趋势和离散指标离散趋势,就是变量分布中各变量值背离中心值的倾向。如果说集散趋势是总体或变量分布同质性的体现,那么离散趋势就是总体或变量分布变异性的体现。离散指标就是反映变量值变动范围和差异程度的指标,即反映变量分布中各变量值远离中心值或代表值程度的指标,亦称为变异指标或标志变动度指标。
离散指标的种类及作用
用离散指标衡量和比较平均指标的代表性。用离散指标反映经济活动过程的均衡性、稳定性和节奏性。离散指标为统计推断提供依据。离散指标是衡量平均指标代表性的尺度。一般来讲,数据分布越分散,变异指标越大,平均指标的代表性越小;数据分布越集中,变异指标越小,平均指标的代表性越大。常用的变异指标有:全距(极差)、四分位差、异众比率、平均差、方差和标准差、变异系数。
二、离散指标的测度(一)全距(Range)全距(R)也称为极差,是指总体各单位的两个极端标志值之差,即:
R=最大标志值-最小标志值
特点(优点与缺点)(1)简明;(2)只反映变异范围;(3)只受两个数值影响;最容易受极端值影响。没有反映中间数值的影响,没有反映分布情况。第一组:60,70,80,90,100第二组:78,79,80,81,82很明显,两个小组的考试成绩平均分都是80分,但是哪一组的分数比较集中呢?如果用全距指标来衡量,则有
R甲=100-60=40(分)
R乙=82-78=4(分)这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。例1:有两个学习小组的统计学开始成绩分别为:四分位差是四分位数中第一个四分位数与第三个四分位数之差,也称为内距或四分间距,通常用表示,即:(二)四分位差四分位差Q=第三个四分位数Q3—第一个四分位数Q1优缺:计算简单,意义清楚,反映现象的差异程度较粗略和不全面,实用价值较小。异众比率是分布数列中非众数组的频数与总频数之比,通常用来表示,即:
(三)异众比率(四)平均差(MeanDeviation)
平均差是总体各单位标志值对其算术平均数的离差绝对值的算术平均数。特点(1)反映了全部标志值的变动情况;(2)受平均数水平高低、计量单位(不同性质的现象)影响;(3)取绝对值的方法消除离差正负号,不便于代数处理。
平均差的计算
在资料未分组的情况下,平均差的计算公式为:
平均差系数计算公式:
在资料已分组的情况下,要用加权平均差公式:
例子:某厂按月收入水平分组的组距数列如下表中前两列,计算平均差。合计180––––55800
3700职工工资(元)职工人数(f)组中值(x)
xf
x-
250-270152603900-50750270-290252807000-30750290-3103530010500-10350310-330653202080010650330-3504034013600301200合计180-55800-3700解:根据公式列表计算,得到A.D=
由于平均差采用了离差的绝对值,不便于运算,这样使其应用受到了很大限制。(五)方差与标准差方差和标准差是测度数据变异程度的最重要、最常用的指标。方差是各个变量值与其算术平均数离差平方的平均数,通常以σ2表示。标准差又称均方差,一般用σ表示。方差和标准差的计算也分为简单平均法和加权平均法,另外,对于总体数据和样本数据,公式略有不同。设总体方差为,对于未经分组整理的原始数据,方差的计算公式为:对于分过组的数据,方差的计算公式为:1.总体方差和标准差方差的平方根即为标准差,计算公式为:未分组数据:分组数据:
(二)样本方差和标准差(了解)设样本方差为,根据未分组数据和分组数据计算样本方差的公式分别为:未分组数据:分组数据:(二)样本方差和标准差(了解)根据未分组数据和分组数据计算样本标准差的公式分别为:未分组数据:分组数据:
根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?
例1:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:解:根据已知数据,计算因此,该机器工作正常。例2:以下是江苏省和浙江省2005年年营业收入排在前15名的企业,试用标准差来比较两省企业收入的稳定程度。江苏前15名营业收入(万元)浙江前15名营业收入(万元)江苏沙钢集团有限公司3112365浙江物产集团3476937熊猫电子集团2804390浙江省兴合集团2261710南京钢铁集团2788062浙江冶金集团2159445江苏华西集团公司2603864广厦控股创业投资有限公司2137266苏宁电器集团2246465万向集团2092908太平洋建设集团2122634浙江省能源集团有限公司1838372南京斯威特集团有限公司1960673横店集团1429810春兰集团1706942雅戈尔集团1397123徐州工程机械集团有限公司1700551浙江省建设投资集团1383451华芳集团有限公司1691373正泰集团1196121江苏悦达集团1538658宁波电子信息集团1194889江苏国泰国际集团有限公司1206262杭州娃哈哈集团1144323江苏永钢集团有限公司1166189德力西集团1076741江苏交通控股有限公司1118380奥克斯集团1034198跃进汽车集团1113675华立集团1033388江苏省:
=1925365.533(万元)
=667382.6891(万元)浙江省=1657112.133(万元)
=675072.0375(万元)从标准差看江苏企业比浙江省企业的营业收入稳定解答:例3:试利用分组资料计算标准差职工工资(元)职工人数(f)组中值(x)
250-270152603900-5037500270-290252807000-3022500290-3103530010500-103500310-3306532020800
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全国注册计量师能力鉴定试题及答案
- 拉森钢板桩支护施工方案
- 2025年初一美术雕塑艺术创作练习试题及答案
- 2026国家司法考试预测考点题库真题及答案
- 2025至2030中国服装行业市场发展分析及前景预判与投资研究报告
- 2025至2030预制菜零售市场消费需求变化与品牌竞争策略研究报告
- 2026校招:国机集团试题及答案
- 2025-2030服装设计与制造行业市场需求竞争格局品牌策略投资潜力分析风险评估报告
- 2025-2030服装行业时尚趋势分析及品牌营销策略研究
- 2025-2030服装纺织行业市场现状供求分析及投资评估规划分析报告
- 承德市市直医疗卫生单位招聘考试真题2024
- 2025年健身行业营销组合模式可行性分析报告
- 2025年固体废物分类处理环保治理计划书
- 金沙金坪山泉水厂建设项目入河排污口设置论证报告
- 衡阳市社区干部管理办法
- 2024新版 外研社版(三年级起点)三年级上册单词课本同步字帖
- 《最后的问题》和《终极答案》阿西莫夫
- 江南大学《高等数学Ⅱ(2)》2022-2023学年第一学期期末试卷
- 盖房四邻签字协议书范文
- 高一英语阅读理解试题(生活类)
- 农民工欠薪起诉书模板
评论
0/150
提交评论