第三章 变量分布特征的描述8_第1页
第三章 变量分布特征的描述8_第2页
第三章 变量分布特征的描述8_第3页
第三章 变量分布特征的描述8_第4页
第三章 变量分布特征的描述8_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科课程陈宜治系列课件统计学课件制作:陈宜治三、位置平均数

位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。众数中位数分位数(一)中位数与分位数1.中位数(Median)的含义中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。Me50%50%在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。2.中位数的计算A.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:n为奇数n为偶数491004860049950488004720049900513505460049300512005100049400514005180049600534004870050300490004980048900486505130051900例3.15:24名IT从业人员年薪资料表如下所示,计算该24名IT人员的中位数排序得:中位数的位置在(24+1)/2=12.5,中位数在第12个数值(49800)和第13个数值(49900)之间,即

Me=(49800+49900)/2=49850(元)注意:中位数,至少一半不比它小,至少一半不比它大!半斤八两——中位数中位数,一半比它小,一半比它大的数!近几年来,每逢工资收入的数据一公布,很多人都会直言“被增长”。数字并没有水分,“被增长”原因之一在于“平均数”和“中位数”的选择。就现实国情而言,国内收入结构并非中产占多数的橄榄形,“削峰平谷”的“平均数”其实变相掩盖了收入差异,比例较高的中低收入者自然不会买账,因为自家的钱包是不会有“平均数”之说。上海市委党校教授王志平曾经就此撰文,直言扩大中等收入群体,不是扩大收入接近“算术平均数”的群体,而是扩大收入接近“中位数”的群体。王志平的文章中举出的例子是,2007年全美每个家庭拥有的财产净值平均达55.63万美元,而财产净值的“中位数”仅是12.03万美元,由此可以推测美国贫富家庭之间财产净值的巨大差异。观点链接:在媒体的报道里,也能看到“中位数”的运用。比如国家统计局浙江调查总队就发现,2009年浙江省人均可支配收入“中位数”为20985元,比“算术平均数”低3626元;“中位数”增幅为8.1%,比人均可支配收入平均增幅低0.2个百分点。上海、北京等地在公布“工资指导价位”时,使用了“中位数”、“高位数”和“低位数”,使“指导价格”更具指导性。告别“被增长”,引入“中位数”。让普通人的收入增长更真实,我们期待能够看到越来越多的“中位数”(1)由单项数列确定中位数,直接按公式求出中位数所在组的位置,计算累计次数确定中位数所在的组,组值即是中位数。B.由分组资料确定中位数例3.16:下表是某车间50名工人日加工零件数分组情况,试计算该车间工人日加工零件的中位数。某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112作累计频数中位数为123

例3.17:某企业50名工人加工零件数如表所示,计算50名工人日加工零件数的中位数。按零件数分组(个)频数(人)向上累计(人)向下累计(人)105~1103350110~1155847115~12081642120~125143034125~1301040201301404504Sm-1Sm+1(2)由组距数列确定中位数,应先按公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。Sm–1:中位数所在组以下的累计次数Sm+1:中位数所在组以上的累计次数+1?3.中位数特点(1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。(2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。(3)缺乏敏感性。

4.分位数(分位点,quantile

)分位数是将变量的数值按大小顺序排列并等分为若干部分后,处于等分点位置的数值。常用的分位数有四分位数、十分位数和百分位数根据中位数的原理,你能写出四分位数的公式吗?若n+1能被4整除?Soeasy313233474854515415391649203129151620293131323339474849515454第一四分位数(Q1):(15+1)/4=4,29……………..排序若n+1不能被4整除?31323347485451541539164920312949排序1516202931313233394748494951545415162029313132333947484949515454第一四分位数:(16+1)/4=4.25,29×0.25+31×0.75=30.529×0.75+31×0.25=29.5第二、第三分位数=?(二)众数(Mode)1.众数的含义众数是指总体中出现次数最多的那个标志值。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。理性理解:简单的说,就是一组数据中占比例最多的那个数。

众数也不受数列中极端变量值的影响,它可反映总体各单位某一标志值的集中趋势。专家系统,平均工资?(大多数人的工资)孤掌难鸣,众人拾材火焰高,人多力量大,法不责众,少数服从多数。。。。。。。一支竹篙耶,难渡汪洋海,众人划桨哟,开动大帆船,一棵小树耶,弱不禁风雨,百里森林哟,并肩耐岁寒,耐岁寒一加十,十加百,百加千千万,你加我,我加你,大家心相连2.众数的计算(众数的不唯一性)无众数

原始数据:

10

5

9

12

6

8一个众数

原始数据:

6

5

9

8

5

5多于一个众数原始数据:

25

28

28

36

42

42某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—例3.18:根据表中的数据,计算50名工人日加工零件数的众数A.众数的值与相邻两组频数的分布有关B.

相邻两组的频数相等时,众数组的组中值即为众数MoD.该公式假定众数组的频数在众数组内均匀分布C.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo(1)众数不受分布数列的极大或极小值的影响。(2)当分组数列没有任何一组的次数占多数,而是近似于均匀分布时,则该次数分配数列无众数。(3)如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,则众数在众数组内会偏向该组下限;如果与众数组比邻的下一组的次数较多,则众数在众数组内会偏向该组上限。(4)缺乏敏感性。3.众数特点(三)中位数、众数和算术平均数的关系1.在对称分布(即正态)时对称分布2.在左偏分布时左偏分布右偏分布3.在右偏分布时4.在适度偏态时众数与算术平均数的距离约为中位数与算术平均数距离的3倍了解,皮尔逊例3.19:一组工人的月收入众数为1700元,月收入的算术平均数为2000元,则月收入的中位数近似值是多少?第二节离中趋势的描述一、离中趋势和离散指标离中趋势

离中趋势,就是变量分布中各变量值背离中心值的倾向。一般用离散指标来描述反映变量值变动范围和差异程度的指标,即反映变量分布中各变量值远离中心值或代表值程度的指标,亦称为变异指标或标志变动度指标。

离散指标全距、平均差、方差和标准差、变异系数

1.常用指标2.离散指标作用衡量和比较平均指标的代表性。变异指标越大,平均指标的代表性越小;变异指标越小,平均指标的代表性越大反映经济活动过程的均衡性、稳定性和节奏性为统计推断提供依据二、离散指标的测度(一)全距1.定义:全距(R)也称为极差,是指总体各单位的两个极端标志值之差。

2.计算公式:R=最大标志值-最小标志值3.特点(1)简明(2)只反映变异范围(3)只受两个数值影响,最容易受极端值影响小贴士:Excel中,通过组合使用MAX和MIN函数来计算极差。生活中的极差:水力发电,血压,落差R甲=100-60=40(分)R乙=82-78=4(分)例3.20:有两个学习小组的统计学成绩为第一组:60,70,80,90,100

第二组:78,79,80,81,82两组的统计成绩的平均分都是80分,哪一组的分数比较集中呢?如果用全距指标来衡量,则第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。根据组距计算极差,是测定标志变动度的一种简单方法,但受极端值的影响,因而它往往不能充分反映社会经济现象的离散程度。在实际工作中,全距常用来检查产品质量的稳定性和进行质量控制。在正常生产条件下,全距在一定范围内波动,若全距超过给定的范围,就说明有异常情况出现。因此,利用全距有助于及时发现问题,以便采取措施,保证产品质量。(二)四分位差1.定义:四分位差,也称为内距或四分间距,用表示,是四分位数中第一个四分位数与第三个四分位数之差。2.计算公式313233474854515415391649203129我爱幽兰异众芳,不将颜色媚春阳。西风寒露深林下,任是无人也自香。(三)异众比率(Variationratio)

1.定义:异众比率是分布数列中非众数组的频数与总频数之比,通常用来表示,即:2.计算公式(四)平均差(AverageDeviation

)1.定义:平均差是总体各单位标志值对其算术平均数的离差绝对值的算术平均数,一般用A.D.表示。2.计算公式在资料未分组的情况下,计算公式在资料已分组的情况下,计算公式Excel函数AVEDEV可以用来计算平均差例3.21:有两个学习小组的统计学成绩为第一组:60,70,80,90,100

第二组:78,79,80,81,82计算两个小组平均差。第一组第二组例3.22:某厂按月收入水平分组的组距数列如表所示,计算平均差。

职工工资(元)职工人数2000元以下152000~3000253000~4000654000~5000355000以上10合计140组中值(xi)

xifi

150022500-225033750250062500-1250312503500227500-25016250450015750075026250550055000175017500合计5250001250003.特点(1)反映了全部标志值的变动情况(2)受平均数水平高低、计量单位(不同性质的现象)影响(3)取绝对值的方法消除离差正负号,不便于代数处理(五)方差Variance与标准差(StandardDeviation)

1.定义:方差是各变量与其算术平均数的离差平方的算术平均数,标准差是方差的平方根。方差和标准差是测度数据变异程度最重要、最常用的指标。2.计算公式(1)总体方差和标准差A.对于未经分组整理的原始数据B.对于分过组的数据A.对于未经分组的原始数据(2)样本方差和样本标准差B.对于分过组的数据Excel中,计算总体方差的函数是VAR;计算总体标准差的函数是STDEV

根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?例3.23:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:因此,该机器工作正常。场次姚明格伦-戴维斯克里斯-保罗对手得分对手得分对手得分1湖人19魔术7掘金122湖人12魔术13掘金43湖人28魔术12掘金324开拓者17公牛15掘金145开拓者15公牛23掘金216开拓者21公牛21马刺267开拓者7公牛10火箭98开拓者11公牛14小牛319开拓者24公牛26小牛4210小牛23公牛18太阳29例3.24:以下是2008-2009赛季季后赛场均得分排名榜上第26位凯尔特人队的格伦-戴维斯,第27位火箭队的姚明,第28位黄蜂队的克里斯-保罗最近10场球赛的得分情况,试比较谁的发挥更为稳定。格伦-戴维斯的发挥更为稳定!3.方差、标准差的性质(1)常数的方差为0(2)若为常数,则(3)标准差是计算标准化值的依据

标准得分,标准统计值反应灵敏,随任何一个数据的变化而变化;一组数据的方差和标准差有确定的值;适合代数计算,不仅求方差和标准差的过程中可以进行代数运算,而且可以将几个方差和标准差综合成一个总的方差和标准差;用样本数据推断总体差异量时,方差和标准差是最好的估计量。4.方差、标准差的特点优点受数据量纲的约束,当数据间量纲不统一时,无法直接比较;受数据自身水平的影响较大,当数据水平存在差异时,无法直接比较;缺点(六)离散系数(CoefficientofVariation)

1.定义:离散系数也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。

2.计算公式Vσ和Vs分别表示总体离散系数和样本离散系数。离散系数用于对不同组别数据的离散程度进行比较时,离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度也就小。相对标准差城市人均年收入(元)收入标准差(元)标准差系数甲城市60001502.5乙城市120001801.5例3.25:甲乙两个城市的居民年收入情况如表所示,试比较两城市居民收入分配的均衡性。从表中前三栏数据来看,乙城市不仅人均年收入两倍于甲城市,而且收入的差距也似乎显著于甲城市。但通过计算标准差系数,乙城市的实际收入差距相对于它的平均收入来说,比甲城市要低的多。或者说,以居民对收入收入差距所承受的压力而言,甲城市要比乙城市高得多。根据例3.24数据,算得姚明、戴维斯、保罗的离散系数分别为:因此,姚明的发挥更稳定,如果你是理智的教练,应该选择姚明!第三节分布形状的描述偏度系数峰度系数一、分布形状和形状指标变量分布的偏斜程度和尖陡程度

分布形状形状指标反映变量分布具体形状,即左右是否对称、偏斜程度与陡峭程度的指标对称性陡峭性(一)利用算术平均数与众数或中位数的离差求偏度系数二、偏度系数

1.偏度系数的变动范围为(-3,3)2.当﹥0时,为正值,变量分布属于正偏当﹤0时,为负值,变量分布属于负偏当=0时,变量分布属于对称分布3.的绝对值越接近于3,表明变量分布的偏斜程度越严重;的绝对值越接近于0,表明变量分布的偏斜程度越轻微(二)利用四分位数求偏度系数

2.的绝对值越接近于1,表明变量分布的偏斜程度越严重;的绝对值越接近于0,表明变量分布的偏斜程度越轻微1.的变动范围为(-1,1)

(三)利用动差法求偏度系数t阶动差=

t阶动差=

动差法偏度系数是以变量数列的三阶中心动差()作为度量偏度的基本依据。

1.原理2.动差当a=0时,t阶动差称为t阶原点动差,用Mi表示当a=时,t阶动差称为阶中心动差,用mi表示

3.计算公式若>0,表示变量分布正偏;若<0,表示变量分布负偏;若=0,表示变量分布两边对称,无偏。的绝对值越接近0,变量分布的偏度越轻微;的绝对值越大于0,变量分布的偏度越严重;三、峰度系数标准正态峰度尖顶峰度平顶峰度1.概念由统计学家皮尔逊于1905年提出,是对变量分布扁平性或尖陡性的测度,通常是指钟型分布的顶峰与标准正态分布相比偏扁平或偏尖陡的程度。2.分类3.计算方法峰度系数的计算主要采用动差法,是4阶中心动差与标准差4次方相比的结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论