




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,3 统计数据的测度,表示统计资料的特征数有哪些? 集中趋势:对频数分布资料的集中状况和平均水平的综合测度,集中性和共性。 离中趋势:对频数分布资料的差异程度和离散程度的测度,用来衡量稳定性和均匀性。,2,第一节 集中趋势的描述,集中趋势,集中趋势(central tendency),亦称为趋中性。是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。或者说各观察值有一种向中心集中的趋势,在中心附近的观察值数目较多,远离中心的较少。一般用平均指标来表示。,一、集中趋势与平均指标,3,第一节 集中趋势的描述,一、集中趋势与平均指标,将变量的各变量值差异抽象化,以反映变量值一般水
2、平或平均水平的指标。其数值表现称为平均数。,平均指标(Average Indicators),先进水平,一般水平,落后水平,一条平均深度只有0.5米的河,你可以安全走着过河吗?,4,1.平均指标的种类,从总体各单位变量值中抽象出具有一般水平的量,这个量是根据各个单位的具体标志值计算出来的,有算术平均数、调和平均数、几何平均数等形式。,先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平。具体标志值是确定出来的。有众数、中位数、四分位数等形式。,计算方法不同,5,二、数值平均数,引例 某班6个学生的年龄(X)为:16,21,22,23,18,17 现求该6个学生
3、的平均年龄?,如果已知36个学生的年龄,会算吗?,6,2.平均指标的作用,利用平均指标可对不同空间的发展水平进行比较,可以对某一现象总体在不同时间上的发展水平进行比较,说明现象发展变化的趋势或规律性,帮助人们对研究 现象的一般数量特征有一个客观的认识,利用平均指标可以分析现象之间的依存关系或进行数量上的推算,平均指标还可以作为研究和评价事物的一种数量标准或参考,7,引例 某班36个学生的年龄(X)分布如下表: 年龄 21 20 19 18 17 人数 5 6 18 4 3 ,现求该班的平均年龄? 解:,8,二、数值平均数,(一)算术平均数(Arithmetic Average),算术平均数称为
4、均值,是观察值的总和除以观察值个数的商,1.概念,2.分类,简单算术平均数,加权算术平均数,9,例3.1: 中国统计年鉴2008资料显示,2007年我国各省份(直辖市)创造的GDP(以当年价格计算,单位:亿元)如表所示,计算各省份(直辖市)GDP的平均规模。,10,简单算术平均数的公式往往用于未经分组整理的原始数据,11,例3.3:设某厂职工按日产量分组后所得组距数列如下所示,据此求该厂职工的平均日产量。,12,加权算术平均数公式往往用于分过组经过整理的数据,13,权数转换,14,(2)算术平均数的大小,取决于研究对象的变量值(x)和各变量值重复出现的频数(f)或频率 (fifi)大小的影响。
5、,3.注意点,(3)权数的表现形式,(1)简单算术平均数和加权算数平均数的关系,15, 变量值与其算术平均数的离差之和衡等于零, 即: 变量值与其算术平均数的离差平方和为最小, 即:,算术平均数的主要数学性质,16,离差的概念,-1,-1,-2,1,3,0,17,5.算术平均数的优缺点,优点 (1)可用于推算总体标志总量 (2)代表性强,在抽样中具有良好的稳定性和可靠性 (3)可以进行代数运算,缺点 (1)当总体中个别单位标志值特别大或特别小时,会导致算术平均数偏大或偏小 (2) 当组距数列有开口组时,组中值有较大假定性,18,链接例子1: F1比赛时,A车手第一圈时速300公里,第二圈时速3
6、40公里,B车手第一圈时速320公里,第二圈时速318。请问:只赛两圈谁获胜?,链接例子2,小学四年级的算术题: 一辆小车以每小时80公里的速度从山下开到山顶,又以每小时100公里的速度沿原路返回到山下,问:该车的平均速度。,80km/h,100km/h,如果该车山下,山顶来回开,n次的速度分别为x1,x2,x3,xn,则平均速度就成为:,推 广,这一计算方式被定义为“调和平均数”(H),变量值倒数的算术平均数的倒数,故又称为“倒数平均数”,(二)调和平均数(harmonic mean ),1.简单调和平均数,(1)作为算术平均的变形,例3.4:三种不同等级的桔子,每公斤单价分别为2元、4元、
7、5元。每种等级各买1元,则均价是多少?,定义:调和平均数是变量值倒数的算术平均数的倒数。又称倒数平均数。调和平均通常是作为算术平均数的变形来使用的。但一些特殊的领域,如综合评价,调和平均却是一种独立的统计平均数,有着特定的应用价值。,例3.4等价于:三种等级的桔子单价分别为2元/公斤、4元/公斤、5元/公斤,分别购买0.5公斤、0.25公斤、0.2公斤,要求计算平均价格。,适用于总体资料未经分组整理、尚为原始资料的情况,2.加权调和平均数,例3.7:法拉利队的车王迈克尔舒马赫在2004年9月初的一次试车中(F2004),以每小时320公里的速度开了52圈,以每小时345公里的速度开了35圈,而
8、队友巴里切罗以每小时322公里的速度开了45圈,以每小时337公里的速度开了42圈,求两人各自的平均车速。,例3.8:三种不同等级的桔子分别买5元、6元、10元,每公斤单价分别为2元、4元、5元,则平均价格是多少?,加权调和平均数的基本公式,选择合适的xi,合适的权重mi,应该以组平均作为xi,若无,则用组中值近似代表,权重mi应该是具有实际意义的“各组标志总量”,适用于总体资料经过分组整理形成变量数列的情况,25,调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。 只要有一个变量值为零,就不能计算调和平均数。 当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,
9、这时,调和平均数的代表性就很不可靠。 调和平均数应用的范围较小。,D.调和平均的特点,26,甲乙两农贸市场三种农产品的价格和成交量和成交额如下: 产品 价格 甲市场成交额 乙市场成交量 (元/斤) (万元) (万斤) A 1.2 1.2 2 B 1.4 2.8 1 C 1.5 1.5 1 分别求两个市场农产品的平均价格。,思考题:,27,是N项变量值连乘积的开N次方根。,几何平均数,各个比率或速度的连乘积等于总比率或总速度; 相乘的各个比率或速度不为零或负值。,简单几何平均数,适用于总体资料未经分组整理 尚为原始资料的情况,式中: 为几何平均数; 为变量值的个数; 为第 个变量值。,适用对象:
10、现象的总比率是若干项变量的乘积,或现象的总发展速度是各时期发展速度的连乘积时,计算平均比率或平均发展速度。,28,【例5】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。,设最初投产100A个单位 ,则 第一道工序的合格品为100A0.95; 第二道工序的合格品为(100A0.95)0.92; 第五道工序的合格品为 (100A0.950.920.900.85)0.80;,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 : 100A0.950.920.900.850.80;,则该流水线产品总的
11、合格率为:,29,解:,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,30,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,几何平均数的计算方法,因各车间彼此独立作业,所以有 第一车间的合格品为:1000.95; 第二车间的合格品为:1000.92; 第五车间的合格品为:100
12、0.80。 则该企业全部合格品应为各车间合格品的总和,即 总合格品=1000.95+1000.80,31,应采用加权算术平均数公式计算,即,32,据报到,成都温江的兰花节上,一盆兰花卖价是1100万元,这背后是迅速壮大的10万户成都养兰、炒兰户。他们当中,不少人是在借高利贷炒兰,图谋暴利。专家称,成都兰市价格已涨到了疯狂的境地,投资兰花不能盲目跟风,“击鼓传花”式的投机最终会让人血本无归。,红荷,黄金海岸,龙女,彩蝶,33,例3.13:设某炒兰投资者从朋友处借得一笔高利贷,以季度为结算单位,每个季度生成的利息到期自动转为本金,一年连本带利付清。各季利率根据兰花价格变化适当调整。实际一年下来,第
13、一季度的利率是13%,第二季度的利率是13.2%,第三季度的利率是13.6%,第四季度的利率是12.8%。问平均利率是多少?,即若借款总额为L万元,则一年之后的付款额(本息和)为:,如果平均利率为G,则应该有:,34,2.加权几何平均数,fi代表各个变量值出现的次数,例 3.14:投资银行某笔投资的年利率是按复利计算的,10年的年利率分配是:第1-2年为5%,第3-5年为8%,第6-8年为10%,第9-10年为12%,求平均年利率。,35,若不按复利计算,,36,(1)受极端值的影响较算术平均数小。 (2)如果变量值有负值,计算出的几何平均数就会成为负数或虚数。 (3)仅适用于具有等比或近似等
14、比关系的数据。 (4)其对数是各变量值对数的算术平均数。,几何平均数特点,37,某公司所属三个企业有关生产资料如下: (1)若三个企业生产同种产品,试计算平均合格率 (2)若三个企业生产不同产品,试计算平均合格率 (3)若三个企业为流水作业生产同一种产品,试计算平均合格率,思考题:,38,三、位置平均数,位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。,众数,中位数,分位数,39,(一)中位数与分位数,1.中位数(Median)的含义 中位数是将数据按大小顺序排列起来,形成一个数列,居
15、于数列中间位置的那个数据就是中位数。中位数用Me表示。,在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。,不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,40,2.中位数的计算,A.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:,n 为奇数,n 为偶数,41,例3.15: 24名IT从业人员年薪资料表如下所示,计算该24名IT人员的中位数,排序得:,中位数的位置在(24+1)/2 = 12.5,中位数在第12个数值(49800)和第13个数值(49900)之间,即 Me = (49800+49900)/2=49850(元),42,(1)由单项数列
16、确定中位数,直接按 公式求出中位数所在组的位置,计算累计次数确定中位数所在的组,组值即是中位数。,B.由分组资料确定中位数,例3.16:下表是某车间800名工人日加工零件数分组情况,试计算该车间工人日加工零件的中位数。,43,中位数的确定,(单值数列),【例8】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,44,中位数的确定,(组距数列),【例9】某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,45,中位数的确定,(组距数列),共 个单位,共 个单位,共 个单位,共 个单位,L,U,中位数组,组距为d,共 个单位,假定该组内的单位呈均匀分布,中位
17、数公式为,46,中位数的作用及用法,中位数一定存在; 中位数与算术平均数相近; 中位数不受极端值影响; 变量值与中位数离差绝对值之和最小。,47,中位数一定存在; 中位数与算术平均数相近; 中位数不受极端值影响; 变量值与中位数离差绝对值之和最小。,变量值34556910 中位数 5 平均值 6 与中位数离差 -2 -1 0 0 1 4 5 与平均数离差 -3 -2 -1 -1 0 3 4,绝对数值之和 13 14,中位数的作用及用法,48,(二)众数(Mode),1.众数的含义 众数是指总体中出现次数最多的那个标志值。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序
18、(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。 众数也不受数列中极端变量值的影响,它可反映总体各单位某一标志值的集中趋势。,49,2.众数的计算(众数的不唯一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众 数原始数据: 25 28 28 36 42 42,众数的计算只适用于单位数较多,且存在明显的集中趋势的情况,否则计算众数是没有意义的。,50,众数(mode):出现次数最多即出现频率最高的变量值。,51,身高 人数 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 16
19、0-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 100,例10:某年级83名女生身高资料,众数的确定方法,概约数:众数所在组的组中值,在本例为162.5cm,52,【例11】已知某企业某日工人的日产量资料如下:,众数的确定,(单值数列),计算该企业该日全部工人日产量的众数。,53,众数的确定,(组距数列),【例12】某车间50名工人月产量的资料如下:,计算该车间工人月产量的众数。,54,(1)众数不受分布数列的极大或极小值的影响。 (2)当分组数列没有任何一组的次数占多数,而是近似于均匀分布时,则该次数分配数列无众数。 (3)如果与众数
20、组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,则众数在众数组内会偏向该组下限;如果与众数组比邻的下一组的次数较多,则众数在众数组内会偏向该组上限。 (4)缺乏敏感性。,3.众数特点,当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数),55,(三)中位数、众数和算术平均数的关系,1.在对称分布(即正态)时,对称分布,2.在左偏分布时,左偏分布,右偏分布,3.在右偏分布时,56,五数概括法,57,首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。对12个月薪
21、数据的样本,按照递增顺序排列如下: 2210 2255 2350 | 2380 2380 2390 | 2420 2440 2450 | 2550 2630 2825 Q12365 Q22405 Q32500 上述起薪数据以五数概括为:2210,2365,2405,2500,2825。,五数概括法,58,集中趋势的测度,均值:一般水平代表值,数据信息提取最充分。 中位数:容易理解、很直观,不受极端值的影响,但也因此利用数据信息不够充分。 众数:容易计算,但不是永远存在,应用场合少,平均指标是一个代表性数值,它反映总体各单位某一数量标志的一般水平,而把总体各单位之间的差异抽象化了。 总体各单位之
22、间的差异是客观存在的,这种差异也是统计总体的重要特征之一。,59,第二节 离中趋势的描述,一、离中趋势和离散指标,离中趋势,就是变量分布中各变量值背离中心值的倾向。一般用离散指标来描述,反映变量值变动范围和差异程度的指标,即反映变量分布中各变量值远离中心值或代表值程度的指标,亦称为变异指标或标志变动度指标。,离散 指标,60,全距、平均差、方差和标准差、变异系数,1.常用指标,2.离散指标作用,衡量和比较平均指标的代表性。变异指标越大,平均指标的代表性越小;变异指标越小,平均指标的代表性越大,反映经济活动过程的均衡性、稳定性和节奏性,为统计推断提供依据,61,集中趋势弱、离散趋势强,集中趋势强
23、、离散趋势弱,62,接吻定律 第一次接吻以后,女人会把这个吻当作一笔放出去的投资,男人却会把它当做一笔收回来的贷款。 乐观与悲观定律 乐观者发明了游艇,悲观者发明了救生圈;乐观者建造了高楼,悲观者生产了救火栓;乐观者都去做了玩命的赛车手,悲观者却穿起了白大褂当了医生;最后乐观者发射了宇宙飞船,悲观者则开办了保险公司。 人力定律 一个人在一分钟内可以挖一个洞,六十个人在一秒钟内就办不到。 做饭定律 因为怕做饭,男人下了班也不忙着回家;因为要做饭,女人没下班就忙着溜回家。,魔 鬼 词 典,63,二、离散指标的测度,(一)全距,1.定义:全距(R)也称为极差,是指总体各单位的两个极端标志值之差。,2
24、.计算公式:,3.特点,(1)简明 (2)只反映变异范围 (3)只受两个数值影响,最容易受极端值影响,最大变量值或最高组上限,或开口组假定上限,最小变量值或最低组下限,或开口组假定下限,64,R甲=100-60=40(分) R乙=82-78=4(分),例:有两个学习小组的统计学成绩为 第一组:60,70,80,90,100 第二组:78,79,80,81,82,两组的统计成绩的平均分都是80分,哪一组的分数比较集中呢?,如果用全距指标来衡量,则第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。,65,例:某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度计划完成
25、程度的全距。,相邻组距,66, 简单平均差适用于未分组资料,是各个数据与其算术平均数的离差绝对值的算术平均数,用A.D 表示,平均差,计算公式:,67,【例15】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。,解:,即该售货小组5个人销售额的平均差为93.6元,68, 加权平均差适用于分组资料,平均差的计算公式,69,例:某厂按月收入水平分组的组距数列如表所示,计算平均差。,70,1525 65 35 15,71,平均差的特点,优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度; 缺点:用绝对值的形式消除各标志
26、值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。 一般情况下都是通过计算标准差和方差,来反映总体内部各单位标志值的差异状况。,72,方差与标准差,1.定义:方差是各变量与其算术平均数的离差平方的算术平均数,标准差是方差的平方根。,方差和标准差是测度数据变异程度最重要、最常用的指标。,2.计算公式,(1)总体方差和标准差,A.对于未经分组整理的原始数据,73,B.对于分过组的数据,A.对于未经分组的原始数据,(2)样本方差和样本标准差,B.对于分过组的数据,74,根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关
27、闭?,例:考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:,因此,该机器工作正常。,例3.24:以下是某赛季季后赛场均得分排名榜上凯尔特人队的格伦-戴维斯,火箭队的姚明,黄蜂队的克里斯-保罗最近10场球赛的得分情况,试比较谁的发挥更为稳定。,格伦-戴维斯的发挥更为稳定!,77,例:计算下表中某公司职工月工资的标准差。,78,解:,(比较:其工资的平均差为138.95元),即该公司职工月工资的标准差为167.9元。,79,3.方差、标准差的性质,(1)常数的方差为0,(2)若,为常数,则,80,样本方差为什么要除以(n-1)?,请看视频,81,反应灵敏,随任何一
28、个数据的变化而变化; 一组数据的方差和标准差有确定的值; 适合代数计算,不仅求方差和标准差的过程中可以进行代数运算,而且可以将几个方差和标准差综合成一个总的方差和标准差; 用样本数据推断总体差异量时,方差和标准差是最好的估计量。,4.方差、标准差的特点,优点,受数据量纲的约束,当数据间量纲不统一时,无法直接比较; 受数据自身水平的影响较大,当数据水平存在差异时,无法直接比较;,缺点,82,离散系数,1.定义:离散系数也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。,2.计算公式,V和Vs分别表示总体离散系数和样本离散系数。离散系数用于对不同组别数据的离散程度进行比较时,离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度也就小。,83,抽取一群20岁的男女生,测量了他们的体重,分别得到均值和标准差如下: 男生:女生: 男生:女生:,离散系数,女生的体重差异大, 男生的体重差异小, 男生的体重均值代表性大。,84,例:某年级一、二两班某门课
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 不同地区的安全管理特点计划
- 制定教学资源采购与管理计划
- 2024-2025学年八年级物理下册 7.1力教学实录 (新版)新人教版
- 会计人员职业规划的探讨计划
- 幼儿园课程主题创意设计计划
- 医疗行业保安工作总结计划
- 2025年微生物检测试剂项目发展计划
- 秋季学期实验室使用规范计划
- 2025年高压自动重合器项目合作计划书
- 建立多渠道反馈促进教育改进计划
- 2024年预防接种工作计划(6篇)
- 衡中同卷2025届高三第一次模拟考试数学试卷含解析
- 万科物业2024年业主满意度提升策略培训案例解读
- 湘教版地理八年级下册 第五章 中国的地域差异 综合测试卷(含答案)
- 电线电缆质量缺陷修复规范(暂行)
- 小儿鼾症课件
- 2024年电工(初级)操作证考试题库附答案
- 建筑构造-教材说课-李银星
- 液压与气压传动习题及参考答案
- 2024年执业医师考试-临床执业助理医师考试近5年真题集锦(频考类试题)带答案
- 断绝父子关系协议书
评论
0/150
提交评论