《统计数据的描述》PPT课件.ppt_第1页
《统计数据的描述》PPT课件.ppt_第2页
《统计数据的描述》PPT课件.ppt_第3页
《统计数据的描述》PPT课件.ppt_第4页
《统计数据的描述》PPT课件.ppt_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,一、总量数据和相对数据的描述 二、统计数据的集中趋势 三、统计数据的离中趋势 四、数据分布形态的测定,统计数据的描述,2,仅有数据的搜集和整理,忽视对数据的分析和解读,是一种表层的非创造式的统计方式。 统计视线中的社会和经济 孙宪华著 中国统计出版社,就像房屋是由石头堆砌的一样,科学是由事实构成的。但如同一堆石头并不是一栋房子,仅仅是事实的收集,也并不成为一门科学。 J.H.Poincare 统计与真理【美】C.R.劳/著,3,2008年国民经济和社会发展统计公报 中华人民共和国国家统计局 2009年2月26日,全年国内生产总值300670亿元,比上年增长9.0%。 居民消费价格比上年上涨

2、5.9%。 年末全国就业人员77480万人,比上年末增加490万人。 年末国家外汇储备19460亿美元,比上年末增加4178亿美元。年末人民币汇率为1美元兑6.8346元人民币,比上年末升值6.9%。 全年税收收入57862亿元,比上年增加8413亿元,增长17.0%。 全年粮食产量52850万吨,比上年增加2690万吨,增产5.4,4,国际地位和国际影响发生了根本性的历史转变,1978年,我国国内生产总值(GDP)只有1473亿美元,到2007年达到32801亿美元。2000年,我国GDP超过意大利,位于世界第六位。是美国GDP的12.3%,是日本GDP的25.7%,是德国GDP的63.1%

3、,是英国GDP的83.1%,是法国GDP的90.2%。2005年,我国GDP超过英国和法国,位于世界第四位,是美国GDP的18.1%,比2000年提高5.8个百分点;是日本GDP的49.3%,接近一半,比2000年提高了近一倍;是德国GDP的80.5%,比2000年提高17.4个百分点。2007年,我国GDP仍位于世界第四位,但已是位于世界第三位的德国的99.5%,比2005年提高19个百分点。 从1978年到2007年,我国GDP占世界GDP的比重从1.8%上升到6.0%,提高了4.2个百分点。 _改革开放30年报告之十六 国家统计局,5,统计指标,数量指标,质量指标,6,统计指标的种类,一

4、)根据指标所反映的内容不同分为: 数量指标(外延指标) 反映客观现象总体规模和水平, 说明总体的外延范围的大小或数量的多少, 数量指标的数值大小会随总体范围变化而变动。 质量指标(内涵指标) 反映客观现象总体的一般水平或相对水平,说明总体的数量对比关系; 其数值大小与总体范围大小没有直接关系,7,例:下面的统计指标中属于质量指标的是( ) A.GDP B.商业企业增加值 C.人均销售收入 D.社会消费品零售总额,二)根据指标数值的表现形式不同,分为: 总量指标(数量指标)现象总规模、总水平的描述 相对指标(质量指标)也称为统计相对数,用于现象的对比分析 平均指标(质量指标) 也称为统计平均数,

5、现象集中趋势的度量,8,三)统计指标按性质不同,可分为: 正指标:指标数值越大越好 如企业的利税总额、劳动生产率等 逆指标:指标数值越小越好 如产品单位成本、废品率、犯罪率等 适度指标:在一定范围内波动才说明现象变化处于正常状态,过高或过低都不理想 如基尼系数 在0.30.4之间比较合理,9,一、总量数据和相对数据的描述,10,一)总量数据的描述 1.总量数据的意义 总量数据是总量指标的取值,也称绝对数。总量指标是反映社会经济现象总体规模或绝对水平的综合指标(即数量指标)。 例: 由2005年1月6日中国13亿人口日全国电视电话会获悉,未来十几年,我国人口仍将以每年800万至1000万的数量递

6、增。预计2032年前后将出现人口高峰,届时人口总量将达14.7亿人左右。 据2008年国民经济和社会发展统计公报:2008年末全国就业人员77480万人,比上年末增加490万人。其中城镇就业人员30210万人,净增加860万人,新增加1113万人。年末国家外汇储备19460亿美元,比上年末增加4178亿美元,总量指标的数值大小与总体范围有关,一般具有可加可减的特点,11,2.总量指标的作用 反映现象总体特征的基础数据; 认识社会经济现象的起点; 是对社会经济现象实行科学管理和宏观调控的基本依据; 是计算相对指标和平均指标的基础,12,总体单位总量(总体总量)即总体的单位总数 总体标志总量(标志

7、总量)是总体各单位标志值的总和。 例:以成都地区的所有商业企业为考察对象,则该地区商业企业总数为总体总量,该地区所有商业企业销售额的合计为标志总量,3.总量指标的分类 (1)按反映总体内容不同,分为总体单位总量和总体标志总量,13,2)按其反映的时间状况不同,总量指标可分为时期指标和时点指标。 时期指标(流量指标)反映现象在一段时间内发生的总量; 时点指标(存量指标)反映现象在某一时刻上状态的总量,14,时期指标和时点指标的不同特点: 时期指标在不同时期的指标数值可以相加,其数值大小与时间长短有直接关系; 时点指标在不同时间上的数值加总没有实际意义,时点指标的数值大小与时点间的间隔长短没有直接

8、关系,例:国际上评价财政赤字风险通常有两个指标:赤字率(赤字占GDP的比重)和负债率(国债余额占GDP的比重,15,实物(量)指标 计量单位为实物单位指以事物的自然属性和特点进行计量的单位,包括: 自然单位:如人、只、台、件,用于离散型数据。 度量衡单位: kg、cm、,用于连续型数据 。 例:纯收入2476元、体重52公斤、身高1.66米,3)按计量单位不同分为实物量指标、价值量指标和劳动量指标,16,标准实物单位:按某一标准(含量、规格等)折算后的实物单位。便于将用途相同、但规格或含量不同的物品数量汇总,准确反映物品的使用价值总量。 例:热量7000大卡、白酒52度、粮食、能源(标准吨)等

9、; 复合单位:由两个单位以乘积的形式构成。 例:吨*公里、人公里、人次数、工日,17,实物量指标的特点:能够直接说明物品的使用价值量或某一具体事物的总体数量,但综合性能差,不同使用价值、不同计量单位的实物数量无法直接汇总,用途反映主要物资的生产和消耗、主要产品的供需平衡、特别是无法估价的土地面积和自然资源数量等,18,价值量指标 是用货币单位计量的总量指标,如人民币元,对外贸易中使用英镑、美元、欧元等。 例:产值3.5万5万亿元 特点:具有较强的综合性,便于表明经济活动的总成果、总规模。但内容抽象,不能直接反映出事物的具体内容,且易受价格波动影响。 用途:表明经济活动的总成果、总规模,广泛用于

10、经济效益的考核和评价等。农产量加总,19,劳动量指标 用劳动时间单位计量(工日、工时、人年等)。 劳动量指标的特点:可作为确定劳动定额、评价劳动时间利用程度、计算劳动生产率的依据。但一般限于同一企业内部使用,因为不同行业、不同企业在生产规模、技术水平、管理水平等方面缺乏可比性,其劳动量指标汇总一般没有意义,20,二)相对数据的描述 1.相对指标的意义: 相对指标是两个有联系的指标对比的比率。 揭示现象之间的数量联系和对比关系; 使一些不能直接对比的现象找到共同的比较基础; 是进行宏观经济管理和评价经济活动状况的重要指标,2.相对数的计量形式,相对数有两种计量形式:无名数和复名数。无名数是一种抽

11、象化的、无量纲的数,包括百分数、千分数、成数、倍数和系数等;复名数是以分子分母的计量单位共同构成计量单位,21,3.相对指标在社会经济分析中的应用 根据研究目的、对比基础的不同,相指标主要用于六个方面的分析,形成六种相对数: 结构分析(结构相对数):反映现象的结构和分布 比例分析(比例相对数)反映现象内部比例关系 比较分析(比较相对数):评价不同单位的实力、优劣; 强度分析(强度相对数):反映现象的强度密度和普遍程度,评价经济实力和效益,22,动态分析(动态相对数):反映现象时间上的发展变化状态; 计划完成分析(计划完成相对数):用于检查计划完成程度,1 )结构相对数(又称比重) 在分组的基础

12、上,将总体某一部分的数值与总体全部数值对比,反映现象的内部结构以及分布状况,23,例: “农民收入中包含近40%的实物收入,例:500家公司中已有98%在网上开设网址,24,表1 中国人口年龄结构变化,人口年龄结构变化的特点与现状,25,如:恩格尔系数食品消费支出/总消费支出 绝对贫困 勉强度日 小康 富裕 最富裕 59% 50% 40% 30% 2004年北京城市居民和农村居民恩格尔系数分别为32.2和32.6;2004年全国城市居民和农村居民恩格尔系数分别为7.7和47.2。 “2005年国民经济和社会发展统计公报”显示,中国居民贫富分化程度略有缩小。 整个十五期间,城镇居民家庭恩格尔系数

13、从2001年的38.2%下降到2005年的36.7%,农村居民家庭恩格尔系数从2001年的47.7%下降到2005年的45.5,26,2)比例相对数(简称比例): 在分组基础上,将总体不同部分的数值对比,反映总体内部的比例关系(结构性的比例,例:有关统计资料表明,四十年前世界最富的人口和最穷的人人均收入比是30;1,而现在已上升到74:1,27,我国城乡居民收入差距逐步扩大,国家统计局有关人士指出:“2002年我国城乡居民收入表面的差距是1:3。实际上,约为1:5,甚至更大。,28,29,3)比较相对数: 将同一现象在同一时间不同空间的数值对比,反映同类现象在不同空间(不同国家、不同地区、不同

14、单位)的差异程度和现象发展的不平衡状况,1995年我国人均GDP/日本人均GDP = 578美元/37397美元 = 1.55% 日本人均GDP/我国人均GDP = 37397美元/578美元= 64.7(倍,30,温家宝总理接受华盛顿邮报总编采访时说: 13亿,是一个很大的数字,如果你用乘法来算,一个很小的问题,乘以13亿,都会变成一个大问题。如果你用除法的话,一个很大的总量,除以13亿,都会变成一个小的数目,青年文摘2004年2期P33,2003年我国人均GDP/日本人均GDP = 9101元/279588元 = 3.255% 日本人均GDP/我国人均GDP = 279588元 / 910

15、1元= 30.72(倍,31,4)动态相对数(即发展速度) :将同一现象两个不同时间的指标数值对比,反映现象在时间上的发展变化,例: “2004年北京全市城市居民人均可支配收入达15637.8元,比上年增长12.6,32,发展速度 发展速度报告期水平基期水平 说明现象在观察期内发展变化的相对程度; 根据基期的不同,发展速度有环比发展速度和定基发展速度之分。 环比发展速度报告期水平上期水平 定基发展速度报告期水平固定基期水平,33,两种速度之间的重要关系: 各环比发展速度的连乘积等于相应时期的定基发展速度; 相邻两个定基发展速度之商等于相应的环比发展速度,为了消除季节因素的影响,实际工作中,也可

16、以本期(月或季)发展水平与上年同期(月或季)发展水平相比,表示本期较上年同期发展的相对程度(称为年距发展速度,34,5)强度相对数:将同一时间同一空间两个不同性质而有联系的指标数值对比,可以反映现象的强度、密度、普遍程度和经济效益等,例:人均国内生产总值指标,35,反映现象的强度,如:人均GDP、人均粮食产量 反映现象的密度和普遍程度,如:人口密度、每万人拥有医院病床数(医生数)、人均绿地面积等 反映经济效益,如资金利润率。 其它如: 外贸依存度=对外贸易总额/GDP 保险密度=保费/人口数 金融相关度(率)=金融资产总量/GNP,36,判断分析 人口密度、人均粮食产量均是强度相对数,而不是平

17、均数。 第五次人口普查人口密度数据: 全国132人/平方公里 上海2657人/平方公里 四川172人/平方公里 青海7.2人/平方公里 西藏2.1人/平方公里,37,强度相对数的特点:1、是惟一有单位的相对数; 2、分子分母可以互换(但必须要有意义),故有正指标与逆指标之分。 正指标:指标数值越大经济实力越强。 逆指标:指标数值越小经济实力越强。 3、强度相对数常带有“人均”字样,但不是平均数(含义不同,38,6)计划完成相对数:将某一指标的实际完成数与计划任务数(或目标规划数)对比,可以反映计划任务(或目标规划)的完成程度。 计划完成相对指标通常用百分比表示,故也称为计划完成百分比,39,六

18、种相对数指标的比较,不同时期(同类现象) 比较,动 态 相对数,强 度 相对数,不同现 象比较,不同总体 比较,比较 相对数,同一总体中比较,部分与部分比较,部分与总体比较,实际与计划比较,比 例 相对数,结 构 相对数,计划完成 相对数,同一时期比较,同类现象比较,40,集中趋势指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值,三、统计数据集中趋势的描述,41,集中趋势的描述归纳起来有两大类:一类是数值平均数;另一类是位置平均数,数值平均值:是根据全部数据计算得到的平均值,易受极值影响,包括:算术平均数(均值)、调和平均数、几何平均数,位置平均值:是根据数

19、据所处位置确定或与所处位置有关的部分数据计算确定的代表值,不受极端值影响,包括:众数、中位数,42,1、算术平均数(均值,分子与分母来源于同一总体,分子是分母具有的标志值,分母是分子的承担者,基本计算公式,一)数值平均值,1)简单算术平均法,43,2)加权算术平均法 设分组后的数据为:x1 ,x2 , ,xK 相应的频数为: f1 , f2, ,fK,简单平均是加权平均的特例,一般加权公式和比重加权公式是变形关系,44,例】根据下表数据,计算50 名工人日加工零件数的均值,45,加权” 和“权数” 各个变量值出现的次数不同,对平均数的影响作用也不相同。在计算平均数时,要以变量值 x乘以次数f

20、以权衡其轻重,这就是“加权”;变量值出现的次数(严格说是该变量值出现的次数在总次数中的比重f /f )称为“权数,46,甲乙两组各有10名学生,他们的考试成绩及其分布数据如下: 甲组: 考试成绩(x): 0 20 100 人数分布(f): 1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f): 8 1 1,47,权数有两种形式,一种是频数权数 f,一种是比重权数 f /f ,权数权衡轻重的作用由比重权数所体现,因此,比重权数更清楚地说明了权数的实质,48,算术平均数的特点,算术平均数受变量值及变量值出现次数的共同影响; 算术平均数靠近出现次数最多的变量值; 算术平均数受极端变

21、量值的影响,49,例】某蔬菜批发市场三种蔬菜的日成交数据如下表,计算三种蔬菜该日的平均批发价格,50,可见统计中使用的调和平均公式仅仅是算术平均公式的变形,同一例二者计算出来的平均数数值是相等的。 一般而言,若已知平均数计算中的分母资料,分子需经过乘法运算才能得到(即缺乏分子资料),则平均数的计算用加权算术平均方法; 若已知平均数计算中的分子资料,分母需经过除法运算才能得到(即缺乏分母资料),则平均数的计算用加权调和平均方法。但有“ 0”值时不能计算,51,例,某公司下属三个企业某年销售额计划完成情况如下,52,但实际上为97.86%。 这主要是由于销售额所占比重较大的第二个企业没有完成计划所

22、至。可见,各企业的销售额(准确说是各企业销售额在全部销售额中的比重)在公司总的(三个企业平均的)销售额计划完成中起着权衡轻重的作用,该例中,公司销售额总的计划完成(也就是三个企业的平均计划完成)如果用简单平均公式得,53,课堂练习:根据下表数据计算18个连锁商店平均销售额计划完成程度,54,3)算术平均数的数学性质,各变量值与均值的离差平方和最小,各变量值与均值的离差之和等于零,优点:容易理解便于计算,灵敏度高稳定性好。 缺点:易受极值影响,在偏斜分布和U形分布中不具有代表性,55,4)平均法在计算动态平均数中的应用,算术平均法也常常用于计算动态平均数(也称为序时平均数)。所谓动态平均数是将现

23、象在不同时间上的数量差异抽象掉,反映现象在一定发展阶段的一般水平。动态平均数的计算基础是时间序列,不同的时间序列其平均发展水平的计算方法也有所不同。 时期序列计算平均发展水平 时期序列中各项数据相加等于现象在一段时期内的总量,所以计算时期序列的平均发展水平,采用的是简单算术平均法,即将各期数据之和除以时期的项数。其计算公式为,计算结果表示:某段时间内平均每期的水平,56,时点数列的序时平均数,计算结果表示:现象在某段时间内平均(每个时点上)所达到的水平。 连续时点数列(已知每天数据,例,某商业银行某年1月13日17日的存款余额(万元)分别为:766、664、843、578、639,则这5天的平

24、均余额为: (766 + 664 + 843 + 578 + 639)/ 5 = 698(万元,57,不连续时点数列计算序时平均数,58,当时点间隔相等,上式简化为: “首末折半法,先求分段平均数=相邻两点数据的简单算术平均 再求全期总平均数=分段平均数的加权算术平均 (权数f =时点间的间隔长度,计算步骤和公式,59,该公式形式上表现为首末两项数值折半,故称为“首末折半法”。 显然,首末折半法适用于间隔相等的时点序列求平均发展水平。 其假设条件是: 上期期末时点数据即为本期期初时点数据,相邻两时点间现象的数量变动是均匀的,60,已知某地区20042008各年年末社会劳动者人数(万人)如下表所

25、示,求20052008年的年平均社会劳动者人数,61,例,设某企业某商品2008年各统计时点的库存量如下表,计算该商品2008年的年平均库存量,62,对于间隔不等的时点序列,求平均发展水平时,是以间隔期数为其权数的加权平均,首末折半”公式和“间隔加权”公式并没有实质上的不同,前者不过是后者的特例而已,无论间隔是否相等,间断时点序列计算的平均发展水平其结果都仅仅是一个近似值。一般地,间隔越短,结果越符合实际,63,64,问题与思考,若要求某年平均资产数量,已知该年: 年初、年末的资产总额; 各季度初、季末的资产总额; 各月初、月末的资产总额; 应该采用哪种数据来计算,65,2、几何平均数,几何平

26、均数是用若干数据的连乘积开项数次方来计算的一种平均数,几何平均数也分为简单几何平均数和加权几何平均数。 简单几何平均数的计算公式是,计算几何平均数的前提是各个数据的乘积或幂的 乘积有意义,66,几何平均数在社会经济统计中的应用 适用于各比率的连乘积等于总比率这种现象求平均比率,例1:某企业生产某种产品要经过三道工序,各工序的合格品率分别为95%、96%和98%。该产品三道工序的平均合格品率为多少,67,例3:某地区最近三年社会商品零售额的发展速度分别为108%、106%、109%,问年平均发展速度为多少,例2:一位投资者持有一种股票,四年的收益率分别为4.5%、2.0%、3.5%、5.4%。计

27、算该投资者在这四年内的平均收益率,平均收益率为3.84,68,平均发展速度的计算,各环比发展速度的连乘积等于总发展速度,所以平均速度的计算往往采用几何平均法。 平均速度包括平均发展速度和平均增长速度。平均发展速度是环比发展速度的平均数,说明现象在某个发展阶段上的逐期发展变化程度的一般水平。平均增长速度表示环比增长速度的一般水平,说明现象在某个发展阶段上平均逐期增长程度,但不能直接将各个环比增长速度加以平均,应根据它与平均发展速度之间的内在联系来计算,即计算公式为: 平均增长速度平均发展速度1,69,若以xi代表各期环比发展速度,n代表环比发展速度的项数, 则平均发展速度的计算公式为,同一种方法

28、,资料不同,有三种计算形式,环比发展速度的个数 数列发展水平项数,由于环比发展速度的连乘积等于定基发展速度即总速度用R 表示,所以上式也可以写为,又由于定基发展速度等于期末水平除以期初水平,所以上式也可以写为,70,例1,我国1980年的国内生产总值为4517亿元,欲在2000年翻2番。问年平均增长速度至少为多少才能达此目标?20年总共增加多少亿元?年均增长额为多少亿元,71,72,例2.十六大报告指出:全面建设小康社会最主要的目标之一是国内生产总值2020年力争比2000年翻两番(2000年为89404亿元),那么年平均增长速度和年均增长额至少为多少才能达此目标,73,74,1、众数,出现次

29、数最多的变量值 不受极端值的影响 一个数列中可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数值型数据 要求总体总量充分大并有明显集中趋势,众数是衡量品质数据位置的重要量度(众数类,位置平均数是根据变量值在分配数列中所处的位置来确定的平均数。位置平均数不是根据所有的变量值而是根据特殊位置来确定的,因此它不受极端值的影响,二)位置平均值,75,确定众数,要注意以下两个前提,1)总体单位总量必须相当大才有众数。若数据资料很少,虽然可以从中得到一个具有较大频率的数值,但其价值并不大,无“最普遍值”的意义。 (2)次数分布须具有明显的集中趋势才有众数。若数列中各个数据出现的频率都差不多,

30、则所得到的“众数”缺乏代表性。 因此,一个变量数列的算术平均数和中位数总是客观存在的,而众数就不一定,76,77,这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,品质数列(定序数据)的众数,78,假定众数组的频数在众数组内均匀分布,等距数列近似计算众数,先确定众数所在组 众数的值与相邻两组频数的分布有关,79,L是众数所在组的下限; f-1是众数所在组前一组的次数; f+1是众数所在组后一组的次数; f是众数所在组的次数; i是众数组的组距,80,81,2、中位数,将一组数据按大小顺序排列后处于中间位置的数

31、值,不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能用于定类数据 各变量值与中位数的离差绝对值之和最小,82,中位数的应用教育及收入 平均来说,受较多教育的人赚的钱比受较少教育的人多。多多少呢?一个简单的方法就是比较中位收入。以下是4种不同教育程度的成人年薪的中位收入(美元),数据来自美国1999年3月当前人口调查(CPS)所访问到的71512位成人,高中毕业 大学肄业 学士学位 更高学位 16297 18988 32581 47000,83,洛杉矶湖人队2000年统计表 单位:百万美元,平均数与中位数的差异,84,湖人篮球队14位球员2000年薪水平均数为410万美元,去掉2个极

32、值后为240万美元; 中位数为260万美元, 14位球员2000年薪水的标准差为476万,去2个极值后为172。 中位数有时被称为集中趋势的对抗性量度,因为它能抗拒极端值的影响,对于极端偏斜的分布来说,中位数能较好地代表分布的中心。 美联邦政府每月报道住宅的价格中位数而不报道价格均值,85,纽约是穷州? 纽约州的个人平均收入在美国50个州中位居第4,和它的富邻居康涅狄格及新泽西州一起名列前矛(后两州分别为1、2名)。但后两州住户的中位收入分居全国第7和第2名,纽约州却排在第29,比全国中位收入低许多。 这只不过是平均数不同于中位数的另一个例子,86,描述偏态分布的中间水平常用中位数而不用平均数

33、,但也要看研究的目的。 房屋售价的分布通常是右偏的,但如果政府是为了决定税率而要估计所有房屋的总市值时,有用的是平均数而不是中位数,很多和钱有关的分布,例如收入、房价、财富等,都有很强的右偏现象,平均数会比中位数大得多。 描述收入和财产数据分布常用中位数而不用平均数,87,原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,88,原始数据:10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6,89,品质数列(定序数据)的中位数,中位数的位置为 (300+1)/2150.5 从累计频数看,中

34、位数在“一般”这一组中,因此 Mo一般,中位数例,90,在组距数列中确定中位数,计算向上累计次数;确定中位数的位置N/2和所在组;假定中位数组的频数在该组内均匀分布;用下面的公式确定中位数,L为中位数组的下限; Sm-1为中位数组前一组的向上累计次数; fm为中位数组的次数; i为中位数组的组距,91,92,思考: 美国个人收入的分布,右偏状况非常明显,1997年美国最高收入1的人,平均收入和中位数一是33万美元,一是67.5万美元,这两个数字哪个是平均数,哪个是中位数?解释你的理由。 如果你的业务是销售运动衫,哪一种运动衫号码的度量对你更为有用( ) (1)均值 (2)中位数 (3)众数 (

35、4)四分位数,93,测量房主对房地产销售价格偏好的量度应该是( ) 众数?中位数?均值? 少数房地产的高销售价格会使均值偏高。 皮鞋零售商对潜在顾客鞋子尺码感兴趣的度量是( ) 众数?中位数?均值,94,隐恶扬善,美国大专院校会宣布他们入学新生的“平均”分数,而通常每所学校都希望这个“平均”越高越好。纽约时报一篇报道指出:“用奖学金来”大量收买“顶尖学生的私立学校喜欢用平均数,而谁都可以申请入学的公立学校喜欢用中位数。”运用你对平均数和中位数的知识,来说明为什么私立学校和公立学校会各自有如此偏好,95,4.中位数、众数和平均数的关系,中位数、众数和平均数之间的数量关系决定于总体内次数分配的状况

36、。 对称钟形分布情形下: 非对称左偏分布情形下: 非对称右偏分布情形下,96,97,算术平均数、几何平均数、调和平均数、众数、中位数等,在功能上并无主次之分。他们各有自己的适用性和局限性。 一般地说,对于一组具体的统计资料,谁能更好地代表它的一般水平,谁就是最好的平均指标,慎用和善用统计平均数,98,三、统计数据的离中趋势,讨论: 在最近的辩论中,一位政治家声称,由于美国的平均收入在过去的四年中增加了,因此情况正在好转。但他的政敌却说,由于在穷人和富人的平均收入之间存在着越来越大的差异,因此情况正在恶化。这两种说法都对吗,99,如何投资的统计思考: 下面的数据是美国19501999年50年三种

37、投资获利的平均数和标准差: 投资 平均获利 标准差 短期国库券 5.34 2.96 长期国库券 6.12 10.73 股票 14.62 16.32,100,假如你是一个采购代理商,你定期向两个不同的供应商订货,两个供应商都指出订货后大约需要10天才能交货。营运了几个月以后,你发现两个供应商交货时间的平均数都是10天左右。 两个供应商交货所需工作日的数据如下: 乙供应商:7天 频率0.2 8天 频率0.1 10天 频率0.3 11天 频率0.2 12天 频率0.3,101,尽管二者在供货的平均时间均为10天,但在按时供货的可靠性上是否一致?你更愿意向哪一个供货商订货,甲供应商:9天 频率0.1

38、10天 频率0.8 11天 频率0.1,102,1.变异指标的概念和作用 变异指标是反映统计数据差异程度的综合指标,又称标志变动度,是衡量平均数代表性的尺度 其值越大,数据的差异程度越大,平均数代表性越差 反映社会经济活动过程的均衡性、稳定性,反映统计数据的差异 反映各变量值远离其中心值的程度,103,离散程度的绝对指标: 用绝对数或平均数表示,主要有极差(全距)、四分位差、平均差、标准差等,其计量单位与各变量值的计量单位相同; 离散程度的相对指标: 用相对数表示,主要有离散系数、异众比率等,2、变异指标的类别和计算,104,1)极差与四分位差,极差一组数据的最大值与最小值之差 未分组数据:

39、R = max(xi) - min(xi,适用于度量变化较稳定的现象的离中趋势 该指标是数据离势的不敏感量度,不能反映数据离势的差别;且信息含量不大,105,极差是数据离势的不敏感量度,极差信息含量不大 全距只是量化了数据集中最大最小两个极端值之间距离,反映不出所有测量值对于中心的离散程度,106,3)方差Variance和标准差S.D,以变量值与平均数的离差平方为基础,讨论平均数的代表性。 反映各变量值与其均值的平均差异程度; 具有灵敏度高、数学性质优良、计算方便等优点,107,108,109,方差和标准差的数学性质,若每一个变量值均扩大一个常数倍,方差和标准差也同比例变化,一般而言同一数列

40、的标准差不小于平均差,若每一个变量值加上一个常数,方差和标准差不变,110,思 考,一家公司在招收职员时要通过两项能力测试,在A项测试中其平均分为100分,标准差为15分;B项测试平均分为400分,标准差为50分。应试者甲在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者的哪项测试成绩更为理想,111,经验规则的应用 有些预订了客房而没有去住宿的旅客(客气的称呼是“未露面者”),往往未能及时取消预订。为了防止未露面者和取消预订太晚者给旅店造成的损失,旅店一律采用超员预订的方法。 下面是一家拥有500个客房的大型旅店30天的随机样本资料,数据是一天内未露面者和取消预订太

41、晚者的人数。根据这些数据,旅店每天至少应超员预订多少客房,18 16 16 16 14 18 16 18 14 19 15 19 9 20 10 10 12 14 18 12 14 14 17 12 18 13 15 13 15 19,112,问题的引出:一群牛的平均体重是180公斤,标准差是18公斤;一群羊的平均体重是15公斤,标准差是3公斤,能不能说羊的平均体重的代表性高些?为什么,4)离散系数与异重比率,113,多个不同的总体现象,若它们之间平均数不同,用标志变异的绝对指标比较其平均数代表性的大小,不能得到正确的结论。此时需用标志变异的相对指标,即用离散系数来进行对比分析,全距、平均差、

42、方差和标准差有计量单位,是标志变异的绝对指标。 而且指标的大小不仅取决于变量值的差异程度,还取决于变量值一般水平的高低。因而,对于具有不同水平的数列,不能直接用全距、方差和标准差来比较平均数代表性的大小。只能用相对形式进行比较,114,离散系数=标志变异的绝对指标/平均数 全距系数=全距/平均数 平均差系数=平均差/平均数 标准差系数=标准差/平均数,115,标准差系数,消除了平均水平高低和计量单位不同的影响 用于对不同组别数据离散程度和平均数代表性的比较; 离散系数越小说明数据的离散程度越小,平均数的代表性越好,标准差与其相应的均值之比,116,例】试比较下表中各企业产品销售额与销售利润的离散程度,117,异众比率,主要用于测度各个变量值对于众数的离散程度和众数的代表性。 其值越大,众数代表性越小,变量值差异越大。 即适用于分类数据数列,也适用于变量数列测定各变量值对于众数的离中趋势,非众数组的频数占总频数的比率,118,例】根据表中数据,计算异众比率,这说明在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论