版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章数据分布特征的测度第一页,共一百四十九页,2022年,8月28日第4章数据的概括性度量4.1
总规模度量4.2比较度量
4.3集中趋势的度量4.4离散程度的度量4.5偏态与峰态的度量第二页,共一百四十九页,2022年,8月28日学习目标总量指标的种类相对指标的种类及计算方法集中趋势各测度值的计算方法集中趋势各测度值的特点及应用场合离散程度各测度值的计算方法离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析 第三页,共一百四十九页,2022年,8月28日一、总量指标概述二、总量指标的种类4.1总规模度量第四页,共一百四十九页,2022年,8月28日一、总量指标概念总量指标:是反映社会经济现象在一定时间、地点条件下总规模或总水平的统计指标。通常用绝对数来表现的,也称为绝对指标或绝对数。
如:2008年我国年末人口数为132802万人、国内生产总值(GDP)300670亿元、财政收入61330亿元、粮食产量52871万吨第五页,共一百四十九页,2022年,8月28日二、总量指标的种类
1、按反映的内容不同,可分为:总体单位总量:表示一个总体中所包含的总体单位总数,表示总体本身的规模大小。总体标志总量:反映统计总体中各单位某一数量标志值的总和,表示总体某一数量特征的总量。例如:研究某市工业企业的经营情况,工业企业总数是总体的单位总量,工业企业实现的销售额、利税总额、职工人数等是统计总体的标志总量。
第六页,共一百四十九页,2022年,8月28日总量指标的种类2、按反映的时间状态不同,分为时期指标:说明总体在一段时间内累积的总量例如:销售收入、利润、生产量、工资总额时点指标:说明总体在某一时刻的数量状态例如:职工人数、设备台数、库存量、固定资产余额、储蓄存款余额等。第七页,共一百四十九页,2022年,8月28日总量指标的种类时期指标和时点指标的区别:⑴时期指标的数值是连续计数的,时点指标的数值是间断计数的。⑵时期指标具有可加性,时点指标不能直接累加。⑶时期指标数值的大小与时间长短有直接关系,时间越长,数值越大;时点指标数值的大小与时间长短没有直接关系。第八页,共一百四十九页,2022年,8月28日总量指标的种类3、按采用的计量单位不同,分为(1)实物指标:以实物单位计量的总量指标。自然单位:按照被研究现象的自然状态计量的单位。如:辆度量衡单位:根据国内或国际上通行的度量衡制度对现象进行计量的单位。例如:千克或吨、米标准实物单位:按照统一的折算标准来度量被研究现象数量的一种计量单位。如:标准煤复合单位:将两种计量单位结合在一起对研究现象进行计量的单位。如:吨公里双重或多重单位:同时采用两种或两种以上计量单位对被研究现象进行计量的单位。如:台/千瓦、艘/马力/吨位
第九页,共一百四十九页,2022年,8月28日总量指标的种类(2)价值指标:以货币为单位来计量的总量指标。如:国内生产总值、销售收入、产品成本等。(3)劳动指标:以劳动单位为计量单位的总量指标。如:“工时”、“工日”等第十页,共一百四十九页,2022年,8月28日4.2比较度量一、相对指标概述二、相对指标的种类及计算方法第十一页,共一百四十九页,2022年,8月28日一、相对指标概述“对比乃统计方法之母”(一)概念相对指标:又称相对数,是两个有联系的指标的比值,用以说明两个相互联系的社会经济现象之间的数量对比关系和联系程度。如:2008年国内生产总值同比增长16.9%,人口自然增长率为5.08‰,居民消费价格指数105.9%,城镇居民人均可支配收入15781元,城镇居民家庭恩格尔系数为37.9%等
第十二页,共一百四十九页,2022年,8月28日一、相对指标概述(二)相对指标的表现形式:1、有名数(复合单位)如:人/平方公里、元/人、元/件2、无名数系数和倍数、成数、百分数、千分数、翻番数第十三页,共一百四十九页,2022年,8月28日二、相对指标种类及计算方法(一)计划完成相对数也称计划完成百分比,表明某一现象在一定时间计划的完成程度,用来检查、监督计划的执行情况,通常用百分数表示。基本计算公式为:
第十四页,共一百四十九页,2022年,8月28日二、相对指标种类及计算方法1、计划数是绝对数水平法:适用于反映生产能力的经济指标计划完成情况检查。如钢产量、煤产量、发电量等例如:某钢铁公司计划十一五末达到年产1000万吨的能力,实际达到1100万吨,计划完成相对数?第十五页,共一百四十九页,2022年,8月28日二、相对指标种类及计算方法累计法:以计划期内各年计划数量的累计总和为对象考核。如基本建设投资额、造林面积、住宅建设、开垦荒地等计划完成情况。例如:某地区十一五计划开垦荒地1000公顷,到第五年实际累计开垦960公顷,计划完成相对数?第十六页,共一百四十九页,2022年,8月28日(一)计划完成相对数⑵计划数是相对数例:某企业产量计划增长10%,该产品的单位成本计划下降5%,而实际产量增长15%,实际单位成本下降3%,则产量和单位成本的计划完成程度指标为:第十七页,共一百四十九页,2022年,8月28日(一)计划完成相对数例:某企业计划要求劳动生产率达到5000元/人,某种产品的计划单位成本为100元,该企业实际劳动生产率达到6000元/人,实际单位成本为80元,则计划完成程度指标为劳动生产率完成相对数=6000/5000×100%=120%单位成本计划完成相对数=80/100×100%=80%正指标:产量、利税、销售额等,计划指标按最低限额规定。逆指标:单位成本、原材料消耗等,计划指标按最高限额规定⑶计划数是平均数第十八页,共一百四十九页,2022年,8月28日(二)结构相对数结构相对数:也称比重相对数,反映总体构成情况。一般用百分数或系数(成数)表示。注意:各组成部分比重之和=1或100%如:年龄构成、性别构成、文化程度构成、国内生产总值构成等。第十九页,共一百四十九页,2022年,8月28日恩格尔系数联合国有关组织对恩格尔系数的评价标准:60%以上贫困;50%-60%为温饱;40%-50%为小康;30%-40%为富裕;30%以下为最富裕中国城乡居民恩格尔系数:2001年:城镇38.2;农村47.7;2002年:城镇37.7;农村46.2;2003年:城镇37.1;农村45.6;2004年:城镇37.7;农村47.2;2005年:城镇36.7;农村45.5;2006年:城镇35.8;农村43.0;2007年:城镇36.3;农村43.1;2008年:城镇37.9;农村43.7第二十页,共一百四十九页,2022年,8月28日结构相对数
我国国内生产总值构成情况表(%)
第二十一页,共一百四十九页,2022年,8月28日(三)比例相对数比例相对数:表明总体内各组成部分之间的对比关系。常用系数或倍数表示。公式为:注意:分子、分母可以互换2008年我国人口男女性别比106:1002008年三大产业人数比为40:27:332000年三大产业人数比为50:23:271990年三大产业人数比为60:21:191980年三大产业人数比为69:18:13第二十二页,共一百四十九页,2022年,8月28日(四)比较相对数比较相对数:反映同一时期的同类现象在不同地区、部门和单位之间数量对比关系的相对指标
。用倍数、百分数表示。注意:分子、分母可以互换,指标涵义、口径、计算方法必须一致。例如:2008年我国城镇居民消费水平为13526元,农村居民消费水平为3756元。则:城镇居民消费水平是农村居民的
3.6倍。第二十三页,共一百四十九页,2022年,8月28日(五)强度相对数强度相对数:两个性质不同但又互相联系的总量指标对比的比值,反映现象的强度、密度或普遍程度。一般用复名数或百分数、千分数表示。如:人均粮食产量“千克/人”、资金周转率“次”、流动比率%、人口出生率‰、人口自然增长率‰注意:大多数用复名数为单位的强度相对指标,分子、分母可互换位置,因而有正指标和逆指标两种形式。第二十四页,共一百四十九页,2022年,8月28日(五)强度相对数例1:2008年我国人口132802万人,则人口密度=132802/960≈138人/平方公里例2:某地区2007年总人口为1200万人,有60000个零售商业机构,则该地区零售网点密度指标为:正指标:该地区零售网点密度=60000/1200=50(个/万人)逆指标:该地区零售网点密度=1200/60000=200(人/个)第二十五页,共一百四十九页,2022年,8月28日(六)动态相对数动态相对数又称发展速度,是同一现象在不同时间上的指标数值的比值
,说明某一总体发展变化的方向和程度。一般用百分数表示,或倍数,翻番。例:2008年我国粮食产量为52871万吨,2007年为50160万吨,则:动态相对数=52871
/50160×100%=105.4%2008年我国粮食产量比上年增长5.4%。第二十六页,共一百四十九页,2022年,8月28日三、运用相对指标应遵循的原则⑴可比性原则。遵从可比性是进行对比应把握的总原则。⑵正确选择对比基数的原则。同一现象、问题采用不同的对比基数会有不同的结果。⑶多种相对指标结合运用的原则。多角度、多侧面运用多种相对数和相关指标比较。⑷相对指标与总量指标结合运用的原则。相对数相同,基数不同,绝对差很悬殊第二十七页,共一百四十九页,2022年,8月28日4.3集中趋势的度量一、位置平均数二、数值平均数三、各种平均数之间的关系第二十八页,共一百四十九页,2022年,8月28日集中趋势
(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值第二十九页,共一百四十九页,2022年,8月28日一、众数和中位数第三十页,共一百四十九页,2022年,8月28日(一)众数
(mode)一组数据中出现次数最多的变量值不受极端值的影响适合于数据量较多时使用可能没有众数或有几个众数mo第三十一页,共一百四十九页,2022年,8月28日众数
(不唯一性)无众数
原始数据:10591268一个众数
原始数据:6598
55多于一个众数
原始数据:25
2828
36
4242第三十二页,共一百四十九页,2022年,8月28日分类数据的众数
(例题分析)例4-1不同品牌饮料的频数分布
饮料品牌频数比例百分比(%)可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即
Mo=可口可乐第三十三页,共一百四十九页,2022年,8月28日数值型数据的众数
(例题分析)【例4-2】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。原始数据:
108075010801080850960200012501630
Mo=1080Excel统计函数—MODE第三十四页,共一百四十九页,2022年,8月28日数值型分组数据的众数
(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.
该公式假定众数组的频数在众数组内均匀分布2.
相邻两组的频数相等时,众数组的组中值即为众数3.
相邻两组的频数不相等时,众数采用下列近似公式计算MoMof-1f+1f-1f+1Mof第三十五页,共一百四十九页,2022年,8月28日数值型分组数据的众数
(算例)例4-3某电脑公司销售量数据分组表按销售量分组(台)频数(天)累积频数150以下150~160160~170170~180180~190190~200200~210210~220220~230230以上49162720171084541329567693103111115120合计120—根据某电脑公司120天销售量的分组数据计算众数Internet第三十六页,共一百四十九页,2022年,8月28日(二)中位数
(median)一组数据排序后,处于中间位置上的变量值Me50%50%2.不受极端值的影响第三十七页,共一百四十九页,2022年,8月28日中位数
(位置的确定)分组数据原始数据第三十八页,共一百四十九页,2022年,8月28日未分组数据的中位数
(计算公式)第三十九页,共一百四十九页,2022年,8月28日未分组数据的中位数
(9个数据的算例)【例4-4】
9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:
123456789中位数1080第四十页,共一百四十九页,2022年,8月28日未分组数据的中位数
(10个数据的算例)【例4-5】
10个家庭的人均月收入数据原始数据:15007507806601080850960200012501630排序:66075078085096010801250150016302000位置:
12345678910
Excel统计函数—MEDIAN第四十一页,共一百四十九页,2022年,8月28日分组数据的中位数
(要点及计算公式)根据位置公式(N/2)确定中位数所在的组采用下列近似公式计算(向上累积):3.假定中位数组的频数在该组内均匀分布第四十二页,共一百四十九页,2022年,8月28日数值型分组数据的中位数
(算例)例4-6某电脑公司销售量数据分组表按销售量分组(台)频数(天)累积频数150以下150~160160~170170~180180~190190~200200~210210~220220~230230以上49162720171084541329567693103111115120合计120—根据某电脑公司120天销售量的分组数据计算中位数。第四十三页,共一百四十九页,2022年,8月28日(三)四分位数
(quartile)1. 排序后处于25%和75%位置上的值2.
不受极端值的影响QLQMQU25%25%25%25%第四十四页,共一百四十九页,2022年,8月28日四分位数
(位置的确定)未分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4分组数据:下四分位数(QL)位置=N4上四分位数(QL)位置=3N4第四十五页,共一百四十九页,2022年,8月28日未分组数据的四分位数
(9个数据的算例)【例4-7】
9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789第四十六页,共一百四十九页,2022年,8月28日未分组数据的四分位数
(10个数据的算例)【例4-8】
10个家庭的人均月收入数据原始数据15007507806601080850960200012501630排序66075078085096010801250150016302000位置:1234
5678910第四十七页,共一百四十九页,2022年,8月28日分组数据的四分位数
(计算公式)下四分位数:
上四分位数:
第四十八页,共一百四十九页,2022年,8月28日
QL位置=120/4=30例4-9某电脑公司销售量数据分组表按销售量分组(台)频数(天)累积频数150以下150~160160~170170~180180~190190~200200~210210~220220~230230以上49162720171084541329567693103111115120合计120—QU位置=3×120/4=90根据某电脑公司120天销售量的分组数据计算四分位数第四十九页,共一百四十九页,2022年,8月28日二、平均数第五十页,共一百四十九页,2022年,8月28日(一)算术平均数
(ArithmeticMean)
也称为均值(mean)消除了观测值的随机波动一组数据的均衡点所在4.易受极端值的影响5.分为:简单算术平均数、加权算术平均数xxx第五十一页,共一百四十九页,2022年,8月28日(一)算术平均数
(ArithmeticMean)
1、简单算术平均数(simplemean)设一组数据为:x1,x2,…,xn第五十二页,共一百四十九页,2022年,8月28日简单算术平均数
(例题)【例4-10】一家汽车零售店的15名销售人员6月份销售的汽车数量(单位:台)为:7、10、10、4、12、14、2、15、10、9、12、5、11、2、3,试计算它们的平均销售量。
Excel统计函数—AVERAGE第五十三页,共一百四十九页,2022年,8月28日2、加权算术平均数
(weightedmean)设各组的组中值为:
x1,x2,…,xk相应的频数为:
f1,f2,…,fk加权均值计算公式为:第五十四页,共一百四十九页,2022年,8月28日已改至此!!例4-11某电脑公司销售量数据分组表按销售量分组组中值(xi)频数(fi)xifi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200加权算术平均数
(例题分析)第五十五页,共一百四十九页,2022年,8月28日加权算术平均数
(权数对均值的影响)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下
甲组:
考试成绩(x): 6080100
人数分布(f):118
乙组:考试成绩(x): 6080100
人数分布(f):811第五十六页,共一百四十九页,2022年,8月28日加权算术平均数
(权数对均值的影响)影响加权算术平均数的因素:一是各组变量值(xi)的大小;二是各组频数(fi)占总体单位数的比重。公式变形:第五十七页,共一百四十九页,2022年,8月28日以频率为权数计算均值
(算例)【例4-12】某企业60名工人月工资分组情况如下表,试计算月平均工资
某企业60名工人月工资分组表月工资分组(元)组中值x人数f频率(%)fi/∑fx·(fi/∑f)
600以下
500
6
10
50
600-800
700
14
23.33
163.31
800-1000
900
26
43.33
389.97
1000-1200
1100
10
16.67
183.37
1200以上
1300
4
6.67
86.71合计
--
60
100
873.36第五十八页,共一百四十九页,2022年,8月28日3、算术平均数的数学性质性质1.各变量值与均值的离差之和等于零第五十九页,共一百四十九页,2022年,8月28日均值
(数学性质)性质2.各变量值与均值的离差平方和最小第六十页,共一百四十九页,2022年,8月28日数学性质证明证明:设X0为不等于均值的任意数,C为常数,
第六十一页,共一百四十九页,2022年,8月28日(二)调和平均数
(harmonicmean)1. 集中趋势的测度值之一2. 易受极端值的影响分为:简单调和平均数、加权调和平均数第六十二页,共一百四十九页,2022年,8月28日1、简单调和平均数【例4-14】某种蔬菜的价格,甲集市4.5元/千克,乙集市4元/千克,丙集市5.5元/千克。若在三个集市各买1元,求蔬菜的平均价格。
第六十三页,共一百四十九页,2022年,8月28日简单调和平均数简单调和平均数又称倒数平均数。计算公式为:
第六十四页,共一百四十九页,2022年,8月28日2、加权调和平均数
在上例中,如果在甲集市花费8元,乙集市花费10元,丙集市花费5元,购买这些蔬菜的平均价格是多少?
第六十五页,共一百四十九页,2022年,8月28日加权调和平均数计算公式为:原来只是计算时使用了不同的数据!第六十六页,共一百四十九页,2022年,8月28日调和平均数
(例题分析)某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)
xi成交额(元)xifi成交量(公斤)fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例4-15】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格第六十七页,共一百四十九页,2022年,8月28日(三)几何平均数
(geometricmean)1.
n
个变量值乘积的n
次方根2.适用于比率数据的平均3.主要用于计算平均比率4.计算公式为第六十八页,共一百四十九页,2022年,8月28日(三)几何平均数
(概念要点)6、加权几何平均数计算公式为第六十九页,共一百四十九页,2022年,8月28日几何平均数
(例题分析)
【例4-16】某水泥生产企业2002年的水泥产量为100万吨,2003年与2002年相比增长率为9%,2004年与2003年相比增长率为16%,2005年与2004年相比增长率为20%。求各年的年平均增长率。年平均增长率=114.91%-1=14.91%第七十页,共一百四十九页,2022年,8月28日简单几何平均数
(算例)【例4-17】某企业生产某种产品须经过毛坯、粗加工、精加工、装配四个连续作业车间才能完成,若6月份每个车间的产品合格率分别为95%、92%、90%、85%,求该产品的企业合格率(即四个车间的平均合格率)是多少?第七十一页,共一百四十九页,2022年,8月28日几何平均数
(例题分析)
【例4-18】一位投资者购持有一种股票,在2005~2008年收益率分别为4.5%、2.1%、5.5%、10.9%。计算该投资者在这四年内的平均收益率。
几何平均:算术平均:第七十二页,共一百四十九页,2022年,8月28日加权几何平均数
(算例)【例4-19】某投资银行某笔投资的年利率是按复利计算的,若将过去25年的利率资料整理如下表所示的变量数列,求25年的平均年利率。投资年利率分组表年利率(%)本利率(%)x年数(频数)f
3481015
103104108110115
148102合计
--
25第七十三页,共一百四十九页,2022年,8月28日加权几何平均数
(算例)用加权几何平均法求25年的平均本利率:即25年的平均年利率为8.48%若按单利计算,则用加权算术平均法第七十四页,共一百四十九页,2022年,8月28日三、各种平均数之间的关系第七十五页,共一百四十九页,2022年,8月28日数值平均数之间的关系(一)算术平均数、调和平均数和几何平均数之间的关系1、利用同一资料计算,结果为:算术平均数>几何平均数>调和平均数。2、当一组数据中所有的变量值都相同时,则三种平均数相等。
第七十六页,共一百四十九页,2022年,8月28日(二)众数、中位数和均值的关系第七十七页,共一百四十九页,2022年,8月28日众数、中位数和均值的关系左偏分布均值
中位数
众数对称分布
均值=
中位数=
众数右偏分布众数
中位数均值第七十八页,共一百四十九页,2022年,8月28日众数、中位数和均值的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大且有明显峰值时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性较好平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好第七十九页,共一百四十九页,2022年,8月28日4.4离散程度的度量异众比率四分位差极差和平均差方差及标准差相对位置的测量:标准分数相对离散程度:离散系数第八十页,共一百四十九页,2022年,8月28日离中趋势数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值第八十一页,共一百四十九页,2022年,8月28日一、异众比率第八十二页,共一百四十九页,2022年,8月28日异众比率
(variationratio)非众数组的频数占总频数的比率用于衡量众数的代表性3. 计算公式为第八十三页,共一百四十九页,2022年,8月28日异众比率
(例题分析)解:
在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好例4-20不同品牌饮料的频数分布
饮料品牌频数比例百分比(%)
可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100第八十四页,共一百四十九页,2022年,8月28日二、四分位差第八十五页,共一百四十九页,2022年,8月28日四分位差
(quartiledeviation)1. 上四分位数与下四分位数之差2. 也称为内距或四分间距3. 计算公式为:
QD
=QU-QL4. 反映了中间50%数据的离散程度用于衡量中位数的代表性不受极端值的影响第八十六页,共一百四十九页,2022年,8月28日四分位差
(10个数据的算例)【例4-21】
10个家庭的人均月收入数据原始数据
15007507806601080850960200012501630排序
66075078085096010801250150016302000位置:
12345678910
第八十七页,共一百四十九页,2022年,8月28日三、极差和平均差第八十八页,共一百四十九页,2022年,8月28日(一)极差(全距)
(range)1.
一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910R
=max(xi)-min(xi)5.计算公式为第八十九页,共一百四十九页,2022年,8月28日极差(全距)
(range)【例4-22】
9个应届毕业生的人均月收入数据原始数据:
8007509009801020950200010501000排序:
7508008809009501000102010502000R
=max(xi)-min(xi)=2000-750=1250元第九十页,共一百四十九页,2022年,8月28日(二)平均差
(meandeviation)1.
各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少4.
计算公式为未分组数据组距分组数据第九十一页,共一百四十九页,2022年,8月28日平均差
(例题分析)某电脑公司销售量数据平均差计算表
按销售量分组组中值(Mi)频数(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—2040第九十二页,共一百四十九页,2022年,8月28日平均差
(例题分析)
含义:每一天的销售量与平均数相比,平均相差17台统计函数—AVEDEV第九十三页,共一百四十九页,2022年,8月28日四、方差和标准差第九十四页,共一百四十九页,2022年,8月28日方差和标准差
(varianceandstandarddeviation)1. 数据离散程度最常用的测度值2. 反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差(标准差),记为2()
;根据样本数据计算的,称为样本方差(标准差),记为s2(s)第九十五页,共一百四十九页,2022年,8月28日(一)总体方差和标准差
(populationvarianceandstandarddeviation)组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式未分组数据:第九十六页,共一百四十九页,2022年,8月28日总体标准差
(例题分析)例4-23某电脑公司销售量数据标准差计算表按销售量分组组中值(Mi)频数(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合计—120—55400第九十七页,共一百四十九页,2022年,8月28日总体标准差
(例题分析)
含义:每一天的销售量与平均数相比,平均相差21.49台第九十八页,共一百四十九页,2022年,8月28日(二)样本方差和标准差
(simplevarianceandstandarddeviation)组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!未分组数据:第九十九页,共一百四十九页,2022年,8月28日自由度
(degreeoffreedom)自由度:一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x
=5
确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量。第一百页,共一百四十九页,2022年,8月28日样本方差与标准差
(例题分析)例如:计算9名员工的月工资收入的方差和标准差15007507801080850960200012501630Excel统计函数—STDEV方差标准差第一百零一页,共一百四十九页,2022年,8月28日样本标准差
(例题分析)某电脑公司销售量数据平均差计算表
按销售量分组组中值(Mi)频数(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—240145155165175185195205215225235491627201710845160090040010001004009001600250064008100640027000170040007200640012500合计—120—55400第一百零二页,共一百四十九页,2022年,8月28日样本标准差
(例题分析)某电脑公司销售量的样本标准差
含义:每一天的销售量与平均数相比,平均相差21.58台第一百零三页,共一百四十九页,2022年,8月28日方差简化公式总体方差样本方差第一百零四页,共一百四十九页,2022年,8月28日标准差的应用标准差是方差的正平方根,是具有量纲的,它与变量值的计量单位相同,其实际意义比方差清楚。因此,在对社会经济现象进行分析时,更多地使用标准差。标准差度量风险(投资方面)标准差度量产品质量的稳定性标准差度量企业的生产及服务质量标准第一百零五页,共一百四十九页,2022年,8月28日(三)是非标志的方差与标准差
有些事物或现象的特征只表现为两种性质上的差异,称为是非标志或交替标志。例如:性别表现为男或女;产品质量表现为合格或不合格;学生成绩表现为及格或不及格。第一百零六页,共一百四十九页,2022年,8月28日比例(或成数)1、比例(成数)
把总体中具有或不具有某种表现的单位数占全部单位数的比重称为比例(成数)。例如:一批产品中,合格品占95%,不合格品占5%。
N1表示总体中具有某种表现的单位数,
N0表示总体中不具有某种表现的单位数,
N表示为总体单位数总体比例可表示为:π=N1/N或1-π=N0/N样本比例可表示为:p=n1/n或1-p=n0/n第一百零七页,共一百四十九页,2022年,8月28日2、比例的平均数和方差
1表示具有某种标志表现
0表示不具有某种标志表现是非标志的取值及权数是非标志取值xi权数fixifi1N1N10N00合计NN1第一百零八页,共一百四十九页,2022年,8月28日是非标志的方差和标准差总体标准差为:同理,样本方差和标准差为:第一百零九页,共一百四十九页,2022年,8月28日比例方差和标准差
(例题)【例4-25】从一批产品中随机抽取100件产品进行质量测试,测试结果为96件合格,4件不合格,试计算该批产品合格率的方差和标准差。根据资料可得:
P=96/100=96%1-p=4%第一百一十页,共一百四十九页,2022年,8月28日五、相对位置的测量:标准分数第一百一十一页,共一百四十九页,2022年,8月28日(一)标准分数
(standardscore)1.
也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理5.计算公式为第一百一十二页,共一百四十九页,2022年,8月28日标准分数1、标准分数反映各数据以平均数为中心的相对位置:
Z>0,即Xi>;
Z<0,即Xi<;
Z=0,即Xi=2、标准分数不改变原数据大小的位序,即若Xi>Xj,则必有Zi>Zj第一百一十三页,共一百四十九页,2022年,8月28日标准分数
(性质)标准分数的均值等于02.标准分数的方差等于1第一百一十四页,共一百四十九页,2022年,8月28日标准分数
(性质)
z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。
第一百一十五页,共一百四十九页,2022年,8月28日标准化值
(例题分析)例4-269个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z
123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996第一百一十六页,共一百四十九页,2022年,8月28日(二)经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内在3个标准差之外的数据,在统计上称为异常值或离群点(outlier)第一百一十七页,共一百四十九页,2022年,8月28日经验法则
(例题分析)第一百一十八页,共一百四十九页,2022年,8月28日(二)经验法则【例4-27】液体清洁剂是在生产线上自动填充的,填充的重量呈钟形分布。如果平均重量为500克,标准差是5克,利用经验法则可得出下面结论:大约68%的清洁剂填充重量在495克至505克之间大约95%的清洁剂填充重量在490克至510克之间大约99%的清洁剂填充重量在485克至515克之间第一百一十九页,共一百四十九页,2022年,8月28日(三)切比雪夫不等式
(Chebyshev’sinequality)切比雪夫不等式适用于任何分布形状的数据。切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”。对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/k2)的数据落在平均数k个标准差之内。其中k是大于1的任意值,但不必一定是整数。第一百二十页,共一百四十九页,2022年,8月28日切比雪夫不等式
(Chebyshev’sinequality)对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内第一百二十一页,共一百四十九页,2022年,8月28日切比雪夫不等式
(例题)【例4-28】假设100名学生在统计学原理考试中,平均分数为70分,标准差为5,那么有多少学生的分数在60~80之间?有多少学生的分数在58~82之间?(1)k=(60-70)/5=-2k=(80-70)/5=2在100个学生中至少75人的分数在60~80之间。(2)k=(58-70)/5=-2.4,k=(82-70)/5=2.4根据切比雪夫定理:1-1/k2=1-1/2.42=0.826即至少有82.6%的学生的分数在58~82之间。第一百二十二页,共一百四十九页,2022年,8月28日五、相对离散程度:离散系数第一百二十三页,共一百四十九页,2022年,8月28日离散系数
(coefficientofvariation)1. 一组数据的标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为第一百二十四页,共一百四十九页,2022年,8月28日离散系数
(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例4-29】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度第一百二十五页,共一百四十九页,2022年,8月28日离散系数
(例题分析)结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710第一百二十六页,共一百四十九页,2022年,8月28日离散系数
(例题分析)【例4-30】评价哪名运动员的发挥更稳定发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡第一百二十七页,共一百四十九页,2022年,8月28日4.5偏态与峰态的测度一.偏态及其测度二.峰态及其测度第一百二十八页,共一百四十九页,2022年,8月28日偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!第一百二十九页,共一百四十九页,2022年,8月28日偏态第一百三十页,共一百四十九页,2022年,8月28日偏态
(skewness)统计学家Pearson于1895年首次提出对数据分布偏斜程度的测度测度偏态的统计量是偏态系数(SK)第一百三十一页,共一百四十九页,2022年,8月28日偏态系数
(skewnesscoefficient)1.偏态系数=0为对称分布2.偏态系数>0为右偏分布3.偏态系数<0为左偏分布偏态系数>1或<-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为中等偏态分布;偏态系数越接近0,偏斜程度越低第一百三十二页,共一百四十九页,2022年,8月28日偏态系数
(coefficientofskewness)根据原始数据计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度个人教育培训合同模板7篇
- 2025年度个人贷款合同利息计算合同模板4篇
- 二零二五年度虚拟现实游戏用户免责条款合同范本4篇
- 2025年度个人房产买卖合同书(精装修)4篇
- 二零二五年度邢芬离婚后与前夫关于知识产权权益分配的协议书3篇
- 2025年消防工程电气设备检修增项服务协议3篇
- 二零二五版电子文档安全保管与备份合同3篇
- 年度赛力皮革染料战略市场规划报告
- 2025年度高速公路桥梁维修加固劳务分包合同3篇
- 二零二五年度民房屋租赁合同附租赁双方责任划分4篇
- GB/T 16895.3-2024低压电气装置第5-54部分:电气设备的选择和安装接地配置和保护导体
- 2025湖北襄阳市12345政府热线话务员招聘5人高频重点提升(共500题)附带答案详解
- 计划合同部部长述职报告范文
- 2025年河北省职业院校技能大赛智能节水系统设计与安装(高职组)考试题库(含答案)
- 人教版高一地理必修一期末试卷
- 2024年下半年鄂州市城市发展投资控股集团限公司社会招聘【27人】易考易错模拟试题(共500题)试卷后附参考答案
- GB/T 29498-2024木门窗通用技术要求
- 《职业院校与本科高校对口贯通分段培养协议书》
- GJB9001C质量管理体系要求-培训专题培训课件
- 人教版(2024)英语七年级上册单词表
- 二手车车主寄售协议书范文范本
评论
0/150
提交评论