chap4-数据分布特征的测度_第1页
chap4-数据分布特征的测度_第2页
chap4-数据分布特征的测度_第3页
chap4-数据分布特征的测度_第4页
chap4-数据分布特征的测度_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的测度石河子大学商学院张银银E-mail:zhangyy124@126.comTel四章数据分布特征的测度第一节规模和比率的度量第二节集中趋势的描述第三节离散程度的测度第四节分布的偏态与峰态数据分布的特征集中趋势

(位置)偏态和峰态(形状)离中趋势

(分散程度)数据分布特征的测度数据特征的测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰态四分位差异众比率偏态第一节规模和比率的度量一、规模与比率二、指标计算与实例

1、总量指标是认识社会经济现象的起点;是实现宏观经济调控和企业经营管理的基本指标;是计算其他统计指标的基础。总量指标的作用:反映现象总体规模或水平的综合指标,即数量指标,也称为绝对数(Absoluteamount)。Quantityindicator概念(1)总量指标的概念与作用按反映的时间状况不同分为:时期指标时点指标(periodindicator)(Time-pointindicator)按计量单位(Unitofmeterage)不同分为:实物指标价值指标劳动指标(physicalindicator)(indicatorofvalue)(indicatoroflaborforce)总体标志总量总体单位总数按反映的总体内容不同分为:(Amountofpopulationunit)(Amountofindicate)(2)总量指标的基本分类只有可加总体能够计算总体单位总数,不可加总体没有总体单位总数;一个总体中只有一个单位总数,但可以有多个标志总量,它们由总体单位的数量标志值汇总而来。总体单位总数总体所包含的总体单位的数量(Amountofpopulationunit)总体标志总量总体单位某一数量标志的标志值总和(Amountofindicate)总量指标按反映的总体内容分类时期指标(Period)表明现象总体在一段时期内发展过程的总量,如在某一段时期内某种产品的产量、社会商品的零售总额。具有可加性、数值大小与时期长短有直接关系、需要连续登记汇总时点指标(Time-point)表明现象总体在某一时刻(瞬间)的数量状况,如在某一时点的总人口数不具有可加性、数值大小与时期长短没有直接关系、由一次性登记调查得到总量指标按反映的时间状况分类自然单位度量衡单位标准实物单位计量单位多个单位的结合运用:双重单位(如:人/平方公里)多重单位(如:艘/吨/千瓦)适用范围综合能力差强大小如:台、件如:米、平方米如:标准吨如:工日、工时如:元实物单位价值单位劳动单位(Unitoflaborforce)(Physicalunit)(Unitofvalue)复合单位(如:人·次、吨·公里)(Unitofcomplexmeterage)=拖拉机混合产量=4台拖拉机标准实物产量=5台甲企业乙企业利润总额资金占用资金利润率500万元5000万元3000万元40000万元16.7%12.5%比较两厂经济效益不可比不可比可比2、相对指标使不能直接对比的现象找到共同的比较基础;用来进行宏观经济管理和评价经济活动的状况。相对指标的作用:指应用对比的方法来反映相关事物之间数量联系程度的指标,也称为相对数。(Relativeamount)相对指标Relativeindicator(1)相对指标的概念及作用无名数用倍数、系数、成数、﹪、‰等表示有名数用双重计量单位表示的复名数相对指标的基本表现形式倍数与成数应当用整数的形式来表述5倍、3成、近7成3.25倍、8.6成

分母为1分母为1.00分母为10分母为100分母为1000(2)相对指标的种类结构相对数比例相对数比较相对数计划完成程度相对数强度相对数动态相对数(1)直接计量法(2)推算与估算法对于同类的计算对象按实际计量单位直接加起来直接相加折算相加对于同类的计算对象按标准计量单位相加如:国内生产总值=总产出-中间投入(3)主观评定法由人们通过评估确定其绝对数的方法。1、总量指标的计算方法例:我国某年国民收入使用额为19715亿元,其中消费额为12945亿元,积累额为6770亿元。则(1)结构相对数(Relativequantitiesofstructure)2、相对指标的计算方法说明⒈为无名数;⒉同一总体各组的结构相对数之和为1;⒊用来分析现象总体的内部构成状况。例:我国某年国民收入使用额为19715亿元,其中消费额为12945亿元,积累额为6770亿元。则⒈为无名数,可用百分数或一比几或几比几表示;⒉用来反映组与组之间的联系程度或比例关系。说明(2)比例相对数(Relativequantitiesofproportion)例:某年某地区甲、乙两个公司商品销售额分别为5.4亿元和3.6亿元。则⒈为无名数,一般用倍数、系数表示;⒉用来说明现象发展的不均衡程度。说明(3)比较相对数(Relativequantitiesofcomparativity)

是同类指标数值在不同时间上的对比动态相对数⒈为无名数;⒉用来反映现象的数量在时间上的变动程度。说明(4)动态相对数(DynamicRelativequantities)例:某年某地区年平均人口数为100万人,在该年度内出生的人口数为8600人。则该地区一般用﹪、‰表示。其特点是分子来源于分母,但分母并不是分子的总体,二者所反映现象数量的时间状况不同。无名数的强度相对数(5)强度相对数(Intensityrelativequantities)例:某地区某年末现有总人口为100万人,医院床位总数为24700张。则该地区(正指标)(逆指标)为用双重计量单位表示的复名数,反映的是一种依存性的比例关系或协调关系,可用来反映经济效益、经济实力、现象的密集程度等。有名数的强度相对数1)短期计划完成情况的检查①计划数与实际数同期时,直接应用公式:A.计划任务数表现为绝对数时(6)计划完成相对数(Relativequantitiesoffulfillmentofplan)例:某企业2000年计划产量为10万件,而实际至第三季度末已生产了8万件,全年实际共生产11万件。则②考察计划执行进度情况:2)长期计划完成情况的检查计划指标按计划期内各年的总和规定任务年份19961997199819992000合计投资额(亿元)11.411.912.512.813.161.7其中,2000年各月份实际完成情况为(单位:亿元):月份123456789101112投资额1.11.01.21.11.11.11.21.21.31.10.90.8要求计算:⒈该市“九五”期间固定资产投资计划的完成程度;⒉提前完成计划的时间。已累计完成固定资产投资额60亿元例:某市计划“九五”期间要完成社会固定资产投资总额60亿元,计划任务的实际完成情况为:解:提前完成计划时间:因为到2000年10月底已完成固定资产累计投资额60亿元(61.7–0.8–0.9=60),即已完成计划任务,提前完成计划两个月。例:某市计划“九五”期间要完成社会固定资产投资总额60亿元,计划任务的实际完成情况为:年份19961997199819992000合计投资额(亿元)11.411.912.512.813.161.7其中,2000年各月份实际完成情况为(单位:亿元):月份123456789101112投资额1.11.01.21.11.11.11.21.21.31.10.90.81.10.8如何确定提前完成计划的时间?思考月份123456789101112投资额1.11.11.21.11.11.11.21.21.31.10.80.8【分析】已累计完成固定资产投资额60.1亿元已累计完成固定资产投资额59亿元可以判断出,计划任务应是在2000年10月份的某一天完成的假定10月份每天都完成相等的投资额59亿元60.1亿元601亿元0.1亿元在2000年10月为完成尚差的1.0亿元投资额的计划任务需要的天数:【方法一】在2000年10月为完成超额的0.1亿元的投资额所用的天数:【方法二】即提前完成任务两个月零两天。即提前完成任务两个月零两天。B.计划任务数表现为相对数时例:己知某厂2000年的计划规定产品产量要比上年实际提高5﹪而实际提高了7﹪。则百分点相当于百分数的计量单位,一个百分点就指1﹪。上例中,实际比计划多提高的百分点为(7﹪--5﹪)×100=2(个百分点)实际工作中常用,但并不是相对数原始数据静态分布动态趋势总量指标(绝对规模)相对指标(相对关系)平均指标(集中趋势)变异指标(离散趋势)分布指标(分布状况)水平指标(绝对规模)速度指标(相对变化)因素分析(趋势预测)统计指标加工整理总结:原始数据统计指标静态分布动态趋势总量指标相对指标平均指标变异指标分布指标水平指标速度指标因素分析不同年份人口数人口自然增长率人口数量模型人口总数人口性别比例平均年龄年龄标准差偏度、峰度整理加工加工正确选择对比的基础;指标对比要有可比性;相对指标要与总量指标结合运用;多种相对指标结合运用。使用相对指标应注意的问题结构相对数比例相对数比较相对数动态相对数计划完成相对数强度相对数(部分与总体关系)(部分与部分关系)(横向对比关系)(纵向对比关系)(实际与计划关系)(关联指标间关系)多种相对指标应当结合运用第二节集中趋势的描述一、数值平均数二、位置平均数集中趋势的现实意义83名女生的身高分布的集中趋势、中心数值算术平均数集中趋势的分布涵义集中趋势

集中趋势(CentralTendency)反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。用平均指标来反映。(平均指标指同质总体中各单位某一数量标志的一般水平,是对总体单位间数量差异的抽象化。)

□可以反映现象总体的客观规定性;□可以对比同类现象在不同的时间、地点和条件下的一般水平;□可以分析现象之间的依存关系。集中趋势(位置)测定集中趋势的意义平均指标的种类数值平均数位置平均数平均数算术平均数调和平均数几何平均数中位数众数分位数算术平均数

算术平均数(Arithmeticmean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号表示。

◆简单算术平均数◆加权算术平均数◆算术平均数的数学性质

简单算术平均数加权算术平均数权数权数

次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。算术平均数的数学性质调和平均数

调和平均数(Harmonicmean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用表示。◆简单调和平均数◆加权调和平均数◆调和平均数是算术平均数的变形简单调和平均数加权调和平均数调和平均数是算术平均数的变形几何平均数

几何平均数(Geometricmean)是n个变量值连乘积的n次方根。几何平均数是计算平均比率和平均速度最适用的一种方法。通常用表示。应用于计算现象的平均比率或平均速度。◆简单几何平均数◆加权几何平均数简单几何平均数适用于总体资料未经分组整理尚为原始资料的情况加权几何平均数注意:不能直接平均增长速度适用于总体资料经过分组整理形成变量数列的情况中位数

中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值:一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值的影响。◆由未分组数据确定中位数◆由单项数列确定中位数◆由组距数列确定中位数由未分组数据确定中位数

对未分组数据资料,需先将各变量值按大小顺序排列,并按公式确定中位数的位置。当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。例:7、6、8、2、3当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。例:2、5、7、8、11、12由单项数列确定中位数

先计算各组的累计次数,再按公式确定中位数的位置,并对照累计次数确定中位数。由组距数列确定中位数下限公式:上限公式:分位数

三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles)。

十分位数(Dectile)和百分位数(Percentile)分别是将变量数列十等分和一百等分的数值。四分位数

(位置的确定)未分组数据:未分组数据的四分位数

(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789

未分组数据的四分位数

(10个数据的算例)【例】:10个家庭的人均月收入数据原始数据:

15007507806601080850960200012501630排序:

660

75078085096010801250150016302000位置:1234

5678910

众数

众数(Mode)是一组数据中出现次数最多的那个变量值,通常用表示。◆由未分组数据确定众数◆由单项数列确定众数◆由组距数列确定众数众数的原理及应用83名女生身高原始数据83名女生身高组距数列出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200没有突出地集中在某个年份413名学生出生时间分布直方图众数的原理及应用(无众数)192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5170.5168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100413名学生的身高分布直方图(双众数)当数据分布呈现出双众数或多众数时,可以断定这些数据来源于不同的总体。出现了两个明显的分布中心当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。众数的原理及应用由未分组数据确定众数例1:7、6、8、2、3例2:7、6、8、2、3、4、3、2、3例3:7、6、8、2、3、4、3、2、3、2由单项数列确定众数由组距数列确定众数下限公式:上限公式:对比1.众数、中位数和算术平均数的关系2.众数、中位数和算术平均数的特点与应用场合众数:不受极端值影响,具有不唯一性数据分布偏斜程度较大时应用中位数:不受极端值影响数据分布偏斜程度较大时应用平均数:易受极端值影响,数学性质优良数据对称分布或接近对称分布时应用左偏分布均值

中位数

众数对称分布

均值=中位数=众数右偏分布众数

中位数均值☆未分组数据—箱线图

(boxplot)用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me

和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接☆未分组数据—单批数据箱线图

(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图☆未分组数据—单批数据箱线图

(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的箱线图思考题你是Prudential-Bache证券公司的金融分析员。你已经收集了新发行股票的下列收盘价:17,16,21,18,13,16,12,11.试描述股票价格的集中趋势集中趋势题解平均数(Mean)中位数(Median)原始数据: 17 16 21 18 13 16 12 11排序之后: 11 12 13 16 16 17 18 21位置: 1 2 3 4 5 6 7 8集中趋势题解众数(Mode)原始数据: 17 16 21 18 13 16 12 11排序之后: 11 12 13 16 16 17 18 21众数为:16集中趋势题解集中趋势题解四分位数原始数据: 171621 18131612 11排序之后: 1112131616

171821

位置:1 2 3 4 5 6 7 8四分位数分别为:Q1=12.25;Q2=16;Q3=17.75;一、极差与四分位差

二、标准差与方差

三、离散系数第三节离散程度的描述课程学生统计高数英语总成绩平均成绩甲乙丙606555656565706575195195195656565单位:分某班三名同学三门课程的成绩如下:请比较三名同学学习成绩的差异。离中趋势的体现集中趋势弱、离散趋势强集中趋势强、离散趋势弱反映统计数据差异程度的综合指标,也称为标志变动度变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大指总体中各单位标志值背离分布中心的规模或程度,用标志变异指标来反映。离散趋势Discretetendency离散趋势的涵义测定离散趋势的意义用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性和节奏性;用来测定变量数列次数分布较正态分布的偏离程度。 极差与四分位差

极差(Range)也叫全距,是一组数据的最大值与最小值之离差,即:

四分位差(Interquartilerange)是指第三四分位数与第一四分位数之差,也称为内距或四分间距又称为伸展中心,用表示。四分位差的计算公式为:

优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差往往应用于生产过程的质量控制中极差的特点四分位差的特点度量数据的离散程度MeasureofDispersion此间距包括中间50%的数据不受极值影响

平均差

平均差(Meandeviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用表示。◆简单式平均差◆加权式平均差

简单式平均差【例】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。解:即该售货小组5个人销售额的平均差为93.6元。

加权式平均差【例】计算下表中某公司职工月工资的平均差。月工资(元)组中值(元)职工人数(人)300以下300~400400~500500~600600~700700~800800~900900以上2503504505506507508509502083143824563052377820合计—2000解:即该公司职工月工资的平均差为138.95元。优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。平均差的特点

一般情况下都是通过计算另一种变异指标——标准差,来反映总体内部各单位标志值的差异状况.标准差与方差

标准差(Standarddeviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用表示。它是测度数据离散程度的最主要方法。

方差(Variance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方,用表示总体的方差;用表示样本的方差。

◆总体标准差与样本标准差◆简单式标准差

◆加权式标准差

简单式标准差

加权式标准差【例】计算下表中某公司职工月工资的标准差。月工资(元)组中值(元)职工人数(人)300以下300~400400~500500~600600~700700~800800~900900以上2503504505506507508509502083143824563052377820合计—2000解:(比较:其工资的平均差为138.95元)即该公司职工月工资的标准差为167.9元。

总体与样本标准差简单式加权式总体样本注意:样本标准差用自由度n-1去除!样本方差自由度一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值

x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则

x=5。当

x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量标准差的特点不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.由同一资料计算的标准差的结果一般要略大于平均差。

数据标准化

数据标准化是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准化数值。可用于判断一组数据是否有离群点,设标准化数值为z,则有:数据标准化

(性质)1.均值等于02. 方差等于1数据标准化

(性质)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。标准化值

(例题分析)9个家庭人均月收入标准化值计算表家庭编号人均月收入(元)标准化值z

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.556

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论