版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
离散趋势的测量演示文稿当前第1页\共有100页\编于星期三\7点(优选)离散趋势的测量当前第2页\共有100页\编于星期三\7点二、变异指标的概念在统计研究中,通常把一组数值之间的差异程度叫做标志变动度。测定标志变动度大小的指标叫做标志变异指标。标志变动度与标志变异指标在数值上成正比。如果说平均指标说明总体分布的集中趋势的话,标志变异指标则说明总体分布的离中趋势。当前第3页\共有100页\编于星期三\7点三、变异指标的作用变异指标是描述数据分布的一个很重要的特征值,因此,它在统计分析、统计推断中具有很重要的作用。具体可以概括为以下几点:当前第4页\共有100页\编于星期三\7点1.反映总体各单位变量值分布的均衡性一般来说,标志变异指标数值越大,总体各单位变量值分布的离散趋势越高、均衡性越低,反之,变量值分布的的离散趋势越低、均衡性就越高。
当前第5页\共有100页\编于星期三\7点2.判断平均指标对总体各单位变量值代表性的高低平均指标作为总体各单位某一数量标志的代表值,其代表性的高低与总体差异程度有直接关系:总体的标志变异指标值愈大,平均数的代表性愈低;反之,标志变异指标值愈小,平均数代表性愈高。另一方面,平均指标代表性的高低同总体各单位变量值分布的均衡性也有直接关系:总体各单位变量值分布的均衡性越高,平均指标代表性就越高;反之,总体各单位变量值分布的均衡性越低,平均指标代表性就越低。当前第6页\共有100页\编于星期三\7点3.在实际工作中,借助标志变异指标还可以对社会经济活动过程的节奏性和均衡性进行评价4.标志变异指标是衡量风险大小的重要指标。当前第7页\共有100页\编于星期三\7点四、变异指标的分类变异指标按数量关系来分有以下两类:凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。当前第8页\共有100页\编于星期三\7点第二节、全距与四分位差一、全距1、未分组资料计算公式全距又称极差,是一组数据的最大值与最小值之差,用表示。计算公式为:
式中,、分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。当前第9页\共有100页\编于星期三\7点[例3.12]例3.1给出的40个同学统计学的考试成绩,其最高成绩为99分,最低成绩为36,则全距为:(分)当前第10页\共有100页\编于星期三\7点2、分组资料计算公式R=最高组上限-最低组下限R=最高组组中组-最低组组中值R=最高组组中组-最低组下限R=最高组上限-最低组组中值如果资料经过整理,并形成组距分配数列,全距可近似表示为:
R≈最高组上限值-最低组下限值当前第11页\共有100页\编于星期三\7点3、优缺点:优点:计算简单,易于理解。缺点:(1)受极端值影响大,遇含开口组的资料时无法计算;(2)数据利用率低,信息丧失严重;(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。当前第12页\共有100页\编于星期三\7点二、四分位差(inter-quartilerange)上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。四分位差的计算方法:Q·D=(Q3-Q1)/2当前第13页\共有100页\编于星期三\7点四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。当前第14页\共有100页\编于星期三\7点[例3.2]在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。当前第15页\共有100页\编于星期三\7点解:,即QL在第2个数值(780)和第3个数值(850)之间0.5的位置上,因此QL=(780+850)÷2=815(元),即QU在第7个数值(1500)和第8个数值(1630)之间0.5的位置上,因此当前第16页\共有100页\编于星期三\7点QU=(1500+1630)÷2=1565(元)QL和QU之间包含了50%的数据,因此,我们可以说有一半的家庭人均月收入在815~1565元之间。根据例3.2资料计算上下四分位数,那么家庭人均月收入的四分位差为:QU—QL=?当前第17页\共有100页\编于星期三\7点上四分位数下四分位数:数值型分组数据的四分位数(计算公式)当前第18页\共有100页\编于星期三\7点四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。当前第19页\共有100页\编于星期三\7点第三节、平均差(Meandeviation)平均差是各变量值与其算术平均数离差绝对值的平均数,用A.D表示。根据掌握资料的不同,平均差有以下两种计算方法:1.简单平均法对于未分组资料,采用简单平均法。其计算公式为:当前第20页\共有100页\编于星期三\7点[例3.13]某厂甲、乙两组工人生产某种产品的产量资料如表3.8所示。当前第21页\共有100页\编于星期三\7点当前第22页\共有100页\编于星期三\7点从计算结果看,甲、乙两组平均生产件数相等,但由于甲组的平均差(1.2件)小于乙组的平均差(16件),因而其平均数的代表性比乙组大。当前第23页\共有100页\编于星期三\7点2.加权平均法在资料分组的情况下,应采用加权平均式:当前第24页\共有100页\编于星期三\7点当前第25页\共有100页\编于星期三\7点当前第26页\共有100页\编于星期三\7点平均差计算简便,意义明确,而且平均差是根据所有变量值计算的,每个数据均参与了计算,因此它能够准确地、全面地反映一组数值的变异程度。但是,由于平均差是用绝对值进行运算的,它不适宜于代数形式处理,所以在实际应用上受到很大的限制。当前第27页\共有100页\编于星期三\7点第四节、方差和标准差(Variance、Standarddeviation)一、概念要点方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别,因此下面分别加以介绍。当前第28页\共有100页\编于星期三\7点1、方差是个变量值与其均值离差平方的平均数,标准差是方差的开方。
2、离散程度的测度值之一。
3、最常用的测度值。
4、反映了数据的分布。5、反映了各变量值与均值的平均差异。6、根据总体数据计算的,称为总体方差或标准差。根据样本数据计算的,称为样本方差或标准差。当前第29页\共有100页\编于星期三\7点二、总体的方差和标准差设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式分别为:当前第30页\共有100页\编于星期三\7点当前第31页\共有100页\编于星期三\7点当前第32页\共有100页\编于星期三\7点当前第33页\共有100页\编于星期三\7点当前第34页\共有100页\编于星期三\7点当前第35页\共有100页\编于星期三\7点(二)样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。当前第36页\共有100页\编于星期三\7点当前第37页\共有100页\编于星期三\7点当前第38页\共有100页\编于星期三\7点当前第39页\共有100页\编于星期三\7点(三)是非标志的方差与标准差在实际生活中,有些事物或现象的特征只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,人的性别表现为男或女,人们对某种意见表示为同意或不同意;对学生考试成绩分为及格和不及格,等等。这些只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。在进行抽样估计时,是非标志的方差或标准差具有很重要的意义。当前第40页\共有100页\编于星期三\7点1.成数(比例)如前所述,是非标志只有两种表现,我们把总体中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数,它反映了总体或样本中“是”与“非”的构成,并且代表着两种表现或性质各反复出现的程度,即频率。例如,某一批产品,合格品占95%,不合格品占5%。在这里。95%和5%均为成数。当前第41页\共有100页\编于星期三\7点当前第42页\共有100页\编于星期三\7点
2.是非标志的平均数是非标志是一种品质标志,其表现为文字。因此,在计算平均数时,首先需要将文字表现进行数量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,然后以“1”和“0”作为变量值,计算加权算术平均数。现以总体为例予以说明。当前第43页\共有100页\编于星期三\7点当前第44页\共有100页\编于星期三\7点3.是非标志的方差与标准差将经过量化处理的是非标志的表现“1”和“0”作为变量值代入总体的方差计算公式:当前第45页\共有100页\编于星期三\7点当前第46页\共有100页\编于星期三\7点[例3.17]从一批产品中随机抽取100件产品进行质量测试,测试的结果为96件合格,4件不合格,试计算成数的方差和标准差。当前第47页\共有100页\编于星期三\7点是非标志的方差、标准差,当时取得最大值,方差最大值为0.25,标准差最大值为0.5,也就是说,此时是非标志的变异程度最大。如某学生群体中男生数和女生数相等,即男女生的成数均为0.5(50%),说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为0。当前第48页\共有100页\编于星期三\7点4.方差的数学性质当前第49页\共有100页\编于星期三\7点当前第50页\共有100页\编于星期三\7点第五节、标准分
(Standardscore)相对位置的度量:标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。当前第51页\共有100页\编于星期三\7点1、定义。变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值。当前第52页\共有100页\编于星期三\7点标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。(4.4.21)式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。当前第53页\共有100页\编于星期三\7点【例3.18】根据例3.2的数据,计算每个家庭人均收入的标准分数。在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算每个家庭人均收入的标准分数。当前第54页\共有100页\编于星期三\7点当前第55页\共有100页\编于星期三\7点(3.40)
实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1。
当前第56页\共有100页\编于星期三\7点经验法则表明:当一组数据对称分布时——约有68.27%的数据在平均数加减1个标准差的范围内——约有95.45%的数据在平均数加减2个标准差的范围内——约有99.73%的数据在平均数加减3个标准差的范围内。由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值。当前第57页\共有100页\编于星期三\7点2、标准分的特性(1)对于给定资料,由于算术平均数和标准差都是确定值,所以z是和X一一对应的变量。(2)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较。(3)均值和方差不同的正态分布经Z分数标准化后,可以转化为标准正态分布,所以Z又称标准正态变量。(4)Z分数的数学特性:Z分数之和等于0;Z分数的算术平均数等于0;Z分数的标准差和方差均为1。当前第58页\共有100页\编于星期三\7点3、标准分的主要作用:标准分数的作用主要在两个方面,一是可以表明原始数据在总体分布中的相对位置,二是可以对不同分布的各原始数据进行比较。(1)确定原始数据在总体分布中的位置。如某县的年人均收入为286元,标准差是62元。该县某村的年人均收入为348元,那么该村在全县中的位置怎样?我们计算它的标准分数为1,我们将标准分数和书后所附的标准正态分布表联系在一起,可以查出Z=1在总体中的相对位置是0.84,也就是说全县有84%的村子其年均收入低于该村,有16%的村子高于该村。这就是它的年人均收入在全县所所处的位置。当前第59页\共有100页\编于星期三\7点(2)对不同分布的各原始数据进行比较。如果是不同县的两个村,甲村的情况和上例相同,乙村的年人均收入是275元,但乙村所在的县其年均收入是225元,标准差是25元。从绝对值看,甲村的收入高于乙村,但通过标准正态分布表可以查出Z=2在总体中的相对位置是0.977。因为Z乙=2>Z甲=1,所以乙村在当地的先进程度比甲村更高。
当前第60页\共有100页\编于星期三\7点标准分数能测定相同或不同总体内个案的相对位置,并进行比较,所以是比较分析的有力工具。[例]假设某考生在高考中,语文得110分,数学得125分。如果所有考生的语文平均分为90,标准差为10;数学平均分为100,标准差为15分。那么,相对而言这个考生哪方面能力更强?(如:广东省高考中各科分数用的是T=100Z+500。而高考成绩是各科标准分的平均分。)假设只考两门课A语文120分,数学0分;B数学120分,语文0分,按传统计分办法两名学生成绩相同,但按标准分计分A的成绩就比B好。当前第61页\共有100页\编于星期三\7点第六节离散系数相对离散程度:离散系数前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异程度,而且还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。当前第62页\共有100页\编于星期三\7点
用离差的绝对指标除以平均指标来求离差的相对指标,就可以在计量单位不同或平均水平不一的对象间进行直接比较。这种由绝对离差与其算术平均数的比值,叫变异系数。当前第63页\共有100页\编于星期三\7点1、全距系数:全距与算术平均数之比。2、平均差系数:平均差与算术平均数之比。3、标准差系数(最重要和最常用的变异系数)(1)标准差与其相应的均值之比(2)消除了数据水平高低和计量单位的影响(3)测度了数据的相对离散程度(4)用于对不同组别数据离散程度的比较当前第64页\共有100页\编于星期三\7点计算公式:离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:当前第65页\共有100页\编于星期三\7点当前第66页\共有100页\编于星期三\7点[例3.19]甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。两组工人工资水平离散系数计算如下:当前第67页\共有100页\编于星期三\7点从标准差来看,乙组工人工资水平的标准差比甲组大,但不能断言,乙组平均工资的代表性小。这是因为两组工人的工资水平处在不同的水平上,所以不能直接根据标准差的大小作结论。而正确的方法要用消除了数列水平的离散系数比较。从两组的离散系数可以看出,甲组相对的变异程度大于乙组,因而乙组平均工资的代表性要大。当前第68页\共有100页\编于星期三\7点某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表,试比较产品销售额与销售利润的离散程度当前第69页\共有100页\编于星期三\7点X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度当前第70页\共有100页\编于星期三\7点第七节、异众比率非众数组的频数占总频数的比率(variationratio),称为异众比率,用表示。异众比率的计算公式为:式中:为变量值的总频数;为众数组的频数当前第71页\共有100页\编于星期三\7点异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据也可以计算异众比率。当前第72页\共有100页\编于星期三\7点[例3.10]一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了纪录。整理得不同品牌饮料的频数分布资料如表所示,要求根据资料计算异众比率。当前第73页\共有100页\编于星期三\7点计算结果说明在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性不是很好。此外,利用异众比率还可以对不同总体或样本的离散程度进行比较。假定我们在另一个超市对统一问题抽查了100人,购买可口可乐的人数为40人,则异众比率为60%。通过比较可知,本次调查的异众比率小于上一次调查,因此,用“可口可乐”作为消费者购买饮料品牌的代表值比上一次调查要好些。当前第74页\共有100页\编于星期三\7点各种离散趋势测量指标的适用:数据类型和所适用的离散程度测度值数据类型定类数据定序数据定距数据或定比数据适用的测度值※异众比率※四分位差
※方差或标准差—异众比率
※离散系数(比较时用)——平均差——极差——四分位差——异众比率当前第75页\共有100页\编于星期三\7点第八节偏度和峰度
数据分布偏态与峰度的测度指标当前第76页\共有100页\编于星期三\7点偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的描述。当前第77页\共有100页\编于星期三\7点一、偏态的度量偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的即偏态的。在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏,但要度量分布偏斜的程度,就需要计算偏态系数了。偏态系数的计算方法很多,这里仅介绍两种。当前第78页\共有100页\编于星期三\7点(一)由算术平均数与众数之间的关系求偏态系数任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。用其二者的差量除以标准差,即可求得偏态系数,当前第79页\共有100页\编于星期三\7点当前第80页\共有100页\编于星期三\7点(二)动差法动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。当前第81页\共有100页\编于星期三\7点当前第82页\共有100页\编于星期三\7点当前第83页\共有100页\编于星期三\7点当前第84页\共有100页\编于星期三\7点需要注意的是,计算各阶原点动差和各阶中心动差,如果依据的资料是分组资料,则应用各组的频数或频率加权平均。由于中心动差计算起来比较繁杂,而计算原点动差相对比较简单,通常多从原点动差来推算中心动差。只要展开中心动差的各项,就容易求得它与原点动差的关系。当前第85页\共有100页\编于星期三\7点当前第86页\共有100页\编于星期三\7点当前第87页\共有100页\编于星期三\7点当前第88页\共有100页\编于星期三\7点当前第89页\共有100页\编于星期三\7点从计算结果可以看出,偏态系数为正值,而且数值较大,说明该地区农民家庭人均收入的分布为右偏分布,即人均收入较少的家庭占据多数,而人均收入较高的家庭则占少数,而且偏斜的程度较大。当前第90页\共有100页\编于星期三\7点二、峰度的度量峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。当前第91页\共有100页\编于星期三\7点当前第92页\共有100页\编于星期三\7点当峰度β>0时,表示分布的形状比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图3.4(a);β=0时,分布为正态分布;β<0,表示分布比正态分布更矮更胖,意味着分布比正态分布更分散,这样的分布称为平峰分布如图3.4(b)。当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年环境治理与生态保护合同项目内容与责任分配
- 2024年社区商业中心物业全面管理与维护合同2篇
- 2024版国际技术贸易须知
- 2025年度新能源项目投资咨询与市场分析协议3篇
- 2024年行动协调与信息共享协议3篇
- 2024年环保项目投资无息借款合同3篇
- 2024年简化离婚合同书范例不含子女抚养版B版
- win003-server-pop3-smtp邮件服务器搭建详细图解教程
- 专题07-语法填空之名词性从句专练-2023届英语语法填空强化100题-原卷版
- 2024舞蹈赛事组织舞蹈教练聘请合同3篇
- GB/T 2317.1-2000电力金具机械试验方法
- 供应商ROHs审核表
- JESD22~B117A中文版完整详细
- 五大发电公司及所属电厂列表及分部精编版
- 小学数学听课记录 精选(范文20篇)
- 住宅工程公共区域精装修施工组织设计(217页)
- 冷却塔技术要求及质量标准介绍
- 光伏电站设备监造与性能验收
- 10kV架空线路施工方案
- 2018江苏苏州中考英语真题解析
- 10KV户外封闭型喷射式熔断器技术规范书
评论
0/150
提交评论