统计数据分布特征的描述_第1页
统计数据分布特征的描述_第2页
统计数据分布特征的描述_第3页
统计数据分布特征的描述_第4页
统计数据分布特征的描述_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数据分布特征的描述第一页,共六十五页,2022年,8月28日第三章统计数据分布特征的描述3.1统计变量集中趋势的测定3.2统计变量离散程度的测定3.3变量分布偏度与峰度的描述第二页,共六十五页,2022年,8月28日3.1统计变量集中趋势的测定3.1.1测定集中趋势的主要指标及其作用3.1.2位置平均数3.1.3数值平均数第三页,共六十五页,2022年,8月28日

测定集中趋势的主要指标及其作用

测定集中趋势的指标有两类:位置平均数和数值平均数。

位置平均数是根据变量值位置来确定的代表值,即在总体中将变量值按顺序排列得到的数列中某个特殊位置的值就称为位置平均数。常用的位置平均数有众数、中位数和分位数等,前两种常用。位置平均数可以用于对品质数据和数量数据的测度。

数值平均数就是均值,它是对总体中的所有数据计算平均值,用以反映所有数据的一般水平。根据计算方法不同,数值平均数可以分为算术平均数、调和平均数、几何平均数和幂平均数。这类平均数的特点是,统计总体中任何一项数据的变动都会在一定程度上影响到数值平均数的计算结果。数值平均数只能用于对数量数据的测度。

第四页,共六十五页,2022年,8月28日

测定集中趋势的主要指标及其作用

测定集中趋势是为了表示社会经济现象总体各单位某一标志在一定时间、地点条件下所达到的一般水平。亦即将总体各单位标志值的数量差异抽象化,反映总体在具体条件下各单位标志值达到的一般水平。

集中趋势的指标经常被作为评价事物和决策的数量标准或参考。具体地说,测定集中趋势的作用如下:

1.反映总体各单位变量分布的集中趋势和一般水平;2.比较同类现象在不同单位的发展水平;3.比较同类现象在不同时期的发展变化趋势或规律;4.分析现象之间的依存关系。第五页,共六十五页,2022年,8月28日3.1.2位置平均数

位置平均数是根据数据排列位置所确定的代表值,其与数值平均数的基本区别在于不需要依据每一个数据值来计算。

常用的位置平均数有:

1、众数

2、中位数

3、其它分位数。第六页,共六十五页,2022年,8月28日3.1.2.1众数(mode)

众数是总体中出现次数最多的那个数据值。在频数分布中,众数指频数或频率最大的标志值,用Mo表示。

从数据的分布层面看,分布数列中最常出现的标志值说明该标志值最具有代表性,因此可以反映数列的一般水平。在分配曲线图上,众数就是曲线的最高峰所对应的标志值。但是,众数具有不确定性。如果数据的分布没有明显的集中趋势或最高峰点,众数就不存在;如果有多个高峰点,就有多众数。

在不等距分组的条件下,众数必须根据频数密度或频率密度来计算。众数是按照数据的位置计算的,它的长处是易于理解,不受极端数值的影响。当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数。但是其灵敏度、计算功能和稳定性差,具有不唯一性,所以当数据分布的集中趋势不明显或存在两个以上分布中心时,便不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。第七页,共六十五页,2022年,8月28日3.1.2.1.1由品质数列和单项式数量数列确定众数

由品质数列和单项式数量分配数列确定众数,方法比较简单。即出现次数最多的标志值就是众数。

[例3-1]

2000年福建省城镇居民家庭居住条件构成如下表,求居住条件的众数。

表3-1城镇居民家庭居住条件构成(单位:%)

资料来源:《福建统计年鉴—2002》。

按房屋产权分组数据就是一个品质数列,有71.7%的城镇居民的住房是自有房,因为71.7%是该品质数列中的最高频率,因此,其众数就是“自有房”,Mo=自有房。项目2000年按房屋产权分公房租赁私房自有房其他100.012.61.971.713.8第八页,共六十五页,2022年,8月28日3.1.2.1.1由品质数列和单项式数量数列确定众数[例3-2]某学院某学年教师开课门数如表3-2,求开课门数的众数。

表3-2教师开课门数(单位:门)

在上表的单项式数量数列中,教师开课门数最集中的是2门课,所以2就是众数,Mo=2。开课门数x1234合计教师数f1530281285第九页,共六十五页,2022年,8月28日3.1.2.1.2由组距数量数列确定众数按年人均纯收入分组(元)农民家庭数(户)1000-12001200-14001400-16001600-18001800-20002000-22002200-24002400-2600240480105060027021012030合计3000

[例3-3]某地区农民收入情况如表3-3,计算其人均纯收入的众数。

表3-3农民家庭年人均纯收入情况表第十页,共六十五页,2022年,8月28日3.1.2.2中位数(Median)

中位数和众数一样,也是一种位置代表值。中位数是将总体中的数据按顺序排列后,处于数列中点位置上的那个数据值或变量值,或者说中位数是累计频率数列中,累计频率为0.50所对应的变量值。用Me表示。在总体中,小于中位数的数据个数占一半,大于中位数的数据个数也占一半,即中位数是将数据按大小顺序排列后,位于二等分点上的那个数据值。用中位数来代表总体中所有标志值的一般水平,可以避免极端值的影响,在有些情况下更具有代表性。中位数的确定方法,根据所掌握的数据不同而有所不同。第十一页,共六十五页,2022年,8月28日[例3-4]某高校一次对食堂伙食满意度的调查

数据如表3-4所示。求满意度的中位数。

回答类别学生人数(人)学生人数累计(向上累计)非常不满意240240不满意10801320一般9302250满意4502700非常满意3003000合计3000——表3-4调查数据次数分布中位数位置=3000/2=1500

从学生数累计看,中位数在第三组,所以,Me=一般。

第十二页,共六十五页,2022年,8月28日3.1.2.2.2由单项式分组数量数据确定中位数

单项式数量数据分组已经将数据顺序化,这时数据个数即总体单位数n=∑f,确定中位数位置的方法要通过累计次数计算。[例3-6]由表3-5数据计算中位数。

中位数的位置是85/2=42.5,因此,Me=2。表3-5教师开课门数累计频数表开课门数(门)教师数(人)向上累计教师数(人)向下累计教师数(人)1151585230457032873404128512合计85————第十三页,共六十五页,2022年,8月28日3.1.2.2.3由组距式分组的数量数据确定中位数

[例3-7]根据表3-6数据,计算农民家庭年人均纯收入中位数。表3-6农民家庭年人均纯收入累计次数表年人均纯收入(元)农民家庭数(户)向上累计户数向下累计户数1000-120024024030001200-140048072027601400-16001050177022801600-1800600237012301800-200027026406302000-220021028503602200-240012029701502400-260030300030合计3000————第十四页,共六十五页,2022年,8月28日3.1.2.3.1四分位数(Quartile)

四分位数又称为四分位点,它利用三个等分点将数据四等分:第一个等分点称为下四分位数,第二个等分点就是中位数,第三个等分点称为上四分位数。四分位数的计算方法与中位数相似,即先确定其位置,再确定其数值。(1)顺序数据四分位数位置的确定Qi=in/4(i=1,2,3)式中,Qi

是第i个四分位数,n是数据个数即总体单位数。

(2)未分组和单项式分组的数量数据四分位数位置的确定Qi=i(n+1)/4(i=1,2,3)(3)组距式分组数量数据中四分位数位置的确定第十五页,共六十五页,2022年,8月28日3.1.2.3.1四分位数(Quartile)

[例3-8]利用例3-4的数据确定四分位数。

解:依题意得:Q1位置=n/4=3000/4=750(人)Q1=不满意Q2位置=2n/4=2*3000/4=1500(人)Q2=一般Q3位置=3n/4=3*3000/4=2250(人)Q3=满意第十六页,共六十五页,2022年,8月28日3.1.2.3.1四分位数(Quartile)

[例3-9]

计算例3-5中数据的四分位数。

解:依题意得:Q1位置=(n+1)/4=9/4=2.25Q1=x2+0.25(x3-x2)=19+0.25*(20-19)=19.25(元)Q2位置=2(n+1)/4=2*9/4=4.5Q2=(x4+x5)/2=(22+23)/2=22.5(元)Q3位置=3(n+1)/4=6.75Q3=x6+0.75(x7-x6)=23+0.75*(23-23)=23(元)第十七页,共六十五页,2022年,8月28日3.1.2.3.2百分位数(Percentile)

百分位数是数据顺序排列后,将数据100等分,位于i(i=1,2,…,99)个等分点位置的数据值。可见,第25百分位数就是第一个四分位数;第50百分位数即第二个四分位数,也就是中位数;第75百分位数则是第三个四分位数。百分位数的计算思路与四分位数一样。

对第i百分位数,严格的定义如下:第i百分位数是这样一个值,它使得至少有i%的数据项小于或等于这个值,且至少有(100-i)%的数据项大于或等于这个值。第十八页,共六十五页,2022年,8月28日3.1.3数值平均数

数值平均数又称为均值,是用于测定数量数据的集中趋势的指标,算术平均数是最常用的数值平均数,由算术平均数又引申出了调和平均数和几何平均数。第十九页,共六十五页,2022年,8月28日3.1.3.1算术平均数(均值)arithmeticmean

算术平均数又称均值,是统计数据高低相互抵消后的结果,表现了数据的集中趋势和代表性水平。从统计思想看,均值削弱了数据中偶然性,揭示了蕴含在偶然性当中的必然性,是统计数据集中趋势的一个最重要特征值。而且本身具有良好的数学性质。基本形式:算术平均数=总体标志总量/总体单位总量

算术平均数的计算条件:算术平均数是同质总体的标志总量和单位总量的比率关系,要求分子与分母必须是同一总体,而且两者在数量上存在着直接的对应关系,即分子数值随着分母数值的变动而变动。实际工作中,由于数据的不同,算术平均数有简单算术平均数和加权算术平均数两种计算形式。第二十页,共六十五页,2022年,8月28日3.1.3.1.1简单算术平均数[例3-11]例3-5的中,日产零件数分别为17、19、20、22、23、23、24、25(件/人)8名工人的日产零件的平均数为:第二十一页,共六十五页,2022年,8月28日3.1.3.1.2加权算术平均数(weightedarithmeticmean)

加权算术平均数主要用于数据已经分组,并编制出次数分布的条件下。这时必须先将各组标志值乘以相应的次数,得到各组的标志总量,然后再相加得到总体标志总量,最后用总体标志总量除以总体单位总量。加权算术平均数的计算公式为:如果是组距式分组,在假定各组内的变量值均匀分布的条件下,用各组的组中值代表各组的平均值,以各组组中值乘以各组次数作为各组的标志总量,再计算总平均数。第二十二页,共六十五页,2022年,8月28日

[例3-12]

利用表3-2数据计算算术平均数。第二十三页,共六十五页,2022年,8月28日表3-7教师平均开课门数计算表开课门数x教师数fxff/∑f(%)X*f/∑f1151517.650290.70583288432.940.98824124814.120.5648合计852071002.4353第二十四页,共六十五页,2022年,8月28日3.1.3.1.2加权算术平均数

[例3-13]利用表3-3的数据计算算术平均数。

解:依题意得:所以,这3000户农民家庭平均年人均纯收入是1596元。第二十五页,共六十五页,2022年,8月28日表3-8农民家庭平均年人均纯收入计算表年人均纯收入(元)组中值x农民家庭数(户)fxf1000-120011002402640001200-140013004806240001400-16001500105015750001600-1800170060010200001800-200019002705130002000-220021002104410002200-240023001202760002400-260025003075000合计__30004788000第二十六页,共六十五页,2022年,8月28日计算加权算术平均数需要注意的问题

加权算术平均数的大小受两个因素的影响:一是变量值大小;二是各组次数占总次数比重即频率的影响。

加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重。在计算平均数时,各组次数具有权衡各组变量值轻重的作用,出现次数多的标志值对平均数的形成影响大些,出现次数少的标志值对平均数的形成影响小些。即,在一个数列中,当标志值较大的单位数居多时,平均数就会趋近标志值大的一方;当标志值较小的单位数居多时,平均数就趋近标志值小的一方;当标志值较大的单位数与标志值较小的单位数基本平分时,平均数居中。

可见,各组标志值的单位数(频数)的多少对平均数的大小有权衡轻重的作用,所以称各组单位数为权数,用权数乘以各组标志值叫加权,由此计算的平均数叫加权算术平均数。注意:权数对算术平均数大小的影响程度,并不取决于权数本身数值的大小,而是取决于作为权数的各组单位数占总体单位数比重的大小,即频率的大小。

在分组数列的条件下,当各组标志值出现的次数或各组次数所占比重均相等时,权数就失去了权衡轻重的作用,这时用加权算术平均数计算的结果与用简单算术平均数计算的结果相同,因此可以把简单算术平均数理解为加权算术平均数当f1=f2=…=fn时的特例。第二十七页,共六十五页,2022年,8月28日关于加权算术平均数的权数选择原则

1、权数选择的原则:

各组标志值×各组单位数=各组标志总量2、该等式必须有实际经济意义。即,权数必须是标志值的直接承担者,权数与标志值的乘积要具有标志总量的意义。

只有当三个量之间存在着客观的数量对等关系时,各组单位数才是加权算术平均数的合适权数。实例。第二十八页,共六十五页,2022年,8月28日算术平均数的数学性质

算术平均数是最重要的平均数形式,有一些非常重要的数学性质,其中最重要的数学性质是:

1、算术平均数与标志值个数的乘积等于各标志值的总和。2、各个标志值与算术平均数离差之和等于零。3、各标志值与算术平均数离差的平方和为最小。第二十九页,共六十五页,2022年,8月28日3.1.3.2调和平均数(Harmonicmean)

调和平均数是集中趋势的另一种测定指标,它是总体中各单位标志值倒数的算术平均数的倒数,又称“倒数平均数”。

在统计实践中,调和平均数常常被作为算术平均数的变形来使用:当因为数据的原因不能采用算术平均数的方法计算均值时,可以考虑采用调和平均数的形式。

调和平均数也有简单调和平均数和加权调和平均数两种形式。第三十页,共六十五页,2022年,8月28日3.1.3.2.1简单调和平均数

简单调和平均数是各个标志值倒数的算术平均数的倒数。计算公式如下:第三十一页,共六十五页,2022年,8月28日[例3-16]某种蔬菜早市、午市和晚市的价格

分别为0.7、0.68和0.74元,各买一元,求其平均

价格。第三十二页,共六十五页,2022年,8月28日3.1.3.2.2加权调和平均数加权调和平均数的计算公式为:式中,m表示各单位或各组的标志值对应的标志总量。第三十三页,共六十五页,2022年,8月28日[例3-17]某种蔬菜价格和成交量资料如表3-10,求该种蔬菜一天的平均价格。

第三十四页,共六十五页,2022年,8月28日3.1.3.3几何平均数(geomatricmean)

几何平均数也称几何均值或对数平均数,是一种有特定作用的平均数。几何平均数是N个变量值(比率)连乘积的N次方根,通常用于时间上有联系或有先后顺序关系的比率求平均,凡是度量值的连乘积等于总比率或总速度的现象都必须使用几何平均法计算均值。几何平均数根据所掌握数据资料不同,有简单几何平均数和加权几何平均数两种方法。

几何平均数也是算术平均数的变形,也受极端变量值的影响,适合于反映特定现象的平均水------现象的总标志值是各单位标志值的连乘积。但是,如果数列中有一个标志值等于0,或者数列中有一个标志值是负值,又要开偶次方根,就都无法计算几何平均数。第三十五页,共六十五页,2022年,8月28日3.1.3.3.1简单几何平均数式中G表示几何平均数,

表示各项标志值。简单几何平均数适用于计算未分组数列的平均比率或平均速度。若将变量值取对数,几何平均数就变成均值形式。第三十六页,共六十五页,2022年,8月28日[例3-18]某产品需经四个工序的加工,已知第一工

序加工合格率为97%,第二个工序加工合格率为95%,第

三个工序加工合格率为96%,第四个工序加工合格率为94%,求四个工序平均加工合格率。

解:依题意得:第三十七页,共六十五页,2022年,8月28日3.1.3.3.2加权几何平均数当计算几何平均数的各个标志值的次数不相同时,应采用加权几何平均数。加权几何平均数是各标志值fi次方的连乘积的次方根,计算公式为:第三十八页,共六十五页,2022年,8月28日[例3-19]某2企业2000~2002年增加值发展速度如表3-11,试计算其2000~2002年增加值平均发展速度。环比发展速度(%)x时期次数f1021990-199331041993-19985981998-199911031999-20012

第三十九页,共六十五页,2022年,8月28日集中趋势测定指标的关系

1、众数、中位数和算术平均数的关系在对称的正态分布条件下,算术平均数=众数=中位数。

在非对称正态分布的情况下,众数、中位数和平均数三者的差别取于偏斜的程度。偏斜的程度越大(小),它们之间的差别越大(小)。当次数分配呈右偏时,算术平均数>中位数>众数;当次数分配呈左偏时,众数>中位数>算术平均数;一般地,中位数介于众数和平均数之间。英国统计学家皮尔生(Pearson.E.S)的研究提出,在存在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式:算术平均数和众数的距离约等于算术平均数与中位数距离的三倍。2、算术平均数、调和平均数和几何平均数的关系在相同的数据中,算术平均数、调和平均数和几何平均数在数值是的关系如下:调和平均数≤几何平均数≤算术平均数。第四十页,共六十五页,2022年,8月28日计算和应用集中趋势测定指标应注意的问题

1、集中趋势的测定指标只能应用于同质总体。集中趋势是总体中的所有数据向中心靠拢的程度,位置平均数和数值平均数作为总体的特征值,反映的是总体各单位的一般水平和集中趋势,只有在同质总体中应用才有意义,否则就会失真。

2、用组平均数和分配数列补充说明总平均数。平均数是一个高度概括性的数值,它抽象了总体中各数据的差异。为使总体信息即有综合又保真,可以用分配数列和各组的平均数来总体具体情况,以显示被平均数抽象掉的各单位差异及其分布。3、集中趋势指标与离中趋势指标及具体分析相结合。总体除了集中趋势特征外,还具有与集中趋势相反的特征——离中趋势,研究中对总体的不同层面、不同方向的特征值都进行剖析,相互补充,会使分析更透彻、全面。此外,集中趋势指标与典型事例相结合,具体问题具体分析。第四十一页,共六十五页,2022年,8月28日3.2.1测定离散趋势的主要指标及其作用

离散程度的主要指标有极差、平均差、四分位差、方差和标准差以及离散系数等,在实践中有重大作用。

1、反映现象总体中变量分布的离中趋势总体各单位的标志值存在差异,标志变动度表明总体各单位标志值的分散程度。变量值的差异越大,离中趋势也越大;反之,变量值越小,离中趋势也就越小。

2、衡量均值的代表性均值作为总体数量标志的代表值,其代表性取决于总体各数据的差异程度。当总体中各数据的变异程度越大,均值的代表性就越小;反之,总体中各数据的变异程度越小,均值的代表性就越大。

3、测定现象变动的均匀性或稳定性程度离散程度能够表明生产过程的节奏性和其他活动的均衡性,可作为企业产品质量控制和评价经济管理工作的依据。第四十二页,共六十五页,2022年,8月28日3.2.2.1极差极差又称全距,离散程度的最简单测度值,是最大和最小观测值之间的距离。

式中,Umax代表最高组的上限;Lmin代表最低组的下限。用极差描述资料的离散程度简单明了,但它仅仅测度了两个端点数值,没有考察中间位置上的数值,没有考虑数据的分布特征,不能反映观察值的整个离散程度。特别当总体存在极端数值时,极差就完全受极端数值的影响,缺乏全面性。第四十三页,共六十五页,2022年,8月28日3.2.2.2异众比率异众比率又称离异比率或变差比,是指非众数的次数与全部变量值总次数的比率。异众比率是描述数据离散程度的测定值之一,在对数据数量变动规律进行研究时,与众数结合使用。其计算公式为:

式中:Vr是异众比率,是变量值的总次数,是众数组的次数。事实上异众比率是一个相对数,更具体讲是一个比例相对数。它所描述的是非众数的数据次数占数据总次数的比重,它与众数的数据次数占总体总次数的比重之和为1。异众比率可以用于定类数据。第四十四页,共六十五页,2022年,8月28日3.2.2.3四分位差(quartiledeviation

)分位差是极差的一种改进,它是从分配数列中剔除了一部分极端数值后确定的、反映数据之间差异情况的指标。经常使用的分位差有四分位差、八分位差、16分位差、32分位差以及百分位差等,以四分位差最为多见。

四分位差是在数列中剔除最大和最小各四分之一的数据,是第一和第三个四分位数之间距离的二分之一,表明中位数到这两个四分位数的平均距离,是说明中位数代表性高低的测量值。四分位差计算公式为:

式中:QD表示四分位差,Q3、Q1分别为第三个、第一个四位数。第四十五页,共六十五页,2022年,8月28日3.2.2.4平均差(MeanAbsoluteDeviation)

平均差是分配数列中各单位标志值与其算术平均数之间离差绝对值的平均数,反映总体各单位标志值的平均差异(离散)程度。一般用MD表示。由于掌握的数据不同,平均差的计算可分为简单平均差和加权平均差两种形式。即:1、未分组数列:

2、分组数列:

平均差考虑到了数列中各个标志值的变异程度对整个数列变异程度的影响,因此,比较全面、客观地反映了数列的变异程度。但是平均差在计算中,为了保证正、负总体中的各变量值与算术平均数的离差和不至于在计算中相互抵消为零,对离差取了绝对值,这在数学处理上有困难,不符合代数方法演算,具有局限性。第四十六页,共六十五页,2022年,8月28日3.2.3方差(variance)与标准差(StandardDeviation

方差与标准差是测定离散程度最常用的指标。标准差是方差的平方根,也称均方差。方差与标准差利用了算术平均数的数学性质,因此是离散程度最灵敏的指标,实践中应用十分广泛。

方差和标准差的思路与平均差基本相同,只是在数学处理方法上与平均差不同:对于总体中各变量值与算术平均数的正负离差相互抵消为零的问题,平均差采用取绝对值的方法来避免。而方差则是采用平方的方法来避免。然后再对离差的平方计算算术平均数,并开方取其正根,求出标准差。第四十七页,共六十五页,2022年,8月28日3.2.3.1数量标志的方差与标准差1、未分组数列的计算公式:

2、分组数列的计算公式:

式中,表示方差;表示标准差。

方差和标准差一般用于定序数据和定比数据。第四十八页,共六十五页,2022年,8月28日

[例3-23]两种不同水稻品种在不同的田块上试种,产量资料如表3-12所示。要求:⑴分别计算两种品种的单位面积产量。⑵计算两种品种亩产量的方差和标准差。

表3-12两种水稻品种产量资料表甲品种乙品种田块面积(亩)产量(公斤)田块面积(亩)产量(公斤)1.2661.58401.14951.47701.04451.25400.95401.05200.84200.9450第四十九页,共六十五页,2022年,8月28日表3-13计算表

xfxfxfxf5001.2600005601.58404024004501.1495-5027005501.47703012604451.0445-5530255201.0520006000.954010090004501.2540-7058805250.8420255005000.9450-20360合计5.02500—15275合计6.03120—9900第五十页,共六十五页,2022年,8月28日解:依题意得:计算结果说明,甲品种水稻的平均亩产量为500公斤,平均误差55.3公斤;乙品种水稻的平均亩产量为520公斤,平均误差40.6公斤。第五十一页,共六十五页,2022年,8月28日3.2.3.2是非标志的方差与标准差

用“1”表示“是”的变量值,用“0”表示“非”的变量值,则:是非标志的方差、标准差,当p=q=0.5时取得最大值,方差最大值为0.25,标准差最大值为0.5,也就是说,此时是非标志的变异程度最大。第五十二页,共六十五页,2022年,8月28日方差与标准差的数学性质1、变量的方差等于变量平方的平均数减去变量平均数的平方。2、变量对算术平均数的方差小于对任意常数的方差

3、n个同性质独立变量和的方差等于各个变量方差的和。4、n个同性质独立变量平均数的方差等于各变量方差平均数的1/n。

5、变量线性变换的方差等于变量的方差乘以变量系数的平方。第五十三页,共六十五页,2022年,8月28日3.2.4离散系数

前述的变异指标都是有量纲的量,它们的大小不仅取决于总体数据的差异程度,而且还与标志值的大小有关。当分析比较两类不同现象或具有不同平均水平数据的变异程度时,就必须采用离散程度的相对数——离散系数来反映。离散系数又称为变异系数是一个无量纲的量。它是数量数据的各离散程度指标与其算术平均数的比值。如,将标准差与其平均数对比,得到标准差系数,等等。其计算公式为:

变异系数=变异指标/算术平均数最常用的变异系数是标准差系数:第五十四页,共六十五页,2022年,8月28日3.3变量分布偏度与峰度的描述3.3.1矩3.3.2偏度3.3.3峰度第五十五页,共六十五页,2022年,8月28日3.3.1矩

矩也称为动差。它是总体中所有变量值与任意常数离差K次方的算术平均数。1.基本形式1)未分组数据:2)分组数据:

式中,k为任意正整数,a为常数。第五十六页,共六十五页,2022年,8月28日2.原点矩若a=0,即变量x关于原点的k阶矩——k阶原点矩。

1)未分组数据:

2)分组数据:

显然,一阶原点矩就是变量的算术平均数,二阶原点矩就是变量平方的算术平均数。第五十七页,共六十五页,2022年,8月28日3.中心矩

若a=,就得到变量x关于分布中心的k阶矩——k阶中心矩。1)未分组数据:

2)分组数据:

可见,一阶中心矩为0,二阶中心矩就是方差。

第五十八页,共六十五页,2022年,8月28日3.3.2偏度偏度指分布不对称的方向和程度。偏度指标是三阶中心动差除以标准差三次方。其计算公式:当α=0时,数列分布为正态分布。当α≠0时,数列分布有便斜,且便斜程度随着α绝对值的增大而增大。当α>0时,表示大于平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论