版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
描述统计中的测度第一页,共七十一页,编辑于2023年,星期六数据的特征和度量数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数集中趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度第二页,共七十一页,编辑于2023年,星期六数据的特征和度量对于描述统计中的测度,主要可以分为三个方面来描述:一是数据的集中趋势,反映各数据向其中心值靠拢或聚焦的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是数据分布的形状,即数据分布的偏态和峰度。第三页,共七十一页,编辑于2023年,星期六4.1数据分布的集中趋势测度集中趋势(Generaltendency)是指分布的定位,它是指一组数据向某一中心值靠拢的倾向,或是表明一组统计数据所具有的一般水平。对集中趋势进行测度也就是寻找数据一般水平的代表值或中心值。对集中趋势的度量有数值平均数和位置平均数之分。第四页,共七十一页,编辑于2023年,星期六4.1数据分布的集中趋势测度数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数集中趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度第五页,共七十一页,编辑于2023年,星期六一、数值平均数
数值平均数又称均值(Mean),是根据统计资料的数值计算而得到,在统计学中具有重要的作用和地位,是度量集中趋势的最主要的指标之一。平均的对象可理解为变量,平均数可记为。第六页,共七十一页,编辑于2023年,星期六(一)算术平均数
1.简单算术平均数简单算术平均数是根据原始数据直接计算均值。一般地,设一组数据为,其简单算术平均数计算的一般公式可表达为:第七页,共七十一页,编辑于2023年,星期六(一)算术平均数例如:为了研究目前大学中班级学生人数的情况,从北京某大学抽样五个班级,其学生人数分别为:46,54,42,46,32。我们使用,…分别表示该五个数据,计算其均值,可以写成:
第八页,共七十一页,编辑于2023年,星期六(一)算术平均数2.加权算术平均数加权算术平均数计算的所依靠的数据是经过一定整理的,即是根据一定规则分组的。可分为(1)由数列计算加权算术平均数(2)根据组距计算加权算术平均数第九页,共七十一页,编辑于2023年,星期六(一)算术平均数(1)由数列计算加权算术平均数由单项变量数列计算加权算术平均数的基础是要先将数据进行分组,即将n个数据按变量值(xi)进行分组,并统计在各个变量取值出现的次数,或称为频数(fi
)。其加权算术平均数的计算公式如下:第十页,共七十一页,编辑于2023年,星期六(一)算术平均数设某班级10名同学的年龄分别为:18,19,17,18,17,18,19,18,18,19。则根据简单平均数的公式,我们可计算得到该班10名同学的平均年龄:第十一页,共七十一页,编辑于2023年,星期六(一)算术平均数年龄(岁)人数人数比重1722/10(0.2)1866/10(0.6)1922/10(0.2)合计101第十二页,共七十一页,编辑于2023年,星期六(一)算术平均数(2)根据组距计算加权算术平均数选择适当的组距来对数据进行分组,再求加权平均数往往就简单、容易许多。根据组距计算加权平均数的方法与上面所述的数列加权平均数方法基本相同,只需以各组的组中值来代替相应的x值即可第十三页,共七十一页,编辑于2023年,星期六(一)算术平均数①简单算术平均数适用于数据量较少的未分组数据;加权算术平均数则只适用于分组数据,且在进行数据分组时,可以根据每个变量的取值来分组,亦或根据一定的区间来分组,这应该根据所针对问题的具体数据来来选取。②简单算术平均数其数值的大小只与变量值的大小有关;对最终加权平均数大小的影响因素有两个:一是各组变量值的影响;另一个是各组变量值的频数的影响。第十四页,共七十一页,编辑于2023年,星期六(一)算术平均数③加权算术平均数计算公式中频数的大小起着重要作用,当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。④在加权算术平均数计算中当各组变量的权重相等时,则权重的权衡轻重的作用也就消失了,此时加权算术平均数转化为简单算术平均数的计算形式。第十五页,共七十一页,编辑于2023年,星期六(二)调和平均数
调和平均数(Harmonicmean)是均值的另一种重要表示形式,由于它是根据变量值倒数计算的,也叫倒数平均数,一般用字母表示Hm。根据所给资料情况的不同,调和平均数可分为:简单调和平均数和加权调和平均数两种。第十六页,共七十一页,编辑于2023年,星期六(二)调和平均数1.简单调和平均数事实上简单调和平均数是权数均相等条件下的加权调和平均数的特例。当权数相等时,就产生了通常所说的加权调和平均数。
第十七页,共七十一页,编辑于2023年,星期六(二)调和平均数2.加权调和平均数用公式表示为:由此可以看出,当权重mi相等时,则加权调和平均数则转换为简单调和平均数。
第十八页,共七十一页,编辑于2023年,星期六(二)调和平均数3.调和平均数是算术平均数的变形在一定的条件下,加权调和平均数和加权算术平均数只是计算形式不同,在经济内容上没有实质性的区别,调和平均数是算术平均数的变形,是在缺少总体单位的资料时才被迫使用的计算平均数的一种方法。即:第十九页,共七十一页,编辑于2023年,星期六(三)几何平均数几何平均数(Geometricmean)是个变量值连乘积的次方根,常用字母表示。它是平均指标的另一种计算形式。几何平均数是计算平均比率和平均速度最适用的一种方法。根据掌握的数据资料不同,几何平均数可分为简单几何平均数和加权几何平均数两种。第二十页,共七十一页,编辑于2023年,星期六(三)几何平均数1.简单几何平均数假定有n个变量值x1,x2,……xn,则简单几何平均数的基本计算公式为:第二十一页,共七十一页,编辑于2023年,星期六(三)几何平均数2.加权几何平均数当掌握的数据资料为分组资料,且各个变量值出现的次数不相同时,应用加权方法计算几何平均数。加权几何平均数的公式为:第二十二页,共七十一页,编辑于2023年,星期六二、位置平均数数值平均数是根据所提供资料的具体数值计算而得到,和我们通常观念中的平均含义比较接近,但结果受极端值的影响而不能真是地反应改组资料的整体集中趋势,在这种情况下,一般可以考虑用位置中位数取代算术中位数来对数据的集中趋势进行描述。常用的位置平均数有:平均数、众数、分位数。第二十三页,共七十一页,编辑于2023年,星期六(一)中位数
中位数(Median)是度量数据集中趋势的另一重要测度,它是一组数据按数值的大小从小到大排序后,处于中点位置上的变量值。通常用表示Me。定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值影响。第二十四页,共七十一页,编辑于2023年,星期六(一)中位数1.根据未分组数据确定中位数对于未分组的数据,确定其中位数的具体步骤为:(1)将变量按变量值大小从小到大进行排列。(2)确定中位数的位置,即中点位置。一般的,设一组数据的个数为,则中点的位置为(n+1)/2。(3)确定中位数。第二十五页,共七十一页,编辑于2023年,星期六(一)中位数如果观测值的数目n为奇数,则(n+1)/2为整数,该位置上所对应的变量即为所求的中位数如果观测值的数目n为偶数,则(n+1)/2为非整数,则取位于中间位置的两个变量值的算术平均数作为中位数。第二十六页,共七十一页,编辑于2023年,星期六(一)中位数2.根据单项数列确定中位数根据单项数列资料确定中位数与根据未分组资料确定中位数方法基本一致。具体步骤为:(1)计算各组的累计次数(或频数)(2)确定中位数的位置,。(3)确定中位数。中位数所在组的变量值即为中位数。第二十七页,共七十一页,编辑于2023年,星期六(一)中位数3.根据组距数列确定中位数如果我们掌握的资料是分组后得到的组距数列,则确定中位数的步骤为:(1)确定中位数的位置。(2)计算累计次数,据以找出中位数所在的组。(3)利用以下公式,确定中位数的近似值第二十八页,共七十一页,编辑于2023年,星期六(一)中位数第二十九页,共七十一页,编辑于2023年,星期六(二)众数众数(Mode)是一组数据中出现次数最多的那个变量值,通常用MO表示。如果在一个总体当中,各变量值皆不相同,或各个变量值出现的次数皆相同,则没有众数。如果在一个总体中,有两个标志值出现的次数都最多,称为双众数。只有在总体单位比较多、变量值又有明显集中趋势的条件下确定的众数,才能代表总体的一般水平;在总体单位较少,或虽多但无明显集中趋势的条件下,众数的确定是没有意义的。众数的确定方法要根据给定资料的具体情况而定。第三十页,共七十一页,编辑于2023年,星期六(二)众数1.未分组资料或单项数列资料众数观察给定的数据,某个变量出现次数最多,则该变量即为所求众数。这样的方法确定比较容易,不需要计算。第三十一页,共七十一页,编辑于2023年,星期六(二)众数2.根据组距变量数量确定众数具体步骤为:第三十二页,共七十一页,编辑于2023年,星期六(三)分位数中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。第三十三页,共七十一页,编辑于2023年,星期六(三)分位数1.百分位数百分位数(Percentile)是用99个点将排列好的数据100等分后各能给出从最小值到最大值区间内数据的信息分位点上的值。其中每个部分包含了1%的数据。百分位数的计算方法与中位数的类似第三十四页,共七十一页,编辑于2023年,星期六(三)分位数升序或降序)进行排列。(2)确定所求百分位数的位置。假设求第p百分位数,则该第p百分位数位置为:i=pn/100(3)确定百分位数。如果计算i的为整数,则直接在排列的数据列中找到第个变量即为所求。若i不为整数,则取位于两侧的变量的平均数作为所要求的百分位数。第三十五页,共七十一页,编辑于2023年,星期六(三)分位数2.四分位数一组数据排序后处于25%和75%位置上的值,称为四分位数(quartile),也称四分位点。四分位数是通过三个点即将全部数据等分为四部分,其中每部分包含25%的数据。中间的分位数就是中位数。因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。第三十六页,共七十一页,编辑于2023年,星期六(三)分位数设下四分位数为Q1,中间的四分位数为Q2,上四分位数为Q3,则这分三个四位数所在位置:Q1的位置为(n+1)/4Q2的位置为(n+1)/2,即中位数点的位置。Q3的位置为3(n+1)/4。第三十七页,共七十一页,编辑于2023年,星期六(三)分位数第三十八页,共七十一页,编辑于2023年,星期六三、众数、中位数与均值的比较(一)正态分布时三者的关系正态分布是以算术平均数为对称轴,两边频数相等。其中频数最大的标志值就是数列居中位置的标志值,也就是权数最大、最具有代表性的那个变量值。因此,正态分布时,算术平均数、中位数和众数三者相等,即第三十九页,共七十一页,编辑于2023年,星期六三、众数、中位数与均值的比较第四十页,共七十一页,编辑于2023年,星期六三、众数、中位数与均值的比较(二)偏态分布时三者的关系频数分布呈偏态时,算术平均数、中位数和众数的计算结果不同。当右偏时,算术平均数大于中位数,而中位数又大于众数,左偏时众数大于中位数,中位数大于算术平均数。在偏态分布情况下,算术平均数、中位数和众数的上述关系是容易理解的,由于算术平均数受极端值影响,在发生右偏出现较大极端值时,算术平均数将增加得更快,而中位数总是居于中间位置,。左偏同样可作类似的解释,从而有第四十一页,共七十一页,编辑于2023年,星期六4.2数据分布的离散趋势测度
变量的变异程度的度量则是将变量值的差异揭示出来,反映总体各变量值对其平均数这个中心的离中趋势。变异指标与平均指标分别从不同的侧面反映总体的数量特征。第四十二页,共七十一页,编辑于2023年,星期六4.2数据分布的离散趋势测度数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数集中趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度第四十三页,共七十一页,编辑于2023年,星期六一、极差极差(Range)也叫全距,常用R表示,它是一组数据的最大值与最小值之差,即:极差表明数列中各变量值变动的范围。R越大,表明数列中变量值变动的范围越大,即数列中各变量值差异大;反之,R越小,表明数列中变量值的变动范围越小,即数列中各变量值差异小。第四十四页,共七十一页,编辑于2023年,星期六二、四分位距四分位距(quartiledeviation)是度量变异数的另一种方法,也称为内距或四分位差,是第一四分位数(下四分位数Q1)与第三四分位数(上四分位数Q3)的差,也就是75%百分位数与25%百分位数间的距离。它代表分布中间50%的距离。常用表示IQR,其计算公式为:第四十五页,共七十一页,编辑于2023年,星期六三、平均差
平均差(meandeviation)是变量数列中各个变量值与算术平均数的绝对离差的平均数,常用MD表示。各变量值与平均数的离差的绝对值越大,平均差也越大,则说明变量值变动大,数列离散趋势越大;反之亦然。根据所给资料的形式不同,对平均差的计算可以划分为简单和加权式平均差两种形式。第四十六页,共七十一页,编辑于2023年,星期六(一)简单平均差
对未经分组的数据资料,采用简单平均差,公式如下:第四十七页,共七十一页,编辑于2023年,星期六(二)加权式
根据分组整理的数据计算平均差,应采用加权式,公式如下:第四十八页,共七十一页,编辑于2023年,星期六四、方差与标准差
方差(variance)是变量数列中各变量值与其算术平均数差的平方。标准差(standarddeviation)是方差的平方根,故又称均方差或均方差根,其计量单位与平均数的计量单位相同。根据给定资料的不同,对方差和标准差的求解也可以分为两种形式。第四十九页,共七十一页,编辑于2023年,星期六(一)简单式
对未经分组的数据资料,采用简单式,公式如下:方差的计算公式:标准差的计算公式:第五十页,共七十一页,编辑于2023年,星期六(二)加权式
根据分组整理的数据计算标准差,应采用加权式,公式如下:方差:
标准差:第五十一页,共七十一页,编辑于2023年,星期六五、相对位置和相对离散程度的度量前面介绍的极差、四分位差、平均差和标准差都是反映数据分散程度的绝对值,其数据的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的平均数大小有关。因此,在对比分析中,不宜直接用上述各种标志变异指标来比较不同水平数列之间的离散程度,必须剔除数列水平的影响,必须用反映标志变异程度的相对指标来比较,用相对位置和离散系数来反映数列的离散趋势。第五十二页,共七十一页,编辑于2023年,星期六
(一)标准分数标准分(standardscore)也称标准化值或分数,它是变量值与其平均数的离差除以标准差后的值,是对每个数据在该组数据中相对位置的测量。常用字母z表示,有
第五十三页,共七十一页,编辑于2023年,星期六(一)标准分数
实际上,分数是将原始数据进行了线性变换,它并没有改变一个数据在该数据组中的位置,也没有改变该组数据的分布形状,而只是将该组数据变为均值为0,标准差为1。经验表明,不管分布状态如何,按照著名的“切贝舍夫定理”,至少有75%的数据位于,89%的数据位于;当一组数据对称分布时,大约有68%的数据在范围内;大约有95%的数据在的范围内;而在的范围内大约有98%的数据。第五十四页,共七十一页,编辑于2023年,星期六(二)离散系数
离散系数(Coefficientofvariation)通常是就标准差来计算的,因此,也称为标准差系数,它反映数列离散趋势的相对程度,是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,其计算公式如下:离散系数的作用主要用于比较不同总体或样本数据的离散程度。离散系数大的说明数据的离散程度也就大,离散系数小的说明数据的离散程度也就小。第五十五页,共七十一页,编辑于2023年,星期六4.3数据分布的形状测度数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数集中趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度第五十六页,共七十一页,编辑于2023年,星期六一、分布偏态测度
偏态(Skewness)是对分布偏斜方向和程度的测度,是次数分配的非对称程度。它与平均数和标准差一样,是反映次数分布特征的又一重要指标。第五十七页,共七十一页,编辑于2023年,星期六一、分布偏态测度
偏态通常分为两种:右偏(或正偏)与左偏(或负偏)。它们是与对称分配为标准相比较而言的。第五十八页,共七十一页,编辑于2023年,星期六一、分布偏态测度统计分析中测定偏态系数的方法很多,一般采用动差概念计算,其计算公式为三阶中心动差与标准差的三次方之比。具体公式如下:第五十九页,共七十一页,编辑于2023年,星期六一、分布偏态测度从上式可以看到,它是离差三次方的平均数再除以标准差的三次方。当分布对称时,离差三次方后正负离差可以相互抵消,因而的分子等于0,则=0;当分布不对称时,正负离差不能抵消,就形成了正与负的偏态系数。当为正值时,表示正偏离差值较大,可以判断为正偏或右偏;反之,为负值时,表示负偏离差值较大,可以判断为负偏或左偏。偏态系数的数值一般在0与±3之间,越接近0,分布的偏斜度越小;越接近±3,分布的偏斜度越大。第六十页,共七十一页,编辑于2023年,星期六二、分布峰态测度
峰度(Kurtosis)是分布集中趋势高峰的形状,指次数分配曲线顶端的尖峭程度。在变量数列的分布特征中,常常将数分配曲线与正态曲线相比较,判断是尖顶还是平顶及其尖顶或平顶的程度。峰度通常分为三种:正态峰度、尖顶峰度与平顶峰度。当分配数列的次数比较集中于众数的位置,使次数分配曲线较正态分配曲线更为隆起的,属于尖顶峰度。当分配数列的次数,对众数来说比较分散,使次数分配曲线较正态分配曲线更为平滑的,属于平顶峰度。第六十一页,共七十一页,编辑于2023年,星期六二、分布峰态测度
测度峰度的方法一般运用统计动差法,即运用四阶中心动差与标准差的四次方对比,以此来判断各分布曲线峰度的尖平程度。公式如下:第六十二页,共七十一页,编辑于2023年,星期六二、分布峰态测度
峰度系数是统计中描述次数分布状态的又一个重要特征值,用以测定邻近数值周围变量值分布的集中或分散程度。它以四阶中心动差为测量标准,除以好是为了消除单位量纲的影响,而得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度智慧农业灌溉系统建设与运营管理合同4篇
- 2025年度二零二五版环保技术研发项目保证合同4篇
- 二零二五版二手房买卖合同中的物业费结算办法3篇
- 2025年度综合性消防安全设施维护保养服务协议4篇
- 2025年智能安置房租赁合同示范文本3篇
- 个人租车位简易协议合同 2篇
- 上海律协发布COVID(2024版)
- 个人劳务用工合同范本 2篇
- 2025年度池塘渔业资源增殖放流合作合同3篇
- 2025年度艺术品代持协议书3篇
- 2024年全国体育专业单独招生考试数学试卷试题真题(含答案)
- 北师大版小学三年级上册数学第五单元《周长》测试卷(含答案)
- DB45T 1950-2019 对叶百部生产技术规程
- 新修订《保密法》知识考试题及答案
- 电工基础知识培训课程
- 住宅楼安全性检测鉴定方案
- 广东省潮州市潮安区2023-2024学年五年级上学期期末考试数学试题
- 市政道路及设施零星养护服务技术方案(技术标)
- 《论语》学而篇-第一课件
- 《写美食有方法》课件
- (完整word版)申论写作格子纸模板
评论
0/150
提交评论