第四章数据特征的度量

上传人：6*** IP属地：湖北上传时间：2023-02-04 格式：PPT 页数：135 大小：1.10MB 积分：28 举报 版权申诉

已阅读5页，还剩130页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

*第4章数据特征的度量4.1总规模度量—总量指标4.2比较度量—相对指标4.3集中趋势的度量—平均指标4.4离散程度的度量—变异指标4.5成数的度量4.6偏态与峰度的度量*

统计数据经过统计整理后，可以汇总得到反映客观现象特征的一系列统计指标，这些统计指标都是总量指标。为进一步掌握数据分布的特征和规律，进行更深入的分析还需要在此基础上计算一系列的统计指标，以显示出现象在具体时间、地点条件下的相对水平、集中趋势和离中趋势等。*数据分布的特征集中趋势(位置)偏态和峰度（形状）离中趋势

(离散程度)*4.1总规模度量-总量指标

4.1.1总量指标的一般问题

4.1.2总量指标的种类

4.1.3总量指标的计算要求*一.概念总量指标是反映客观现象总体在一定时间、地点和条件下发展的总规模、总水平的统计指标。其表现形式通常是绝对数，所以也称为绝对指标。二.作用

1.总量指标是认识客观现象总体数量特征的起点，可以反映一个国家、地区、部门或单位的基本情况；2.总量指标是进行宏观调控、编制计划和实行社会经济管理的重要依据；3.总量指标是计算相对指标和平均指标的基础。

4.1.1总量指标的一般问题*一.总量指标按其反映现象总体内容的不同，分为总体单位总量和总体标志总量，简称为单位总量和标志总量。单位总量是指总体内所有单位的总个数，表示总体本身的规模大小。标志总量是指总体中各单位某一数量变量（标志）值的总和。

一个总体只能存在一个单位总量，而标志总量可有多个。

4.1.2总量指标的种类*二.总量指标按其反映客观现象的时间状态不同，可分为时期指标和时点指标。时期指标指反映某种现象在一段时期内发展过程的累积结果的总量指标。时期指标的指标值可以累计相加，其数值的大小和时期的长短有直接关系，一般通过连续调查汇总求得；时点指标是反映现象在某一时刻（或瞬间）上所处状况的总量指标。时点指标的数值不能累计相加，其数值的大小和时点的间隔长短没有直接关系，一般通过一次性调查取得。

*例：指出下列指标哪些是时期指标，哪些是时点指标。

1、2007年旅游入境人数

2、2007年全国出生人数

3、2007年全国人口数

4、2007年末银行存款余额

5、2007年末商品库存量时期时期时点时点时点*1.实物量指标（1）定义：实物量指标是根据事物的自然属性或物理属性而采用自然单位、度量衡单位、标准实物单位和复合单位计算的总量指标。（2）计量单位：自然单位：按被研究现象的自然状态计量的单位。如人口以“人”为单位，汽车以“辆”为单位。度量衡单位：根据国内或国际上通行的度量衡制度对现象进行计量的单位。如粮食以“吨”为单位，棉布以“米”为单位。三.总量指标按采用的计量单位不同，分为实物量指标、价值量指标和劳动量指标。*标准实物单位：在同一性质或同一用途的产品中挑选一种产品作为标准产品,其它产品则按照一定的换算系数换算为以标准产品的实物单位来表示的一种计量单位。如能源以“标准煤”为单位。复合单位：把两种或两种以上的单位结合起来度量数量的单位。如货运量“吨公里”为单位。用来反映用一种计量单位较难准确反映其使用价值的现象。（3）优缺点：优点：可以直接反映事物的使用价值或现象的具体内容；缺点：综合性较差，无法进行汇总。*2.价值量指标（1）定义：用货币作为计量单位反映社会物质财富和劳动成果的总量指标。（2）优缺点：优点：具有最广泛的综合性和概括能力；缺点：掩盖了事物的使用价值，比较抽象；有些现象不能用货币单位计量（人口、自然资源）；将实物指标过渡到价值指标需要借助于价格，价格的选择是个需要注意的问题，不同时期的价值量指标需要剔除价格变动的影响。*3.劳动量指标（1）定义：是用劳动时间为计量单位计算的总量指标，常用的劳动量单位有工日、工时等，它也是一种复合计量单位。（2）作用：分析劳动资源和劳动时间的利用程度；编制和检查生产作业计划的依据；为核算企业工人工资和劳动生产率提供依据，一般只在企业使用。*1.明确总量指标的含义和范围；

2.计算实物量指标时，要注意现象的同类性；3.同一总量指标尽量使用统一的计量单位。

4.1.3总量指标的计算要求*4.2比较度量-相对指标

4.2.1相对指标的一般问题

4.2.2相对指标的表现形式

4.2.3相对指标的种类和计算方法

4.2.4计算和运用相对指标应注意的问题*

总量指标可以综合反映客观现象的总规模、总水平，但不宜深入说明事物发展的程度和差别，也不能直接反映事物间数量联系的程度。很多情况下，都需要将有关指标联系起来进行比较，计算各种相对指标，才能对计划完成与否、工作质量好坏、经济效益高低、事物发展速度快慢等作出有效的判断。比较度量-相对指标*一.概念相对指标又称统计相对数，是两个有联系的统计指标的比值，用以反映现象之间的数量对比关系。二.作用

1.反应现象之间的相对水平和联系程度；2.将现象的绝对差异抽象化，使不能直接对比的现象找到可以对比的基础，有助于鉴别事物和分析事物。

4.2.1相对指标的一般问题*相对指标的数值有无名数和有名数两种表现形式：1、无名数无名数是一种抽象化的计算单位，多用系数、倍数、成数、百分数、千分数、翻番数等表示。2、有名数有名数是一种有具体计量单位的数值，多表现为复名数。一般是将对比的分子指标数值与分母指标数值的计量单位加以综合以双重计量单位表示。

4.2.2相对指标的表现形式*

一、种类计划完成程度相对指标—检查、监督计划执行情况

结构相对指标—反映总体内部的构成比例相对指标—反映总体各部分之间的比例关系比较相对指标—评价不同单位的实力、优劣强度相对指标—反映现象强度、密度和普遍程度动态相对指标—反映现象发展变化的程度

4.2.3相对指标的种类和计算方法*二.相对指标的计算方法（一）结构相对指标

结构相对指标就是在统计分组的基础上，将总体中某一部分数值与总体全部数值对比得到的相对指标。用来反映总体内部构成情况。*第六次人口普查数据2010年全国第六次人口普查数据现实，全国总人口为1370536875人，其中，大陆31个省、自治区、直辖市和现役军人人口为1339724852人；香港特别行政区人口为7097600人；澳门特别行政区人口为552300人；台湾地区人口为23162123人；大陆31个省、自治区、直辖市和现役军人的人口中，男性人口为686852572人，占51.27%；女性人口为652872280人，占48.73%；

0-14岁人口为222459737人，占16.60%；15-59岁人口为939616410人，占70.14%；60岁及以上人口为177648705人，占13.26%，其中65岁及以上人口为118831709人，占8.87%；*

具有大学(指大专以上)文化程度的人口为119636790人；具有高中(含中专)文化程度的人口为187985979人；具有初中文化程度的人口为519656445人；具有小学文化程度的人口为358764003人(以上各种受教育程度的人包括各类学校的毕业生、肄业生和在校生)；文盲人口(15岁及以上不识字的人)为54656573人；

居住在城镇的人口为665575306人，占49.68%；居住在乡村的人口为674149546人，占50.32%。*理解：结构相对数是在统计分组的基础上进行的计算；一般用百分数、系数或成数表示；分子、分母不能调换；各组的比重之和为100%或1。*（二）比例相对指标

比例相对指标是同一总体中各组成部分之间数值对比得到的相对指标。用以反映总体各组成部分之间的比例关系和协调平衡程度。[例]

我国第六次人口普查结果表明，男性人口为686852572人，女性人口为652872280人，则*理解：强调同一总体内的部分与部分数值的比较；对比的结果表示所研究总体中的一部分与另一部分的比例关系，用以研究现象的比例是否合理、协调；分子、分母可以调换。*（三）比较相对指标

比较相对指标是不同空间（单位、地区、企业、国家等）同一时间的同一指标数值对比得到的相对数。说明某一现象在不同空间的差异情况。其计算公式为：[例]2011年山东省GDP为45361.85亿元，同期广东省为53210.28亿元，西藏自治区为605.83亿元，则山东省GDP为广东省的85.25%，为西藏自治区的74.88倍。*理解：比较相对数强调的是不同总体（或不同空间）同一指标数值的比值；分子、分母可以调换；计算结果可说明某现象在各单位发展的不平衡程度；经常与同行业先进水平、先进地区进行比较。*（四）强度相对指标

[例]2011年我国的国内生产总值为472881.6亿元亿美元，全国年平均人口数为134735万人，则人均国内生产总值为35181元/人。强度相对指标是两个性质不同但又有一定联系的指标数值对比得到的相对指标。用来表明现象的强度、密度和普遍程度。*理解：

是不同类现象的对比；是惟一有单位的相对数；反映一种现象在另一种现象中的普遍程度的强度相对指标，其分子分母可以互换，即采用正算法计算正指标，采用倒算法计算逆指标：正指标：指标数值大小与现象的发展程度或密度成正向变化；逆指标：指标数值大小与现象的发展程度或密度成反向变化。*【例】某市人口数为158000人，有零售商店790个，则

该市零售商业网点密度是：

正指标＝零售商业网点数∕人口数＝790∕158＝5（个∕千人）

逆指标＝人口数∕零售商业网点数＝158000∕790＝200（人∕个）*计划完成程度相对指标简称计划完成相对数，指一定时期某一事物的实际完成数与计划数之比，用来检查、监督计划执行情况。

计划完成程度指标的分子是根据实际完成情况进行统计而得的数据，分母是下达的计划指标。由于计划数总是用来衡量计划完成情况的标准，所以该公式的分子和分母不能互相换算。公式的分子数值减分母数值则表明计划执行的绝对效果。（五）计划完成程度相对指标1、概念*2、计算。（1）计划数为总量指标：[例]某企业2008年的计划产值为1200万元，实际完成产值为1350万元，则*（2）计划数为相对指标：

[例]某企业2008年计划产值比2007年提高10%，实际产值提高了15%；同时，计划规定单位产品成本比上年降低4%，实际降低了6%。则*产值计划完成程度若大于100％，说明超额完成计划；若小于100％，说明没有完成计划，为正指标。

单位成本计划完成程度若大于100％，说明成本比计划高，没有完成计划；若小于100％，说明成本比计划降低，超额完成计划，为逆指标。*[例]某企业计划工人劳动生产率为800元/人.天，实际为920元/人.天，则（3）计划数为平均指标：

*（六）动态相对指标

[例]

我国原油产量2010年为14764万吨，2011年为16074.1万吨，则指同一指标数值在不同时期的对比，用以反映事物发展变化的程度。通常把用来作为比较基础的时期称为“基期”，把用来与基期对比的时期称为“报告期”或“计算期”。程度。*理解：

动态是时间上的发展，动态相对数是同一总体不同时间同一指标的对比，又称发展速度；计算结果表示同类事物的水平报告期相对基期的发展变化程度。*不同时期比较动态相对数强度相对数不同现象比较不同总体比较比较相对数同一总体中部分与总体比较部分与部分比较实际与计划比较结构相对数比例相对数计划完成相对数同一时期比较同类现象比较相对指标的比较*

1、可比性原则：严格保持对比两指标的可比性是计算和运用相对指标的基本要求。

2、多种相对指标结合运用的原则。

3、同总量指标结合运用的原则。

4.2.4计算和运用相对指标应注意的问题*4.3集中趋势的度量-平均指标

4.3.1平均指标的一般问题

4.3.2算术平均指标

4.3.3调和平均指标

4.3.4几何平均指标

4.3.5中位数与分位数

4.3.6众数

4.3.7平均指标之间的关系*一组数据向其中心值靠拢的倾向和程度；测度集中趋势就是寻找数据一般水平的代表值或中心值；不同类型的数据用不同的集中趋势测度值；低层次数据的集中趋势测度值适用于高层次的测量数据，但高层次数据的集中趋势测度值并不适用于低层次的测量数据。集中趋势

(Centraltendency)*一.平均指标的概念平均指标又称平均数，用以反映总体各单位某一标志值在一定时间、地点、条件下所达到的一般水平。平均指标的特点在于它把总体各单位标志值的差异抽象化了，它可能与各单位所有标志值都不相同，但又作为代表值来反映这些单位标志的一般水平，具有代表性和抽象性的特点。

4.3.1平均指标的一般问题*二.平均指标的种类平均指标数值平均数位置平均数算术平均数调和平均数几何平均数中位数众数按计算方法不同按反映时间状态不同静态平均数动态平均数*算术平均数是最常用的平均指标:易受极端值的影响；用于数值型数据，不能用于分类数据和顺序数据。算术平均数是总体标志总量与总体单位总量之比：

4.3.2算术平均数（arithemeticmean)一.概念*1、简单算术平均数:每个标志值只出现一次，适合于未分组资料。

[例]某生产班组有10个工人，某种零件的日产量为：15、17、18、20、22、25、27、28、29、30件，则工人平均日产量为：二.种类与计算*2、加权算术平均数：根据分组数据计算算术平均数，就要以各组变量值出现的次数为权数计算加权算术平均数：*（1）单项式分组情况下计算算术平均数[例]假如某车间150名工人装配同一种电子仪器，其日装配量如表所示：*（2）组距式分组情况下计算算术平均数

*（3）权数的意义和作用加权算术平均数的权数除了可以用绝对数形式的频数表示外，还可以用相对数形式的频率表示。此时的加权算术平均数计算公式为：*从加权算术平均数的计算公式可以看出，加权算术平均数的大小不仅受各组变量值的影响，还受各组频数的影响。频数多的标志值对平均数的影响大一些，频数少的标志值对平均数的影响要小一些。频数的多少对算术平均数的大小起着一种权衡轻重的作用，所以这里的频数或次数称为权数；当各组标志值出现的频数相等时，权数就失去了权衡轻重的作用，则加权算术平均数可简化为简单算术平均数：*（4）权数的选择问题。在实际应用加权算术平均数时，需要注意权数的选择。这在各组变量值是相对数或平均数时经常遇到，下面举例说明。

选择相对数或平均数的分母作为权数*（5）算术平均数与强度相对数的区别子项指标与母项指标的关系不同：平均指标是在一个同质总体内标志总量和单位总量的比例关系；强度相对指标的分子分母是两个不同总体的总量指标。算术平均数的子项指标随着母项指标的变动而变动，它要求标志总量和单位总量相适应，即标志总量必须是总体各单位标志值的总和；而强度相对指标不存在此适应性问题。请回答下面两个指标哪个是算术平均数，哪个是强度相对数？工人平均工资家庭人均收入*

a、各变量值与其算术平均数的离差之和等于零

b、各变量值与其算术平均数的离差平方和最小

（6）算术平均数的数学性质*调和平均数是各标志值倒数的算术平均数的倒数，又称倒数平均数；与算术平均数的区别仅是因为获得的资料不同而计算方法上的差异，其实质是一样的，因此常作为算术平均数的变形来使用。4.3.3调和平均数

（harmonicmean)*1、简单调和平均数。其计算公式为：

[例]设市场上某种蔬菜早市每公斤2.2元，午市每公斤2.0元，晚市每公斤1.8元，若早、中、晚各买1元钱蔬菜，平均每公斤蔬菜的价格是多少？*2、加权调和平均数

其计算公式为：其中，表示第i组的标志值，为第i组的权数（即标志总量）。*根据上表计算平均批发价格时，无法直接采用加权算术平均法，而应用调和平均法，即：平均价格＝成交额∕成交量＝∑m／(∑m／x)＝36900／48000＝0.769（元）例：某蔬菜批发市场三种蔬菜的日成交数据如下表，计算三种蔬

菜该日的平均批发价格。

*平均价格＝成交额∕成交量＝∑xf／∑f

＝36900／48000＝0.769（元）

如果已知的数据不是成交额数据而是成交量（如下表）*3、算术平均与调和平均的应用条件比较算术平均数和调和平均数在本质上是一致的，唯一的区别是计算时使用了不同的数据。在实际应用时，当计算公式中分子资料未知时，就采用算术平均计算平均指标；分母资料未知时，就采用调和平均计算平均指标。**n个变量值乘积的n次方根；适用于特殊的数值型数据；主要用于计算平均比率和平均发展速度。4.3.4几何平均数

(geometricmean)*1、简单几何平均数适合于未分组数据资料，计算公式为：〔例〕某企业生产某种产品要经过三个连续作业车间才能完成。若某月份第一车间粗加工产品的合格率为95％，第二车间精加工产品的合格率为93％，第三车间最后装配的合格率为90％，则该产品的企业合格率（三个车间的平均合格率）为多少？

*解：由已知数据可知，各年与前一年相比的比值(即发展速度)分别为109％、116％、120％，则平均发展速度为：

即平均增长速度为14.91%。[例]某水泥厂2004年的水泥产量为100万吨，2005年与2004年相比增长率为9％，2006年与2005年相比增长率为16%，2007年与2006年相比增长率为20％。求各年的年平均增长率。*2.加权几何平均数适合于分组数据资料，计算公式为：这个公式两边取对数，则为：**3.几何平均数的特点适合于反映特定现象的平均水平，即现象的总标志值不是各单位标志值的和，而是各单位标志值的积。如果数列中有一个标志值等于0或负值，就无法计算几何平均数。几何平均数受极端变量值的影响，较算术平均数和调和平均数小。*根据同一组数据计算，算术平均数最大，调和平均数最小，几何平均数居中；当各数据完全相等时，三者相等；现实中，要根据社会经济现象中客观存在的数量关系选择使用。就是说，适宜用算术平均数计算的，就不要用调和平均数和几何平均数；反之，亦然。

各数值平均指标之间的关系*1.排序后处于中间位置上的值Me50%50%2.不受极端值的影响；3.主要用于顺序数据，也可用数值型数据，但不能用于分类数据。4.3.5中位数

（median）*一、顺序数据的中位数【例】根据表中的数据，计算甲城市家庭对住房满意状况评价的中位数.解：中位数的位置为：

301/2＝150.5从累计频数看，中位数在“一般”这一组别中。因此

Me＝一般*二.数值型数据的中位数确定1.未分组数据中位数的确定*原始数据: 2422212620排序: 2021222426位置:123 45中位数22例：N为奇数*原始数据:105 91268排序: 56891012位置: 123

56位置N+126+123.5中位数8+928.5例：N为偶数*2、单项式分组数据的中位数*3、组距式分组数据的中位数其中：分别表示中位数所在组的下限、上限；表示总频数；表示中位数所在组以下各组的累计频数；表示中位数所在组以上各组的累计频数；为中位数所在组的频数；为中位数所在组的组距。*【例】根据表中的数据，计算50名工人日加工零件数的中位数：*1. 排序后处于25%和75%位置上的值—四分位数2.不受极端值的影响3.主要用于定序数据，也可用于数值型数据，但不能用于定类数据QLQMQU25%25%25%25%4.3.6四分位数

（percentile）*四分位数

(位置的确定)未分组数据：分组数据：下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4*定序数据的四分位数【例】根据表中的数据，计算甲城市家庭对住房满意状况评价的四分位数解：下四分位数(QL)的位置为：

QL位置＝(300)/4＝75

上四分位数(QL)的位置为：

QU位置＝(3×300)/4＝225从累计频数看，QL在“不满意”这一组别中；QU在“一般”这一组别中。因此

＝不满意

＝一般*数值型未分组数据的四分位数原始数据:

2321 3032 282526

排序:2123

2526283032

位置:1 23 45677+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QL=23QU=

30N+1*数值型未分组数据的四分位数原始数据:

232130 282526排序:212325262830位置:12 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5*

数值型组距式分组数据的四分位数*其中：表示下四分位数所在组的下限；表示上四分位数所在组的下限；为小于下四分位数所在组的各组的频数之和；为小于上四分位数所在组的各组的频数之和；分别为下四分位数和上四分位数所在组的频数；为总频数；为组距。*数值型组距式分组数据的四分位数QL位置＝50/4＝12.5QU位置＝3×50/4＝37.5【例】根据第三章表中的数据，计算50名工人日加工零件数的四分位数*出现次数最多的变量值；不受极端值的影响；可能没有众数或有几个众数；主要用于分类数据，也可用于顺序数据和数值型数据。4.3.7众数

（mode）*众数

(不唯一性)

无众数

原始数据:10591268

一个众数

原始数据:65

9855

多于一个众数

原始数据:252828

364242*分类数据的众数【例】根据表中的数据，计算众数解：这里的变量为“广告类型”，这是个定类变量，不同类型的广告就是变量值。我们看到，在所调查的200人当中，关注商品广告的人数最多，为112人，占总被调查人数的56%，因此众数为“商品广告”这一类别，即：Mo＝商品广告*顺序数据的众数【例】根据第三章表中的数据，计算众数解：这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多，为108户，因此众数为“不满意”这一类别，即

Mo＝不满意*

数值型分组数据的众数单项式分配数列即出现次数最多的变量值即是众数。2.组距式分配数列众数的确定与相邻两组频数的分布有关MoMoMo*其中：表示众数；分别表示众数所在组的下限、上限；表示众数所在组的频数与前一组频数之差；表示众数所在组的频数与后一组频数之差；表示众数所在组组距。

**对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值

4.3.8平均指标之间的关系**[例]：根据某城市住户家庭人均月收入的抽样调查资料计算的众数为1040元，中位数为1128.57元，问平均数为多少？分布呈何形态？说明该城市住户家庭月收入分布呈右偏态分布。也说明收入分配中算术平均偏向高端，多数居民家庭收入低于算术平均数。*平均数易受极端值影响数学性质优良，实际中最常用数据对称分布或接近对称分布时代表性较好中位数不易受极端值影响数据分布偏斜程度较大时代表性较好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好*4.4离散程度的度量-变异指标

4.4.1变异指标的一般问题

4.4.2变异指标的种类和计算

*引例某车间两个生产小组，每组各有10个工人，每个工人日产零数如下：第一组：20、22、23、25、26、26、26、26、28、29第二组：12、14、18、24、28、30、30、30、31、32

两个组工人平均日产零件数都是25件，但第一组工人日产零件数相对比较整齐，第二组工人产量参差不齐，差异较大。*1、概念变异指标又称标志变动度，综合反映总体各单位变量值的差异程度或离散程度。2、作用反映总体各单位变量值分布的离中趋势；可以说明平均指标对总体各单位变量值的代表性程度；可以说明现象变动的均匀性或稳定性程度；3、类型变异指标主要有：异众比率、四分位差、全距、平均差、方差和标准差以及变异系数。这些指标计算方法不同，涵义不同，因此应用场合也不同。

4.4.1变异指标的一般问题*1.非众数组的频数占总频数的比率，表示众数的代表性大小；2.计算公式为：4.4.2异众比率(variationratio)*解：在所调查的50人当中，购买其他品牌饮料的人数占70%，异众比率比较大。因此，用“可口可乐”代表消费者购买饮料品牌的状况，其代表性不是很好。*4.4.3四分位差(quartiledeviation)1.上四分位数与下四分位数之差，也称内距或四分位间距，反映了中间50%数据的离散程度，其计算公式为：

=QU–

QL2.不受极端值的影响；3.主要用于衡量中位数的代表性。*4.4.4全距/极差(Range)1.一组数据的最大值与最小值之差；2.只能粗略反映总体的变动幅度或范围；3.易受极端值的影响；未分组数据R

=max(Xi)-min(Xi).=组距式分组数据R

最高组上限-最低组下限4.计算公式为：*4.4.5平均差(Averagedeviation)1.各变量值与其算术平均数离差绝对值的算术平均数；2.能全面反映一组数据的离散程度；3.数学性质较差，实际中应用较少。4.

计算公式为未分组数据

组距分组数据*【例】根据表中的数据，计算工人日加工零件数的平均差*4.4.6方差和标准差

(Variationandstandarddeviation)1.方差是各变量值与其算术平均数离差平方的算术平均数，标准差是方差的平方根；

2.最常用的离散程度测度值；

3.反映了各变量值与均值的平均差异。

*计算公式未分组数据：组距分组数据：未分组数据：组距分组数据：方差的计算公式标准差的计算公式*【例】根据表中的数据，计算工人日加工零件数的标准差*方差的简便计算未分组资料：分组资料：**相对位置的度量：标准分数

(standardscore)1.给出某一个值在一组数据中的相对位置；2.可用于判断一组数据是否有离群点；3.用于对变量的标准化处理；4.计算公式为：*标准分数的性质1.均值等于0：2.方差等于1：*

标准化值*经验法则经验法则表明：当一组数据为正态分布时，约有68.27%的数据在平均数加减1个标准差的范围之内；约有95.45%的数据在平均数加减2个标准差的范围之内；约有99.73%的数据在平均数加减3个标准差的范围之内。*切比雪夫不等式

(Chebyshev’sinequality)如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用；切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少”；对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值，但不一定是整数。*对于k=2，3，4，该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内；至少有89%的数据落在平均数加减3个标准差的范围之内；至少有94%的数据落在平均数加减4个标准差的范围之内。*一群牛的平均体重是180公斤，标准差是18公斤；一群羊的平均体重是15公斤，标准差是3公斤，能不能说羊的平均体重的代表性高些？为什么？

4.4.7比较多组数据的离散程度：

变异系数*

1.标准差与其相应的均值之比；

2.消除了数据水平高低和计量单位的影响；

3.测度了数据的相对离散程度；

4.用于对不同数据离散程度的比较；

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第四章数据特征的度量

文档简介

温馨提示

最新文档

评论

第四章数据特征的度量

文档简介

温馨提示

最新文档

评论

相关文档