集中趋势和离中趋势的度量_第1页
集中趋势和离中趋势的度量_第2页
集中趋势和离中趋势的度量_第3页
集中趋势和离中趋势的度量_第4页
集中趋势和离中趋势的度量_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集中趋势和离中趋势的度量第一页,共九十三页,2022年,8月28日第五章集中趋势和

离中趋势的度量第一节集中趋势指标概述第二节数值平均数第三节位置平均数第四节离中趋势的度量第五节偏度与峰度-----略,自学第二页,共九十三页,2022年,8月28日数据分布的特征集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)第三页,共九十三页,2022年,8月28日数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态第四页,共九十三页,2022年,8月28日

集中趋势的测度一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较第五页,共九十三页,2022年,8月28日第一节

集中趋势指标概述第六页,共九十三页,2022年,8月28日第一节集中趋势指标概述一、集中趋势指标及其特点(一)概念集中趋势平均指标第七页,共九十三页,2022年,8月28日集中趋势

(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定第八页,共九十三页,2022年,8月28日(一)平均指标的概念是一种综合指标,是在同度质总体内将各单位数量差异抽象化,用以反映总体在一定时间、地点、条件下的一般水平.第九页,共九十三页,2022年,8月28日(二)特点1.是一个代表值,代表总体各个单位某一数量标志的一般水平;2.把某一数量标志在总体单位之间数值差异抽象化了.反映总体各单位标志值分布的集中趋势.是总体分布的重要特征值.第十页,共九十三页,2022年,8月28日二、作用1.比较分析作用2.说明事物的发展过程和变化趋势3.可以作为论断事物的一种数量标准或参考4.可以进行数量上的推断三、种类:包括算术平均数、调和平均数、几何平均数、中位数、分位数和众数.第十一页,共九十三页,2022年,8月28日第二节数值平均数第十二页,共九十三页,2022年,8月28日第一部分算术平均数(均值)第十三页,共九十三页,2022年,8月28日均值

(概念要点)1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据第十四页,共九十三页,2022年,8月28日一、算术平均数的基本公式

注意:分子、分母必须是属于同一总体的.

二、简单算术平均数---未分组资料应用条件:公式:第十五页,共九十三页,2022年,8月28日简单均值

(算例)原始数据: 10 5 9 13 6 8第十六页,共九十三页,2022年,8月28日三、加权算术平均数---分组资料设分组后的数据为:相应的频数为:公式:权数系数公式:

第十七页,共九十三页,2022年,8月28日加权均值

(算例)某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0【例】计算50名工人日加工零件数的均值第十八页,共九十三页,2022年,8月28日加权均值

(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:考试成绩(X): 020100

人数分布(F):118

乙组:考试成绩(X): 020100

人数分布(F):811X甲0×1+20×1+100×8∑f10Xf82(分)X乙0×8+20×1+100×1∑f10Xf12(分)第十九页,共九十三页,2022年,8月28日f-权数xf-加权注意:1.两种情况权数不起作用

第二十页,共九十三页,2022年,8月28日2.各组权数f是通过大小对平均数发生作用.《例》投资项目评估市场情况年利润(万元)(x)频率(%)(f/∑f)X(f/∑f)景气一般不景气200120505030201003610合计-100146第二十一页,共九十三页,2022年,8月28日3.xf要具有标志值总量的实际意义.《例》某公司所属企业资金利润率资金利润(%)组中值(%)企业数(个)企业资金(万元)-10-00-1010-2020-30-5515251053280100500800合计-201480第二十二页,共九十三页,2022年,8月28日均值

(数学性质)1. 各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小第二十三页,共九十三页,2022年,8月28日第二部分调和平均数一、概念:是各标志值倒数的算术平均数的倒数,又称倒数平均数.《例》关系:互为倒数

第二十四页,共九十三页,2022年,8月28日二、计算方法(一)简单调和平均数-适用未分组资料【例】工人劳动生产率水平正指标(件/小时)逆指标(分/件)ABCDE101215203065432第二十五页,共九十三页,2022年,8月28日【计算】1.根据正指标:2.根据逆指标:第二十六页,共九十三页,2022年,8月28日【公式】《教材P99例》总体2.223kg总体3.00kg适用于未分组资料或逆指标第二十七页,共九十三页,2022年,8月28日(二)加权调和平均数-分组资料时权数为特定形式:m=xf调和平均数可做为算术平均数的变形使用加权算术平均数的权数为f加权调和平均数的权数为m-各组标志总量一般应用于没有直接提供被平均值的相应单位数的场合.第二十八页,共九十三页,2022年,8月28日调和平均数

(概念要点)1. 集中趋势的测度值之一2. 均值的另一种表现形式3. 易受极端值的影响4. 用于定比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计算时使用了不同的数据!第二十九页,共九十三页,2022年,8月28日举例若P99例中,早市买180元,午市买160元,晚市买150元,求均价?则:基本思路:均价=花了多少钱÷买了多少菜第三十页,共九十三页,2022年,8月28日调和平均数

(算例)某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)

x成交额(元)m成交量(公斤)f(m/x)甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如下表,计算三种蔬菜该日的平均批发价格第三十一页,共九十三页,2022年,8月28日四、由相对数或平均数

计算平均数《例》P113表5-4某公司产值计划完成情况产值计划完成程度(%)组中值(%)x企业数(个)计划产值(万元)f实际产值(万元)xf80-9090-100100-110110-12085951051152310380025001720044006802375180605060合计—182490026175求:公司平均产值计划完成程度已知分母推算分子第三十二页,共九十三页,2022年,8月28日四、由相对数或平均数

计算平均数关键—确定谁是变量x(求谁谁是x)找出权数(根据x的内涵)如:x已知需推算第三十三页,共九十三页,2022年,8月28日《例》P113表5-4某公司产值计划完成情况产值计划完成程度(%)组中值(%)x企业数(个)实际产值(万元)m计划产值(万元)80-9090-100100-110110-12085951051152310368023751806050608002500172004400合计—182617524900求:公司平均产值计划完成程度已知分子推算分母第三十四页,共九十三页,2022年,8月28日x已知推算同一数据,两种计算方法结果完全相同,只是所采用的权类不同罢了.第三十五页,共九十三页,2022年,8月28日结论

根据基本公式(P105公式5.1):

己知分母推算分子时,用加权算术平均法;

己知分子推算分母时,用加权调和平均法第三十六页,共九十三页,2022年,8月28日第三部分几何平均数一、概念:n个变量值乘积的n

次方根集中趋势的测度值之一适用于特殊的数据,只适用于定比数据,定距数据不宜使用.

主要用于计算平均发展速度《例》毛坯车间粗加工车间精加工车间装配车间合格率:99%98%96.5%98.7%1009997.0293.62成品92.41第三十七页,共九十三页,2022年,8月28日二、计算方法(一)简单几何平均数-未分组资料如上例:可看作是均值的一种变形:几何平均数的对数是各变量值对数的算术平均.第三十八页,共九十三页,2022年,8月28日几何平均数

(算例)

【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%第三十九页,共九十三页,2022年,8月28日(二)加权几何平均数-分组资料时《例-P114例5-9》年利率(增长速度%)环比发展速度(%)时间(权数f·年)566.4105106108334第四十页,共九十三页,2022年,8月28日第三节位置平均数第四十一页,共九十三页,2022年,8月28日一、众数

(概念要点)集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据第四十二页,共九十三页,2022年,8月28日众数

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242第四十三页,共九十三页,2022年,8月28日定类数据的众数

(算例)某城市居民关注广告类型的频数分布

广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100【例】根据表中的数据,计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告第四十四页,共九十三页,2022年,8月28日定序数据的众数

(算例)【例】根据表中的数据,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0第四十五页,共九十三页,2022年,8月28日数值型分组数据的众数

(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.

该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo第四十六页,共九十三页,2022年,8月28日数值型分组数据的众数

(算例)某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.1】根据表中的数据,计算50名工人日加工零件数的众数第四十七页,共九十三页,2022年,8月28日

二、中位数

(概念要点)

集中趋势的测度值之一排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即第四十八页,共九十三页,2022年,8月28日中位数

(位置的确定)未分组数据:组距分组数据:第四十九页,共九十三页,2022年,8月28日未分组数据的中位数

(计算公式)第五十页,共九十三页,2022年,8月28日定序数据的中位数

(算例)【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:

300/2=150从累计频数看,中位数的在“一般”这一组别中。因此

Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—第五十一页,共九十三页,2022年,8月28日数值型未分组数据的中位数

(5个数据的算例)原始数据:

2422212620排序: 2021222426位置: 123 45中位数22第五十二页,共九十三页,2022年,8月28日数值型未分组数据的中位数

(6个数据的算例)原始数据:105 91268排序: 56891012位置: 123

4

56位置N+126+123.5中位数8+928.5第五十三页,共九十三页,2022年,8月28日根据位置公式确定中位数所在的组采用下列近似公式计算:4.

该公式假定中位数组的频数在该组内均匀分布数值型分组数据的中位数

(要点及计算公式)第五十四页,共九十三页,2022年,8月28日数值型分组数据的中位数

(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4】根据表中的数据,计算50名工人日加工零件数的中位数第五十五页,共九十三页,2022年,8月28日《补充》各种平均数的相互关系及应用原则一、算术平均数、调和平均数和几何平均数的关系根据同一资料计算的三种平均数的数量关系:《例》结论:-实证第五十六页,共九十三页,2022年,8月28日二、算术平均数、中位数和众数的关系决定于总体内部的次数分布状况(一)总体是对称钟形分布时对称分布

均值=中位数=众数x

12345f

12321【例】第五十七页,共九十三页,2022年,8月28日(二)总体是非对称钟形分布时同一组数据计算,三者之间存在差别,差别程度与非对称程度呈正比.原因?来自数据中的极端数值(极大值或极小值).均值受极端数值影响最大;

中位数受极端数值位置影响,但不受其数值影响;

众数则完全不受极端数值的影响.第五十八页,共九十三页,2022年,8月28日1.右偏态时:数据中存在极大值,必然拉动均值向极大值一方靠.【例】右偏分布众数

中位数

均值x

12345f

24321第五十九页,共九十三页,2022年,8月28日2.左偏态时:数据中存在极小值,必然拉动均值向极小值一方靠.【例】左偏分布均值

中位数

众数x

12345f

12342第六十页,共九十三页,2022年,8月28日《关系》在次数分布呈微偏斜情况下,(英)皮尔逊经验公式:试2/31/3【例】自动包装机包装某产品,质量标准1000克/袋,±3克.经实测,平均每袋为1001克,中位数为999克.试研究该包装机是否合格?解:第六十一页,共九十三页,2022年,8月28日数据类型与集中趋势测度值表4-4数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数※为该数据类型最适合用的测度值.第六十二页,共九十三页,2022年,8月28日三、平均指标的应用原则

(一)平均指标只能应用于同质总体(二)用组平均数补充说明总平均数(三)用次数分配资料补充说明总平均数《例》按计划完成%分组企业数计划数(万元)实际数(万元)100以下100100以上105550080050003008006000合计2063007100计划完成%为7100/6300=112.7%,但尚有10个企业没完成计划.第六十三页,共九十三页,2022年,8月28日第四节离中趋势的度量

—标志变异指标第六十四页,共九十三页,2022年,8月28日一、离中趋势数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值第六十五页,共九十三页,2022年,8月28日数据的特征和测度

(本章位置)第六十六页,共九十三页,2022年,8月28日标志变异指标的

概念和作用离中趋势指标(标志变异指标)的概念又称标志变动度,是反映总体各单位标志值差异程度的统计指标.反映总体各单位标志值分布的离中趋势.作用是衡量平均数代表性的尺度:标志变动度与平均数的代表性成反比关系.第六十七页,共九十三页,2022年,8月28日是反映社会经济活动过程均衡性的一个重要指标.

判断:实际完成数=计划数(均值)┅均衡实际完成数≠计划数(均值)┅不均衡【例】分析:甲车间均衡地完成全月生产计划.是统计分析的一个基本指标.种类车间计划完成%上旬中旬下旬全月甲乙31.716.733.333.335.050.0100.0100.0第六十八页,共九十三页,2022年,8月28日二、极差(全距)第六十九页,共九十三页,2022年,8月28日二、全距(极差)

(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据

.=组距分组数据R

最高组上限-最低组下限5.计算公式为第七十页,共九十三页,2022年,8月28日三、平均差

(概念要点及计算公式)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少5.计算公式为未分组数据组距分组数据第七十一页,共九十三页,2022年,8月28日平均差

(计算过程及结果)【例】根据表中的数据,计算工人日加工零件数的平均差某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计—50—312第七十二页,共九十三页,2022年,8月28日四、方差和标准差第七十三页,共九十三页,2022年,8月28日(一)方差和标准差的计算

(概念要点)1. 离散程度的测度值之一2. 最常用的测度值3. 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.3第七十四页,共九十三页,2022年,8月28日标准差的计算公式1.简单平均式—未分组资料2.加权平均式—分组资料(公式5.27)(公式5.28)第七十五页,共九十三页,2022年,8月28日总体方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式第七十六页,共九十三页,2022年,8月28日总体标准差

(计算过程及结果)某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5【例】根据表中的数据,计算工人日加工零件数的标准差第七十七页,共九十三页,2022年,8月28日样本方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!第七十八页,共九十三页,2022年,8月28日样本方差

自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为

n

时,若样本均值x

确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x

=5。当x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量第七十九页,共九十三页,2022年,8月28日样本方差

(算例)原始数据:10 591368第八十页,共九十三页,2022年,8月28日样本标准差

(算例)样本标准差原始数据:

10591368第八十一页,共九十三页,2022年,8月28日方差

(简化计算公式)样本方差总体方差第八十二页,共九十三页,2022年,8月28日二、方差

(数学性质)各变量值对均值的方差小于对任意值的方差设X0为不等于X的任意数,D2为对X0的方差,则第八十三页,共九十三页,2022年,8月28日标准化值

(概念要点和计算公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论