第四章 概括并描述数值数据_第1页
第四章 概括并描述数值数据_第2页
第四章 概括并描述数值数据_第3页
第四章 概括并描述数值数据_第4页
第四章 概括并描述数值数据_第5页
已阅读5页,还剩150页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学原理

第四章统计数据分布特征的测度Summarizing&DescribingNumericalData

第一节统计指标一、总量指标(绝对数指标)总量指标(绝对数)统计绝对数的计量单位

绝对数的统计方法统计绝对数的应用

二、相对指标(相对数指标)概念:统计绝对数是反映在一定时间、空间条件下某种现象的总体规模、总水平或总成果的统计指标,以绝对数形式表现。或者是说明总体单位总数目和总体单位某一数量标志值总和的指标。一、总量指标的概念和作用作用反映国情、国力和企事业单位人、财、物的状况;是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;是计算相对指标和平均指标的基础。二、统计绝对数的分类按反映总体内容分总体单位总数总体标志总数按反映的时间状态分时点数时期数二、相对数及其计量形式

(一)统计相对数的概念与作用1.概念:统计相对数是两个有联系的指标数值的比率,反映现象的相对数量特征。2.作用反映总体内在的结构特征;用于不同对象的比较评价;反映事物发展变化的过程和趋势。(二)统计相对数的计量形式1.无名数2.有名数二、几种主要的统计相对数(一)计划完成相对数1.计划完成相对数的概念及一般计算公式:计划完成相对数是经济现象在某一时间、某类指标的实际完成数与计划完成数对比,反映计划完成的程度。其基本计算公式为:计划完成相对数=×100%2.绝对数的计划完成相对数3.相对数的计划完成相对数4.对计划完成相对数的评价:对量多质高的现象,规定了最低限额,其计划完成相对数应该>100%才好,凡超过100%的部分即为超额完成任务。对量少质高的现象,规定了最高限额,其计划完成相对数应该<100%才好,100%与其数值之间的差额即为超额完成的任务。5.计划执行进度的检查6.中、长期计划完成情况的检查对中、长期计划完成程度的检查对中、长期计划提前完成时间的检查(二)结构相对数1.结构相对数的概念及计算公式结构相对数是在分组的基础上,将分组指标与总体指标对比,反映总体部分数值占总体全部数值的比重,常用百分数表示。总体各部分所占比重之和等于100%或1。计算公式如下:结构相对数=×100%反映事物质量和利用程度反映事物构成变化反映事物构成特征结构相对数的应用(三)比例相对数1.比例相对数的计算公式总体内部各个组成部分之间存在着一定的联系和协调关系。比例相对数是反映总体中各组成部分之间数量联系程度、协调平衡状况及比例关系的相对指标。其计算公式为:比例相对数=2.比例数的应用反映事物构成特征反映事物协调平衡关系(四)比较相对数

1.比较相对数的计算公式比较相对数可用来反映同类现象数量特征在不同空间条件下静态对比关系,是不同空间同一时间上同类指标对比的结果。比较相对数的计算公式为:比较相对数=2.比较相对数的应用比较相对数计算方法灵活,应用范围广泛。(五)强度相对数1.强对相对数的计算公式强度相对数是两个性质不同而有联系的统计绝对数之比,说明一种现象在另一种现象中的强度、密度和普遍程度。其计算公式为:强度相对数=2.强度相对数的应用反映客观事物发展的基本状况和质量。反映现象发展水平之间的差距。(六)动态相对数1.动态相对数的计算公式动态相对数是同一现象的同类指标在不同时间状态的对比,反映其发展变动方向和变动程度。通常我们把所有研究时间的指标称为报告期水平,把作为对比基础时间的指标称为基期水平,计算公式如下:动态相对数=×100%2.动态相对数的应用反映现象变动方向及变动程度。反映现象变动过程及变动规律。第二节分布集中趋势的测度(centraltendency)一、位置平均数1、众数2、中位数3、分位数二、数值平均数1、算术平均数2、几何平均数3、调和平均数4、切尾均值三、众数、中位数和均值的比较位置平均数一、众数(Mode)一组数据中出现次数最多的标志值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数对数值数据和类型数据均适用,但主要用于分类数据实际上,当标志的变化没有方向时(即“定类标志”),若存在均衡状态,则其理应为“最有可能出现的标志值”。众数

(不惟一性)无众数

原始数据:10591268一个众数

原始数据:659855多于一个众数

原始数据:252828364242确定众数的方法1、根据单变量数列确定众数2、根据组距数列确定众数根据单变量数列确定众数1.确定众数组2.确定相应的众数值单变量数列中包含总体单位最多的对应标志值就是众数某工地有50个工人,本周所得工资分布表,计算其众数按工资分组(元)工人数(人)(频数)比率(%)(频率)42464952586269768288951001212998942212424181816188442合计50100首先明确这是一个单变量数列其次找出众数组:58、62、76这三个数量标志对应的组就是众数组最后,由于对于单变量数列来说,其数量标志就是该组相应发生的变量值,所以众数值就是58、62、76根据组距数列确定众数1.根据组距数列确定众数只能得出近似值2.确定众数的方法包括两类:⑴组中值法⑵插补法组中值法:①找出众数组②计算众数组的组中值,该组中值就近似等于众数这种方法适用于同组内的数据分布比较均匀,组距不大的组距数列。插补法:①.找出众数组②.根据上限或者下限公式确定众数的值这种方法适用于数据分布不均匀的组距数列。计算(估计):公式某工地有50个工人,本周所得工资分布表,计算其众数按工资分组(元)工人数(人)(频数)比率(%)(频率)42-5050-5858-6666-7474-8282-9090-1004218896384361618126合计50100首先确定众数组:58-66这组人数最多由于存在组距,且分布不均匀,就按照组距数列的第二种方法计算。根据下限公式:62.92元根据上限公式:62.92元二、中位数 Median1. 用于度量数据的集中趋势(CentralTendency)2. 为排序序列的中间位置对应的值(InOrderedSequence)排序后处于中间位置上的值3. 不受极值的影响Me50%50%当标志的变化有方向时(即“定类标志”),若存在均衡状态,则其理应为“向两种方向变化的可能性相同的标志值”。确定中位数的方法(根据资料是否分组确定中位数)1.根据原始数据计算中位数2.根据单项数列计算中位数3.根据组距数列计算中位数根据原始数据确定中位数(资料未分组)1.将标志值按照大小进行排序2.按照(n+1)/2确定中位数的位置3.根据总体项数的奇偶性确定中位数的数值例题(expamle)【例】7个工人加工产品的日产量原始数据:6,6,4,8,9,15,12排序:4,6,6,8,9,12,15位置:,1,2,3,4,5,6,,7中位数

8

原始数据确定中位数的方法

(偶数数据的算例)【例】:8个工人加工产品的日产量原始数据:6,6,4,9,8,9,15,12排序:4,6,6,8,9,9,12,15位置:1,2,3,4,5,6,7,8计算中位数的位置为4.5中位数=8.5根据单项数列确定中位数1.累计次数2.按照n/2来明确中位数的位置3.根据位置确定相应的标志值为中位数某班21名学生,身高情况如下,求其中位数身高(cm)人数160216541705175618031851累计次数身高(cm)人数向上累计次数向下累计次数16022211654619170511151756171018032041851211中位数的位置:11对应的中位数为170cm根据组距数列确定中位数1.累计次数2.按照n/2来明确中位数的位置3.根据位置确定中位数所在组4.根据上限或者下限公式确定中位数的数值计算(估计):公式某工地有50个工人,本周所得工资分布表,计算其中位数按工资分组(元)工人数(人)(频数)比率(%)(频率)42~5050-5858-6666-7474-8282-9090-1004218896384361618126合计50100累计次数按工资分组工人数向上累积向下累积42-50445050-58264658-6618244466-748322674-829411882-90647990-10035031.累计次数:502.确定中位数的位置:253.确定中位数所在组:66-744.按照上限公式或者下限公式计算:67中位数的特点1.它表示中间位置的平均数,不受极端值的影响;2.中位数只使用了中间的观察值,因此它忽略了全部数据所显示的很多信息。三、分位数中位数实际上就是分位数的一种,它可以称为第五十个百分位数分位数的种类1.四分位数2.十分位数3.百分位数(一)、四分位数 Quartiles1. 用于度量数据的非集中趋势

MeasureofNoncentralTendency2. 把排序数据等分为四个区间Quarters3. 第i个四分位数的位置25%25%25%25%Q1Q2Q3定位点

Qi(ni

1)4四分位数4.它就是将数据等分为4份的三个数值,也可称为第二十五个、第五十个、第七十五个百分数。5.存在三个四分位数:第一四分位数:就是第二十五个百分数;第二四分位数:就是第五十个百分数;第三四分位数:就是第七十五个百分数四分位数的计算分为三种情况进行计算:1.单项数列的计算2.组距数列的计算3.未分组资料的计算单项数列的四分位数计算1.确定相应具体位置:M1(位置)=(n+1)/4;M3(位置)=3(n+1)/42.定位相应的具体标志值:如果是具体对应的位置就是该个体数值;如果是处于两个个体数值之间的位置,就是该两个个体数值的算术平均数。组距数列的四分位数计算1.第一四分位数的计算:式中:M41:四分位数L1:四分位数所在组的下限;Sm1-1:四分位数所在组以下的累积频率(次数)M1:四分位数所在组的频率(次数)i:四分位数所在组的组距n:总体次数2.第三四分位数的计算:式中:M43:第三四分位数L3:四分位数所在组的下限;Sm3-1:四分位数所在组以下的累积频率(次数)M3:四分位数所在组的频率(次数)i:四分位数所在组的组距n:总体次数未分组资料的四分位数计算1.对原始资料排序2.然后按照单项数列的计算方法进行计算。例题

(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789

例题

(10个数据的算例)【例】:10个家庭的人均月收入数据单数列:

660

75078085096010801250150016302000位置:1234

5678910

(二)、十分位数的计算式中:M101:十分位数L1:十分位数所在组的下限;Sm1-1:十分位数所在组以下的累积频率(次数)M10:十分位数所在组的频率(次数)i:十分位数所在组的组距n:总体次数数值平均数

当标志的变化有方向且可观测其变化程度时(即定距、定比标志),若存在均衡状态,则变化程度作为一种“作用力”将影响该均衡状态,其理应为“两个方向‘作用力’相等时的标志值”

。一、均值(算术平均数)Mean1. 用于度量数据的集中趋势(CentralTendency)2. 是最常见的集中趋势的度量3. 如同平衡点(BalancePoint)4. 易受极端数值(ExtremeValues)影响均值的计算1.它就是总体各单位标志值之和除以总体单位数所得的商。2.计算分为:简单算术平均数加权算术平均数⑴简单算术平均数1.把各单位的标志值相加,然后除以总体单位数。2.计算公式:式中:yi:表示总体各单位的标志值;(i=1,2,……)n:表示总体单位数⑵加权算术平均数1.根据分组情况,用各组标志值或者各组组中值乘以各组次数,相加得出总体标志总量,然后除以各组单位数之和。未分组的资料,就是变量值乘以对应的次数,相加得出总体量值,然后除以总体单位数。2.计算公式均值的数学性质1.各个标志值与算术平均数的离差和为零。2.各个标志值与算术平均数离差的平方和为最小值。3.算术平均数易受极端数值的影响。4.存在开口组时,确定组距就存在很大的主观性,从而导致最终的平均数值的代表性降低。下面是某工厂工人的日加工量,请计算工人加工数量的算术平均数。按照加工数量分组工人数80-90390-1007100-11013110-1205120-1302加权算术平均数

(例题分析)

某城市50个家庭住房面积算术平均数计算表组中值(频数(按按住房面积分组(平方米)组中值次数加权70以下70-9090-110110-130130以上6080100120140710189642080018001080840合计-----504940二、几何平均数

n个变量值乘积的

n次方根适用于比率数据的平均主要用于计算平均增长率可以看成是算术平均数的一种变形,是非线性关系的体现。它包括简单几何平均数和加权几何平均数几何平均数的除或者说开方,就是分配的意思。社会经济现象应用几何平均数的条件1.若干个比率或速度的乘积等于总比率或总速度2.相乘的各比率或速度不得为负值或零⑴简单几何平均数的计算计算公式:式中:G表示几何平均数y表示变量值n表示变量值的项数简单几何平均数

(例题分析)某企业生产某种产品要经过三个连续作业车间才能完成。若某月份第一车间粗加工产品的合格率为95%,第二车间精加工产品的合格率为93%,第三车间最后装配的合格率为90%,则该产品的企业合格率(即三个车间的平均合格率)为多少?采用简单几何平均法计算:x=95%*93%*90%(开三次方)=92.64%

⑵加权几何平均数的计算计算公式为:式中:G表示几何平均数y表示变量值f表示各组变量值的次数某企业贷款利率情况,请计算该企业10年的平均贷款利率。年利率年限本息率(%)62106751078210891109几何平均数的缺陷1.受到极端值的影响。2.应用范围狭小。主要用于计算平均比率或者平均速度。三、调和平均数1.各个体的数值倒数的算术平均数的倒数,故又称为倒数平均数2.它分为简单调和平均数和加权调和平均数。3.调和平均方法可以解决某些经济现象由于数量(购买量、销售量、产量)未知,无法直接计算加权平均数的困难,如大宗小商品的平均价格、农副产品收购的平均价格等。简单调和平均数H:调和平均数;n:总体次数;yi:个体数值加权调和平均数H:调和平均数;yi:个体数值;fi:各组的权数。例题菜场上有1元钱起售的蔬菜,若某人早上用1元钱买了一种蔬菜共3斤,每斤0.33元;中午降价时又用1元钱买了4斤,每斤0.25元;晚上削价处理时又用1元钱买了5斤,每斤0.2元,试问,某人早中晚各用1元钱购买的蔬菜平均每斤多少钱?这一问题根据不同的资料可用两种方法计算蔬菜的平均价格。(1)如已知早上买3斤、中午买4斤、晚上买5斤,又知价格分别为0.33元/斤、0.25元/斤、0.2元/斤,则可用加权算术平均数方法计算平均价格:x=xf/f=(0.33*3+0.25*4+0.2*5)/(3+4+5)=0.25(元/斤)(2)若已知早上买1元钱、中午买1元钱、晚上买1元钱,又知价格分别为0.33元/斤、0.25元/斤、0.2元/斤。这时由于每次购买的斤数未知,就不用加权平均方法,而要用调和平均方法计算其平均价格:x=(1+1+1)/(1/0.33+1/0.25+1/0.2)=3/12=0.25(元/斤)切尾均值切尾均值

(trimmedMean)

去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为n表示观察值的个数;α表示切尾系数,

数值平均数的优缺点1.优点:它对变量的每一个观察值都加以利用,它比位置平均数可以获得更多的信息。2.缺点:它使用了数据中的每一个观察值,因此计算麻烦,对极端值非常敏感。众数、中位数和均值的比较众数、中位数和均值的关系左偏分布均值

中位数

众数对称分布

均值=中位数=

众数右偏分布众数

中位数均值众数、中位数、均值的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用如果均值与中位数的大小大致相等时,就应选择均值作为平均数。如果二者存在很大差异,就应该选择更为合适的中位数,因为它更实际地描述了数据的中心

第二节分布离散程度的测算一、极差

(range)1.一组数据的最大值与最小值之差,又叫全距2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910R

=max(xi)-min(xi)计算公式为特点1.数据分散程度越大,其极差就越大。2.易受极端值的影响。二、内距

(Inter-QuartileRange,IQR)

1.也称四分位差2.第三四分位数与第一四分位数之差

内距=Q3

–Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性三、平均差(averagedeviation)1.总体中个体的标志值对总体的算术平均数的离差的绝对值的算术平均数。2.反映了总体中个体的变动程度。平均差越大,表明个体差异越大,进而说明平均数的代表性就越差。3.公式:平均差的计算1.简单平均法:针对未分组的原始资料;2.加权平均法:根据分组资料进行计算。简单平均法--例题分析某车间有两个生产组,各有10名工人,其日产量为:第一组:20222325252628262926第二组:14121824302431303330求各组的平均差,并说明其代表性。解:第一步:求总体的算术平均数第一组的平均数:x1=(20+22+23+25+25+26+28+26+29+26)/10=25第二组的平均数:x2=(14+12+18+24+30+24+31+30+33+30)/10=25第二步:求平均差第一组A.D.1=2第二组A.D.2=6.4第二组的个体变异比较大,其平均数的代表性比较差。加权平均法--例题分析按工资分组(元)工人数(人)(频数)比率(%)(频率)42~5050-5858-6666-7474-8282-9090-1004218896384361618126合计50100解,第一步:计算组距的组中值:46,54,62,70,78,86,95第二步,计算其加权算术平均数其结果为69.36第三步根据公式计算其平均差:10.27元平均差的特点1.它是衡量个体数值到平均数的平均距离的一种方法。2.如果是单项数列,其计算结果就为实际值;如果为组距数列,其计算结果就只能是近似值。四、方差和标准差

(VarianceandStandarddeviation)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012

x=8.3方差和标准差的种类1.总体方差和标准差2.样本方差和标准差二者区别就在于自由度的选择:样本方差的自由度为n-1。样本方差

自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n

时,若样本均值

x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则

x=5。当

x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量样本方差的自由度自由度取值为n-1的原因:1.自由度表明的是个体数值与算术平均数的差异信息,也就是误差的数量。由于个体数值比算术平均数小的误差绝对值和比其大的算术平均数的误差绝对值是相同的,所以有用的误差个数只有n-1个。2.从另一个角度来说,在样本均值确定后,n个数据中只有n-1个数据可以自由取值。3.从共线性角度分析,样本的算术平均数是样本中个体数值的一个线性组合,因此为了避免共线性,就要去除一个线性组合。方差的数学性质1.总体单位标志值与总体算术平均数的方差小于总体单位标志值与任意数值之间的方差。即总体单位标志值对其算术平均数的标准差最小。2.总体单位标志值的方差等于总体单位标志值平方的平均数减总体单位标志值平均数的平方。

方差、标准差的特点1.方差一般只是用来说明变化程度。它比较难以解释。2.通常大约2/3的观察值落在离均值一个标准差的距离内,几乎所有的观察值落在离均值两个标准差的范围之内。它是最常用的统计观察值离散度的方法。标准误差1.多个样本组均值计算得出的标准差。

2.它比标准差要小,原因在于均值中和了极端值的影响,而某个单一样本可能会出现很不正常的极端值,因此标准误差是比标准差更为精确的统计量。五、离散系数

(coefficientofvariation)1.离散系数是变异指标与其相应的算术平均数之比,实际它是一种消除平均数后的变异指标。2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较离散系数的种类1.极差系数:就是极差与其平均数的相比的相对指标。其公式如下:VR=(R/平均数)×100%2.内距系数:就是内距与其平均数的相比的相对指标。其公式如下:VM.D.=(M.D./平均数)×100%3.平均差系数就是平均差与其平均数的相比的相对指标。其公式如下:VA.D=(A.D./平均数)×100%4.标准差系数就是标准差与其平均数的相比的相对指标。其公式如下:Vσ=(σ/平均数)×100%

标准差与离散系数(有限总体参数)标准差与离散系数(样本估计量)离散系数--标准差系数计算

(例题分析)某管理局所属8家企业的产品销售数据企业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论