统计学第四章数据的描述性分析_第1页
统计学第四章数据的描述性分析_第2页
统计学第四章数据的描述性分析_第3页
统计学第四章数据的描述性分析_第4页
统计学第四章数据的描述性分析_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章数据的描述性分析本章内容一、 集中趋势的描述二、 离散程度的描述三、 分布的偏态与峰度集中趋势的描述数值平均数1. 算术平均数2. 调和平均数3. 几何平均数集中趋势的描述位置平均数1. 中位数2. 众数对比离散程度的描述绝对指标1. 极差与四分位差2. 平均差3. 标准差与方差相对指标离散系数离散程度的描述数据标准化分布的偏态与峰度原点距中心距分布的偏态与峰度分布的偏态分布的峰度集中趋势 集中趋势(central tendency)是一组数据向其中心靠拢的倾向。测定集中趋势就是寻找数据一般水平的代表值或中心值。集中趋势往往使用平均指标来测度 算术平均数 算术平均数(arithmetic

2、 mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。 x对应的个体总数某数量标志的总和算术平均数 简单算术平均数简单算术平均数加权算术平均数加权算术平均数分组数据分组数据算术平均数的数学性质算术平均数的数学性质 简单算术平均数简单算术平均数nxnxxxxniin121.加权算术平均数加权算术平均数分组niiniiinnnffxffffxfxfxx11212211. 某厂某车间某厂某车间2020名工人加工某种零件的产量资料如下:名工人加工某种零件的产量资料如下:- -单项式变量分布数列单项式变量分布数列 2020名工人零件生产数量分组资料名工人零件生产数量分组资料按

3、日产量分组(件)x工人人数(人)f总产量(件)xf14151617182485128601288518合计20319加权算术平均数权数组距式组距式加权均值(权数对均值的影响) 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组:甲组: 考试成绩(考试成绩(x ): 0 20 100 人数分布(人数分布(f ):):1 1 8 乙组:乙组: 考试成绩(考试成绩(x ): 0 20 100 人数分布(人数分布(f ):):8 1 1选择-4权数 次数次数f f的作用:当变量值比较大的次数多时,平均数就接近于变量的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小

4、的次数多时,平均数就接近于变量值小的一值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。此被称为权数。有时权数也用比重(频率)来表示有时权数也用比重(频率)来表示11niiniiifxxf算术平均数的数学性质算术平均数的数学性质各变量值关于算术平均各变量值关于算术平均数的偏离,在平方的意数的偏离,在平方的意义下达到最小义下达到最小1()0niiixxf21()minniiixxf调和平均数 调和平均数(harmonic mean)是各变量值

5、倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用 表示。简单调和平均数简单调和平均数加权调和平均数加权调和平均数调和平均数是算术平均数的变形调和平均数是算术平均数的变形 hx调和平均数 某蔬菜批发市场三种蔬菜的日成交量数据如下,计算三种蔬菜该日的平均批发价格。蔬菜名称批发价格(元)x成交量(公斤)f甲乙丙1.200.500.8015000250008000合计-48000369000.76948000iiix fxf(元)算术平均数算术平均数调和平均数 若已知成交额,未知成交量,资料如下:若已知成交额,未知成交量,资料如下:蔬菜名称蔬菜名称批发价格批发价格(元

6、元)x成交额成交额(元元)m甲甲乙乙丙丙1.200.500.8018000125006400合计合计-36900369000.76948000ihiimxmx(元)加权调和平均数加权调和平均数1211121112.1.hnniiniinnniiiiniimmmmmxmmmmmxxxxx变量值倒数变量值倒数简单调和平均数简单调和平均数niinxnxxxnxh12111.11调和平均数是算术平均数的变形调和平均数是算术平均数的变形1111iiihnnmletfiiixiinniiiiimx fxxmfx调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式也可以互推几

7、何平均数 几何平均数(geometric mean)是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均,当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。 简单几何平均数简单几何平均数加权几何平均数加权几何平均数gx简单几何平均数简单几何平均数nniinnxxxxxg121.案例:案例:某水泥厂某水泥厂19951995年的水泥产量为年的水泥产量为100100万吨,万吨,19961996年与年与19951995年年相比增长率为相比增长率为9 9,19971997年比年比19961996相比增长率为相比增长率为6 6,19981998年比年

8、比19971997年相比增长率为年相比增长率为2020,求这三年的年平均增长率,求这三年的年平均增长率319951995(19%)(16%)(120%)(1)yyr简单几何平均数简单几何平均数案例2:一位投资者在1996年初买进一种股票,1996,1997,1998,1999这四年的收益率分别为4.5,2,3.5,5.4,计算该投资者在这四年内的平均收益率r419961241996(1)(1).(1)(1)yrrryr41241(1)(1).(1)rrrr4124(1)(1).(1)1rrrr简单几何平均数简单几何平均数nniinnxxxxxg121.6126ap ppap加权几何平均数加权几

9、何平均数ffniiffffnffginnxxxxx1.212121.4551419901990(110.2% ) (18.7% ) (19.6% )(1)yyr初初位置平均数1. 中位数2. 众数中位数 中位数(median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。由未分组数据确定中位数由未分组数据确定中位数由单项数列确定中位数由单项数列确定中位数em分位数数值型未分组数据的中位数 (5个数据的算例)原始数据原始数据: 24 22 21 26 20排排 序序: 20 21 22 24 26位位 置置: 1 2 3 4 5321521n位置数值型未分组数据的中位数 (

10、6个数据的算例)原始数据原始数据: 10 5 9 12 6 8排排 序序: 5 6 8 9 10 12位位 置置: 1 2 3 4 5 6由未分组数据确定中位数由未分组数据确定中位数 对未分组数据资料,需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。21n当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。 例: 7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。 例: 2、5、7、8、11、12 未分组数据的中位数(计算公式)为偶数时当为奇数时当nxxnxmnnne1222121分组数据确定中位数分组

11、数据确定中位数-单项式,组距式单项式,组距式( (见分位数)见分位数)由单项数列确定中位数由单项数列确定中位数l按公式 确定中位数的位置l并对照累计次数确定中位数。211niif由单项数列确定中位数由单项数列确定中位数 先计算各组的累计次数,再按公式 确定中位数的位置,并对照累计次数确定中位数。211niif分位数 三个数值可以将变量数列划分为项数相三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数等的四部分,这三个数值就定义为四分位数(quartiles)(quartiles)。九个数值可以将变量数列划分为项数相等的十部九个数值可以将变量数列划分为项数相等的十部分,这九

12、个数值就定义为十分位数分,这九个数值就定义为十分位数 (dectile)(dectile)9999个数值可以将变量数列划分为项数相等的个数值可以将变量数列划分为项数相等的100100部分,这部分,这9999个数值就定义为百分位数个数值就定义为百分位数 (percentile)(percentile)四分位数 第一个四分位数称为下四分位数 第三个四分位数称为上四分位数1.1.集中趋势的测度值之一集中趋势的测度值之一2.2.排序后处于排序后处于25%25%和和75%75%位置上的值位置上的值未分组资料和单项资料的四分位数 先排序,若为单项分组资料,需计算累计频数 再通过公式确定位置: 如果四分位数

13、的位置不在某变量值上,必须按比例分摊变量值,以确定四分位数。4) 1(34) 1(241fqfqfquml数值型未分组数据的四分位数 (7个数据的算例)原始数据原始数据: 23 21 30 32 28 25 26排排 序序: 21 23 25 26 28 30 32位位 置置: 1 2 3 4 5 6 7 数值型未分组数据的四分位数 (6个数据的算例)原始数据原始数据: 23 21 30 28 25 26排排 序序: 21 23 25 26 28 30位位 置置: 1 2 3 4 5 62、分组资料 先求累积频数 再确定位置 最后依公式求四分位数(也是按比例分摊)uuufuummmfmmlll

14、fllifslqifslqifslqfqul的位置的位置其中其中为该分位数组的下限;为该分位数组的下限;为总次数;为总次数;为较小累计该分位数所在组前一组的累计次数为较小累计该分位数所在组前一组的累计次数为分位数组的次数;为分位数组的次数;为分位数组的组距。为分位数组的组距。lf 1lslfli以第一四分位数公式说明参数众数 众数(mode)是一组数据中出现次数最多的那个变量值,通常用 表示。om由未分组数据确定众数由未分组数据确定众数由单项数列确定众数由单项数列确定众数由组距数列确定众数由组距数列确定众数由未分组数据确定众数由未分组数据确定众数例1: 7、6、8、2

15、、3例2: 7、6、8、2、3 、4、3、2、3例3: 7、6、8、2、3 、4、3、2、3、2由单项数列确定众数由单项数列确定众数由由组距式数列确定众数确定众数先确定众数组;再用下述公式计算:上限公式下限公式iumilmoo212211按成绩分组按成绩分组人数人数5050 以下以下5050606060607070(l)(l)70708080(u)(u)808090909090 以上以上101020203030(f(fm-1m-1) )5050(f(fm m) )4040(f(fm+1m+1) )3030合计合计180180符号含义:(a)l为众数组的下限,u为上限;(b)i为众数组的组距;(

16、c)1=fmfm-1,即众数组的次数与前一组次数之差; 2=fm fm+1,即众数组的次数与后一组次数之差。stat40 50 60 70 80 90 10050 40 30 20 10bcedx y(l) (u)mo=l+x=u-yo121211121212oa cf db exyib oa ca c oo d fo ef dxximliix 相似于af重点考察众数位置和相邻两组次数的关系重点考察众数位置和相邻两组次数的关系众数取值的特点:众数取值的特点: 众数的数值始终偏向相邻组中次数较大的组,当相邻两组众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值

17、。的次数相等时,众数则是众数组的组中值。注意问题注意问题(1 1)优点:不易受极端值的影响。)优点:不易受极端值的影响。(2 2)缺点:未利用所有信息,)缺点:未利用所有信息,缺乏敏感性和不适合代数运算缺乏敏感性和不适合代数运算对比1. 众数、中位数和算术平均数的关系众数、中位数和算术平均数的关系确定分布是否确定分布是否有偏,偏斜情况如何有偏,偏斜情况如何已知某班学生的平均年龄为17.8岁,18岁的人数最多,则该分布属于( )。a正态 b左偏c右偏 d无法判断对比2. 众数、中位数和算术平均数的特点与应用场合众数、中位数和算术平均数的特点与应用场合l位置平均数不易受极端值的影响,比较稳健。位置

18、平均数不易受极端值的影响,比较稳健。l位置平均数的取值只与中间位置的一或两个数值有关,利用信位置平均数的取值只与中间位置的一或两个数值有关,利用信 息不充分,忽略了其它数据的大小,并且不适合于代数运算息不充分,忽略了其它数据的大小,并且不适合于代数运算。l平均数所用的的数据信息比较完整,但易受极端值影响平均数所用的的数据信息比较完整,但易受极端值影响 1.计算平均指标最常用的方法和最基本的形式是()。a.中位数 b.众数 c.算术平均数 d.调和平数 2受极端数值影响最小的集中趋势值是( )。a算术平均数 b调和平均数c几何平均数 d众数4位置平均数是指()a算术均值b调和均值c几何均值d众数

19、e中位数极差与四分位差极差与四分位差 极差(极差(rangerange)也叫全距,是一组数据的最大值)也叫全距,是一组数据的最大值与最小值之离差,即与最小值之离差,即:)min()max(iixxr 四分位差(四分位差(interquartile rangeinterquartile range)是指第三四分位)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为:示。四分位差的计算公式为: 13qqqr离散程度刻画指标极差:极差: 是数据离散程度的一种简单刻画,其中只考虑是数据离散程度的一种简单刻画,其中只考虑

20、了两端数值,没有体现各单位变量值的变异程度,且易了两端数值,没有体现各单位变量值的变异程度,且易受极端值影响受极端值影响 四分位差:反映了数据排序后中间四分位差:反映了数据排序后中间50%50%数据的离散程数据的离散程度,其值越小,说明中间度,其值越小,说明中间50%50%数据越集中;四分位差是数据越集中;四分位差是由位置平均数定义,不易受极端值影响,在某种程度上由位置平均数定义,不易受极端值影响,在某种程度上弥补了极差的不足,但同样没有考虑所有数据弥补了极差的不足,但同样没有考虑所有数据 特点平均差 平均差(mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,

21、通常用 md表示。简单式平均差简单式平均差加权式平均差加权式平均差简单式平均差简单式平均差nxxmnid1平均差:avedev( )甲组乙组日产量离差离差绝对值日产量离差离差绝对值xx8090100110120-20-10010202010010209095100105110-10-505101050510合计60合计30 xxxx xxxx加权式平均差加权式平均差iiiinidffxxm11标准差与方差 标准差(standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用 表示。它是测度数据离散程度的最主要方法。方差(variance)是各变量值

22、与其算术平均数离差平方和的平均数,即是标准差的平方;用 表示总体的方差;用 表示样本的方差标准差。,而样本标准差记为s 22s标准差的表达式总体与样本标准差总体与样本标准差简单式标准差简单式标准差 加权式标准差加权式标准差简单式标准差简单式标准差nxxnii12)(总体标准差stdevp( )结论:平均差和标准差的大小,dm甲组乙组日产量离差离差平方日产量 离差离差平方xx8090100110120-20-100102040010001004009095100105110-10-5051010025025100合计1000合计25007. 752501 .145100022nxxnxx乙甲xx

23、xx2xx 2xx加权式标准差加权式标准差niiiniiffxx121)(总体与样本标准差总体与样本标准差nxxnii12)(niiiniiffxxs1121)(1)(12nxxsniiniiiniiffxx121)(简单式加权式总体样本标准差:样本标准差stdev( ) 总体标准差stdevp( )方差:样本方差var( ) 总体方差varp( )离散系数 对于平均数不等或计量单位不同的不同组别的变量值,是不能对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量

24、单位不同对离散程度测度值的影响,需要计算离散程度的不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,又称标准差系数相对指标,即离散系数,又称标准差系数( (无名数无名数)。其一般公式是:)。其一般公式是:对应的平均指标离散程度的绝对指标离散系数 ( )100%svx离散系数例:某地随机抽取一组男青年和女青年,测量他们的平均体重和标准差如下55.59,4.26548.52,3.985xkg skgxkg skg男女离散系数为( )100%7.67%( )100%8.21%svxsvx男女说明女青年间体重的差异比男青年要大一些数据标准化判断是否有离群点判断是否有离群

25、点 标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。设标准化数值为z,则有:xxzi 度量的是数据偏离平均值有多少个标准差;度量的是数据偏离平均值有多少个标准差;经验表明:当数据分布对称时经验表明:当数据分布对称时约有约有68.27%68.27%的数据与平均值的偏离在的数据与平均值的偏离在1 1个标准差的范围内,个标准差的范围内,约有约有95.45%95.45%的数据与平均值的偏离在的数据与平均值的偏离在2 2个标准差的范围内,个标准差的范围内,约有约有99.73%99.73%的数据与平均值的偏离在的数据与平均值的偏离在3 3个标准差的范围内;个标准差的范围内;可见

26、,偏离可见,偏离3 3个标准差之外的数据时很少的;个标准差之外的数据时很少的;一般,偏离一般,偏离3 3个标准差之外的数据就称为是离群点或异常值个标准差之外的数据就称为是离群点或异常值也就是说,标准化之后约有也就是说,标准化之后约有99.73%(95.45%)的结果是在)的结果是在+-3(+-2)之间)之间-实际中有此特性的是正态分布变量实际中有此特性的是正态分布变量数据标准化判断是否有离群点判断是否有离群点如果我们认为偏离超过3个标准差即为离群点,那么-3.6所对应的数值为离群点数据标准化判断是否有离群点判断是否有离群点normsdist(z)=p(x1.5)=2(normsdist(-1.

27、5)=0.1336normsinv (probability):返回p(xz)=probability所对应的znormsinv (0.975)= 1.96根据对称性,有normsinv(0.025)=-1.96标准正态分布的有关函数课后单选12 :-normsinv (0.01)=2.33 -normsinv (0.06)=1.55 数据分成k组,每组的次数ni,i=1.2.k,记 为第i组的第j个数据, 为第i组的平均数ijxix2i为第i组的组内方差,则212,1,.,inijijiixxikn各组内方差的加权平均数:22112111inkkijiiiijiikkiiiixxnnn 总方

28、差,组间方差,组内方差组内离差平方和组内离差平方和记 为总平均数x组间方差:11kiiikiixnxn总方差:2211kiiikiixxnn()()ixx组间方差:各组平均数对总平均数的方差。222i总方差组间方差平均组内方差可证明也被称为方差加法定理2121inkijijkiixxn 组间离差平方和总离差平方和stat例题:教材数据(ch4-方差分解)原点矩原点矩kexk阶原点矩一阶原点矩ex二阶原点矩2exk阶样本原点矩1nkiixn一阶样本原点矩1niixn二阶样本原点矩21niixn中心矩中心矩()ke xuk阶原点矩二阶原点矩2()e xuk阶样本原点矩1()nkiixxn二阶样本原

29、点矩21()niixxnniinikiikfxfu11一般式-k阶原点矩一阶原点矩-加权算术平均数niiniiifxfu111对于分组数据中心矩niiniikikffxxv11)(一般式-k阶中心矩三阶中心矩3131()niiiniixxfvf四阶中心矩4141()niiiniixxfvf二阶中心矩-分组数据的方差2121()niiiniixxfvf偏态 偏态(偏态(skewnessskewness)是对分布偏斜方向和程度的测度。)是对分布偏斜方向和程度的测度。变量分组后,总体中各个体在不同的分组变量值下分布变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,

30、统计上将其并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。称为偏态分布。313133niiiniiffxxv 偏态系数偏态系数 的数值一般在的数值一般在0 0与与3 3之间,越接近之间,越接近0 0,分布的偏斜度越小;越接近分布的偏斜度越小;越接近3 3,分布的偏斜度越大。,分布的偏斜度越大。大于大于0 0称为是正偏称为是正偏( (右偏右偏), ),小于小于0 0称为是负偏称为是负偏( (左偏左偏) )例题偏斜度:skew( )偏态系数计算我国1997年农村居民家庭按纯收入分组的有关数据,计算偏态系数按纯收入分组按纯收入分组组中值组中值比重比重5 5以下以下5-105-1010-1510-1515-2015-2020-2520-2525-3025-3030-3530-3535-4035-4040-4540-4545-5045-505050以上以上2.52.57.57.512.512.517.517.522.522.527.52

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论