统计学第四章数据的描述性分析课件_第1页
统计学第四章数据的描述性分析课件_第2页
统计学第四章数据的描述性分析课件_第3页
统计学第四章数据的描述性分析课件_第4页
统计学第四章数据的描述性分析课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章数据的描述性分析本章内容一、 集中趋势的描述二、 离散程度的描述三、 分布的偏态与峰度集中趋势的描述数值平均数1. 算术平均数2. 调和平均数3. 几何平均数集中趋势的描述位置平均数1. 中位数2. 众数对比离散程度的描述绝对指标1. 极差与四分位差2. 平均差3. 标准差与方差相对指标离散系数离散程度的描述数据标准化分布的偏态与峰度原点距中心距分布的偏态与峰度分布的偏态分布的峰度集中趋势 集中趋势(Central Tendency)是一组数据向其中心靠拢的倾向。测定集中趋势就是寻找数据一般水平的代表值或中心值。集中趋势往往使用平均指标来测度 算术平均数 算术平均数(Arithmetic

2、 mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。 简单算术平均数加权算术平均数分组数据算术平均数的数学性质 简单算术平均数加权算术平均数分组某厂某车间20名工人加工某种零件的产量资料如下:-单项式变量分布数列20名工人零件生产数量分组资料按日产量分组(件)x工人人数(人)f总产量(件)xf14151617182485128601288518合计20319加权算术平均数权数组距式加权均值(权数对均值的影响) 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8 乙组: 考试成绩(X )

3、: 0 20 100 人数分布(F ):8 1 1X甲01+201+1008n10i=1Xi 82(分)X乙08+201+1001n10i=1Xi 12(分)选择-4权数 次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。有时权数也用比重(频率)来表示算术平均数的数学性质各变量值关于算术平均数的偏离,在平方的意义下达到最小调和平均数 调和平均数(Harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作

4、倒数平均数,通常用 表示。简单调和平均数加权调和平均数调和平均数是算术平均数的变形 调和平均数某蔬菜批发市场三种蔬菜的日成交量数据如下,计算三种蔬菜该日的平均批发价格。蔬菜名称批发价格(元)x成交量(公斤)f甲乙丙1.200.500.8015000250008000合计-48000算术平均数调和平均数若已知成交额,未知成交量,资料如下:蔬菜名称批发价格(元)x成交额(元)m甲乙丙1.200.500.8018000125006400合计-36900加权调和平均数变量值倒数简单调和平均数调和平均数是算术平均数的变形调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式

5、也可以互推几何平均数 几何平均数(Geometric mean)是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均,当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。 简单几何平均数加权几何平均数简单几何平均数案例:某水泥厂1995年的水泥产量为100万吨,1996年与1995年相比增长率为9,1997年比1996相比增长率为6,1998年比1997年相比增长率为20,求这三年的年平均增长率简单几何平均数案例2:一位投资者在1996年初买进一种股票,1996,1997,1998,1999这四年的收益率分别为4.5,2,3.5,5.4,计

6、算该投资者在这四年内的平均收益率r简单几何平均数加权几何平均数位置平均数1. 中位数2. 众数中位数 中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。由未分组数据确定中位数由单项数列确定中位数分位数数值型未分组数据的中位数 (5个数据的算例)原始数据: 24 22 21 26 20排 序: 20 21 22 24 26位 置: 1 2 3 4 5中位数 22数值型未分组数据的中位数 (6个数据的算例)原始数据: 10 5 9 12 6 8排 序: 5 6 8 9 10 12位 置: 1 2 3 4 5 6位置N+126+123.5中位数8 + 928.

7、5由未分组数据确定中位数 对未分组数据资料,需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。 例: 7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。 例: 2、5、7、8、11、12 未分组数据的中位数(计算公式)分组数据确定中位数-单项式,组距式(见分位数)由单项数列确定中位数按公式 确定中位数的位置并对照累计次数确定中位数。由单项数列确定中位数 先计算各组的累计次数,再按公式 确定中位数的位置,并对照累计次数确定中位数。分位数 三个数值可以将变量

8、数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles)。九个数值可以将变量数列划分为项数相等的十部分,这九个数值就定义为十分位数 (Dectile)99个数值可以将变量数列划分为项数相等的100部分,这99个数值就定义为百分位数 (Percentile)四分位数第一个四分位数称为下四分位数第三个四分位数称为上四分位数QLQMQU25%25%25%25%1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值未分组资料和单项资料的四分位数先排序,若为单项分组资料,需计算累计频数再通过公式确定位置:如果四分位数的位置不在某变量值上,必须按比例分摊变量值,以确定四分位数。

9、数值型未分组数据的四分位数 (7个数据的算例)原始数据: 23 21 30 32 28 25 26排 序: 21 23 25 26 28 30 32位 置: 1 2 3 4 5 6 7 N+1QL= 237+1QL位置 =4=4= 2QU位置 =3(N+1)43(7+1)4 = 6QU = 303. 不易受极端值的影响(数据中有极大值或极小值时,影响不大)数值型未分组数据的四分位数 (6个数据的算例)原始数据: 23 21 30 28 25 26排 序: 21 23 25 26 28 30位 置: 1 2 3 4 5 6QL= 21+0.75(23-21) = 22. 5QL位置 =N+14=

10、6+14= 1.75QU位置 =3(N+1)43(6+1)4= 5.25QU = 28+0.25(30-28) = 28.52、分组资料先求累积频数再确定位置最后依公式求四分位数(也是按比例分摊)其中为该分位数组的下限;为总次数;为较小累计该分位数所在组前一组的累计次数为分位数组的次数;为分位数组的组距。以第一四分位数公式说明参数众数 众数(Mode)是一组数据中出现次数最多的那个变量值,通常用 表示。由未分组数据确定众数由单项数列确定众数由组距数列确定众数由未分组数据确定众数例1: 7、6、8、2、3例2: 7、6、8、2、3 、4、3、2、3例3: 7、6、8、2、3 、4、3、2、3、2

11、由单项数列确定众数由组距式数列确定众数先确定众数组;再用下述公式计算:符号含义:(A)L为众数组的下限,U为上限;(B)i为众数组的组距;(C)1=fmfm-1,即众数组的次数与前一组次数之差; 2=fm fm+1,即众数组的次数与后一组次数之差。STAT40 50 60 70 80 90 10050 40 30 20 10BCEDx y(L) (U)Mo=L+x=U-yOAF重点考察众数位置和相邻两组次数的关系众数取值的特点: 众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值。注意问题(1)优点:不易受极端值的影响。(2)缺点:未利用所有信息,缺乏敏感性

12、和不适合代数运算对比1. 众数、中位数和算术平均数的关系确定分布是否有偏,偏斜情况如何已知某班学生的平均年龄为17.8岁,18岁的人数最多,则该分布属于( )。A正态 B左偏C右偏 D无法判断对比2. 众数、中位数和算术平均数的特点与应用场合位置平均数不易受极端值的影响,比较稳健。位置平均数的取值只与中间位置的一或两个数值有关,利用信 息不充分,忽略了其它数据的大小,并且不适合于代数运算。平均数所用的的数据信息比较完整,但易受极端值影响 1.计算平均指标最常用的方法和最基本的形式是()。A.中位数 B.众数 C.算术平均数 D.调和平数 2受极端数值影响最小的集中趋势值是( )。A算术平均数

13、B调和平均数C几何平均数 D众数4位置平均数是指()A算术均值B调和均值C几何均值D众数E中位数极差与四分位差 极差(Range)也叫全距,是一组数据的最大值与最小值之离差,即: 四分位差(Interquartile range)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为: 离散程度刻画指标极差: 是数据离散程度的一种简单刻画,其中只考虑了两端数值,没有体现各单位变量值的变异程度,且易受极端值影响 四分位差:反映了数据排序后中间50%数据的离散程度,其值越小,说明中间50%数据越集中;四分位差是由位置平均数定义,不易受极端值影响,在某种程度上弥补了极

14、差的不足,但同样没有考虑所有数据 特点平均差 平均差(Mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用 MD表示。简单式平均差加权式平均差简单式平均差平均差:Avedev( )甲组乙组日产量离差离差绝对值日产量离差离差绝对值xx8090100110120-20-10010202010010209095100105110-10-505101050510合计60合计30加权式平均差标准差与方差 标准差(Standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用 表示。它是测度数据离散程度的最主要方法。方差(V

15、ariance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方;用 表示总体的方差;用 表示样本的方差标准差。,而样本标准差记为s 标准差的表达式总体与样本标准差简单式标准差 加权式标准差简单式标准差总体标准差Stdevp( )结论:平均差和标准差的大小,甲组乙组日产量离差离差平方日产量离差离差平方xx8090100110120-20-100102040010001004009095100105110-10-5051010025025100合计1000合计250加权式标准差总体与样本标准差简单式加权式总体样本标准差:样本标准差Stdev( ) 总体标准差Stdevp( )方差:样

16、本方差Var( ) 总体方差Varp( )离散系数 对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,又称标准差系数(无名数)。其一般公式是:离散系数例:某地随机抽取一组男青年和女青年,测量他们的平均体重和标准差如下离散系数为说明女青年间体重的差异比男青年要大一些数据标准化判断是否有离群点 标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。设标准化数值为z,则有: 度量的是数据偏离平均值有多少个标准差;经验表明:当数据分布对

17、称时约有68.27%的数据与平均值的偏离在1个标准差的范围内,约有95.45%的数据与平均值的偏离在2个标准差的范围内,约有99.73%的数据与平均值的偏离在3个标准差的范围内;可见,偏离3个标准差之外的数据时很少的;一般,偏离3个标准差之外的数据就称为是离群点或异常值也就是说,标准化之后约有99.73%(95.45%)的结果是在+-3(+-2)之间-实际中有此特性的是正态分布变量数据标准化判断是否有离群点如果我们认为偏离超过3个标准差即为离群点,那么-3.6所对应的数值为离群点数据标准化判断是否有离群点Normsdist(z)=p(x1.5)=2(normsdist(-1.5)=0.1336

18、Normsinv (probability):返回p(xz)=probability所对应的znormsinv (0.975)= 1.96根据对称性,有normsinv(0.025)=-1.96标准正态分布的有关函数课后单选12 :-normsinv (0.01)=2.33 -normsinv (0.06)=1.55 数据分成k组,每组的次数ni,i=1.2.k,记 为第i组的第j个数据, 为第i组的平均数为第i组的组内方差,则各组内方差的加权平均数:总方差,组间方差,组内方差组内离差平方和记 为总平均数组间方差:总方差:可证明也被称为方差加法定理组间离差平方和总离差平方和第三章描述统计学:数

19、量方法STAT例题:教材数据(ch4-方差分解)原点矩k阶原点矩一阶原点矩二阶原点矩k阶样本原点矩一阶样本原点矩二阶样本原点矩中心矩k阶原点矩二阶原点矩k阶样本原点矩二阶样本原点矩一般式-k阶原点矩一阶原点矩-加权算术平均数对于分组数据中心矩一般式-K阶中心矩三阶中心矩四阶中心矩二阶中心矩-分组数据的方差偏态 偏态(Skewness)是对分布偏斜方向和程度的测度。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。 偏态系数 的数值一般在0与3之间,越接近0,分布的偏斜度越小;越接近3,分布的偏斜度越大。大于0称为是正偏(右偏),小于0称为是负偏(左偏)例题偏斜度:Skew( )偏态系数计算我国1997年农村居民家庭按纯收入分组的有关数据,计算偏态系数按纯收入分组组中值比重5以下5-1010-1515-2020-2525-3030-3535-4040-4545-5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论