第3章---数据特征的度量_第1页
第3章---数据特征的度量_第2页
第3章---数据特征的度量_第3页
第3章---数据特征的度量_第4页
第3章---数据特征的度量_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 3章 数据特征的度量,“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道。” “很难理解为什么统计学家通常限制自己的调查于平均数,而不着迷于更广泛的考虑。对于变化的魅力,他们的灵魂看来如同平坦的英格兰国家之一的当地人的一样迟钝,那些当地人关于瑞士的回顾是,如果可以将它的山脉扔进它的湖泊,那么两种讨厌的东西将立即去除。” 弗朗西斯 高尔顿,第 3章 数据特征的度量,3.1 数据集中程度的度量 3.2 数据离散程度的度量 3.3 数据分布的偏度与峰度的度量 3.4 SPSS在描述统计中应用-描述统计与数据分布特征的测度 本章小结,学习

2、目标,掌握集中趋势测度方法及意义 掌握离散趋势测度方法及意义 了解偏态与峰度的测度方法及意义,数据集中程度的度量,数据集中程度的度量反映的是数据一般水平的代表值或者数据分布的中心值。从不同的角度考虑,集中程度的测度值有多个,我们将一一介绍。,3.1.1 算术平均数 3.1.2 调和平均数 3.1.3 几何平均数 3.1.4 中位数 3.1.5 分位数 3.1.6 众数 3.1.7众数、中位数和均值的关系,3.1数据集中程度的度量,数值平均数,位置平均数,3.1.1 算术平均数(mean),集中程度的最常用测度值 一组数据的均衡点所在 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据

3、,简单算术平均数(simple mean),设一组数据为: x1 ,x2 , ,xn,总体均值,样本均值,加权算术平均数(weighted mean),设一组数据为: x1 ,x2 , ,xk 相应的频数为: f1 , f2 , ,fk,总体均值,样本均值,算术平均数(数学性质),1.各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,3.1.2 调和平均数(Harmonic mean),1、集中程度的测度值之一,又称为倒数平均数 2、易受极端值的影响 3、常用于特定数据的计算,计算公式,设一组数据为: x1 ,x2 , ,xn,调和平均数例题(Harmonic mean),

4、3.1.3 几何平均数(geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率,计算公式,设一组数据为: x1 ,x2 , ,xn,几何平均数 (例题分析),【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,3.1.4 中位数(median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,中位数(位置的确定),原始数据:,分组

5、数据:,数值型数据的中位数 (5个数据算例),【例】 5个工人日产量 原始数据: 3 8 5 4 9 排 序: 3 4 5 8 9,中位数 5,位置,数值型数据的中位数 (6个数据的算例),【例】:6个工人日产量 原始数据: 3 8 5 4 9 11 排 序: 3 4 5 8 9 11,中位数 ,位置,分组数据的中位数公式,N/2表示中位数所在位置;L表示中位数所在组的下限;Sm-1为向上累计至中位数所在组下一组止的累计频数;fm表示中位数所在组的次数;i表示中位数所在组的组距,下限公式:,分组数据的中位数公式,上限公式:,N/2表示中位数所在位置;U表示中位数所在组的上限;Sm+1为向下累计

6、至中位数所在组上一组的累计频数;fm表示中位数所在组的次数;i表示中位数所在组的组距,分组数据中位数例题,例:某企业职工工资计算表,(百元),3.1.5 分位数,中位数是将统计分布从中间分成面积(即数据个数)相等的两部分,与中位数性质相似的还有四分位数(quartile)、十分位数(decile)、和百分位数(percentile)。显然,四分位数就是将数据分布4等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别是将数据分布10等分和100等分的数值。,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但

7、不能用于分类数据,四分位数(位置的确定),原始数据:,分组数据:,数值型数据的四分位数 (11个数据的算例),数值型数据的四分位数 (12个数据的算例),3.1.6 众数(mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,分组数据的众数的计算公式,表示众数,L表示众数所在组的下组限,分别表示众数组次数与前一组次数

8、之差和与后一组次数之差 i 表示众数组的组距,分组数据众数例题,众数、中位数和均值的关系,众数、中位数、均值的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 均值 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,3.2.1 极差 3.2.2 内距 3.2.3 方差和标准差 3.2.4 离散系数,3.2 数据离散程度的度量,3.2.1 极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,3.

9、2.2 内距(Inter-Quartile Range,IQR),也称四分位差 上四分位数与下四分位数之差 内 距= Q3 Q1 反映了中间50%数据的离散程度 不受极端值的影响 可用于衡量中位数的代表性,3.2.3标准差和方差(Variance and Standarddeviation),1.离散程度的主要测度值 2.最常用的测度值 3.反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差 (Population variance and Standard deviation),未分组数据:,

10、组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差和标准差 (simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以

11、自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,样本标准差计算例题,3.2.4 离散系数(coefficient of variation),1.标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4.用于对不同组别数据离散程度的比较 5. 计算公式为,离散系数 (例题分析),结论: 计算结果表明v1v2,说明金融专业的同学成绩分布比较均匀,平均成绩的代表性更强。,3.3 分布形状的描述偏

12、度和峰度的度量,分布形状指标: 形状指标就是反映变量分布具体形状,即左右是否对称、偏斜程度、陡峭程度等。 偏度-数据分布偏斜方向和程度 峰度-数据分布陡峭程度,偏度由统计学家皮尔逊(Pearson)于1895年提出,是对变量分布对称性的测度,是指变量分布偏斜的方向及其程度。 偏度系数Sk有三种计算方法: 利用算术平均数与众数或中位数的离差求偏度系数; 利用四分位数求偏度系数; 利用动差法求偏度系数。,3.3.1 偏度,1.利用算术平均数与众数或中位数的离差求偏度系数:,2.利用四分位数求偏度系数;, (-3,3), (-1,1),当 sk=0时 ,分布对称 当 sk0时 ,分布右偏 当 sk0时 ,分布左偏,3.利用动差法求偏度系数,偏度的判别,3.3.2 峰度,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论