数据分布特征的测度.ppt_第1页
数据分布特征的测度.ppt_第2页
数据分布特征的测度.ppt_第3页
数据分布特征的测度.ppt_第4页
数据分布特征的测度.ppt_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 数据分布特征的测度,教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。,教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。难点是不同条件下平均指标和变异指标的计算。,统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。,对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。,第一节 集中趋势的测度,集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据一般水平的代表值或中心值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。,一、分类数据:众数(Mo) 众数是指一组数据中出现次数最多的变量值。 出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和 数值型数据,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数,见P78图4-1。,二、顺序数据:中位数(Me)和分位数 (一)中位数 中位数是一组数据排序后,处于中间位置上的变量值。中位数是一个位置代表值,它主要用于测度顺序数据的集中趋势,当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。,根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为: 中位数位置,对于分类型数据,中位数的位置为:中位数位置 若项数为奇数,则居于中间位置的 那个标志值即为中位数。 若项数为偶数,则居于中间位置的两项数值的平均数即为中位数。,【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 位置=(n+1)2=(9+1) 2=5 中位数 =1080,【例】 :10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10 位置=(n+1)2= (10+1)2=5.5 中位数=(960+1080)2=1020,对于数值型数据,也可以计算中位数:,(二)分位数 四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。 四分位数,“四分位点”,是通过三个点将全部数据等分为四部分,其中每部分包含25的数据,处在分位点上的数值就是四分位数。,QM,QU,QL,下四分位数,中位数,上四分位数,对于分类数据,各四分位数的位置分别为:,当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四分位数位置两侧数值的差值。,【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,QL,QL,QL,QL,QU,QU,QU,QU,【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,三、数值型数据:均值 均值也称为算术平均数,是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类和顺序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式。,(一)算术平均数的基本形式 算术平均数,(二)简单算术平均数 当掌握的资料是未分组的总体各单位的标志值时,则将各单位的标志值简单相加得出标志总量,然后各单位的标志值简单相加得出标志总量,然后在除以总体单位数之和,这种计算平均数的方法称为简单算术平均数。,其公式为:,(三)加权算术平均数 当掌握的资料已经分组,且各组出现的次数 不同时,则采用加权算术平均数。 各组的组中值为:M1 ,M2 , ,Mk,例:某企业某车间工人每天生产产品资料如表4-1: 表4-1,根据上表资料,计算平均每人生产产品件数:,简单算术平均数的数值大小只与变量值的大小有关。加权算术平均数的数值大小不仅受各组组中值大小的影响,而且受各组变量值出现的频数及权数大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。,加权算术平均数应注意几个问题: 1、加权算术平均数的权数可以是绝对数,亦可以是比重; 上例的权数为绝对数。现举例说明比重权数,例如下表资料:,表4-2,平均每人生产产品件数=,2、根据组距数列计算加权算术平均数 例某企业某车间工人生产产品资料如表4-3: 表4-3,用组中值计算出来的平均数,只能是平均数的近似值,而不是平均数的真值。,3、若各组单位数相等,即f1=f2= fn,则加权算术平均数计算公式与简单算术平均数存在下面关系: 可见,简单算术平均数是加权算术平均数的一个特例。,(四)算术平均数的数学性质 均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。首先,从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。其次,均值具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,体现了均值的统计思想。,算术平均数最重要的两个数学性质是: 1. 各变量值与平均数的离差之和等于 零, 即: 简单算术平均数: 加权算术平均数:,2. 各变量值与平均数的离差的平方和为最小值,即: 简单算术平均数: 加权算术平均数: 证明见P84。,(五)均值的另一种表现形式:调和平均数 调和平均数是算术平均数的另一种表现形式,用表示。在实际工作中,由于所获得的数据的不同,有时不能直接采用均值的计算公式来计算平均数,这就需要使用调和平均数的形式进行计算,二者实质上是相同的,而仅有形式上的区别。,其计算公式为: 需要注意的是,当数据中出现“0”时不宜计算调和平均数。,例如,某企业工人月奖金额如表4-4: 表4-4,(六)一种特殊的均值:几何平均数 统计几何平均数指标,是指社会经济现象的同质总体在时间上变动速度的平均数。是具有经济意义同质总体的n个环比发展速度连乘积的n次方根。统计几何平均数属于动态平均数。,几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当所掌握的变量值本身是比率的形式,这时就应采用几何平均法计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。,设开始的数值为 ,逐年增长率为 ,则第n年的数值为: 从 到 用n年,每年的增长率都相同,则增长率G就是平均增长率 ,有,【例某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。,年平均增长率114.91%-1=14.91%,几何平均数的对数是各变量值对数的算术平均。需要注意的是,当数据中出现零值和负值是不宜计算几何平均数。,四、众数、中位数和均值的比较 众数、中位数和均值是集中趋势的三个主要测度值,它们具有不同的特点和应用场合。 (一)众数、中位数和均值的关系 从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而均值则是全部数据的算术平均。,因此,对于具有单峰分布的大多数数据而言,众数、中位数和均值之间有以下关系: (1)当总体内部次数分配呈正态状时,三者合而为一,即三者相等: (2)当总体内部次数分配呈非正态状且右偏时,则 (3)当总体内部次数分配呈非正态状且左偏时,则,(二)众数、中位数和均值的特点和应用场合 1. 众数 n 不受极端值影响 n 具有不唯一性 n 数据分布偏斜程度较大时应用,2. 中位数 n 不受极端值影响 n 数据分布偏斜程度较大时应用 3. 均值 n 易受极端值影响 n 数学性质优良 n 数据对称分布或接近对称分布时应用,第二节 离散程度的测度 集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。数据的分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度。集中趋势的各测度值是对数据一般水平的一个概括性度量,它对一组数据的代表程度取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,离散程度越小,其代表性就越好。,一、分类数据:异众比率 异众比率,“离异比率或变差比”,是指非众数组的频数占总频数的比率,计算公式为: 式中, 为异众比率; 为变量值的总频数; 为众数组的频数。,异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。主要用于测度分类数据的离散程度,当然,顺序数据以及数值型数据也可以计算异众比率。 例题见P90例4.11。,二、顺序数据:四分位差 “内距或四分间距”,计算公式为:QD = QU QL 四分位差反映了中间50数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度,当然对于数值型数据也可以计算四分位差,但不适合于分类数据。 例题见P90例4.12。,三、数值型数据:方差及标准差 测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差,其中最常用的方法是方差和标准差。,(一)极差 “全距”,它是总体中各单位标志的最大标志值与最小标志值之差。 全距(R)最大标志值最小标志值 极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。,(二)平均差 “平均离差”,是各个标志值对算术平均数的离差的平均数。 1对于未分组数据: 2对于分组数据: 例题见P91例4.13。,平均差以均值为中心,反映了每个数据与均值的平均差异程度 ,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度越大,反之则说明数据的离散程度越小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取绝对值,以离差的绝对值来表示总离差,这就给计算带来不便。同时平均差在数学性质上也不是最优的,因此实际中应用较少。,(三)方差和标准差 方差是各变量值与其均值离差平方的平均数,是测度数值型数据离散程度的最主要方法。 样本方差 未分组数据: 分组数据:,2. 标准差:方差的平方根即为标准差。 未分组数据: 组距分组数据:,与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此在对实际问题进行分析时,更多使用标准差。 例题见P 93例4.14。,方差或标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确反映出数据的离散程度。与平均差相比,方差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,方差和标准差是实际中应用最广泛的离散程度测度值。,四、相对位置的测量:标准分数 有了均值和标准差之后,可以计算一组数据中各个数值的标准分数,并可以用它来判断一组数据中某个数据的相对位置。,(一)标准分数 “标准化值或z分数”,它是变量值与其平均数的离差除以标准差后的值,是对每个数据在该组数据中相对位置的测量。 是常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,需要对各变量数值进行标准化处理。 见P94例4.15。,标准分数具有均值为0、标准差为1的特性: 标准分数只是对原始数据进行了线性变化,它没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。,(二)经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差 的范围之内 约有95%的数据在平均数加减2个标准差 的范围之内 约有99%的数据在平均数加减3个标准差 的范围之内,利用标准分数可以判断一组数据中是否存在离群点或离群数据。如果一组数据中某个观察值与其余观察值相比大得反常或小得反常,这个观察值就成为离群点或离群数据。,离群点的产生可能是由于下述原因: 该观测值被错误测量、记录或输入计算机 该观测值可能来自另一个总体 该观测值是正确的,不过它代表一个偶然事件。,(三)切比雪夫不等式 如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,提供的是“下界”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式, 至少有的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数。,对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内,五、相对离散程度:离散系数 上面介绍的极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,即与变量的均值大小有关,变量值绝对水

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论