数据分布特征测度_第1页
数据分布特征测度_第2页
数据分布特征测度_第3页
数据分布特征测度_第4页
数据分布特征测度_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分布特征测度第一页,共二十七页,编辑于2023年,星期六6.1.1数据分布特征测度的内容6.1.1数据分布特征测度概述1.分布特征识别:考察变量数列的分布特征与分布类型等。2.集中趋势测度:有算均、调均、几均、中位数和众数等平均指标3.离散趋势测度:有全距、方差与标准差、变异系数等变异指标。4.偏度与峰度测定:考察次数分布非对称程度和分布曲线尖峭程度。6.1.2数据分布特征测度的作用1.认识作用。认识总体内部结构与分布特征、一般水平与差异程度.2.比较作用。通过集中趋势与离散趋势测度,可作横向和动态比较。3.数量标准作用。在制定管理定额中,常以相应的平均数为基础。4.推断作用。样本平均数和样本标准差,是抽样推断的重要依据。6.1.3数据分布特征测度的原则

1.注意总体各单位的同质性。2.用组平均数补充总年均数。3.用次数分布补充总平均数。4.集中趋势与离散趋势测度相结合。5.注意一般与个别相结合。第二页,共二十七页,编辑于2023年,星期六6.2次数分布的类型与识别

6.2.1次数分布的类型次数分布:变量的不同取值及其相应的频数所构成的分布数列.频率分布:变量的不同取值及其相应的频率所构成的分布数列.次数分布或频率分布的主要类型有三种:1.钟形分布:“两头小,中间大”为特征的次数分布或频率分布。曲线图犹如一口古钟;故称钟形分布。钟形分布可分为对称分布、右偏分布和左偏分布三种类型.2.U形分布:“两头大,中间小”为特征的次数分布或频率分布。曲线图象英文字母“U”.3.J

型分布:有正J型分布和反J型分布两种类型第三页,共二十七页,编辑于2023年,星期六6.2.2次数分布类型的识别主要考察变量数列次数或频率分布的类型与分布特征,描述总体或样本的结构与分布。主要有图示识别法、位置测度法和偏度测定法等。图示识别法:离散型数列宜采用直线图和条形图,连续型数列宜采用直方图、折线图、平滑图。【例6.1】

第四页,共二十七页,编辑于2023年,星期六6.3集中趋势测度

集中趋势是指变量数列中数据分布的中心值或一般水平。集中趋势测度就是计算变量数列的平均数,而平均数有算术平均数、调和平均数、几何平均数、中位数和众数等五种,前三种称为数值平均数,后两种称为位置平均数。第五页,共二十七页,编辑于2023年,星期六6.3.1算术平均数基本算式:总体标志总量/总体单位总量【例6.2】

1.简单算术平均数:未分组资料平均数=∑x/n【例6.3】2.加权算术平均数:分组资料求平均数计算加权算术平均数应注意两点:(1)权数绝对权数和比重权数之分.(2)权数对平均数大小起权衡轻重的作用,比重权数更能反映权数的实质。(3)根据组距数列计算的平均数只是一个近似值。【例6.4】【例6.5】第六页,共二十七页,编辑于2023年,星期六3.算术平均数的数学性质第七页,共二十七页,编辑于2023年,星期六5.总平均数与分段平均数以总平均数为临界点,可将数列划分为低于总平均数和高于总平均数的两部分,进而可计算低段n1个数据的平均数和高段n2个数据的平均数来概括数据分布的特征,分段平均数可补充说明总平均数的不足,亦可度量先进平均水平和落后平均水平,作为制订先进平均定额的依据.【例6.6】

6.几种特殊的算术平均数(1)等级平均数。通常把属性数列中的等级量化为1、2、3…,用观察的次数作权数,用加权平均法计算平均等级来反映集中趋势。【例6.7】(2)评分平均数。通常把人们对评价项目的评分值作为x,把事先规定的项目重要程度作权数f,计算评分平均数。【例6.8】(3)截尾平均数。由于算术平均数易受极端值的影响,有时为了消除少数特别大或特别小的数值影响,而采用截尾平均数。如评级评奖项目的平均分值的计算,可去掉一些最低分和最高分,再求平均分.【例6.9】

第八页,共二十七页,编辑于2023年,星期六6.3.2调和平均数调和平均数是各个变量值倒数的算术平均数的倒数.有简单调均与加权调均两种,计算公式为:调和平均数可避免算术平均数易受极端值的影响,但本意上的调和平均数应用很少,在实际工作中,常把调和平均数作为算术平均数的变形来使用。其变形形式为:【例6.10】【例6.11】【例6.12】

第九页,共二十七页,编辑于2023年,星期六6.3.3几何平均数1.几均是数列中n个变量值的连乘积的n次方根.适宜于求数列的平均比率或平均速度。亦有简单几均与加权几均之分,计算公式为:计算时,应注意各变量值中不能有数值为零或为负数的数出现。【例6.13】【例6.14】【例6.15】2.几均、算均、调均的关系对同一变量数列而言,若分别计算几均、算均、调均,则有算均最大、调均最小、几均居中,三者的关系用不等表示为:第十页,共二十七页,编辑于2023年,星期六6.3.4中位数中位数变量数列中居中间位置的变量值,又称二分位数。由于中位数位置居中,其值不大不小,因而,可用来代表数列的一般水平。1.未分组资料求中位数。先将n个数值由小到大排列;其次,用(n+1)/2确定中位数所处位置;最后视n为奇数还是偶数确定中位数.2.单项数列求中位数。先用较小累计制求累计次数,其次用公式(∑f+1)/2决定中位数的位次和所在的组别,最后确定中位数.3.由组距数列确定中位数,先采用较小或较大累计制计算各组累计次数;其次用(∑f+1)/2确定中位数的位次和所处的组别,最后根据均匀分布假设,用下列公式求中位数:

【例6.16】【例6.16】【例6.18】第十一页,共二十七页,编辑于2023年,星期六6.3.5众数众数是变量数列中出现次数最多的变量值。由于众数在数列中出现的频率较高,有时利用众数来表示现象的一般水平或集中趋势。众数M0的确定有以下两种情形:1、单项分组数列求众数。直接找出次数最多的变量值即为众数2、组距变量数列求众数。对称分布时众数M0为众数组(次数最多的组)的组中值(粗众数)。非对称分布时,众数会受众数组前后两组次数(f-1及f+1)的影响众数有两种计算方法:【例6.18】

①金氏插值法。根据众数组前后两组次数,用下列公式求众数:②切伯插值法。根据众数组次数分别与前后两组次数之差求众数:第十二页,共二十七页,编辑于2023年,星期六6.3.6四分位数将一群由小到大排列的数列分为四等分,可得到三个分割点Q1、Q2、Q3,分别称为下四分位数、中位数、上四分位数。这三个临界点就是四分位数.【例6.20】

6.3.7五数概括法和箱线图

五数概括法是用数列中的最小值(min)、下四分位数、中位数、上四分位数和最大值(max)来概括数据的变动的范围和特征。箱线图是根据这五个数据绘制的图形来显示数据,即以Q1和Q3为盒箱的边界,以Q3-Q1的间距作为盒箱的长度,然后标出最小值、最大值和中位数的位置,箱线图的下方可标出横坐标。

第十三页,共二十七页,编辑于2023年,星期六6.4离散趋势测度

离散趋势是指变量数列中变量值之间的差异程度、分散程度或离中程度。标志变异指标是衡量变量数列中变量值离散程度的综合指标。标志变异指标可以评价平均数代表性大小、衡量事物变动的均衡性或稳定性。标志变异指标越小,平均数的代表性越大,事物变动则具有较强的均衡性或稳定性。常用的离散趋势测度指标有异众比率、全距、四分位差、平均差、方差与标准差、变异系数、基尼系数

。第十四页,共二十七页,编辑于2023年,星期六6.4.2

异众比率异众比率是非众数组的次数占总次数的比率,计算公式为:

一般用于测度属性水准数据的离散程度,也可用于测度数量水准数据的离散程度。异众比率越大,众数的代表性越差;反之,众数的代表性越大。

6.4.3全距全距是数列中最大变量值与最小变量值之差,又称极差,表示某一总体全部变量值的变动范围。全距越大,平均数的代表性越低,反之,则越强。全距R的计算公式为:

R=最大变量值-最小变量值(单项数列)

R=最高组上限-最低组限下(组距数列)全距计算简单方便,通俗易懂,但易受极端值影响,不能反映全部数据的实际离散程度。第十五页,共二十七页,编辑于2023年,星期六6.4.3四分位差为了克服全距易受极端值的影响,可采用四分位间距和四分位差来衡量数列中变量值的变异程度。四分位间距是上四分位数与下四分位数之差,亦即在数列中间的50%的数据的间距。四分位差QD则定义为四分位差不够通俗,未考虑全部数据的差异,实际应用较少。6.4.4平均差平均差是数列中各变量值与算术平均数的离差绝对值的算术平均数。记作AD。采用离差绝对值计算平均离差,是为了消除正负离差相抵为0的影响,以便反映平均的离散程度。计算公式为:平均差能全面地准确地反映各变量值的离散程度,但带有绝对值符号,运算上很不方便,实际应用很少。【例6.21】

第十六页,共二十七页,编辑于2023年,星期六6.4.5方差与标准差1。方差是各变量值与算术平均数的离差平方的平均数,方差的平方根称为标准差。采用离差平方的方法是为了避免正负离差相抵为零的问题。方差用表示,标准差用表示。其计算公式为:标准差和平均差都能全面反映数列中变量值的离散程度,但标准差比平均差大(采用离差平方来消除正负离差互相抵消的问题时,夸大了绝对值大的离差的影响)。标准差运算方便,实际工作中常采用。

【例6.22】

第十七页,共二十七页,编辑于2023年,星期六2.方差的性质【例6.23】

第十八页,共二十七页,编辑于2023年,星期六5.4.5离散系数离散系数也称标志变异系数,是衡量数列变量值离散程度的相对指标,通常用标志变异指标与相应的算术平均数对比求得。最常用的是标准差系数,标准差系数是标准差与算术平均数之比,计算公式为:通常将1-标准差系数称为集中度或均衡度。标准差系数的应用应注意以下几点。(1)若两个数列或两个总体的均值相同,可直接比较标准差大小来衡量平均数代表性大小或现象的均衡性,而不必计算标准差系数。(2)若两个数列或两个总体的均值不相同,则应计算标准差系数来比较其平均数代表性大小或现象的均衡性。【例6.24】某省城镇居民可支配收入差异分析第十九页,共二十七页,编辑于2023年,星期六6.4.7基尼系数基尼系数又称落伦茨系数,是反映收入和财富平等与否程度的重要指标,亦可用于测定某些变量数列的离散程度,衡量事物变动的均衡性或稳定性。基尼系数就是依据落伦茨曲线A、B两块面积而计算的比重:基尼系数的取值介于0与1之间,越接近于1,越不平等;越接近于0,越平等。一般认为,基尼系数在0.2以下高度平均;02-0.4合理;0.4-0.6差距较大;0.6以上高度不平均;小于0.2或大于0.6则不合理。基尼系数计算方法很多,较简便的方法有以下3种(公式见教材):(1)等距分组测定法:要求收入按相等组距分组。

(2)等级测定法:要求将全部家庭户或人口按其收入等分为n组。

(3)简易测定法:要求将全部家庭户或人口按其收入等分为5部分。

【例6.25】

第二十页,共二十七页,编辑于2023年,星期六6.4.8是非标志的方差是非标志是指能将全部总体单位划分为具有和不具有某种特征两组的分组标志。设全部总体单位数为N,具有某种特征的单位数为N1,不具有某种特征的单位数为No。在总体单位数中,具有某种特征的单位数的比率用P表示,不具有某种特征的单位数的比率用q表示,即:第二十一页,共二十七页,编辑于2023年,星期六则比率p(成数)的平均数、标准差为:比率p的平均数:p因此,成数的平均数就是该成数的本身,成数的方差就是pq或p(1-p)。由于成数p总是大于0小于1,从成数方差的计算公式可知,成数方差的最小值为0(即p=0或P=1时);最大值为0.25(即P=50%时),此时成数的标准差是0.5。

【例6.26】

比率p的方差:

比率p的标准差:第二十二页,共二十七页,编辑于2023年,星期六6.5偏度与峰度5.5.1偏度偏度又称偏态,是指变量数列中次数分布的非对称程度。有时平均数与标准差相同的数列,其次数分布的形态可能不完全一样,这与次数分布的对称程度有关。如果次数分布是完全对称的,称为对称分布,如果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论