偏态与峰度的测度课件_第1页
偏态与峰度的测度课件_第2页
偏态与峰度的测度课件_第3页
偏态与峰度的测度课件_第4页
偏态与峰度的测度课件_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的测度学习目标掌握众数、中位数的概念、特点及其计算方法;了解四分位数概念;掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;了解异众比率、四分位差、全距、方差及标准差的概念、及计算方法;了解偏度和峰度的意义;能够区分各种指标的应用场合,根据不同数据类型运用不同测度指标。主要内容:集中趋势的测度1离散程度的测度

2偏态与峰度的测度

3众数四分位数中位数平均数偏度峰度方差和标准差全距异众比率四分位差离散系数数据的特征和测度集中趋势离散程度分布的形状第一节集中趋势的测度

众数中位数四分位数平均数●概念在次数分布数列中,就是出现次数最多的变量值,用表示。

主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值。一、众数●计算众数的方法(1)单项分配数列的众数计算方法

出现次数最多的那一组变量值就是众数

某商场某日连续销售15双皮鞋的尺码组成情况如下:38,37,38,40,40,41,40,42,44,40,41,39,40,40,43出现次数最多的数是40,40就是某商场某日销售皮鞋尺码的众数。(2)组距分配数列的众数计算方法第一步:根据分配数列次数最多的组确定为众数所在组。第二步:根据该组与前后相邻两组分配次数的关系推算众数。

众数与相邻两组的关系示意图

,众数组的组中值即为众数的值。

,众数会向其前一组靠,众数小于其组中值

,众数会向其后一组靠,众数大于其组中值

Moff-1f+1MoMo其中,L,U分别表示众数所在组的下限值和上限值,

i表示众数组的组距。

根据上述关系,可以利用相似三角形推导出组距分配数列的众数的计算公式如下:下限公式:

上限公式:

某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数。人均年纯收入(元)农户数2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030合计3000从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050。按下限公式计算众数:

按上限公式计算众数:●众数的优缺点优点①容易理解,②不受极值影响缺点①灵敏度和计算功能差②稳定性差③具有不唯一性二、中位数和四分位数(一)中位数●概念是指对样本数据由小到大排序后,处于中间位置上的变量值,用表示。是一个位置代表值,它主要用于测度定序数据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,但不适用于定类数据。●计算中位数的方法

(1)变量值未分组情况下:总体单位数n是奇数,中间位置的变量值是中位数。总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数。(2)变量值分组情况下:

下限公式:

上限公式:

某乡人均年纯收入中位数计算表如下:年人均纯收入(元)农户数向上累计向下累计2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000────按下限公式计算中位数:按上限公式计算中位数:●优缺点

优点①容易理解,②不受极值影响③适宜于开口组资料和些不能用数字测定的事物缺点①灵敏度和计算功能差②间断数Me(二)四分位数

中位数是从中间点将全部数据分为两部分。与中位数类似的还有四分位数、十分位数、百分位数、四分位数就是对数据集合四等分的三个数值,其中的第二个四分位数即为中位数。例如某数据集合有101项数据,则第26项、51项、76项三个数据可以把数据集合分为数目相等的四个等分,这三个数就分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为中位数。三、数值平均数:算术平均数、调和平均数、几何平均数●算术平均数主要适用于定居数据和定比数据,但不适用于定类数据和定序数据1、简单算术平均数2、加权算术平均数原始数据被分为k组,各组的组中值为各组变量值出现的频数分别为

某中学100名高中一年级男生身高(单位:厘米)的频数分布如下表。求该校高一男生的平均身高。

身高155~160160~165165~170170~175175~180180~185人数282836188当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上式计算均值

请注意!●调和平均数——该式与加权算术平均数公式的计算结果完全一致。实际上,上式只是加权算术平均数的另一种表现形式。

由此可见,调和平均数实际上是算术平均数的一种变形,二者在本质上是一致的,唯一的区别就是计算时使用了不同的数据。

只适用于定比数据,不适用于定距数据●几何平均数是n项变量值连乘积的n次方根。适合于计算现象的平均比率或平均速度,反应现象增长率的平均水平。

因此,凡是现象的变量值的连乘积等于总比率或总速度,都可以使用几何平均数来计算平均比率或平均速度。1、简单几何平均数适用于计算未分组数列的平均比率或平均速度。1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。2、加权几何平均数对于分组数列,应该采用加权几何平均数计算其平均比率或平均速度。某投资银行25年的年利率分别是:1年3%,4年5%,8年8%,10年10%,2年15%,求平均年利率。第二节离散程度的测度离散系数异众比率四分位差全距方差和标准差一、异众比率是非众数的次数与全部个案数目的比率,用表示。异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。为众数的频数,为变量值的总频数。二、四分位差●概念也称为内距或四分间距,它是上四分位数与下四分位数之差,是对定序及定序以上测量尺度的变量离散程度的测量指标。

●计算方法

①求出上四分位数和下四分位数的位置

②计算这两个四分位数之差◆

对原始资料调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、22岁。首先,求出Q1和Q3的位置:Q1的位置=

Q3的位置=

其次,从数序中找出Q1=18,Q3=21则四分位差Q=Q3—Q1=21—18=3◆对单值分组资料

如下表所示的学生学业成绩:

等级学生人数向下累计↓向上累计↑甲乙丙丁5580202575305555258025总数80--Q1位置=

Q3位置=

从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以:四分位差Q=乙—丁=两个等级。

◆对组距分组资料

Q1和Q3的计算公式为:

其中,L1为Q1属组之真实下限;L3为Q3属组之真实下限;f1为Q1属组之次数;f3为Q3属组之次数;cf1为低于Q1属组下限之累积次数;cf3为低于Q3属组下限之累积次数;w1为Q1属组之组距;w3为Q3属组之组距;n为全部个案数。某企业100名职工收入的分布如下:

收入(元)职工数(人)累计频数组中值XfXf100—19910101501500200—29910202502500300—399406035014000400—49920804509000500—5992010055011000合计100由上表知:Q1位置=

,所以Q1在300—399组内;

Q3位置=,所以Q3在400—499组内。

所以四分位差Q=Q3-Q1=162.5三、全距全距又称极差,它是一组数据中最大值与最小值之差。

全距是对定序及以上尺度的变量离散程度的测量。极差越小,表明资料越集中,集中趋势统计量的代表性越高。一般公式为:

某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78、79、80、81、82数学系:65、72、80、88、95英语系:35、78、89、98、100则三个代表队的全距分别为:中文系:82-78=4(分)数学系:95-65=30(分)英语系:100-35=65(分)对于组距分组数据,全距也可以近似表示为:四、方差及标准差方差和标准差是衡量变异程度最常用的指标,方差通常用表示。标准差又称均方差,方差的平方根即为标准差,通常用表示,分析定距变量的离散情况,最常用的方法是标准差。

对于未分组数据,公式为:对于组距分组数据,公式为:1998年度品牌飞利浦索尼东芝松下LG长虹创维海尔康佳TCL费用24292054168416111607143014301355126911751999年度品牌飞利浦东芝索尼TCLLG松下创维海尔康佳海信费用3415192918181688144013631234108010751023根据下表中1998年度和1999年度电视机广告前10名品牌广告费用统计情况,计算两个年度广告费用的标准差。根据上表可以计算出1998年度和1999年度的平均广告费用额分别为:1604.4万元,1606.5万元。

1998年度的标准差为:=361.7(万元)同理可以计算1999年度的标准差为674.7万元。五、离散系数离散系数是标准差与平均数的比值,用百分比表示。记离散系数为V,则公式为:离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。一项调查的结果如下,某市人均月收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。由题中数据得:人均收入的离散系数为人均住房面积的离散系数为可见人均住房面积的差异情况比人均收入的差异情况要大。第三节偏态与峰度的测度一.偏态及其测度二.峰度及其测度偏态与峰度分布的形状扁平分布尖峰分布偏态峰度左偏分布右偏分布与标准正态分布比较!◆

偏态

1.数据分布偏斜程度的测度,用表示。2.偏态系数=0为对称分布3.偏态系数>0为右偏分布4.偏态系数<0为左偏分布5.计算公式为α3=0α3>0α3<0(对称分布)正偏态分布(右)负偏态分布(左)

偏度值α一般在-3~3之间。3为极度右偏斜-3为极度左偏斜绝大多数变量分布偏斜程度在-1~1之间某管理局

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论