




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章第四章 数据分布特征的测度数据分布特征的测度学习目的学习目的w掌握众数、中位数的概念、特点及其计算方法;w了解四分位数概念;w掌握算术平均数、调和平均数、几何平均数的概念、特点及计算方法;w了解异众比率、四分位差、全距、方差及规范差的概念、及计算方法;w了解偏度和峰度的意义;w可以区分各种目的的运用场所,根据不同数据类型运用不同测度目的。主要内容主要内容:集中趋势的测度集中趋势的测度1离散程度的测度离散程度的测度 2 偏态与峰度的测度偏态与峰度的测度 3众数四分位数中位数平均数偏度峰度方差和规范差全距异众比率四分位差离散系数数据的特征和测度集中趋势离散程度分布的外形 众数中位数四分位数平
2、均数 概念概念 在次数分布数列中,就是出现次数最在次数分布数列中,就是出现次数最多的变量值,多的变量值, 用用 表示。表示。 主要用于测度定类数据的集中趋势,主要用于测度定类数据的集中趋势,当然也适用于作为定序数据以及定距和当然也适用于作为定序数据以及定距和定比数据集中趋势的测度值。定比数据集中趋势的测度值。 0M0M0M0M一、众数一、众数 计算众数的方法计算众数的方法1单项分配数列的众数计算方法单项分配数列的众数计算方法 出现次数最多的那一组变量值就是众数出现次数最多的那一组变量值就是众数 某商场某日延续销售某商场某日延续销售15双皮鞋的尺码组成情况如下:双皮鞋的尺码组成情况如下: 38,
3、37,38,40,40,41,40,42,44,40,41,39,40,40,43出现次数最多的数是出现次数最多的数是40,40就是某商场某日销售皮鞋尺码就是某商场某日销售皮鞋尺码的众数。的众数。2组距分配数列的众数计算方法 第一步:根据分配数列次数最多的组 确定为众数所在组。 第二步:根据该组与前后相邻两组 分配次数的关系推算众数。 众数与相邻两组的关系表示图众数与相邻两组的关系表示图 ,众数组的组中值即为众数的值。 ,众数会向其前一组靠,众数小于其组中值 ,众数会向其后一组靠,众数大于其组中值 11 ff11 ff11 ff其中,L,U分别表示众数所在组的下限值和上限值,i表示众数组的组距
4、。 w根据上述关系,可以利用类似三角形推导出组距分配数列的众数的计算公式如下:下限公式:iffffffLM)()(1110 上限公式:iffffffUM)()(1110 w某乡3000农户按人均年纯收入分组的资料如下表,试计算其众数。 人均年纯收入(元)农户数2000-30003000-40004000-50005000-60006000-70007000-80008000-90009000-10000240480105060027021012030合计3000w从表中可以看出,众数所在的组为4000-5000,出现的最多次数为1050。按下限公式计算众数: )(45591000)600105
5、0()4801050(480105040000元M按上限公式计算众数:)(45591000)6001050()4801050(600105050000元M 众数的优缺陷众数的优缺陷优点优点 容易了解,容易了解, 不受极值影响不受极值影响 缺陷缺陷 灵敏度和计算功能差灵敏度和计算功能差 稳定性差稳定性差 具有不独一性具有不独一性二、中位数和四分位数二、中位数和四分位数一中位数一中位数 概念概念 是指对样本数据由小到大排序后,处是指对样本数据由小到大排序后,处于中间位置上的变量值,用于中间位置上的变量值,用 表示。表示。 是一个位置代表值,它主要用于测度是一个位置代表值,它主要用于测度定序数据的集
6、中趋势,当然也适用于定定序数据的集中趋势,当然也适用于定距数据和定比数据的集中趋势,但不适距数据和定比数据的集中趋势,但不适用于定类数据。用于定类数据。 eM 计算中位数的方法 1变量值未分组情况下: 总体单位数n是奇数,中间位置的变 量值是中位数。 总体单位数n是偶数,中间位置的两个变量值的算术平均数为中位数。 2变量值分组情况下: 下限公式:ifSfLMmme12 上限公式:ifSfUMmme12 w某乡人均年纯收入中位数计算表如下:某乡人均年纯收入中位数计算表如下:年人均纯收入(元)农户数向上累计向下累计2000-30003000-40004000-50005000-60006000-7
7、0007000-80008000-90009000-10000240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000w按下限公式计算中位数:w按上限公式计算中位数:)(474310001050720230004000元eM)(4743100010501230230005000元eM 优缺陷优缺陷 优点优点 容易了解,容易了解, 不受极值影响不受极值影响 适宜于开口组资料和些不能用数适宜于开口组资料和些不能用数字测定的事物字测定的事物缺陷缺陷 灵敏度和计算功能差灵敏度和计算功能
8、差 延续数延续数Me二四分位数二四分位数 中位数是从中间点将全部数据分为两部分。中位数是从中间点将全部数据分为两部分。与中位数类似的还有四分位数、非常位数、与中位数类似的还有四分位数、非常位数、百分位数、四分位数就是对数据集合四等分百分位数、四分位数就是对数据集合四等分的三个数值,其中的第二个四分位数即为中的三个数值,其中的第二个四分位数即为中位数。例如某数据集合有位数。例如某数据集合有101项数据,那么项数据,那么第第26项、项、51项、项、76项三个数据可以把数据项三个数据可以把数据集合分为数目相等的四个等分,这三个数就集合分为数目相等的四个等分,这三个数就分别是第一、第二、第三四分位数,
9、其中第分别是第一、第二、第三四分位数,其中第一个四分位数称为上四分位数,第三个四分一个四分位数称为上四分位数,第三个四分位数称为下四分位数,第二个四分位数就为位数称为下四分位数,第二个四分位数就为中位数。中位数。三、数值平均数:算术平均数、调和平三、数值平均数:算术平均数、调和平均数、几何平均数均数、几何平均数 算术平均数算术平均数总体单位数量总体标志数量算术平均数 主要适用于定居数据和定比数据,但不适用于定类数据和定序数据 1、简单算术平均数2、加权算术平均数nXnXXXXniin121kiikiiikknffXffffXfXfXX11212211kXXX,21kfff,21原始数据被分为k
10、组,各组的组中值为各组变量值出现的频数分别为 w某中学100名高中一年级男生身高单位:厘米的频数分布如下表。求该校高一男生的平均身高。w 身高155160 160165 165170 170175 175180 180185人数 2 8 28 36 18 8)(7 .17181836288285 .18285 .16225 .15711厘米kiikiiiffXXkikiiiikiikiiiffXffXX1111当我们掌握的不是各组变量值出现的频数,而是当我们掌握的不是各组变量值出现的频数,而是频率时,也可直接根据上式计算均值频率时,也可直接根据上式计算均值 请留意! 调和平均数调和平均数iii
11、iiMXfXfXH该式与加权算术平均数公式的计算结果完全一致。实践上,上式只是加权算术平均数的另一种表现方式。 由此可见,调和平均数实践上是算术平均数的一种变由此可见,调和平均数实践上是算术平均数的一种变形,二者在本质上是一致的,独一的区别就是计算时形,二者在本质上是一致的,独一的区别就是计算时运用了不同的数据。运用了不同的数据。 只适用于定比数据,不适用于定距数据 几何平均数几何平均数 是是n项变量值连乘积的项变量值连乘积的n次方根。次方根。 适宜于计算景象的平均比率或平均速度,适宜于计算景象的平均比率或平均速度,反响景象增长率的平均程度。反响景象增长率的平均程度。 因此,凡是景象的变量值的
12、连乘积等于因此,凡是景象的变量值的连乘积等于总比率或总速度,都可以运用几何平均总比率或总速度,都可以运用几何平均数来计算平均比率或平均速度。数来计算平均比率或平均速度。1、简单几何平均数、简单几何平均数 适用于计算未分组数列的平均比率或平均速度适用于计算未分组数列的平均比率或平均速度 。nnGXXXXX3211994-20191994-2019年我国工业品的产量分别是上年的年我国工业品的产量分别是上年的107.6%107.6%、102.5%102.5%、100.6%100.6%、102.7%102.7%、102.2%102.2%,计算这,计算这5 5年的平均开展速度。年的平均开展速度。 %1
13、.103031. 1022. 1027. 1006. 1025. 1076. 15321nnGXXXXX2、加权几何平均数、加权几何平均数 对于分组数列,应该采用加权几何平均数计算其平均对于分组数列,应该采用加权几何平均数计算其平均比率或平均速度比率或平均速度 。ffnffGnXXXX2121某投资银行某投资银行2525年的年利率分别是:年的年利率分别是:1 1年年3%3%,4 4年年5%5%,8 8年年8%8%,1010年年10%10%,2 2年年15%15%,求平均年利率。,求平均年利率。 %6 .108086. 115. 11 . 108. 105. 103. 125210842121f
14、fnffGnxxxX第二节第二节 离散程度的测度离散程度的测度离散系数离散系数异众比率异众比率四分位差四分位差全距全距方差和规范差方差和规范差一、异众比率一、异众比率 是非众数的次数与全部个案数目的比率是非众数的次数与全部个案数目的比率 ,用,用 表示。表示。rV异众比率是对众数的补充,异众比率越小,阐明众数的代表性越好;反之,异众比率越大,那么阐明众数的代表性越差。nfnVMr0为众数的频数,为变量值的总频数。0Mfn二、四分位差二、四分位差 概念概念 也称为内距或四分间距,它是上四分位数与下四也称为内距或四分间距,它是上四分位数与下四分位数之差,是对定序及定序以上丈量尺度的变分位数之差,是
15、对定序及定序以上丈量尺度的变量离散程度的丈量目的。量离散程度的丈量目的。 计算方法计算方法 求出上四分位数和下四分位数的位置求出上四分位数和下四分位数的位置 计算这两个四分位数之差计算这两个四分位数之差 对原始资料对原始资料调查调查1111位同窗的年龄如下:位同窗的年龄如下:1717岁、岁、1818岁、岁、1818岁、岁、1919岁、岁、1919岁、岁、2020岁、岁、2020岁、岁、2121岁、岁、2121岁、岁、2222岁、岁、2222岁。岁。 首先,求出Q1和Q3的位置:Q1的位置= 3411141nQ3的位置= 94) 111(34) 1(3n其次,从数序中找出Q1=18,Q3=21那
16、么四分位差Q= Q3Q1=2118=3 对单值分组资料对单值分组资料 如下表所示的学生学业成果:如下表所示的学生学业成果: 等级 学生人数 向下累计 向上累计甲乙丙丁 5 5 80 20 25 75 30 55 55 25 80 25总数 80 - -Q1位置= 25.204180Q3位置= 75.604) 180(3从累积次数分布表中,很易看到在这两个位置上的值分别是丁从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以:四分位差级和乙级,所以:四分位差Q=乙乙丁丁=两个等级。两个等级。 对组距分组资料对组距分组资料 Q1和和Q3的计算公式为:的计算公式为: w14L1Q11
17、1fcfnw3343L3Q33fcfn其中,其中,L1L1为为Q1Q1属组之真实下限;属组之真实下限;L3L3为为Q3Q3属组之真实下限;属组之真实下限;f1f1为为Q1Q1属组之次数;属组之次数;f3f3为为 Q3Q3属组之次数;属组之次数;cf1cf1为低于为低于Q1Q1属组下限之累积次数;属组下限之累积次数;cf3cf3为低于为低于Q3Q3属组下限之累积次属组下限之累积次数;数;w1w1为为Q1Q1属组之组距;属组之组距;w3w3为为Q3Q3属组之组距;属组之组距;n n为全部个案数。为全部个案数。某企业某企业100100名职工收入的分布如下:名职工收入的分布如下: 收入(元)收入(元)
18、 职工数(人)职工数(人) 累计频数累计频数 组中值组中值 XfXf X f X f 100199 10 10 150 1500100199 10 10 150 1500200299 10 20 250 2500200299 10 20 250 2500300399 40 60 35040 60 35020 80 450 9000400499 20 80 450 9000500599 20 100 550 11000500599 20 100 550 11000 合计合计 100 100 由上表知:Q1位置= 25.254110041n,所以
19、Q1在300399组内; Q3位置= 75.754) 1100( 34) 1( 3n,所以Q3在400499组内。 5 .31210040204100300Q1475100206041003400Q3所以四分位差所以四分位差Q=Q3-Q1=162.5三、全距三、全距全距又称极差,它是一组数据中最大值与最小值之差。 全距是对定序及以上尺度的变量离散程度的丈量。极差越小,阐明资料越集中,集中趋势统计量的代表性越高。普通公式为:普通公式为: )min()max(iiXXR某校某校3 3个系各选个系各选5 5名同窗,参与智力竞赛,他们的成果分别如下:名同窗,参与智力竞赛,他们的成果分别如下:中文系:中
20、文系:7878、7979、8080、8181、8282数学系:数学系:6565、7272、8080、8888、9595 英语系:英语系:3535、7878、8989、9898、100100那么三个代表队的全距分别为:中文系:那么三个代表队的全距分别为:中文系:82-78=4分数学系:分数学系:95-65=30分英语系:分英语系:100-35=65分分 对于组距分组数据,全距也可以近似表示为:对于组距分组数据,全距也可以近似表示为:最低组下限值最高组上限值 R四、方差及规范差四、方差及规范差2方差和规范差是衡量变异程度最常用的目的,方差通常用方差和规范差是衡量变异程度最常用的目的,方差通常用表示
21、。表示。规范差又称均方差,方差的平方根即为规范差,通常用规范差又称均方差,方差的平方根即为规范差,通常用表示,分析定距变量的离散情况,最常用的方法是规范差。表示,分析定距变量的离散情况,最常用的方法是规范差。 对于未分组数据,公式为:对于未分组数据,公式为:对于组距分组数据,公式为:对于组距分组数据,公式为:nXXnii122)(nXXnii12)(kkiikkiiiffXX2)(kiiikiiffXX1122)(2019年度品牌飞利浦索尼东芝松下LG长虹创维海尔康佳TCL费用24292054168416111607143014301355126911752019年度品牌飞利浦东芝索尼TCLL
22、G松下创维海尔康佳海信费用3415192918181688144013631234108010751023根据下表中根据下表中20192019年度和年度和20192019年度电视机广告前年度电视机广告前1010名品牌广告名品牌广告费用统计情况,计算两个年度广告费用的规范差。费用统计情况,计算两个年度广告费用的规范差。根据上表可以计算出根据上表可以计算出2019年度和年度和2019年度的平均广告费用额分别为:年度的平均广告费用额分别为:1604.4万元,万元,1606.5万元。万元。 2019年度的规范差为:年度的规范差为:nXXnii1298)(10)4 .16041175()4 .16041
23、269()4 .16041355()4 .16041430()4 .16041430()4 .16041607()4 .16041611()4 .16041684()4 .16042054()4 .16042429(2222222222=361.7万元 同理可以计算同理可以计算2019年度的规范差为年度的规范差为674.7万元。万元。五、离散系数五、离散系数离散系数是规范差与平均数的比值,用百分比表示。记离散系数离散系数是规范差与平均数的比值,用百分比表示。记离散系数为为V,那么公式为:,那么公式为:100%VX离散系数是一种相对的离散量数统计量,它使我们可以对同一总体中的两种不同的离散量数统
24、计量进展比较,或者对两个不同总体中的同一离散量数统计量进展比较。一项调查的结果如下,某市人均月收入为一项调查的结果如下,某市人均月收入为9292元,规范差为元,规范差为1717元,人均住房面积元,人均住房面积7 75 5平方米,平方米,规范差为规范差为1 18 8平方米。试比较该市人均收入和人均住房情况哪一个差别程度比较大。平方米。试比较该市人均收入和人均住房情况哪一个差别程度比较大。 由题中数据得:人均收入的离散系数为 %5 .18%1009217100%CVXS人均住房面积的离散系数为 %24%1005 . 78 . 1100%CVXS可见人均住房面积的差别情况比人均收入的差别情况要大。可见人均住房面积的差别情况比人均收入的差别情况要大。第三节 偏态与峰度的测度w一一. 偏态及其测度偏态及其测度w二二. 峰度及其测度峰度及其测度偏态与峰度分布的外形偏态与峰度分布的外形 偏态偏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件评审报告范文
- 燃气研究报告范文
- 清远风险调查报告范文
- 浙江国企招聘2024金华农产品批发市场有限公司招聘1人笔试参考题库附带答案详解
- 汽车业务实训报告范文
- 二零二五年度新能源汽车专用车位使用权转让及维护协议
- 2025年度私募基金份额代持与风险隔离管理合同
- 石家庄市2025年度劳动合同解除争议处理流程
- 二零二五年度水沟盖板行业专利申请与保护合同
- 二零二五年度电子产品跨界合作开发合同
- 固定翼无人机飞行原理课件
- 《母婴护理》课程标准
- 软基处治面积四方联测测量记录表(清淤后)
- 考试通用答题卡word模板
- 尾矿库安全检查表
- 解除、终止劳动合同通知书范本
- 劳动定额定员标准化1(孙义敏)
- 深信服桌面云方案
- 2021年深圳实验学校初中部七年级入学分班考试数学试卷及答案解析
- 海克斯康三坐标测量仪的使用课件
- 高血压临床路径
评论
0/150
提交评论