版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 数据(shj)的概括性度量共六十八页数据分布特征(tzhng)的测度集中(jzhng)趋势的度量 反映数据向其中心值靠拢或聚集的程度离散程度的度量 反映数据远离其中心值的趋势分布的形状 反映数据分布的偏态和峰态共六十八页4.1 集中(jzhng)趋势的度量一组数据(shj)向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值 分类数据 众数 顺序数据 中位数和分位数 数值型数据 平均数共六十八页众 数 众数(MODE):一组数据中出现次数最多的变量值,用Mo表示; 主要用于测度分类数据的集中(jzhng)趋势,也 可用于顺序数据
2、和数值型数据; 众数是位置代表值,不受极端值影响; 可能没有众数、有一个众数或几个众数共六十八页众数(zhn sh)的不唯一性无众数(zhn sh)原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数原始数据: 25 28 28 36 42 42共六十八页 分类数据(shj)的众数表3-4 某城市居民关注广告类型的频数分布 广告类型人数(人)比例频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告472299850.470.220.090.090.080.0547229985合计1001100解:这里的变量为“广告类型”,不同类型
3、的广告就是变量值。关注商品广告的人数最多,为47人,占总被调查人数(rn sh)的47%,因此众数为“商品广告”这一类别,即 Mo商品广告【例4.1 】某城市居民关注广告类型的众数共六十八页 顺序(shnx)数据的众数表3-5 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)百分比 (%) 非常不满意 不满意 一般 满意 非常满意24108934530836311510合计300100.0解:这里的数据为顺序(shnx)数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意【例4.2 】求甲城市家庭对住房状况评价的众数
4、共六十八页数值型数据(shj)的众数 (未分组)【例4.3 】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据(shj)如下(单位:元)。要求计算人均月收入的众数。 1080 750 1080 1080 850 960 2000 1250 1630 解:人均月收入出现次数最多的是1080,因此, Mo 1080元共六十八页数值(shz)型分组数据的众数2. 相邻两组的频数相等(xingdng)时,众数组的组中值即为众数1. 众数的值与相邻两组频数的分布有关Mo3. 相邻两组的频数不相等时,众数采用下列近似公式计算MoMoL为众数组的下限值,i为众数组的组距,f为众数组的频数,f-1
5、为众数组前一组的频数,f+1为众数组后一组的频数。共六十八页表3-6 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例4.4】根据第三章表3-6中的数据,计算50名工人日加工(ji gng)零件数的众数共六十八页顺序(shnx)数据:中位数和分位数共六十八页中位数Me50%50% 不受极端(jdun)值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 排序后处于中间(zhngjin)位置上的变量值共六十八页计算(j sun)中位
6、数的步骤 1. 排序 2. 确定中位数的位置(wi zhi)(按公式)N为数据的个数共六十八页顺序(shnx)数据的中位数(算例)表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300解:顺序数据本身就是排序的,根据中位数位置的确定公式(gngsh):从累积频数看,中位数在“一般”这一类中,即Me = 一般共六十八页数值(shz)型未分组数据的中位数奇数个数据的算例 原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3
7、4 5中位数 = 22共六十八页偶数(u sh)个数据的算例 原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6位置N+126+123.5中位数8 + 928.5共六十八页数值(shz)型分组数据的中位数 1. 计算累积频数 2. 确定(qudng)中位数所在组 3. 采用下列近似公式计算:L为中位数所在组的下限值,N为数据的个数Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距共六十八页【例4.5】根据(gnj)第三章表3-5中的数据,计算50 名工人日加工零件数的中位数表3-5 某车间50名
8、工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50共六十八页四分(s fn)位数 排序后处于(chy)25%和75%位置上的值QLQMQU25%25%25%25% 不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据共六十八页四分(s fn)位数的计算1. 排序2. 确定四分(s fn)位数的位置 下四分位数为QL,上四分位数为QU,公式为:QL位置 =QU位置 =共六十八页 如果位置是整数,四分位数就是该位置上的值; 如果是在0.5位置
9、上,则取该位置两侧值的平均数; 如果是在0.25或0.75位置上,则四分位数等于(dngy)该位置的下侧值加上按比例分摊位置两侧数值的差值。共六十八页 【例4.6】由一组10个学生的月支出的调查数据,要求(yoqi)计算该组数据的四分位数。 1500 750 780 1080 850 960 2000 1250 1630 2500 共六十八页数值型分组数据(shj)的四分位数 1. 计算累积频数 2. 确定四分(s fn)位数所在组 3. 采用下列近似公式计算:LL和LU为QL和QU所在组的下限值;SL和SU为QL和QU所在组以前各组的累积频数fL和fU为QL和QU所在组的频数,iL和iU为Q
10、L和QU所在组的组距共六十八页表3-5 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50【例4.7】计算50 名工人日加工(ji gng)零件数的四分位数共六十八页灯泡的使用寿命(小时)频数650 6602660 6705670 6806680 69014690 70026700 71018710 72013720 73010730 7403740 7503共六十八页数值型数据(shj):平均数(均值) 1. 平均数是一组数据相加后除以数据个数
11、得到的结果。 2. 集中趋势的最主要测度值 3. 易受极端值的影响(yngxing) 4. 用于数值型数据,不能用于分类数据和 顺序数据。共六十八页简单平均数 对未分组数据(shj)计算的平均数公式为:加权平均数 对分组数据计算的平均数设原始数据被分成k组,各组的组中值为M1,M2, ,Mk,各组频数为f1,f2, ,fk,则加权平均数为,X共六十八页简单(jindn)平均数算例【例4.8】计算第三章中50个工人日加工(ji gng)零件数的均值x= (117+122+121)/50 = 6149/50 = 122.98(个)共六十八页【例4.9】根据第三章表3-5中的数据,计算50 名工人日
12、加工(ji gng)零件数的均值表4-1 某车间50名工人日加工零件均值计算表按零件数分组组中值(Mi)频数(Fi)MiFi105110110115115120120125125130130135135140358141064合计50共六十八页表4-1 某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计506160.
13、0(个)共六十八页 简单平均数,其数值的大小只与变量值的大小有关; 加权平均数,其数值的大小不仅受各组变量值大小的影响,而且受各组变量值出现的频数(pn sh)即权数(fi)大小的影响。 如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。共六十八页几何(j h)平均数1. 几何平均数: N 个变量值乘积的 N 次方根,用GM表示 其计算公式为2. 主要(zhyo)用于计算平均比率和平均发展速度GEOMEAN共六十八页【例4.10】一位投资者持有一种(y zhn)股票,2001-2004年的收益率分别为4.5%,2.1%,25.5%,1.9%要求计算该投
14、资者在这4年内的平均收益率。 解:设平均收益率为G= 108.0787%则G = GM 1 = 108.0787%1 = 8.0787%_共六十八页【例4.11】某水泥生产(shngchn)企业2001年的水泥产量为100万吨,2002年的产量比2001增长了9%,2003年比2002年增长了16%,2004年比2003增长20%。求该企业2002年、2003年、2004年这三年的平均增长率。解:= 114.91%则年平均(pngjn)增长率为114.91%100% = 14.91%共六十八页众数(zhn sh)、中位数和平均数的比较共六十八页众数(zhn sh)、中位数和平均数的关系1. 如
15、果数据分布是对称(duchn)的,则 2. 如果数据是左偏分布,则3. 如果数据是右偏分布,则 Mo = Me = xx Me MoMo Me x共六十八页4.2 离散(lsn)程度的测度 离散程度:反映个体远离其中心值的程度。 离散程度越大,表示集中趋势的测度值对数据的代表性越差; 离散程度越小,表示集中趋势的测度值对数据的代表性越好。 分类数据 异众比率(bl) 顺序数据 四分位差 数值型数据 方差和标准差共六十八页分类数据(shj):异众比率1. 离散程度的测度(c du)值之一2. 非众数组的频数占总频数的比率3. 计算公式为 4. 用于衡量众数的代表性共六十八页异众比率(bl)(算例
16、)表3-1 不同类型饮料的频数分布 广告类型人数(人)频率(%)果汁矿泉水绿茶碳酸饮料其他610111581220223016合计50100解: 在调查的50人当中,购买其他类型饮料的人数占70%,异众比率比较大,用“碳酸饮料”来代表消费者购饮料类型的状况,其代表性不是很好。 Vr = 50 - 1550 = 1 - 15 50 = 0.70 = 70%共六十八页顺序数据(shj):四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD = QU - QL4.反映(fnyng)了中间50%数据的离散程度5. 不受极端值的影响6. 用于衡量中位数的代表性共六
17、十八页顺序数据(shj)的四分位差计算甲城市家庭对住房满意状况(zhungkung)评价的四分位差表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 QL = 不满意 = 2, QU = 一般 = 3四分位差: QD = QU QL = 3 2 = 1共六十八页例:为调查我校大学生对趣味玩具的偏好情况,搜及200位同学对趣味玩具的态度,得到(d do)以下数据,计算这组数据的四分位差?回答类别
18、甲城市人数 (人)累计频数 非常喜欢(买的多) 喜欢(会买一些) 一般(偶尔买) 不在意(不会买) 不喜欢 (不买不玩)2255653028合计200共六十八页数值型数据的离散(lsn)程度 极差 平均差 方差(fn ch) 标准差共六十八页极 差(range)1.一组数据的最大值与最小值之差,用R表示2.计算公式3.离散(lsn)程度的最简单测度值4.易受极端值影响5.未考虑数据的分布未分组数据(shj) R = max(Xi) - min(Xi).=组距分组数据 R 最高组上限 - 最低组下限7891078910共六十八页平均差(Md)1.各变量值与其(yq)平均数离差绝对值的平均数2.以
19、平均数为中心,反映每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散程度。3. 计算公式为未分组数据(shj)组距分组数据共六十八页【例4.13】为调查大学生对课外培训班所愿意(yun y)付出的最高费用的离散程度,计算以下数据的平均差。表4-13 课外培训班费用调查按零件数分组组中值(Mi)频数(fi)| Mi- X |Mi-X |Fi500以下50080080011001100140014001700170020002000以上101215381492合计100共六十八页表4-13 培训班费用调查按零件数分组组中值(Mi)频数(Fi)| Mi- X |Mi-X |Fi500以下
20、50080080011001100140014001700170020002000以上3506509501250155018502150101215381492807507207933936939938070608431053534550262371986合计10034518共六十八页方差(fn ch)和标准差方差:各变量值与其均值(jn zh)离差平方的平均数。标准差:方差的平方根1. 反映了各变量值与均值的平均差异2. 反映出数据的离散程度3. 最常用的离散程度测度值4. 根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差共六十八页总体(zngt)方差和标
21、准差方差(fn ch)的计算公式标准差的计算公式未分组数据分组数据未分组数据分组数据共六十八页样本(yngbn)方差和标准差方差(fn ch)的计算公式标准差的计算公式未分组数据分组数据分组数据未分组数据注意:样本方差用自由度n-1去除!共六十八页自由度(degree of freedom)1. 一组数据(shj)中可以自由取值的数据(shj)的个数2. 当样本数据的个数为 n 时,若样本均值x 确定后,则附加给n个观测值1个约束条件,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。共六十八页标准分数1. 含义:变量值与其平均数的离差除以标准差后的值,也称标准化值或z分数。2. 计
22、算公式为3. 给出某一个值在一组数据中的相对位置4. 可用于判断一组数据是否有离群(l qn)点5. 用于对变量的标准化处理共六十八页【例】一家(y ji)公司在招聘时,要对应聘者进行两项能力测试。在A项测试中,平均分数为100分,标准差是15分;在B项测试中,平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分,与平均分数相比,该应试者哪一项测试更为理想?共六十八页经验(jngyn)法则:当一组数据对称(duchn)分布时,约有68%的数据在平均数1个标准差的范围之内约有95%的数据在平均数2个标准差的范围之内约有99%的数据在平均数3个标准差的范
23、围之内在3个标准差范围之外的数据称为离群点共六十八页切比雪夫不等式 适用于任何分布形状(xngzhun)的数据 根据切比雪夫不等式,至少有(1-1/k2)的数据落在k个标准差之内,k是大于1的任意值。至少(zhsho)有75%的数据在平均数2个标准差的范围之内至少有89%的数据在平均数3个标准差的范围之内至少有94%的数据在平均数4个标准差的范围之内共六十八页离散(lsn)系数(变异系数) 离散系数:标准差与其相应(xingyng)的平均数之比计算公式为 测度数据离散程度的相对统计量 用于比较不同样本数据离散程度共六十八页【例】某管理局抽查了所属的8家企业,其产品销售数据(shj)如下,试比较产品销售额与销售利润的离散程度表4-7 某管理局所属8家企业的产品销售数据企业编号产品销
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 提高班级学习积极性的方案计划
- 企业人事部的数字化转型之路计划
- 音乐创作委托合同三篇
- 市场推广的创新方式计划
- 安全教育小班安全意识培养计划
- 邢台学院《学前儿童文学》2022-2023学年第一学期期末试卷
- 信阳师范大学《素描全身像写生》2022-2023学年第一学期期末试卷
- 关注学生学习动力的激发策略计划
- 营销策划推广服务委托合同三篇
- 西南医科大学《流行病学》2021-2022学年第一学期期末试卷
- 酒店前台接待绩效考核表
- 房地产商场招商方案
- 高密度电路板测试技术
- 慢性泪囊炎的护理课件
- 短视频IP打造与运营策略
- 北师大版六年级数学上册第六单元《比的应用题提高部分》(解析版)
- 第四章 数列(单元解读)(人教A版2019选择性必修第二册)
- 小学一年级10以内数的分解与组合练习题
- 《电子信息存储材料》课件
- 世界变局中的国家海权智慧树知到课后章节答案2023年下大连海洋大学
- 高考数学数列大题训练
评论
0/150
提交评论