




已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据的概括性度量 3 1集中趋势的度量3 2离散程度的度量3 3偏态与峰态的度量 Statistic 2010年 学习目标 度量集中趋势的统计量度量离散程度的统计量度量偏态与峰态的统计量各统计量的的特点及应用场合用Excel计算描述统计量 2010年 统计应用一种测量的平均数比单个的测量更可靠 即使用一种很准确 很可靠的仪器对同一物体进行重复测量 由于一些无法控制的因素的影响 每次得到的结果也不见得一样 美国 国家标准与技术协会 NIST NationalInstituteofStandardsandTechnology 的原子钟非常准确 它的准确程度是每600万年误差1秒 但也并不是百分之百准确世界标准时间是世界协调时间 UniversalCoordinatedTime 它是由位于法国的塞夫尔的国际计量局 BIPM 所 编辑 的 BIPM并没有比NIST更好的钟 它给出的时间是根据世界各地200个原子钟的平均时间得来的 2010年 统计应用一种测量的平均数比单个的测量更可靠 下面是NIST的时间与正确时间的10个误差数据 秒 长期来讲 对时间的度量并没有偏差 NIST的秒有时比BIPM的短 有时比BIPM的长 并不是都较短或较长 尽管NIST的测量很准确 但从上面的数字还是可以看出有些差异 世界上没有百分之百可靠的度量 但用多次测量的平均数比只用一次测量的结果可靠程度会更高 这就是BIPM要结合很多原子钟的时间的原因 2010年 数据分布的特征 3 1集中趋势的度量3 1 1平均数3 1 2中位数和分位数3 1 3各度量值的比较 第3章数据的概括性度量 案例分析 王老板有一个工厂 管理人员有王老板 6个亲戚 工作人员有5个领工 10个工人和1名徒 现在需要增加一名新的工人 小张应征而来 与王老板交谈 王老板说 我们这里的工资很高 平均每月300元 小张工作一个月后 找王老板说 你骗了我 每一个工人的工资都不超过200元 平均工资怎么可能超过300元呢 王老板说 平均工资是300元 不信你可以看工资表 2010年 2010年 请大家根据表中的数据讨论 1 王老板说每月工资是300元是否欺骗了小张 2 平均工资300元能否客观地反映工人的平均工资 3 若不能 你认为应该用什么工资反映比较合适 集中趋势 centraltendency 集中趋势 是指所有数据观测值组在一个典型或中心值周围的范围 1 一组数据向其中心值靠拢的倾向和程度测度集中趋2 就是寻找数据水平的代表值或中心值 3 1 1平均数 3 1集中趋势的度量 平均数 mean 也称为均值 常用的统计量之一消除了观测值的随机波动根据总体数据计算的 称为平均数 记为 根据样本数据计算的 称为样本平均数 记为 x 简单算数平均 Simplemean 设一组数据为 x1 x2 xn 总体数据xN 样本平均数 总体平均数 统计函数 AVERAGE Excel 例 10天早晨起床后准备时间天12345678910时间 分 39294352394440314435尽管没有一天实际为39 6分钟的值 分配大约40分钟去准备对计划你的早晨是个好的规划 算数平均数的计算 考虑一个例子 其中第4天的值是102分钟而不是52分钟 这个极端值导致平均数提高到44 6分钟这个极端值使得平均数提高了10 新的平均数大于10个准备时间中的9个 因此 算数平均数易受极端值的影响 算数平均数的计算 加权平均数 Weightedmean 设各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 样本加权平均 总体加权平均 加权平均数 例题分析 17 n个变量值连乘积的n次方根 简单几何平均数 加权几何平均数 未分组数列 分组数列 几何平均数 Geometricmean 18 某厂连续作业车间的生产情况 总合格率 96 93 95 97 82 100 96 96 96 89 93 89 85 95 85 82 97 100 82 82 3 1 2中位数和四分位数 3 1集中趋势的度量 中位数 median 排序后处于中间位置上的值 不受极端值影响 2 位置确定 3 数值确定 中位数的计算 数据个数为奇数 例3 3 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 中位数的计算 数据个数为偶数 例3 3 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 统计函数 MEDIAN Excel 四分位数 用3个点等分数据 quartile 排序后处于25 和75 位置上的值 不受极端值的影响 四分位数的计算 位置的确定 方法2 较准确算法 SPSS的算法 方法1 定义算法 四分位数的计算 位置的确定 方法3Excel给出的四分位数位置的确定方法如果位置不是整数 则按比例分摊位置两侧数值的差值 四分位数的计算 数据个数为奇数 例3 4 9个家庭的人均月收入数据 4种方法计算 原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法1 定义公式 四分位数的计算 数据个数为奇数 例3 4 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法2 SPSS公式 四分位数的计算 数据个数为奇数 例3 4 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 方法3 Excel公式 统计函数 QUARTILE Excel 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数 统计函数 MODE Excel 3 1 3各度量值的比较 3 1集中趋势的度量 具体来说 平均数 众数和中位数都是描述一组数据的集中趋势的特征数 但描述的角度和适用范围有所不同 平均数的大小与一组数据里的每个数据均有关系 其中任何数据的变动都会引起平均数的相应变动 众数着眼于对各数据出现的频数的考察 其大小只与这组数据中的部分数据有关 中位数则仅与数据的排列位置有关 某些数据的变动对中位数没有影响 当一组数据中的个别数据变动较大时 可用它来描述其集中趋势 众数 中位数和平均数的关系 一般来说 平均数 中位数和钟书都是一组数据的代表 分别代表这组数据的 一般水平 中等水平 和 多数水平 平均数涉及所有的数据 中位数和众数只涉及部分数据 它们互相之间可以相等也可以不相等 没有固定的大小关系 众数 中位数和平均数的关系 2010年 众数 中位数和平均数的关系 众数 中位数 平均数的特点和应用 平均数易受极端值影响数学性质优良 实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好 例如 检验某厂生产的手表质量时 检查人员随机抽取了10只手表 在下表中记下了每只手表的走时误差 正数表示比标准时间快 负数表示比标准时间慢 你认为用这10只手表误差的平均数来衡量这10只手表的精度合适吗 日走时误差 秒 2021 3 1024 3 举例 例如 为筹备班级里的联谊会 班长对全班同学爱吃哪几种水果作了民意调查最终买什么水果 请大家思考一下 该问题应由调查数据中的平均数 中位数还是众数决定呢 求平均年利率 投资银行某笔投资是的年利率是按复利计算的 25年利率分配时 按时间数序 有一年是3 有4年为4 有8年为8 有10年为10 有2年为15 求平均年利率 3 2离散程度的度量3 2 1极差和四分位差3 2 2平均差3 2 3方差和标准差3 2 4离散系数 比较几组数据的离散程度 第3章数据的概括性度量 2010年 离中趋势 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值 2020 3 26 41 有二组学生成绩情况如下 女生组 68 70 72 76 80 82 85 88 89 90男生组 60 62 63 65 76 88 95 96 97 98请问这二组考试情况有何区别 请思考 总分 800分平均分 80分及格率 100 3 2 1极差和四分位差 3 2离散程度的度量 2010年 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为 R max xi min xi 2010年 四分位差 quartiledeviation 也称为内距或四分间距上四分位数与下四分位数之差 Qd QU QL反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性 25 75 3 2 2平均差 3 2离散程度的度量 2010年 平均差 meandeviation 各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差 实际中应用较少 计算公式为 未分组数据 组距分组数据 2010年 平均差 例题分析 2010年 平均差 例题分析 含义 每一天的销售量平均数相比 平均相差17台 统计函数 AVEDEV 3 2 3方差和标准差 3 2离散程度的度量 2010年 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的 称为总体方差 标准差 记为 2 根据样本数据计算的 称为样本方差 标准差 记为s2 s 2010年 样本方差和标准差 samplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 2010年 总体方差和标准差 PopulationvarianceandStandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 2010年 样本标准差 例题分析 例3 6 计算计算9名员工的月工资收入的方差和标准差15007507801080850960200012501630 方差 标准差 统计函数 STDEV Excel 2010年 样本标准差 例题分析 2010年 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 2010年 标准分数 standardscore 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点 outlier 用于对变量的标准化处理均值等于0 方差等于1计算公式为 2010年 标准分数 用于数据变换 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在该组数据中的位置 也没有改变该组数分布的形状 而只是使该组数据均值为0 标准差为1 2010年 标准分数 例题分析 2010年 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 2010年 经验法则 例题分析 2010年 经验法则 例题分析 9名员工月工资收入的经验法则 2010年 切比雪夫不等式 Chebyshev sinequality 如果一组数据不是对称分布 经验法则就不再适用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少是多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有1 1 k2的数据落在平均数加减k个标准差之内 其中k是大于1的任意值 但不一定是整数 2010年 切比雪夫不等式 Chebyshev sinequality 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 3 2 4离散系数 比较几组数据的离散程度 3 2离散程度的度量 2010年 离散系数 coefficientofvariation 1 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 2010年 离散系数 例题分析 例3 9 评价哪名运动员的发挥更稳定 发挥比较稳定的运动员是塞尔维亚的亚斯娜 舍卡里奇和中国的郭文珺 发挥不稳定的运动员蒙古的卓格巴德拉赫 蒙赫珠勒和波兰的莱万多夫斯卡 萨贡 例 甲 乙两商店营业员及销售额的分组资料如下 试问两个商店营业员平均销售额的代表性哪个大 为什么 解 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性 例 计算异众比率 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 3 3偏态与峰态的度量3 3 1偏态及其测度3 3 2峰态及其测度 第3章数据的概括性度量 2010年 数据分布的形状 偏态与峰态 偏态 峰态 3 3 1偏态及其测度 3 3偏态与峰态的度量 2010年 偏态 skewness 统计学家K Pearson于1895年首次提出 所谓偏度 就是指次数分布的非对称程度 以偏态系数来表示测度统计量是偏态系数 coefficientofskewness 2 偏态系数 0为对称分布 0为右偏分布 0为左偏分布偏态系数大于1或小于 1 为高度偏态分布 偏态系数在0 5 1或 1 0 5之间 为是中等偏态分布 偏态系数越接近0 偏斜程度就越低 2010年 偏态系数 coefficientofskewness 根据原始数据计算根据分组数据计算 统计函数 SKEW Excel 2010年 偏态系数 例题分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品涂装合同样本
- 公园投资经营合同标准文本
- 仓库电梯维修合同标准文本
- 公司购买商铺合同标准文本
- 传媒内部合同样本
- 入股种植合同样本
- 公租房服务合同标准文本
- 书面保险合同样本
- 2025股权代持合同协议样本
- 个人买卖机器合同样本
- 医院处方笺模板
- 【工程项目施工阶段造价的控制与管理8100字(论文)】
- XX学校推广应用“国家中小学智慧教育平台”工作实施方案
- 非遗文化创意产品设计 课件全套 第1-5章 概述- 非遗文创产品设计案例解析
- 法律尽职调查所需资料清单
- 幼儿园中班安全教育活动《紧急电话的用途》
- 118种元素原子结构示意图
- 英语四线三格Word版
- 幼儿园行政工作制度
- 广州新华学院
- 部编版七年级下册道法期中试卷1
评论
0/150
提交评论