统计学第二章统计数据的描述.ppt_第1页
统计学第二章统计数据的描述.ppt_第2页
统计学第二章统计数据的描述.ppt_第3页
统计学第二章统计数据的描述.ppt_第4页
统计学第二章统计数据的描述.ppt_第5页
已阅读5页,还剩158页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 统计先是思维而后才是数学 第二章统计数据的描述 2 统计先是思维而后才是数学 第一节统计数据的整理第二节分布集中趋势的测度第三节分布离散程度的测度第四节分布偏态与峰度的测度第五节统计表和统计图 3 统计先是思维而后才是数学 学习目标 掌握数据的整理方法掌握集中 离散趋势的测度掌握偏态峰度的测度掌握统计表和统计图的制作与使用 4 统计先是思维而后才是数学 录取中有无歧视 某高校两个系 财经系 工程系 的报考及录取情况 录取比率 男生 350 800 44 女生 200 600 33 男生成绩好 性别歧视 5 统计先是思维而后才是数学 两个系的报考及录取情况 工程系 男女录取比率50 财经系 男女录取比率25 说明的问题 对数据1 要从不同的角度进行分析 2 要注意结构或是权数的影响 6 统计先是思维而后才是数学 2 1统计数据的整理 7 统计先是思维而后才是数学 统计整理的概念和作用 8 统计先是思维而后才是数学 制定统计整理方案 对原始资料进行审核 数据处理 制作统计表或统计图 统计整理的步骤 9 统计先是思维而后才是数学 数据的审核 对原始数据的审核的内容完整性审核准确性审核对第2手数据的审核的内容完整性审核准确性审核时效性适用性 10 统计先是思维而后才是数学 数据的排序 datarank 按一定顺序将数据排列 以发现一些明显的特征或趋势 找到解决问题的线索排序有助于对数据检查纠错 以及为重新归类或分组等提供依据在某些场合 排序本身就是分析的目的之一排序可借助于计算机完成 世界人均国民总收入 11 统计先是思维而后才是数学 12 统计先是思维而后才是数学 2 1 1统计数据的分组 13 统计先是思维而后才是数学 统计分组的基本原则 必须保证在某一标志上 组内的同质性和组间的差异性 分组兼有 分和合 双重含义 一 统计分组的概念和作用 14 统计先是思维而后才是数学 分组 分组前 分组后 25 33 42 15 统计先是思维而后才是数学 统计分组的关键 1 选择分组标志 品质标志 性别 质量等 数量标志 数量 数值等 2 划分各组界限 二 分组标志的选择与分组种类 16 统计先是思维而后才是数学 学生按性别分组 按品质标志分组 17 统计先是思维而后才是数学 某班学生按考试成绩分组 18 统计先是思维而后才是数学 按数量标志分组 某班学生按年龄频数分布 19 统计先是思维而后才是数学 2 1 2次数分配 20 统计先是思维而后才是数学 次数分配是将总体按一定的标志分组 说明个体在各组之间的分布情况 是统计资料整理结果的一种重要表现 次数分配 也称次数 频数 分布 次数分配组成要素 1 组的名称2 各组次数 也称频数 或频率 21 统计先是思维而后才是数学 22 统计先是思维而后才是数学 单变量值分组 要点 1 将一个变量值作为一组2 适合于离散变量3 适合于变量值较少的情况 23 统计先是思维而后才是数学 例题分析 例 某车间30名工人每周加工某种零件件数如右表 24 统计先是思维而后才是数学 单变量值分组表 实例 变量值 25 统计先是思维而后才是数学 组距分组 要点 将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循 不重不漏 的原则 上组限值不算在该组内 可采用等距分组 也可采用不等距分组 26 统计先是思维而后才是数学 等距分组各组的组距相等各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律 27 统计先是思维而后才是数学 不等距分组各组的组距是不相等各组频数的分布受组距大小不同的影响 28 统计先是思维而后才是数学 等距分组步骤 1 确定组数 组数的确定应以能够显示数据的分布特征和规律为目的 一般情况下 组数不应少于5组 也不应多于15组 在实际分组时 可以按Sturges提出的经验公式来确定组数K 四舍五入取整 例如2 1的数据 29 统计先是思维而后才是数学 2 确定各组的组距 组距 ClassWidth 是一个组的上限与下限之差 可根据全部数据的最大值和最小值及所分的组数来确定 即组距 最大值 最小值 组数例2 1的数据 最大值为128 最小值为84 则组距 128 84 6 7 3 组距宜取5或10的倍数 近似值 在实践中 组数和组距要通过反复的实验确定 最终确定出最有意义的组数和组距的组合 30 统计先是思维而后才是数学 3 确定组限 组限是分组的数量界限 是表明每组界限的两头数值 下限 lowlimit 一个组的最小值上限 upperlimit 一个组的最大值组限的具体形式有 重合组限和间断组限 闭口组限和开口组限 确定组限的原则1 最小一组的下限必须包含数列中最小变量值 最大组的上限必须包含数列中最大变量值 确定组限的原则2 遵循不重不漏的原则 不重 是指一项数据只能分在其中的某一组 不能在其他组中重复出现 不漏 在所分的全部组别中每项数据都能分在其中的某一组 不能遗漏 31 统计先是思维而后才是数学 4 根据分组计算频数 整理成频数分布表 将原始数据按照各自的大小分配到各组中 本例可以得到如下频数分布表 重合组限 闭口组限 32 统计先是思维而后才是数学 对于重合组限的形式 为解决 不重 的问题 统计分组时习惯上规定 上组限不在内 即当相邻两组的上下限重叠时 恰好等于其一组上限的变量值不算在本组内 而计算在下一组内 重合组限既适用于连续型变量分组也适用于离散型变量分组 应用非常广泛 33 统计先是思维而后才是数学 对于离散变量 可以采用相邻两组组限间断的办法 间断组限 解决 不重 的问题 34 统计先是思维而后才是数学 如果全部数据中的最大值和最小值与其他数据相差悬殊 为避免出现空白组或个别极端值被漏掉 第一组和最后一组可以采取 xx以下 及 xx以上 这样的开口组 开口组通常以相邻组的组距作为其组距 例如 在例2 1的30个数据中 假定将最小值改为64 最大值改为160 采用上面的分组就会出现 空白组 这时可采用 开口组 如80以下 130以上 开口组限 缺少上限或者下限的组限设置 35 统计先是思维而后才是数学 开口组 36 统计先是思维而后才是数学 编制频数分布表的步骤 37 统计先是思维而后才是数学 在研究分析次数分布时 还需要计算 累计频数和累计频率 1 累计频数 将各类别的频数逐级累加 有两种方法 一是可以从最小组一方向最大组的一方累加频数 称为向上累积 二是可以从最大组的一方向最小组的一方累加频数 称为向下累积 累计频率 将各类别的频率 百分比 逐级累加 38 统计先是思维而后才是数学 例 累计频数和累计频率的计算 39 统计先是思维而后才是数学 在根据组距数列进行统计计算时 需要确定组中值 作为各组变量值的代表值 组中值 classmidpoint 下限与上限之间的中点值 概念 组中值 组中值这种代表有一个必要的假定条件 即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布 如实际数据的分布不符合这一假定 用组中值作为一组数据的代表值会有一定的误差 40 统计先是思维而后才是数学 例 组中值计算 41 统计先是思维而后才是数学 在开口组中 组中值的计算以邻近组组距为依据 可见 开口组的组中值既假定变量值是均匀分布或对称分布 又假定组距与邻近组组距相等 42 统计先是思维而后才是数学 例 组中值计算 次数分配表的编制 例题分析 例 某车间30名工人每周加工某种零件件数如右表 试对数据进行分组 使用Excel频数函数 FREQUENCY 使用Excel中的统计函数 FREQUENCY 来创建频数分布表和直方图 可解决这一问题 创建频数分布表的步骤是选择与接受区域相临近的单元格区域 作为频数分布表输出的区域选择统计函数中的 FREQUENCY 函数在对话框Date array后输入数据区域 在Bins array后输入各组分界点同时按下ctrl shift Enter组合键 即得到频数分布 统计函数 FREQUENCY 次数分配表 46 统计先是思维而后才是数学 2 1 3次数分配直方图 47 统计先是思维而后才是数学 1 直方图 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图 Histogram 直方图下的总面积等于1 48 统计先是思维而后才是数学 分组数据的图示 直方图的绘制 某车间工人周加工零件直方图 我一眼就看出来了 周加工零件在100 110之间的人数最多 高度表示每一组的频数或百分比 宽度则表示各组的组距 横轴标注的刻度应该是连续区间 49 统计先是思维而后才是数学 2 折线图 折线图也称频数多边形图是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 50 统计先是思维而后才是数学 分组数据的图示 折线图的绘制 折线图与直方图下的面积相等 某车间工人周加工零件折线图 51 统计先是思维而后才是数学 3 次数分布曲线 当对数据所分的组数很多时 组距会越来越小 这时所绘制的折线图就会越来越光滑 逐渐形成一条平滑的曲线 这就是频数分布曲线 52 统计先是思维而后才是数学 频数分布曲线的类型 图几种常见的频数分布 53 统计先是思维而后才是数学 2 1 4洛伦兹曲线与基尼系数 54 统计先是思维而后才是数学 洛伦茨曲线 累积次数分配折线图 20世纪初美国经济学家 统计学家洛伦茨 M E Lorentz 根据意大利经济学家帕累托 V Pareto 提出的收入分配公式绘制而成的 是描述收入和财富分配性质的曲线 分析该国家或地区分配的平均程度 累积的人口百分比 累积的收入百分比 绝对公平线 洛伦茨曲线 55 统计先是思维而后才是数学 基尼系数 20世纪初意大利经济学家基尼 G Gini 根据洛伦茨曲线给出了衡量收入分配平均程度的指标A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A 0 则基尼系数 0 表示收入绝对平均如果B 0 则基尼系数 1 表示收入绝对不平均基尼系数在0和1之间取值一般认为 基尼系数若小于0 2 表明分配平均 基尼系数在0 2至0 4之间是比较适当的 即一个社会既有效率又没有造成极大的分配不公 基尼系数在0 4被认为是收入分配不公平的警戒线 超过了0 4应该采取措施缩小这一差距 56 统计先是思维而后才是数学 2 2分布集中趋势的测度 57 统计先是思维而后才是数学 集中趋势是指一组数据向某一中心值靠拢的倾向 测度集中趋势也就是寻找数据一般水平的代表值或中心值 58 统计先是思维而后才是数学 一 众数二 中位数三 四分位数四 均值五 几何均值六 切尾均值七 众数 中位数和均值的比较 59 统计先是思维而后才是数学 1 概念 在总体中出现次数最多的那个标志值就是众数 2 2 1众数M0 从分布的角度看 众数是具有明显集中趋势点的数值 一组数据分布的最高峰点所对应的数值即为众数 例如 集市上某种蔬菜的成交价格 元 为 0 8 0 9 0 9 1 0 1 2 1 2 1 2 1 2 1 5 1 5 1 61 2元出现次数最多 就是众数 60 统计先是思维而后才是数学 一组数据可能没有众数或有几个众数 不唯一性 61 统计先是思维而后才是数学 若有两个次数相等的众数 则称复众数 只有总体单位数比较多 而且又有明显的集中趋势时才存在众数 由定义可看出众数存在的条件 62 统计先是思维而后才是数学 下三图无众数 在单位数很少 或单位数虽多但无明显集中趋势时 计算众数是没有意义的 63 统计先是思维而后才是数学 1 定类数据的众数 众数 商品广告 对定序数据同样 2 众数的计算方法 64 统计先是思维而后才是数学 2 定序数据的众数 解 这里的数据为定序数据 变量为 回答类别 城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 65 统计先是思维而后才是数学 根据单项数列确定众数 某种商品的价格情况 众数M0 3 00 元 3 数值数据的众数 66 统计先是思维而后才是数学 根据组距数列确定众数 利用比例插值法推算众数的近似值 由最多次数来确定众数所在组 其中 L 众数组的下限 1 众数组与前一组的频数之差 2 众数组与后一组的频数之差i 众数组的组距 67 统计先是思维而后才是数学 表中100 110 即众数所在组 68 统计先是思维而后才是数学 解 众数组是 100 110 的组 则 69 统计先是思维而后才是数学 众数的特点 集中趋势的测度值之一出现次数最多的变量值众数是位置代表值 不受极端值的影响可能没有众数或几个众数适用于定类数据 定序数据 定量数据众数所体现的统计思想是 在一组数据的中心点附近 变量值出现的频数较高 根据众数组及相邻两组的频数分布 确定中心点的位置 70 统计先是思维而后才是数学 在某些情况下 众数是一个较好的代表值 例如在服装行业中 生产商 批发商和零售商在进行生产和存货决策时 更感兴趣的是最普遍的尺寸而不是平均尺寸 又如 当要了解大多数家庭的收入状况时 也要用到众数 例 买菜 适合于数据量较多时使用众数值偏离众数组组中值得程度越大 分布的形状越偏 71 统计先是思维而后才是数学 1 概念 将总体中各单位标志值按大小顺序排列 居于中间位置的那个标志值就是中位数 2 2 2中位数Me 72 统计先是思维而后才是数学 1 定序数据的中位数 表某城市家庭对住房状况的评价 对于定序数据 确定中位数位置用 中位数位置 300 2 150 中位数 一般 2 中位数的计算方法 73 统计先是思维而后才是数学 由未分组资料计算中位数 a 先对数据进行排序 b 确定中位数的位置 其公式为 n为数据的个数 c 最后确定中位数的具体数值 当n为偶数时 当n为奇数时 2 数值数据的中位数 74 统计先是思维而后才是数学 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 75 统计先是思维而后才是数学 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 76 统计先是思维而后才是数学 由分组数据确定中位数 a 要先根据公式 f 2 确定中位数的位置 并确定中位数所在的组 f 总次数 77 统计先是思维而后才是数学 b 然后采用下面的公式计算中位数的近似值 式中 f为数据的个数 L为中位数所在组的下限 Sm 1为中位数所在组以前各组的累积频数 fm为中位数所在组的频数 i为中位数所在组的组距 78 统计先是思维而后才是数学 中位数是一种位置平均数 它也不受极端值及开口组的影响 具有稳健性 各单位标志值与中位数离差的绝对值之和是个最小值 对某些不具有数学特点或不能用数字测定的现象 可以用中位数求其一般水平 3 中位数的特点 79 统计先是思维而后才是数学 2 2 3四分位数 quartile 四分位数是通过三个点将全部数据等分为四部分 其中每部分包含25 的数据 很显然 中间的四分位数就是中位数 排序后处于25 和75 位置上的值 即通常说的第一个四分位数 下四分位数 第三个四分位数 上四分位数 80 统计先是思维而后才是数学 1 不受极端值的影响2 主要用于定序数据 也可用于数量数据 但不能用于定类数据 特点 81 统计先是思维而后才是数学 定序数据四分位数 位置的确定 82 统计先是思维而后才是数学 定序数据的四分位数 例题分析 解 QL位置 300 4 75QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中 四分位数为 QL 不满意QU 一般 83 统计先是思维而后才是数学 1 未分组四分位数 原始数据 未分组 当四分位数的位置不在某一个数值上 按比例分摊位置两侧数值的差值 先排序 然后确定四分位数的位置 数量数据四分位数 84 统计先是思维而后才是数学 例 数量数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 QL和QU之间包含了50 的数据 可以说有一半的家庭人均收入在815到1565元之间 85 统计先是思维而后才是数学 例如 数量数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 QL和QU之间包含了50 的数据 可以说有一半的家庭人均收入在772 5到1532 5元之间 86 统计先是思维而后才是数学 2 分组数据的四分数 计算 其中 L是四分位数所在组的下限值 S是以前组的累计频数 f是所在组的频数 i为组距 87 统计先是思维而后才是数学 例 用表2 10的数据分布资料计算下四分位数 表明25 的人口收入在2793元以下 收入在2793元以上的有75 的人口 88 统计先是思维而后才是数学 2 2 4均值 mean 均值是全部数据的算术平均 也称为算术平均数 是集中趋势的最常用测度值是一组数据的均衡点所在 体现了数据的必然性特征易受极端值的影响用于数量数据 不能用于定类数据和定序数据 89 统计先是思维而后才是数学 1 简单算术平均数 未分组的原始数据 原始数据 例 某生产小组有10名工人 日产零件分别为 40 40 35 31 28 56 40 35 44 31件 则该组10名工人平均每人日产量 90 统计先是思维而后才是数学 2 加权算术平均数 分组数据 各组组中值 其中 xi表示第i组的组中值 fi是各组次数 也称为权数 k表示分组的组数 91 统计先是思维而后才是数学 加权均值 例题分析 根据不分组的公式计算均值 103 5 相差0 83件 92 统计先是思维而后才是数学 分析 起到权衡轻重的作用 决定平均数的变动范围 93 统计先是思维而后才是数学 94 统计先是思维而后才是数学 加权算术平均数受两因数的影响 变量值大小的影响 次数多少的影响 次数大的标志值对影响大 反之 影响小 而简单算术平均数只反映变量值大小这一因素的影响 加权算术平均数与简单算术平均数不同在于 95 统计先是思维而后才是数学 变量值与其算术平均数的离差之和恒等于零 即 变量值与其算术平均数的离差平方和为最小 即 算术平均数的主要数学性质 96 统计先是思维而后才是数学 离差的概念 1 1 2 1 3 97 统计先是思维而后才是数学 思考题 比特啤酒公司雇用了468名员工 其中有56名管理人员 130名行政和技术人员 其余282人是工人 这三组人的平均工资分别是500英镑 300英镑和200英镑 财务主管希望计算全体员工的平均工资 98 统计先是思维而后才是数学 正确的计算方法 99 统计先是思维而后才是数学 1 几何平均数的概念和计算方法 2 2 5几何平均数 又称 对数平均数 是n个不同数值的连乘积的n次方根 简单几何平均数 可看作是均值的一种变形 100 统计先是思维而后才是数学 也可看作是均值的一种变形 加权几何平均数 101 统计先是思维而后才是数学 某机械厂有毛坯 粗加工 精加工 装配车间四个流水线作业的车间 本月份一 二 三 四车间制品合格率分别为95 92 90 85 计算平均车间产品合格率 分析 设最初投产100A个单位 则第一车间的合格品为100A 0 95 第二车间的合格品为 100A 0 95 0 92 第三车间的合格品为 100A 0 95 0 92 0 90 第四车间的合格品为 100A 0 95 0 92 0 90 0 85 102 统计先是思维而后才是数学 因该流水线的最终合格品即为第四车间的合格品 故该流水线总的合格品应为100A 0 95 0 92 0 90 0 85 则该流水线产品总的合格率为 即该流水线总的合格率等于各车间合格率的连乘积 符合几何平均数的适用条件 故需采用几何平均法计算 103 统计先是思维而后才是数学 设本金为A 则至各年末的本利和应为 第1年末的本利和为 第2年末的本利和为 第25年末的本利和为 分析 第25年的计息基础 投资银行某笔投资的年利率是按复利计算的 25年的年利率分配是 有1年为3 有4年为5 有8年为8 有10年为10 有2年为15 求平均年利率 104 统计先是思维而后才是数学 则该笔本金25年总的本利率为 即25年总本利率等于各年本利率的连乘积 符合几何平均数的适用条件 故计算平均年本利率应采用几何平均法 解 105 统计先是思维而后才是数学 2 几何平均数的特点和用途 如果数列中有一个标志值等于零或负值 就无法计算 它适用于反映特定现象的平均水平 即现象的总标志值是各单位标志值的连乘积 主要应用于在动态数列中求平均发展速度 平均增减率等 106 统计先是思维而后才是数学 2 2 6切尾均值 trimmedMean 1 是去掉大小两端的若干数值后计算中间数据的均值2 在电视大奖赛 体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3 计算公式为 n表示观察值的个数 表示切尾系数 107 统计先是思维而后才是数学 切尾均值 例题分析 例 某次比赛共有11名评委 对某位歌手的给分分别是 经整理得到顺序统计量值为 去掉一个最高分和一个最低分 取1 11 108 统计先是思维而后才是数学 数据两端切去几个数据 通过切尾系数决定 切尾均值就是算术平均数 接近1 2时 切尾均值是中位数 切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个优点而形成的统计量 当切尾系数等于0或接近1 2时 切尾均值公式变为算术平均数和中位数公式 是切尾均值的两种特例 109 统计先是思维而后才是数学 众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 2 2 7众数 中位数和均值之间的关系 110 统计先是思维而后才是数学 1 当总体分布呈对称状态时 三者合而为一 111 统计先是思维而后才是数学 2 当总体分布呈非对称状态时 112 统计先是思维而后才是数学 f X 113 统计先是思维而后才是数学 在轻度偏斜的情况下 三者的关系可以用卡尔 皮尔逊经验公式表示 114 统计先是思维而后才是数学 一组工人的月收入众数为700元 月收入的算术平均数为1000元 则月收入的中位数近似值是 115 统计先是思维而后才是数学 数据类型和所适用的集中趋势测度值 表示最适合 116 统计先是思维而后才是数学 2 3分布离散程度的测度 117 统计先是思维而后才是数学 离散程度或离中程度 反映的是各变量值远离其中心值的程度 是数据分布的另一个重要特征 从另一个侧面说明了集中趋势测度值的代表程度 118 统计先是思维而后才是数学 甲 乙两学生某次考试成绩列表 甲 乙两学生的平均成绩为80分 集中趋势一样 但是他们偏离平均数的程度却不一样 乙组数据的离散程度大 数据分布越分散 平均数的代表性就越差 甲组数据的离散程度小 数据分布越集中 平均数的代表性越大 是评价平均数代表性的依据 离散程度测度的作用 119 统计先是思维而后才是数学 可用来反映社会生产和其他社会经济活动过程的均衡性或协调性 以及产品质量的稳定程度 变异指标小 说明社会经济活动过程均衡 120 统计先是思维而后才是数学 如在抽样调查中 根据样本指标来推断总体指标 通过计算离散程度确定推断的准确程度及误差大小 确定推断的准确程度 121 统计先是思维而后才是数学 一 极差二 四分位差三 方差和标准差四 离散系数 122 统计先是思维而后才是数学 极差也称全距 是总体各单位标志值最大值和最小值之差 计算公式为未分组数据 R max xi min xi 组距分组数据 R 最高组上限 最低组下限显然 数据的分散程度越大 极差就越大 例 10名工人生产零件数 10 20 30 40 50 60 70 80 90 100R 100 10 90 2 3 1极差R 123 统计先是思维而后才是数学 例 某季度某工业公司18个工业企业产值计划完成情况如下 计算该公司该季度计划完成程度的全距 124 统计先是思维而后才是数学 优点 计算方便 易于理解 缺点 极差只考虑数列两端数值差异 它是测定离散程度的一种粗略方法 不能全面反映总体各单位标志的变异程度 2 极差的特点 125 统计先是思维而后才是数学 也称四分位差或称四分间距 是上四分位数与下四分位数之差内距 QU QL反映了中间50 数据的离散程度 数值越小 说明中间数据越集中 数值越大 说明数据越分散 不受极端值的影响 可用于衡量中位数的代表性 内距主要用于测度定序数据 对数量数据也可以 但是不适用于定类数据 2 3 2内距 Inter QuartileRange IQR 126 统计先是思维而后才是数学 解 设非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5 已知QL 不满意 2QU 一般 3四分位差 Qd QU QL 3 2 1 例如 定序数据计算四分位差 通常需要将各类别数值化 相差一个等级 说明在中位数 一般 的两侧共有50 的家庭对住房的满意状况在不满意和一般之间 127 统计先是思维而后才是数学 方差是离差平方的平均数 标准差是离差平方平均数的平方根 故又称 均方差 2 3 3标准差和方差 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差只适合测度数量数据 128 统计先是思维而后才是数学 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 组中值 样本方差和标准差 129 统计先是思维而后才是数学 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值 130 统计先是思维而后才是数学 与方差不同的是 标准差是具有量纲的 它与变量值的计量单位相同 其实际意义要比方差清楚 因此 在对社会经济现象进行分析时 更多使用标准差 方差或标准差是根据全部数据计算的 它反映了每一个数据与其均值相比平均相差的数值 所以 能够准确反映数据的离散程度 131 统计先是思维而后才是数学 用甲乙两个生产小组工人工资资料 在平均工资相等 1000元 的情况下 乙组标准差小于甲组 因而其平均数的代表性比甲组大 132 统计先是思维而后才是数学 样本标准差 例题分析 133 统计先是思维而后才是数学 含义 每一天的销售量与平均数相比 平均相差21 58台 134 统计先是思维而后才是数学 离散系数 是反映总体各单位标志值的相对离散程度 2 3 4离散系数 标准差系数 V 可以消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较 135 统计先是思维而后才是数学 标准差系数 136 统计先是思维而后才是数学 例 某年级一 二两班某门课的平均成绩分别为82分和76分 其成绩的标准差分别为15 6分和14 8分 比较两班平均成绩代表性的大小 解 一班成绩的标准差系数为 二班成绩的标准差系数为 因为 所以一班平均成绩的代表性比二班大 137 统计先是思维而后才是数学 数据类型和所适用的离散程度测度值 表示最适合 138 统计先是思维而后才是数学 2 4分布偏态与峰度的测度 2 4 1偏态及其测度2 4 2峰度及其测度 139 统计先是思维而后才是数学 2 4 1偏态 skewness 及其测度 统计学家Pearson于1895年首次提出偏态是对分布偏斜方向及程度的测度 判别偏态的方向并不困难 利用中位数和均值的关系 140 统计先是思维而后才是数学 测度偏斜的程度需要计算偏态系数 对分组数据 其计算公式为 式中 SK表示偏态系数 s3是标准差的三次方 xi Mi 是组中值 偏态系数SK 0为对称分布偏态系数SK 0为右偏分布偏态系数SK 0为左偏分布SK的绝对值越大 表示偏斜的程度就越大 141 统计先是思维而后才是数学 偏态系数 例题分析 142 统计先是思维而后才是数学 结论 偏态系数为正值 但与0的差异不大 说明电脑销售量为轻微右偏分布 即销售量较少的天数占据多数 而销售量较多的天数则占少数 143 统计先是思维而后才是数学 偏态 从直方图上观察 按销售量分组 台 结论 右偏分布 某电脑公司销售量分布的直方图 144 统计先是思维而后才

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论