第3章 用统计量描述数据_第1页
第3章 用统计量描述数据_第2页
第3章 用统计量描述数据_第3页
第3章 用统计量描述数据_第4页
第3章 用统计量描述数据_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

作者贾俊平统计学统

(第三版)

20082008年8月

一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。

——AndrewLang

统计名言第3章用统计量描述数据3.1

水平的度量3.2差异的度量3.3分布形状的度量2008年8月学习目标度量水平的统计量度量差异的统计量度量分布形状的统计量各统计量的的特点及应用场合用Excel和SPSS计算描述统计量2008年8月哪名运动员的发挥更稳定?在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表2008年8月哪名运动员的发挥更稳定?最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题2008年8月数据分布的特征数据水平(位置)分布形状(偏态和峰态)数据差异

(分散程度)3.1水平的度量

3.1.1平均数

3.1.2中位数和分位数

3.1.3用哪个值代表一组数据?第3章用统计量描述数据3.1.1平均数3.1水平的度量2008年8月

x

x平均数

(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为

;根据样本数据计算的,称为样本平均数,记为

x2008年8月简单算数平均

(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数2008年8月加权平均数

(Weightedmean)设各组的组中值为:M1,M2,…,Mk

相应的频数为:

f1,f2,…,fk样本加权平均:总体加权平均:2008年8月加权平均数

(例题分析)

某电脑公司销售量数据分组表按销售量分组组中值(Mi)频数(fi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—120222002008年8月加权平均数

(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x): 020100

人数分布(f):118

乙组:考试成绩(x): 020100

人数分布(f):8113.1.2中位数和分位数3.1水平的度量2008年8月中位数

(median)排序后处于中间位置上的值。不受极端值影响Me50%50%2.

位置确定3.

数值确定2008年8月中位数的计算

(数据个数为奇数)【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630

排序:7507808509601080

1250

150016302000

位置:123456789中位数

1080

2008年8月中位数的计算

(数据个数为偶数)【例】:10个家庭的人均月收入数据排序:

660

75078085096010801250150016302000

位置:1234

5678910

2008年8月四分位数—用3个点等分数据

(quartile)排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%2008年8月四分位数的计算

(位置的确定)定义算法2008年8月四分位数的计算

(数据个数为奇数)【例】:9个家庭的人均月收入数据(4种方法计算)

原始数据:15007507801080850960200012501630

排序:75078085096010801250150016302000

位置:1234

5

6

7

89

2008年8月众数

(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数mo3.1.3用哪个值代表一组数据?3.1水平的度量2008年8月众数、中位数和平均数的关系左偏分布均值

中位数

众数对称分布

均值=

中位数=

众数右偏分布众数

中位数均值2008年8月众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好3.2差异的度量

3.2.1极差和四分位差

3.2.2方差和标准差

3.2.3比较几组数据的离散程度:离散系数第3章用统计量描述数据2008年8月怎样评价水平代表值?假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况?如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢?要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区2008年8月怎样评价水平代表值?

仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越甲乙3.2.1极差和四分位差3.2差异的度量2008年8月极差

(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:R=max(xi)-min(xi)2008年8月四分位差

(quartiledeviation)也称为内距或四分间距上四分位数与下四分位数之差:Qd=QU

–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性25%75%3.2.2方差和标准差3.2差异的度量2008年8月方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为

2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)2008年8月样本方差和标准差

(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论