第4章-用分布特征的描述_第1页
第4章-用分布特征的描述_第2页
第4章-用分布特征的描述_第3页
第4章-用分布特征的描述_第4页
第4章-用分布特征的描述_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析

(方法与案例)

作者贾俊平统计学基础

FundamentalStatistics第4章数据分布特征的测度4.1

集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量Statistic2011年学习目标度量集中趋势的统计量度量离散程度的统计量度量偏态与峰态的统计量各统计量的的特点及应用场合用Excel计算描述统计量2011年数据分布的特征集中趋势(数据的水平)偏态和峰态(分布形状)离散程度

(数据的差异)4.1集中趋势的度量一、平均数二、中位数和分位数三、各度量值的比较第4章数据分布特征的测度2011年集中趋势

(centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据一、平均数4.1集中趋势的度量2011年

x

x平均数

(mean)也称为均值,常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的,称为平均数,记为

;根据样本数据计算的,称为样本平均数,记为

x2011年简单算数平均

(Simplemean)设一组数据为:x1,x2,…,xn(总体数据xN)样本平均数总体平均数统计函数—AVERAGEExcel2011年加权平均数

(Weightedmean)设各组的组中值为:M1,M2,…,Mk

相应的频数为:

f1,f2,…,fk样本加权平均:总体加权平均:2011年加权平均数

(例题分析)

某电脑公司销售额数据分组表按销售量分组组中值(Mi)频数(fi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合计—12022200二、中位数和四分位数4.1集中趋势的度量2011年中位数

(median)排序后处于中间位置上的值。不受极端值影响Me50%50%2.

位置确定3.

数值确定2011年中位数的计算

(数据个数为奇数)【例4.3】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630

排序:7507808509601080

1250

150016302000

位置:123456789中位数

1080

2011年中位数的计算

(数据个数为偶数)【例4.3】10个家庭的人均月收入数据排序:

7507808509601080

12501500163020002800

位置:1234

5678910

统计函数—MEDIANExcel2011年四分位数—用3个点等分数据

(quartile)排序后处于25%和75%位置上的值不受极端值的影响QLQMQU25%25%25%25%2011年四分位数的计算

(位置的确定)方法2:较准确算法(SPSS的算法)方法1:定义算法2011年四分位数的计算

(位置的确定)方法3Excel给出的四分位数位置的确定方法

如果位置不是整数,则按比例分摊位置两侧数值的差值2011年四分位数的计算

(数据个数为奇数)【例4.4】9个家庭的人均月收入数据(4种方法计算)

原始数据:15007507801080850960200012501630

排序:75078085096010801250150016302000

位置:1234

5

6

7

89

方法1—定义公式2011年四分位数的计算

(数据个数为奇数)【例4.4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630

排序:75078085096010801250150016302000

位置:1234

5

6789

方法2—SPSS公式2011年四分位数的计算

(数据个数为奇数)【例34.4】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630

排序:75078085096010801250150016302000

位置:12

3

4

5

67

89

方法3—Excel公式统计函数—QUARTILEExcel2011年众数

(mode)一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数mo统计函数—MODEExcel三、各度量值的比较4.1集中趋势的度量2011年众数、中位数和平均数的关系左偏分布均值

中位数

众数对称分布

均值=

中位数=

众数右偏分布众数

中位数均值2011年众数、中位数、平均数的特点和应用平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性接好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好4.2离散程度的度量一、极差和四分位差二、平均差三、方差和标准差四、离散系数:比较几组数据的离散程度第4章数据分布特征的测度2011年离中趋势数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值一、极差和四分位差4.2离散程度的度量2011年极差

(range)一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为:R=max(xi)-min(xi)2011年四分位差

(quartiledeviation)也称为内距或四分间距上四分位数与下四分位数之差:Qd=QU

–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性25%75%二、平均差4.2离散程度的度量2011年平均差

(meandeviation)各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少计算公式为未分组数据组距分组数据2011年平均差

(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—20402011年平均差

(例题分析)

含义:每一天的销售量平均数相比,平均相差17万元

统计函数—AVEDEV三、方差和标准差4.2离散程度的度量2011年方差和标准差

(varianceandstandarddeviation)数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为

2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)2011年样本方差和标准差

(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!2011年总体方差和标准差

(PopulationvarianceandStandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式2011年样本标准差

(例题分析)【例4.6】计算计算9名员工的月工资收入的方差和标准差

15007507801080850960200012501630方差标准差统计函数—STDEVExcel2011年样本标准差

(例题分析)某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—554002011年样本标准差

(例题分析)

含义:每一天的销售量与平均数相比,平均相差21.58万元

2011年标准分数

(standardscore)1.也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)用于对变量的标准化处理均值等于0,方差等于1计算公式为2011年标准分数

(例题分析)【例3.8】9个家庭人均月收入标准化值计算表

家庭编号人均月收入(元)标准化值z

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.9962011年经验法则

经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内2011年经验法则

(例题分析)四、离散系数:比较几组数据的

离散程度4.2离散程度的度量2011年离散系数

(coefficientofvariation)1. 标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4. 用于对不同组别数据离散程度的比较5.计算公式为2011年离散系数

(例题分析)【例4.9】评价哪名运动员的发挥更稳定发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡4.3偏态与峰态的度量一、偏态及其测度二、峰态及其测度第4章数据分布特征的测度2011年数据分布的形状—偏态与峰态扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!一、偏态及其测度4.3偏态与峰态的度量2011年偏态

(skewness)统计学家K.Pearson于1895年首次提出。是指数据分布的不对称性测度统计量是偏态系数(coefficientofskewness)2. 偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低2011年偏态系数

(coefficientofskewness)根据原始数据计算统计函数—SKEWExcel二、峰态及其测度4.3偏态与峰态的度量2011年峰态

(k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论