统计学第四章 数据分布特征的测度_第1页
统计学第四章 数据分布特征的测度_第2页
统计学第四章 数据分布特征的测度_第3页
统计学第四章 数据分布特征的测度_第4页
统计学第四章 数据分布特征的测度_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的测度PowerPoint统计学.第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度.对统计数据进行排序、分组、整理,是对数据的分布特征进行描述的一个根本方面,为进一步掌握数据分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值。统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。排序分组整理表述统计数据寻找反映数据分布特征的代表值:集中趋势;离散趋势.第一节分布集中趋势的测度

集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。均值中位数众数

.均值

(概念要点)1. 集中趋势的测度值之一2. 最常用的测度值3. 一组数据的均衡点所在4. 易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据.均值

(计算公式)设一组数据为:X1,X2,…,XN简单均值的计算公式为设分组后的数据为:X1,X2,…,XK

相应的频数为:F1,F2,…,FK加权均值的计算公式为.简单均值

(算例)原始数据: 10 5 9 13 6 8.加权均值

〔算例〕某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0【例】根据表中的数据,计算50名工人日加工零件数的均值.加权均值

(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩〔X〕: 020100人数分布〔F〕:118乙组:考试成绩〔X〕: 020100人数分布〔F〕:811X甲0×1+20×1+100×8n

10i=1

Xi

82(分)X乙0×8+20×1+100×1n

10i=1

Xi

12(分).均值

(数学性质)1. 各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小.调和平均数

(概念要点)1. 集中趋势的测度值之一2. 均值的另一种表现形式3. 易受极端值的影响4. 用于定比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计算时使用了不同的数据!.调和平均数

(算例)某日三种蔬菜的批发成交数据表蔬菜名称批发价格(元)

Xi成交额(元)XiFi成交量(公斤)Fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表所示,计算三种蔬菜该日的平均批发价格.几何平均数

(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根3.适用于特殊的数据4.主要用于计算平均开展速度5.计算公式为6.可看作是均值的一种变形.几何平均数

(算例)【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%.中位数

中位数是一组数据按大小排序后,处于中间位置上的变量值。

.未分组数据的中位数

(计算公式).定序数据的中位数

(算例)【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般〞这一组别中。因此Me=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—.数值型未分组数据的中位数

(5个数据的算例)原始数据:

2422212620排序: 2021222426位置: 123

45中位数

22.数值型未分组数据的中位数

(6个数据的算例)原始数据:105 91268排序: 56891012位置: 123

456位置

N+126+123.5中位数

8+928.5.首先需确定中位数所在的组,然后可根据以下公式计算中位数:下限公式:数值型分组数据的中位数

式中:m为中位数所在的组,d为该组组距,

L、U分别为该组的下限值与上限值,

fm为该组的频数,

Sm-1为该组以下各组的频数总和,

Sm+1为该组以上各组的频数总和,显然上限公式:.例,某班级英语考试成绩分组情况见下表:成绩分组人数累计人数成绩分组人数累计人数〔分〕〔分〕50以下2270~80183550~605780~9094460~70101790以上650

成绩由低往高排,中位数所在组应在第4组,即70~80的组,

由于L=70,U=80,d=10,而

Sm-1=2+5+10=17,Sm+1=9+6=15,fm=18,故或.四分位数

(概念要点)1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%.四分位数

(位置确实定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4.定序数据的四分位数

(算例)【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:QL位置=(300)/4=75上四分位数(QU)的位置为:QU位置=(3×300)/4=225从累计频数看,QL在“不满意〞这一组别中;QU在“一般〞这一组别中。因此QL=不满意QU=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意

不满意一般满意非常满意2410893453024132225270300合计300—.数值型未分组数据的四分位数

(7个数据的算例)原始数据:

2321 3032 282526排序:2123

2526283032位置:1 23 4567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30.数值型未分组数据的四分位数

(6个数据的算例)原始数据:

2321 30 282526排序:212325262830位置:1 2 3 4 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)

=28.5.数值型分组数据的四分位数

(计算公式)上四分位数:

下四分位数:

.数值型分组数据的四分位数

(计算例如)QL位置=50/4=12.5QU位置=3×50/4=37.5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】根据表中的数据,计算50名工人日加工零件数的四分位数.众数是一组数据中出现次数最多的变量值。例:一组大学班级人数规模的数据〔5个班〕如下:46、54、42、46、32。因此,众数为46在分组数据中,众数可按下式计算:下限公式:众数式中:fm为某数值出现次数〔频数〕最多的组〔第m组〕的频数,fm-1与fm+1分别为第m-1组与m+1组的频数,L、U分别为第m组的下限与上限值,d为该组组距。上限公式:.在班级规模的例中,假设按例中给出的分组情况,那么该组数据的众数为:在学生英语成绩例中,次数最多的组也在70~80组中,那么有fm=18,fm-1=10,fm+1=9,或或.例如在前面购置五类不同品牌计算机的统计中,曾得到如右表所示的频数分布表。▲注意:1、如果某组统计数据中没有哪个数值出现较多的频率〔次数〕,那么可认为该组数无众数;如果有多个数据出现的次数〔频率〕较多,那么认为有多个众数。在有多个众数的情况下,那么对众数的关注度下降,因为多众数对描述数据位置无多大帮助。2、对描述品质数据的分布特征的“位置〞测度只能用众数。CompanyFrequencyApple13Compaq12Gateway20005IBM9PackardBell11显然,众数,即个人购置最多的机算机品牌是Apple。在这类数据中,“均值〞与“中位数〞是没有任何意义的。“众数〞提供了频数最高的个人电脑购置品牌。.众数

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:6

5

9855多于一个众数

原始数据:252828

364242.众数、中位数和均值的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值.

众数、中位数和均值都是对数据集中趋势的测度,

1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。

2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。

3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。

4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。

5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。

众数、中位数和均值的应用场合.数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值表数据类型定类数据定序数据定距数据定比数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数.第二节分布离散程度的测度

对数据分布特征的另一个测度指标是数据分布离散程度。它反映各数据远离其中心值的程度,因此,也称离中趋势。

集中趋势反映的是各变量值向其中心值聚集的程度,

离中趋势反映各变量值之间的差异状况。

注意:

集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。.例:如果你是一家制造业公司的供给部门经理,与两家原材料供给商联系供货,两家供给商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的〔如以下图所示〕。问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?.一、异众比率1. 离散程度的测度值之一2. 非众数组的频数占总频数的比率3. 计算公式为

4.用于衡量众数的代表性.异众比率

(定类数据的算例)某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100【例】根据表中的数据,计算异众比率解:在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好

Vr=200-112200

=1-112200

=0.44=44%.二、四分位差

离散程度的测度值之一也称为内距或四分间距上四分位数与下四分位数之差

QD

=QU-QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性.四分位差

(定序数据的算例)【例】根据表中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5QL=不满意=2,QU=一般=3四分位差:QD=QU-QL=3–2=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意

不满意一般满意非常满意2410893453024132225270300合计300—.极差是最简单的测度离中趋势〔分散程度〕的指标,也称全距,是一组数据最大值与最小值之差:Range=LargestValue-SmallestValue对于组距分组数据,极差可近似地表示为:R=最高组上限-最低组下限▲注意:1、极差易受极端值的影响;2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。三、极差(Range).方差是各变量值与其均值离差(deviationaboutthemean)平方的平均数。〔一〕总体方差(PopulationVariance)总体方差用2表示四、方差(Variance〕其中:Fi为第i组数据的频数Xi为第i个数〔未分组〕或第i组组中值〔分组〕.〔二〕样本方差(SampleVariance)

样本方差用S2表示其中:fi为第i组数据的频数xi为第i个数〔未分组〕或第i组组中值〔分组〕.样本方差

自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n时,假设样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据那么不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,那么x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个那么不能自由取值,比方x1=6,x2=7,那么x3那么必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量.例:在5个班平均人员的例中,假设视5个班为样本,那么假设视5个班为总体,那么.对于分组后的数据假设视为总体:假设视为样本:.标准差:方差的平方根〔正〕。在五个班级规模的例中:假设视5个班为总体,那么标准差为7.15,假设视5个班为样本,那么标准差为8。

总体标准差:样本标准差:五、标准差(StandardDeviation)均值.▲注意:1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。〔标准差就是指数据“离散程度的测度值〞距“均值〞的距离〕。.

离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:例:五个班级规模的例中,假设视为总体,离散系数为:7.15/44=0.16,假设视为样本,那么离散系数为:8/44=0.182。

五、离散系数(CoefficientofVariation).▲注意:1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同〔性质〕组别的数据,不好用离差或标准差来比较它们的离散程度;2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。.例:某管理局抽查了其所属的8家企业,其产品销售额与销售利润数据如下表所示,试比较销售额与销售利润的离散程度。企业编号销售额销售利润企业编号销售额销售利润(万元)(万元)(万元)(万元)X1X2X1X211708.1548026.5222012.5665040.0339018.0795064.0443022.08100069.0计算结果说明,产品销售额的离散程度小于销售利润的离散程度。说明销售利润的差异比销售额的大.数据类型与离散程度测度值数据类型和所适用的离散程度测度值表数据类型定类数据定序数据定距数据或定比数据适用的测度值※异众比率※四分位差※方差或标准差—

异众比率※离散系数(比较适用)——平均差——极差——四分位差——异众比率.第三节分布偏态与峰度的测度偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。平均数与标准差相同的数据组,其频数分配〔分布〕也可能不同,如果频数分布是对称的,那么称为对称分布,否那么为偏态分布。一、偏态及其测度测定偏态的方法主要有两种:(1)算术平均数与众数比较法,(2)动差法。.〔一〕算术平均数与众数比较法完全对称分布:算术平均数、中位数、众数重合非对称分布:三者相互别离,算术平均数<中位数<众数可用算术平均数与众数之间的距离作为测度偏态的一个尺度:

偏态=算术平均数-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论