数据分布特征的测演示文稿_第1页
数据分布特征的测演示文稿_第2页
数据分布特征的测演示文稿_第3页
数据分布特征的测演示文稿_第4页
数据分布特征的测演示文稿_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分布特征的测度演示文稿目前一页\总数六十二页\编于十四点优选数据分布特征的测度Ppt目前二页\总数六十二页\编于十四点数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势

(分散程度)目前三页\总数六十二页\编于十四点第1节集中趋势的量度

集中趋势(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据分类数据:众数顺序数据:众数中位数和四分位数数值型数据:众数中位数和四分位数均值目前四页\总数六十二页\编于十四点一、分类数据:众数(mode-Mo)众数是位置平均数,不受极端值的影响;一组数据可能没有众数或有几个众数;(无众数、复众数、单众数)主要用于分类数据,也可用于顺序数据和数值型数据;缺乏敏感性。这是由于众数的计算只利用了众数组的数据信息,不象数值平均数那样利用了全部数据信息;目前五页\总数六十二页\编于十四点例

根据表中的数据,计算“饮料品牌”的众数。饮料品牌频数比例百分比可口可乐150.3030旭日升冰茶110.2222百事可乐90.1818汇源果汁60.1212露露90.1818合计501.00100目前六页\总数六十二页\编于十四点例

根据表中的数据,计算“回答类别”的众数。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————目前七页\总数六十二页\编于十四点例在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),计算人均月收入的众数。

108075010801080850960200012501630思考:对于组距式分组的数值型数据,如何确定众数?目前八页\总数六十二页\编于十四点众数(不惟一性)无众数

原始数据:

10591268一个众数

原始数据:659855多于一个众数

原始数据:

252828364242目前九页\总数六十二页\编于十四点二、顺序数据:中位数和四分位数(一)中位数(median)中位数是位置平均数,不受极端值的影响;主要用于顺序数据,也可用数值型数据,但不能用于分类数据;有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响;缺乏敏感性;中位数位置=(n+1)/2目前十页\总数六十二页\编于十四点例根据表中的数据,计算住房满意状况评价的中位数。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————目前十一页\总数六十二页\编于十四点例计算家庭的人均月收入的中位数。1、75078085096010801250150016302000

2、66075078085096010801250150016302000

思考:对于组距式分组的数值型数据,如何确定

中位数?目前十二页\总数六十二页\编于十四点例:数值型数据(组距式)——众数、中位数年收入(元)农户数农户数累计向上累计向下累计500—600600—700700—800800—900900—10001000—11001100—12001200—1300240480105060027021012030240720177023702640285029703000300027602280123063036015030合计3000——目前十三页\总数六十二页\编于十四点解:因第3组次数最多,故其为众数组。

=

=755.9(元)

中位数位置==1500,所以第三组为中位数组。

=

=774.3(元)

目前十四页\总数六十二页\编于十四点(二)四分位数一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的数,称为四分位数也称四分位点;四分位数是位置平均数,不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据;目前十五页\总数六十二页\编于十四点例计算甲城市家庭对住房满意状况评价的四分位数。解:QL位置=(300)/4=75

QU位置=(3×300)/4=225

从累计频数看,QL在“不满意”这一组别中;

QU在“一般”这一组别中。因此

QL

=不满意QU

=一般;例家庭的人均月收入数据的四分位数。75078085096010801250150016302000

目前十六页\总数六十二页\编于十四点三、数值型数据:均值

(mean)集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于分类数据和顺序数据目前十七页\总数六十二页\编于十四点(一)算术平均数(Arithmeticmean)

1、简单算术平均数例:有5名工人生产的零件数分别为:15、16、17、18、19,平均零件数为多少?解:

(件)

目前十八页\总数六十二页\编于十四点2、加权算术平均数基本公式影响加权算术平均数的因素:变量值和权数选择权数的原则:变量值与其乘积是具有实际经济意义的标志总量。加权算术平均数与简单算术平均数的关系:当时,目前十九页\总数六十二页\编于十四点

例:计算某车间工人平均支出(单项式)

某班组工人平均支出的计算(单项式数列)

解:

(元)支出(x)工人数(f)支出总额(xf)8002160095043800110088800150057500200012000合计2023700目前二十页\总数六十二页\编于十四点按零件数分组(个)组中值(x)人数(f)xf50—6055844060—706520130070—807512900合计—402640例:计算某车间工人加工零件平均数(组距式数列)

解:(件)目前二十一页\总数六十二页\编于十四点权数对均值的影响甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:考试成绩(x): 020100

人数分布(f):118

乙组:考试成绩(x): 020100

人数分布(f):811目前二十二页\总数六十二页\编于十四点均值的基本数学性质1.

各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小目前二十三页\总数六十二页\编于十四点

简单调和平均数加权调和平均数(二)调和平均数(倒数平均数Harmonicmean)目前二十四页\总数六十二页\编于十四点某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)

x成交额(元)M成交量(公斤)f甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格目前二十五页\总数六十二页\编于十四点练习1:某管理局所属的15个企业,2000年按其生产某产品平

均单位成本的高低分组资料如下,试计算平均单位成本。

按平均单位成本分组(元/件)企业数(个)各组产量在总产量中所占的比重(%)10~1212~1414计15100目前二十六页\总数六十二页\编于十四点试指出那个厂的总平均成本高,其原因何在?品种单位成本(元)总成本一厂二厂甲乙丙152030210030001500322515001500练习2:

有两个工厂生产三种产品的单位成本和总成本资料如下:

目前二十七页\总数六十二页\编于十四点练习3:计算某地区工业企业产值平均计划完成程度计划完成%企业数(个)计划产值(万元)90以下714090——10022310100——110571650110——12026710120以上340合计1152850目前二十八页\总数六十二页\编于十四点平均数计算方法的选择设则(已知m、f)

(已知x、f)

(已知x、m)原来只是计算时使用了不同的数据!xmmxfxfxfmxSS=SS=SS=目前二十九页\总数六十二页\编于十四点(三)几何平均数(Geometricmean)

例1:一位投资者持有一种股票,1997,1998,1999,2000收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。例2:某企业四个车间流水作业生产某产品。一车间产品合格率为99%,二车间为95%,三车间为92%,四车间为90%,计算该企业的平均产品合格率。算术平均数、调和平均数、几何平均数之间的关系算术平均数≥几何平均数≥调和平均数目前三十页\总数六十二页\编于十四点例3:求平均年利率

投资银行某笔投资是的年利率是按复利计算的,25年利率分配时(按时间数序):有一年是3%,有4年为4%,有8年为8%,有10年为10%,有2年为15%。求平均年利率。目前三十一页\总数六十二页\编于十四点中位数、众数、算术平均数之间的关系

在同一变量数据集合中如果变量值分布呈对称型,则算术平均数、中位数和众数三者相等;若不对称,则中位数必居中,算术平均数和众数分列两侧。

右偏左偏目前三十二页\总数六十二页\编于十四点练习1:某企业工人工资等级的中位数和众数的计算级别12345678人数223861967020135目前三十三页\总数六十二页\编于十四点练习2:计算工人完成生产定额的中位数和众数完成生产定额(%)工人数(人)90——1005100——11013110——12016120——13026130——14020140——15015合计95目前三十四页\总数六十二页\编于十四点第二节离散程度的测度(标志变异指标)

标志变异指标的作用衡量平均数代表性的大小反映社会经活动过程的均衡性和节奏性例:

1、有两个小组工人工资资料如下:甲:500600700800900

乙:600650700750800

哪一组工人工资平均数的代表性大?目前三十五页\总数六十二页\编于十四点2、某企业计划完成情况如表,哪个车间生产过程均衡?计划数实际完成上旬中旬下旬全月数量比重%数量比重%数量比重%数量比重%甲车间乙车间120120382031.716.7404033.333.342603550120120100100目前三十六页\总数六十二页\编于十四点一、数值型数据的离中趋势测度

(一)极差(全距Range)

极差(R)=最大标志值-最小标志值(原始数据)如前例中,

R=最高组上限值-最低组下限值(组距数列)如农户收入例中,R=1300-500=800(元)目前三十七页\总数六十二页\编于十四点简单平均式如两组工人工资平均差(二)平均差目前三十八页\总数六十二页\编于十四点月工资额X工人数f工资总额Xf离差离差绝对值50060070080090030507030201500030000490002400018000合计200136000————18800加权平均式例:目前三十九页\总数六十二页\编于十四点例:对成年和幼儿身高进行调查资料如下:成年组(厘米):161163165167169幼儿组(厘米):7374757677哪一组平均身高的代表性更大?目前四十页\总数六十二页\编于十四点目前四十一页\总数六十二页\编于十四点(三)方差(Variance)及标准差(Standarddeviation)简单平均式例:目前四十二页\总数六十二页\编于十四点加权平均式

总体方差

总体标准差目前四十三页\总数六十二页\编于十四点例:某企业工人日加工零件的个数如下表,计算工人日加工

零件的标准差按零件数分组(个)组中值(X)人数(f)105—110110—115115—120120—125125—130130—135135—140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5目前四十四页\总数六十二页\编于十四点解:目前四十五页\总数六十二页\编于十四点样本方差和标准差

(simplevarianceandstandarddeviation)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!目前四十六页\总数六十二页\编于十四点

(四)离散系数(变异系数或标准差系数)

消除了数据水平高低和计量单位的影响目前四十七页\总数六十二页\编于十四点例:甲、乙两商店营业员及销售额的分组资料如下:甲商店乙商店组中值x人数fxf组中值x人数fxf253545556531296——75420405330——7684321441176——2535455565——2864——70360330260——51228896784合计3012302520合计2010201680试问两个商店营业员平均销售额的代表性哪个大?为什么?目前四十八页\总数六十二页\编于十四点解:目前四十九页\总数六十二页\编于十四点用“是”、“否”或“有”、“无”来表示的标志——是非标志。总体单位数用N来表示。表示具有所研究标志值的单位数,表示不具有所研究标志的单位数。是非标志(比例)的标准差是非标志的平均数目前五十页\总数六十二页\编于十四点(五)标准化数值(Z-Score)标准化数值是一个数据在数据集中相对位置的测度。计算公式为正的z值表示观察值位于平均数右侧,负的z值表示观察值位于平均数左侧。根据经验法则,对于钟形分布,几乎所有的数据都在偏离平均数3个标准差范围之内。因此,标准化数值低于-3或高于3的数据值就是异常值,也称为离群点。目前五十一页\总数六十二页\编于十四点二、分类数据离中趋势测度——

异众比率(variationratio)1. 对分类数据离散程度的测度2. 非众数组的频数占总频数的比率3. 计算公式为

4.用于衡量众数的代表性目前五十二页\总数六十二页\编于十四点例:计算异众比率解:

在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好不同品牌饮料的频数分布

饮料品牌频数比例百分比(%)

可口可乐旭日升冰茶百事可乐汇源果汁露露15119690.300.220.180.120.183022181218合计501100目前五十三页\总数六十二页\编于十四点三、顺序数据离中趋势测度——

四分位差(quartiledeviation)

对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差

QD

=QU–QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性目前五十四页\总数六十二页\编于十四点例:计算四分位差

解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5.

已知

QL=不满意=2QU=

一般=

3则四分位差:

QD

=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论