第四章数据分布特征的描述_第1页
第四章数据分布特征的描述_第2页
第四章数据分布特征的描述_第3页
第四章数据分布特征的描述_第4页
第四章数据分布特征的描述_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据分布特征的描述第1页,共54页,2023年,2月20日,星期三第一节

数据分布集中趋势的测定第2页,共54页,2023年,2月20日,星期三一、均值/平均数/数值平均数(mean)(一)概念

是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般水平(二)特征

1.具有抽象性

2.具有代表性

3.反映总体分布的集中趋势**举例

1.某市中学生每周平均上网时间为2.8小时

2.某农贸市场2月份牛肉的平均价格为16元/千克

3.某地区“十五”期间经济平均增长率为9.6%第3页,共54页,2023年,2月20日,星期三(三)均值的种类及计算

1.算术平均数**

(1)概念

算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数

(2)基本公式第4页,共54页,2023年,2月20日,星期三算术平均数的计算**简单算术平均数:针对未分组资料

总体平均数

样本平均数第5页,共54页,2023年,2月20日,星期三算术平均数的计算

**加权算术平均数

概念:是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数

计算公式:

未分组数据

其中:w表示各组的标志总量,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同

第6页,共54页,2023年,2月20日,星期三

[例4-2]根据某公司四个品牌数码相机的销售资料计算平均利润率表4-1四个品牌数码相机的利润率和销售额资料第7页,共54页,2023年,2月20日,星期三所以,四个品牌数码相机的平均销售利润率为

因为:

第8页,共54页,2023年,2月20日,星期三**加权算术平均数⑵分组的加权平均数:根据分组数据计算均值

样本均值的计算公式:

总体均值的计算公式:表示各组的变量值(或组距式数列的组中值)表示各组变量值出现的频数(即权数)第9页,共54页,2023年,2月20日,星期三

[例4-3]根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。

按销售量分组(台)市场个数(fi)组中值(Mi)Mifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240491627201710845145155165175185195205215225235

58013952640472537003315205017209001175合计∑fi=

120

∑Mifi

=22200第10页,共54页,2023年,2月20日,星期三2.调和平均数

1.问题的由来

思考题:三种蔬菜单价分别为2、3和4元/千克,(1)各买一千克平均单价是多少?(2)各买一元的平均单价是多少?

2.概念:

调和平均数又称倒数平均数,是各个变量值倒数的算术平均数的倒数

3.计算

(1)简单调和平均数:针对未分组资料计算公式为:算术平均调和平均第11页,共54页,2023年,2月20日,星期三2.调和平均数2.加权调和平均数:针对分组资料

计算公式为:

其中:

是一种特殊权数,它不是各组变量值出现的次数,表示各组标志总量即第12页,共54页,2023年,2月20日,星期三

[例4-4]根据某商场职工月工资资料计算月平均工资第13页,共54页,2023年,2月20日,星期三

课堂练习

[资料]甲乙企业职工的工资如下表:[要求]分别计算甲乙企业职工月工资额的均值第14页,共54页,2023年,2月20日,星期三算术平均数和调和平均数的关系****联系——实质相同

调和平均数是算术平均数的变形,两者的基本公式均为:**区别——适用的情况不同

当已知平均指标的分母资料、未知分子资料时,采用加权算术平均法当已知平均指标的分子资料、未知分母资料时,采用加权调和平均法第15页,共54页,2023年,2月20日,星期三3.几何平均数(1)概念:几何平均数(geometricmean)又称对称平均数,它是各变量值乘积的n次方根。(2)计算基本公式:

对数公式:

在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即

第16页,共54页,2023年,2月20日,星期三(3)几何平均数的应用及特点

**应用条件

a.变量值是相对数据,如比率或发展速度

b.变量值的连乘积等于总比率或总发展速度**特点

a.如果数列中有一个标志值等于零或负值,则无法计算

b.受极端值影响较小,故较稳健第17页,共54页,2023年,2月20日,星期三

[例4-5]

某电器销售公司2000~2005年销售量的环比增长率分别为:7.6%、2.5%、0.6%、2.7%和2.2%。求这期间销售量的平均增长速度?表4-4销售量平均发展速度计算表几何平均数的计算示例第18页,共54页,2023年,2月20日,星期三几何平均数的计算示例

1.采用基本公式计算的销售量平均发展速度为:2.采用对数公式计算的销售量平均发展速度为:所以,销售量的平均增长速度=103.1%-1=3.1%第19页,共54页,2023年,2月20日,星期三二、位置平均数(一)中位数(median)

1.概念中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据,符号为

2.中位数的计算方法

(1)未分组数据的中位数

将变量值按升序或降序排列,找中间位置的变量值

(2)单项数列的中位数计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数第20页,共54页,2023年,2月20日,星期三

[例4-6]

计算某公司销售人员月销售冰箱中位数

按月销售冰箱分组

(台)销售人员数(人)向上累计频数向下累计频数25303234363931014271883132754728080776753268合计80--中位数的位置

即中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则

第21页,共54页,2023年,2月20日,星期三2.中位数的计算方法(3)组距数列的中位数:由下列公式近似计算

下限公式其中:为总体单位总数为中位数组的下限为中位数组以下的累计频数为中位数组的频数为中位数组的组距第22页,共54页,2023年,2月20日,星期三[例4-7]求以下组距数列的中位数

按家庭收入分组(元)家庭数(户)向上累计频率5000以下5000~1000010000~1500015000~2000020000以上214514662166808692合计92-中位数的近似值为:某地区家庭收入分组表中位数的位置在第46(92/2)位,应在第二组第23页,共54页,2023年,2月20日,星期三中位数的特点⑴是一种位置平均数,不受极端值及开口组的影响

⑵对于分配不对称的数据,中位数比平均值更适合当集中趋势的代表值⑶

对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素

第24页,共54页,2023年,2月20日,星期三二、位置平均数(二)众数(mode)

1.概念

众数(mode)是指在一组数中出现次数最多的那个数值,符号为

2.数据数列的众数分布情况

无众数如数据数列:13791268

一个众数如数据数列:659866

多个众数如数据数列:223527352736第25页,共54页,2023年,2月20日,星期三3.众数的计算方法**品质变量的众数——观察次数,出现次数最多的变量值就是众数

例如:企业的所有制结构分布、人口的城乡分布**数值变量的众数未分组资料——观察次数,出现次数最多的数据就是众数分组资料(1)单项式数列——直接观察,次数最多的组的变量值即为众数

第26页,共54页,2023年,2月20日,星期三[例4-8]单项式变量数列确定众数实例

某市居民家庭按家庭人口数分组

由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人

第27页,共54页,2023年,2月20日,星期三3.众数的计算方法

组距数列计算众数:由下列公式近似计算

下限公式其中:为众数组与前一组频数之差为众数组的下限为众数组与后一组频数之差为众数组的组距·第28页,共54页,2023年,2月20日,星期三[例4-10]组距式数列计算众数示例收入组别人均收入(元)频数(人)1234562000元以下2000~4000元4000~6000元6000~8000元8000~10000元10000以上234368322410合计-200其众数的近似值为:某地区的人均月收入调查数据表第29页,共54页,2023年,2月20日,星期三三、均值、中位数和众数的比较(一)均值、中位数和众数的数量关系

1.当数据呈对称分布的,三者合而为一,如图(a)

2.当数据呈左偏分布时,说明数据存在极小值,必然拉动均值向极小值一方靠,则从左至右依次是均值、中位数和众数,如图(b)

3.当数据呈右偏分布时,说明数据存在极大值,必然拉动均值向极大值一方靠,则从左至右依次是众数、中位数和均值,如图(c)

第30页,共54页,2023年,2月20日,星期三均值、中位数和众数的数量关系

1.当数据呈对称分布的,三者合而为一

第31页,共54页,2023年,2月20日,星期三均值、中位数和众数的数量关系

2.当数据呈左偏分布时,从左至右依次是均值、中位数和众数

第32页,共54页,2023年,2月20日,星期三均值、中位数和众数的数量关系

3.当数据呈右偏分布时,从左至右依次是众数、中位数和均值,如图c

第33页,共54页,2023年,2月20日,星期三三、均值、中位数和众数的比较(二)均值、众数和中位数的特点及应用场合

**均值是对数值型数据计算的,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛的集中趋势测度值

**中位数是一组数据中间位置上的代表值,其特点是不受数据极端值的影响,主要适合于作为顺序数据的集中趋势测度值

**众数是一组数据分布的峰值,它也是一种位置代表值,不受极端值的影响,主要适合于作为分类数据的集中趋势测度值

第34页,共54页,2023年,2月20日,星期三第三节

数据分布离散程度的测定第35页,共54页,2023年,2月20日,星期三一、极差/全距(一)概念:又称全距,是数据中最大值和最小值之差。记为(二)计算

1.未分组数据的极差为:表示数据的最大值表示数据的最小值

2.分组数据的极差

极差=最大组的上限-最小组的下限

若存在开口组,则:

最大组的上限=前一组的上限+组距最小组的下限=下一组的下限-组距其中:第36页,共54页,2023年,2月20日,星期三

[例4-11]对人均月收入分组如下:2000元以下、2000~4000元、……、8000~10000元、10000元以上,计算全距

[分析]:其最小组的下限为0

最大组的上限为:则全距为:极差/全距的计算示例第37页,共54页,2023年,2月20日,星期三(三)修正极差(modifiedrange)

1.概念:是去掉极端值后的极差,又称四分位全距(IQR,interquartilerange),是中间50%的数据的间距,即数据分布中第25个和第75个百分位数的间距,也即第1个和第3个四分位数的间距

2.公式:

其中:Q3表示第3个四分位数,即第75个百分位数

Q1表示第1个四分位数,即第25百分位数

第38页,共54页,2023年,2月20日,星期三二、平均差(MAD)(一)概念:

平均差(meanabsolutedeviation)是各数据对平均数的离差绝对值的平均数

(二)样本平均差的计算公式为:

1.未分组数据:

2.分组数据:

第39页,共54页,2023年,2月20日,星期三三、方差和标准差(一)概念方差(variance)是各变量值与其均值离差平方的平均数。标准差(standarddeviation)是方差的平方根,又称“均方差”(二)比较与评价

1.其内涵与平均差相似,均为各个数据对其平均数的平均离差。但平均差采用求绝对值消除正负离差,标准差采用平方法消除正负离差,在数学处理上标准差上比平均差更为科学合理

2.方差和标准差是测度数值型数据离散程度的最主要的指标第40页,共54页,2023年,2月20日,星期三(三)方差和标准差的计算

1.总体方差和标准差

方差标准差未分组数据分组数据第41页,共54页,2023年,2月20日,星期三[例4-12]某电脑公司销售量分组数据如下表,计算销售量的方差和标准差

总体方差和标准差计算示例某电脑公司销售量分组数据方差计算表第42页,共54页,2023年,2月20日,星期三总体方差和标准差计算示例

根据公式计算可知总体均值为:

总体方差为:

总体标准差为:

第43页,共54页,2023年,2月20日,星期三2.样本方差和标准差

说明:在大多数统计应用中,都针对样本数据来分析总体数量特征。因此通常用样本方差来估计总体方差,用样本标准差来估计总体标准差符号:

样本容量用n表示样本方差用S2表示

样本标准差用S表示

第44页,共54页,2023年,2月20日,星期三(三)方差和标准差的计算

2.样本方差和标准差

方差标准差未分组数据分组数据··第45页,共54页,2023年,2月20日,星期三[例4-13]

根据以下样本数据,计算企业职工平均工资的标准差。(已知平均工资为=760元)

某企业职工工资分组数据表第46页,共54页,2023年,2月20日,星期三样本方差和标准差计算示例

样本方差为:

样本标准差为:

第47页,共54页,2023年,2月20日,星期三四、离散系数/变异系数

(一)概念:离散系数(coefficientofvariation)是一组数据的离散指标的绝对数与其相应的均值之比。是离散指标的相对数形式(二)表现形式有全距系数、平均差系数和标准差系数。最常用的是标准差系数(三)计算公式总体标准差系数

样本标准差系数第48页,共54页,2023年,2月20日,星期三四、离散系数/变异系数

(四)应用:用于比较不同总体数据分布的离散程度[例题4-13]

甲乙企业职工的年均收入分别为20000元和50000元,收入的标准差分别为3000元和5000元,问哪家企业职工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论