描述统计学综合论述课件_第1页
描述统计学综合论述课件_第2页
描述统计学综合论述课件_第3页
描述统计学综合论述课件_第4页
描述统计学综合论述课件_第5页
已阅读5页,还剩183页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

05.01.20231本资料来源25.12.20221本资料来源05.01.20232第2章描述统计学

案例导入

在一家财产保险公司的董事会上,董事们就公司的发展战略问题展开了激烈讨论,其中一个引人关注的问题就是如何借鉴国外保险公司的先进管理经验,提高自身的管理水平。有的董事提出,2005年公司的各项业务与去年相比没有太大增长,除经济环境和市场竞争等因素外,对家庭财产保险的业务开展得不够,公司在管理方式上也存在问题。他认为,中国的家庭财产保险市场潜力巨大,应加大扩展这一业务的力度,同时,应对公司家庭财产推销员实行目标管理,并根据目标完成情况建立相应的奖惩制度。董事长认为该董事的建议有一定道理,准备采纳。会后,他责成计划部经理尽快拿出具体的实施方案。

25.12.20222第2章描述统计学05.01.20233

计划部经理接到任务后感到有些头痛。如果目标定得过高,多数推销员完不成任务,会使推销员失去信心;如果定得过低,将不利于充分挖掘员工的工作潜力,提高公司的业绩水平。于是,计划部经理将公司160个推销员的月销售额分别作了统计,统计数据如表2-1所示。如果你是计划部经理,观察这160个原始数据后,准备如何来制定具体的销售目标呢?25.12.20223计划部经理接到任务后感05.01.20234本章重点1、描述统计数据分布特征的图表法;2、数据中心位置测度的种类与方法;(1)计算平均数:算术平均数、调和平均数、几何平均数;(2)位置平均数:中位数、众数、分位数。3、变异性的测度:全距、平均差、方差、标准差、变异系数;4、相对位置的测度:z分数、切贝雪夫定理、经验法则。本章难点1、算术平均数;2、方差与标准差。25.12.20224本章重点05.01.20235第一节图表法一、次数分布

(一)、次数分布的概念及类型

次数:分布在各组的单位数(f)

频率:各组次数与总次数的比重用f/f表示;

25.12.20225第一节图表法一、次数分布05.01.20236变量数列属性数列将总体按某个标志分成若干组,在按一定顺序进行归并排列,形成总体单位数在各组间的分布。次数分布分类分组(标志的具体表现)各组的单位数(次数或频数)构成要素异距数列等距数列组距数列单值数列单项式数列25.12.20226变量数列属性数列将总体按某个标志分成若05.01.20237企业职工性别情况的分配数列(品质数列)性别职工人数(个)女男680520合计1200

某地区企业销售收入情况的分配数列(变量数列)销售收入(万元)企业数(个)80-9090-100100-110110-12024166合计2825.12.20227企业职工性别情况的分配数列(品质数列)05.01.20238按销售额分组(千元)人数(人)f12以下12-1414-1616-1818-2020-2222-2424-2626-2828以上6132936251714974合计160表2-3某保险公司160名推销员销售额分组数据25.12.20228按销售额分组(千元)人数(人)f105.01.20239组距数列指每个组的变量值用一个区间来表现的变量数列变量是连续变量;或:总体单位数较多,变量不同取值个数也较多的离散变量。

编制条件:25.12.20229组距数列指每个组的变量值用一个区间来表05.01.202310相关概念指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值组中值组中值=25.12.202210相关概念指每组两端表示各组界限的变量05.01.202311某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上组限U下组限L如:组距d=U-L=100-50=50(万元)如:组中值x=(U+L)/2=(100+200)/2=150(万元)25.12.202211某地区100个百货商店销售额(万元)05.01.202312对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法25.12.202212对于离散变量,相邻组组限可以间断,也05.01.202313开口式组距数列组中值的计算:

首组假定下限=首组上限-相邻组组距末组假定上限=末组下限+相邻组组距先计算开口组的假定上、下限:

因此有:首组组中值末组组中值25.12.202213开口式组距数列组中值的计算:05.01.202314例:30名同龄儿童身高(cm):106,99,85,121,84,94,106,105,110,119,101,95,91,87,105,106,109,118,96,128,91,97,105,111,111,107,103,101,107,106。(1)将变量值按大小次序排列84,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(2)计算全距:R=128-84=44(cm)(3)确定组数与组距令i=10cm,则组数n=44/10=4.4,取5组变量数列的编制。25.12.202214例:30名同龄儿童身高(cm):变量05.01.20231584,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(4)编制变量数列25.12.20221584,85,87,91,91,94,05.01.202316(二)、次数分布的主要类型1、钟形分布分布特征:中间大、两头小。钟形分布进一步区分为:(1)对称分布(2)偏态分布正偏:又称右偏,有极大值;负偏:又称左偏,有极小值。右偏左偏25.12.202216(二)、次数分布的主要类型1、钟形分05.01.2023172、U形分布3、J形分布分布特征:一边大、一边小。(1)正J分布:右大左小;次数随变量值的增大而增多(2)反J分布:左大右小;次数随变量值的增大而减少死亡率年龄分布特征:两头大、中间小。25.12.2022172、U形分布死亡率年龄05.01.202318二、直方图1、直方图:直方图是用直方形的高度和宽度来表示次数分布特征的图形。横轴表示变量;纵轴表示次数。宽表示组距,高表示次数。

2、折线图将组中值用折线连接而成。曲线图当组数无限增多,则组距无限减小,此时折线趋近于曲线。身高15129638090100110120130人数25.12.202218二、直方图1、直方图:直方图是用直方05.01.202319分组数据—直方图

(直方图的绘制)日加工零件数(个)图某电脑公虽销售量分布的直方图我一眼就看出来了,大多数天的日销售台数在170~180之间!直方图下的面积之和等于1频数(台)25.12.202219分组数据—直方图

(直方图的绘制)日05.01.202320

将变量数列各组的次数和比率逐组累计相加而成累计次数分布,它表明总体在某一变量值的某一水平上下总共包含的总体次数和比率。累计分布分为向上累计和向下累计。组距数列中的向上累计,表明各组上限以下总共所包含的总体次数和比率有多少。组距数列中的向下累计,表明各组下限以上总共所包含的总体次数和比率有多少。三、累计分布图25.12.202220三、累计分布图05.01.2023212.2均值测度

次数分配数列的两个重要特征:集中趋势与离中趋势。集中趋势:反映一组数据向分布的中心集中的趋势。离中趋势:反映一组数据远离中心的趋势。测定集中趋势的指标主要有均值。25.12.2022212.2均值测度05.01.202322

基本公式=总体标志总量/总体单位总量(一)简单算术平均数

适用未分组或各变量值出现次数相同资料一、算术平均数25.12.202222基本公式=总体标志总量05.01.202323简单均值

SimpleMean原始数据: 10 5 9 13 6 825.12.202223简单均值

SimpleMean原05.01.202324(二)加权算术平均数适用已分组资料

注意:加权算术平均数不仅受各组变量值大小的影响,还受各组次数多少的影响。次数因其对平均的结果有权衡轻重的作用,因此,也叫权数。25.12.202224(二)加权算术平均数适用已分组资料05.01.202325加权均值(WeightedMean)【例2.3】根据第三章表3-9中的数据,计算电脑销售量的平均数表2-5加权平均数计算表25.12.202225加权均值(WeightedMea05.01.202326加权均值

(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:考试成绩(X): 020100

人数分布(F):118

乙组:考试成绩(X): 020100

人数分布(F):811x甲0×1+20×1+100×8n10i=1xi82(分)x乙0×8+20×1+100×1n10i=1xi12(分)25.12.202226加权均值

(权数对均值的影响)05.01.202327权数与加权23456781925.12.202227权数与加权23456781905.01.202328权数与加权23456781925.12.202228权数与加权23456781905.01.202329权数与加权23456781925.12.202229权数与加权23456781905.01.202330

权数的种类:

A、绝对权数(次数)fB、相对权数(频率或比重)f/f

只有当各组的次数不相等时,次数才具有权数的作用。

由此可见,简单算术平均数是加权算术平均数的一个特例。25.12.202230权数的种类:由此可见,简单算05.01.202331A:是非标志——将总体全部单位划分为“是”或“否”两类的标志

(三)是非标志平均数25.12.202231A:是非标志——将总体全部单位划分为05.01.202332B、哑变量(0—1变量)25.12.202232B、哑变量(0—1变量)05.01.202333【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:⒉再求算术平均数:⒈求各标志值的倒数:,,,⒊再求倒数:是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数二、调和平均数harmean(harmonicmean)25.12.202233【例】设X=(2,4,6,8),则05.01.202334[例]某种蔬菜早上0.4元/斤,中午0.25元/斤,晚上0.20元/斤,某人各买1斤,求平均价格。(算术平均法)

[例]类似地某人早、中、晚各买1元,求平均价格。

(一)简单调和平均数(各变量值均为一个单位时使用)25.12.202234[例]某种蔬菜早上0.4元/斤,中午05.01.202335式中:x代表各个变量值,n代表变量值项数25.12.202235式中:x代表各个变量值,n代表变量值05.01.202336二.加权调和平均数——适用于总体资料经过分组整理形成变量数列的情况式中:为第组的变量值;为第组的标志总量。25.12.202236二.加权调和平均数——适用于总体资05.01.202337解:例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,小王买了2元白菜,3元菠菜,4元芹菜,问平均每斤菜的价格?25.12.202237解:例:晚上白菜0.3元/斤,菠菜005.01.202338[例]某局所属四个企业有关资料如下,试计算该工业局的产值平均计划完成百分比。25.12.202238[例]某局所属四个企业有关资料如下05.01.202339

算术平均数与调和平均数的适用前提:

A、已知基本公式母项资料用算术平均数计算

(子项资料未知)B、已知基本公式子项资料用调和平均数计算(母项资料未知)

调和平均数是算术平均数的变形原来只是计算时使用了不同的数据!25.12.202239算术平均数与调和平均数05.01.202340

是N项变量值连乘积的开N

次方根三、几何平均数Geomean(geomatricmean)用于计算现象的平均比率或平均速度应用各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。应用的前提条件:25.12.202240是N项变量值连乘积的开N三、05.01.202341A.简单几何平均数——适用于总体资料未经分组整理尚为原始资料的情况式中:为几何平均数;为变量值的个数;为第个变量值。几何平均数的计算方法25.12.202241A.简单几何平均数——适用于总体资05.01.202342(二)加权几何平均数

注意:当观察值有一项为零或负值时,不宜用几何平均数计算。如用同一数据分别计算算术平均数、调和平均数和几何平均数时,则有如下关系:25.12.202242(二)加权几何平均数注意:当观察值05.01.202343四、中位数

把总体各变量值按大小顺序排列起来,处于中点位置的变量值就是中位数,用“Me”表示。(一)根据未分组资料确定中位数25.12.202243四、中位数把总体各变05.01.202344当n为奇数时,Me=中间位置的那个变量值;原始数据:

2422212620排序: 2021222426位置: 123

45中位数2225.12.202244当n为奇数时,Me=中间位置的05.01.202345当n为偶数时,Me=中间位置两侧的两个变量值的简单平均。原始数据:105 91268排序: 56891012位置: 123

4

56位置N+126+123.5中位数8+928.525.12.202245当n为偶数时,Me=中间位置两侧的05.01.2023461、由单项数列确定中位数(二)根据分组资料确定中位数25.12.2022461、由单项数列确定中位数05.01.202347中点位置=(181+1)/2=第91个人

Me

应是第91个人的年龄

Me=18岁25.12.202247中点位置=(181+1)/2=第9105.01.202348(二)根据组距数列确定中位数式中:L为中位数所在组的下限,U为上限;

i为中位数所在组的组距;Sm-1

为小于中位数的各组次数之和;Sm+1为大于中位数的各组次数之和;

fm为中位数所在组的次数。25.12.202248(二)根据组距数列确定中位数式中:05.01.202349[例]下限公式:上限公式:并且:25.12.202249[例]下限公式:05.01.202350

注意的问题:(1)中位数不受极端值的影响,比较稳健。(2)中位数的取值只与中间位置的一或两个数值有关,利用信息不充分,忽略了其它数据的大小,并且不适合于代数运算。25.12.202250注意的问题:05.01.202351

众数是观察值中出现得最多的变量值。用Mo表示。在数据集中,众数组是出现频率最高的一组。数据集可能有一个众数(组),或两(多)个众数(组)。五、Mode众数25.12.202251众数是观察值中出现得05.01.202352Themodalclass众数组Forlargedatasetsthemodalclassismuchmorerelevantthantheasingle-valuemode.对于大的数据集来说,众数组比单个众数更合适。25.12.202252ThemodalclassFor05.01.202353TypesofMode众数的种类Nomode无众数data:10591268Mode:一个众数

data:65

9855Bimodal:双众数data:252828

364242Multimodal:多众数

data:3232

32333434343536363625.12.202253TypesofMode众数的05.01.202354有时众数是一个合适的代表值

比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。

25.12.202254有时众数是一个合适的代表值比如在服05.01.202355STAT

五、众数众数是指总体中出现次数最多的变量值,用Mo表示。A、20,15,18,20,20,22,20,23;n=8Mo=20B、20,20,15,19,19,20,19,25;n=8Mo=20Mo=19C、10,11,13,16,15,25,8,12;n=8,但没有众数(一)由单项数列确定众数在单项数列中,出现次数最多的变量值就是众数。确定众数组确定众数:Mo=1825.12.202255STAT五、众数05.01.202356式中:

L为众数组的下限,U为上限;

i为众数组的组距;1=fm-fm-1,即众数组的次数与前一组次数之差;

2=fm-fm+1,即众数组的次数与后一组次数之差。

(二)由组距数列确定众数确定众数组再用下述公式计算:25.12.202256式中:(二)由组距数列确定众数05.01.2023574050607080901005040302010AGFBCED人数产值xy(L)(U)Mo=L+x=U-yO25.12.202257405005.01.202358STAT4050607080901005040302010AGFBCED人数产值xy(L)(U)Mo=L+x=U-yO第2章描述统计学25.12.202258STAT405005.01.202359众数取值的特点:

众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值。注意的问题:(1)优点:不受极端值的影响。(2)缺点:未利用所有信息,缺乏敏感性和不适合代数运算。(3)可用于反映质量变量的集中趋势。25.12.202259众数取值的特点:05.01.202360六、集中趋势测度指标的比较

(一)各种数值平均数的比较适用场合不同。若总体标志总量等于总体各单位变量值之和,可采用算术平均数计算;若总体标志总量等于总体各单位变量值之积,则应采用几何平均数计算某些数值平均数对于被平均变量的取值有着特殊的限制。25.12.202260六、集中趋势测度指标的比较

(一)05.01.202361(二)数值平均数与位置平均数的比较

数值平均数对于数据的概括能力比位置平均数更强。数值平均数对于数据变化的“灵敏度”很高。对极端值的“耐抗性”较低;位置平均数的“灵敏度”较低,但“耐抗性”却很强。数值平均数只适用于定距尺度和定比尺度的数据:位置平均数还适用于各种定序尺度的数据,众数甚至还适用于各种定类尺度的数据。25.12.202261(二)数值平均数与位置平均数的比较

05.01.202362(三)中位数、众数和算术平均数的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值25.12.202262(三)中位数、众数和算术平均数的关系05.01.202363

卡尔•皮尔逊经验公式:适度偏斜情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。25.12.202263卡尔•皮尔逊经验公式:适度偏斜情况05.01.202364平均指标只能反映现象的集中趋势而不能反映总体各单位标志值的差异程度。例

集中趋势和离散程度是总体分布的两个重要特征。离散趋势指标是反映总体各单位标志值差异(离散)程度的指标。又称标志变动指标、离散程度指标等。平均指标与离散趋势指标的区别:平均指标考虑的是如何消除离差,显示集中趋势。而离散趋势指标考虑的是如何计算离差,反映离散的程度及离差的大小。2.3变异程度测定25.12.202264平均指标只能反映现象的集中趋势而不能05.01.202365

离散趋势指标作用:

1、衡量平均数代表性的大小25.12.202265离散趋势指标作用05.01.202366

2、反映变量值分布的离中趋势和离散程度

25.12.2022662、反映变量值分布的离中趋势05.01.2023673、反映社会经济现象的均衡性和稳定性如甲、乙两工厂某年四个季度的产量资料如下(单位:万件):甲:65、68、72、75,平均每季产量为70万件;乙:34,51,95,100,平均每季产量为70万件。描述数据离散趋势的指标主要有全距、平均差、标准差、方差及变异系数等。25.12.2022673、反映社会经济现象的均衡性和稳定05.01.202368

一、全距全距是总体各单位某一数量标志的最大值与最小值之差。全距(R)=最大值—最小值特点1、优点:意义明确,简单方便。

2、缺点:比较粗略,未考虑中间变量值的离散情况。25.12.202268一、全距全距是总体各单位某一数量标05.01.202369平均差是各变量值对其算术平均数离差绝对值的算术平均数。常用“A·D”表示。(一)根据未分组资料计算

二、平均差

(二)根据分组资料计算25.12.202269平均差是各变量值对其算术平均数离差绝05.01.202370简单平均差计算举例:表2-125.12.202270简单平均差计算举例:表2-105.01.202371加权平均差计算25.12.202271加权平均差计算05.01.202372

平均差的特点:(1)充分考虑了每一数值的离中情况,在反映离中趋势方面比较灵敏,计算方法亦比较简单。(2)绝对值运算给数学处理带来很多不便。25.12.202272平均差的特点:05.01.202373⑴简单标准差——适用于未分组资料是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用来表示;标准差的平方又叫作方差,用来表示。三、标准差计算公式:总体单位总数第个单位的变量值总体算术平均数25.12.202273⑴简单标准差——适用于未分组资料是05.01.202374【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。解:(比较:其销售额的平均差为93.6元)即该售货小组销售额的标准差为109.62元。25.12.202274【例A】某售货小组5个人,某天的销售05.01.202375⑵加权标准差——适用于分组资料标准差的计算公式总体算术平均数第组变量值出现的次数第组的变量值或组中值25.12.202275⑵加权标准差——适用于分组资料标准05.01.202376【例B】计算下表中某厂工人日检查产品数量的标准差。日检查产品数量(件)组中值(件)工人数(人)40~5050~6060~7070~8080~9045556575852590505035合计—250某厂工人日检查产品数量表25.12.202276【例B】计算下表中某厂工人日检查产品05.01.202377解:(教材P71错误)即该厂工人日检查产品的标准差为12件。25.12.202277解:(教材P71错误)即该厂工人日05.01.202378标准差的特点不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.由同一资料计算的标准差的结果一般要略大于平均差。25.12.202278标准差的特点不易受极端数值的影响,能05.01.202379

(二)标准差和方差的简捷计算25.12.202279(二)标准差和方差的简捷计算05.01.202380

例如,某班50名学生英语考试成绩及格人数39人,不及格人数11人。则:

(三)是非标志标准差的计算25.12.202280例如,某班50名学生英05.01.202381

(四)方差的加法定理资料分组后:25.12.202281(四)方差的加法定理资料分组后:05.01.202382[例]某乡9户专业织袜户拥有织袜机如下:2、2、3、4、6、7、8、10、12台试求其总方差。

平均组内方差:各组内方差的平均数。25.12.202282[例]某乡9户专业织袜户拥有织袜机如05.01.202383原始数据分组按织袜机太数分组户数(户)ni台数(台)组平均数(台)

1~44112.7542.355~8321739~122221150合计954

95.25表2-13某乡织袜专业户资料25.12.202283原始数据分组按织袜机太数分组户数(户05.01.202384总方差:25.12.202284总方差:05.01.202385可比变异系数指标四、变异系数25.12.202285可比变异系数指标四、变异系数05.01.202386身高的差异水平:cm体重的差异水平:kg用变异系数可以相互比较可比25.12.202286身高的差异水平:cm体重的差异水平:05.01.202387

变异系数计算公式:25.12.202287变异系数计算公式:05.01.202388STAT

判定原则:

越大,说明数据越分散,的代表性越小;

越小,说明数据越集中,的代表性越大。同理:越大,说明数据越分散,的代表性越小;越小,说明数据越集中,的代表性越大。25.12.202288STAT判定原则:越大,说明05.01.202389一、z分数

z分数通常被称为标准化数值。z可以解释为观察值偏离平均数的标准差个数。

2.4相对位置测度及异常值的检测25.12.2022892.4相对位置测度及异常值05.01.202390标准分数(例题分析)9个家庭人均月收入标准分数计算表家庭编号人均月收入(元)标准分数z

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996Indicatethatx1is0.695standarddeviationsgreaterthanthesamplemean.表示家庭人均收入与平均数相比高0.695个标准差。Indicatethatx2is1.042standarddeviationslessthanthesamplemean.表示家庭人均收入与平均数相比低1.042个标准差。两个不同的数据集若标准分数相同,则表明它们有相同的相对位置。25.12.202290标准分数(例题分析)9个家庭人均月05.01.202391二、切贝谢夫定理

在任何数据集中,出现在算术平均数左右Z倍范围之内的数据比例至少为(1–1/Z2),Z是大于1的任意数值。25.12.202291二、切贝谢夫定理在任何数据集中,出05.01.202392至少为0至少为75至少为89[例]有一组顾客购物付款时等候时间的资料,已知等候时间的均值为4分钟,标准差为0.9分钟,则25.12.202292至少为0[例]有一组顾客购物付款时05.01.202393-3-2-1123三、经验法则当资料呈对称分布时,则有25.12.202293-3-2-1演讲完毕,谢谢观看!演讲完毕,谢谢观看!05.01.202395本资料来源25.12.20221本资料来源05.01.202396第2章描述统计学

案例导入

在一家财产保险公司的董事会上,董事们就公司的发展战略问题展开了激烈讨论,其中一个引人关注的问题就是如何借鉴国外保险公司的先进管理经验,提高自身的管理水平。有的董事提出,2005年公司的各项业务与去年相比没有太大增长,除经济环境和市场竞争等因素外,对家庭财产保险的业务开展得不够,公司在管理方式上也存在问题。他认为,中国的家庭财产保险市场潜力巨大,应加大扩展这一业务的力度,同时,应对公司家庭财产推销员实行目标管理,并根据目标完成情况建立相应的奖惩制度。董事长认为该董事的建议有一定道理,准备采纳。会后,他责成计划部经理尽快拿出具体的实施方案。

25.12.20222第2章描述统计学05.01.202397

计划部经理接到任务后感到有些头痛。如果目标定得过高,多数推销员完不成任务,会使推销员失去信心;如果定得过低,将不利于充分挖掘员工的工作潜力,提高公司的业绩水平。于是,计划部经理将公司160个推销员的月销售额分别作了统计,统计数据如表2-1所示。如果你是计划部经理,观察这160个原始数据后,准备如何来制定具体的销售目标呢?25.12.20223计划部经理接到任务后感05.01.202398本章重点1、描述统计数据分布特征的图表法;2、数据中心位置测度的种类与方法;(1)计算平均数:算术平均数、调和平均数、几何平均数;(2)位置平均数:中位数、众数、分位数。3、变异性的测度:全距、平均差、方差、标准差、变异系数;4、相对位置的测度:z分数、切贝雪夫定理、经验法则。本章难点1、算术平均数;2、方差与标准差。25.12.20224本章重点05.01.202399第一节图表法一、次数分布

(一)、次数分布的概念及类型

次数:分布在各组的单位数(f)

频率:各组次数与总次数的比重用f/f表示;

25.12.20225第一节图表法一、次数分布05.01.2023100变量数列属性数列将总体按某个标志分成若干组,在按一定顺序进行归并排列,形成总体单位数在各组间的分布。次数分布分类分组(标志的具体表现)各组的单位数(次数或频数)构成要素异距数列等距数列组距数列单值数列单项式数列25.12.20226变量数列属性数列将总体按某个标志分成若05.01.2023101企业职工性别情况的分配数列(品质数列)性别职工人数(个)女男680520合计1200

某地区企业销售收入情况的分配数列(变量数列)销售收入(万元)企业数(个)80-9090-100100-110110-12024166合计2825.12.20227企业职工性别情况的分配数列(品质数列)05.01.2023102按销售额分组(千元)人数(人)f12以下12-1414-1616-1818-2020-2222-2424-2626-2828以上6132936251714974合计160表2-3某保险公司160名推销员销售额分组数据25.12.20228按销售额分组(千元)人数(人)f105.01.2023103组距数列指每个组的变量值用一个区间来表现的变量数列变量是连续变量;或:总体单位数较多,变量不同取值个数也较多的离散变量。

编制条件:25.12.20229组距数列指每个组的变量值用一个区间来表05.01.2023104相关概念指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限组限每组变量值变动区间的长度,为上下限之差组距每组变量取值范围的中点数值组中值组中值=25.12.202210相关概念指每组两端表示各组界限的变量05.01.2023105某地区100个百货商店月销售额与流通费用情况销售额(万元)商店数(个)每百元商品销售额中支付的流通费(元)50以下50~100100~200200~300300以上102030251514.211.410.19.28.5上组限U下组限L如:组距d=U-L=100-50=50(万元)如:组中值x=(U+L)/2=(100+200)/2=150(万元)25.12.202211某地区100个百货商店销售额(万元)05.01.2023106对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;符合“上组限不计入”原则;首末两组可使用“××以下”及“××以上”的开口组。组限的表示方法25.12.202212对于离散变量,相邻组组限可以间断,也05.01.2023107开口式组距数列组中值的计算:

首组假定下限=首组上限-相邻组组距末组假定上限=末组下限+相邻组组距先计算开口组的假定上、下限:

因此有:首组组中值末组组中值25.12.202213开口式组距数列组中值的计算:05.01.2023108例:30名同龄儿童身高(cm):106,99,85,121,84,94,106,105,110,119,101,95,91,87,105,106,109,118,96,128,91,97,105,111,111,107,103,101,107,106。(1)将变量值按大小次序排列84,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(2)计算全距:R=128-84=44(cm)(3)确定组数与组距令i=10cm,则组数n=44/10=4.4,取5组变量数列的编制。25.12.202214例:30名同龄儿童身高(cm):变量05.01.202310984,85,87,91,91,94,95,96,97,99,101,101,103,105,105,105,106,106,106,106,107,107,109,110,111,111,118,119,121,128。(4)编制变量数列25.12.20221584,85,87,91,91,94,05.01.2023110(二)、次数分布的主要类型1、钟形分布分布特征:中间大、两头小。钟形分布进一步区分为:(1)对称分布(2)偏态分布正偏:又称右偏,有极大值;负偏:又称左偏,有极小值。右偏左偏25.12.202216(二)、次数分布的主要类型1、钟形分05.01.20231112、U形分布3、J形分布分布特征:一边大、一边小。(1)正J分布:右大左小;次数随变量值的增大而增多(2)反J分布:左大右小;次数随变量值的增大而减少死亡率年龄分布特征:两头大、中间小。25.12.2022172、U形分布死亡率年龄05.01.2023112二、直方图1、直方图:直方图是用直方形的高度和宽度来表示次数分布特征的图形。横轴表示变量;纵轴表示次数。宽表示组距,高表示次数。

2、折线图将组中值用折线连接而成。曲线图当组数无限增多,则组距无限减小,此时折线趋近于曲线。身高15129638090100110120130人数25.12.202218二、直方图1、直方图:直方图是用直方05.01.2023113分组数据—直方图

(直方图的绘制)日加工零件数(个)图某电脑公虽销售量分布的直方图我一眼就看出来了,大多数天的日销售台数在170~180之间!直方图下的面积之和等于1频数(台)25.12.202219分组数据—直方图

(直方图的绘制)日05.01.2023114

将变量数列各组的次数和比率逐组累计相加而成累计次数分布,它表明总体在某一变量值的某一水平上下总共包含的总体次数和比率。累计分布分为向上累计和向下累计。组距数列中的向上累计,表明各组上限以下总共所包含的总体次数和比率有多少。组距数列中的向下累计,表明各组下限以上总共所包含的总体次数和比率有多少。三、累计分布图25.12.202220三、累计分布图05.01.20231152.2均值测度

次数分配数列的两个重要特征:集中趋势与离中趋势。集中趋势:反映一组数据向分布的中心集中的趋势。离中趋势:反映一组数据远离中心的趋势。测定集中趋势的指标主要有均值。25.12.2022212.2均值测度05.01.2023116

基本公式=总体标志总量/总体单位总量(一)简单算术平均数

适用未分组或各变量值出现次数相同资料一、算术平均数25.12.202222基本公式=总体标志总量05.01.2023117简单均值

SimpleMean原始数据: 10 5 9 13 6 825.12.202223简单均值

SimpleMean原05.01.2023118(二)加权算术平均数适用已分组资料

注意:加权算术平均数不仅受各组变量值大小的影响,还受各组次数多少的影响。次数因其对平均的结果有权衡轻重的作用,因此,也叫权数。25.12.202224(二)加权算术平均数适用已分组资料05.01.2023119加权均值(WeightedMean)【例2.3】根据第三章表3-9中的数据,计算电脑销售量的平均数表2-5加权平均数计算表25.12.202225加权均值(WeightedMea05.01.2023120加权均值

(权数对均值的影响)

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下

甲组:考试成绩(X): 020100

人数分布(F):118

乙组:考试成绩(X): 020100

人数分布(F):811x甲0×1+20×1+100×8n10i=1xi82(分)x乙0×8+20×1+100×1n10i=1xi12(分)25.12.202226加权均值

(权数对均值的影响)05.01.2023121权数与加权23456781925.12.202227权数与加权23456781905.01.2023122权数与加权23456781925.12.202228权数与加权23456781905.01.2023123权数与加权23456781925.12.202229权数与加权23456781905.01.2023124

权数的种类:

A、绝对权数(次数)fB、相对权数(频率或比重)f/f

只有当各组的次数不相等时,次数才具有权数的作用。

由此可见,简单算术平均数是加权算术平均数的一个特例。25.12.202230权数的种类:由此可见,简单算05.01.2023125A:是非标志——将总体全部单位划分为“是”或“否”两类的标志

(三)是非标志平均数25.12.202231A:是非标志——将总体全部单位划分为05.01.2023126B、哑变量(0—1变量)25.12.202232B、哑变量(0—1变量)05.01.2023127【例】设X=(2,4,6,8),则其调和平均数可由定义计算如下:⒉再求算术平均数:⒈求各标志值的倒数:,,,⒊再求倒数:是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数二、调和平均数harmean(harmonicmean)25.12.202233【例】设X=(2,4,6,8),则05.01.2023128[例]某种蔬菜早上0.4元/斤,中午0.25元/斤,晚上0.20元/斤,某人各买1斤,求平均价格。(算术平均法)

[例]类似地某人早、中、晚各买1元,求平均价格。

(一)简单调和平均数(各变量值均为一个单位时使用)25.12.202234[例]某种蔬菜早上0.4元/斤,中午05.01.2023129式中:x代表各个变量值,n代表变量值项数25.12.202235式中:x代表各个变量值,n代表变量值05.01.2023130二.加权调和平均数——适用于总体资料经过分组整理形成变量数列的情况式中:为第组的变量值;为第组的标志总量。25.12.202236二.加权调和平均数——适用于总体资05.01.2023131解:例:晚上白菜0.3元/斤,菠菜0.5元/斤,芹菜0.6元/斤,小王买了2元白菜,3元菠菜,4元芹菜,问平均每斤菜的价格?25.12.202237解:例:晚上白菜0.3元/斤,菠菜005.01.2023132[例]某局所属四个企业有关资料如下,试计算该工业局的产值平均计划完成百分比。25.12.202238[例]某局所属四个企业有关资料如下05.01.2023133

算术平均数与调和平均数的适用前提:

A、已知基本公式母项资料用算术平均数计算

(子项资料未知)B、已知基本公式子项资料用调和平均数计算(母项资料未知)

调和平均数是算术平均数的变形原来只是计算时使用了不同的数据!25.12.202239算术平均数与调和平均数05.01.2023134

是N项变量值连乘积的开N

次方根三、几何平均数Geomean(geomatricmean)用于计算现象的平均比率或平均速度应用各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。应用的前提条件:25.12.202240是N项变量值连乘积的开N三、05.01.2023135A.简单几何平均数——适用于总体资料未经分组整理尚为原始资料的情况式中:为几何平均数;为变量值的个数;为第个变量值。几何平均数的计算方法25.12.202241A.简单几何平均数——适用于总体资05.01.2023136(二)加权几何平均数

注意:当观察值有一项为零或负值时,不宜用几何平均数计算。如用同一数据分别计算算术平均数、调和平均数和几何平均数时,则有如下关系:25.12.202242(二)加权几何平均数注意:当观察值05.01.2023137四、中位数

把总体各变量值按大小顺序排列起来,处于中点位置的变量值就是中位数,用“Me”表示。(一)根据未分组资料确定中位数25.12.202243四、中位数把总体各变05.01.2023138当n为奇数时,Me=中间位置的那个变量值;原始数据:

2422212620排序: 2021222426位置: 123

45中位数2225.12.202244当n为奇数时,Me=中间位置的05.01.2023139当n为偶数时,Me=中间位置两侧的两个变量值的简单平均。原始数据:105 91268排序: 56891012位置: 123

4

56位置N+126+123.5中位数8+928.525.12.202245当n为偶数时,Me=中间位置两侧的05.01.20231401、由单项数列确定中位数(二)根据分组资料确定中位数25.12.2022461、由单项数列确定中位数05.01.2023141中点位置=(181+1)/2=第91个人

Me

应是第91个人的年龄

Me=18岁25.12.202247中点位置=(181+1)/2=第9105.01.2023142(二)根据组距数列确定中位数式中:L为中位数所在组的下限,U为上限;

i为中位数所在组的组距;Sm-1

为小于中位数的各组次数之和;Sm+1为大于中位数的各组次数之和;

fm为中位数所在组的次数。25.12.202248(二)根据组距数列确定中位数式中:05.01.2023143[例]下限公式:上限公式:并且:25.12.202249[例]下限公式:05.01.2023144

注意的问题:(1)中位数不受极端值的影响,比较稳健。(2)中位数的取值只与中间位置的一或两个数值有关,利用信息不充分,忽略了其它数据的大小,并且不适合于代数运算。25.12.202250注意的问题:05.01.2023145

众数是观察值中出现得最多的变量值。用Mo表示。在数据集中,众数组是出现频率最高的一组。数据集可能有一个众数(组),或两(多)个众数(组)。五、Mode众数25.12.202251众数是观察值中出现得05.01.2023146Themodalclass众数组Forlargedatasetsthemodalclassismuchmorerelevantthantheasingle-valuemode.对于大的数据集来说,众数组比单个众数更合适。25.12.202252ThemodalclassFor05.01.2023147TypesofMode众数的种类Nomode无众数data:10591268Mode:一个众数

data:65

9855Bimodal:双众数data:252828

364242Multimodal:多众数

data:3232

32333434343536363625.12.202253TypesofMode众数的05.01.2023148有时众数是一个合适的代表值

比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。

25.12.202254有时众数是一个合适的代表值比如在服05.01.2023149STAT

五、众数众数是指总体中出现次数最多的变量值,用Mo表示。A、20,15,18,20,20,22,20,23;n=8Mo=20B、20,20,15,19,19,20,19,25;n=8Mo=20Mo=19C、10,11,13,16,15,25,8,12;n=8,但没有众数(一)由单项数列确定众数在单项数列中,出现次数最多的变量值就是众数。确定众数组确定众数:Mo=1825.12.202255STAT五、众数05.01.2023150式中:

L为众数组的下限,U为上限;

i为众数组的组距;1=fm-fm-1,即众数组的次数与前一组次数之差;

2=fm-fm+1,即众数组的次数与后一组次数之差。

(二)由组距数列确定众数确定众数组再用下述公式计算:25.12.202256式中:(二)由组距数列确定众数05.01.20231514050607080901005040302010AGFBCED人数产值xy(L)(U)Mo=L+x=U-yO25.12.202257405005.01.2023152STAT4050607080901005040302010AGFBCED人数产值xy(L)(U)Mo=L+x=U-yO第2章描述统计学25.12.202258STAT405005.01.2023153众数取值的特点:

众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值。注意的问题:(1)优点:不受极端值的影响。(2)缺点:未利用所有信息,缺乏敏感性和不适合代数运算。(3)可用于反映质量变量的集中趋势。25.12.202259众数取值的特点:05.01.2023154六、集中趋势测度指标的比较

(一)各种数值平均数的比较适用场合不同。若总体标志总量等于总体各单位变量值之和,可采用算术平均数计算;若总体标志总量等于总体各单位变量值之积,则应采用几何平均数计算某些数值平均数对于被平均变量的取值有着特殊的限制。25.12.202260六、集中趋势测度指标的比较

(一)05.01.2023155(二)数值平均数与位置平均数的比较

数值平均数对于数据的概括能力比位置平均数更强。数值平均数对于数据变化的“灵敏度”很高。对极端值的“耐抗性”较低;位置平均数的“灵敏度”较低,但“耐抗性”却很强。数值平均数只适用于定距尺度和定比尺度的数据:位置平均数还适用于各种定序尺度的数据,众数甚至还适用于各种定类尺度的数据。25.12.202261(二)数值平均数与位置平均数的比较

05.01.2023156(三)中位数、众数和算术平均数的关系对称分布

均值=中位数=众数左偏分布均值

中位数

众数右偏分布众数

中位数

均值25.12.202262(三)中位数、众数和算术平均数的关系05.01.2023157

卡尔•皮尔逊经验公式:适度偏斜情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。25.12.202263卡尔•皮尔逊经验公式:适度偏斜情况05.01.2023158平均指标只能反映现象的集中趋势而不能反映总体各单位标志值的差异程度。例

集中趋势和离散程度是总体分布的两个重要特征。离散趋势指标是反映总体各单位标志值差异(离散)程度的指标。又称标志变动指标、离散程度指标等。平均指标与离散趋势指标的区别:平均指标考虑的是如何消除离差,显示集中趋势。而离散趋势指标考虑的是如何计算离差,反映离散的程度及离差的大小。2.3变异程度测定25.12.202264平均指标只能反映现象的集中趋势而不能05.01.2023159

离散趋势指标作用:

1、衡量平均数代表性的大小25.12.202265离散趋势指标作用05.01.2023160

2、反映变量值分布的离中趋势和离散程度

25.12.2022662、反映变量值分布的离中趋势05.01.20231613、反映社会经济现象的均衡性和稳定性如甲、乙两工厂某年四个季度的产量资料如下(单位:万件):甲:65、68、72、75,平均每季产量为70万件;乙:34,51,95,100,平均每季产量为70万件。描述数据离散趋势的指标主要有全距、平均差、标准差、方差及变异系数等。25.12.2022673、反映社会经济现象的均衡性和稳定05.01.2023162

一、全距全距是总体各单位某一数量标志的最大值与最小值之差。全距(R)=最大值—最小值特点1、优点:意义明确,简单方便。

2、缺点:比较粗略,未考虑中间变量值的离散情况。25.12.202268一、全距全距是总体各单位某一数量标05.01.2023163平均差是各变量值对其算术平均数离差绝对值的算术平均数。常用“A·D”表示。(一)根据未分组资料计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论