统计学第二章统计数据的描述课件_第1页
统计学第二章统计数据的描述课件_第2页
统计学第二章统计数据的描述课件_第3页
统计学第二章统计数据的描述课件_第4页
统计学第二章统计数据的描述课件_第5页
已阅读5页,还剩321页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章统计数据的描述

精品统计先是思维而后才是数学1第二章统计数据的描述精品统计先是思维而后才是数学第一节统计数据的整理第二节分布集中趋势的测度第三节分布离散程度的测度第四节分布偏态与峰度的测度第五节统计表和统计图精品统计先是思维而后才是数学2第一节统计数据的整理精品统计先是思维而后才是数学2学习目标掌握数据的整理方法掌握集中、离散趋势的测度掌握偏态峰度的测度掌握统计表和统计图的制作与使用精品统计先是思维而后才是数学3学习目标掌握数据的整理方法精品统计先是思维而后才是数学3录取中有无歧视?某高校两个系(财经系、工程系)的报考及录取情况男生女生录取350200未录取450400报考人数800600录取比率:男生:350/800=44%女生:200/600=33%男生成绩好?性别歧视?精品统计先是思维而后才是数学4录取中有无歧视?某高校两个系(财经系、工程系)的报考及录取情两个系的报考及录取情况工程系财经系男生女生男生女生录取30010050100未录取300100150300报考人数600200200400工程系:男女录取比率50%,财经系:男女录取比率25%。说明的问题:对数据1.要从不同的角度进行分析;2.要注意结构或是权数的影响。精品统计先是思维而后才是数学5两个系的报考及录取情况工程系财经系男生女生男生女生录取3002.1

统计数据的整理精品统计先是思维而后才是数学62.1统计数据的整理精品统计先是思维而后才是数学6统计整理将统计调查得到的原始资料或已经加工的综合资料进行科学的分组和汇总形成综合统计资料的工作过程是统计调查的继续,统计分析的前提和基础地位使数据系统化、条理化,反映事物的总体特征,并在建立数据库的基础上达到一源多用作用统计整理的概念和作用精品统计先是思维而后才是数学7统计整理将统计调查得到的原始资料或已经加工的综合资料进行科学制定统计整理方案对原始资料进行审核数据处理制作统计表或统计图统计整理的步骤精品统计先是思维而后才是数学8制定统计整理方案对原始资料进行审核数据处理制作统计表或数据的审核

对原始数据的审核的内容完整性审核准确性审核对第2手数据的审核的内容完整性审核准确性审核时效性适用性精品统计先是思维而后才是数学9数据的审核

对原始数据的审核的内容精品统计先是思维而后才是数数据的排序(datarank)按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成精品统计先是思维而后才是数学10数据的排序(datarank)按一定顺序将数据排列,以发现世界人均国民总收入/tjsj/qtsj/gjsj/2012/t20130702_402908184.htm精品统计先是思维而后才是数学11世界人均国民总收入.2.1.1

统计数据的分组精品统计先是思维而后才是数学122.1.1统计数据的分组精品统计先是思维而后才是数学1统计分组的基本原则:

必须保证在某一标志上,组内的同质性和组间的差异性。

分组兼有“分和合”双重含义一、统计分组的概念和作用将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程统计分组精品统计先是思维而后才是数学13统计分组的基本原则:一、统计分组的概念和作用将总体中所有单位分组分组前分组后25%33%42%精品统计先是思维而后才是数学14分组分组前分组后25%33%42%精品统计先是思维而后才是数统计分组的关键:

1、选择分组标志:品质标志(性别、质量等)数量标志(数量、数值等)

2、划分各组界限二、分组标志的选择与分组种类精品统计先是思维而后才是数学15统计分组的关键:二、分组标志的选择与分组种类精品统计先是思维

学生按性别分组性别人数(频数)频率(%)男生3060女生2040合计50100按品质标志分组精品统计先是思维而后才是数学16学生按性别分组性别人数(频数)频率(%)男生3060女生某班学生按考试成绩分组按考试成绩分组人数频率%优510良1020中2040及格1020不及格510合计50100精品统计先是思维而后才是数学17某班学生按考试成绩分组按考试成绩分组人数频率%优510良1按数量标志分组年龄人数频率%191230201537.5211332.5合计40100某班学生按年龄频数分布精品统计先是思维而后才是数学18按数量标志分组年龄人数频率%191230201537.5212.1.2

次数分配精品统计先是思维而后才是数学192.1.2次数分配精品统计先是思维而后才是数学19

次数分配是将总体按一定的标志分组,说明个体在各组之间的分布情况。是统计资料整理结果的一种重要表现。次数分配:也称次数(频数)分布。次数分配组成要素:1、组的名称2、各组次数(也称频数)或频率精品统计先是思维而后才是数学20次数分配是将总体按一定的标志分组,说明个分组方法等距分组异距分组单变量值分组组距分组精品统计先是思维而后才是数学21分组方法等距分组异距分组单变量值分组组距分组精品统计先是思维单变量值分组

(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况精品统计先是思维而后才是数学22单变量值分组

(要点)1.将一个变量值作为一组例题分析【例】某车间30名工人每周加工某种零件件数如右表。

精品统计先是思维而后才是数学23例题分析【例】某车间30名工人每周加工某种零件件数如右表。单变量值分组表(实例)表

某车间30名工人周加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)8485889194959611121119799

10110310510610711213421091101111181191211281121111变量值精品统计先是思维而后才是数学24单变量值分组表(实例)表某车间30名工人周加工零件数组距分组(要点)将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则(上组限值不算在该组内)可采用等距分组,也可采用不等距分组~~~~~精品统计先是思维而后才是数学25组距分组(要点)将变量值的一个区间作为一组~~工人按月工资额分组(元)工人数(频数)

频率%600—7004010700—80010025800—90012030900—100080201000—11006015合计400100等距分组

各组的组距相等

各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律精品统计先是思维而后才是数学26工人按月工资额分组(元)工人数频率600—70040107不等距分组各组的组距是不相等

各组频数的分布受组距大小不同的影响年龄阶段男性

女性婴幼儿0-60-6少年儿童7-177-17中青年18-5918-54老年60岁以上55岁以上精品统计先是思维而后才是数学27不等距分组年龄阶段男性女性婴幼儿0-60-6少年儿童7-1等距分组步骤1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,组数不应少于5组,也不应多于15组。

在实际分组时,可以按Sturges提出的经验公式来确定组数K(四舍五入取整)例如2-1的数据:精品统计先是思维而后才是数学28等距分组步骤1)确定组数:组数的确定应以能够显示数据的分布特2)确定各组的组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即

组距=(最大值-最小值)÷组数

例2.1的数据,最大值为128,最小值为84,则组距=(128-84)/6=7.3。

组距宜取5或10的倍数;(近似值)

在实践中,组数和组距要通过反复的实验确定,最终确定出最有意义的组数和组距的组合。精品统计先是思维而后才是数学292)确定各组的组距:组距(ClassWidth)是一个3)确定组限:组限是分组的数量界限,是表明每组界限的两头数值。下限(lowlimit):一个组的最小值上限(upperlimit):一个组的最大值组限的具体形式有:重合组限和间断组限;闭口组限和开口组限。确定组限的原则1:最小一组的下限必须包含数列中最小变量值;最大组的上限必须包含数列中最大变量值。确定组限的原则2:遵循不重不漏的原则。★“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;★“不漏”在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。精品统计先是思维而后才是数学303)确定组限:组限是分组的数量界限,是表明每组界限的两头数值4)根据分组计算频数,整理成频数分布表:将原始数据按照各自的大小分配到各组中。按周加工零件数分组次数(频数)

频率(%)80—9031090—100723.33100—1101343.33110—120516.67120—13026.67合计30100本例可以得到如下频数分布表重合组限、闭口组限精品统计先是思维而后才是数学314)根据分组计算频数,整理成频数分布表:将原始数据按照各自的对于重合组限的形式,为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于其一组上限的变量值不算在本组内,而计算在下一组内。重合组限既适用于连续型变量分组也适用于离散型变量分组,应用非常广泛。精品统计先是思维而后才是数学32对于重合组限的形式,为解决“不重”的问题,统计分组时对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决“不重”的问题。按周加工零件数分组次数(频数)80—89390—997100—10913110—1195120—1292合计30精品统计先是思维而后才是数学33对于离散变量,可以采用相邻两组组限间断的办法(间断组限)解决如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组或个别极端值被漏掉,第一组和最后一组可以采取“xx以下”及“xx以上”这样的开口组。开口组通常以相邻组的组距作为其组距。例如,在例2—1的30个数据中,假定将最小值改为64,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,如80以下;130以上。开口组限:缺少上限或者下限的组限设置。精品统计先是思维而后才是数学34如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现按周加工零件数分组次数(频数)80以下180—90290—1007100—11013110—1205120—1301130以上1合计30开口组精品统计先是思维而后才是数学35按周加工零件数分组次数(频数)80以下180—90290—1编制频数分布表的步骤确定组数编制频数分布表的步骤确定组距确定组限编制表格计算频数精品统计先是思维而后才是数学36编制频数分布表的步骤确定组数编制频数分布表的步骤确定组距确定在研究分析次数分布时,还需要计算:累计频数和累计频率1.累计频数:将各类别的频数逐级累加。

有两种方法:一是可以从最小组一方向最大组的一方累加频数,称为向上累积;二是可以从最大组的一方向最小组的一方累加频数,称为向下累积。累计频率:将各类别的频率(百分比)逐级累加精品统计先是思维而后才是数学37在研究分析次数分布时,还需要计算:累计频数和累计频率1表某车间工人周零件数的频数分布表按周加工零件数分组人数(次数)频率(%)向下累积向上累积累计频数(次数)累计频率(%)累计频数(次数)累计频率(%)

80-90

90-100

100-110

110-120

120-1303713521023.3343.3316.676.673102328301033.3376.6693.33100302720721009066.6723.346.67合计30100.0————例:累计频数和累计频率的计算精品统计先是思维而后才是数学38表某车间工人周零件数的频数分布表按周加工人数频率向下累积

在根据组距数列进行统计计算时,需要确定组中值,作为各组变量值的代表值。组中值(classmidpoint):下限与上限之间的中点值。下限值+上限值2组中值=概念:组中值组中值这种代表有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组距中值两侧呈对称分布。如实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。精品统计先是思维而后才是数学39在根据组距数列进行统计计算时例:组中值计算按周加工零件数分组组中值次数(频数)

频率(%)80—908531090—10095723.33100—1101051343.33110—120115516.67120—13012526.67合计——30100精品统计先是思维而后才是数学40例:组中值计算按周加工零件数分组组中值次数频率(%)80—在开口组中,组中值的计算以邻近组组距为依据可见,开口组的组中值既假定变量值是均匀分布或对称分布,又假定组距与邻近组组距相等。精品统计先是思维而后才是数学41在开口组中,组中值的计算以邻近组组距为依据可见例:组中值计算按周加工零件数分组组中值次数(频数)

频率(%)80以下7513.3380—908526.6790—10095723.33100—1101051343.33110—120115516.67120—13012513.33130以上13513.33合计——30100精品统计先是思维而后才是数学42例:组中值计算按周加工零件数分组组中值次数频率(%)80以次数分配表的编制

(例题分析)【例】某车间30名工人每周加工某种零件件数如右表,试对数据进行分组。

精品次数分配表的编制

(例题分析)【例】某车间30名工人每周加工43使用Excel频数函数

(FREQUENCY)使用Excel中的统计函数“FREQUENCY”来创建频数分布表和直方图,可解决这一问题。创建频数分布表的步骤是选择与接受区域相临近的单元格区域,作为频数分布表输出的区域选择统计函数中的“FREQUENCY”函数在对话框Date-array后输入数据区域,在Bins-array后输入各组分界点同时按下ctrl-shift-Enter组合键,即得到频数分布统计函数—FREQUENCY精品使用Excel频数函数(FREQUENCY)使用Excel44次数分配表按周加工零件数分组次数(频数)80—90390—1007100—11014110—1204120—1302合计30精品次数分配表按周加工零件数分组次数(频数)80—90390—1452.1.3

次数分配直方图精品统计先是思维而后才是数学462.1.3次数分配直方图精品统计先是思维而后才是数学41.直方图

用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)直方图下的总面积等于1精品统计先是思维而后才是数学471.直方图

用矩形的宽度和高度来表示频数分布的图形,实际上分组数据的图示

(直方图的绘制)某车间工人周加工零件直方图

我一眼就看出来了,周加工零件在100~110之间的人数最多!高度表示每一组的频数或百分比,宽度则表示各组的组距,横轴标注的刻度应该是连续区间精品统计先是思维而后才是数学48分组数据的图示

(直方图的绘制)某车间工人周加工零件直方图2.折线图折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的精品统计先是思维而后才是数学492.折线图折线图也称频数多边形图精品统计先是思维而后才是数学分组数据的图示

(折线图的绘制)折线图与直方图下的面积相等!某车间工人周加工零件折线图

精品统计先是思维而后才是数学50分组数据的图示

(折线图的绘制)折线图与直方图某车间工人周加3.次数分布曲线当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。精品统计先是思维而后才是数学513.次数分布曲线当对数据所分的组数很多时,组距会越来越小,这频数分布曲线的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布图

几种常见的频数分布精品统计先是思维而后才是数学52频数分布曲线的类型对称分布右偏分布左偏分布正J型分布反J型分2.1.4

洛伦兹曲线与基尼系数精品统计先是思维而后才是数学532.1.4洛伦兹曲线与基尼系数精品统计先是思维而后才是数洛伦茨曲线(累积次数分配折线图)20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成的。是描述收入和财富分配性质的曲线,分析该国家或地区分配的平均程度AB累积的人口百分比累积的收入百分比绝对公平线洛伦茨曲线精品统计先是思维而后才是数学54洛伦茨曲线(累积次数分配折线图)基尼系数

20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡量收入分配平均程度的指标A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为:基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。AB精品统计先是思维而后才是数学55基尼系数20世纪初意大利经济学家基尼(G.Gini)根据2.2分布集中趋势的测度

精品统计先是思维而后才是数学562.2分布集中趋势的测度精品统计先是思维而后才是数据集中区变量x集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值精品统计先是思维而后才是数学57数据集中区变量x集中趋势是指一组数据向某一中心值一、众数二、中位数三、四分位数四、均值五、几何均值六、切尾均值七、众数、中位数和均值的比较精品统计先是思维而后才是数学58一、众数精品统计先是思维而后才是数学581.概念:在总体中出现次数最多的那个标志值就是众数。2.2.1众数M0从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。例如:集市上某种蔬菜的成交价格(元)为:

0.8,0.9,0.9,1.0,1.2,1.2,1.2,1.2,1.5,1.5,1.61.2元出现次数最多,就是众数精品统计先是思维而后才是数学591.概念:在总体中出现次数最多的那个标志值就是众数。2.2.众数无众数众数1众数2一组数据可能没有众数或有几个众数(不唯一性)精品统计先是思维而后才是数学60众数无众数众数1众数2一组数据可能没有众数或有几个众数(不M0M0M0M0M0若有两个次数相等的众数,则称复众数。①只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。由定义可看出众数存在的条件:精品统计先是思维而后才是数学61M0M0M0M0M0若有两个次数相等的众数,则称复众数。①下三图无众数:②在单位数很少,或单位数虽多但无明显集中趋势时,

计算众数是没有意义的。精品统计先是思维而后才是数学62下三图无众数:②在单位数很少,或单位数虽多但无明显集中趋势1)定类数据的众数

表1某城市居民关注广告类型的频数分布

广告类型人数(频数)比例频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100众数=商品广告

对定序数据同样2.众数的计算方法精品统计先是思维而后才是数学631)定类数据的众数表1某城市居民关注广告类型的频数分2)定序数据的众数解:这里的数据为定序数据。变量为“回答类别”城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意某城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意

24108934530

836311510合计300100.0精品统计先是思维而后才是数学642)定序数据的众数解:这里的数据为定序数据。变量为“回答类别①根据单项数列确定众数;价格(元)销售数量(千克)2.00

202.40

603.001404.00

80合计300某种商品的价格情况众数M0=3.00(元)例3)数值数据的众数精品统计先是思维而后才是数学65①根据单项数列确定众数;价格(元)销售数量(千克)2.②根据组距数列确定众数⑵

利用比例插值法推算众数的近似值。⑴

由最多次数来确定众数所在组;Δ1Δ2众数Li其中:L—众数组的下限;Δ1—众数组与前一组的频数之差

Δ2—众数组与后一组的频数之差

i—众数组的组距精品统计先是思维而后才是数学66②根据组距数列确定众数⑵利用比例插值法推算众数的近似值。按周加工零件数分组工人人数(人)

80-903

90-1007

100-11013

110-1205

120-1302

表中100-110,即众数所在组。例精品统计先是思维而后才是数学67按周加工零件数分组工人人数(人)80-903解:众数组是“100-110”的组,则

精品统计先是思维而后才是数学68解:众数组是“100-110”的组,则精品统计众数的特点:集中趋势的测度值之一出现次数最多的变量值众数是位置代表值,不受极端值的影响可能没有众数或几个众数适用于定类数据、定序数据、定量数据众数所体现的统计思想是:在一组数据的中心点附近,变量值出现的频数较高,根据众数组及相邻两组的频数分布,确定中心点的位置。精品统计先是思维而后才是数学69众数的特点:集中趋势的测度值之一精品统计先是思维而后才是数学在某些情况下,众数是一个较好的代表值。

例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。例:买菜;适合于数据量较多时使用

众数值偏离众数组组中值得程度越大,分布的形状越偏精品统计先是思维而后才是数学70精品统计先是思维而后才是数学701.概念:将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数。2.2.2中位数MeMe50%50%精品统计先是思维而后才是数学711.概念:将总体中各单位标志值按大小顺序排列,2.2.2

1)定序数据的中位数

回答类别频数(户)向上累积非常不满意2424不满意108132一般93225满意45270非常满意30300合计300——表某城市家庭对住房状况的评价对于定序数据,确定中位数位置用:中位数位置=300/2=150中位数=一般;2.中位数的计算方法精品统计先是思维而后才是数学72

1)定序数据的中位数

回答类别频数(户)向上累积非常不满意①由未分组资料计算中位数(a)先对数据进行排序(b)确定中位数的位置,其公式为:(n为数据的个数)(c)最后确定中位数的具体数值当n为偶数时,当n为奇数时,2)数值数据的中位数

精品统计先是思维而后才是数学73①由未分组资料计算中位数(a)先对数据进行排序(c)最后确

9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数1080例精品统计先是思维而后才是数学749个家庭的人均月收入数据中位数108

10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910例精品统计先是思维而后才是数学7510个家庭的人均月收入数据例精品统计先是思维而后②由分组数据确定中位数按日产量分组(千克)工人数(人)向上累计向下累计

50–60

10

10164

60–70

19

29154

70–80

50

79135

80–90

36115

85

90–100

27142

49

100-110

14156

22

110以上

8164

8合计164--a)要先根据公式:∑f/2,确定中位数的位置,并确定中位数所在的组。∑f——总次数精品统计先是思维而后才是数学76②由分组数据确定中位数按日产量分组(千克)工人数(人)b)然后采用下面的公式计算中位数的近似值:式中:∑f

为数据的个数,L为中位数所在组的下限,Sm-1为中位数所在组以前各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距。例精品统计先是思维而后才是数学77b)然后采用下面的公式计算中位数的近似值:式中:∑f为数①中位数是一种位置平均数,它也不受极端值及开口组的影响,具有稳健性。②各单位标志值与中位数离差的绝对值之和是个最小值。③对某些不具有数学特点或不能用数字测定的现象,可以用中位数求其一般水平。3.中位数的特点精品统计先是思维而后才是数学78①中位数是一种位置平均数,它也不受极端值②各单位标志值与2.2.3四分位数(quartile)

四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。

很显然,中间的四分位数就是中位数。排序后处于25%和75%位置上的值,即通常说的第一个四分位数(下四分位数);第三个四分位数(上四分位数)。QLQMQU25%25%25%25%精品统计先是思维而后才是数学792.2.3四分位数(quartile)四分位数是通1.不受极端值的影响2.主要用于定序数据,也可用于数量数据,但不能用于定类数据特点:精品统计先是思维而后才是数学801.不受极端值的影响特点:精品统计先是思维而后才是数学80定序数据四分位数

(位置的确定)精品统计先是思维而后才是数学81定序数据四分位数

(位置的确定)精品统计先是思维而后才是数学定序数据的四分位数

(例题分析)解:QL位置=(300)/4=75QU位置=(3×300)/4=225

从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。四分位数为:

QL

=不满意

QU

=一般甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意

不满意一般满意非常满意

24108934530

24132225270300合计300—精品统计先是思维而后才是数学82定序数据的四分位数

(例题分析)解:QL位置=(300)1.未分组四分位数原始数据:(未分组)

当四分位数的位置不在某一个数值上,按比例分摊位置两侧数值的差值。

先排序;然后确定四分位数的位置数量数据四分位数精品统计先是思维而后才是数学831.未分组四分位数原始数据:当四分位数的位置不在某一例:数量数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在815到1565元之间。精品统计先是思维而后才是数学84例:数量数据的四分位数(9个数据的算例)【例】:9个家庭的人例如:数量数据的四分位数(10个数据的算例)【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910

QL和QU之间包含了50%的数据,可以说有一半的家庭人均收入在772.5到1532.5元之间。精品统计先是思维而后才是数学85例如:数量数据的四分位数(10个数据的算例)【例】:10个家2.分组数据的四分数:计算:其中:L是四分位数所在组的下限值,S是以前组的累计频数;f是所在组的频数;i为组距。精品统计先是思维而后才是数学862.分组数据的四分数:计算:其中:L是四分位数所在组的下限值例:用表2.10的数据分布资料计算

下四分位数。表明25%的人口收入在2793元以下,收入在2793元以上的有75%的人口。精品统计先是思维而后才是数学87例:用表2.10的数据分布资料计算

下四分位数。表明25%的2.2.4均值(mean)均值是全部数据的算术平均,也称为算术平均数。是集中趋势的最常用测度值是一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响用于数量数据,不能用于定类数据和定序数据精品统计先是思维而后才是数学882.2.4均值(mean)均值是全部数据的算术平均,1.简单算术平均数——未分组的原始数据原始数据例:某生产小组有10名工人,日产零件分别为:

40,40,35,31,28,56,40,35,44,31件,则该组10名工人平均每人日产量:精品统计先是思维而后才是数学891.简单算术平均数——未分组的原始数据原始数据例:某生产小组2.加权算术平均数——分组数据各组组中值其中:xi表示第i组的组中值;

fi

是各组次数,也称为权数;

k

表示分组的组数;精品统计先是思维而后才是数学902.加权算术平均数——分组数据各组组中值其中:xi表示第加权均值(例题分析)

根据不分组的公式计算均值=103.5。相差0.83件分组组中值xi

频数fi

xifi

80-9085322590-100957665100-110105131365110-1201155575120-1301252250合计-303080例精品统计先是思维而后才是数学91加权均值(例题分析)根据不分组的公式计算均值=103分析:成绩(分)x人数(人)f甲班乙班丙班603915010013950平均成绩(分)619980起到权衡轻重的作用决定平均数的变动范围精品统计先是思维而后才是数学92分析:成绩(分)x人数(人)f甲班乙班丙班603915010表现为次数、频数、单位数;即公式中的表现为频率、比重;即公式中的指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志值对平均数的影响程度权数绝对权数相对权数精品统计先是思维而后才是数学93表现为次数、频数、单位数;即公式加权算术平均数受两因数的影响:

变量值大小的影响。次数多少的影响。次数大的标志值对影响大;

反之,影响小。而简单算术平均数只反映变量值大小这一因素的影响。加权算术平均数与简单算术平均数不同在于:精品统计先是思维而后才是数学94加权算术平均数受两因数的影响:而简单算术平均数只⒈变量值与其算术平均数的离差之和恒等于零,即:⒉变量值与其算术平均数的离差平方和为最小,即:算术平均数的主要数学性质精品统计先是思维而后才是数学95⒈变量值与其算术平均数的离差之和恒等于零,即:算术平均数的主离差的概念12345678-1-1-213精品统计先是思维而后才是数学96离差的概念12345678-1-1-213精品统计先是思维而思考题

比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。?精品统计先是思维而后才是数学97思考题比特啤酒公司雇用了468名员工,其中有56名管理正确的计算方法精品统计先是思维而后才是数学98正确的计算方法精品统计先是思维而后才是数学981.几何平均数的概念和计算方法2.2.5几何平均数(又称“对数平均数”)是n个不同数值的连乘积的n次方根。简单几何平均数可看作是均值的一种变形精品统计先是思维而后才是数学991.几何平均数的概念和计算方法2.2.5几何平均数(又称也可看作是均值的一种变形加权几何平均数各个比率(x)或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。应用的前提条件:精品统计先是思维而后才是数学100也可看作是均值的一种变形加权几何平均数各个比率(x)或速度的某机械厂有毛坯、粗加工、精加工、装配车间四个流水线作业的车间。本月份一、二、三、四车间制品合格率分别为95%、92%、90%、85%,计算平均车间产品合格率。例分析:设最初投产100A个单位,则第一车间的合格品为100A×0.95;第二车间的合格品为(100A×0.95)×0.92;第三车间的合格品为(100A×0.95×0.92)×0.90

;第四车间的合格品为(100A×0.95×0.92×0.90)×0.85;精品统计先是思维而后才是数学101某机械厂有毛坯、粗加工、精加工、装配车间四个流因该流水线的最终合格品即为第四车间的合格品,故该流水线总的合格品应为100A×0.95×0.92×0.90×0.85;则该流水线产品总的合格率为:即该流水线总的合格率等于各车间合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。解:精品统计先是思维而后才是数学102因该流水线的最终合格品即为第四车间的合格品,故该流水线总的设本金为A,则至各年末的本利和应为:第1年末的本利和为:第2年末的本利和为:………………第25年末的本利和为:分析:第2年的计息基础第25年的计息基础投资银行某笔投资的年利率是按复利计算的,25年的年利率分配是:有1年为3%,有4年为5%,有8年为8%,有10年为10%,有2年为15%,求平均年利率。例精品统计先是思维而后才是数学103设本金为A,则至各年末的本利和应为:第1年末的本利和为:第2则该笔本金25年总的本利率为:即25年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。解:精品统计先是思维而后才是数学104则该笔本金25年总的本利率为:即25年总本利率等于各年本利率2.几何平均数的特点和用途如果数列中有一个标志值等于零或负值,就无法计算;它适用于反映特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积。主要应用于在动态数列中求平均发展速度、平均增减率等。精品统计先是思维而后才是数学1052.几何平均数的特点和用途如果数列中有一个标志值等于零或负值2.2.6切尾均值(trimmedMean)1.是去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为n

表示观察值的个数;α表示切尾系数,

精品统计先是思维而后才是数学1062.2.6切尾均值(trimmedMean)1.是去切尾均值(例题分析)

【例】某次比赛共有11名评委,对某位歌手的给分分别是:经整理得到顺序统计量值为去掉一个最高分和一个最低分,取1/11

精品统计先是思维而后才是数学107切尾均值(例题分析)【例】某次比赛共有11名评委,对某位歌数据两端切去几个数据,通过切尾系数决定,切尾均值就是算术平均数。接近1/2时,切尾均值是中位数。切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个优点而形成的统计量。当切尾系数等于0或接近1/2时,切尾均值公式变为算术平均数和中位数公式,是切尾均值的两种特例。精品统计先是思维而后才是数学108数据两端切去几个数据,通过切尾系数决定众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用2.2.7众数、中位数和均值之间的关系精品统计先是思维而后才是数学109众数2.2.7众数、中位数和均值之间的关系精品统计先是f如图:1.当总体分布呈对称状态时,三者合而为一,精品统计先是思维而后才是数学110f如图:1.当总体分布呈对称状态时,三者合而为一,精品统计先fX2.

当总体分布呈非对称状态时精品统计先是思维而后才是数学111fX2.当总体分布呈非对称状态时精品统计先是思维而后才是数fX精品统计先是思维而后才是数学112fX精品统计先是思维而后才是数学112在轻度偏斜的情况下,三者的关系可以用卡尔·皮尔逊经验公式表示:精品统计先是思维而后才是数学113在轻度偏斜的情况下,三者的关系可以用卡尔·皮尔逊经验一组工人的月收入众数为700元,月收入的算术平均数为1000元,则月收入的中位数近似值是:例精品统计先是思维而后才是数学114一组工人的月收入众数为700元,月收入的算术平均数为1000数据类型和所适用的集中趋势测度值定类数据定序数据数量数据适用的测度值众数*众数众数中位数*中位数均值*几何平均数调和平均数*表示最适合精品统计先是思维而后才是数学115数据类型和所适用的集中趋势测度值定类数据定序数据数量数据适用2.3分布离散程度的测度

精品统计先是思维而后才是数学1162.3分布离散程度的测度精品统计先是思维而后才是离散程度或离中程度,反映的是各变量值远离其中心值的程度是数据分布的另一个重要特征,从另一个侧面说明了集中趋势测度值的代表程度精品统计先是思维而后才是数学117离散程度或离中程度,反映的是各变量值远离其中心值甲、乙两学生某次考试成绩列表语文数学物理化学政治英语甲

959065707585乙1107095508075甲、乙两学生的平均成绩为80分,集中趋势一样,但是他们偏离平均数的程度却不一样。乙组数据的离散程度大,数据分布越分散,平均数的代表性就越差;甲组数据的离散程度小,数据分布越集中,平均数的代表性越大。例①是评价平均数代表性的依据。离散程度测度的作用:精品统计先是思维而后才是数学118甲、乙两学生某次考试成绩列表语文数学物理化学政治英语甲9②可用来反映社会生产和其他社会经济活动过程的均衡性或协调性,以及产品质量的稳定程度。

供货计划完成百分比(%)季度总供货计划执行结果一月二月三月钢厂甲100323434乙100203050例变异指标小,说明社会经济活动过程均衡精品统计先是思维而后才是数学119②可用来反映社会生产和其他社会经济活动过程的均衡性或协调性如在抽样调查中,根据样本指标来推断总体指标,通过计算离散程度确定推断的准确程度及误差大小。③确定推断的准确程度。

精品统计先是思维而后才是数学120如在抽样调查中,根据样本指标来推断总体指标,通过计算离散程度一、极差二、四分位差三、方差和标准差四、离散系数精品统计先是思维而后才是数学121一、极差精品统计先是思维而后才是数学121极差也称全距,是总体各单位标志值最大值和最小值之差。计算公式为

未分组数据:

R=max(xi)-min(xi)

组距分组数据:

R=最高组上限-最低组下限

显然,数据的分散程度越大,极差就越大。例:10名工人生产零件数:

10,20,30,40,50,60,70,80,90,100R=100-10=902.3.1极差R精品统计先是思维而后才是数学122极差也称全距,是总体各单位标志值最大值和最小值之差。计算公式【例】某季度某工业公司18个工业企业产值计划完成情况如下:计划完成程度(﹪)组中值(﹪)企业数(个)计划产值(万元)90以下90~100100~110110以上8595105115231038002500172004400合计—1824900计算该公司该季度计划完成程度的全距。精品统计先是思维而后才是数学123【例】某季度某工业公司18个工业企业产值计划完成情况如下:计①优点:计算方便,易于理解。②缺点:极差只考虑数列两端数值差异,它是测定离散程度的一种粗略方法,不能全面反映总体各单位标志的变异程度。2.极差的特点7891078910精品统计先是思维而后才是数学124①优点:计算方便,易于理解。②缺点:极差只考虑数列两也称四分位差或称四分间距;是上四分位数与下四分位数之差内距=QU–QL反映了中间50%数据的离散程度;数值越小,说明中间数据越集中;数值越大,说明数据越分散。不受极端值的影响;可用于衡量中位数的代表性;

内距主要用于测度定序数据,对数量数据也可以,但是不适用于定类数据。2.3.2内距(Inter-QuartileRange,IQR)精品统计先是思维而后才是数学125也称四分位差或称四分间距;2.3.2内距(Inter-解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知

QL

=不满意

=2

QU

=

一般

=3四分位差:

Qd

=QU

=

QL

=3–2

=1甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意一般满意非常满意

24108934530

24132225270300合计300—

例如:定序数据计算四分位差(通常需要将各类别数值化)

相差一个等级,说明在中位数(一般)的两侧共有50%的家庭对住房的满意状况在不满意和一般之间精品统计先是思维而后才是数学126解:设非常不满意为1,不满意为2,一般为3,满意为4,方差是离差平方的平均数。标准差是离差平方平均数的平方根,故又称“均方差。2.3.3标准差和方差

数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差只适合测度数量数据精品统计先是思维而后才是数学127方差是离差平方的平均数。2.3.3标准差和方差数未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!组中值样本方差和标准差精品统计先是思维而后才是数学128未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计样本方差自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值精品统计先是思维而后才是数学129样本方差自由度(degreeoffreedom)一组数据与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,更多使用标准差。方差或标准差是根据全部数据计算的。它反映了每一个数据与其均值相比平均相差的数值,所以,能够准确反映数据的离散程度。精品统计先是思维而后才是数学130与方差不同的是,标准差是具有量纲的,它与变量值的计量用甲乙两个生产小组工人工资资料甲组乙组工资(元)离差离差平方工资(元)离差离差平方xx800-20040000900-10010000900-10010000950-5025001000001000001100100100001050502500120020040000110010010000合计——100000——25000例在平均工资相等(1000元)的情况下,乙组标准差小于甲组,因而其平均数的代表性比甲组大。精品统计先是思维而后才是数学131用甲乙两个生产小组工人工资资料甲组乙组工资(元)离差离差平方样本标准差

(例题分析)某电脑公司销售量数据标准差计算表按销售量分组组中值(Mi)天数(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235

491627201710845160090040010001004009001600250064008100640027000170040007200640012500合计—120—55400精品统计先是思维而后才是数学132样本标准差

(例题分析)某电脑公司销售量数据标准差计算表含义:每一天的销售量与平均数相比,平均相差21.58台精品统计先是思维而后才是数学133含义:每一天的销售量与平均数相比,精品统计先离散系数,是反映总体各单位标志值的相对离散程度。2.3.4离散系数(标准差系数)Vσ可以消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较精品统计先是思维而后才是数学134离散系数,是反映总体各单位标志值的相对离散程度。2标准差系数用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小:——标准差系数小的总体,说明该组数据的离散程度也就小,其平均数的代表性大;反之,亦然。应用:精品统计先是思维而后才是数学135标准差系数用来对比不同水平的同类现象,特别是不同类现象总体平【例】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。解:一班成绩的标准差系数为:二班成绩的标准差系数为:因为,所以一班平均成绩的代表性比二班大。精品统计先是思维而后才是数学136【例】某年级一、二两班某门课的平均成绩分别为82分和76分,数据类型和所适用的离散程度测度值定序数据数量数据适用的测度值四分位差*四分位差

极差、平均差方差、标准差*离散系数*(比较)*表示最适合精品统计先是思维而后才是数学137数据类型和所适用的离散程度测度值定序数据数量数据适用的测度值2.4分布偏态与峰度的测度2.4.1偏态及其测度2.4.2峰度及其测度精品统计先是思维而后才是数学1382.4分布偏态与峰度的测度2.4.1偏态及其测度精品2.4.1偏态(skewness)及其测度统计学家Pearson于1895年首次提出偏态是对分布偏斜方向及程度的测度。判别偏态的方向并不困难,利用中位数和均值的关系。左偏分布均值

中位数

众数fx右偏分布众数

中位数均值fx精品统计先是思维而后才是数学1392.4.1偏态(skewness)及其测度统计学家Pear测度偏斜的程度需要计算偏态系数。对分组数据,其计算公式为:式中:SK表示偏态系数,

s3是标准差的三次方,xi(Mi)是组中值偏态系数

SK=0为对称分布偏态系数SK>0

为右偏分布偏态系数SK<0

为左偏分布SK的绝对值越大,表示偏斜的程度就越大精品统计先是思维而后才是数学140式中:SK表示偏态系数,偏态系数SK=0为对称分布精品偏态系数(例题分析)

某电脑公司销售量偏态计算表按销售量份组(台)组中值(xi)频(天)数fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235

491627201710845-256000-243000-128000-2700001700080000216000256000625000合计—120540000精品统计先是思维而后才是数学141偏态系数(例题分析)某电脑公司销售量偏态计算表按销售量份结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数精品统计先是思维而后才是数学142结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微偏态(从直方图上观察)按销售量分组(台)结论:右偏分布

140150210某电脑公司销售量分布的直方图190200180160170频数(天)25201510530220230240精品统计先是思维而后才是数学143偏态(从直方图上观察)按销售量分组(台)结论:右偏分布1402.4.2峰度(kurtosis)及其测度统计学家Pearson于1905年首次提出峰度是分布集中趋势高峰的形状。记为K,是对数据分布平峰或尖峰程度的测度。精品统计先是思维而后才是数学1442.4.2峰度(kurtosis)及其测度统计学家Pea平峰分布尖峰分布与标准正态分布比较!它通常是与标准正态分布相比较而言精品统计先是思维而后才是数学145平峰分布尖峰分布与标准正态分布比较!它通常是与标准正态分布相峰度系数计算公式为

式中:K表示偏态系数,

s4是标准差的四次方,xi是组中值峰态系数K=0标准正态分布峰态系数K<0为平峰分布峰态系数K>0为尖峰分布注意:公式中也可以不减3。此时,当K<3时为平峰分布;当K>3时为尖峰分布。精品统计先是思维而后才是数学146峰度系数计算公式为式中:K表示偏态系数,峰态系数K=0峰态系数(例题分析)

某电脑公司销售量峰度计算表按销售量份组(台)组中值(xi)频(天)数fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235

49162720171084510240000729000025600002700000170000160000064800001024000031250000合计—12070100000精品统计先是思维而后才是数学147峰态系数(例题分析)某电脑公司销售量峰度计算表按销售量份峰态系数(例题分析)结论:峰态系数为负值,但与0的差异不大,说明电脑销售量为轻微平峰分布精品统计先是思维而后才是数学148峰态系数(例题分析)结论:峰态系数为负值,但与0的差异不大STAT《统计学》非对称的,右偏斜的分布对称的、高度适中的分布既左偏斜又低平的分布精品STAT《统计学》非对称的,右偏斜的分布对称的、高度适中的分1492.5统计表与统计图一、统计表二、统计图精品2.5统计表与统计图一、统计表精品150一、统计表(一)统计表的结构1999~2000年城镇居民家庭抽样调查资料项目单位1999年2000年

调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%元元元元

400443.141.7756.431.775888.775854.024615.91

4222.03.131.6853.671.866316.816279.984998.00资料来源:《中国统计年鉴2001》,中国统计出版社,2001,第305页。注:本表为城市和县城的城镇居民家庭抽样调查材料。

行标题列标题数字资料表头附加2.5统计表与统计图精品一、统计表1999~2000年城镇居民家庭抽样调查资料项目单151(1)合理安排统计表的结构(2)总标题内容应满足3W(where,when,what)

要求(3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明(4)表中上下两条横线一般用粗线,其他线用细线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论