版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章统计数据的描述本章关键词:计量尺度集中趋势离散趋势本章结构2.1数据的计量尺度2.2统计数据的来源2.3统计数据的质量2.4统计数据的整理2.5分布集中趋势的测度2.6分布离散趋势的测度2.7略2.8茎叶图与箱线图2.9统计表与统计图2.2统计数据的来源统计数据的间接来源统计数据的直接来源2.2.1统计数据的间接来源1、公开出版物:《中国统计年鉴》、《中国统计摘要》、《中国社会统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》……Internet
2.网络中国统计年鉴2001中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社2.2.2直接获取数据统计调查方式普查抽样调查统计报表重典点型调调查查普查(census)1、它是为某一特定目的专门组织的一次性全面调查2. 通常是一次性或周期性的3. 一般需要规定统一的标准调查时间4. 数据的规范化程度较高5. 应用范围比较狭窄总体小常识每逢尾数为“0”的年份进行人口普查,我国从1953~2000年共进行了5次人口普查(1953,,1982,1990,2000)普查应该规定统一的标准调查时间,以避免数据的重复和遗漏,第五次人口普查的标准时间是2000年11月1日零时。每逢尾数为“3”的年份进行第三产业普查每逢尾数为“5”的年份进行工业普查每逢尾数为“7”的年份进行农业普查每逢尾数为“1”或“6”的年份进行统计基本单位普查抽样调查(sampling)它是统计调查中应用最广、最为重要的调查方法,它是通过随机样本对总体数量规律性进行推断的调查研究方法。具有经济性、时效性强、适应面广、准确性高等特点2.3统计数据的质量误差分为非抽样误差和抽样误差非抽样误差又可以分为登记性误差和系统性误差抽样误差是利用样本推断总体是产生的误差,是由于样本的代表性产生的,它与样本的容量有关2.4统计数据的整理统计整理是根据统计研究的目的和任务,将搜集到统计资料进行科学的加工和汇总的工作过程。统计整理的一般过程:数据的审核、筛选和排序数据分组数据汇总编制统计表2.4.1数据的审核、筛选、排序对原始数据的审核完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等对次级(二手)资料的审核1、适用性审核2、时效性审核3、确认是否必要做进一步的加工整理数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出2.4.2统计数据的分组分组标志是统计分组的依据或标准,正确选择分组标志是进行统计分组的关键,要遵循穷尽性和排斥性原则。按照分组标志的性质分为:1、品质分组(按照品质标志分组)适合于列名尺度和顺序尺度计量的数据。例:人口按性别分组,大学按专业分组、企业按经营类型分组,分数按照优、良、中、合格、不合格划分等。2、数量分组(按照数量标志分组),适合于间隔尺度和比例尺度计量的数据。例:人口按年龄、身高分组,企业按劳动生产率分组,商店按照销售额分组。品质数列举例表2-11999年末广东省从业人员分布表类别人数(万人)比重(%)国有经济514.1013.54集体经济2568.2067.65私营经济195.375.15个体经济317.798.37联营经济2.790.07股份制经济52.451.38外商投资经济40.981.08港澳台投资经济103.872.74其他经济0.770.02合计3796.32100表2-2某车间30名工人周加工零件数的频数分布表按周加工零件数分组次数80~90390~1007100~11013110~1205120~1302合计30分组形式等距分组异距分组单项式分组组距式分组统计分组中的几个概念单项式数列:指以每个变量值作为一组的名称而形成的分布数列。(例:把广州市常住人口按照每个家庭人口数分组而得到的数列。表2-1也是单项式数列。适用于变量较少的情形。)家庭人口数(人)户数(户)112027634574以上47合计700某单位家庭人口数分布表组距式数列:是以变量值的一定变动范围作为组别,按各组顺序排列编制的分布数列。组距:各组内变量变动的范围,各组的两个端点值叫组限。组距=上限-下限封口组:同时包含上限和下限的组,有三种:a≤x≤b;a<x≤b;a≤x<b开口组:不含上限或不含下限的组。以下开口组:x<a,800元以下以上开口组:x>b,1500元以上例1、
某企业80名职工的月收入(单位:元)如下:
16521237165216651750193420381870199819201800179316302354197313021630145215431699204012001260145216701050185416002595227018701700171221431154186020701658196518701298110915432076200015781356123515461753175817841958169010271435167912802300156017941573183517791893198715791890167018301690173019401570178021401705164516782478
第一步:将上述数据从小到大(亦可从大到小)排序。
10271050110911541200123512371260128012981302135614351452145215431543154615601570157315781579160016301630164516491652165216581665167016701678167916901690169917001705171217301750175317581779178017841793179418001830185418601870187018701890189319201934194019581965197319871998200020382040207020762140214322702300235424782595
几个概念1、组距:各组内变量值变动的范围。2、组限:组距的两个端点值。3、下限:每个组变量的起点值。4、上限:每个组变量的终点值。5、组距=上限-下限
6、以上(下)开口组
组距式分组的步骤:
1、确定组数建议组数m=1+3.322lgN其中:N是总体单位数。2、确定组距
在等距分组的情况下:
组距(C)=全距(R)÷组数(m)在一般情况下,组距与组数成反方向变动。3、总体单位数归集原则“下闭上开”或“含下限不含上限”原则。按月收入分组(元)职工人数(人)(即频数)比重(%)(即频率)1200以下
45[1200,1400)810[1400,1600)1113.75[1600,1800)2835[1800,2000)1721.25[2000,2200)78.75[2200,2400)33.752400以上22.5合计80100几个简单计算1、组中值(Classmidpoint)封口组:组中值=(上限+下限)/2以下开口组:组中值=上限—相邻组距/2以上开口组:组中值=下限+相邻组距/2累计频数和累计频率有两种累计法:1、向下累积——从最小的变量值(总体频率)开始累计,一直累计到该变量值作为上限的一组为止。2、向上累积——从最大的变量值(总体频率)开始累计,一直累计到该变量值作为下限的一组为止。表2-3组中值、累计频数、累计频率计算表按月收入分组(元)组中值频数频率(%)累计频数累计频率(%)向下向上向下向上1200以下11004548051001200-14001300810127615951400-160015001113.75236828.75851600-180017002835515763.7571.251800-200019001721.2568298536.252000-2200210078.75751293.75152200-2400230033.7578597.56.252400以上250022.58021002.5合计——80100————————总体单位数归集的原则对于离散型变量分组,相邻两组的上限和下限通常以两个确定的不同数据表示,如:P23表2.09;对于连续型变量,相邻两组的上限和下限通常是重合的。如:P23表2.10;对于重合的标志值归组一般采取“下闭上开”或“含下限不含上限”的原则。习题1:某连续变量数列,其末组为500以上。又知其相邻组的组中值为480,则末组的组中值为()
A、520B、510C、530D、540习题2:
统计分组是把总体中性质不相同的单位归并在一起,把总体中性质相同的单位区别开来。()习题3:变量数列编制中,在条件不变的情况下,组数分得越多,组距也越大。()2.4.3次数分配直方图1、用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布2、在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)3、直方图下的总面积等于1直方图的绘制(例题分析)【例】某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。
频数分布表的编制1、确定组数:根据Sturges提出的经验公式得组数K为:确定各组的组距:
组距=(237-141)÷10=9.610用Excel制作频数分布表
1、等距分组表(上下组限重叠)2、等距分组表(上下组限间断)3、等距分组表(使用开口组)分组数据的图示(直方图的绘制)140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240分组数据—折线图折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是1、第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴2、折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的折线图的绘制折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530曲线图的绘制在绘制直方图的过程中,如果组距足够小、组数足够多,此时直方图上的折线图就接近于一条平滑的曲线,这种图形就是曲线图。常见的曲线图有频数、频率分布曲线图,动态曲线图,相关曲线图等。根据曲线图表现出来的形状,我们把生活中常见的几种分布图分别称为:钟形图、U形图、J形图。频数分布的类型右偏分布左偏分布正J型分布反J型分布U型分布图2-7几种常见的频数分布对称分布洛伦茨曲线20世纪初美国经济学家、统计学家洛伦茨(M.E.Lorentz)根据意大利经济学家巴雷特(V.Pareto)提出的收入分配公式绘制而成描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度
AB累积的人口百分比累积的收入百分比绝对公平线基尼系数20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线给出了衡收入分配平均程度的指标
A表示实际收入曲线与绝对平均线之间的面积B表示实际收入曲线与绝对不平均线之间的面积如果A=0,则基尼系数=0,表示收入绝对平均如果B=0,则基尼系数=1,表示收入绝对不平均基尼系数在0和1之间取值一般认为,基尼系数若小于0.2,表明分配平均;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4被认为是收入分配不公平的警戒线,超过了0.4应该采取措施缩小这一差距。
AB我国全国居民可支配收入的基尼系数在不断地扩大。改革初期的1984年,基尼系数是0.26,2000年上升到0.42,达到了国际公认的警戒线.最近官方公布的中国全国居民收入的基尼系数,2003年是0.479,2004年是0.473,2005年0.485,2006年0.487,2007年0.484,2008年0.491。然后逐步回落,2009年0.490,2010年0.481,2011年0.477,2012年0.474。资料显示,2003年中国的收入分配中,最贫困的10%的人口,所得的收入占国民收入总额的1.8%,而最富有的10%的人口,所得的收入占国民收入总额的将近30%联合国开发计划署公布的一组数据也显示,中国目前的基尼系数为0.45,占总人口20%的最贫困人口在收入或消费中所占的份额只有4.7%,占总人口20%的最富裕人口占收入或消费的份额则高达50%。
我国贫富悬殊达警戒水平部分人靠官商勾结发家2005年09月19日09:17中国新闻网当前较为普遍的看法是,中国的贫富悬殊之大已经突破合理的限度(国际公认的基尼系数警戒线为0.4),且有继续扩大之势。长此以往,不仅难以实现共同富裕,还很可能引发各种社会不稳定现象。特别值得注意的是,根据许多国家和地区的经验,人均GDP由1000美元向3000美元过渡的时期,是社会矛盾的多发期。中国恰好处在这个阶段。决策者不能不对贫富悬殊问题予以高度的重视。世界经济论坛第四届新领军者年会(2010年夏季达沃斯论坛)9月13日下午在天津梅江会展中心开幕,国务院总理温家宝出席开幕式并致辞。温家宝表示,将加快推进收入分配制度改革,努力提高居民收入在国民收入中的比重温家宝说:“我们要坚持内外均衡发展,着力构建扩大内需,特别是消费需求的长效机制,中国有世界上潜力最大的国内市场,充分挖掘市场的潜力、有效释放国内需求是促进中国经济长期稳定发展的关键所在,也是解决经济运行中突出矛盾的重要途径。”温家宝表示,我们将加快推进收入分配制度改革,努力提高居民收入在国民收入中的比重和劳动报酬在初次分配中的比重。创造条件让更多的群众拥有财产性收入,尽快扭转收入差距扩大的趋势,促进居民收入和消费可持续增长。我们将坚持统筹城乡区域的协调发展,积极稳妥地推进城镇化,因地制宜地把符合条件的农民工逐步转为城镇居民,继续加快新农村建设,加强农村基础设施建设和改善公共服务,继续实施区域发展总体战略,大力推进西部大开发和东北地区等老工业基地的振兴,促进中部崛起,着力培育内需增长的新动力,拓展农村和中西部地区的内需增长的新空间2.5分布集中趋势的测度2.5.1众数2.5.2中位数2.5.3分位数2.5.4均值2.5.5几何平均数2.5.6切尾均值(略)2.5.7众数、中位数、均值之间的关系数据分布的特征集中趋势(位置)偏态和峰度(形状)离中趋势
(分散程度)2.5.1众数(mode)集中趋势的测度值之一众数是总体中出现次数最多的那个变量值不受极端值的影响由于分布数列的分布不同,有的数列可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据众数(众数的不唯一性)无众数
原始数据:10591268一个众数
原始数据:659855多于一个众数
原始数据:252828364242单变量分组计算众数例某班同学按年龄分组资料如表4.4所示,求中位数。
单项数列求众数计算表年龄(岁)学生人数较小制累计次数较大制累计次数1718192021582692513394850504537112合计50——分组数据的众数1.众数的值与相邻两组频数的分布有关4.该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo分组数据的众数(举例)表2-4某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】根据某工厂50名工人日加工零件个数的数据,计算他们日加工零件数的众数练习:现利用下表的资料,计算众数。按零件数分组(个)职工人数(人)累计次数40~5050~6060~7070~8080~9020408050102060140190200合计200—【解】按公式计算:(个)1、由组距式数列确定众数时,如果众数组相邻两组的次数相等,则()。A.众数为零B.众数组的组中值就是众数C.众数不能确定D.众数组的组限就是众数2、众数的大小只取决于众数组相邻组次数的多少。()BX2.5.2中位数(median)中位数是排序后处于中间位置上的数值不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即Me50%50%中位数(位置的确定)未分组数据:组距分组数据:未分组数据的中位数(计算公式)数值型未分组数据的中位数(奇数个)【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位数=1080数值型未分组数据的中位数(偶数个)【例】:10个家庭的人均月收入数据排序:660
75078085096010801250150016302000位置:12345678910例题:按日产零件数分组(件)工人数(人)2633110321434273618418合计80按日产零件数分组(件)工人数(人)向上累计次数26333110133214273427543618-418-合计80-数值型分组数据的中位数根据位置公式确定中位数所在的组采用下列近似公式计算:
该公式假定中位数组的频数在该组内均匀分布数值型分组数据的中位数(算例)表2-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例】根据表中的数据,计算50名工人日加工零件数的中位数按日产量分组(千克)工人数(人)向上累计次数60以下101060~70192970~80507980~903611590~10027-100~11014-110~1208-合计164-练习:计算下表分组数据的中位数3、确定参数1、计算
2、找到中位数所在组
4、代入公式计算练习:现利用下表的资料,计算中位数。按零件数分组(个)职工人数(人)累计次数40~5050~6060~7070~8080~9020408050102060140190200合计200—按下限公式计算:(个)解:2.5.3四分位数1. 集中趋势的测度值之一2. 排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%四分位数未分组数据:组距分组数据:(分类和数值型数据)下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4数值型未分组数据的四分位数(奇数个)【例】:9个家庭的人均月收入数据数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789数值型未分组数据的四分位数(偶数个)【例】:10个家庭的人均月收入数据排序:660
75078085096010801250150016302000位置:1234
5678910
数值型分组数据的四分位数(计算公式)下四分位数:
上四分位数:其中Sl-1、Su-1分别为Ql、Qu所在组以前各组的累积频数2.5.4均值1、设一组数据为:X1,X2,…,XN简单算术平均数的计算公式为2、设分组后的数据为:X1,X2,…,XK
相应的频数为:F1,F2,…,FK加权算术平均数的计算公式为分组资料计算算术平均数的步骤:(一)单项式变量数列计算算术平均数1、确定x、f2、计算xf3、计算4、代入公式(二)组距式变量数列计算算术平均数1、将组距式变量数列变为单项式变量数列(方法:计算组中值作为x)2、同上例题:计算工人平均日产量日产量(件)工人数(人)248261529363211合计70日产量(件)x工人数fxf2481922615390293610443211352合计701978加权均值
(例题分析)
按月收入分组(元)职工人数(人)
比重(%)1200以下
45[1200,1400)810[1400,1600)1113.75[1600,1800)2835[1800,2000)1721.25[2000,2200)78.75[2200,2400)33.752400以上22.5合计80100按月收入分组(元)职工人数(人)f组中值xxf1200以下
411004400[1200,1400)8130010400[1400,1600)11150016500[1600,1800)28170047600[1800,20002000,2200)7210014700[2200,2400)3230069002400以上225005000合计80-137800习题1:某企业工人日产量资料如下:按日产量分组(千克)工人数(人)60以下1060~701970~805080~903690~10027100~11014110~1208合计164按日产量分组(千克)工人数(人)f组中值xxf60以下105555060~701965123570~805075375080~903685306090~10027952565100~110141051470110~1208115920合计164-13550怎样理解加权算术平均数的权数1、简单算术平均数的大小只与变量值的大小有关。而加权算术平均数的大小不仅受各组变量大小的影响,而且受各组次数大小的影响,我们把各组次数称为权数。2、权数的形式()
算术平均数的性质1、各变量值与其算术平均数离差之和等于零。2、各变量值与其算术平均数离差平方和为最小值。证明:设的任意数,则,以为中心的离差平方和为:为不等于证明:各单位标志值与算术平均数的离差平方和最小均值的特点:集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据,不能用于列名数据和顺序数据补充:调和平均数(倒数平均数)1. 集中趋势的测度值之一2. 是平均数的另一种表现形式,当缺乏总体单位数的资料时,必须采用算术平均数的变化形式3. 易受极端值的影响(二)调和平均数1.简单调和平均数
2.加权调和平均数例1、某农贸市场上某种蔬菜的价格如下:早市0.5元/斤,中市0.45元/斤,晚市0.4元/斤,如果早、中、晚各买1元钱的蔬菜,求该种蔬菜的平均价格。解法一:解法二:例2、广州市甲、乙两个菜场蔬菜的价格及销售额资料如下表,请问那个菜场的蔬菜平均价格较高,并说明均价较高的原因。品种单价(元/千克)销售额甲菜场乙菜场A2.002200800B2.2015401320C2.605202600根据表格资料可以得到下表品种单价(元/千克)x销售额(元)m销售量(m/x)甲菜场乙菜场甲菜场乙菜场A2.0022008001100400B2.2015401320700600C2.6052026002001000合计——4260472020002000分析:乙菜场蔬菜的平均价格高于甲菜场,主要原因是价格较高的蔬菜C在乙菜场的销售量中的比重较大,甲菜场销售价格较低的蔬菜A的比重较大,因此乙的平均价格较高。说明:调和平均数是算术平均数的变形在调和平均数的计算公式中,如果令则:原来只是计算时使用了不同的数据!算术平均数的其他数学性质1、算术平均数与总体单位数的乘积等于各单位标志值之和。2、对各单位标志值加、减、乘、除任意数a(相除a不为零),则算术平均数也要相应的加、减、乘、除该数a几何平均数(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根,用G表示3.适用于特殊的数据(一般是发展速度类数据)4.主要用于计算平均发展速度和平均比率5、计算公式为简单几何平均数:加权几何平均数:两边同时取对数:几何平均数(举例)【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%例:某地区近20年来的经济发展速度如下表,求20年中该地区经济的平均发展速度。发展速度x(%)年数f(次数)lgxflgx10212.00862.008610552.021210.1059107102.029420.293811042.04148.1656合计20——40.5740则G=106.83%练习:某水泥厂1997年的水泥产量是1996年的110%,1998年比1997增长了16%,1999年与1998年相比的增长率为20%。求三年的平均发展速度。几何平均数的适用范围几何平均数主要用于计算平均发展速度。2.5.6切尾均值思考:全国歌手打奖赛是怎么对选手评分?为什么如此?2.5.7众数、中位数与算术平均数之间的关系1、在正态分布的情况下:对称分布
均值=中位数=众数2、在左偏分布的情况下:左偏分布均值
中位数
众数3、在右偏分布的情况下:右偏分布众数
中位数
均值中位数,众数,算术平均数的特点及其应用场合
1、众数是一组数据分布的峰值,是一种位置代表值。其优点是易于理解,不受极端值的影响。当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比均值要好。其缺点是具有不唯一性。
2、中位数是一组数据中间位置上的代表值,其特点是不受数据极端值的影响。对于具有偏态分布的数据,中位数的代表性要比均值好。
3、均值是用全部数据计算的,其主要缺点是易受数据极端值的影响,对于偏态分布的数据,均值的代表性较差。众数、中位数、均值的特点和应用众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用习题:同一数列中,算术平均数小于中位数,则数列呈右偏分布。()
2.6分布离散程度的测度2.6.1极差2.6.2内距2.6.3平均差2.6.4方差和标准差2.6.5离散系数2.6.1极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据R
=max(Xi)-min(Xi).=组距分组数据R
=最高组上限-最低组下限5.计算公式为2.6.2内距(inter-quartilerange,IQR)也称为内距或四分间距上四分位数与下四分位数之差QD=QU-QL反映了中间50%数据的离散程度用于衡量中位数的代表性值越小,说明中间的数据越集中;2.6.3平均差各变量值与其均值离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少(绝对值难处理)计算公式为未分组数据组距分组数据2.6.4方差和标准差1、最常用的离散程度的测度值2、反映了数据的分布3、方差是各变量值与其均值离差的平方的平均数4、根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体的方差和标准差未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式举例:方差和标准差的计算表2-7某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5【例】根据50名工人日加工零件个数的数据,计算工人日加工零件数的标准差样本的方差和标准差未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!自由度(degreeoffreedom)自由度是一组数据中可以自由取值的数据的个数当样本数据的个数为n
时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值例如:样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量举例:样本方差的计算原始数据:10 591368样本标准差(例题分析)表2-8:某电脑公司销售量数据平均差计算表按销售量分组组中值(Mi)频数(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合计—120—55400样本标准差含义:每一天的销售量与平均数相比,平均相差21.58台习题1:某企业工人日产量资料如下:按日产量分组(千克)工人数(人)60以下1060~701970~805080~903690~10027100~11014110~1208合计164fx1055-27.6761.767617.61965-17.6309.765885.445075-7.657.76288836852.45.76207.36279512.4153.764151.521410522.4501.767024.64811532.41049.768398.0816436172.64方差
(简化计算公式)样本方差总体方差2.6.5离散系数(coefficientofvariation)标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较计算公式为离散系数(例题分析)表2-9:某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数(例题分析)结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.710习题1:
设总体某数量标志值的平均数等于26,标准差系数为0.3,求方差。解:习题2:
设已知总体某数量标志值的平均数等于15,而标志值平方的平均数等于250,计算标准差系数。解:
习题3:有两个数列,若甲的标准差比乙的标准差大,则两者平均数的代表性程度:()
A、甲>乙B、甲<乙C、甲=乙D、无法判断
习题4:
标志变异指标越大,说明平均数的代表性越大。()交替标志的算术平均数和标准差1、什么叫交替标志交替标志是指这类标志,用它可以将总体数据简单地划分为两部分或两组。一般用1表示具备某种标志,用0表示不具备某种标志。设总体共有N个数据,其中具备某种标志的总体单位数为,不具备某种标志的总体单位数为。记交替标志x比重1p1-p0q0-p合计1--某商店某月对一批库存的茶叶进行质量检验,其结果是:库存茶叶3000公斤,其中合格的茶叶2700公斤,其余均为不合格有异味的茶叶,试求茶叶合格品的算术平均数和标准差。
某市场调查机构对某种化妆品在城市和农村的消费者中分别进行调查,在城市中调查200人,有128人表示喜欢,在农村调查225人,有90人表示喜欢。试求表示喜欢人数的平均数和标准差。农村:城市:
综合:二、偏度利用众数、中位数和平均数之间的关系就可以判断分布是对称、左偏还是右偏,但要测度偏斜的程度则需要计算偏态系数。统计分析中测定偏态系数的方法很多,一般采用矩的概念计算,其计算公式为三阶中心矩与标准差的三次方之比。具体公式如下:
【例】某管理局所属30个企业2005年3月份利润额统计资料如表4.9所示,要求计算该变量数列的偏斜状况。【解】利用表中有关数据计算标准差如下:利润额(万元)企业数f组中值x10—3030—5050—7070—9021013520406080231219604683380-78608-274402808878802672672384160168482284880合计30—8120—153605358560万元三、峰度测度峰度的方法,一般采用矩的概念计算,即运用四阶中心矩与标准差的四次方对比,以此来判断各分布曲线峰度的尖平程度。公式如下:
【例4.17】继续上例,要求计算该变量数列的峰度。【解】利润额(万元)企业数f组中值x10—3030—5050—7070—9021013520406080231219604683380-78608-274402808878802672672384160168482284880合计30—8120—153605358560由Excel输出的描述统计量
步骤:工具——数据分析——描述统计2.8茎叶图与箱线图一、茎叶图二、箱线图2.8.1茎叶图
(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息茎叶图
(Bp22表2.7工人周加工零件数)茎叶图
(*表示0~4,.表示5~9,扩展的茎叶图)2.8.2箱线图(boxplot)用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成箱线图的绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接
箱线图
(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图箱线图
(例题分析)最小值84最大值128中位数1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度个人版权登记委托合同范本2篇
- 二零二五版校园热水系统安全运行保障采购合同范本下载2篇
- 二零二五版个人二手房购房合同与产权过户指导书2篇
- 二零二五年个人独资企业股权转让协议书与合同变更程序
- 导热油锅炉施工方案
- 二零二五年度互联网+项目立项合同3篇
- 二零二五年度物联网技术应用个人劳务合同4篇
- 智能交通系统建设服务合同
- 股权转让合同补充协议书
- 医院管理中的合作伙伴关系
- 广西南宁市2024-2025学年八年级上学期期末义务教育质量检测综合道德与法治试卷(含答案)
- 《习近平法治思想概论(第二版)》 课件 3.第三章 习近平法治思想的实践意义
- 2025年供应链管理培训课件
- 2025年浙江省丽水市综合行政执法局招聘30人历年高频重点提升(共500题)附带答案详解
- 2025中智集团招聘高频重点提升(共500题)附带答案详解
- 加油加气站安全生产风险分级管控体系全套资料
- 2025地下停车位使用权买卖合同 标准版模板
- 《携程旅行营销环境及营销策略研究》10000字(论文)
- 弹簧分离问题经典题目
- 部编版高中历史中外历史纲要(下)世界史导言课课件
- 语言规划课件
评论
0/150
提交评论