数学名师导航总体分布的估计_第1页
数学名师导航总体分布的估计_第2页
数学名师导航总体分布的估计_第3页
数学名师导航总体分布的估计_第4页
数学名师导航总体分布的估计_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学必求其心得,业必贵于专精学必求其心得,业必贵于专精学必求其心得,业必贵于专精6.2总体分布的估计名师导航三点剖析一、频率分布表1.定义总体分布反映了总体在各个范围内取值的频率,由于总体很大或不便于获得,因此我们可以利用样本的频率分布估计总体的频率分布.我们把反映总体频率分布的表格称为频率分布表.2.列频率分布表的步骤在初中我们所接触的频率表是通过历史上所做的抛硬币的大量重复试验得到的。在这个试验中,抛掷硬币试验的结果的全体构成一个总体,每次试验的结果是总体中的一个个体,如果我们从中抽取一个容量为72088的样本,其中正面向上的结果数为36124,反面向上的结果数为35964,则我们就可以得到如下一个频率分布表:试验结果频数频率正面向上361240。5011反面向上359640。4989这类试验只有两种结果,比较简单,下面我们就通过实例来研究较为复杂的频率分布表的制作方法.例如:从规定尺寸为25.40mm的一堆产品中任意抽取100件,测得它们的实际尺寸如下:25。3925.3625。3425。4225.4525.3825.3925.4225.4725.3525.4125.4325.4425。4925.4525。4325.4625.4025.5125.4525.4025.3925.4125.3625。3825.3125。5625.4325.4025。3825.3725.4425.3325.4625.4025.3925.3425。4225。5025。3725.3525。3225.4525。4025.2725.4325.5425.3925.4525.4325。4025。4325.4425。4125.5325。3725.3825.2425.4425.4025.3625.4225.3925.4625.3825.3525.3125.3425。4025.3625.4125.3225.3825.4225.4025.3325.3725.4125.4925.3525。4725。3425.3025.3925.3625.4625.2925.4025.3725。3325.4025.3525。4125.3725.4725。3925.4225。4725。3825.39如果把这堆产品的尺寸的全体看作一个总体,则上面数据就是从总体抽取的一个容量为100的样本。在这组数据中,最小值为25.24,最大值为25。56,它们相差0.32,可取区间[25.235,25.565]。我们可将此区间分成11个区间,每个区间长度为0.03,再统计出每个区间内的频数,并计算相应的频率,将结果填入下表:分组频数累计频数频率[25。235,25。265)110.01[25。265,25。295)320.01[25。295,25.325)850。05[25.325,25。355)20120.12[25.355,25。385)38180。18[25。385,25。415)63250。25[25。415,25.445)79160.16[25。445,25。475)92130。13[25.475,25.505)9640.04[25.505,25。535)9820。02[25.535,25。565)10020。02合计1001.00这张表给出了产品尺寸处于各个区间内的个数和频率,由此可估计这一堆产品的尺寸分布情况,这就是该样本的频率分布表。在表中频数是指落在各小组内的数据的个数。频率是各组的频数与数据总数的比值。由上面的制表过程可得编制频率分布表的步骤如下:(1)计算数据中最大值与最小值的差,算出了这个差就可以知道这组数据的变动范围有多大.(2)决定组数与组距.将这一批数据分组,目的是要描述数据的分布规律,要根据数据的多少来确定分组的数目.一般来说,数据越多,分的组也越多.(3)决定分点.要使分点比数据多一位小数,并且把第1组的下限略去或把第1组的起点稍减小一点.(4)列频率分布表.登记频数,计算频率,列出频率分布表.频率分布表能反映数据在某一范围内出现的可能性。如果这一范围是由几组数据组成的,则其出现的可能性为这几组数据的频率之和.在编制频率分布表时,若题目已给出了组距和组数,可以直接列出频率分布表.3.频率分布的优点和缺点频率分布表的优点是:能直接反映数据在各范围内的频数和频率;其缺点是:不能直观地反映数据的频率分布,分布表是否正确.二、频率分布直方图1.定义频率分布表虽然能体现出数据的分布规律,但它并不直观,为了直观地体现数据数的分布规律,我们需要画频率分布直方图.在初中,我学过如何绘制频数直方图,它能直观地体现数据的分布规律。同样我们可以用直方图来反映样本的频率分布规律.这种反映样本的频率分布规律的直方图称为频率分布直方图,简称频率直方图。2.绘制频率分布直方图的步骤为了形象地说明绘制频率分布直方图的步骤,我们还以具体的实例来说明频率分布直方图的画法.例如:有一个容量为50的样本数据的分组及各组的频数如下:[12。5,15。5),3;[15.5,18。5),8;[18。5,21.5),9;[21.5,24.5),11;[24。5,27。5),10;[27。5,30。5),5;[30.5,33.5),4.列出样本的频率分布表,画出频率分布直方图.分析:本题主要考查频率分布表的编制和频率分布直方图的绘制及频率分布表的应用.由于题中数据已分组,所以在列频率分布表时,只要直接计算出每小组数据的频率填入表中即可。解:样本的频率分布表、频率分布直方图如下:频率分布表分组频数累计频数频率[12.5,15.5)330。060。02[15。5,18.5)1180.160.053[18.5,21。5)2090.180。06[21。5,24.5)31110.220。073[24.5,27.5)41100。20。067[27。5,30。5)4650.10.033[30。5,33.5)5040。080.027合计501.000.333频率分布直方图(如图6—1所示):图6—1所以,要绘制此样本的频率分布直方图,有以下几步:(1)先列出频率分布表,然后作出直角坐标系,以横轴表示身高,纵轴表示;(2)在横轴上标上12.5,15.5,…,33.5表示的点(为了方便,第一个数据点可以前移);(3)在上面标出的各点中,分别以相邻两点为端点的线段为底边作矩形,其高等于,至此,就得到了这组数据的频率分布直方图。一般地,画频率分布直方图方法如下:把横轴分为若干段,每一段对应一组的组距,然后以线段为底,作一个矩形,它的高等于该组的,作出一系列的矩形;每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图。在频率分布直方图中各个小矩形的面积和等于1.3.频率分布直方图的两种类型用样本频率分布估计总体分布通常分两种情况:(1)当总体中的个体取不同数值很少时,其频率分布表由所取的样本的不同值及其相应频率表示,其几何表示就是相应的条形图.条形图中,纵轴表示的是频率,条形图的高为该组数据的频率。但应注意:“总体中的个体取不同数值很少"并不是指“总体中的个数很少.”例如:前面所接触到的抛掷硬币的试验中,尽管样本的容量达到了72088,但试验结果只有两种,即正面向上和反面向上.如果记“正面向上”的结果为0,记“反面向上”为1,则样本中数据只有两个取值.此时,该样本的频率分布表的几何表示就为相应的条形图。(2)当总体中个体取不同值较多,甚至无限时,对其频率分布研究用到初中学过的整理样本数据的知识,用频率分布直方图来表示相应的样本的频率分布。4.频率分布直方图的优点和缺点频率分布直方图虽然能直观体现数的分布规律,但要绘制频率分布直方图过程比较复杂,且它不能直接体现数据的频数分布.三、频率折线图与总体的密度曲线1.频率折线图的定义将频率分布直方图中各相邻的矩形的上底边的中点顺次连结起来,就可以得到一条折线,这条折线就是本组数据的频率折线图。2.频率折线图的画法频率折线图是在频率分布直方图的基础上,取直方图中各小矩形的上底边的中点连结而成的。画频率折线图时还应注意:取值区间两端点需分别向外延伸半个组距,以使折线首尾分别与横轴相连。3.频率折线图的优点与缺点频率折线图的优点是它能反映数据的变化趋势,但它不能直接体现数据的分布规律。4.总体的密度曲线在画频率折线图时,如果将样本容量取得足够大,分组的组距取得足够小,这条折线将趋于一条曲线,这一曲线为总体的密度曲线,它能反映出总体分布规律.例如:为了估计某产品寿命的分布,对产品进行抽样检验,记录如下(单位:小时):203397597402102303289312501316488355585355413316197479384278522363234432357566111333467265326534318552323188352447452337123370399445365549248316459331176554368412374251327489329246316475311260133314426366213495335540338407586331290368410167320510364276305417307524573326146227317407369214504425153214(1)作出频率分布表;(2)画出频率分布直方图和频率折线图;(3)估计产品寿命在200~500h以内的百分率;(4)估计产品寿命在400h以上的百分率。分析:此题中样本数据取不同的值较多,属于总体分布的第二种情况.将样本中数据适当分组统计各组中数据的频数,计算其频率即可。解:(1)该组数据中最小值为102,最大值为597,差为495,可分为5组.列表如下:寿命/h频数累计频数频率100~20010100。100.001200~30025150.150。0015300~40065400.400.004400~50085200。200。002500~600100150。150。0015合计1001。00(2)频率分布直方图和频率折线图如下(如图6—2所示):频率分布直方图频率折线图图6-2(3)200~500h以内的百分率为1-15%=85%。(4)产品寿命在400h以上的百分率为20%+15%=35%。四、茎叶图1.平均数、中位数和众数一般地,对于n个数x1,x2,…,xn,我们把叫做这n个数的算术平均数,简称平均数.平均数常用于表示一组数据的平均水平。计算平均数时,所有数据都参加运算,它能充分利用数据所描述的信息,因此在生活中较为常用,但它易受端点值的影响。例如:某公司职工月工资表如下:员工经理副经理ABCDEF杂工月工资60004000170013001200110011001100500经计算,该公司职工月平均工资为2000元,但除经理和副经理之外其他员工的工资均小于2000元,这就是因为平均数受端点值6000和500的影响。一般地,n个数据根据大小顺序排列后,处于中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数。由中位数的定义可知,当数据的个数是奇数时最中间的一个数据是中位数;当数据的个数是偶数时,则最中间两个数据的平均数是中位数.中位数受端点值的影响小,但不能充分利用所有数据的信息。例如:在上面某公司职工月工资表中的中位数是1300。众数则是一组数据中出现次数最多的那个数据。如在上面某公司职工月工资表中众数则是1100.平均数、中位数和众数均能反映一组数据的平均水平,在一组数据中平均数和中位数只有一个,众数则可以有多个.例如:在数据1。5,1.5,1.6,1。65,1和1。7,1.7,1.75,2。1中,平均数为1。7;中位数为1.675;众数则为1.5和1.7.2.茎叶图制作茎叶图的方法是:当所给数据为一位数时,可将0作为茎叶较长的茎,而它本身作为叶;当所给数据为两位数时,将所有两位数的十位数字作为“茎”,个位数字作为“叶”;当所给的数据为三位数时,可将百位和十位作为茎,而个位作为叶.茎相同的数据共用一个茎,茎按从小到大的顺序从上到下排列,共用茎的叶一般要按从大到小(也可以从小到大)的顺序同行排出.制作茎叶图时,一般用一个竖线将茎叶隔开,竖线的左边是茎,右边是叶.由茎叶图我们可以粗略地看出一组数据的平均数、中位数、众数的范围.茎叶图不但可以分析单组数据,也可以对两组数据进行对比。当列两组数据的茎叶图时,它们可以共同用一个茎。3.茎叶图的优点和缺点茎叶图的优点是:所有信息都可以从茎叶图中得到体现,而且茎叶图便于记录和表示;它既可以分析单组数据,也可以对两组数据进行比较。茎叶图的缺点是:茎叶图不方便表示位数在三位以上的数据。问题探究问题:为了了解一大片经济树林的生长情况,随机测量其中的100株的底部周长,得到如下数据(长度单位为cm):135981021109912111096100103125971171131109210210910411210912487131971021231041041281051231111031059211410810410212912697100115111106117104109111891101218012012110410811812999909912112310711191100991011169710210810195107101102108117991181061199712610812311998121101113102103104108该用什么样的方法来估计经济树林的生长情况?探究:用样本估计可用频率分布表、频率分布直方图和频率折线图.它们有着各自的特点:频率分布表编制比较简单且能体现出数据在各范围出现的次数和频率,但它不能直观地反映数据的频率分布;频率分布直方图虽然能直观体现数的分布规律,但要绘制频率分布直方图过程比较复杂,且它不能直接体现数据的频数分布;频率折线图的优点是它能反映数据的变化趋势,但它不能直接体现数据的分布规律。所以,本题采用何种方法来估计经济树林的生长情况,要视具体要求而定,例如:估计这片经济林中底部周长少于100cm的树木约占多少?不少于120cm的树木约占多少?我们可采用频率分布表,这是因为它能直接体现出数据在各范围内出现的次数和频率。如果要考查某一范围内数据的变化情况,则可采用频率折线图。精题精讲例1.为了了解某地区高三学生的身体发育情况,抽查了地区内100名年龄为17.5岁~18岁的男生的体重情况,结果如下表(单位:kg):56.569.56561.564.566.56464。57658。57273。556677057.565.56871756268。562.56659.563.564.567.57368557266.574636055.57064。5586470。55762.5656971。573625876716663。55659.563.5657074.568.56455。572。566.5687657。56071.55769.57464。55961.5676863。5585965.562.569。57264。575.568。5646265.558.567.570。5656666.5706359.5试根据上述数据列出样本的频率分布表,并对相应的总体分布做出估计.思路解析该组数据中最小值为55,最大值为76,它们的差是76-55=21,可取区间[54.5,76.5],并将此区间分为11个区间,每个区间的长度为2,再统计每个区间内的频数并计算频率,列表即可。解析:按照下列步骤获得样本的频率分布:(1)求最大值与最小值的差.在上述数据中,最大值是76,最小值是55,它们的差(又称为极差)是76—55=21,所得的差告诉我们,这组数据的变动范围有多大。(2)确定组距与组数.如果将组距定为2,那么由21÷2=10.5,组数为11,这个组数是适合的。于是组距为2,组数为11.(3)决定分点。根据本例中数据的特点,第1小组的起点可取为54.5,第1小组的终点可取为56.5,为了避免一个数据既是起点,又是终点从而造成重复计算,我们规定分组的区间是“左闭右开”的。这样,所得到的分组是[54.5,56。5),[56。5,58。5),…,[74.5,76。5)。(4)列频率分布表.频率分布表分组频数累计频数频率[54。5,56。5)220。02[56。5,58。5)860.06[58.5,60。5)18100。10[60.5,62.5)28100.10[62.5,64.5)42140。14[64。5,66.5)58160。16[66。5,68.5)71130.13[68.5,70。5)82110.11[70。5,72。5)9080.08[72。5,74.5)9770。07[74.5,76.5)10030。03合计1001。00在得到了样本的频率后,就可以对相应的总体情况作出估计。例如可以估计体重在[64.5,66.5)kg的学生最多,约占学生总数的16%;体重小于58.5kg的学生较少,约占8%等等。绿色通道一般地,列频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=全距/组数;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.频数累计是指本组数据及本组数据以前各组数据的和.频率分布表有两条较为明显的性质:①各组的频数和为样本中数据的个数;②各组的频率和为1.例2.下表给出了某校120名12岁男孩的身高资料(单位:cm):区间界限[122,126)[126,130)[130,134)人数5810区间界限[134,138)[138,142)[142,146)人数223320区间界限[146,150)[150,154)[154,158)人数1165(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据样本的频率分布图,估计身高小于134cm的人数约占总人数的百分比;(4)如果该校所在的地区,12岁男孩有12万人,根据上面的统计结果,你能估计出身高在150cm以上的男孩大约有多少人?(5)如果样本容量再大一些,组距再小一些,请你想象一下,直方图中的小矩形会发生什么变化?思路解析由于题目中数据已分组,则可直接列频率分布表.由于频率分布图能直观地体现出样本的频率分布,则由图直接进行估计.由频率分布表可知身高在150cm的频率为,所以,估计出身高在150cm以上的男孩大约11000人。如果样本容量再大一些,组距再小一些,频率分布直方图中的各个小矩形就会越来越细。当样本容量充分大时,图中的组距充分缩短,从而图中的小矩形的上底的连线就变成光滑的曲线。答案:(1)列频率分布表如下:区间界限人数频率[122,126)5[126,130)8[130,134)10[134,138)22[138,142)33[142,146)20[146,150)11[150,154)6[154,158)5(2)频率分布直方图分布如下(如图6-3所示):图6—3(3)身高小于134cm的学生数约占总数的19%.(4)身高在150cm以上的男孩大约11000人.(5)各个小矩形就会越来越细,当样本容量充分大时,图中的组距充分缩短,图中的小矩形的上底的连线就变成光滑的曲线。例3.为制定本市初中七、八、九年级学生校服的生产计划,有关部门准备对180名初中男生的身高作调查,现有三种调查方案:①测量少体校中180名男子篮球、排球队员的身高;②查阅有关外地180名男生身高的统计资料;③在本市的市区和郊县各任选一所完全中学、两所初级中学,在这六所学校有关的年级(1)班中,用抽签的方法分别选出10名男生,然后测量他们的身高。(1)为了达到估计本市初中这三个年级男生身高分布的目的,你认为采用上述哪一种调查方案比较合理,为什么?(2)下表中的数据是使用某种调查方法获得的:身高(cm)七年级八年级九年级总计(频数)143~1531230153~1631896163~173243339173193003(注:每组可含最低值、不含最高值)根据表中的数据填写表中的空格.根据填写的数据绘制频数分布直方图。思路解析本题考查了抽样方法的选择和频数分布直方图的绘制,由于在统计中收集数据必须用随机抽样的方法所抽取的数据才具有代表性,则宜用方案③。又所抽的数据中已分组,则可直接计算各组数据的频数分布和直接绘制频数分布直方图。解析:(1)在统计中收集数据必须用随机抽样的方法所抽取的数据才具有代表性.①中,少体校的男子篮球、排球的运动员的身高一定高于一般的情况,因此无法用测量的结果去估计总体的结果。②中,用外地学生的身高也不能准确地反映本地学生身高的实际情况。③中的抽样方法符合随机的抽样,因此用方案③比较合理.(2)①上表中的频数从上到下依次为15,33,96,33,3.②直方图如图6—4所示.绿色通道统计中数据的获得要合理、公平、具有代表性,这是解决问题的第一关。它直接影响着统计的结果,影响正确结论的得出,也就影响着正确决策的制定。例4.从某校参加初中毕业考试的学生的成绩中,抽取了30名学生的数学成绩,分数如下:90,85,84,86,87,98,79,85,90,93,68,95,85,71,78,61,94,88,77,100,70,97,85,68,99,88,85,92,93,97.这个样本数据的频率分布表如下:分组频数累计频数频率59.5~64.510。03364.5~69.520.06769.5~74.520。06774.5~79.530。10079.5~84.510.03384.5~89.590。30089.5~94.560。20094.5~99.550。16799.5~104.510.033合计301.000填空:(1)这个样本数据的众数是_________分。(2)列频率分布表时,所取的组距为______

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论