用样本的频率分布估计总体分布(1)教材_第1页
用样本的频率分布估计总体分布(1)教材_第2页
用样本的频率分布估计总体分布(1)教材_第3页
用样本的频率分布估计总体分布(1)教材_第4页
用样本的频率分布估计总体分布(1)教材_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.1估计总体的分布复习引人1、一个总体中有100个个体,随机编号为0、1、2、…、99,依编号顺序平均分为10个小组,组号依次为1、2、…、10现用系统抽样方法抽取一个容量为10的样本,规定:如果在第一组随机抽取号码为m,那么在第k组抽取的号码个位数字与m+k的个位数字相同,若m=6,则在第7组中抽取的号码为2、某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n的样本,如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本容量增加一个,则采用系统抽样时,需要在总体中线剔除1个个体,求样本容量n。复习引入1.随机抽样有哪几种基本的抽样方法?简单随机抽样、系统抽样、分层抽样.2.随机抽样是收集数据的方法,如何通过样本数据所包含的信息,估计总体的基本特征,即用样本估计总体,是我们需要进一步学习的内容.3.用样本的有关情况去估计总体的相应情况,这种估计大体分为两类,一类是用样本频率分布估计总体分布,一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。

引例:我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做哪些工作?问题探究

为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等。因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况。

首先通过抽样调查,获得100位居民月均用水量如下表(单位:t):

分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式。下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律。可以让我们更清楚的看到整个样本数据的频率分布情况。具体做法如下:3.12.52.02.01.51.01.61.81.91.63.42.62.22.21.51.20.20.40.30.43.22.72.32.11.61.23.71.50.53.83.32.82.32.21.71.33.61.70.64.13.22.92.42.31.81.43.51.90.84.33.02.92.42.41.91.31.41.80.72.02.52.82.32.31.81.31.31.60.92.32.62.72.42.11.71.41.21.50.52.42.52.62.32.11.61.01.01.70.82.42.82.52.22.01.51.01.21.80.62.21.求极差(即一组数据中最大值与最小值的差)4.3-0.2=4.1即样本数据的变化范围是4.1t2.决定组距与组数

组距和组数与数据的数量有关.一般数据较多,分的组数也多;数据较少,分的组数也少.当数据个数在50以内,分5~8组;当数据个数在50~100之间,分8~12组.应当注意的是如果组内没有数据出现,就应当放宽组距,保证每个组内都有数据,且每个数据只属于确定的一组.在决定组数时,往往不是一次就能成功的,要有一个观察、尝试的过程,一般分点比已知数据多一位小数,并且第一组的起点要稍稍减小.只有合理地确定组距与组数,才能使数据分布的规律性比较明显地呈现出来;

思考:如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组?(4.3-0.2)÷0.5=8.2若组距为0.5,则分为9组比较合适3.将数据分组

通常对组内数据所在区间取左闭右开区间,最后一组取闭区间,且使分点比数据多一位小数.以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围:[0,0.5),[0.5,1),[1,1.5),…,[4,4.5].4.列频率分布表

思考:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?

分组频数累计频数频率

[0,0.5)

40.04[0.5,1)正

80.08[1,1.5)正正正

150.15[1.5,2)正正正正

220.22[2,2.5)正正正正正

250.25[2.5,3)正正

140.14[3,3.5)正一

60.06[3.5,4)

40.04[4,4.5]20.02

合计1001.00——样本数据的频率分布表

思考1:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?88%的居民月用水量在3t以下,可建议取a=3.

思考2:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?

首先抽样会有偏差,其次,分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的.

思考3:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?

第一步,求极差.(样本数据中最大值与最小值的差)

第二步,决定组距与组数.(设k=极差÷组距,若k为整数,则组数=k,否则,组数=k+1)

第三步,确定分点,将数据分组.

第四步,统计频数,计算频率,制成表格.(频数=样本数据落在各小组内的个数,频率=频数÷样本容量)频率/组距月平均用水量/t0.500.400.300.200.100

0.511.522.533.544.5

画频率分布直方图频率分布直方图宽度:组距高度:频率组距各小长方形的面积=频率各小长方形的面积之和=1同样一组数据,如果组距不同,横轴、纵轴单位不同,得到的图的形状也会不同.不同的形状给人不同的印象,这种印象会影响我们对总体的判断.从图中我们可以看到,月均用水量在区间[2,2.5)内的居民最多,在[1.5,2)内次之,大部分居民的月均用水量都在[1,3)之间.

直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到分布表中看不清楚的数据模式,但是直观图也丢失了一些信息,例如,原始数据不能在图中表示出了.〖例1〗:下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)(1)列出样本频率分布表﹔(2)一画出频率分布直方图;(3)估计身高小于134cm的人数占总人数的百分比.。解:(1)样本频率分布表如下:数学运用(2)其频率分布直方图如下:122126130134138142146150158154身高(cm)o0.010.020.030.040.050.060.07频率/组距(3)由样本频率分布表可知身高小于134cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm的人数占总人数的19%.〖例2〗:为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。90100110120130140150次数o0.0040.0080.0120.0160.0200.0240.028频率/组距0.0320.036分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:

又因为频率=所以

(2)由图可估计该学校高一学生的达标率约为:(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。1.一个容量为32的样本,已知某组样本的频率为0.125,那么该组样本的频数为()

A.2B.4C.6D.82.为了分析一次数学考试的情况,全年段抽了50人,将分数分为5组.第一组到第三组的频数分别是10,23,1,第四组的频率是0.08,那么落在第五组的频数是____,频率是_____,全年级800人中分数落在第五组的约有_____人.(1)频率=,已知其中任意两个量就可以求出第三个量.(2)各小组的频率和等于1.(3)由样本的频率可以估计总体的频率,从而估计出总体的频数.B120.24192随堂练习3.一个容量为20的样本数据,分组后组距与频数如下:(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2。则样本在区间(10,50]上的频率为()

A.5%B.25%C.50%D.70%4.已知样本10,8,6,10,8,13,11,10,12,7,8,9,11,9,11,12,9,10,11,12,那么频率为0.2的范围是()A.5.5-----7.5B.7.5--------9.5C.9.5-----11.5D.11.5-------13.5DD除了上述几种图、表能帮助我们理解样本数据外,统计中还有一种被用来表示数据的图叫做茎叶图。结合例子说明茎叶图的作法。甲、乙两名运动员比赛的得分如下:甲:13、51、23、8、26、38、16、33、14、28、39乙:49、24、12、31、50、31、44、36、15、37、25

、36、39甲乙01234584

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论