版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
22用样本估计总体221用样本的频率分布估计总体分布第一课时问题提出1随机抽样有哪几种基本的抽样方法?2随机抽样是收集数据的方法,如何通过样本数据所包含的信息,估计总体的基本特征,即用样本估计总体,是我们需要进一步学习的内容简单随机抽样、系统抽样、分层抽样3高一某班有50名学生,在数学必修②结业考试后随机抽取10名,其考试成绩如下:
82,75,61,93,62,
55,70,68,85,78
如果要求我们根据上述抽样数据,估计该班对数学模块②的总体学习水平,就需要有相应的数学方法作为理论指导,本节课我们将学习用样本的频率分布估计总体分布频率分布表和知识探究(一):频率分布表【问题】我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t):31252020151016181916342622221512020403043227232116123715053833282322171336170641322924231814351908433029242419131418072025282323181313160923262724211714121505242526232116101017082428252220151012180622思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?思考2:样本数据中的最大值和最小值的差称为极差如果将上述100个数据按组距为05进行分组,那么这些数据共分为多少组?02~43(43-02)÷05=82思考3:以组距为05进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?[0,05),[05,1),[1,15),…,[4,
分组频数累计频数频率
[0,0.5)40.04[0.5,1)正
80.08[1,1.5)正正正
150.15[1.5,2)正正正正
220.22[2,2.5)正正正正正
250.25[2.5,3)正正
140.14[3,3.5)正一
60.06[3.5,4)40.04[4,4.5]20.02
合计1001.00思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?
用样本的频率分布估计总体分布思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?88%的居民月用水量在3t以下,可建议取a=3思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的思考8:对样本数据进行分组,其组数是由哪些因素确定的?思考9:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多按统计原理,若样本的容量为n,分组数一般在(1)附近选取当样本容量不超过100时,按照数据的多少,常分成5~12组若以01或15为组距对上述100个样本数据分组合适吗?极差、组距思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?第一步,求极差(极差=样本数据中最大值与最小值的差)第二步,决定组距与组数(设=极差÷组距,若为整数,则组数=,否则,组数=1)第三步,确定分点,将数据分组第四步,统计频数,计算频率,制成表格(频数=样本数据落在各小组内的个数,频率=频数÷样本容量)知识探究(二):频率分布直方图思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O上图称为频率分布直方图,其中横轴表示月均用水量,纵轴表示频率/组距频率分布直方图中各小长方形的和高度在数量上有何特点?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O宽度:组距高度:频率组距思考2:频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和为多少?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O各小长方形的面积=频率各小长方形的面积之和=1思考3:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;(3)居民月均用水量的分布有一定的对称性等思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?
第一步,画平面直角坐标系第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形思考5:对一组给定的样本数据,频率分布直方图的外观形状与哪些因素有关?在居民月均用水量样本中,你能以1为组距画频率分布直方图吗?
与分组数(或组距)及坐标系的单位长度有关月均用水量/t频率组距0.40.30.20.112345O理论迁移
例某地区为了了解知识分子的年龄结构,随机抽样50名,其年龄分别如下:
42,38,29,36,41,43,54,43,34,44,
40,59,39,42,44,50,37,44,45,29,
48,45,53,48,37,28,46,50,37,44,
42,39,51,52,62,47,59,46,45,67,
53,49,65,47,54,63,57,43,46,581列出样本频率分布表;2画出频率分布直方图;3估计年龄在32~52岁的知识分子所占的比例约是多少1极差为67-28=39,取组距为5,分为8组
分组频数频率
[27,32)3006[32,37)3006[37,42)9018[42,47)16032[47,52)7014[52,57)5010[57,62)4008[62,67)3006
合计50100样本频率分布表:(2)样本频率分布直方图:年龄0.060.050.040.030.020.01273237424752576267频率组距O(3)因为006018032014=07,故年龄在32~52岁的知识分子约占70%小结作业1频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律我们通常用样本的频率分布表或频率分布直方图去估计总体的分布2频率分布表和频率分布直方图,是对相同数据的两种不同表达方式用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况通过作图既可以从数据中提取信息,又可以利用图形传递信息3样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况作业:P71练习:1(1)组:222用样本估计总体221用样本的频率分布估计总体分布第二课时问题提出1列出一组样本数据的频率分布表可以分哪几个步骤进行?第一步,求极差第二步,决定组距与组数第三步,确定分点,将数据分组第四步,统计频数,计算频率,制成 表格2频率分布直方图是在平面直角坐标系中画若干个依次相邻的小长方形,这些小长方形的宽、高和面积在数量上分别表示什么?3我们可以用样本数据的频率分布表和频率分布直方图估计总体的频率分布,当总体中的个体数较多或较少时,统计中用什么方法提取样本数据的相关信息,我们将进一步作些探究组距、频率除以组距、频率频率分布探究1:频率分布折线图与总体密度曲线思考1:在城市居民月均用水量样本数据的频率分布直方图中,各组数据的平均值大致是哪些数?
月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O思考2:在频率分布直方图中,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为频率分布折线图你认为频率分布折线图能大致反映样本数据的频率分布吗?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O思考3:当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O月均用水量/t频率组距abO总体密度曲线思考4:在上述背景下,相应的频率分布折线图越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线那么图中阴影部分的面积有何实际意义?总体在区间(a,b)内取值的百分比思考5:当总体中的个体数比较少或样本数据不密集时,是否存在总体密度曲线?为什么?不存在,因为组距不能任意缩小思考6:对于一个总体,如果存在总体密度曲线,这条曲线是否惟一?能否通过样本数据准确地画出总体密度曲线?探究(二):茎叶图
频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况【问题】某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39助教在比赛中将这些数据记录为如下形式:甲
乙8463368389 101234554616
7990甲
乙8463368389 101234554616
7990思考1:你能理解这个图是如何记录这些数据的吗?你能通过该图说明哪个运动员的发挥更稳定吗?甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39思考2:在统计中,上图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪些数,“叶”指的是哪些数?甲
乙8463368389 101234554616
7990思考3:对于样本数据:31,25,20,08,15,10,43,27,31,35,用茎叶图如何表示?012348050571153茎叶思考4:一般地,画出一组样本数据的茎叶图的步骤如何?第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;第三步,将各个数据的叶按大小次序写在茎右(左)侧思考5:用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点?(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改思考6:比较茎叶图和频率分布表,茎叶图中“茎”和“叶”的数目分别与频率分布表中哪些数目相当?思考7:对任意一组样本数据,是否都适合用茎叶图表示?为什么?不适合样本容量很大或茎、叶不分明的样本数据知识迁移
例1在某小学500名学生中随机抽样得到100人的身高如下表(单位cm):461015人数[154,158)[150,154)[146,150)[142,146)身高区间2818982人数[138,142)[134,138)[130,134)[126,130)[122,126)身高区间(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计该校学生身高小于134cm的人数约为多少?(1)频率分布表:分组频数
频率[122,126)2[126,130)8[130,134)9[134,138)18[138,142)28[142,146)15[146,150)10[150,154)6[154,158)4
合计100100002008009018028015010006004(2)频率分布直方图:身高/cm0.080.070.060.050.040.030.020.01122126130134138142146150154158频率组距O(3)(002008009)×500=95(人)
例2为了了解高一学生的体能情况,某校随机抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出了频率分布直方图图中从左到右各小长方形的面积之比为2:4:17:15:9:3,第二小组的频数为12(1)第二小组的频率是多少?(2)样本容量是多少?(3)若次数在110以上(含110次)为达标,试估计该校全体高一学生的达标率约是多少?90100110120130140150次数o0.0040.0080.0120.0160.0200.0240.028频率/组距0.0320.036小结作业1用样本的频率分布估计总体分布,当总体中的个体数取值很少时,可用茎叶图估计总体分布;当总体中的个体数取值较多时,可将样本数据适当分组,用频率分布表或频率分布直方图估计总体分布2总体密度曲线可看成是函数的图象,对一些特殊的密度曲线,其函数解析式是可求的3茎叶图中数据的茎和叶的划分,可根据样本数据的特点灵活决定作业:P71练习:3P81习题22A组:
1(1(2(3)22用样本估计总体222用样本的数字特征估计总体的数字特征第一课时问题提出1对一个未知总体,我们常用样本的频率分布估计总体的分布,其中表示样本数据的频率分布的基本方法有哪些?在2006——2007年度赛季中,甲、乙两名篮球运动员在随机抽取的12场比赛中的得分情况如下:甲运动员得分:12,15,20,25,31,
31,36,36,37,39,44,49乙运动员得分:8,13,14,16,23,26,
28,38,39,51,31,29如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比较依据,即通过样本数据对总体的数字特征进行研究,用样本的数字特征估计总体的数字特征用样本数字特征估计总体数字特征知识探究(1):众数、中位数和平均数思考1:在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数?思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O思考3:在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?取最高矩形下端中点的横坐标2.25作为众数.思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是004,008,015,022,025,014,006,004,002由此估计总体的中位数是什么?月均用水量/t频率组距0.50.40.30.20.10.511.522.533.544.5O05-004-008-015-022=001,05×01÷025=002,中位数是202思考5:平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?思考6:根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数由此估计总体的平均数是什么?025,075,125,175,225,275,325,375,425025×004075×008125×015175×022225×025275×014325×006375×004425×002=202(t)平均数是202平均数与中位数相等,是必然还是巧合?
上述数据显示,大部分居民的月均用水量在中部(左右),但是也有少数居民的月均用水量特别高,显然,对这部分居民的用水量作出限制是非常合理的思考7:从居民月均用水量样本数据可知,该样本的众数是23,中位数是20,平均数是1973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?(1)频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关(2)在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征思考8:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会额成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数知识探究(二):标准差样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:78795491074乙:9578768677
甲、乙两人本次射击的平均成绩分别为多少环?思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?环数频率0.40.30.20.145678910O(甲)环数频率0.40.30.20.145678910O(乙)甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定思考3:对于样本数据1,2,…,n,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,1,2,…,n的平均数为,则标准差的计算公式是:
那么标准差的取值范围是什么?标准差为0的样本数据有何特点?s≥0,标准差为0的样本数据都相等思考5:对于一个容量为2的样本:x1,x2(x1<x2),则,,在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围知识迁移计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性s甲=2,s乙=1095小结作业1用样本的数字特征估计总体的数字特征,是指用样本的众数、中位数、平均数和标准差等统计数据,估计总体相应的统计数据2平均数对数据有“取齐”的作用,代表一组数据的平均水平标准差描述一组数据围绕平均数波动的幅度在实际应用中,我们常综合样本的多个统计数据,对总体进行估计,为解决问题作出决策作业:P79练习:1,2,322用样本估计总体222用样本的数字特征估计总体的数字特征第二课时知识回顾1如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?(1)众数:最高矩形下端中点的横坐标(2)中位数:直方图面积平分线与横轴交点的横坐标(3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和1,2,…,n,其标准差如何计算?样本数字特征例题分析知识补充2称为方差,有时用方差代替标准差测量样本数据的离散度方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差2现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性3.对于城市居民月均用水量样本数据,其平均数,标准差s=0.868.在这100个数据中,落在区间(-s,+s)=[1.105,2.841]外的有28个;落在区间(-2s,+2s)=[0.237,3.709]外的只有4个;落在区间(-3s,+3s)=[-0.631,4.577]外的有0个.
一般地,对于一个正态总体,数据落在区间(-s,+s)、(-2s,+2s)、(-3s,+3s)内的百分比分别为68.3%、95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用(参考教材P79“阅读与思考”).例题分析例1画出下列四组样本数据的条形图,说明他们的异同点15,5,5,5,5,5,5,5,5;24,4,4,5,5,5,6,6,6;O频率1.00.80.60.40.212345678
(1)O频率1.00.80.60.40.212345678
(2)33,3,4,4,5,6,6,7,7;42,2,2,2,5,8,8,8,8频率1.00.80.60.40.212345678
O(4)频率1.00.80.60.40.212345678
O(3)四组数据的平均数都是50,标准差分别为:000,082,149,283它们有相同的平均数,但他们有不同的标准差,说明数据的分散程度是不一样的例2甲、的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度住宅小区车位维修保养合同范本3篇
- 2024物流转包商服务质量评价体系合同
- 2024牛肉产业技术创新与研发合作合同
- 2025年度大理石石材工程环保评估与施工合同3篇
- 2025年度新能源项目打桩工程合作合同4篇
- 2025年度智能窗帘控制系统研发与集成承包合同4篇
- 2024年电商平台运营服务外包合同
- 2024版项目股权出售合同:公司权益转让协议
- 2025年度新能源电池产品进出口合同4篇
- 2025年度房地产租赁权转让合同3篇
- 服装板房管理制度
- 2024年县乡教师选调进城考试《教育学》题库及完整答案(考点梳理)
- 车借给别人免责协议书
- 河北省兴隆县盛嘉恒信矿业有限公司李杖子硅石矿矿山地质环境保护与治理恢复方案
- 第七章力与运动第八章压强第九章浮力综合检测题(一)-2023-2024学年沪科版物理八年级下学期
- 医疗机构诊疗科目名录(2022含注释)
- 微视频基地策划方案
- 光伏项目质量评估报告
- 八年级一本·现代文阅读训练100篇
- 2023年电池系统测试工程师年度总结及下一年计划
- 应急预案评分标准表
评论
0/150
提交评论