高二数学下第四讲用样本估计总体2正_第1页
高二数学下第四讲用样本估计总体2正_第2页
高二数学下第四讲用样本估计总体2正_第3页
高二数学下第四讲用样本估计总体2正_第4页
高二数学下第四讲用样本估计总体2正_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四讲 用样本估计总体一高考大纲要求1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点/理解样本数据标准差的意义和作用,会计算数据标准差及方差/能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释/会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想/会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题2.会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系/了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程/了解独立性检验(只要求2

2、×2列联表)的基本思想、方法简单应用/了解假设检验的基本思想、方法简单应用/了解聚类分析的基本思想、方法简单应用二知识梳理1频率分布直方图:(1)通常我们对总体作出的估计一般分成两种,一种是用 体的分布另一种是用 (2)在频率分布直方图中,纵轴表示,数据落在各小组内的频率用 形的面积表示各小长方形的面积总和 .(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图随着 的增加,作图时所分的 增加,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为 ,它能够更加精细的反映出 (4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以 ,而且 ,给数据的

3、和 都带来方便2用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数:众数:在一组数据中,出现次数 的数据叫做这组数据的众数中位数:将一组数据按大小依次排列,把处在 位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数平均数:样本数据的算术平均数即(x1x2xn)在频率分布直方图中,中位数左边和右边的直方图的面积应该 (2)样本方差、标准差:标准差s ,其中xn是 ,n是 ,是 标准差是反映总体波动大小的特征数,样本方差是标准差的 通常用样本方差估计总体方差,当 时,样本方差很接近总体方差3两个变量的线性相关:(1)正相关:在散点图中,点散布在从 到 的区域内,对于两个变量的

4、这种相关关系,我们将它称为正相关 (2)负相关:点散布在从 到 的区域内,两个变量的这种相关关系称为负相关 (3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在 ,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线4回归方程 (1)最小二乘法:求回归直线使得样本数据的点到它的 的方法叫做最小二乘法(2)回归方程:方程bxa是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中a,b是待定参数其中i,i,(,)称为样本中心点5独立性检验 (1)分类变量:变量的不同“值”表示个体所属的 ,像这类变量称为分 类变量 (2)列联表:列出

5、两个分类变量的 ,称为列联表,假设有两个分类变量X 和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为2×2列联表)为:2×2列联表 y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中n 为样本容量(3)独立性检验:利用随机变量 来确定是否能以一定把握认为“两个分类变量 ”的方法称为两个分类变量的独立性检验三思考提问1.总体平均数与总体方差分别反映了总体的什么特征,有哪些区别?提示:总体平均数即总体期望值,是反映总体平均水平的一个值;而总体方差是反映总体的波动情况的一个量,二者反映的角度不同,不可相互比较,但有

6、些问题在总体期望值差距不大时,可考虑用总体方差进一步区分2.在独立性检验中经常由K2得到观测值k,则k吗?提示:K2与k的关系并不是k,k是K2的观测值,或者说K2是一个随机变量,它在a,b,c,d取不同值时,K2可能不同,而k是取定一组数a,b,c,d后的一个确定的值四典例剖析 题型一 频率分布直方图【例1】 为了解某校初中毕业男生的体能状况从该校初中毕业班学生中抽取若干名男生进行铅球测试,把所得数据(精确到0.1米)进行整理后,分成6组画出频率分布直方图的一部分(如下图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30.第6小组的频数是7.(1)请将频率

7、分布直方图补充完整;(2)该校参加这次铅球测试的男生有多少人?(3)若成绩在8.0米以上(含8.0米)的为合格,试求这次铅球测试的成绩的合格率;(4)在这次测试中,你能确定该校参加测试的男生铅球成绩的众数和中位数各落在哪个小组内吗?反思感悟:用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键频率分布直方图有以下几个要点:(1)纵轴表示频率/组距(2)频率分布直方图中各长方形高的比也就是其频率之比(3)直方图中第一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.迁移发散1为了解某校高三学生的视力情况,随机地抽查

8、了该校100名高三学生的视力情 况,得到频率分布直方图如下图,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6至5.0之间的学生数为b,则a、b的值分别为 A0.27,78 B0.27,83 C2.7,78 D2.7,83题型二 茎叶图【例2】 某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,4

9、34,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论反思感悟:茎叶图刻画数据的优点(1)所有的数据信息都可以从茎叶图中得到(2)茎叶图便于记录和表示,且能够展示数据的分布情况迁移发散2下图是根据山东统计年鉴2007中的资料作成的1997年至2006年我省城镇居民

10、百户家庭人口数的茎叶图图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 ()A304.6 B303.6 C302.6 D301.6题型三 样本的特征数【例3】 某班40人随机平均分成两组,两组学生一次考试的成绩情况如下表:统计量组别平均标准差第一组906第二组804求全班的平均成绩和标准差反思感悟:善于总结,养成习惯:平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小标准差、方差越大,数据的分散程度越大,越不稳定;标准差、方

11、差越小,数据的分散程度越小,越稳定迁移发散3在发生公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志是“连续10天,每天新增疑似病例不超过7人”,根据过去10天,甲乙丙丁四地新增疑似病例数据,一定符合该标志的是 ()A甲地:总体均值为3,中位数为4 B乙地:总体均值为1,方差大于0C丙地:中位数为2,众数为3 D丁地:总体均值为2,总体方差为3题型四 相关关系的判断【例4】 山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg)施化肥量x15202530354045棉花产量y

12、330345365405445450455(1)画出散点图; (2)判断是否具有相关关系反思感悟:善于总结,养成习惯:判断两个变量正相关还是负相关,有三种方法:(1)利用散点图;(2)利用相关系数r的符号当r0时,正相关;r0时,负相关;(3)在已知两变量线性相关时,也可以利用回归方程abx.当b0时,abx是增函数,两变量是正相关,当b0时,abx是减函数,两变量是负相关迁移发散4某市居民20052009年家庭平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:年份20052006200720082009收入x11.512.11313.315支出Y6.88.89.810

13、12根据统计资料,居民家庭年平均收入的中位数是_,家庭年平均收入与 平均支出有_线性相关关系 题型五线性回归方程【例5】 一台机器使用时间较长,但还可以使用它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:转速x(转/秒)1614128每小时生产有缺点的零件数y(件)11985(1)对变量y与x进行相关性检验;(2)如果y与x有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?反思感悟:善于总结,养成习惯:对具有相关关系的两个变量进行统计分

14、析时,首先要作出散点图,然后进行相关性检验,在确认具有线性相关关系后,再求其回归直线迁移发散5假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资 料:使用年限(x)/年23456维修费用(y)/万元2.23.85.56.57.0 (1)y与x间是否有线性相关关系?若有,求出线性回归方程; (2)估计使用年限为10年时的维修费用题型六 独立性检验【例6】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组29.86,2990)29.90,2994

15、)29.94,2998)29.98,3002)30.02,3006)30.06,3010)30.10,3014频数12638618292614乙厂:分组29.86,2990)29.90,2994)29.94,2998)29.98,3002)30.02,3006)30.06,3010)30.10,3014频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”. 甲厂乙厂合计优质品   非优质品  

16、60;合计   附:K2,P(K2k)0.05 0.01k3.841 6.635反思感悟:善于总结,养成习惯:所谓独立性检验,就是根据采集样本的数据,先作2×2列联表,再利用公式计算K2的值,比较它与临界值的大小关系,来判断事件X与Y是否有关的问题迁移发散6(2010·辽宁理,18)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B. (1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率; (2)下表1和表2分别是注射药物A和B后的试

17、验结果(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80频数30402010 表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)80,85频数1025203015()完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;()完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”表3: 疱疹面积小于70 mm2疱疹面积不小于70 mm2合计注射药物Aab 注射药物Bcd 

18、合计  n附:K2P(K2k)0.100 0.050 0.025 0.010 0.001k2.706 3.841 5.024 6.635 10.828五课后小结1应了解简单随机抽样、系统抽样和分层抽样的操作方法和理论依据,分层抽样 即按比例抽样2频率分布直方图:频率分布是指一个样本数据在各个小范围内所占比例的大小一般用频率分布直方图反映样本的频率分布(1)估计众数:频率分布直方图面积最大的方条的横轴中点数字(最高矩形的中点)(2)估计中位数:中位数把频率分布直方图分成左右两边面积相等(3)估计平均数:频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和3了解利用样

19、本估计总体平均值和方差的基本思想方法4求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意回归直线方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同)5回归分析是处理变量相关关系的一种数学方法主要解决:确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;根据一组观察值,预测变量的取值及判断变量取值的变化趋势;求出回归直线方程6独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的随机变量,对假设的正确性进行判断.六 家庭作业(高考回顾)一、选择题1(2011年四川高考)有一个容量为66的样本

20、,数据的分组及各组的频数如下:115,155) 2 155,195) 4 195,235) 9 235,275) 18 275,315) 1l 315,355) 12 355395) 7 395,435) 3 根据样本的频率分布估计,数据落在315,435)的概率约是A B C D2.(2011年陕西高考)设(,),(,),(,)是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是 A和的相关系数为直线的斜率B和的相关系数在0到1之间C当为偶数时,分布在两侧的样本点的个数一定相同D直线过点3.(2011年山东高考)某产品的广告费用x与销售额y的统计

21、数据如下表广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程中的为94,据此模型预报广告费用为6万元时销售额为 A636万元 B655万元 C677万元 D720万元4.(2011年江西高考)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),表示变量Y与X之间的线性相关系数,表示变量V与U之间的线性相关系数,则 A B CD5.(2011年湖南高考)通过随机询问110名性别不同的大学生是否爱好某项运

22、动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由算得,0050001000013841663510828参照附表,得到的正确结论是 A再犯错误的概率不超过01%的前提下,认为“爱好该项运动与性别有关”B再犯错误的概率不超过01%的前提下,认为“爱好该项运动与性别无关” C有99%以上的把握认为“爱好该项运动与性别有关” D有99%以上的把握认为“爱好该项运动与性别无关”二、填空题6.(2011年天津高考)一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为_7.(2011年辽宁高考

23、)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元.8.(2011年江苏高考)某老师从星期一到星期五收到信件数分别是10,6,8,5,6,则该组数据的方差9.(2011年广东高考)某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm、170cm和182cm 因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_cm三、解答题10.(2011年北京高考) 以下茎叶图记录了甲、乙两组

24、个四名同学的植树棵树。乙组记录中有一个数据模糊,无法确认,在图中以X表示。()如果X=8,求乙组同学植树棵树的平均数和方差;()如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵树Y的分布列和数学期望。(注:方差,其中为, 的平均数)11.(2011年辽宁高考)某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种家和品种乙)进行田间试验选取两大块地,每大块地分成n小块地,在总共2n小块地中,随机选n小块地种植品种甲,另外n小块地种植品种乙(I)假设n=4,在第一大块地中,种植品种甲的小块地的数目记为X,求X的分布列和数学期望;(II)试验时每大块地分成8小块,即

25、n=8,试验结束后得到品种甲和品种乙在个小块地上的每公顷产量(单位:kg/hm2)如下表:品种甲403397390404388400412406品种乙419403412418408423400413分别求品种甲和品种乙的每公顷产量的样本平均数和样本方差;根据试验结果,你认为应该种植哪一品种?附:样本数据的的样本方差,其中为样本平均数例题答案:例1 解:(1)由频率分布直方图的意义可知,各小组频率之和为1,故第6小组的频率为:1(0.040.100.140.280.30)0.14,易知第6小组与第3小组的频率相等,故两个小长方形等高,图略(2)由(1)知,第6小组的频率是0.14.又因为第6小组

26、的频数是7,现设参加这次测试的男生有x人,根据频率定义,得0.14,即x50(人)(3)由图可知,第4、5、6小组成绩在8.0米以上,其频率之和为:0.280.300.140.72,故合格率为72%.(4)能确定中位数落在第4小组,而众数落在第5小组迁移发散1 解析:根据频率直方图可知:组距0.1,且视力在4.6至4.7的2.7,则频率组距×2.70.27,即a0.27,排除C、D,在此范围内的人数为:0.27×10027,设视力在4.9到5.0之间人数为x,由已知条件:78,得:x12,由83,得x24.5(舍去)排除B,故选A. 答案:A例2 解:(1)如下图(2)由于

27、每个品种的数据都只有25个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据(3)通过观察茎叶图可以看出:品种A的亩产平均数(或均值)比品种B高;品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差迁移发散2 B 解析:303.6.例3 解:设第一组20名学生的成绩为xi(i1,2,20),第二组20名学生的成绩为yi(i1,2,20),依题意有:90(x1x2x20),80(y1y2y20),故全班平均成绩为:(x1x2x20y1y2y20)(90×2080×20)85;又设第一组学

28、生成绩的标准差为s1,第二组学生成绩的标准差为s2,则s(xxx20 2),s(yyy20 2)(此处,90,80),又设全班40名学生的标准差为s,平均成绩为(85),故有s2(xxxyyy40· 2)(20s20 220s20 240 2)(62429028022×852)51,s,全班的平均成绩和标准差分别为85和.迁移发散3 解析:解法一:甲地如果10天新增疑似病例数据为0,0,0,0,4,4,4,5,5,8;则总体均值为3,中位数为4,可排除A;乙地如果10天新增疑似病例数据为0,0,0,0,0,10,0,0,0,0;则总体均值为1,方差大于0,可排除B;丙地如果

29、10天新增疑似病例数据为0,0,1,1,2,2,3,3,3,9则中位数为2,众数为3,可排除C.故选D.解法二:也可证明D选项正确,证法如下:假设连续10天有一天新增疑似病例超过7人,则总体方差s2(82)23.6>3,此为矛盾,故D选项正确答案:D例4 解:(1)散点图如下图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系迁移发散4 解析:由表可以得到中位数为13,画出散点图,可知成正相关关系例5 解:(1)12.5,8.25,xiyi438,4412.5,x660,y291,所以r0.995.因为r0.75,所以y与x有很强的线性相关关

30、系(2)0.728 6x0.857 1.(3)要使100.728 6x0.857 110,所以x14.901 3.所以机器的转速应控制在14.901 3转/秒以下迁移发散5 解:(1)作散点图,如下图由散点图可知,y与x呈线性相关关系,4,5,90,iyi112.3.所以b1.23,ab51.23×40.08.所以回归直线方程为1.23x0.08.(2)当x10时,1.23×100.081230.0812.38(万元),即估计使用10年时,维修费用是12.38万元例6 解:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为64%.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论