高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版_第1页
高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版_第2页
高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版_第3页
高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版_第4页
高考数学第一轮复习 第九篇 统计与统计案例细致讲解练 理 新人教A版_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九篇统计与统计案例第1讲随机抽样[最新考纲]1.理解随机抽样的必要性和重要性.2.会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.知识梳理1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1)编号:先将总体的N个个体编号;(2)分段:确定分段间隔k,对编号进行分段,当eq\f(N,n)(n是样本容量)是整数时,取k=eq\f(N,n);(3)确定首个个体:在第1段用简单随机抽样确定第一个个体编号l(l≤k);(4)获取样本:按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.辨析感悟1.对简单随机抽样的认识(1)(教材思考问题改编)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次抽到的可能性最大.(×)(2)从100件玩具中随机拿出一件,放回后再拿出一件,连续拿5次,是简单随机抽样.(×)2.对系统抽样的理解(3)系统抽样适用于元素个数较多且分布均衡的总体.(√)(4)要从1002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.(×)3.对分层抽样的理解(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(×)(6)(·郑州模拟改编)某校即将召开学生代表大会,现从高一、高二、高三共抽取60名代表,则可用分层抽样方法抽取.(√)(7)(·湖南卷改编)某学校有男、女学生各500名.为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是分层抽样.(√)[感悟·提升]两点提醒一是简单随机抽样(抽签法和随机数法)都是从总体中逐个地进行抽取,都是不放回抽样,如(2).二是三种抽样方法在抽样过程中每个个体被抽到的可能性都相等,如(1)、(4)、(5).考点一简单随机抽样【例1】下列抽取样本的方式是否属于简单随机抽样?(1)从无限多个个体中抽取100个个体作为样本.(2)盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.(3)从20件玩具中一次性抽取3件进行质量检验.(4)某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.解(1)不是简单随机抽样.由于被抽取的样本总体的个体数是无限的,而不是有限的.(2)不是简单随机抽样.由于它是放回抽样.(3)不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.(4)不是简单随机抽样.因为指定个子最高的5名同学是56名中特指的,不存在随机性,不是等可能抽样.规律方法(1)简单随机抽样需满足;①抽取的个体数有限;②逐个抽取;③是不放回抽取;④是等可能抽取.(2)简单随机抽样常有抽签法(适用总体中个体数较少的情况)、随机数表法(适用于个体数较多的情况).【训练1】下列抽样试验中,适合用抽签法的有().A.从某厂生产的5000件产品中抽取600件进行质量检验B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D.从某厂生产的5000件产品中抽取10件进行质量检验答案B考点二系统抽样【例2】采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为().A.7B.9C.10D.15解析从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为an=9+30(n-1)=30n-21,由451≤30n-21≤750,得eq\f(236,15)≤n≤eq\f(257,10),所以n=16,17,…,25,共有25-16+1=10人,选C.答案C规律方法(1)系统抽样适用的条件是总体容量较大,样本容量也较大.(2)使用系统抽样时,若总体容量不能被样本容量整除,可以先从总体中随机地剔除几个个体,从而确定分段间隔.(3)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定.【训练2】(1)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是().A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5D.2,4,6,16,32(2)(·临沂模拟)某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号同学在样本中,那么样本中还有一个同学的学号是().A.10B.11C.12D.16解析(1)间隔距离为10,故可能编号是3,13,23,33,43.(2)因为29号、42号的号码差为13,所以3+13=16,即另外一个同学的学号是16.答案(1)B(2)D考点三分层抽样【例3】(·兰州模拟)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人)篮球组书画组乐器组高一4530a高二151020学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.解析因为eq\f(30,45+15+30+10+a+20)=eq\f(12,45+15),所以解得a=30.答案30规律方法进行分层抽样的相关计算时,常利用以下关系式巧解:(1)eq\f(样本容量n,总体的个数N)=eq\f(该层抽取的个体数,该层的个体数);(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.【训练3】(1)(·江苏卷)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.(2)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为________.解析(1)高二年级学生人数占总数的eq\f(3,3+3+4)=eq\f(3,10).样本容量为50,则高二年级抽取:50×eq\f(3,10)=15(名)学生.(2)由题意知,青年职工人数∶中年职工人数∶老年职工人数=350∶250∶150=7∶5∶3.由样本中青年职工为7人得样本容量为15.答案(1)15(2)151.三种抽样方法的联系三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n,总体的个体数为N,则用这三种方法抽样时,每个个体被抽到的概率都是eq\f(n,N).2.各种抽样方法的特点(1)简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽取的个体带有随机性,个体间无固定间距.(2)系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.(3)分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.创新突破8——抽样方法与概率的交汇问题【典例】(·天津卷)某地区有小学21所,中学14所,大学7所,现采用分层抽样的方法从这些学校中抽取6所学校对学生进行视力调查.(1)求应从小学、中学、大学中分别抽取的学校数目;(2)若从抽取的6所学校中随机抽取2所学校做进一步数据分析,①列出所有可能的抽取结果;②求抽取的2所学校均为小学的概率.突破1:确定分层抽样中的每层所占的比例.突破2:用列举法列出所有可能抽取的结果.突破3:利用古典概型的计算公式计算.解(1)由分层抽样的定义知,从小学中抽取的学校数目为6×eq\f(21,21+14+7)=3;从中学中抽取的学校数目为6×eq\f(14,21+14+7)=2;从大学中抽取的学校数目为6×eq\f(7,21+14+7)=1.则从小学、中学、大学分别抽取的学校数目为3,2,1.(2)①在抽取到的6所学校中,3所小学分别记为A1,A2,A3,2所中学分别记为A4,A5,大学记为A6,则抽取2所学校的所有可能结果为(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,A6),(A2,A3),(A2,A4),(A2,A5),(A2,A6),(A3,A4),(A3,A5),(A3,A6),(A4,A5),(A4,A6),(A5,A6),共15种.②从6所学校中抽取的2所学校均为小学(记为事件B)的所有可能结果为(A1,A2),(A1,A3),(A2,A3),共3种.所以P(B)=eq\f(3,15)=eq\f(1,5).[反思感悟]分层抽样与概率结合的题目多与实际问题紧密联系,计算量和阅读量都比较大,且一般会有图表,求解时容易造成失误,平时需注意多训练此类型的题目.【自主体验】(·潮州模拟)某公司有一批专业技术人员,对他们进行年龄状况和接受教育程度(学历)的调查,其结果(人数分布)如下表:学历35岁以下35~50岁50岁以上本科803020研究生x20y(1)用分层抽样的方法在35~50岁年龄段的专业技术人员中抽取一个容量为5的样本,将该样本看成一个总体,从中任取2人,求至少有1人学历为研究生的概率;(2)在这个公司的专业技术人员中按年龄状况用分层抽样的方法抽取N个人,其中35岁以下48人,50岁以上10人,再从这N个人中随机抽取出1人,此人的年龄为50岁以上的概率为eq\f(5,39),求x,y的值.解(1)用分层抽样的方法在35~50岁中抽取一个容量为5的样本,设抽取学历为本科的人数为m,∴eq\f(30,50)=eq\f(m,5),解得m=3.抽取的样本中有研究生2人,本科生3人,分别记作S1,S2;B1,B2,B3.从中任取2人的所有等可能基本事件共有10个:(S1,B1),(S1,B2),(S1,B3),(S2,B1),(S2,B2),(S2,B3),(S1,S2),(B1,B2),(B1,B3),(B2,B3),其中至少有1人的学历为研究生的基本事件有7个:(S1,B1),(S1,B2),(S1,B3),(S2,B1)(S2,B2),(S2,B3),(S1,S2).∴从中任取2人,至少有1人学历为研究生的概率为eq\f(7,10).(2)由题意,得eq\f(10,N)=eq\f(5,39),解得N=78.∴35~50岁中被抽取的人数为78-48-10=20,∴eq\f(48,80+x)=eq\f(20,50)=eq\f(10,20+y),解得x=40,y=5.即x,y的值分别为40,5.基础巩固题组(建议用时:40分钟)一、选择题1.某中学进行了该学年度期末统一考试,该校为了了解高一年级1000名学生的考试成绩,从中随机抽取了100名学生的成绩单,就这个问题来说,下面说法正确的是().A.1000名学生是总体B.每个学生是个体C.1000名学生的成绩是一个个体D.样本的容量是100解析1000名学生的成绩是总体,其容量是1000,100名学生的成绩组成样本,其容量是100.答案D2.(·新课标全国Ⅰ卷)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是().A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析因为男女生视力情况差异不大,而学段的视力情况有较大差异,所以应按学段分层抽样,故选C.答案C3.(·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=().A.54B.90C.45D.126解析依题意有eq\f(3,3+5+7)×n=18,由此解得n=90,即样本容量为90.答案B4.(·江西卷)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为().7816657208026314070243699728019832049234493582003623486969387481A.08B.07C.02D.01解析由题意知前5个个体的编号为08,02,14,07,01.答案D5.(·石家庄模拟)某学校高三年级一班共有60名学生,现采用系统抽样的方法从中抽取6名学生做“早餐与健康”的调查,为此将学生编号为1,2,…,60.选取的这6名学生的编号可能是().A.1,2,3,4,5,6B.6,16,26,36,46,56C.1,2,4,8,16,32D.3,9,13,27,36,54解析系统抽样是等间隔抽样.答案B二、填空题6.(·成都模拟)某课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应城市数分别为4,12,8.若用分层抽样抽取6个城市,则甲组中应抽取的城市数为________.解析甲组中应抽取的城市数为eq\f(6,24)×4=1.答案17.某校高级职称教师26人,中级职称教师104人,其他教师若干人.为了了解该校教师的工资收入情况,按分层抽样从该校的所有教师中抽取56人进行调查,已知从其他教师中共抽取了16人,则该校共有教师________人.解析设其他教师为x人,则eq\f(56,26+104+x)=eq\f(16,x),解得x=52,∴x+26+104=182(人).答案1828.(·青岛模拟)某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50号,并分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.解析因为12=5×2+2,即第三组抽出的是第二个同学,所以每一组都相应抽出第二个同学,所以第8组中抽出的号码为5×7+2=37号.答案37三、解答题9.某初级中学共有学生2000名,各年级男、女生人数如下表:初一年级初二年级初三年级女生373xy男生377370z已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19.(1)求x的值;(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?解(1)∵eq\f(x,2000)=0.19.∴x=380.(2)初三年级人数为y+z=2000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为:eq\f(48,2000)×500=12名.10.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人.上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,请具体实施抽取.解用分层抽样方法抽取.具体实施抽取如下:(1)∵20∶100=1∶5,∴eq\f(10,5)=2,eq\f(70,5)=14,eq\f(20,5)=4,∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人的人数较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,02,…,69编号,然后用随机数表法抽取14人.(3)将2人,4人,14人的编号汇合在一起就取得了容量为20的样本.能力提升题组(建议用时:25分钟)一、选择题1.某工厂在12月份共生产了3600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为().A.800B.1000C.1200D.1500解析因为a,b,c成等差数列,所以2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占总数的三分之一,即为1200双皮靴.答案C2.将参加夏令营的600名学生编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为().A.26,16,8B.25,17,8C.25,16,9D.24,17,9解析由题意知间隔为eq\f(600,50)=12,故抽到的号码为12k+3(k=0,1,…,49),列出不等式可解得:第Ⅰ营区抽25人,第Ⅱ营区抽17人,第Ⅲ营区抽8人.答案B二、填空题3.200名职工年龄分布如图所示,从中随机抽40名职工作样本,采用系统抽样方法,按1~200编号为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码为______.若采用分层抽样,40岁以下年龄段应抽取________人.解析将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中抽取x人,则eq\f(40,200)=eq\f(x,100),解得x=20.答案3720三、解答题4.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100(1)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(2)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.解(1)应抽取大于40岁的观众人数为eq\f(27,45)×5=eq\f(3,5)×5=3(名).(2)用分层抽样方法抽取的5名观众中,20至40岁有2名(记为Y1,Y2),大于40岁有3名(记为A1,A2,A3).5名观众中任取2名,共有10种不同取法:Y1Y2,Y1A1,Y1A2,Y1A3,Y2A1,Y2A2,Y2A3,A1A2,设A表示随机事件“5名观众中任取2名,恰有1名观众年龄为20至40岁”,则A中的基本事件有6种:Y1A1,Y1A2,Y1A3,Y2A1,Y2A2故所求概率为P(A)=eq\f(6,10)=eq\f(3,5).

第2讲用样本估计总体[最新考纲]1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,体会他们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解样本估计总体的思想.5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.知识梳理知识梳理1.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.(2)在频率分布直方图中,纵轴表示eq\f(频率,组距),数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精细的反映出总体在各个范围内取值的百分比.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便.2.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数①众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.②中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.③平均数:样本数据的算术平均数,即eq\x\to(x)=eq\f(1,n)(x1+x2+…+xn).在频率分布直方图中,中位数左边和右边的直方图的面积相等.(2)样本方差、标准差标准差s=eq\r(\f(1,n)[x1-\x\to(x)2+x2-\x\to(x)2+…+xn-\x\to(x)2]).其中xn是样本数据的第n项,n是样本容量,eq\x\to(x)是平均数.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.辨析感悟1.对频率分布直方图的认识(1)在频率分布直方图中,小矩形的高表示频率.(×)(2)频率分布直方图中各个长方形的面积之和为1.(√)2.对样本数字特征的认识(3)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.(√)(4)一组数据的方差越大,说明这组数据的波动越大.(√)(5)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.(×)(6)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.(√)(7)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.(×)(8)如图是某电视台综艺节目举办的挑战主持人大赛上,七位评委为某选手打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为85,1.6.(√)(9)(·广州调研改编)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,19,17,16,14,12,则这一天10名工人生产的零件的中位数是15.(√)[感悟·提升]1.作频率分布直方图的步骤(1)求极差;(2)确定组距和组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.2.两个防范一是在频率分布直方图中,小矩形的高表示频率/组距,而不是频率,如(1);二是利用频率分布直方图求众数、中位数和平均数时,应注意三点:①最高的小长方形底边中点的横坐标即是众数;②中位数左边和右边的小长方形的面积和是相等的;③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考点一频率分布直方图的应用【例1】某中学高一女生共有450人,为了了解高一女生的身高情况,随机抽取部分高一女生测量身高,所得数据整理后列出频率分布表如下:组别频数频率145.5~149.580.16149.5~153.560.12153.5~157.5140.28157.5~161.5100.20161.5~165.580.16165.5~169.5mn合计MN(1)求出表中字母m,n,M,N所对应的数值;(2)在给出的直角坐标系中画出频率分布直方图;(3)估计该校高一女生身高在149.5~165.5cm范围内有多少人?审题路线由频率分布表可以计算出m,n,M,N的值⇒作频率分布直方图⇒利用频率分布直方图求值.解(1)由题意M=eq\f(8,0.16)=50,落在区间165.5~169.5内数据频数m=50-(8+6+14+10+8)=4,频率为n=0.08,总频率N=1.00.(2)频率分布直方图如下图:(3)该所学校高一女生身高在149.5~165.5cm之间的比例为0.12+0.28+0.20+0.16=0.76,则该校高一女生在此范围内的人数为450×0.76=342(人).规律方法解决频率分布直方图的问题,关键在于找出图中数据之间的联系.这些数据中,比较明显的有组距、eq\f(频率,组距),间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积=组距×eq\f(频率,组距)=频率,小长方形面积之和等于1,即频率之和等于1,就可以解决直方图的有关问题.【训练1】(·辽宁卷)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:[20,40),[40,60),[60,80),[80,100]人.若低于60分的人数是15人,则该班的学生人数是().A.45B.50C.55D.60解析第一、第二小组的频率分别是0.1,0.2,所以低于60分的频率是0.3,设班级人数为m,则eq\f(15,m)=0.3,m=50.答案B考点二茎叶图的应用【例2】为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h),试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.61.22.71.52.81.82.22.33.23.52.52.61.22.71.52.93.03.12.32.4服用B药的20位患者日平均增加的睡眠时间:3.21.71.90.80.92.41.22.61.31.41.60.51.80.62.11.12.51.22.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成右面茎叶图,从茎叶图看,哪种药的疗效更好?解(1)设A药观测数据的平均数为eq\x\to(x)A,B药观测数据的平均数为eq\x\to(x)B,则eq\x\to(x)A=eq\f(1,20)(0.6+1.2+2.7+1.5+2.8+1.8+2.2+2.3+3.2+3.5+2.5+2.6+1.2+2.7+1.5+2.9+3.0+3.1+2.3+2.4)=2.3.eq\x\to(x)B=eq\f(1,20)(3.2+1.7+1.9+0.8+0.9+2.4+1.2+2.6+1.3+1.4+1.6+0.5+1.8+0.6+2.1+1.1+2.5+1.2+2.7+0.5)=1.6.则eq\x\to(x)A>eq\x\to(x)B,因此A药的疗效更好.(2)由观测结果绘制如下茎叶图:从茎叶图可以看出,A药疗效的试验结果有eq\f(7,10)的叶集中在茎2,3上;B药疗效的试验结果有eq\f(7,10)的叶集中在茎0,1上.由上述可看出A药的疗效更好.规律方法茎叶图的绘制需注意:(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;(2)重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置的数据.【训练2】(·重庆卷)以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分)甲组乙组909x215y87424已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为().A.2,5B.5,5C.5,8D.8,8解析由茎叶图及已知得x=5,又乙组数据的平均数为16.8,即eq\f(9+15+10+y+18+24,5)=16.8,解得y=8.答案C考点三样本的数字特征【例3】甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.解(1)由图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.eq\x\to(x)甲=eq\f(10+13+12+14+16,5)=13,eq\x\to(x)乙=eq\f(13+14+12+12+14,5)=13,seq\o\al(2,甲)=eq\f(1,5)[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,seq\o\al(2,乙)=eq\f(1,5)[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由seq\o\al(2,甲)>seq\o\al(2,乙)可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.规律方法平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.【训练3】将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:则7个剩余分数的方差为 ().A.eq\f(116,9) B.eq\f(36,7) C.36 D.eq\f(6\r(7),7)解析由题意知eq\f(87+94+90+91+90+90+x+91,7)=91,解得x=4.所以s2=eq\f(1,7)[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=eq\f(1,7)(16+9+1+0+1+9+0)=eq\f(36,7).答案B1.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以随时记录;而频率分布表和频率分布直方图则损失了样本的一些信息,必须在完成抽样后才能制作.2.众数、中位数、平均数的异同(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(2)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动,而中位数和众数都不具备此性质.(3)众数体现各数据出现的频率,当一组数据中有若干数据多次出现时,众数往往更能反映问题.(4)中位数仅与数据的排列位置有关,中位数可能出现在所给数据中,也可能不在所给数据中,当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.易错辨析8——统计图表识图不准致误【典例】从某校高三年级随机抽取一个班,对该班50名学生的高校招生体检表中的视力情况进行统计,其频率分布直方图如图所示:若某高校A专业对视力的要求在0.9以上,则该班学生中能报A专业的人数为________.[解析]该班学生视力在0.9以上的频率为(1.00+0.75+0.25)×0.2=0.4,故能报A专业的人数为0.4×50=20.[答案]20[易错警示]解题中易出现审题不仔细,又对所给图形没有真正理解清楚,将矩形的高误认为频率或者对“0.9以上”的含义理解有误.[防范措施]求解频率分布直方图中的数据问题,最容易出现的问题就是把纵轴误以为是频率导致错误.在频率分布直方图中,纵轴表示eq\f(频率,组距),我们用各个小矩形的面积表示该段数据的频率,所以各组数据的频率等于小矩形的高对应的数据与小矩形的宽(样本数据的组距)的乘积.【自主体验】(·福建卷)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为().A.588B.480C.450D.120解析从频率分布直方图可以看出:分数大于或等于60分的频率为(0.030+0.025+0.015+0.010)×10=0.8,故频数为600×0.8=480.答案B基础巩固题组(建议用时:40分钟)一、选择题1.(·山东卷)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据.则A,B两样本的下列数字特征对应相同的是().A.众数B.平均数C.中位数D.标准差解析对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,众数、中位数、平均数都发生改变.答案D2.在样本频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形面积和的eq\f(1,4),且样本容量为160,则中间一组的频数为().A.32B.0.2C.40D.0.25解析由频率分布直方图的性质,可设中间一组的频率为x,则x+4x=1,∴x=0.2,故中间一组的频数为160×0.2=32,选A.答案A3.(·潮州二模)有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲78795491074乙9578768677则下列判断正确的是().A.甲射击的平均成绩比乙好B.乙射击的平均成绩比甲好C.甲比乙的射击成绩稳定D.乙比甲的射击成绩稳定解析甲、乙的平均成绩分别为eq\x\to(x)甲=7,eq\x\to(x)乙=7,故排除A,B项;甲、乙的成绩的方差分别为seq\o\al(2,甲)=eq\f(1,10)[(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,seq\o\al(2,乙)=eq\f(1,10)[(9-7)2+(5-7)2+(7-7)2+(8-7)2+(7-7)2+(6-7)2+(8-7)2+(6-7)2+(7-7)2+(7-7)2]=1.2,则seq\o\al(2,甲)>seq\o\al(2,乙),所以乙比甲的射击成绩稳定,故选D.答案D4.(·临沂一模)某中学高三从甲、乙两个班中各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图,其中甲班学生成绩的众数是85,乙班学生成绩的中位数是83,则x+y的值为().A.7B.8C.9D.10解析由茎叶图可知,甲班学生成绩的众数是85,所以x=5.乙班学生成绩的中位数是83,所以y=3,所以x+y=5+3=8.答案B5.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则().A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差解析由条形统计图知:甲射靶5次的成绩分别为:4,5,6,7,8;乙射靶5次的成绩分别为:5,5,5,6,9;所以eq\x\to(x)甲=eq\f(4+5+6+7+8,5)=6;eq\x\to(x)乙=eq\f(5+5+5+6+9,5)=6.所以eq\x\to(x)甲=eq\x\to(x)乙.故A不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B不正确.seq\o\al(2,甲)=eq\f(1,5)[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=eq\f(1,5)×10=2,seq\o\al(2,乙)=eq\f(1,5)[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=eq\f(1,5)×12=eq\f(12,5),因为2<eq\f(12,5),所以seq\o\al(2,甲)<seq\o\al(2,乙).故C正确.甲的成绩的极差为:8-4=4,乙的成绩的极差为:9-5=4,故D不正确.故选C.答案C二、填空题6.在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________,________.解析根据茎叶图所给数据,易知两组数据的中位数分别为45,46.答案45467.(·湖北卷)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)直方图中x的值为__________;(2)在这些用户中,用电量落在区间[100,250]内的户数为________.解析(1)根据频率和为1,得(0.0024+0.0036+0.0060+x+0.0024+0.0012)×50=1,解得x=0.0044.(2)(0.0036+0.0044+0.0060)×50×100=70.答案0.0044708.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为________.解析由题意可得:x+y=20,(x-10)2+(y-10)2=8,设x=10+t,y=10-t,|x-y|=2|t|=4.答案4三、解答题9.某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:(1)求分数在[50,60]的频率及全班人数;(2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高.解(1)分数在[50,60]的频率为0.008×10=0.08.由茎叶图知,分数在[50,60]之间的频数为2,所以全班人数为eq\f(2,0.08)=25.(2)分数在[80,90]之间的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为eq\f(4,25)÷10=0.016.10.(·大连模拟)从某校高三年级800名男生中随机抽取50名学生测量其身高,据测量,被测学生的身高全部在155cm到195cm之间.将测量结果按如下方式分成8组:第一组[155,160),第二组[160,165),…,第八组[190,195],下图是按上述分组得到的频率分布直方图的一部分.已知第一组与第八组的人数相同,第七组与第六组的人数差恰好为第八组与第七组的人数差.求下列频率分布表中所标字母的值,并补充完成频率分布直方图.频率分布表:分组频数频率频率/组距…………[180,185)xyz[185,190)mnp…………解由频率分布直方图可知前五组的频率和是(0.008+0.016+0.04+0.04+0.06)×5=0.82,第八组的频率是0.008×5=0.04,所以第六、七组的频率和是1-0.82-0.04=0.14,所以第八组的人数为50×0.04=2,第六、七组的总人数为50×0.14=7.由已知得x+m=7,m-x=2-m,解得x=4,m=3,所以y=0.08,n=0.06,z=0.016,p=0.012.补充完成频率分布直方图如图所示.能力提升题组(建议用时:25分钟)一、选择题1.(·长春调研)如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40)、[40,45]的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为().A.0.04B.0.06C.0.2D.0.3解析由频率分布直方图可知,年龄在[20,25)的频率为0.01×5=0.05,[25,30)的频率为0.07×5=0.35,又年龄在[30,35),[35,40),[40,45]的频率成等差数列分布,所以年龄在[35,40)的网民出现的频率为0.2.答案C2.(·陕西卷)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲乙两组数据的平均数分别为eq\x\to(x)甲,eq\x\to(x)乙,中位数分别为m甲,m乙,则().A.eq\x\to(x)甲<eq\x\to(x)乙,m甲>m乙B.eq\x\to(x)甲<eq\x\to(x)乙,m甲<m乙C.eq\x\to(x)甲>eq\x\to(x)乙,m甲>m乙D.eq\x\to(x)甲>eq\x\to(x)乙,m甲<m乙解析eq\x\to(x)甲=eq\f(1,16)(41+43+30+30+38+22+25+27+10+10+14+18+18+5+6+8)=eq\f(345,16),eq\x\to(x)乙=eq\f(1,16)(42+43+48+31+32+34+34+38+20+22+23+23+27+10+12+18)=eq\f(457,16).∴eq\x\to(x)甲<eq\x\to(x)乙.又∵m甲=20,m乙=29,∴m甲<m乙.答案B二、填空题3.(·西安一检)由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.解析不妨设x1≤x2≤x3≤x4,由中位数及平均数均为2,得x1+x4=x2+x3=4,故这四个数只可能为1,1,3,3或1,2,2,3或2,2,2,2,由标准差为1可得这四个数只能为1,1,3,3.答案1,1,3,3三、解答题4.(·西安模拟)某校从参加高三模拟考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六组[90,100),[100,110),…,[140,150]后得到如下部分频率分布直方图.观察图形的信息,回答下列问题:(1)求分数在[120,130)内的频率;(2)若在同一组数据中,将该组区间的中点值(如:组区间[100,110)的中点值为eq\f(100+110,2)=105.)作为这组数据的平均分,据此,估计本次考试的平均分;(3)用分层抽样的方法在分数段为[110,130)的学生中抽取一个容量为6的样本,将该样本看成一个总体,从中任取2人,求至多有1人在分数段[120,130)内的概率.解(1)分数在[120,130)内的频率为1-(0.1+0.15+0.15+0.25+0.05)=1-0.7=0.3.(2)估计平均分为eq\x\to(x)=95×0.1+105×0.15+115×0.15+125×0.3+135×0.25+145×0.05=121.(3)由题意,[110,120)分数段的人数为60×0.15=9(人).[120,130)分数段的人数为60×0.3=18(人).∵用分层抽样的方法在分数段为[110,130)的学生中抽取一个容量为6的样本,∴需在[110,120)分数段内抽取2人,并分别记为m,n;在[120,130)分数段内抽取4人,并分别记为a,b,c,d;设“从样本中任取2人,至多有1人在分数段[120,130)内”为事件A,则基本事件共有(m,n),(m,a),…,(m,d),(n,a),…,(n,d),(a,b),…,(c,d)共15种.则事件A包含的基本事件有(m,n),(m,a),(m,b),(m,c),(m,d),(n,a),(n,b),(n,c),(n,d)共9种.∴P(A)=eq\f(9,15)=eq\f(3,5).

第3讲变量间的相关关系、统计案例[最新考纲]1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)回归方程方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))是待定参数.eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2)=\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),,\o(a,\s\up6(^))=\x\to(y)-\o(b,\s\up6(^))\x\to(x).))3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(eq\x\to(x),eq\x\to(y))称为样本点的中心.(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.辨析感悟1.对变量间的相关关系的认识(1)(·武汉调研改编)①A项:正方体的棱长与体积是相关关系.(×)②B项:日照时间与水稻的亩产量是相关关系.(√)(2)(教材思考问题改编)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(3)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√)2.对回归直线方程的理解(4)通过回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))可以估计和观测变量的取值和变化趋势.(√)(5)任何一组数据都对应着一个回归直线方程.(×)(6)(·湖南卷改编)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为eq\o(y,\s\up6(^))=0.85x-85.71,判断下列命题的正误:①y与x具有正的线性相关关系.(√)②回归直线过样本点的中心(eq\x\to(x),eq\x\to(y)). (√)③若该大学某女生身高增加1cm,则其体重约增加0.85kg.(√)④若该大学某女生身高为170cm,则可断定其体重必为58.79kg. (×) 3.对独立性检验的认识(7)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.(√)(8)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)[感悟·提升]1.“相关关系与函数关系”的区别函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.如(2).2.三点提醒一是回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.如(5).二是根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.如(6)中的④.三是独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.如(8).考点一两个变量间的相关关系【例1】(·湖北卷)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y与x负相关且eq\o(y,\s\up6(^))=2.347x-6.423; ②y与x负相关且eq\o(y,\s\up6(^))=-3.476x+5.648; ③y与x正相关且eq\o(y,\s\up6(^))=5.437x+8.493; ④y与x正相关且eq\o(y,\s\up6(^))=-4.326x-4.578. 其中一定不正确的结论的序号是 ().A.①②B.②③C.③④D.①④解析①中,回归方程中x的系数为正,不是负相关;④方程中的x的系数为负,不是正相关,∴①④一定不正确.答案D规律方法在回归直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中,eq\o(b,\s\up6(^))代表x每增加一个单位,y平均增加的单位数,一般来说,当回归系数eq\o(b,\s\up6(^))>0时,说明两个变量呈正相关关系;当回归系数eq\o(b,\s\up6(^))<0时,说明两个变量呈负相关关系.【训练1】对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.答案C考点二线性回归方程及其应用【例2】(·重庆卷)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得eq\i\su(i=1,10,x)i=80,eq\i\su(i=1,10,y)i=20,eq\i\su(i=1,10,x)iyi=184,eq\i\su(i=1,10,x)eq\o\al(2,i)=720.(1)求家庭的月储蓄y对月收入x的线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^));(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x),其中eq\x\to(x),eq\x\to(y)为样本平均值.审题路线先确定eq\x\to(x)=eq\f(1,n)eq\i\su(i=1,n,x)i,eq\x\to(y)=eq\f(1,n)eq\i\su(i=1,n,y)i⇒计算eq\i\su(i=1,n,x)eq\o\al(2,i)-neq\x\to(x)2⇒计算eq\o(b,\s\up6(^))⇒计算eq\o(a,\s\up6(^))⇒得到线性回归方程⇒由eq\o(b,\s\up6(^))的符号判断相关⇒把x=7代入线性回归方程求eq\o(y,\s\up6(^)).解(1)由题意知n=10,eq\x\to(x)=eq\f(1,n)eq\i\su(i=1,n,x)i=eq\f(80,10)=8,eq\x\to(y)=eq\f(1,n)eq\i\su(i=1,n,y)i=eq\f(20,10)=2,又eq\i\su(i=1,n,x)eq\o\al(2,i)-neq\x\to(x)2=720-10×82=80.eq\i\su(i=1,n,x)iyi-neq\x\to(x)eq\x\to(y)=184-10×8×2=24.由此得eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,10,x)iyi-10\x\to(x)\x\to(y),\i\su(i=1,10,x)\o\al(2,i)-10\x\to(x)2)=eq\f(24,80)=0.3,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=2-0.3×8=-0.4,故所求回归方程为eq\o(y,\s\up6(^))=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(eq\o(b,\s\up6(^))=0.3>0),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为eq\o(y,\s\up6(^))=0.3×7-0.4=1.7(千元).规律方法(1)正确理解计算eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))必过样本点中心(eq\x\to(x),eq\x\to(y)).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【训练2】(·南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.房屋面积x/m211511080135105销售价格y/万元24.821.618.429.222(1)求线性回归方程;(2)据(1)的结果估计当房屋面积为150m2解(1)eq\x\to(x)=eq\f(1,5)×(115+110+80+135+105)=109,eq\x\to(y)=eq\f(1,5)×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),则eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,5,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,5,)xi-\x\to(x)2)=eq\f(308,1570)≈0.1962,∴eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=23.2-109×eq\f(308,1570)≈1.8166.∴所求回归直线方程为eq\o(y,\s\up6(^))=0.1962x+1.8166.(2)由第(1)问可知,当x=150m2时,销售价格的估计值为eq\o(y,\s\up6(^))=0.1962×150+1.8166=31.2466(万元).考点三独立性检验【例3】通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=eq\f(nad-bc2,a+bc+da+cb+d)算得,K2=eq\f(110×40×30-20×202,60×50×60×50)≈7.8.附表:P(K2≥k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是().A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解析由7.8>6.635知,有1-0.010即99%以上的把握认为“爱好该项运动与性别有关”.答案A规律方法利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,具体做法是根据公式K2=eq\f(nad-bc2,a+bc+da+cb+d),计算随机变量的观测值k,k值越大,说明“两个变量有关系”的可能性越大.【训练3】(·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计50岁以下50岁以上合计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.解(1)2×2列联表如下:主食蔬菜主食肉类合计50岁以下481250岁以上16218合计201030(2)因为K2=eq\f(30×8-1282,12×18×20×10)=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.1.求回归方程,关键在于正确求出系数eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)),由于eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求线性回归方程.3.根据K2的值可以判断两个分类变量有关的可信程度.方法优化8——求回归直线方程的方法技巧【典例】(·安徽卷)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份需求量/万吨236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^));(2)利用(1)中所求出的直线方程预测该地年的粮食需求量.[优美解法](1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:年份--4-2024需求量-257-21-1101929对处理的数据,容易算得eq\x\to(x)=0,eq\x\to(y)=3.2,eq\o(b,\s\up6(^))=eq\f(-4×-21+-2×-11+2×19+4×29-5×0×3.2,-42+-22+22+42-5×02)=eq\f(260,40)=6.5,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=3.2.由上述计算结果,知所求回归直线方程为eq\o(y,\s\up6(^))-257=6.5(x-2006)+3.2.即eq\o(y,\s\up6(^))=6.5(x-2006)+260.2.(2)利用所求得的直线方程,可预测年的粮食需求量为6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).[反思感悟]求回归直线方程时,重点考查的是计算能力.若本题用一般法去解,计算更繁琐(如年份、需求量不做如上处理),所以平时训练时遇到数据较大的要考虑有没有更简便的方法解决.【自主体验】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y对x的线性回归方程为________.解析数据处理如下:x′=父亲身高-176-20002y′=儿子身高-176-1-1011计算得:eq\x\to(x)=0,eq\x\to(y)=0.∴eq\o(b,\s\up6(^))=eq\f(4,8)=eq\f(1,2),∴eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=0,∴所求回归直线方程为:eq\o(y,\s\up6(^))-176=eq\f(1,2)(x-176),即eq\o(y,\s\up6(^))=eq\f(1,2)x+88.答案eq\o(y,\s\up6(^))=eq\f(1,2)x+88基础巩固题组(建议用时:40分钟)一、选择题1.下列两个变量之间的关系是相关关系的是().A.速度一定时,位移与时间B.单位面积的产量为常数时,土地面积与总产量C.身高与体重D.电压一定时,电流与电阻解析A、B、D中两个变量间的关系都是确定的,所以是函数关系;C中的两个变量间是相关关系,对于身高一样的人,体重仍可以不同,故选C.答案C2.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是().A.直线l过点(eq\x\to(x),eq\x\to(y))B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析由样本的中心(eq\x\to(x),eq\x\to(y))落在回归直线上可知A正确;x和y的相关系数表示为x与y之间的线性相关程度,不表示直线l的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案A3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq\f(1,2)x+1上,则这组样本数据的样本相关系数为().A.-1B.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论