第十一章 统计与成对数据的分析-备战2025年高考数学一轮复习_第1页
第十一章 统计与成对数据的分析-备战2025年高考数学一轮复习_第2页
第十一章 统计与成对数据的分析-备战2025年高考数学一轮复习_第3页
第十一章 统计与成对数据的分析-备战2025年高考数学一轮复习_第4页
第十一章 统计与成对数据的分析-备战2025年高考数学一轮复习_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节随机抽样[学习要求]1.通过实例,了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法,抽签法和随机数法.会计算样本均值,了解样本与总体的关系.2.通过实例,了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.[知识梳理]知识点简单随机抽样、分层随机抽样1.简单随机抽样(1)抽取方式:逐个不放回抽取和放回抽取;(2)每个个体被抽到的概率相等;(3)常用方法:抽签法和随机数法.2.分层随机抽样(1)一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配;(2)分层随机抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层随机抽样.[小题诊断]1.某企业有3个分厂生产同一种电子产品,第一、二、三分厂的产量之比为1∶2∶1,用分层随机抽样的方法从3个分厂生产的电子产品中共抽取100件进行使用寿命的测试,由所得的测试结果算得从第一、二、三分厂取出的产品的平均使用寿命分别为980h,1020h,1032h,则抽取的100件产品的平均使用寿命为()A.1013hB.1014hC.1016hD.1022h答案:A解析:由分层随机抽样的知识可知,从第一、二、三分厂抽取的电子产品数量分别为25件,50件,25件,则抽取的100件产品的平均使用寿命为1100×(980×25+1020×50+1032×25)=1013(h)2.我校高一、高二、高三共有学生1800名,为了了解同学们对某一授课软件的意见,计划采用分层随机抽样的方法从这1800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为()A.800B.750C.700D.650答案:D解析:设从高三年级抽取的学生人数为2x人,则从高二、高一年级抽取的人数分别为2x-2,2x-4.由题意可得2x+(2x-2)+(2x-4)=72,∴x=13.设我校高三年级的学生人数为N,且高三抽取26人,由分层随机抽样,得N1800∴N=650(人).3.已知某地区中小学生人数和近视情况分别如图(1)和图(2)所示.为了解该地区中小学生的近视形成原因,用比例分配分层随机抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.100,10B.200,10C.100,20D.200,20答案:D4.对于总数N的一批零件,抽取一个容量为30的样本.若每个零件被抽到的可能性均为25%,则N=()A.120B.150C.200D.240答案:A学生用书⬇第247页考点一简单随机抽样[例1](1)某中奖号码是从分别标有1,2,…,30的30个小球中逐个不放回地摇出7个小球来按规则确定中奖情况,这种从30个号码中选7个号码的抽样方法是()A.分层随机抽样法B.抽签法C.随机数法D.其他抽样方法(2)某校高一共有10个班,编号01至10,某项调查要从中抽取三个班作为样本,现用抽签法抽取样本,每次抽取一个号码,共抽3次,设五班第一次被抽到的可能性为a,第二次被抽到的可能性为b,则()A.a=310,b=29B.a=110,C.a=310,b=310D.a=110,[答案](1)B(2)D[解析](1)30个小球相当于号签,搅拌均匀后逐个不放回地抽取,是典型的抽签法.(2)由简单随机抽样的定义知,在每次抽取中每个个体都有相同的可能性被抽到,故五班在每次抽样中被抽到的可能性都是110,所以a=110,b=❙简单随机抽样的关注点1231.下列抽样试验中,适合用抽签法的有()A.从某厂生产的5000件产品中抽取600件进行质量检验B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D.从某厂生产的5000件产品中抽取10件进行质量检验答案:B解析:A,D中的总体中个数较多,不适宜用抽签法,C中甲、乙两厂的产品质量可能有区别,也不适宜用抽签法.2.用随机数表法从100名学生(其中男生40名)中抽取20名参加一项文体活动,某男生被抽到的可能性是()A.110B.C.15D.答案:C解析:从容量为100的总体中抽取一个容量为20的样本,每个个体被抽到的可能性都是20100=1考点二分层随机抽样[例2](1)我国古代数学专著《九章算术》中有衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣()A.104人B.108人C.112人D.120人(2)某校老年、中年和青年教师的人数如表所示,采用比例分配分层随机抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()类别人数老年教师900中年教师1800青年教师1600合计4300A.90B.100C.180D.300(3)某企业三月中旬生产A,B,C三种产品共3000件,根据分层随机抽样的结果,企业统计员制作了统计表格,如表所示:产品类别ABC产品数量(件)1300样本容量(件)130由于不小心,表格中A,C产品的有关数据已被损坏,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是件.[答案](1)B(2)C(3)800[解析](1)由题意可知,这是一个分层随机抽样的问题,其中北乡可抽取的人数为300×81008100+7(2)设该样本中的老年教师人数为x.由题意得3201600=x900,(3)抽取样本容量3000×1301设C产品样本容量为x,则A产品样本容量为10+x,∴x+10+x+130=300,x=80,∴80÷110=学生用书⬇第248页❙分层随机抽样的关注点12n33.某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层随机抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取件.答案:18解析:因为样本容量n=60,产品总数N=200+400+300+100=1000,所以nN=601000=350,因此应从丙种型号的产品中抽取300×3504.某工厂有A,B,C三个车间,A车间有600人,B车间有500人.若通过比例分配的分层随机抽样方法得到一个样本量为30的样本,其中B车间10人,则样本中C车间的人数为.答案:8解析:设C车间共有x人,样本中C车间的人数为n;由分层随机抽样的性质得:500600+500+x=1030,解得x=400.故n=30×5.为了了解高一、高二、高三学生的身体状况,现用比例分配分层随机抽样的方法抽取一个容量为1200的样本,三个年级学生人数之比依次为k∶5∶3,已知高一年级共抽取了240人,则高三年级抽取的人数为.答案:360解析:因为高一年级抽取学生的比例为2401200=15,所以kk+5+3=15,解得k=学生用书⬇第437页[A组基础保分练]1.为了解某地区的“健步走”活动情况,拟从该地区的人群中抽取部分人员进行调查,事先已了解到该地区老、中、青三个年龄段人员的“健步走”活动情况有较大差异,而男、女“健步走”活动情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.抽签法抽样B.按性别分层随机抽样C.按年龄段分层随机抽样D.利用随机数法抽样答案:C解析:由题意及分层随机抽样的概念知选C.2.(2024·山东青岛模拟)某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200的样本,则高中二年级被抽取的人数为()A.28B.32C.40D.64答案:D3.某公司生产A,B,C三种不同型号的轿车,其产量之比为2∶3∶4,为检验该公司的产品质量,用比例分配分层随机抽样的方法抽取一个容量为n的样本.若样本中A种型号的轿车比B种型号的轿车少8辆,则n=()A.96B.72C.48D.36答案:B解析:由题意得39n-29n=8,所以n4.某林场有树苗30000棵,其中松树苗4000棵.为调查树苗的生长情况,采用分层随机抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为()A.30B.25C.20D.15答案:C解析:样本中松树苗为4000×15030000=4000×1200=205.为了调研雄安新区的空气质量状况,某课题组对雄县、容城、安新三县空气质量进行调查,按地域特点在三县内设置空气质量观测点,已知三县内观测点的个数分别为6,y,z,依次构成等差数列,且6,y,z+6成等比数列.若用比例分配分层随机抽样的方法抽取12个观测点的数据,则容城应抽取的数据个数为()A.8B.6C.4D.2答案:C解析:∵三县内观测点的个数分别为6,y,z,依次构成等差数列,且6,y,z+6成等比数列,∴6+z=2y,y2=6(z+6),∴y=12,z=6.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法错误的是()A.甲应付5141109B.乙应付3224109C.丙应付1656109D.三者中甲付的钱最多,丙付的钱最少答案:B解析:依题意由分层随机抽样可知,100÷(560+350+180)=10109,则甲应付10109×560=5141109(钱);乙应付10109×350=3212109(钱);丙应付10109×180=7.(多选)(2024·湖北襄阳模拟)某中学高一年级有20个班,每班50人;高二年级有30个班,每班45人.甲就读于高一,乙就读于高二.学校计划从这两个年级中共抽取235人进行视力调查,下列说法中正确的有()A.应该采用分层随机抽样法B.高一、高二年级应分别抽取100人和135人C.乙被抽到的可能性比甲大D.该问题中的总体是高一、高二年级的全体学生的视力答案:ABD解析:由于各年级的年龄段不一样,因此应采用分层随机抽样法.由于比例为23520×50+30×45=110,因此高一年级1000人中应抽取100人,高二年级1350人中应抽取135人,甲、乙被抽到的可能性都是18.(多选)某单位有老年人27人,中年人54人,青年人81人,为了调查他们的身体状况的某项指标,需从他们中间抽取一个容量为42的样本,则下列说法正确的是()A.用抽签法比分层随机抽样更合理B.老年人中每个人被抽到的可能性最小C.中年人中每个人被抽到的可能性为7D.老年人、中年人、青年人被抽到的人数之比为1∶2∶3答案:CD解析:用比例分配分层随机抽样更合理,故A错误,每个人被抽到的可能性都是4227+54+81=727,故B错误,C∵27∶54∶81=1∶2∶3,故D正确.9.某地有2000人参加自学考试,为了了解他们的成绩,从中抽取一个样本,若每个考生被抽到的概率都是0.04,则这个样本的容量是.答案:80解析:设样本量为n,根据简单随机抽样,得n2000=0.04,解得10.某商场有四类食品,食品类别和种数如表所示:类别粮食类植物油类动物性食品类果蔬类种数40103020现从中抽取一个容量为20的样本进行食品安全检测.若采用比例分配分层随机抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为.答案:6解析:由题意可知,20×10+2040+10+30+20=11.一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如表(单位:辆):轿车A轿车B轿车C舒适型100150z标准型300450600按类型用分层随机抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆,则z的值为.答案:400解析:设该厂这个月共生产轿车n辆,由题意得50n=10100+300,所以n=则z=2000-100-300-150-450-600=400.学生用书⬇第438页12.(2024·北京模拟)某校高一年级三个班共有学生120名,这三个班的男生、女生人数如表所示,已知在全年级中随机抽取1名学生,抽到二班女生的概率是0.2,则x=;现用比例分配分层随机抽样的方法在全年级抽取30名学生,则应在三班抽取的学生人数为.一班二班三班女生人数20xy男生人数2020z答案:249解析:由题意可得x120=0.2,解得x=24.三班总人数为120-20-20-24-20=36,用比例分配分层随机抽样的方法在全年级抽取30名学生,每个学生被抽到的概率为30120=14,故应从三班抽取的人数为36×[B组能力提升练]13.从某鱼池中捕得130条鱼,做了记号之后,再放回池中,经过适当的时间后,再从池中捕得100条鱼,计算其中有记号的鱼为10条,试估计鱼池中共有鱼的条数大约为()A.1000B.1200C.130D.1300答案:D解析:设鱼池中共有鱼的条数大约为n,则10100=130n,解得n14.某中学400名教师的年龄分布情况如图,现要从中抽取40名教师作样本,若用分层随机抽样方法,则40岁以下年龄段应抽取()A.40人B.200人C.20人D.10人答案:C解析:由图知,40岁以下年龄段的人数为400×50%=200,若采用分层随机抽样应抽取200×40400=20(人)15.(多选)从一群做游戏的小孩中抽出k人,每人分一个苹果,让他们返回继续游戏,一段时间后,再从中任抽出m人,发现其中有n个小孩曾分过苹果,则下列说法正确的是()A.得到苹果的小孩占总数的mB.得到苹果的小孩占总数的nC.小孩的总数为kmD.小孩的总数为k+m-n答案:BC解析:设一共有x个小孩,则kx=nm,解得x=16.一工厂生产了16800件某种产品,它们分别来自甲、乙、丙3条生产线.为检查这批产品的质量,决定采用分层随机抽样(按比例分配样本量)的方法进行抽样.已知从甲、乙、丙3条生产线抽取的产品个数分别是a,b,c,且2b=a+c,则乙生产线生产了件产品.答案:5600解析:设甲、乙、丙3条生产线各生产了T甲,T乙,T丙件产品,则a∶b∶c=T甲∶T乙∶T丙,即aT甲=bT乙=cT丙.因为2b所以T乙=1680017.某班的数学老师要对该班一模考试的数学成绩进行分析,利用随机数法抽取样本时,先将该班70名同学按00,01,02,…,69进行编号,然后从随机数表第9行第9列的数开始向右读,则选出的10个样本中第8个样本的编号是.注:以下是随机数表的第8行和第9行.第8行:63016378591695556719981050717512867358074439523879第9行:33211234297864560782524207443815510013429966027954答案:38解析:由随机数表知选出的10个样本依次是29,64,56,07,52,42,44,38,15,51,第8个样本编号是38.18.某地各项事业取得令人瞩目的成就,以2023年为例,社会固定资产总投资约为3730亿元,其中包括中央项目、省属项目、地(市)属项目、县(市)属项目和其他项目.图1、图2分别是这五个项目的投资额不完整的条形统计图和扇形统计图,请完成下列问题.(1)地(市)属项目投资额为亿元;(2)在图2中,县(市)属项目部分所占百分比为m%,对应的圆心角为β,则m=,β=度(m,β均取整数).答案:(1)830(2)1865解析:(1)因为该地社会固定资产总投资约为3730亿元,所以地(市)属项目投资额为3730-(200+530+670+1500)=830(亿元).(2)由条形统计图可以看出县(市)属项目部分总投资为670亿元,所以县(市)属项目部分所占百分比为m%=6703730×100%≈18%,即m=18,对应的圆心角为β≈360×0.18≈65(学生用书⬇第248页第二节统计图表、用样本估计总体[学习要求]1.会列频率分布表、画频率分布直方图、频率分布折线图,体会它们各自的特点.2.会计算数据标准差.3.能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.5.会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异.[知识梳理]知识点一频率分布直方图作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.知识点二样本的数字特征1.众数、中位数、平均数、百分位数(1)众数:一组数据中重复出现次数最多的数.(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数).(3)平均数:如果有n个数据x1,x2,…,xn,那么这n个数的平均数x=x1+(4)百分位数:一般地,一组数据的第p百分位数是这样一个值,它使这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.四分位数第25百分位数,第50百分位数(中位数),第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数,其中第25百分位数也称第一四分位数或下四分位数,第75百分位数也称第三四分位数或上四分位数.3.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s=1n学生用书⬇第249页(2)方差:标准差的平方s2,s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,x是样本平均数4.总体平均数、样本平均数、方差(1)总体平均数:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,Y3,…,YN,则称Y=Y1+Y2+…+如果总体的N个变量中,不同的值共有k(k≤N)个,记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值可以写成加权平均数的形式,Y=1N∑i=1k(2)样本平均数:如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称y=y1+y2+…(3)比例分配的分层随机抽样中的平均数:在分层随机抽样中,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,……(x为第一层的平均数,y为第二层的平均数),则可用w=MM+Nx+NM+Ny=[小题诊断]1.若数据x1,x2,…,x9的方差为2,则数据2x1,2x2,…,2x9的方差为()A.2B.4C.6D.8答案:D解析:根据方差的性质可知,数据x1,x2,…,x9的方差s2=2,那么数据2x1,2x2,…,2x9的方差为22s2=8.2.某射击运动员7次的训练成绩分别为86,88,90,89,88,87,85,则这7次成绩的第80百分位数()A.88.5B.89C.91D.89.5答案:B解析:7次的训练成绩从小到大排列为85,86,87,88,88,89,90,7×80%=5.6,所以第80百分位数为从小到大排列的数据中的第6个数据,即89.3.一组数据的平均数是28,方差是4,若将这组数据的每一个数据都加上20,得到一组新数据,则所得新数据的平均数是,方差是.答案:484解析:设该组数据为x1,x2,…,xn,则新数据为x1+20,x2+20,…,xn+20,记新数据的平均数为x',因为x=x1+x所以x'=x1+20+x2+20+…因为s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2]=4所以s'2=1n{[x1+20-(x+20)]2+[x2+20-(x+20)]2+…+[xn+20-(x+20)]2}=s2=4.某校体育节10名旗手的身高(单位:cm)分别为175,178,176,180,179,175,176,179,180,179,则中位数为.答案:178.5解析:把10名旗手的身高从小到大排列为175,175,176,176,178,179,179,179,180,180,则178+1792=178.5,所以所求中位数为考点一频率分布直方图[例1]随着新课程改革和高考综合改革的实施,高中教学以发展学生学科核心素养为导向,学习评价更关注学科核心素养的形成和发展.为此,某市于2022年举行第一届高中数学学科素养竞赛,竞赛结束后,为了评估该市高中学生的数学学科素养,从所有参赛学生中随机抽取1000名学生的成绩(单位:分)作为样本进行估计,将抽取的成绩整理后分成五组,依次记为[50,60),[60,70),[70,80),[80,90),[90,100],并绘制成如图所示的频率分布直方图.(1)请补全频率分布直方图,并估计这1000名学生成绩的平均数(同一组数据用该组区间的中点值作代表);(2)该市决定对本次竞赛成绩排在前180名的学生给予表彰,授予“数学学科素养优秀标兵”称号,一名学生本次竞赛成绩为79分,请你判断该学生能否被授予“数学学科素养优秀标兵”称号.[解](1)成绩在[60,70)的频率为1-(0.30+0.15+0.10+0.05)=0.40,补全的频率分布直方图如图.样本的平均数x=55×0.30+65×0.40+75×0.15+85×0.10+95×0.05=67.(2)因为1801000所以由频率分布直方图可以估计获得“数学学科素养优秀标兵”称号学生的最低成绩为80-0.18-0.05因为79>78,所以该学生能被授予“数学学科素养优秀标兵”称号.学生用书⬇第250页❙1((2(((边中点的横坐标之和.1.(2024·深圳模拟)某市卫健委为了解社区服务志愿者的服务时长(单位:小时),对参加过社区服务的志愿者随机抽样调查,将样本中个体的服务时长进行整理,得到如图所示的频率分布直方图.据此估计,7.2万名参加过社区服务的志愿者中服务时长超过32小时的约有()A.3.3万人B.3.4万人C.3.8万人D.3.9万人答案:A解析:依题意样本中服务时长超过32小时的个体频率为1-4×(0.005+0.04+0.09)=0.46.由样本估计总体,可得总体中服务时长超过32小时的个体数为7.2×0.46=3.312≈3.3(万人).考点二总体百分位数的估计◉角度(一)离散型[例2]抽查30袋洗衣粉,测量它们的净重如下(单位:g)482485485508508509497497498499500485486488490501502505490491492493495495495496500506508509估计第25,75百分位数分别是,.[答案]490502[解析]把30个数据从小到大排列为482485485485486488490490491492493495495495496497497498499500500501502505506508508508509509由25%×30=7.5,75%×30=22.5,可知样本数据的第25,75百分位数分别为第8,23项数据,所以估计30袋洗衣粉第25,75百分位数分别为490,502.❙设一组数据按照从小到大排列后为i◉角度(二)连续型[例3]为了解学生在课外读物方面的支出情况,抽取了100个同学进行调查,结果显示这些同学的支出都在[10,50](单位:元),其中支出在[30,50](单位:元)的同学有67人,其频率分布直方图如图所示,估计学生课外读物支出的样本数据的第65百分位数.[解]由频率分布直方图可得支出在[40,50]的频率为1-(0.01+0.023+0.037)×10=0.3,又支出在[30,50](单位:元)的同学有67人,支出在[30,40)的频率为0.37,因此,支出在[40,50]的同学共有67×0.30.37+0.所以第65百分位数应位于[30,40)内,因为课外读物支出在[10,40)的占70%,所以30+10×0.65-0.33❙频率分布直方图中的百分位数,根据频率计算.学生用书⬇第251页2.(2024·江苏南通模拟)“双减”政策实施后,学生的课外阅读增多.某班50名学生到图书馆借书数量统计如下:借书数量(单位:本)5678910频数(单位:人)58131194则这50名学生的借书数量的第75百分位数是()A.8B.8.5C.9D.10答案:C解析:由50×75%=37.5,故第75百分位数在借书数量从小到大排序后的第38人,又5+8+13+11=37<38<5+8+13+11+9=46,故第75百分位数是9.3.某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用比例分配的分层随机抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:20,30,30,40(1)根据频率分布直方图估计分数的样本数据的第70百分位数;(2)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中女生的人数.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4,小于80的频率为0.8,70+0.30所以其分数的样本数据的第70百分位数估计值为77.5.(2)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30所以样本中的男生人数为30×2=60,女生人数为100-60=40,估计总体中女生人数为400×40100=考点三样本的数字特征[例4](2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和(1)求x,y,s12,(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y-x≥2s12[解](1)由表格中的数据易得:x=-0.2+0.3+0+0y=0.1+0.4+0.s12=110×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]s22=110×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2(2)由(1)中数据可得y-x=10.3-10.0=0.3,而2s12+s2210=25(s1❙利用样本的数字特征解决优化决策问题平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.学生用书⬇第252页4.(多选)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则()A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同答案:CD解析:A项,设x=1n∑i=1nxi,则y=1n∑i=1nyi=1n∑i=1n(xi+c)=1所以x≠y,所以A选项错误.B项,因为yi=xi+c(i=1,2,…,n),所以y1,y2,…,yn的中位数是x1,x2,…,xn的中位数加c,所以B选项错误.C项,设s12=1n∑i=1n(xi-x)2,s22=所以s22=1n∑i=1n(xi+c-x-c)2=1n所以s12=所以两组数据的方差相同,从而这两组数据的标准差相同,所以C选项正确.D项,设x1<x2<…<xn,则第一组数据的极差为xn-x1,设y1<y2<…<yn,则第二组数据的极差为yn-y1=(xn+c)-(x1+c)=xn-x1,所以这两组数据的极差相同,所以D选项正确.其他常见统计图表◉角度(一)扇形图[例1](多选)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼状图:则下面结论中正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半[答案]BCD[解析]设新农村建设前经济收入为a,则新农村建设后种植收入37%×2a=0.74a,新农村建设前种植收入为60%×a=0.6a<0.74a,种植收入增加,A错误;其他收入建设后为5%×2a=0.1a,建设前为4%×a=0.04a,增加了一倍以上,B正确;养殖收入建设前为0.3a,建设后为0.3×2a=0.6a,养殖收入增加了一倍,C正确;新农村建设后,养殖收入与第三产业收入的总和占总收入的比例为30%+28%=58%>0.5,超过经济收入的一半,D正确.❙通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系,明确各部分数量占总数的比例.◉角度(二)折线图[例2](多选)机器人是一种能够半自主或全自主工作的智能机器,它具有感知、决策、执行等基本特征,可以辅助甚至替代人类完成危险、繁重、复杂的工作,提高工作效率与质量,服务人类生活,扩大或延伸人的活动及能力范围.为了研究A,B两专卖店的机器人销售状况,统计了2023年2月至7月A,B两店每月的营业额(单位:万元),得到如图的折线图,则下列说法正确的是()A.根据A店的营业额折线图可知,该店营业额的平均值在[34,35]内B.根据B店的营业额折线图可知,其营业额总体呈上升趋势C.根据A,B两店营业额的折线图,可得A店的营业额极差比B店大D.根据A,B两店营业额的折线图,可得B店7月份的营业额比A店多[答案]ABD[解析]根据A店的营业额折线图可知,该店营业额的平均值为14+20+26+45+64+366≈34.17,故A正确;由B店的营业额折线图可知B正确;A店营业额的极差为64-14=50,B店营业额的极差为63-2=61,故A店营业额的极差比B店小,故C错误;由折线图可知,D正确❙折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.◉角度(三)条形图[例3](多选)某调查机构对某地快递行业从业者进行调查统计,得到快递行业从业人员年龄分布饼状图(图1)、“90后”从事快递行业岗位分布条形图(图2),则下列结论中正确的是()A.快递行业从业人员中,“90后”占一半以上B.快递行业从业人员中,从事技术岗位的“90后”的人数超过总人数的20%C.快递行业从业人员中,从事运营岗位的“90后”的人数比“80前”的多D.快递行业从业人员中,从事技术岗位的“90后”的人数比“80后”的多[答案]ABC[解析]由题图可知,快递行业从业人员中,“90后”占总人数的56%,超过一半,A正确;快递行业从业人员中,从事技术岗位的“90后”的人数占总人数的百分比为56%×39.6%=22.176%,超过20%,所以快递行业从业人员中,从事技术岗位的“90”后的人数超过总人数的20%,B正确;快递行业从业人员中,从事运营岗位的“90后”的人数占总人数的百分比为56%×17%=9.52%,超过“80前”的人数占总人数的百分比,C正确;快递行业从业人员中,从事技术岗位的“90后”的人数占总人数的百分比为22.176%,小于“80后”的人数占总人数的百分比,但“80后”从事技术岗位的人数占“80后”人数的比未知,D不一定正确.学生用书⬇第253页❙条形图中注意条形图的“高度”代表的意义是占“百分比”还是具体量.1.已知某市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层随机抽样的方法抽取30%的户主进行调查,则样本量和抽取的户主对四居室满意的人数分别为()A.240,18B.200,20C.240,20D.200,18答案:A解析:样本量n=(250+150+400)×30%=240,抽取的户主对四居室满意的人数为150×30%×40%=18.2.某网站为了了解某“跑团”每月跑步的平均里程,收集并整理了2023年1月至2023年11月期间该“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是()A.月跑步平均里程的中位数为6月份对应的里程数B.月跑步平均里程逐月增加C.月跑步平均里程高峰期大致在8,9月份D.1月至5月的月跑步平均里程相对于6月至11月波动性更小,变化比较平稳答案:D解析:由折线图可知月跑步平均里程比6月份高的只有9,10,11,共3个月,比6月份低的有1,2,3,4,5,7,8,共7个月,故6月份对应里程数不是中位数,因此A不正确;月跑步平均里程在1月到2月,6月到7月,7月到8月,10月到11月都是减少的,故不是逐月增加,因此B不正确;月跑步平均里程高峰期大致在9,10,11三个月,8月份是相对较低的,因此C不正确;从折线图来看,1月至5月的跑步平均里程相对于6月至11月,波动性更小,变化比较平稳,因此D正确.3.(2024·四川成都模拟)如图是某超市一年中各月份的收入与支出(单位:万元)情况的条形统计图.已知利润为收入与支出的差,即利润=收入-支出.则下列说法正确的是()A.利润最高的月份是2月份,且2月份的利润为40万元B.利润最低的月份是5月份,且5月份的利润为10万元C.收入最少的月份的利润也最少D.收入最少的月份的支出也最少答案:D解析:在A中,利润最高的月份是3月份和10月份,且2月份的利润为40-30=10万元,故A错误;在B中,利润最低的月份是8月份,且8月份的利润为5万元,故B错误;在C中,收入最少的月份是5月份,但5月份的支出也最少,故5月份的利润不是最少,故C错误,D正确.学生用书⬇第439页[A组基础保分练]1.10名工人某天生产同一种零件,生产的件数分别是15,17,14,10,15,19,17,16,14,12,那么数据的第80百分位数是()A.14B.15C.16D.17答案:D解析:将10名工人某天生产同一种零件个数从小到大排列为10,12,14,14,15,15,16,17,17,19.因为80%×10=8,所以样本数据的第80百分位数为第8项和第9项数据的平均数,即17.2.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A.45B.50C.55D.60答案:B解析:由频率分布直方图知,低于60分的频率为(0.010+0.005)×20=0.3,∴该班学生人数n=150.3.(2024·山东济南模拟)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x,方差为s2,则()A.x=4,s2<2B.x=4,s2>2C.x>4,s2<2D.x>4,s2>2答案:A解析:设原来的7个数分别是x1,x2,…,x7,加入一个新数据4之后的平均数为7×4+48=4,则这8个数的方差s2=(x1-4)2+(x2-4.已知一组数据按从小到大排列为0,4,5,x,8,10,12,15,且这组数据的中位数是7,则下列选项中错误的是()A.x=6B.该数据的平均数为7.5C.该数据的第25百分位数是4.5D.该数据的第25百分位数是6答案:D解析:因为中位数为7,所以x+82=7,即x=所以该组数据的平均数为18(0+4+5+6+8+10+12+15)=因为该组数据有8个数,所以8×25%=2,所以数据的第25百分位数是x2+x35.“幸福感指数”是指某个人主观地评价他对自己目前生活状态的满意程度的指标,常用区间[0,10]内的一个数来表示,该数越接近10表示满意度越高.现随机抽取10位某市居民进行街头调查,得到他们的幸福感指数为3,4,5,5,6,7,7,8,9,10,则这组数据的第80百分位数是()A.7.5B.8C.8.5D.9答案:C解析:数据3,4,5,5,6,7,7,8,9,10,共10个,且10×80%=8,所以第80百分位数是8.5.6.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图,则下列结论错误的是()A.得分在[40,60)之间的共有40人B.从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C.估计得分的众数为55D.这100名参赛者得分的中位数为65答案:D解析:根据频率和为1,计算(a+0.035+0.030+0.020+0.010)×10=1,解得a=0.005,得分在[40,60)的频率是0.40,估计得分在[40,60)的有100×0.40=40人,A正确;得分在[60,80)的频率为0.5,可得这100名参赛者中随机选取一人,得分在[60,80)的概率为0.5,B正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C正确7.(多选)某高中为了解学生课外知识的积累情况,随机抽取200名同学参加课外知识测试,测试共5道题,每答对一题得20分,答错得0分.已知每名同学至少能答对2道题,得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则下列说法错误的是()A.该次课外知识测试及格率为90%B.该次课外知识测试得满分的同学有30名C.该次测试成绩的中位数大于测试成绩的平均数D.若该校共有3000名学生,则课外知识测试成绩能得优秀的同学大约有1440名答案:ABD解析:由图知,及格率为1-8%=92%,故A错误;该测试得满分的同学百分比为1-8%-32%-48%=12%,即样本中有12%×200=24(名)同学得满分,但总体学生数未知,故B错误;由图知,中位数为80分,平均数为40×8%+60×32%+80×48%+100×12%=72.8(分),故C正确;由题意,3000名学生成绩能得优秀的同学大约有3000×(48%+12%)=1800(名),故D错误.8.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了一个样本量为n的样本,其频率分布直方图如图所示,其中支出在[50,60)元的学生有60人,则下列说法正确的是()A.样本中支出在[50,60)元的频率为0.03B.样本中支出不少于40元的人数为132C.n的值为200D.若该校有2000名学生,则一定有600人的支出在[50,60)元答案:BC解析:在A中,样本中支出在[50,60)元的频率为1-(0.010+0.024+0.036)×10=0.3,故A错误;在C中,n=600.03×10=200,故n在B中,样本中支出不少于40元的人数为200×(0.030+0.036)×10=132,故B正确;在D中,若该校有2000名学生,则可能有600人的支出在[50,60)元,故D错误.学生用书⬇第440页9.小玲家的鱼塘里养了2500条鲢鱼,按经验,鲢鱼的成活率约为80%.现准备打捞出售,为了估计鱼塘中鲢鱼的总质量,从鱼塘中捕捞了3次进行统计,得到的数据如下表:鱼的条数平均每条鱼的质量/kg第一次捕捞201.6第二次捕捞102.2第三次捕捞101.8那么,鱼塘中鲢鱼的总质量约是kg.答案:3600解析:1.6×12+210.(2024·江苏镇江模拟)数据:1,2,2,3,4,5,6,6,7,8,其中位数为m,第60百分位数为a,则m+a=.答案:10解析:中位数m=4+52=4.5,因为10×60%=6,所以第60百分位数a=5+62=5.5,所以m+a11.在一个容量为5的样本中,数据均为整数,已测出其平均数为10,但墨水污损了两个数据,其中一个数据的十位数字1未被污损,即9,10,11,1■,■,那么这组数据的方差s2可能的最大值是.答案:32.8解析:设这组数据的最后两个分别是10+x,y,则9+10+11+(10+x)+y=50,得x+y=10,故y=10-x,故s2=1+0+1+x2+(−x)25=25+25x212.现有某地一年四个季度的GDP(亿元),第一季度GDP为232(亿元),第四季度GDP为241(亿元),四个季度的GDP逐季度增长,且中位数与平均数相同,则该地一年的GDP为.答案:946(亿元)解析:设第二季度GDP为x亿元,第三季度GDP为y亿元,则232<x<y<241,∵中位数与平均数相同,∴x+y2∴x+y=473,∴该地一年的GDP为232+x+y+241=946(亿元).[B组能力提升练]13.(多选)某公司为了解用户对其产品的满意度,从甲、乙两地区分别随机调查了100个用户,根据用户对产品的满意度评分,分别得到甲地区和乙地区用户满意度评分的频率分布直方图,如图所示.若甲地区和乙地区用户满意度评分的中位数分别为m1,m2,平均数分别为s1,s2,则下面正确的是()A.m1>m2B.m1<m2C.s1<s2D.s1>s2答案:BC解析:由题中频率分布直方图得,甲地区[40,60)的频率为(0.015+0.020)×10=0.35,[60,70)的频率为0.025×10=0.25,所以甲地区用户满意度评分的中位数m1=60+0.5-0.350.25×10=66,甲地区的平均数s1=45×0.015×10+55×0.020×10+65×0.025×10+75×0.020×10+85×0.010×10+95×0.010×10=67.乙地区[50,70)的频率为(0.005+0.020)×10=0.25,[70,80)的频率为0.035×10=0.35,所以乙地区用户满意度评分的中位数m2=70+0.5-0.250.35×10≈77.1,乙地区的平均数s2=55×0.005×10+65×0.020×10+75×0.035×10+85×0.025×10+95×14.(多选)甲、乙两家企业2023年1至10月份的月收入情况如图所示,下列说法中正确的是()A.甲企业的月收入比乙企业的月收入高B.甲、乙两家企业月收入相差最多的是7月份C.甲、乙两家企业月收入差距的平均值为350万元D.10月份与6月份相比,甲企业的月收入增长率比乙企业的月收入增长率低答案:ABD解析:A项,由图可知,甲企业的月收入比乙企业的月收入高,所以该选项正确;B项,由图可知,甲、乙两家企业的月收入差距如表所示,月份12345678910差距/万元200300200100300300600400300300则甲、乙两家企业月收入相差最多的是7月份,为600万元,故该选项正确;C项,由上表可知,甲、乙两家企业月收入差距的平均值为110×(200+300+200+100+300+300+600+400+300+300)=300(万元),故该选项不正确;D项,10月份与6月份相比,甲企业与乙企业的月收入都增加了200万元,但甲企业6月份的收入为600万元,乙企业6月份的收入为300万元,所以甲企业月收入的增长率比乙企业月收入的增长率低,故该选项正确15.将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.A,B,C三层的样本的平均数分别为15,30,20,则样本的平均数为.答案:20.5解析:由题意可知样本的平均数为w=55+3+2×15+35+3+2×30+25+3+2×16.若等差数列{xn}的公差为3,则x1,x2,x3,…,x9的方差为.答案:60解析:由等差数列{xn}的公差为3,可知x=x1+x2+…+x所以方差s2=19[(x1-x5)2+(x2-x5)2+…+(x9-x5)2]=19(16d2+9d2+4d2+d2)×2=203d2=20317.一个高中研究性学习小组对本地区2021年至2023年快餐公司发展情况进行了调查,制成该地区快餐公司个数的函数情况的条形图和快餐公司盒饭年销售量的平均数情况条形图(如图所示).据图中提供的信息,可以得出这三年中该地区每年平均销售盒饭万盒.答案:92.5解析:由题意和题图知,三年内共销售盒饭为30×1+45×1.5+90×2=277.5(万盒),则平均数为277.5÷3=92.5(万盒).学生用书⬇第254页第三节成对数据的统计分析[学习要求]1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据的关系.2.结合实例,会通过相关系数比较多组成对数据的相关性.[知识梳理]知识点一变量的相关关系1.变量的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.散点图一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示.序号i123…n变量xx1x2x3…xn变量yy1y2y3…yn则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.3.正相关、负相关的概念如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.正相关:如果一个变量增大,另一个变量大体上也增大,则称这两个变量正相关.如图(1).负相关:如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.如图(2).知识点二样本相关系数1.r=∑=∑i=1nxiyi-2.样本相关系数的性质(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.(3)|r|=1的充要条件是成对数据构成的点都在回归线上.知识点三一元线性回归模型1.一元线性回归模型x与Y的关系可以表示为Y=我们称上式为Y关于x的一元线性回归模型.Y称为因变量或响应变量,x称为自变量或解释变量,a和b为模型的未知参数,a称为截距参数,b称为斜率参数,e是Y与bx+a之间的随机误差.2.一元线性回归模型参数的最小二乘估计(1)经验回归方程我们将y=bx+a,其中b称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计.学生用书⬇第255页(2)残差分析对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(3)利用R2刻画回归效果R2的计算公式为R2=1-∑i=1n(yi-yi)2∑i=1n(y[小题诊断]1.在对两个变量x,y进行回归分析时有下列步骤:①对所求出的回归直线方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求回归直线方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是()A.①②④③B.③②④①C.②③①④D.②④③①答案:D解析:根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归直线方程,最后对所求的回归直线方程作出解释.2.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.模型1的相关系数r为0.98B.模型2的相关系数r为0.80C.模型3的相关系数r为0.50D.模型4的相关系数r为0.25答案:A3.(2024·重庆模拟)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答案:A解析:由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.4.(2024·广东广州模拟)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表所示的对应数据:x24568y2040607080根据表中数据,利用最小二乘法求得y关于x的经验回归方程为y=bx+1.5,根据预测,当投入10万元时,销售额的估计值为万元.答案:106.5解析:x=15×(2+4+5+6+8)=5,y=15×(20+40+60+70+80)=∴样本中心为(5,54),将其代入经验回归方程y=bx+1.5中,有54=5b+1.5,解得b=10.5,所以经验回归方程为y=10.5x+1.5,当x=10时,y=10.5×10+1.5=106.5.考点一成对数据的相关性[例1]两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③B.②③①C.②①③D.①③②[答案]D[解析]第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.[例2]某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:x1234y12284256(1)在图中画出表中数据的散点图;(2)根据(1)中的散点图判断y与x的回归模型的类型,并用相关系数加以说明.附:∑i=14(yi-y)2≈32.7,5≈2.24,∑i=14xiyi=418.相关系数r=∑i=1n(xi-[解](1)作出的散点图如图:(2)由(1)散点图可知,各点大致分布在一条直线附近,故可用一元线性回归模型拟合y与x的关系.又x=52,y=692,∑i=14xi2=30,∑i=14(xi-x)(yi-y)=∑i=14xiyi-4∑i=14(xi-x)∴r=∑i=14(∵y与x的相关系数近似为0.9966,说明y与x的线性相关程度相当强,∴可以用一元线性回归模型拟合y与x的关系.学生用书⬇第256页❙利用散点图看点的分布可判断关系强弱,或用1.(多选)有一散点图如图所示,在5组(x,y)数据中去掉D(3,10)后,下列说法正确的是()A.经验回归方程不变B.样本相关系数r变大C.各组数据对应的点到经验回归直线的距离的平方和变小D.变量x与变量y的相关程度变强答案:BCD解析:根据D点在散点图中的位置可知,D比较偏离经验回归直线,故去掉D(3,10)后,数据比原来集中,相关程度变强,经验回归方程有所改变,A错误,B,C,D都正确.2.(2024·河北沧州模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=12x+1A.-1B.0C.12答案:D解析:因为所有点都在直线上,所以它就是确定的函数关系,故其相关系数为1.考点二经验回归方程的概念[例3](2024·河南郑州模拟)设(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相同)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘估计得到的经验回归直线(如图),以下结论正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x,y)[答案]D[解析]根据样本相关系数和回归系数的计算公式可知A错误;由回归直线的趋势可知变量x,y负相关,故x和y的相关系数在-1到0之间,故B错误;C显然错误;经验回归直线一定过点(x,y),故D正确.❙结合具体实例,理解教材中的有关概念.3.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为y=0.85x-85.71,则下列结论中正确的是()A.y与x具有正的线性相关关系B.经验回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg答案:ABC解析:b为正数,所以两变量具有正的线性相关关系,故A正确;B,C显然正确;若该大学某女生身高为170cm,则由经验回归方程可预测其体重在58.79kg左右.学生用书⬇第257页考点三非线性回归模型[例4]近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县主要产业之一.已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y=a+bx或y=c+dx建立y关于x的经验回归方程,令s=x,t=1xyst10.15109.943.040.16∑i=113si13s·y∑i=113ti13t·y∑i13s∑i13t∑i13y13.94-2.111.670.2121.22且(si,yi)与(ti,yi)(i=1,2,3,…,13)的相关系数分别为r1,r2,且r2=-0.9953.(1)用相关系数说明哪种模型建立y与x的回归方程更合适.(2)根据(1)的结果及表中数据,建立y关于x的回归方程.(3)已知蕲艾的利润z与x,y的关系为z=20y-12x,当x为何值时,z附:参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374,247.6374≈15.7365,对于一组数据(ui,vi)(i=1,2,3,…,n),其回归直线方程v=α+βu的斜率和截距的最小二乘估计公式分别为β=∑i=1n相关系数r=∑i[解](1)由题意知r2=-0.9953,r1=13.9411.67×21.22=13.94247.6374≈13.9415.7365(2)因为t=1x,所以y=c+dt因为d=∑i=113tic=y-dt=109.94+10×0.16=111.54所以y关于x的回归方程为y=111.54-10x(3)由题意知z=20y-12x=20×111.54-10x-12x=2230.8-200x+12x≤2230.8-所以当x=20时这种草药的利润最大.❙利用相关系数来定量地衡量两个变量之间的线性相关关系当||4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到如图所示的散点图及一些统计量的值.xyw∑(xi-x)2∑(wi-w)2∑(xi-x)·(yi-y)∑i=18(wi-(yi-y)46.65636.8289.81.61469108.8表中wi=xi,w=18∑(1)根据散点图判断y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:β=∑i=1n(ui-解:(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程,由于d=∑i=18(wc=y-dw=563-68×6.8=100.6所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y=100.6+6849=576.6,年利润z的预报值z=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z=0.2×(100.6+68x)-x=-x+13.6x+20.12,所以当x=13.62=6.8,即xz取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.学生用书⬇第441页[A组基础保分练]1.下列有关线性回归的说法,不正确的是()A.具有相关关系的两个变量不是因果关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.任一组数据都有线性回归方程答案:D解析:根据两个变量具有相关关系的概念,可知A正确;散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以B、C正确;具有线性相关关系的样本数据才有线性回归方程,所以D不正确.2.在线性回归模型中,变量x与y的一组样本数据对应的点均在直线y=12x+1上,R2=1-∑i=1nA.14B.C.1D.5答案:C3.某医院医疗小组在一项试验中获得一组关于症状指数y与时间t之间的数据,将其整理得到如图所示的散点图,以下回归模型最能拟合y与t之间关系的是()A.y=kt2B.y=log2tC.y=t3D.y=(2)t答案:B解析:由题图可知,散点几乎落在一条曲线周围,图象单调递增且增长的速度越来越缓慢,结合选项中的函数的图象,函数y=kt2,y=t3和y=(2)t的图象单调递增,但是增长速度越来越快,故排除,而函数y=log2t的图象单调递增且增长速度越来越缓慢,所以选项B符合题意,最能拟合y与t之间的关系.4.(多选)(2024·江苏苏州模拟)已知变量x,y的5对样本数据为A1(1,1),A2(2,3),A3(2.5,3.5),A4(3,4),A5(4,6),用最小二乘法得到线性回归方程l1:y=1.6x+a,过点A2,A3的直线方程为l2:y=mx+n,则()A.变量y和x之间具有正相关关系B.a>nC.样本数据A2(2,3)的残差为-0.3D.∑i=15(yi-1.6xi-a)2≤∑i=15(yi-答案:AD解析:对于A项,根据线性回归方程,可知变量y和x之间具有正相关关系,故A项正确;对于B项,由已知可得,x=1+2+2.5+3+45=2.5,y=1+3+3.5+4+65=3.5,根据线性回归方程,可知3.5=1.6×2.5根据已知,可求出kA2A3=3.5-32.5-2=1,则直线A2A3方程为y-3=x-2,整理可得y对于C项,由B知,经验回归方程为y=1.6x-0.5,样本数据A2(2,3)的预测值为1.6×2-0.5=2.7,所以样本数据A2(2,3)的残差为3-2.7=0.3,故C项错误;对于D项,根据最小二乘法的意义,可知∑i=15(yi-1.6xi-a)2≤∑i=15(yi-mxi-n5.已知变量y与x的一组数据如表所示,根据数据得到y关于x的回归方程为y=ebx-1.x1234ye2e3e5e6若y=e13,则x等于()A.6B.7C.8D.9答案:B解析:由y=ebx-1,得lny=bx-1,令z=lny,则z=bx-1,由题意知,x=1+2+3+44=2.5,z=2+3+5+64=因为(x,z)满足z=bx-1,所以4=b×2.5-1,解得b=2,所以z=2x-1,所以y=e2x-1,令e2x-1=e13,解得x=7.6.(多选)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线统计图如图所示.已知这10名志愿者身高的平均值为176cm,根据这10名志愿者的数据求得臂展u关于身高v的线性回归方程为u=1.2v-34,则下列结论正确的是()A.这10名志愿者身高的极差小于臂展的极差B.这10名志愿者的身高和臂展呈负相关C.这10名志愿者臂展的平均值为176.2cmD.根据线性回归方程可估计身高为160cm的人的臂展为158cm答案:AD解析:对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A正确;对于选项B,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B错误;对于选项C,因为这10名志愿者身高的平均值为176cm,所以这10名志愿者臂展的平均值为1.2×176-34=177.2(cm),故C错误;对于选项D,若一个人的身高为160cm,则由线性回归方程u=1.2v-34,可得这个人的臂展的估计值为158cm,故D正确.7.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:广告费用x(万元)2356销售额y(万元)28314148根据此表可得回归直线方程为y=5x+a,据此模型预测广告费用为8万元时销售额为万元.答案:57解析:由表格,得x=2+3+5+64=4,y=28+31+41+484=所以37=5×4+a,即a=17,所以预测当广告费用为8万元时,销售额为5×8+17=57(万元).8.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-13附近波动.经计算∑i=16xi=11,∑i=16yi=13,∑答案:5解析:令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-13,此时t=∑i=16xi26=72,y=∑i=16yi6=136,代入y=b9.(2024·江苏连云港模拟)为了研究高三(1)班女生的身高x(单位:cm)与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论