版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025数学步步高大一轮复习讲义人教A版第九章§9.2用样本估计总体§9.2用样本估计总体课标要求1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.2.能用数字特征估计总体集中趋势和总体离散程度.知识梳理1.百分位数一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.平均数、中位数和众数(1)平均数:eq\x\to(x)=eq\f(1,n)(x1+x2+…+xn).(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时).(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据).3.方差和标准差(1)方差:s2=eq\f(1,n)eq\i\su(i=1,n,)(xi-eq\x\to(x))2或eq\f(1,n)eq\i\su(i=1,n,x)eq\o\al(2,i)-eq\x\to(x)2.(2)标准差:s=eq\r(\f(1,n)\i\su(i=1,n,)xi-\x\to(x)2).4.总体方差和总体标准差(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为eq\x\to(Y),则总体方差S2=eq\f(1,N)eq\i\su(i=1,N,)(Yi-eq\x\to(Y))2.(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=eq\f(1,N)eq\i\su(i=1,k,f)i(Yi-eq\x\to(Y))2.常用结论1.若x1,x2,…,xn的平均数为eq\x\to(x),那么mx1+a,mx2+a,…,mxn+a的平均数为meq\x\to(x)+a.2.数据x1,x2,…,xn与数据x1′=x1+a,x2′=x2+a,…,xn′=xn+a的方差相等,即数据经过平移后方差不变.3.若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.自主诊断1.判断下列结论是否正确.(请在括号中打“√”或“×”)(1)对一组数据来说,平均数和中位数总是非常接近.(×)(2)方差与标准差具有相同的单位.(×)(3)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.(√)(4)在频率分布直方图中,可以用最高的小长方形底边中点的横坐标作为众数的估计值.(√)2.在下列统计量中,用来描述一组数据离散程度的量是()A.平均数 B.众数C.百分位数 D.标准差答案D解析标准差反映了数据分散程度的大小,所以说标准差是用来描述一组数据离散程度的统计量,故D正确.3.甲、乙、丙、丁四人参加射击项目选拔赛,成绩如下,则他们中参加奥运会的最佳人选是______.甲乙丙丁平均环数8.58.88.88方差3.53.52.18.7答案丙解析由平均数及方差的定义知,丙的平均成绩较高且较稳定,是最佳人选.4.有一组数据:-1,a,-2,3,4,2,它们的中位数是1,则这组数据的平均数是________.答案1解析数据-1,a,-2,3,4,2,已知除a以外的数据从小到大排序为-2,-1,2,3,4,要使得中位数为1,则a在第3位或第4位,即eq\f(2+a,2)=1,a=0,经检验符合题意,所以这组数据的平均数是eq\f(-2-1+0+2+3+4,6)=1.题型一样本的数字特征的估计例1(1)(多选)(2023·荆门联考)某单位为了解该单位党员开展学习党史知识活动情况,随机抽取了30名党员,对他们一周的党史学习时间进行了统计,统计数据如下.则下列对该单位党员一周学习党史时间的叙述,正确的有()党史学习时间(小时)7891011党员人数48765A.众数是8 B.第40百分位数为8C.平均数是9 D.中位数是9答案ACD解析由题意,随机抽取30名党员,由表可知,党史学习时间为8小时的人最多,为8人,故众数是8,故A正确;因为30×40%=12,第40百分位数为eq\f(8+9,2)=8.5,故B错误;平均数为eq\f(1,30)×(7×4+8×8+9×7+10×6+11×5)=9,故C正确;因为共有30名党员,故中位数为第15项和第16项的平均数,因为第15项和第16项均为9,故中位数为9,故D正确.(2)(多选)(2023·新高考全国Ⅰ)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则()A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差答案BD解析取x1=1,x2=x3=x4=x5=2,x6=9,则x2,x3,x4,x5的平均数等于2,标准差为0,x1,x2,…,x6的平均数等于3,标准差为eq\r(\f(22,3))=eq\f(\r(66),3),故A,C均不正确;根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相等,故B正确;根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.思维升华计算一组n个数据第p百分位数的步骤跟踪训练1(1)(多选)(2023·商丘模拟)在某次演讲比赛中,由两个评委小组(分别为专业人士“小组A”和观众代表“小组B”)给参赛选手打分,根据两个评委小组给同一名选手打分的分值绘制成如图所示的折线图,则下列结论正确的是()A.小组A打分的分值的平均数为48B.小组B打分的分值的中位数为66C.小组A打分的分值的极差大于小组B打分的分值的极差D.小组A打分的分值的方差小于小组B打分的分值的方差答案ABD解析由图可知,小组A打分的平均数为eq\f(1,9)×(43+47+46+48+50+47+54+50+47)=48,故A正确;将小组B打分从小到大排列为36,55,58,62,66,68,68,70,75,所以中位数为66,故B正确;小组A打分的分值的极差为54-43=11,小组B打分的分值的极差为75-36=39,故C错误;小组A打分的分值相对更集中,所以小组A打分的分值的方差小于小组B打分的分值的方差,故D正确.(2)某小组成员的年龄分布茎叶图如图所示,则该小组成员年龄的第25百分位数是________.答案32.5解析由茎叶图知数据从小到大排列为27,28,32,33,36,36,38,40,45,52,54,58,因为12×25%=3,所以第25百分位数是eq\f(32+33,2)=32.5.题型二总体集中趋势的估计例22024年,安徽、甘肃、广西、贵州、黑龙江、吉林、江西七省区作为第四批实施改革的省份进入新高考.2023年10月,进入新高考的七个省份相继公布了高考选考科目的试卷结构.某考试机构举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己的学习情况,作出升学规划,决定是否参加强基计划.在本次适应性考试中,某学校为了解高三学生的联考情况,随机抽取了100名学生的联考数学成绩作为样本,并按照分数段[50,70),[70,90),[90,110),[110,130),[130,150]分组,绘制了如图所示的频率分布直方图.(1)求出图中a的值并估计本次考试的及格率(“及格率”指得分为90分及以上的学生所占比例);(2)估计该校学生联考数学成绩的第80百分位数;(3)估计该校学生联考数学成绩的众数、平均数.解(1)由频率分布直方图的性质,可得(a+0.004+0.013+0.014+0.016)×20=1,解得a=0.003.所以及格率为(0.016+0.014+0.003)×20=0.66=66%.(2)得分在110以下的学生所占比例为(0.004+0.013+0.016)×20=0.66,得分在130以下的学生所占比例为0.66+0.014×20=0.94,所以第80百分位数位于[110,130)内,由110+20×eq\f(0.8-0.66,0.94-0.66)=120,估计第80百分位数为120.(3)由图可得,众数的估计值为100.平均数的估计值为0.08×60+0.26×80+0.32×100+0.28×120+0.06×140=99.6.思维升华频率分布直方图中的数字特征(1)众数:最高矩形的底边中点的横坐标.(2)中位数:中位数左边和右边的矩形的面积和应该相等.(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.跟踪训练2某市共有居民60万人,为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求a的值,并估计该市居民月均用水量不少于3吨的人数;(2)估计该市居民月均用水量的众数和中位数.解(1)由频率分布直方图,可知(0.04+0.08×2+0.12+0.16+2a+0.42+0.50)×0.5=1,解得a=0.3;月均用水量不少于3吨的人数为(0.12+0.08+0.04)×0.5×60×104=72000.(2)由图可估计众数为2.25;设中位数为x,因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2<x<2.5,由0.50(x-2)=0.5-0.48,可得x=2.04,故居民月均用水量的中位数为2.04.题型三总体离散程度的估计例3(2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10).试验结果如下:试验序号i12345678910伸缩率xi545533551522575544541568596548伸缩率yi536527543530560533522550576536记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为eq\x\to(z),样本方差为s2.(1)求eq\x\to(z),s2;(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果eq\x\to(z)≥2eq\r(\f(s2,10)),则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).解(1)由题意得zi=xi-yi的值分别为9,6,8,-8,15,11,19,18,20,12,则eq\x\to(z)=eq\f(1,10)×(9+6+8-8+15+11+19+18+20+12)=11,s2=eq\f(1,10)×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+0+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.(2)由(1)知,eq\x\to(z)=11,2eq\r(\f(s2,10))=2eq\r(6.1)=eq\r(24.4),故有eq\x\to(z)≥2eq\r(\f(s2,10)),所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.思维升华总体离散程度的估计标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.跟踪训练3(2024·江门模拟)某果园试种了A,B两个品种的桃树各10棵,并在桃树成熟挂果后统计了这20棵桃树的产量如下表,记A,B两个品种各10棵产量的平均数分别为eq\x\to(x)和eq\x\to(y),方差分别为seq\o\al(2,1)和seq\o\al(2,2).A(单位/kg)60504060708070305090B(单位/kg)40605080805060208070(1)分别求这两个品种产量的极差和中位数;(2)求eq\x\to(x),eq\x\to(y),seq\o\al(2,1),seq\o\al(2,2);(3)果园要大面积种植这两种桃树中的一种,依据以上计算结果分析选种哪个品种更合适,并说明理由.解(1)这10棵A品种桃树的产量从小到大分别为30,40,50,50,60,60,70,70,80,90,这10棵A品种桃树产量的极差为90-30=60,中位数为eq\f(60+60,2)=60,这10棵B品种桃树产量从小到大分别为20,40,50,50,60,60,70,80,80,80,这10棵B品种桃树产量的极差为80-20=60,中位数为eq\f(60+60,2)=60.(2)eq\x\to(x)=eq\f(1,10)×(30+40+50+50+60+60+70+70+80+90)=60,eq\x\to(y)=eq\f(1,10)×(20+40+50+50+60+60+70+80+80+80)=59,seq\o\al(2,1)=eq\f(1,10)×[(30-60)2+(40-60)2+(50-60)2+(50-60)2+(60-60)2+(60-60)2+(70-60)2+(70-60)2+(80-60)2+(90-60)2]=300,seq\o\al(2,2)=eq\f(1,10)×[(20-59)2+(40-59)2+(50-59)2+(50-59)2+(60-59)2+(60-59)2+(70-59)2+(80-59)2+(80-59)2+(80-59)2]=349.(3)由(1)可知这两个品种极差和中位数都相等,由(2)可知eq\x\to(x)>eq\x\to(y),seq\o\al(2,1)<seq\o\al(2,2),则A品种桃树平均产量高,波动小,所以应该选种A品种桃树.课时精练一、单项选择题1.某鞋店试销一种新款女鞋,销售情况如表:鞋号3435363738394041日销量/双259169532如果你是鞋店经理,那么下列统计量中对你来说最重要的是()A.平均数 B.众数C.中位数 D.极差答案B解析鞋店经理最关心的是哪个鞋号的鞋销量最大,由表可知,鞋号为37的鞋销量最大,共销售了16双,所以这组数据最重要的是众数.2.(2023·唐山模拟)某校高三年级一共有1200名同学参加数学测验,已知所有学生成绩的第80百分位数是103分,则数学成绩不小于103分的人数至少为()A.220B.240C.250D.300答案B解析由1200×80%=960(人),所以小于103分的学生最多有960人,所以大于或等于103分的学生有1200-960=240(人).3.(2024·南通模拟)为宣传我国第三艘航空母舰“中国人民解放军海军福建舰”正式服役,增强学生的国防意识,某校组织1000名学生参加了“逐梦深蓝,山河荣耀”国防知识竞赛,从中随机抽取20名学生的考试成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是()A.频率分布直方图中a的值为0.004B.估计这20名学生考试成绩的第60百分位数为75C.估计这20名学生数学考试成绩的众数为80D.估计总体中成绩落在[60,70)内的学生人数为150答案D解析由频率分布直方图可得10×(2a+3a+7a+6a+2a)=1,解得a=0.005,故A错误;前三个矩形面积为(2a+3a+7a)×10=0.6,即第60百分位数为80,故B错误;估计这二十人的众数为eq\f(70+80,2)=75,故C错误;总体中成绩落在[60,70)内的学生人数为3a×10×1000=150,故D正确.4.(2023·长沙模拟)为调查某地区中学生每天睡眠时间,采用按比例分配的分层随机抽样的方法,现抽取初中生800人,其每天睡眠时间的平均数为9小时,方差为1,抽取高中生1200人,其每天睡眠时间的平均数为8小时,方差为0.5,则估计该地区中学生每天睡眠时间的方差为()A.0.94B.0.96C.0.75D.0.78答案A解析该地区中学生每天睡眠时间的平均数为eq\f(800,1200+800)×9+eq\f(1200,1200+800)×8=8.4(小时),该地区中学生每天睡眠时间的方差为eq\f(800,1200+800)×[1+(9-8.4)2]+eq\f(1200,1200+800)×[0.5+(8-8.4)2]=0.94.5.(2023·南昌模拟)在统计中,月度同比是指本月和上一年同月相比较的增长率,月度环比是指本月和上一个月相比较的增长率,如图是2022年1月至2022年12月我国居民消费价格月度涨跌幅度统计图,则以下说法错误的是()A.在这12个月中,我国居民消费价格月度同比数据的中位数为2.1%B.在这12个月中,月度环比数据为正数的个数比月度环比数据为负数的个数多3C.在这12个月中,我国居民消费价格月度同比数据的平均数为1.85%D.在这12个月中,我国居民消费价格月度环比数据的众数为0.0%答案C解析在这12个月中,我国居民消费价格月度同比数据由小到大依次为0.9%,0.9%,1.5%,1.6%,1.8%,2.1%,2.1%,2.1%,2.5%,2.5%,2.7%,2.8%,中位数为eq\f(2.1%+2.1%,2)=2.1%,平均数为eq\f(1,12)×(0.9%+0.9%+1.5%+1.6%+1.8%+2.1%+2.1%+2.1%+2.5%+2.5%+2.7%+2.8%)≈1.958%,由数据可知我国居民消费价格月度环比的数据中,有6个月的数据为正数,3个月的数据为0.0%,3个月的数据为负数,所以月度环比数据为正数的个数比月度环比数据为负数的个数多3,且0.0%出现次数最多,故众数为0.0%,故A,B,D正确,C错误.6.四名同学各掷骰子5次,分别记录每次骰子向上的点数,根据四名同学的统计结果,可以判断一定没有出现点数6的是()A.平均数为2,方差为2.4B.中位数为3,方差为1.6C.中位数为3,众数为2D.平均数为3,中位数为2答案A解析A选项,若5次结果中有6,因为平均数为2,则方差s2>eq\f(1,5)×(2-6)2=3.2,因为3.2>2.4,则当平均数为2,方差为2.4时,一定不会出现点数6,故A正确;B选项,若5个点数为3,3,3,5,6,则此时满足中位数为3,平均数为4,则方差s2=eq\f(1,5)×[(3-4)2×3+(5-4)2+(6-4)2]=1.6,故B错误;C选项,取5个点数为2,2,3,5,6,满足中位数为3,众数为2,故C错误;D选项,取5个点数为1,1,2,5,6,满足中位数为2,平均数为3,故D错误.二、多项选择题7.(2023·潮州模拟)根据气象学上的标准,如果连续5天的日平均气温都低于10℃即为入冬.现将连续5天的日平均气温的记录数据(记录数据都是自然数)作为一组样本,则下列样本中一定符合入冬指标的有()A.平均数小于4B.平均数小于4且极差小于或等于3C.平均数小于4且标准差小于或等于4D.众数等于5且极差小于或等于4答案BD解析举反例,如0,0,0,0,15,平均数为3小于4,但不符合入冬标准,故A错误;假设有数据大于或等于10,由极差小于或等于3知,此组数据最小值大于或等于7,与平均值小于4矛盾,故假设不成立,故B正确;举反例,如1,1,1,1,11,平均数为3,且标准差为4,但不符合入冬标准,故C错误;众数等于5且极差小于或等于4时,最大数不超过9,故D正确.8.已知数据x1,x2,…,x9成公差大于0的等差数列,若去掉数据x5,则()A.极差不变 B.第25百分位数变大C.平均数不变 D.方差变小答案AC解析选项A,根据极差的定义,原数据的极差为x9-x1,去掉x5后的极差为x9-x1,即极差不变,故A正确;选项B,原数据的第25百分位数为x3,去掉x5后的第25百分位数为eq\f(1,2)(x2+x3)<x3,即第25百分位数变小,故B错误;选项C,原数据的平均数为eq\x\to(x)=x5,去掉x5后的平均数为eq\x\to(x′)=eq\f(1,8)(x1+…+x4+x6+…+x9)=eq\f(1,8)×eq\f(8x1+x9,2)=x5=eq\x\to(x),即平均数不变,故C正确;选项D,原数据的方差为s2=eq\f(1,9)[(x1-x5)2+(x2-x5)2+…+(x9-x5)2],去掉x5后的方差为s′2=eq\f(1,8)[(x1-x5)2+(x2-x5)2+…+(x4-x5)2+(x6-x5)2+…+(x9-x5)2],故s2<s′2,即方差变大,故D错误.三、填空题9.(2023·惠州模拟)数据68,70,80,88,89,90,96,98的第75百分位数为________.答案93解析因为8×75%=6,根据百分位数的定义可知,该数学成绩的第75百分位数为第6个数和第7个数的平均数为eq\f(90+96,2)=93.10.(2023·黔西模拟)若样本数据x1,x2,…,x10的标准差为3,则数据2x1-1,2x2-1,…,2x10-1的标准差为________.答案6解析因为样本数据x1,x2,…,x10的标准差为3,故样本数据x1,x2,…,x10的方差为9,则数据2x1-1,2x2-1,…,2x10-1的方差为22×9=36,故数据2x1-1,2x2-1,…,2x10-1的标准差为6.11.(2023·济南模拟)某射击运动员连续射击5次,命中的环数(环数为整数)形成一组数据,这组数据的中位数为8,唯一的众数为9,极差为3,则该组数据的平均数为________.答案7.8解析依题意,这组数据一共有5个数,中位数为8,则从小到大排列,8的前面有2个数,后面也有2个数,又唯一的众数为9,则有两个9,其余数字均只出现一次,则最大数字为9,又极差为3,所以最小数字为6,所以这组数据为6,7,8,9,9,所以平均数为eq\f(6+7+8+9+9,5)=7.8.12.(2024·杭州模拟)已知一组样本数据共有9个数,其平均数为8,方差为12.将这组样本数据增加一个数据后,所得新的样本数据的平均数为9,则新的样本数据的方差为________.答案19.8解析设增加的数为k,原来的9个数分别为a1,a2,…,a9,则a1+a2+…+a9=72,a1+a2+…+a9+k=90,所以k=18,又因为eq\f(1,9)eq\i\su(i=1,9,)(ai-8)2=12,即eq\i\su(i=1,9,)(ai-8)2=108,所以eq\f(1,10)[eq\i\su(i=1,9,)(ai-9)2+(k-9)2]=eq\f(1,10)[eq\i\su(i=1,9,)(ai-8)2-2eq\i\su(i=1,9,)(ai-8)+9+81]=19.8.四、解答题13.(2023·济宁模拟)甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲8281797895889384乙9295807583809085(1)求两位学生预赛成绩的平均数和方差;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.解(1)eq\x\to(x)甲=eq\f(1,8)×(82+81+79+78+95+88+93+84)=85,eq\x\to(x)乙=eq\f(1,8)×(92+95+80+75+83+80+90+85)=85,seq\o\al(2,甲)=eq\f(1,8)×[(82-85)2+(81-85)2+(79-85)2+(78-85)2+(95-85)2+(88-85)2+(93-85)2+(84-85)2]=35.5,seq\o\al(2,乙)=eq\f(1,8)×[(92-85)2+(95-85)2+(80-85)2+(75-85)2+(83-85)2+(80-85)2+(90-85)2+(85-85)2]=41.(2)由(1)知eq\x\to(x)甲=eq\x\to(x)乙,seq\o\al(2,甲)<seq\o\al(2,乙),甲的成绩较稳定,所以派甲参赛比较合适.14.(2024·凉山统考)某校为了提高学生对体育运动的兴趣,举办了一场体育知识答题比赛活动,共有1000名学生参加了此次答题活动.为了解本次比赛的成绩,从中抽取了100名学生的得分(得分均为整数,满分为100分)进行统计,所有学生的得分都不低于60分,将这100名学生的得分进行分组,第一组[60,70),第二组[70,80),第三组[80,90),第四组[90,100](单位:分),得到如下的频率分布直方图.(1)求图中m的值,并估计此次竞赛活动学生得分的中位数;(2)根据频率分布直方图,估计此次竞赛活动得分的平均值.若对得分不低于平均值的同学进行奖励,请估计参赛的学生中有多少名学生获奖.(以每组中点值作为该组数据的代表)解(1)由频率分布直方图知,(m+0.03+0.04+0.02)×10=1,解得m=0.01,设此次竞赛活动学生得分的中位数为x0,由数据落在[60,80)内的频率为0.4,落在[60,90)内的频率为0.8,可得80<x0<90,由(x0-80)×0.04=0.1,解得x0=82.5,所以估计此次竞赛活动学生得分的中位数为82.5.(2)由频率分布直方图及(1)知,数据落在[60,70),[70,80),[80,90),[90,100]的频率分别为0.1,0.3,0.4,0.2,eq\x\to(x)=65×0.1+75×0.3+85×0.4+95×0.2=82,此次竞赛活动学生得分不低于82的频率为0.2+eq\f(90-82,10)×0.4=0.52,则1000×0.52=520,所以估计此次竞赛活动得分的平均值为82,在参赛的1000名学生中估计有520名学生获奖.§9.3成对数据的统计分析课标要求1.了解样本相关系数的统计含义.2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2)\r(\i\su(i=1,n,)yi-\x\to(y)2)).(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,其中eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),,\o(a,\s\up6(^))=\x\to(y)-\o(b,\s\up6(^))\x\to(x).))(2)残差:观测值减去预测值称为残差.4.列联表与独立性检验(1)关于分类变量X和Y的抽样数据的2×2列联表:
XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d(2)计算随机变量χ2=eq\f(nad-bc2,a+bc+da+cb+d),利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.常用结论1.经验回归直线过点(eq\x\to(x),eq\x\to(y)).2.求eq\o(b,\s\up6(^))时,常用公式eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2).3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.自主诊断1.判断下列结论是否正确.(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(2)经验回归直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.(×)(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(√)(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.(×)2.(多选)(2023·石嘴山模拟)下列有关回归分析的说法中正确的是()A.相关关系是一种确定性的关系B.经验回归直线就是散点图中经过样本数据点最多的那条直线C.当样本相关系数r>0时,两个变量正相关D.两个变量的线性相关性越弱,|r|越接近于0答案CD解析相关关系是不确定的关系,故A错;经验回归直线在散点图中可能不经过任一样本数据点,故B错;当样本相关系数r>0时,两个变量正相关,故C对;两个变量的线性相关性越弱,|r|越接近于0,故D对.3.(2023·福州统考)已知变量x和y的统计数据如表:x678910y3.54566.5若由表中数据得到经验回归方程为eq\o(y,\s\up6(^))=0.8x+eq\o(a,\s\up6(^)),则当x=10时的残差为________(注:观测值减去预测值称为残差).答案-0.1解析eq\x\to(x)=eq\f(6+7+8+9+10,5)=8,eq\x\to(y)=eq\f(3.5+4+5+6+6.5,5)=5,则eq\o(a,\s\up6(^))=5-0.8×8=-1.4,所以eq\o(y,\s\up6(^))=0.8x-1.4,当x=10时,eq\o(y,\s\up6(^))=6.6,所以当x=10时的残差为6.5-6.6=-0.1.4.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如表所示:性别主修专业合计非统计专业统计专业男131023女72027合计203050为了判断主修专业是否与性别有关系,根据表中的数据,得到χ2=eq\f(50×13×20-10×72,23×27×20×30)≈4.844,因为χ2>3.841,所以判定主修专业与性别有关系,那么这种判断出错的可能性________0.05(填“大于”或“小于”).附:α0.10.050.010.001xα2.7063.8416.63510.828答案小于解析因为χ2>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,认为主修专业与性别有关,这种判断出错的可能性小于0.05.题型一成对数据的相关性例1(1)(2023·天津)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中样本相关系数r=0.8245,则下列说法正确的是()A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈负相关C.花瓣长度和花萼长度呈正相关D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.8245答案C解析根据散点的集中程度可知,花瓣长度和花萼长度有相关性,故A错误;散点的分布是从左下到右上,从而花瓣长度和花萼长度呈正相关,故B错误,C正确;由于r=0.8245是全部数据的样本相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的样本相关系数不一定是0.8245,故D错误.(2)(多选)(2023·湛江模拟)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如表所示:编号12345678910身高/cm165168170172173174175177179182体重/kg55896165677075757880由表中数据制作成如图所示的散点图,由最小二乘法计算得到经验回归直线l1的方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))1x+eq\o(a,\s\up6(^))1,样本相关系数为r1,决定系数为Req\o\al(2,1);经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9对数据计算得到经验回归直线l2的方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))2x+eq\o(a,\s\up6(^))2,样本相关系数为r2,决定系数为Req\o\al(2,2).则以下结论中正确的有()A.eq\o(a,\s\up6(^))1>eq\o(a,\s\up6(^))2 B.eq\o(b,\s\up6(^))1>eq\o(b,\s\up6(^))2C.r1<r2 D.Req\o\al(2,1)>Req\o\al(2,2)答案AC解析身高的平均数为eq\f(165+168+170+172+173+174+175+177+179+182,10)=173.5,因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,所以去掉离群点后经验回归直线的截距变小而斜率变大,所以eq\o(a,\s\up6(^))1>eq\o(a,\s\up6(^))2,eq\o(b,\s\up6(^))1<eq\o(b,\s\up6(^))2,所以A正确,B错误;去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,所以r1<r2,Req\o\al(2,1)<Req\o\al(2,2),所以C正确,D错误.思维升华判定两个变量相关性的方法(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近1,相关性越强.(3)经验回归方程:当eq\o(b,\s\up6(^))>0时,正相关;当eq\o(b,\s\up6(^))<0时,负相关.跟踪训练1(1)(2023·保定模拟)已知两个变量x和y之间有线性相关关系,经调查得到样本数据如表所示:x34567y3.52.41.1-0.2-1.3根据表格中的数据求得经验回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),则下列说法中正确的是()A.eq\o(a,\s\up6(^))>0,eq\o(b,\s\up6(^))>0 B.eq\o(a,\s\up6(^))>0,eq\o(b,\s\up6(^))<0C.eq\o(a,\s\up6(^))<0,eq\o(b,\s\up6(^))>0 D.eq\o(a,\s\up6(^))<0,eq\o(b,\s\up6(^))<0答案B解析由已知数据可知y随着x的增大而减小,则变量x和y之间存在负相关关系,所以eq\o(b,\s\up6(^))<0.又eq\x\to(x)=eq\f(1,5)×(3+4+5+6+7)=5,eq\x\to(y)=eq\f(1,5)×(3.5+2.4+1.1-0.2-1.3)=1.1,即1.1=5eq\o(b,\s\up6(^))+eq\o(a,\s\up6(^)),所以eq\o(a,\s\up6(^))=1.1-5eq\o(b,\s\up6(^))>0.(2)已知相关变量x和y的散点图如图所示,若用y=b1·ln(k1x)与y=k2x+b2拟合时的样本相关系数分别为r1,r2则比较r1,r2的大小结果为()A.r1>r2 B.r1=r2C.r1<r2 D.不确定答案C解析由散点图可知,用y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|,又因为x,y负相关,所以-r1>-r2,即r1<r2.题型二回归模型命题点1一元线性回归模型例2(2023·广州模拟)2022年底以来,发放消费券在全国多个地区流行,此举助力消费复苏.记发放的消费券额度为x(百万元),带动的消费为y(百万元).下表为某省随机抽查的一些城市的数据:x33455668y1012131819212427(1)根据表中的数据,请用样本相关系数说明y与x有很强的线性相关关系,并求出y关于x的经验回归方程;(2)①若该省A城市在2023年8月份准备发放一轮额度为10百万元的消费券,利用(1)中求得的经验回归方程,预计可以带动多少消费?②当实际值与估计值的差的绝对值与估计值的比值不超过10%时,认为发放的该轮消费券助力消费复苏是理想的.若该省A城市8月份发放额度为10百万元的消费券后,经过一个月的统计,发现实际带动的消费为30百万元,请问发放的该轮消费券助力消费复苏是否理想?若不理想,请分析可能存在的原因.说明:对于经验回归方程的样本相关系数r,当|r|>0.75时,两个变量之间具有很强的线性相关关系.参考数据:eq\r(35)≈5.9.解(1)因为eq\x\to(x)=eq\f(3+3+4+5+5+6+6+8,8)=5,eq\x\to(y)=eq\f(10+12+13+18+19+21+24+27,8)=18.eq\i\su(i=1,8,)(xi-eq\x\to(x))(yi-eq\x\to(y))=16+12+5+0+0+3+6+27=69,eq\i\su(i=1,8,)(xi-eq\x\to(x))2=4+4+1+0+0+1+1+9=20,eq\i\su(i=1,8,)(yi-eq\x\to(y))2=64+36+25+0+1+9+36+81=252,所以r=eq\f(\i\su(i=1,8,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,8,)xi-\x\to(x)2)\r(\i\su(i=1,8,)yi-\x\to(y)2))=eq\f(69,\r(20)×\r(252))=eq\f(23,4\r(35))≈0.97.由于|r|>0.75且r非常接近1,所以y与x具有很强的线性相关关系.经计算可得eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,8,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,8,)xi-\x\to(x)2)=eq\f(69,20)=3.45,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=18-3.45×5=0.75,所以所求经验回归方程为eq\o(y,\s\up6(^))=3.45x+0.75.(2)①当x=10时,eq\o(y,\s\up6(^))=3.45×10+0.75=35.25,所以预计能带动的消费达35.25百万元.②因为eq\f(|30-35.25|,35.25)≈14.89%>10%,所以发放的该轮消费券助力消费复苏不理想.发放消费券只是影响消费的其中一个因素,还有其他重要因素,比如:A城市经济发展水平不高,居民的收入水平直接影响了居民的消费水平;A城市人口数量有限、商品价格水平、消费者偏好、消费者年龄构成等因素一定程度上影响了消费总量.(只要写出一个原因即可).命题点2非线性回归模型例3(2024·朝阳模拟)秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警之口,民警用“秋天的第一杯奶茶”顺利救下一名女孩,由此而火爆全网.后来很多人开始在秋天里买一杯奶茶送给自己在意的人.某奶茶店主记录了入秋后前7天每天售出的奶茶数量(单位:杯)如下:日期第一天第二天第三天第四天第五天第六天第七天日期代码x1234567杯数y4152226293132(1)请根据以上数据,绘制散点图,并根据散点图判断,y=a+bx与y=c+dlnx哪一个更适宜作为y关于x的回归方程模型(给出判断即可,不必说明理由);(2)建立y关于x的经验回归方程(结果保留1位小数),并根据建立的经验回归方程,试预测要到哪一天售出的奶茶才能超过35杯?参考数据:eq\x\to(y)eq\x\to(u)eq\i\su(i=1,7,x)iyieq\i\su(i=1,7,u)iyieq\i\su(i=1,7,u)eq\o\al(2,i)e2.122.71.2759235.113.28.2其中ui=lnxi,eq\x\to(u)=eq\f(1,7)eq\i\su(i=1,7,u)i.参考公式:在经验回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解(1)根据散点图,知y=c+dlnx更适宜作为y关于x的回归方程模型.(2)令u=lnx,则y=c+du,由已知数据得eq\o(d,\s\up6(^))=eq\f(\i\su(i=1,7,u)iyi-7\x\to(u)\x\to(y),\i\su(i=1,7,u)\o\al(2,i)-7\x\to(u)2)=eq\f(235.1-7×1.2×22.7,13.2-7×1.2×1.2)≈14.2,eq\o(c,\s\up6(^))=eq\x\to(y)-eq\o(d,\s\up6(^))eq\x\to(u)≈22.7-14.2×1.2≈5.7,所以eq\o(y,\s\up6(^))=5.7+14.2u,故y关于x的经验回归方程为eq\o(y,\s\up6(^))=5.7+14.2lnx,令5.7+14.2lnx>35,整理得lnx>2.1,即x>e2.1≈8.2,故当x=9时,即到第9天才能超过35杯.思维升华求经验回归方程的步骤跟踪训练2小李准备在某商场租一间商铺开服装店,为了解市场行情,在该商场调查了20家服装店,统计得到了它们的面积x(单位:m2)和日均客流量y(单位:百人)的数据(xi,yi)(i=1,2,…,20),并计算得eq\i\su(i=1,20,x)i=2400,eq\i\su(i=1,20,y)i=210,eq\i\su(i=1,20,)(xi-eq\x\to(x))2=42000,eq\i\su(i=1,20,)(xi-eq\x\to(x))(yi-eq\x\to(y))=6300.(1)求y关于x的经验回归方程;(2)已知服装店每天的经济效益W=keq\r(y)+mx(k>0,m>0),该商场现有60~150m2的商铺出租,根据(1)的结果进行预测,要使单位面积的经济效益Z最高,小李应该租多大面积的商铺?附:经验回归直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的斜率和截距的最小二乘估计分别为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x).解(1)由已知可得eq\x\to(x)=eq\f(1,20)eq\i\su(i=1,20,x)i=120,eq\x\to(y)=eq\f(1,20)eq\i\su(i=1,20,y)i=10.5,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,20,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,20,)xi-\x\to(x)2)=eq\f(6300,42000)=0.15,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=10.5-0.15×120=-7.5,所以经验回归方程为eq\o(y,\s\up6(^))=0.15x-7.5.(2)根据题意得Z=eq\f(W,x)=eq\f(k\r(0.15x-7.5),x)+m,60≤x≤150.设f(x)=eq\f(0.15x-7.5,x2)=eq\f(0.15,x)-eq\f(7.5,x2),令t=eq\f(1,x),eq\f(1,150)≤t≤eq\f(1,60),则f(x)=g(t)=0.15t-7.5t2=-7.5×(t-0.01)2+0.00075,当t=0.01,即x=100时,f(x)取最大值,又因为k>0,m>0,所以此时Z也取最大值,因此,小李应该租100m2的商铺.题型三列联表与独立性检验例4(2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数;(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表:<m≥m对照组试验组②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.α0.10.050.01xα2.7063.8416.635解(1)试验组样本的平均数为eq\f(1,20)×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=eq\f(396,20)=19.8.(2)①依题意,可知这40只小白鼠体重的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,由原数据可得第20位数据为23.2,第21位数据为23.6,所以m=eq\f(23.2+23.6,2)=23.4,故列联表为<m≥m对照组614试验组146②零假设为H0:小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量无差异.由①可得χ2=eq\f(40×6×6-14×142,20×20×20×20)=6.4>3.841=x0.05,依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异,此推断犯错误的概率不超过0.05.思维升华独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=eq\f(nad-bc2,a+bc+da+cb+d)计算.(3)比较χ2与临界值的大小关系,作统计推断.跟踪训练3(2024·哈尔滨模拟)由中央电视台综合频道(CCTV-1)和唯众传媒联合制作的《开讲啦》是中国首档青年电视公开课.每期节目由一位知名人士讲述自己的故事,分享他们对于生活和生命的感悟,给予中国青年现实的讨论和心灵的滋养,讨论青年们的人生问题,同时也在讨论青春中国的社会问题,受到了青年观众的喜爱.为了了解观众对节目的喜爱程度,电视台随机调查了A,B两个地区的100名观众,得到如表所示的2×2列联表.非常喜欢喜欢合计A3015B合计已知在被调查的100名观众中随机抽取1名,该观众来自B地区且喜爱程度为“非常喜欢”的概率为0.35.(1)现从100名观众中根据喜爱程度用按比例分配的分层随机抽样的方法抽取20名进行问卷调查,则应抽取喜爱程度为“非常喜欢”的A,B地区的人数各是多少?(2)完成上述表格,依据小概率值α=0.05的独立性检验,能否认为观众的喜爱程度与所在地区有关?附:χ2=eq\f(nad-bc2,a+bc+da+cb+d),n=a+b+c+d.α0.050.010.001xα3.8416.63510.828解(1)由题意得来自B地区且喜爱程度为“非常喜欢”的观众为0.35×100=35(人),所以应从A地区抽取30×eq\f(20,100)=6(人),从B地区抽取35×eq\f(20,100)=7(人).(2)完成表格如表:非常喜欢喜欢合计A301545B352055合计6535100零假设为H0:观众的喜爱程度与所在地区无关.χ2=eq\f(100×30×20-35×152,65×35×45×55)=eq\f(100,1001)≈0.1<3.841=x0.05,根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即观众的喜爱程度与所在地区无关.课时精练一、单项选择题1.为了解某大学的学生是否喜欢体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:男女合计喜欢ab73不喜欢c25合计74则a-b-c等于()A.7B.8C.9D.10答案C解析根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,∴a-b-c=52-21-22=9.2.(2023·黄冈中学模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq\f(1,3)x-5上,则这组样本数据的样本相关系数为()A.-eq\f(1,3)B.eq\f(1,3)C.-1D.1答案D解析由题意可知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq\f(1,3)x-5上,则这组样本数据完全正相关,且样本相关系数为1.3.(2023·聊城模拟)根据分类变量x与y的成对样本数据,计算得到χ2=6.147.依据小概率值α=0.01的独立性检验(x0.01=6.635),结论为()A.变量x与y不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.01C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.01答案C解析按照独立性检验的知识及比对的参数值,当χ2=6.147,我们可以下结论变量x与y独立.故排除A,B;依据小概率值α=0.01的独立性检验(x0.01=6.635),6.147<6.635,所以我们不能得到“变量x与y独立,这个结论犯错误的概率不超过0.01”这个结论,故C正确,D错误.4.(2023·武汉模拟)通过随机询问某中学110名中学生是否爱好跳绳,得到列联表如表所示:跳绳性别合计男女爱好402060不爱好203050合计6050110附:χ2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828则以下结论正确的是()A.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关B.根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001C.根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别无关D.在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别无关答案A解析由题意知χ2=eq\f(110×40×30-20×202,60×50×60×50)≈7.822,因为7.822<10.828,所以根据小概率值α=0.001的独立性检验,我们认为爱好跳绳与性别无关,且这个结论犯错误的概率超过0.001,故A正确,B错误;又因为7.822>6.635,所以根据小概率值α=0.01的独立性检验,我们认为爱好跳绳与性别有关,或在犯错误的概率不超过0.01的前提下,我们认为爱好跳绳与性别有关,故C和D错误.5.某市物价局派人对5个商场某商品同一天的销售量及其价格进行调查,得到该商品的售价x(元)和销售量y(件)之间的一组数据如表所示:价格x(元)9095100105110销售量y(件)1110865用最小二乘法求得y关于x的经验回归方程是eq\o(y,\s\up6(^))=-0.32x+eq\o(a,\s\up6(^)),样本相关系数r=-0.9923,则下列说法不正确的是()A.变量x与y负相关且相关性很强B.eq\o(a,\s\up6(^))=40C.当x=85时,y的估计值为15D.对应点(105,6)的残差为-0.4答案C解析由经验回归方程可得变量x与y负相关,且由样本相关系数|r|=0.9923,可知相关性很强,故A正确;由表中数据可得eq\x\to(x)=eq\f(1,5)×(90+95+100+105+110)=100,eq\x\to(y)=eq\f(1,5)×(11+10+8+6+5)=8,故经验回归直线过点(100,8),故8=-0.32×100+eq\o(a,\s\up6(^)),解得eq\o(a,\s\up6(^))=40,故B正确;当x=85时,eq\o(y,\s\up6(^))=-0.32×85+40=12.8,故C错误;对应点(105,6)的残差为6-(-0.32×105+40)=-0.4,故D正确.6.(2024·重庆模拟)设两个相关变量x和y分别满足下表:x12345y128816若相关变量x和y可拟合为非线性经验回归方程eq\o(y,\s\up6(^))=2bx+a,则当x=6时,y的估计值为()附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线eq\o(v,\s\up6(^))=eq\o(α,\s\up6(^))+eq\o(β,\s\up6(^))u的斜率和截距的最小二乘估计公式分别为eq\o(β,\s\up6(^))=eq\f(\i\su(i=1,n,u)ivi-n\x\to(u)\x\to(v),\i\su(i=1,n,u)\o\al(2,i)-n\x\to(u)2),eq\o(a,\s\up6(^))=eq\x\to(v)-eq\o(β,\s\up6(^))eq\x\to(u);1.155≈2.A.33B.37C.65D.73答案B解析因为非线性经验回归方程为eq\o(y,\s\up6(^))=2bx+a,则有log2eq\o(y,\s\up6(^))=bx+a,令log2y=v,即eq\o(v,\s\up6(^))=bx+a,列出相关变量x,y,v关系如表:x12345y128816v01334所以eq\i\su(i=1,5,x)ivi=0+2+9+12+20=43,eq\x\to(x)=eq\f(1+2+3+4+5,5)=3,eq\x\to(v)=eq\f(0+1+3+3+4,5)=eq\f(11,5),eq\i\su(i=1,5,x)eq\o\al(2,i)=1+4+9+16+25=55,所以b=eq\f(\i\su(i=1,5,x)ivi-5\x\to(x)\x\to(v),\i\su(i=1,5,x)\o\al(2,i)-5\x\to(x)2)=eq\f(43-5×3×\f(11,5),55-5×9)=1,所以a=eq\x\to(v)-beq\x\to(x)=eq\f(11,5)-3=-eq\f(4,5),所以eq\o(v,\s\up6(^))=x-eq\f(4,5),即log2eq\o(y,\s\up6(^))=x-eq\f(4,5),即eq\o(y,\s\up6(^))=,因为1.155≈2,所以≈1.15,当x=6时,eq\o(y,\s\up6(^))===25.2=25×≈32×1.15=36.8≈37.二、多项选择题7.(2024·厦门模拟)为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,随机抽取了300名学生,对他们是否经常锻炼的情况进行了调查,调查发现经常锻炼人数是不经常锻炼人数的2倍,绘制其等高堆积条形图,如图所示,则()附:χ2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多B.从参与调查的学生中任取一人,已知该学生为女生,则该学生经常锻炼的概率为eq\f(5,7)C.依据小概率值α=0.1的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1D.假设调查人数为600人,经常锻炼人数与不经常锻炼人数的比例不变,统计得到的等高堆积条形图也不变,依据小概率值α=0.05的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05答案ABD解析由题意知经常锻炼人数是不经常锻炼人数的2倍,故经常锻炼人数为200人,不经常锻炼人数为100人,故男生中经常锻炼的人数为200×0.5=100(人),不经常锻炼的人数为100×0.6=60(人),故男生中经常锻炼的人数比不经常锻炼的人数多,故A正确;女生中经常锻炼的人数为200×0.5=100(人),不经常锻炼的人数为100×0.4=40(人),故从参与调查的学生中任取一人,已知该学生为女生,则该学生经常锻炼的概率为eq\f(100,100+40)=eq\f(5,7),故B正确;由题意结合男、女生中经常锻炼和不经常锻炼的人数,可得列联表如表所示:经常锻炼不经常锻炼合计男10060160女10040140合计200100300则χ2=eq\f(300×100×40-60×1002,140×160×200×100)≈2.679<2.706=x0.1,故依据小概率值α=0.1的独立性检验,不能认为性别因素影响学生体育锻炼的经常性,故C错误;由题意可得经常锻炼不经常锻炼合计男200120320女20080280合计400200600则此时χ2=eq\f(600×200×80-200×1202,400×200×320×280)≈5.357>3.841=x0.05,故依据小概率值α=0.05的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05,故D正确.8.沃柑,因其口感甜柔、低酸爽口,且营养成分高,成为大家喜欢的水果之一,目前主要种植于我国广西、云南、四川、湖南等地.得益于物流的快速发展,沃柑的销量大幅增长,同时刺激了当地农民种植沃柑的热情.根据对广西某地的沃柑种植面积情况进行调查,得到统计表如表所示:年份t20182019202020212022年份代码x12345种植面积y/万亩814152028附:①样本相关系数r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2)\r(\i\su(i=1,n,)yi-\x\to(y)2));②在经验回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中,eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2)=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x);eq\r(2240)≈47.33.根据此表,下列结论正确的是()A.该地区这5年沃柑的种植面积的方差为212B.种植面积y与年份代码x的样本相关系数约为0.972(精确到0.001)C.y关于x的经验回归方程为eq\o(y,\s\up6(^))=4.6x+3.2D.预测该地区沃柑种植面积最早在2027年能突破40万亩答案BC解析根据题意,得eq\x\to(y)=eq\f(8+14+15+20+28,5)=17,seq\o\al(2,y)=eq\f(1,5)×[(-9)2+(-3)2+(-2)2+32+112]=44.8,故A错误;由题意得eq\x\to(x)=eq\f(1+2+3+4+5,5)=3,eq\i\su(i=1,5,x)iyi=1×8+2×14+3×15+4×20+5×28=301,eq\i\su(i=1,5,x)eq\o\al(2,i)=12+22+32+42+52=55,eq\i\su(i=1,5,y)eq\o\al(2,i)=82+142+152+202+282=1669,所以r=eq\f(\i\su(i=1,5,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,5,)xi-\x\to(x)2)\r(\i\su(i=1,5,)yi-\x\to(y)2))=eq\f(\i\su(i=1,5,x)iyi-5\x\to(x)\x\to(y),\r(\i\su(i=1,5,x)\o\al(2,i)-5\x\to(x)2)\r(\i\su(i=1,5,y)\o\al(2,i)-5\x\to(y)2))=eq\f(301-5×3×17,\r(55-45)×\r(1669-1445))≈eq\f(46,47.33)≈0.972,故B正确;因为eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,5,x)iyi-5\x\to(x)\x\to(y),\i\su(i=1,5,x)\o\al(2,i)-5\x\to(x)2)=eq\f(301-5×3×17,55-45)=4.6,eq\o(a,\s\up6(^))=eq\x\to(y)-eq\o(b,\s\up6(^))eq\x\to(x)=17-4.6×3=3.2,所以y关于x的经验回归方程为eq\o(y,\s\up6(^))=4.6x+3.2,故C正确;令e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024双人合伙商业店铺协议模板
- 2024年企业工程承包详细协议细则
- 德邦物流2024年专项快递服务协议
- 2024年度供应商保密义务协议
- 2023-2024学年浙江省嘉兴市高考数学试题考前三个月(江苏专版)
- 2024年战略采购合作协议模板
- 2024房屋权属更名补充协议
- 2024年产品委托加工协议文本
- 6.1圆周运动(含答案)-2022-2023学年高一物理同步精讲义(人教2019必修第二册 )
- 2024年制造业劳务承包基本协议格式
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)语文试卷(含答案)
- 自然资源调查监测劳动和技能竞赛
- 2 0 2 4 年 7 月 国开专科《法理学》期末纸质考试 试题及答案
- 6.1 我对谁负责 谁对我负责 课件-2024-2025学年统编版道德与法治八年级上册
- 2023-2024学年天津市经开区国际学校八年级(上)期末物理试卷
- DB23T 3842-2024 一般化工企业安全生产标准化评定规范
- 期中模拟押题卷(1-3单元)(试题)-2024-2025学年苏教版数学六年级上册
- 环氧树脂项目可行性研究报告项目报告
- 公共政策分析第一章
- 2024-2025学年人教版数学三年级上册 第三单元 测量 单元测试卷(含答案)
- 2024新信息科技三年级第四单元:创作数字作品大单元整体教学设计
评论
0/150
提交评论