新高考数学一轮复习讲义:统计与统计案例_第1页
新高考数学一轮复习讲义:统计与统计案例_第2页
新高考数学一轮复习讲义:统计与统计案例_第3页
新高考数学一轮复习讲义:统计与统计案例_第4页
新高考数学一轮复习讲义:统计与统计案例_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新高考数学一轮复习讲义:统计与统计案例§9.1随机抽样、用样本估计总体【考试要求】L理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样的方法.2.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.【知识梳理】.随机抽样(1)简单随机抽样:一般地,设一个总体含有“个个体,从中逐个不放回地抽取〃个个体作为样本如果每次抽取时总体内的各个个体被抽到的机会都相笠,就把这种抽样方法叫做简单随机抽样.(2)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样..用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积的总和等于L(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的生思,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数..用样本的数字特征估计总体的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数::=凶>>+…+ 反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s=/上二1+*二二’+…+题-(5)方差:s2=^[Ui—x)"+(X2—x)~~\ 1•(为-x)1(羽是样本数据,〃是样本容量,xn 是样本平均数).【思考】.三种抽样方法有什么共同点和联系?提示(1)抽样过程中每个个体被抽取的机会均等.(2)系统抽样中在起始部分抽样时采用简单随机抽样;分层抽样中各层抽样时采用简单随机抽样或系统抽样..平均数、标准差与方差反映了数据的哪些特征?提示平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.【基础自测】题组一思考辨析1.判断下列结论是否正确(请在括号中打“J”或“X”)(1)简单随机抽样中,每个个体被抽到的机会不一样,与先后有关.(X)(2)分层抽样中,每个个体被抽到的可能性与层数及分层有关.(X)(3)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.(X)(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.(V)题组二教材改编2.某公司有员工500人,其中不到35岁的有125人,35〜49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为()A.33,34,33 B.25,56,19C.20,40,30 D.30,50,20答案B解析设在不到35岁的员工中抽取x人,则缥=嘘,所以x=25,同理可得这三个年龄50。125段抽取人数分别为25,56,19.3.某射击小组有20人,教练将他们某次射击的数据绘制成如下表格,则这组数据的众数和中位数分别是()环数5678910人数127631A.7,7 B.8,7.5C.7,7.5 D.8,6答案C解析从表中数据可知7环有7人,人数最多,所以众数是7;中位数是将数据从小到大排列,第10个与第11个数据的平均数,第10个数是7,第11个*7-1-0数是8,所以中位数是~y-=7.5..如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)范围内的居民有人.。0.511.522.533.5月均用水最"答案25解析0.5X0.5X100=25.题组三易错自纠.已知一组数据的频率分布直方图如图,则众数是,平均数是答案6567解析因为最高小长方形中点的横坐标为65,所以众数为65;平均数二=(55X0.030+65X0.040+75X0.015+85X0.010+95X0.005)X10=67..若数据Xi,x2,扬,…,X”的平均数x=5,方差s'=2,则数据3为+1,3至+1,3质+1,…,

3照+1的平均数和方差分别为.答案16,18解析:汨,X?,盟,…,x〃的平均数为5,.m+m+eH \-xn「n3跖+3跖+3尼+3为+”・+3%-1-1=3X5+1=16,•Xi,A2»X”,,,,的万差为2,;.3xi+1,3加+1,3照+1,…,3%+1的方差是3"义2=18.题型一抽样方法.总体由编号为00,01,02,…,48,49的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,则选出的第3个个体的编号为()附:第6行至第9行的随机数表如下:TOC\o"1-5"\h\z26357900 3370 9160 1620 3882 7757 495032114919 7306 4916 7677 8733 9974 673227486198 7164 4148 7086 2888 8519 162074770111 1630 2404 2979 7991 9683 5125A.33B.16C.38D.20答案D解析按随机数法,从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,超出49及重复的不选,则编号依次为33,16,20,38,49,32,…,则选出的第3个个体的编号为20,故选D..用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是()A±±BA1C1AnAA10'10 10'5 5'10 10'10答案A解析在抽样过程中,个体a每一次被抽中的概率是相等的,因为总体容量为10,故个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性均为七.故选A..为了调查城市PM*的情况,按地域把48个城市分成大型、中型、小型三组,相应的城市数分别为24,16,8.若用分层抽样的方法抽取12个城市,则应抽取的中型城市数为()A.3B.4C.5D.6答案B19 1 1解析根据分层抽样的特点可知,抽样比为获=彳,则应抽取的中型城市数为16X7=4.思维升华(1)简单随机抽样是分层抽样的基础,是一种等概率的抽样,由定义应抓住以下特点:①它要求总体个数较少;②它是从总体中逐个抽取的;③它是一种不放回的抽样.(2)分层抽样适用于总体中个体差异较大的情况.题型二统计图表及应用命题点1扇形图例1某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:,一~八第三产业收入/ 其他收入种植收760%\ 30%/\ ,/养殖收入建设前经济收入构成比例

K一-、第三产业收入/\28%\种植收入/37白1或其他收入殖收入建设后经济收入构成比例则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案A解析设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为2a.新农村建设前后,各项收入的对比如下表:新农村建设前新农村建设后新农村建设后变化情况结论种植收入60%a37%X2a=74%a增加A错其他收入4%a5%X2a=10%a增加了一倍以上B对养殖收入30%a30%X2a=60%a增加了一倍C对养殖收入+第三产业收入(30%+6%)a=36%〃(30%+28%)X2a=116%a超过经济收入2a的一半D对故选A.命题点2折线图例2下面两个图是2020年6月25日由国家卫健委发布的全国疫情累计趋势图,每图下面横向标注日期,纵向标注累计数量.现存确诊为存量数据,计算方法为:累计确诊数一累计死亡数一累计治愈数.全国疫情累计趋势图一确诊一治愈全国疫情累计趋势图一确诊一治愈---死亡•loam200)101.2OU72•loam200)101.2OU72.32.102.172^4X23.93.163J33J04A4.1342O4J7545.115.1H5JS6.16.86.15624图1全国累iI•确诊/治愈/死亡 一累计确诊一累计治愈累计死亡(X)0Go 84671^ 84J7884H67 8-1940tt4997H5070 85119* 79903* 7^913* 7^926* 79%49*79969,79983*799Q960000 ...06.12 06.14 06.16 06.18 06.20 06.22 06.24图2则下列对新冠肺炎叙述错误的是()A.自1月20日以来一个月内,全国累计确诊病例属于快速增长时期B.自4月份以来,全国累计确诊病例增速缓慢,疫情扩散势头基本控制C.自6月16日至24日以来,全国每日现存确诊病例平缓增加D.自6月16日至24日以来,全国每日现存确诊病例逐步减少答案D解析由图1可知A,B均正确;由图2数据计算得16日的现存确诊病例为84867-79926-4645=296,同理可计算18,20,22,24日现存确诊分别为346,383,441,473.命题点3茎叶图例3如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均数也相等,则x和y的值分别为()甲组 乙组A.3,5B.5,5C.3,7D.5,7答案A解析甲组数据的中位数为65,由甲,乙两组数据的中位数相等,得尸5.又甲、乙两组数据的平均数相等,.,4X(56+65+62+74+70+x)=|x(59+61+67+65+78),:.x=3.故选A.5 5命题点4频率分布直方图例4从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35), [5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47]内的个数为()即即.25即.75.5<).257.bS,21A.10B.18C.20D.36答案B解析因为直径落在区间[5.43,5.47]内的频率为0.02X(6.25+5.00)=0.225,所以个数为0.225X80=18.思维升华(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.(3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.(4)准确理解频率分布直方图的数据特点:

①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.跟踪训练(1)由于受疫情的影响,学校停课,同学们通过三种方式在家自主学习,现学校想了解同学们对假期学习方式的满意程度,收集如图1所示的数据;教务处通过分层抽样的方法抽取4%的同学进行满意度调查,得到的数据如图2.下列说法错误的是()A.样本容量为240B.C.D.图1方式二小学150()A方式三网络授课25()0人A.样本容量为240B.C.D.图1方式二小学150()A方式三网络授课25()0人方式一2000人若勿=50,则本次自主学习学生的满意度不低于四成总体中对方式二满意的学生约为300人样本中对方式一满意的学生为24人答案B解析选项A,样本容量为6000X4%=240,该选项正确;选项B,根据题意得自主学习的满意率为600+300+满意率为600+300+12506000-0.358〈0.4,该选项错误;选项C,样本可以估计总体,但会有一定的误差,总体中对方式二满意人数约为1500X20%=300,该选项正确;选项D,样本中对方式一满意人数为2000X4%X30%=24,该选项正确.(2)某网站为了了解某“跑团”每月跑步的平均里程,收集并整理了2019年1月至2019年11月期间该“跑团”每月跑步的平均里程(单位:公里)的数据,绘制了下面的折线图.根据折线图,下列结论正确的是()月跑步平均里程(公里)1234567891011234567891011月份151()3A.月跑步平均里程的中位数为6月份对应的里程数B.月跑步平均里程逐月增加C.月跑步平均里程高峰期大致在8,9月份D.1月至5月的月跑步平均里程相对于6月至11月波动性更小,变化比较平稳答案D解析由折线图可知月跑步平均里程比6月份高的只有9,10,11,共3个月,比6月份低的有1,2,3,4,5,7,8,共7个月,故6月份对应里程数不是中位数,因此A不正确;月跑步平均里程在1月到2月,6月到7月,7月到8月,10月到11月都是减少的,故不是逐月增加,因此B不正确;月跑步平均里程高峰期大致在9,10,11三个月,8月份是相对较低的,因此C不正确:从折线图来看,1月至5月的跑步平均里程相对于6月至11月,波动性更小,变化比较平稳,因此D正确.(3)如图是某赛季甲、乙两名篮球运动员9场比赛所得分数的茎叶图,则下列说法错误的是()81268022A.甲所得分数的极差为22B.乙所得分数的中位数为18C.两人所得分数的众数相等D.甲所得分数的平均数低于乙所得分数的平均数答案D解析甲所得分数的极差为33—11=22,A正确;乙所得分数的中位数为18,B正确;甲所得分数的众数为22,乙所得分数的众数为22,C正确,故选D.(4)如图是某班50名学生期中考试数学成绩的频率分布直方图,其中成绩分组区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x的值为.,频率丽0.01(1(HMkJ40506()708090100]副答案0.018解析由题图可知纵轴表示苗而,故^=0.1-0.054-0.010-0.006X3=0.018.题型三用样本的数字特征估计总体的数字特征.演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()平均数A.中位数平均数C.方差答案A解析记9个原始评分分别为a,b,c,d,e,f,g,力,/(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A..某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分情况如图所示,假设得分值的中位数为加,平均数为二,众数为则()7891。得分B.勿X答案D解析由图知次=5,由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6,所以“=气二=5-5,—3X2+4X3+5X10+6X6+7X3+8X2+9X2+10X2 _x= - =5.97>5,5,所以x..我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为.答案0.98解析经停该站高铁列车所有车次的平均正点率的估计值为10X0.97+20X0.98+10X0.99 =09810+20+10.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是.答案甲解析由题可得x甲=x乙=9,TOC\o"1-5"\h\z1 9又・••晶=[X[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=三,5 5sl.=1x[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=f>^.0 0甲更稳定,故最佳人选应是甲.思维升华(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似值.实际应用时,需先计算样本数据的平均数,分析平均水平,再计算方差(标准差)分析稳定情况.(2)若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.课时精练【基础保分练】1.要完成下列两项调查:(1)某社区有100户高收入家庭,220户中等收入家庭,80户低收入家庭,从中抽取100户调查购买力的某项指标;(2)从某中学高二年级的10名体育特长生中抽取3人调查学习负担情况.应采取的抽样方法是()(1)(2)都用简单随机抽样法(1)用分层抽样法,(2)用简单随机抽样法(1)用简单随机抽样法,(2)用分层抽样法(1)(2)都用分层抽样法答案B解析(1)中收入差距较大,采用分层抽样法较合适;(2)中总体容量较小,采用简单随机抽样法较合适.2.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为〃的样本,已知从高中生中抽取70人,则〃为()A.100B.150C.200D.250答案A

解析方法一解析方法一由题意可得湍=需,解得77=100.方法二由题意,得抽样比为看%=3?总体容量为3500+1500=5000,故〃=5000X^-6oUUoU ou=100..某调研机构随机调查了2020年某地区〃名业主物业费的缴费情况,发现缴费金额(单位:万元)都在区间[0.5,1.1]内,其频率分布直方图如图所示,若第五组的频数为32,则样本容量〃等于()答案B答案B解析根据频率分布直方图,第五组的频率为0.8X0.1=0.08,32又第五组的频数为32,所以样本容量为〃=悬=400.U.Uo.如图是某样本数据的茎叶图,则该样本的中位数、众数、极差分别是()12520233312448945557A.32 34 32 B.33 45 35C.34 45 32 D.33 36 35答案B解析从茎叶图中知共16个数据,按照从小到大排序后中间的两个数据为32,34,所以这组数据的中位数为33:45出现的次数最多,所以这组数据的众数为45;最大值是47,最小值是12,故极差是35..(多选)下表为2020年某煤炭公司1〜10月份的煤炭生产量:月份12345678910产量(单位:万吨)23252117.517.52126293027则下列结论正确的是()

A.极差为12.5万吨B.平均数为24万吨C.中位数为24万吨D.众数为17.5万吨答案ABD解析将表格中的数据由小到大排列依次为17.5,17.5,21,23,24,25,26,27,29,30.极差为30-17.5=12.5(万吨),A正确;=24(万吨),=24(万吨),B正确;平均数为 77 =24.5(万吨),C错误;众数为17.5(万吨),D正确.6.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为〃的样本,其频率分布直方图如图所示,其中支出在[50,60)元的学生有60人,则下列说法正确的是()A.样本中支出在[50,60)元的频率为0.03B.样本中支出不少于40元的人数为132C.〃的值为200D.若该校有2000名学生,则一定有600人支出在[50,60)元答案BC解析样本中支出在[50,60)元的频率为1-(0.01+0.024+0.036)X10=0.3,故A错误;样本中支出不少于40元的人数为与翳X60+60=132,故B正确;3=200,故"的值为200.故C正确;若该校有2000名学生,则可能有0.3X2000=600人支出在[50,60)元,故D错误..若数据X2,的的平均数为x,方差为s?,则2/1+3,2小+3,…,2%+3的平均数和方差分别为—答案2:+3和4sz

解析方法一平均数为](2入1+3+2用+3+…+2M+3)='[2(m+x2+…+无)+3〃]=— 1 — —2x+3;方差为—{[(2xi+3)一(2x+3)]一+[(2即+3)—(2x+3)]一+…+[(2x.+3)一(2x+3)]2}=~[4(jfi—x”+4(*2—Ar)?+…+4(x“一jr)2]=4s2.方法二原数据乘以2加上3得到一组新数据,则由平均数、方差的性质可知得到的新数据的平均数和方差分别是2:+3和4sz..某高校调查了320名学生每周的自习时间(单位:小时)制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20],(20,22.5],(22.5,25],(25,27.5],(27.5,30].根据频率分布直方图,这320名学生中每周的自习时间不足22.5小时的人数是.答案72解析由频率分布直方图可得,320名学生中每周的自习时间不足22.5小时的人数是320X(0.02+0.07)X2.5=72(A)..某校为了解学生的身体素质情况,采用按年级分层抽样的方法,从高一、高二、高三学生中抽取一个300人的样本进行调查,已知高一、高二、高三学生人数之比为左:5:4,抽取的样本中高一学生为120人,则A的值为.答案6解析由题意可知,黑=解得4=6.300什5十4.已知一组数据6,7,8,8,9,10,则该组数据的方差是.答案„„,„„, ajf上口6+7+8+8+9+10 ।}\,-4+1+0+0+1+4数据6,7,8,8,9,10的平均数是 =8,则方差是 _5=于.如图,从参加环保知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布表和频率分布直方图如下,回答下列问题:

分组人数频率[39.5,49.5)a0.10[49.5,59.5)9X[59.5,69.5)b0.15[69.5,79.5)180.30[79.5,89.5)15y[89.5,99.5]30.05合计601.00频率mi39.54频率mi39.549.559.569.579.589.599.5分数().03()0.0250.0200.015().01()(HM)5(1)分别求出a,b,X,y的值,并补全频率分布直方图;(2)估计这次环保知识竞赛的平均分.解(l)a=6,解(l)a=6,b=9,x=0.15,y=0.25,(2)用组中值估计平均分:44.5X0.1+54.5X0.15+64.5X0.15+74.5X0.3+84.5X0.25+94.5X0.05=70.5.故这次环保知识竞赛的平均分约为70.5..某中学举行电脑知识竞赛,现将参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图.(2)求参赛学生的平均成绩.解(1)因为频率分布直方图中最高小长方形所在的区间的中点值为65,所以众数为65,又因为第一个小长方形的面积为0.3,第二个小长方形的面积为0.4,0.3+0.4>0.5,所以中位数在第二组,设中位数为x,则0.3+(l60)X0.04=0.5,解得*=65,所以中位数为65.⑵依题意,可得平均成绩为(55X0.03+65X0.04+75X0.015+85X0.010+95X0.005)X10=67,所以参赛学生的平均成绩为67分.【技能提分练】.某校高二年级共有800名学生参加了数学测验(满分150分),已知这800名学生的数学成绩均不低于90分,将这800名学生的数学成绩分组为[90,100),[100,110),[110,120),[120,130),[130,140),[140,150),得到的频率分布直方图如图所示,则下列说法中正确的序号是.①a=0.045;②这800名学生中数学成绩在110分以下的人数为160;③这800名学生数学成绩的中位数约为121.4;④这800名学生数学成绩的平均数为125.答案②③解析由题意得(0.005+0.01+0.01+0.015+0.025+a)X10=1,解得a=0.035,①错;110分以下的人数为(0.01+0.01)X10X800=160,②正确;120分以下的频率是(0.01+x—12000050.01+0.025)X10=0.45,设中位数为x,则⑺=六而产力21.4,③正确;平均分为1UU.Uoo95X0.1+105X0.1+115X0.25+125X0.35+135X0.15+145X0.05=120,④错..气象意义上从春季进入夏季的标志为:连续5天每天日平均温度不低于22C.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数,单位:℃).①甲地:5个数据的中位数为24,众数为22;②乙地:5个数据的中位数为27,平均数为24:③丙地:5个数据中有一个数据是32,平均数为26,方差为10.2.则肯定进入夏季的地区有个.答案2解析甲地肯定进入夏季,因为众数为22,所以22C至少出现两次,若有一天低于22C,则中位数不可能为24;丙地肯定进入,10.2X5-(32-26)2。(26—X)、所以15^(26-%)2,所以后22不成立;乙地不一定进入,如13,23,27,28,29,肯定进入夏季的地区有2个.【拓展冲刺练】.汽车的“燃油效率”是指汽车每消耗1升汽油行驶的里程,下图描述了甲、乙、丙三辆汽车在不同速度下的燃油效率情况.下列叙述中正确的是()A.消耗1升汽油,乙车最多可行驶5千米B.以相同速度行驶相同路程,三辆车中,甲车消耗汽油最多C.甲车以80千米/小时的速度行驶1小时,消耗10升汽油D.某城市机动车最高限速80千米/小时.相同条件下,在该市用丙车比用乙车更省油答案D解析对于A,由图象可知当速度大于40km/h时,乙车的燃油效率大于5km/L,所以当速度大于40km/h时,消耗1升汽油,乙车的行驶距离大于5km,故A错误;对于B,由图象可知当速度相同时,甲车的燃油效率最高,即当速度相同时,消耗1升汽油,甲车的行驶路程最远,所以以相同速度行驶相同路程,三辆车中,甲车消耗汽油最少,故B错误;对于C,由图象可知当速度为80km/h时,甲车的燃油效率为10km/L,即甲车行驶10km时,耗油1升,故行驶1小时,路程为80km,燃油为8升,故C错误;对于D,由图象可知当速度小于80km/h时,丙车的燃油效率大于乙车的燃油效率,所以用丙车比用乙车更省油,故D正确.16.某工厂甲、乙两名工人参加操作技能培训.现分别从他们在培训期间参加的若干次测试成绩中随机抽取8次,数据如下(单位:分):甲9582888193798478乙8375808090859295(1)请你计算这两组数据的平均数、中位数;(2)现要从中选派一人参加操作技能比赛,从统计学的角度考虑,你认为选派哪名工人参加合适?请说明理由.一1解(1)W=3(95+82+88+81+93+79+84+78)=85(分),O一1xZ.=-(83+75+804-80+90+85+92+95)=85(分).O甲、乙两组数据的中位数分别为83分,84分.⑵由(1)知x甲=x乙=85分,所以品=4(95-85尸+(82-85y+…+(78-85沟=355>Osl.=袅(83—85)2+(75—85)2+…+(95—85)2]=4L①从平均数看,甲、乙均为85分,平O均水平相同;②从中位数看,乙的中位数大于甲的中位数,乙的成绩好于甲;③从方差来看,因为:甲S东交,所以甲的成绩较稳定;④从数据特点看,获得85分以上(含85分)的次数,甲有3次,而乙有4次,故乙的成绩好Afck.⑤从数据的变化趋势看,乙后几次的成绩均高于甲,且呈上升趋势,因此乙更具潜力.综上分析可知,甲的成绩虽然比乙稳定,但从中位数、获得好成绩的次数及发展势头等方面分析,乙具有明显优势,所以应派乙参赛更有望取得好成绩.§9.2变量间的相关关系、统计案例【考试要求】.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系..了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程..了解独立性检验的基本思想、方法及其初步应用..了解回归分析的基本思想、方法及其简单应用.|J_知识梳理.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.②回归方程方程y=6x+碾两个具有线性相关关系的变量的一组数据(汨,%),(如%),…,(*”%)的回归方程,其中a,6是待定参数.n n TOC\o"1-5"\h\zExlxy-y 〃xy-7=1 /=1b= = ,/ n n、 V* 2 V"<2 2〉,XLX 工为一〃X1=1 /=11=y—bx.(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(小,”),(及,女),…,(刈谒,其中C7,7)称为样本点的中心.③相关系数当r>0时,表明两个变量正相关;当X0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常之大于0.75时,认为两个变量有很强的线性相关性..独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量才和匕它们的可能取值分别为{小,及}和5,理},其样本频数列联表(称为2X2列联表)为2义2列联表%yi总计莺aba±bX2Cdc+d总计a+cb+da+b+c+d构造一个随机变量片=―工7——〃彳-c-__其中〃=a+6+c+d为样本a-vDc-rd a十c b-ra容量.(3)独立性检验:利用随机变量族来判断“两个分类变量有关系”的方法称为独立性检验.【微思考】.变量的相关关系与变量的函数关系有什么区别?提示相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系..线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示(D不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.IL基础自测题组一思考辨析.判断下列结论是否正确(请在括号中打“J"或"X")(I)散点图是判断两个变量相关关系的一种重要方法和手段.(V)(2)回归直线y=6*+a至少经过点(m,方),(及,%),…,(为,%)中的一个点.(X)(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.(V)(4)若事件¥,V关系越密切,则由观测数据计算得到的*的观测值越小.(X)题组二教材改编.下列四个散点图中,变量”与y之间具有负的线性相关关系的是()答案D解析观察散点图可知,只有D选项的散点图表示的是变量x与了之间具有负的线性相关关系..下面是2X2列联表:Y2总计X\a2173X2222547总计b46120则表中a,。的值分别为()A.94,72 B.52,50C.52,74 D.74,52答案C解析Va+21=73,,a=52.又a+22=6,.."=74..已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y=0.95x4-a,则a等于( )X0134y2.24.34.86.7A.3.25B.2.6C.2.2D.0答案B解析回归直线过点(2,4.5),.*.4.5=0.95X2+a.a=2.6.题组三易错自纠.在统计中,由一组样本数据(M,%),(*,㈤,…,(X,,,%)利用最小二乘法得到两个变量的回归方程为y=6x+a,那么下列说法不正确的是()A.相关系数r不可能等于1B.回归直线y=bx+a必经过点(x,y)C.回归直线y=6x+a表示最接近y与x之间真实关系的一条直线D.相关系数为r,且旧越接近1,样本数据的线性相关程度越强;)越接近0,样本数据的线性相关程度越弱答案A解析相关系数的取值范围是IHW1,故A错:回归直线y=6x+a必过样本点的中心,即点(T,7),故B正确;回归直线y=6x+a是利用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,样本数据的线性相关程度越弱,故D正确.6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市总计愿生452065不愿生132235总计5842100

由片=得仁a+b由片=得仁a+b c+da+cb+d2-七9.616.100X45X22-20X1358X42X35X65参照下表:0.10.050.010.001ko2.7063.8416.63510.828正确的结论是()A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案C题型一相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份123456人均销售额658347利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是()A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误..对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()51()1520253035相关系数为八(1)51()1520253035相关系数为八(1)353(1252015103II<> 51(115-2()25 35相关系数为2(2)A.Z2<ri<0<?3<riC.n<.n<0<-n<ri1()1520253035A.Z2<ri<0<?3<riC.n<.n<0<-n<ri1()1520253035相关系数为小B.n<Z2<0<ri<Z3D.Z2<n<0<ri<n51()152()253035相关系数为r,

(4)答案A解析由散点图知图(1)与图⑶是正相关,故n>0,/3>0,图⑵与图(4)是负相关,故及<0,水0,且图⑴与图(2)的样本点集中在一条直线附近,因此水水0<n",故选A..在一组样本数据(小,%),(也,㈤,…,(X",%)(〃22,xt,及,…,%,不全相等)的散点图中,若所有样本点(右,/;)(7=1,2,—,〃)都在直线y=—gx+1上,则这组样本数据的样本相关系数为()A.-1 B.0答案A4.已知变量x和y满足关系y=-0.lx+1,变量y与z正相关.下列结论中正确的是()x与y正相关,x与z负相关x与y正相关,x与z正相关x与y负相关,x与z负相关x与y负相关,x与z正相关答案C解析因为y=-0.lx+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=6y+a(b>0),所以z=-0.lbx+6+a,—0.1ZK0,所以x与z负相关.故选C.思维升华判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r〉0时,两个变量正相关;当Z0时,两个变量负相关.(3)线性回归方程:当力0时,两个变量正相关;当灰。时,两个变量负相关.命题点1线性回归分析例1随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度”(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期2日7日15日22日30日温度x/℃101113128产卵数y/个2325302616科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?解(1)由已知数据得二=12,7=27,3 3 Zkxi—x)(//—y)=5,Z(xi—x)2=2,/=i3 XXLxyt—y7=1 5 _5_ 5所以力= =2»a=y~2X=27-2X12=-3,Xxlx~所以y关于x的线性回归方程为y=]x-3.5(2)由(1)知,y关于才的线性回归方程为y=?¥—3.5当x=10时,y=-X10-3=22,122-231<2,5当x=8时,y=-X8-3=17,17-16|<2.所以(1)中所得的线性回归方程尸3是可靠的.例2某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费X,和年销售量力(?=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.6206(X)5Ho5605405205<M)阳)0年销售鼠y/t♦♦♦♦♦■♦ 11 一J1111; A34363844)4244464850525456年宣传费V千元8888Z〈XLz(必一Z(必一x)•(匕一Z(叼—w)•(匕一Xyw1=11-1/=!-1\2X)\2W)7)7)46.65636.8289.81.61469108.8表中 WWi.0/=1(1)根据散点图判断尸a+6x与y=c+o\「哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y—x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据5,匕),(s,⑹,…,(〃”公,其回归直线广的斜率和截距的最小二乘估计分别为n ZUj—UV-V•/=!--£= ,a=v-Bu.X2/=!解(i)由散点图可以判断,尸c+班适宜作为年销售量y关于年宣传费”的回归方程类型.(2)令心、「,先建立y关于您的线性回归方程,由于s Z叼-W•y-y'/=1 108.8八d= =~~j-7-=68,s_ L6Zw-w/=ic=~-(T^=563-68X6.8=100.6,所以y关于力的线性回归方程为y=100.64-68ir,因此y关于x的回归方程为y=100.6+680.⑶①由⑵知,当x=49时,年销售量P的预报值y=100.6+68^49=576.6,年利润z的预报值z=576.6X0.2-49=66.32.②根据⑵的结果知,年利润/的预报值z=0.2(100.6+68^X)—x=—4+13.&^x+20.12.1□6所以当《=一:一=6.8,即x=46.24时,z取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.思维升华回归分析问题的类型及解题方法(1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.②利用公式,求出回归系数6.③待定系数法:利用回归直线过样本点的中心求系数a.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数A(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.跟踪训练1某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(必,%)(,=1,2,…,20),其中8和必分别表示第/个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得20 20 20 £石=60, 2匕=1 200, Z (石一x)2=80,/=1 /=1202020z(y-y)2=9000,£(xlx)(a-y)=800./=1 j=l(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数):(2)求样本(%,匕)(/=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.XXLxyt—y7=1附:相关系数r= / ,、也比1.414.A£xT2t y,-72\//=l i=l—122,解(1)由已知得样本平均数为y=垢1>=60,)=1从而该地区这种野生动物数量的估计值为60X200=12000.(2)样本(%,%)(2)样本(%,%)(/=1,2,…,20)的相关系数为800々80X9000(3)分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.题型三独立性检验例3为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4:3:3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1200名学生)(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数:(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2X2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.基础年级高三总计优秀非优秀总计300附:c+da+cb+d*nad-be附:c+da+cb+d*参考数据:一(〃/)0.1000.0500.0100.005ko2.7063.8416.6357.879解(D该校学生每周平均体育运动时间为X=1X0.05+3X0.2+5X0.3+7X0.25+9X0.15+11X0.05=5.8.4样本中高一年级每周平均体育运动时间不足4小时的人数为300X而X(0.025X2+0.100X2)=30(A).又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人30数约为1200X询=300(人).(2)列联表如下:基础年级直二IRJ—总计优秀10530135非优秀10560165

总计21090300假设该校学生的每周平均体育运动时间是否优秀与年级无关,则「的观测值〃=则「的观测值〃=2700-=—^7.071>6.635.yy210X90X135X165又。(片》6.635)=0.01.所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.思维升华独立性检验的一般步骤(1)根据样本数据制成2X2列联表.(2)根据公式『=-——43.——匚厂i|•算/的观测值k.a-rba-rc b十d c-rd(3)比较A与临界值的大小关系,作统计推断.跟踪训练2某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等[0,200](200,400](400,600]i(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”:若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2义2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次《400人次>400空气质量好空气质量不好附:nad-be2附:c+da+c b+dPgkJ0.0500.0100.001

Ab3.8416.63510.828解(1)由频数分布表可知,该市一天的空气质量等级为1的概率为处技包=0.43;空气质量等级为2的概率为5+;;0H2=0.27;空气质量等级为3的概率为岑萨=0.21;7-1-24-0空气质量等级为4的概率为刀=0.09.⑵由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为100X20+300X35+500X450「八100 =350・2100X33X2100X33X8—37X2255X45X70X30人次《400人次>400空气质量好3337空气质量不好2282-^5.820>3.841,所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.课时精练立基础保分练.甲、乙、丙、丁四位同学各自对46两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和0,如下表:甲乙丙Tr0.820.780.690.85m106115124103则哪位同学的试验结果体现4占两个变量有更强的线性相关性?()A.甲B.乙C.丙D.T答案D解析r越大,〃越小,线性相关性越强,故选D..根据如下样本数据:X345678y4.02.50.50.50.40.1得到线性回归方程为尸"+&则()A.a>0,b>0 B.a>0,伙0C.a<0,b>0 D.水0,伙0答案B解析根据给出的数据可发现:整体上y与x呈现负相关,所以从0,由样本点(3,4.0)及(4,2.5)可知a>0.3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯收益y(单位:万元)的数据,如下表:月份十十二一二三四月份代号t3456789纯收益y66697381899091得到y关于t的线性回归方程为y=4.75t+5L36.请预测该公司2019年6月的纯收益为()A.94.11万元B.98.86万元C.103.61万元D.108.36万元答案C解析将2019年6月代号f=ll带入题中的线性回归方程,得y=4.75X11+51.36=103.61.4.以下五个命题:①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③回归直线y=6x+a必过点(x,y);④在线性回归方程尸0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;⑤分类变量不与匕对它们的随机变量〃的观测值"来说,〃越小,“才与r有关系”的把握程度越大.其中假命题为()A.①④B.①⑤C.(2X3)D.③©答案B解析①为系统抽样:⑤分类变量I与K对它们的随机变量*的观测值%来说,々越大,”才与y有关系”的把握程度越大..(多选)已知变量x,y之间的线性回归方程为y=-0.7x+10.3,且变量*,y之间的一组相关数据如下表所示,则下列说法正确的是()X681012y6m32A.变量x,y之间成负相关关系B.可以预测,当x=20时,y=-3.7C.卬=4 D.该回归直线必过点(9,4)答案ABD解析由-0.7<0,得变量x,y之间成负相关关系,故A正确;当x=20时,y=-0.7X20—1-1+10.3=-3.7,故B正确;由表格数据可知x=牙*(6+8+10+12)=9,y=-X(6+/zr|-3+2)=—^―,则 =-0.7X9+10.3,解得w=5,故C错误;由勿=5,得y= =4,所以该回归直线必过点(9,4),故D正确..(多选)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性60人,女性40人,绘制了不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中正确的是()城镇户籍农村户K男城镇户籍农村户K男性女性(M8(6(4(zA.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数答案ABD.某市居民2016〜2020年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:年份20162017201820192020收入*11.512.11313.315支出y6.88.89.81012根据统计资料,家庭年平均收入与年平均支出有相关关系.(填“正”或“负”)答案正解析由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系..经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归方程为y=0.245x+0.321,由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加万元.答案0.245.已知x,y之间的一组数据如下表:X23456y34689o2 3对于表中数据,现给出如下拟合直线:①y=x+l;②y=2x—1;③尸彳r—1④y=]尤则根据最小二乘法的思想求得拟合程度最好的直线是.(填序号)答案④解析根据最小二乘法的思想得变量X与y间的线性回归直线必过点(二,7),由数据可.―2+3+4+5+6 —3+4+9+6+8 、/不一Hz八、知,x= 二 =4,y= =6,那么必须过点(4,6),经验证可知,u Do9①y=x+l不成立;②y=2x—1不成立;@y=-x--,当x=4时,y=6,当x=6时,y=uD.2; 当x=4时,y=6,当x=6时,y=9.综上,拟合程度最好的直线是④..某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y=0.67x+54.9.零件数X(个)1020304050加工时间y(min)62疹758189现发现表中有一个数据看不清,请你推断出该数据的值为答案68解析由x=30,得y=0.67X30+54.9=75.设表中的“模糊数字”为a,贝lj62+a+75+81+89=75X5,:.a=G8.11.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量并加以说明(若r>0.75,则线性相关程度很高);(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?附:相关系数公式n^xty—nxyJ=lx »;一〃y2n XXLX y,—y-别为6—ZXi-X」m —2+4+5+6+8解(1),:X- 口 -5,5 Z(xlx)(匕一y)=(—3)X/=15zU-7)2=(-3)2+(-d2+o2EXi-x yi—y/=!ML小""7回归方程y=bx+a中斜率和截距的最小二乘估计公式分n £x,yi—nxy1- -_—— ,a—ybx.—〃x2;=i—3+4+5+6+7「y- 5 -5.(-2)+(-l)X(-1)+0X0+1X1+3X2=14,+"32=20,z(%-yy=(-2)2+(-l)2+02+l2+22=10./=1Zxlxyi-y(2)b= =—=0.7,a=y-bx=5-0.7X5=1.5.5 NUEXi-X2/=1**.y=0.7x+l.5.当x=12时,y=0.7X12+1.5=9.9.•••预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1000元的消费者中男女比例为1:4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:女性消费情况:消费金额/元(0,200)[200,400)[400,600)[600,800)[800,1000]人数51015473男性消费情况:消费金额/元(0,200)[200,400)[400,600)[600,800)[800,1000]人数231032若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?(2)根据列表中统计数据填写如下2X2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.女性男性总计“网购达人”“非网购达人”总计t2 nad-be2 廿q .f..,附:,=FT―7+d―末—b+d~'其中〃=a+6+c+d一(尤。娟0.100.050.0250.0100.005Ab2.7063.8415.0246.6357.879解(D女性消费者消费的平均数为J;X(100X5+300X10+500X15+700X47+900X3)oU=582.5.男性消费者消费的平均数为5X(100X2+300X3+500X10+700X3+900X2)=500.“女网购达人”消费的平均数为(700X47+900X3)=712.50“男网购达人”消费的平均数为1x(700X3+900X2)=780.虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.(2)2X2列联表如下所示:女性男性总计“网购达人”50555“非网购达人”301545总计80201002-+ 100X50X15-30X52K的观测值k= =丫,加乂安二4- 七乱091,oUXZUX□□X4b因为9.091>7.879,所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.C技能提升练.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号12345678数学成绩6065707580859095物理成绩7277808488909395给出散点图如下:,物理成绩/分TOC\o"1-5"\h\z1(M) .90 ••,*80 ,,7() •.5()1_,~■_■_'~' 5060708090100数学成绩/分根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的为.答案①解析由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误..在一组样本数据(布,yi).(x2,姓),…,(施,%)的散点图中,若所有样本点(为,%)(/1 6 6 6=1,2,…,6)都在曲线y=6。-J附近波动.经计算Ex,=12,Ey,=14,£4=23,则实数6的值为.17答案会6XXi解析―,则非线性回归方程变为线性回归方程,即尸从一看此时7=\-=普,6—印14小、 1314 231- 17y=-Z-=7",代入尸4一5,得—5,解得6=右.立拓展冲刺练15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)456789销量y(件)908483807568由表中数据,求得线性回归方程为尸一4*+a.若在这些样本点中任取一点,则它在线性回归直线左下方的概率为.依一,1答案3解析由表中数据得:=6.5,7=80,由7=-4:+&得a=106,故线性回归方程为尸一4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有6个样本点,因为84<-4X5+106=86,68〈一4X9+106=70,故(5,84)和(9,68)21在线性回归直线的左下方,满足条件的只有2个,故所求概率为工=1.6316.某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:年份2014201520162017201820192020广告费支出X1246111319销售量y1.93.24.04.45.25.35.4(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;(2)若用产=。+八5模型拟合y与x的关系,可得回归方程y=L63+0.9班,经计算线性回归模型和该模型的〃分别为0.75和0.88,请用〃说明选择哪个回归模型更好;(3)已知利润z与x,y的关系为z=200y-x根据(2)的结果回答下列问题:①广告费x=20时,销售量及利润的预报值是多少?②广告费x为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线尸a+6x的斜率和截距的最小二乘估计值分别为n n TOC\o"1-5"\h\z^Xiy-n4yzx-xy-y/=l i-\ - -b= = ,a=y—bx.n n E2 2 V'' ~~"2Xi—n x ' xlxi=l i=l参考数据:#*2.24.7 7解(1):•二=8,7=4.2,2%必=279.4,g总=708,E%“一7xy279.4-7X8X4.2:,b=- -708-7X82—=0,",Y.x—1x-a=~y~bx=4.2-0.17X8=2.84,关于x的线性回归方程为y=0.17x+2.84.:。.75〈0.88且〃越大,反映残差平方和越小,模型的拟合效果越好,二选用y=L63+0.9”「更好.⑶由⑵知,①当x=20时,销售量的预报值尸1.63+0.99^/20=«6.06(万台),利润的预报值z=200X(1.63+0.99^/20)-20^1191.48(万元).②z=200(1.63+0.9矩)-x=-8+1980+326=—(,)?+1980+326=-(V^-99)2+10127,.•.当小=99,即x=9801时,利润的预报值最大,故广告费为9801万元时,利润的预报值最大.强化训练统计中的综合问题立基础保分练.为确保食品安全,某市质检部门检查了1000袋方便面的质量,抽查总量的2%,在这个问题中,下列说法正确的是()A.总体是指这1000袋方便面B.个体是1袋方便面C.样本是按2%抽取的20袋方便面D.样本容量为20答案D解析总体是指这1000袋方便面的质量,A中说法错误;个体是指1袋方便面的质量,B中说法错误;样本是指按照2%抽取的20袋方便面的质量,C中说法错误;样本容量为20,D中说法正确.2.总体由编号为01,02,…,39,40的40个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为(TOC\o"1-5"\h\z50 44 66 44 21 66 06 58 05 62 61 65 54 35 02 42 35 48 96 3214 52 41 52 48 22 66 22 15 86 26 63 75 41 99 58 42 36 72 2458 37 52 18 51 03 37 18 39 11A.23B.21C.35D.32答案B解析随机数表第1行的第6列和第7列数字为6,4,所以从这两个数字开始,由左向右依次选取两个数字如下,64,42,16,60,65,80,56,26,16,55,43,50,24,23,54,89,63,21,45,…,其中落在编号01,02,…,39,40内的有16,26,24,23,21,…,故第5个编号为21.3.设样本数据刘,xz,孙…,x.9,现的平均数和方差分别为2和8,若%=2%+血加为非零常数,7=1,2,3,—,19,20),则%,y2, 加>,珈的平均数和标准差为( )A.2+勿,32 B.4+典4,^C.2+%4^2 D.4+卬,32答案B解析设样本数据用的平均数为二,方差为一,标准差为s,则新样本匕=2%+0的平均数为2x+m,方差为22s2,标准差为2s,所以y=2x+/n—4+m,s=8,所以标准差为s=2y[2,所以2s=2X2/=4啦.4.为检测某药品服用后的多长时间开始有药物反应,现随机抽取服用了该药品的1000人,其服用后开始有药物反应的时间(分钟)与人数的数据绘成的频率分布直方图如图所示.若将直方图中分组区间的中点值设为解释变量x(分钟),这个区间上的人数为y(人),易见两变量x,y线性相关,那么一定在其线性回归直线上的点为()(分钟)A.(1.5,0.10) B.(2.5,0.25)C.(2.5,250) D.(3,300)答案C解析由频率分布直方图可知,第一个区间中点坐标,Xi=1.0,yi=0.10X1000=100,第二个区间中点坐标,及=2.0,次=0.21XI000=210,第三个区间中点坐标,用=3.0,力=0.30X1—]000=300,第四个区间中点坐标,m=4.0,%=0.39X1000=390,贝!]x=彳(凶+及+吊+Xi)=2.5,y=3(yi+yz+%+%)=250,则一定在其线性回归直线上的点为(x,y)=(2.5,250).5.(多选)每年的台风都对泉州地区的渔业造成较大的经济损失.某保险公司为此开发了针对渔船的险种,并将投保的渔船分为I,1【两类,两类渔船的比例如图所示.经统计,2019年I,H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论