第八章《成对数据的统计分析》章末复习提升与检测_第1页
第八章《成对数据的统计分析》章末复习提升与检测_第2页
第八章《成对数据的统计分析》章末复习提升与检测_第3页
第八章《成对数据的统计分析》章末复习提升与检测_第4页
第八章《成对数据的统计分析》章末复习提升与检测_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章《成对数据的统计分析》章末复习提升与检测知识体系能力整合一、线性回归分析1.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其基本步骤为通过散点图和经验选择经验回归方程的类型,然后通过一定的规则确定出相应的经验回归方程,通过一定的方法进行检验,最后应用于实际或对响应变量进行预测.2.主要培养数学建模和数据分析的素养.【例1】某村在推进乡村振兴的过程中,把做活乡村产业作为强村富民的重要抓手,因地制宜推进茶叶种植,成立了茶叶合作社.为了对茶叶在销售旺季进行合理定价,合作社进行了市场调研,得到了销售旺季时销量(吨)关于售价(元/公斤)的散点图.

(1)求关于的线性回归方程;(2)该合作社2023年茶叶总产量为150吨,如果在销售旺季时售价为250元/公斤,在销售旺季没能售出的,年底以每公斤100元的价格卖给批发商,则该合作社2023年的总销售额为多少万元?公式及参考数据:关于的线性回归方程为,其中,;,,,.【解】(1)由已知,,所以关于的线性回归方程为;(2)由(1)得当时,,即旺季时的销量约为吨,剩下的约为吨,所以该合作社2023年的总销售额(元),即该合作社2023年的总销售额为万元.【解题技法】解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求经验回归方程.通过观察散点图,直观感知两个变量是否具有相关关系.在此基础上,利用最小二乘法求eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^)),然后写出经验回归方程.(3)回归分析.画残差图或计算R2,进行残差分析.(4)实际应用.依据求得的经验回归方程解决实际问题.【跟踪训练】如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.注:年份代码17分别对应年份20162022.求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.参考数据:,,,参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.【解】,,,得,又,,y关于t的回归方程为.,将2024对应的代入回归方程得:,预测2024年该地区生活垃圾无害化处理量将约万吨.二、独立性检验1.独立性检验研究的问题是有多大把握认为两个分类变量之间有关系.为此需先列出2×2列联表,从表格中可以直观地得到两个分类变量是否有关系.另外等高堆积条形图能更直观地反映两个分类变量之间的情况.独立性检验的思想是可以先假设二者无关系,求随机变量χ2的值,若χ2大于临界值,则拒绝假设,否则,接受假设.2.通过计算χ2的值,进而分析相关性结论的可信程度,提升数学运算、数据分析的素养.【例2】(2023•甲卷(文))一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:.试验结果如下:对照组的小白鼠体重的增加量从小到大排序为25.218.820.221.322.523.225.826.527.530.126.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为27.89.211.412.413.215.516.518.018.819.228.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数,再分别统计两样本中小于与不小于的数据的个数,完成如下列联表;对照组试验组(ⅱ)根据中的列联表,能否有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:,0.1000.0500.0102.7063.8416.635【解析】(1)根据题意,计算试验组样本平均数为.(2)由题意知,这40只小鼠体重的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,因为原数据的第11位数据是18.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6,,所以第20位为23.2,第21位数据为23.6,所以这组数据的中位数是;填写列联表如下:合计对照组61420试验组14620合计202040根据列联表中数据,计算,所以有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.【解题技法】独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=eq\f(nad-bc2,a+bc+da+cb+d)计算χ2的值.(3)查表比较χ2与临界值的大小关系,作出统计判断.【跟踪训练】(2022•甲卷)甲、乙两城之间的长途客车均由和两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数2402021030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:.0.1000.0500.0102.7063.8416.635【解析】(1)公司一共调查了260辆车,其中有240辆准点,故公司准点的概率为;公司一共调查了240辆车,其中有210辆准点,故公司准点的概率为;(2)由题设数据可知,准点班次数共450辆,未准点班次数共50辆,公司共260辆,公司共240辆,,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.三、数形结合思想在独立性检验中的应用1.数形结合思想就是在解决与几何图形有关的问题时,将图形信息转换成代数信息,利用数量特征,将其转化为代数问题;在进行回归分析时,常利用散点图、残差图等说明线性相关情况或模型的拟合效果.在独立性检验中,我们常用等高堆积条形图直观地反映数据的情况,从而可以粗略地判断两个分类变量是否有关系.2.主要培养数学抽象和数学运算的素养.【例3】某机构为了了解患色盲是否与性别有关,随机抽取了1000名成年人进行调查,在调查的480名男性中有38名患色盲,520名女性中有6名患色盲,分别利用图形和独立性检验(α=0.001)的方法来判断患色盲与性别是否有关.【解】根据题目所给的数据作出如下的列联表:性别色盲合计患色盲未患色盲男38442480女6514520合计449561000根据列联表作出相应的等高堆积条形图,如图所示.图中两个深色条的高分别表示男性和女性中患色盲的频率,从图中可以看出,男性中患色盲的频率明显高于女性中患色盲的频率,因此我们可认为患色盲与性别有关.零假设为H0:患色盲与性别无关.根据列联表中所给的数据,得χ2=eq\f(1000×38×514-442×62,480×520×44×956)≈27.139>10.828=x0.001,根据小概率值α=0.001的独立性检验,推断H0不成立,即认为患色盲与性别有关,此推断犯错误的概率不超过0.001.【解题技法】解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体;②明确研究的两个问题.(2)两个准确:①准确画出2×2列联表;②准确理解χ2.【跟踪训练】某电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的2×2列联表,依据小概率值α=0.05的独立性检验,能否据此认为“体育迷”与性别有关?性别“体育迷”情况合计非体育迷体育迷男女1055合计(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).附:χ2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.α0.050.01xα3.8416.635【解】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:性别“体育迷”情况合计非体育迷体育迷男301545女451055合计7525100零假设为H0:“体育迷”与性别无关.将2×2列联表中的数据代入公式计算,得χ2=eq\f(100×30×10-45×152,75×25×45×55)=eq\f(100,33)≈3.030<3.841=x0.05,根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,即认为“体育迷”与性别无关.(2)由频率分布直方图,知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为eq\f(1,4).由题意知X~B,从而X的分布列为X0123Peq\f(27,64)eq\f(27,64)eq\f(9,64)eq\f(1,64)E(X)=3×eq\f(1,4)=eq\f(3,4),D(X)=3×eq\f(1,4)×eq\f(3,4)=eq\f(9,16).四、转化与化归思想在非线性回归分析中的应用1.转化与化归思想主要体现在非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.2.主要培养数学建模和数学运算的素养.【例4】数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫()内的数字均含19,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度(秒)与训练天数(天)有关,经统计得到如表的数据:(天)1234567(秒)990990450320300240210(1)现用作为回归方程模型,请利用表中数据,求出该回归方程;(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度约为多少秒?参考数据(其中)18450.370.55参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.【解析】(1)由题意,令,设关于的线性回归方程为,则有,则,所以,又,所以关于的回归方程为;(2)当时,,所以经过100天训练后,小明每天解题的平均速度约为140秒.【解题技法】非线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.【跟踪训练】中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用的水泡制,再等到茶水温度降至时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是).泡制时间01234水温85797471654.24.14.03.93.8(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即)就不能再降的事实,决定选择函数模型来刻画.①令,求出关于的线性回归方程;②利用①的结论,求出中的与.(2)你认为该品种绿茶用的水大约泡制多久后饮用,可以产生最佳口感?参考数据:.参考公式:.【解析】(1)①由已知得出与的关系,如下表:泡制时间012344.24.14.03.93.8设线性回归方程,由题意,得,,,,则,,则关于的线性回归方程为;②由,得,两边取对数得,,利用①的结论得:,,;(3)由(1)得,,令,得.∴该品种绿茶用的水泡制后饮用,口感最佳.章末检测(时间:120分钟,满分:150分)一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.为调查中学生近视情况,随机抽取某校男生150名,女生140名,其中,男生中有80名近视,女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时,最有说服力的方法是()A.均值与方差 B.排列与组合C.概率 D.独立性检验【答案】D【解析】检验两个变量是否相关时,应选择独立性检验,故选D.2.观察下列散点图,则①正相关,②负相关,③不相关,图中的甲、乙、丙三个散点图按顺序相对应的是(

).

A.①②③ B.②①③ C.①③② D.③①②【答案】C【解析】对于图①,显然是正的线性相关,对于图②,不相关,对于图③,负的线性相关,故选C.3.对两个变量进行线性相关性检验,得线性相关系数,对两个变量进行线性相关性检验,得线性相关系数,则下列判断正确的是(

)A.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强B.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强C.变量与变量正相关,变量与变量负相关,变量与变量的线性相关性更强D.变量与变量负相关,变量与变量正相关,变量与变量的线性相关性更强【答案】B【解析】由线性相关系数知与负相关,由线性相关系数知与正相关,又,所以变量与变量的线性相关性比变量与变量的线性相关性更强,故选B.4.独立性检验中,假设:变量与变量没有关系,则在上述假设成立的情况下,估算概率,表示的意义是A.变量与变量有关系的概率为B.变量与变量没有关系的概率为C.变量与变量没有关系的概率为D.变量与变量有关系的概率为【答案】D【解析】若估算概率,则犯错概率不超过0.01,即变量与变量有关系的概率为,故选D.5.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查发现,y与x具有相关关系,回归方程为=0.66x+1.562.若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为()A.83% B.72% C.67% D.66%【答案】A【解析】当居民人均消费水平为7.675时,则7.675=0.66x+1.562,即职工人均工资水平x≈9.262,∴人均消费额占人均工资收入的百分比为,故选A.6.某科研机构为了研究中年人秃头是否与患有心脏病有关,随机调查了一些中年人的情况,具体数据如下表所示:有心脏病无心脏病秃发20300不秃发5450根据表中数据得,由断定秃发与患有心脏病有关,那么这种判断出错的可能性为附表:0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828A.0.1 B.0.05C.0.01 D.0.001【答案】D【解析】由题意,,根据附表可得判断秃发与患有心脏病有关出错的可能性为.故选D.7.相关变量的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程,相关系数为;方案二:剔除点,根据剩下数据得到线性回归直线方程:,相关系数为.则(

A.B.C.D.【答案】D【解析】由散点图得负相关,所以,因为剔除点后,剩下点数据更线性相关性更强,则更接近,所以,故选D.8.用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则(

)A. B. C.70 D.35【答案】B【解析】因为,所以,则,即,即,所以,故选B.二、多项选择题(本大题共3小题,每小题6分,共18分.在每小题给出的四个选项中,有多个选项是符合题目要求的,全部选对的得6分,选对但不全的得3分,有选错的得0分)9.下列说法正确的是(

)A.在两个变量与的列联表中,当越大,两个变量有关联的可能性越大B.若所有样本点都在经验回归方程上,则变量间的相关系数是C.决定系数越接近1,拟合效果越好D.独立性检验一定能给出明确的结论【答案】AC【解析】A选项:根据独立性检验的公式可知,当越大,两个变量有关的可能性越大,故A正确;B选项:相关系数,故B错误;C选项:决定系数越接近1,拟合效果越好,故C正确;D选项:独立性检验与样本的选取有关,不一定正确,故D项错误.故选:AC10.已知在最小二乘法原理下,具有相关关系的变量x,y之间的线性回归方程为,且变量之间的相关数据如表所示,则下列说法错误的是()x681012y6m32A.变量之间呈正相关关系B.可以预测,当时,C.可求得表中D.由表格数据知,该回归直线必过点【答案】ABC【解析】对于A,由x与y的线性回归方程可知,回归系数为,且,∴变量之间呈负相关关系,故A错误;对于B,当时,,故B错误;对于C,由表中数据可知,,由点必在回归直线上,得,解得m=5,故C错误;对于D,∵,∴,∴回归直线必过点(9,4),故D正确.故选:ABC.11.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每名学生对食堂的服务给出满意或不满意的评价,得到如下列联表.经计算,则可以推断出(

).满意不满意男3020女4010A.该学校男生对食堂服务满意的概率的估计值为B.该学校男生比女生对食堂服务更满意C.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异D.依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异【答案】AC【解析】该学校男生对食堂服务满意的概率的估计值为,故A正确;该学校女生对食堂服务满意的概率的估计值为,故B错误;因为,所以依据的独立性检验,可以认为男、女生对该食堂服务的评价有差异,故C正确,D错误,故选AC.三、填空题(本大题共3小题,每小题5分,共15分.把答案填在题中横线上)12.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如表),由最小二乘法求得经验回归方程eq\o(y,\s\up6(^))=0.67x+54.9.零件数x/个1020304050加工时间y/min62758189现发现表中有一个数据看不清,请你推断出该数据的值为________.【答案】68【解析】由表格知eq\x\to(x)=30,得eq\x\to(y)=0.67×30+54.9=75.设表中的“模糊数字”为a.则a+62+75+81+89=75×5,所以a=68.13.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,经验回归方程为eq\o(y,\s\up6(^))=10.47-1.3x,估计该台机器使用________年最合算.【答案】8【解析】只要预计利润不为负数,使用该机器就算合算,即eq\o(y,\s\up6(^))≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.14.某部门通过随机调查89名工作人员的休闲方式是读书还是健身,得到的数据如下表:单位:人性别休闲方式读书健身合计女243155男82634合计325789在犯错误的概率不超过________的前提下认为性别与休闲方式有关系.【答案】0.1【解析】由列联表中的数据,得χ2=eq\f(89×24×26-31×82,55×34×32×57)≈3.689>2.706,因此,在犯错误的概率不超过0.1的前提下认为性别与休闲方式有关系.四、解答题(本大题共5小题,共77分.解答时应写出必要的文字说明、证明过程或演算步骤)15.(本小题满分13分)冶炼某种金属可以用旧设备或新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示.设备所含杂质杂质高杂质低旧设备37121新设备22202根据表中数据试判断含杂质的高低与设备新旧有无关系.【解析】由已知数据得到如下2×2列联表:设备所含杂质合计杂质高杂质低旧设备37121158新设备22202224合计59323382χ2=eq\f(382×37×202-121×222,158×224×59×323)≈13.11>10.828=x0.001,根据小概率值α=0.001的独立性检验,故有99.9%的把握认为含杂质的高低与设备新旧是有关的.16.(本小题满分15分)在改革开放40年成就展上某地区某农产品近几年的产量统计表:年份201420152016201720182019年份代码123456年产量(万吨)6.66.777.17.27.4(1)根据表中数据,建立关于的线性回归方程.(2)根据线性回归方程预测2020年该地区该农产品的年产量.【解析】(1)由题意可知:,,,所以,又,故关于的线性回归方程为.(2)由(1)可得,当年份为2020年时,年份代码为,此时.所以可预测2020年该地区该农产品的年产量约为7.56万吨.17.(本小题满分15分)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.单位:人性别是否为体育迷合计非体育迷体育迷男女合计(1)根据已知条件完成2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)将日均收看该体育项目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:参考公式:χ2=eq\f(nad-bc2,a+bc+da+cb+d),n=a+b+c+d.α0.050.01xα3.8416.635【解析】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:单位:人性别是否为体育迷合计非体育迷体育迷男301545女451055合计7525100将2×2列联表中的数据代入公式计算,得χ2=eq\f(100×30×10-45×152,75×25×45×55)=eq\f(100,33)≈3.030<3.841=x0.05,根据小概率值α=0.05的独立性检验,没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的样本空间为:Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中ai表示男性,i=1,2,3,bj表示女性,j=1,2.Ω包含10个样本点,而且这些样本的出现是等可能的,设A=“任选2人中,至少有1人是女性”,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.事件A包含7个样本点,因而P(A)=eq\f(7,10).18.(本小题满分17分)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:1日2日3日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论