第八章 成对数据的统计分析_第1页
第八章 成对数据的统计分析_第2页
第八章 成对数据的统计分析_第3页
第八章 成对数据的统计分析_第4页
第八章 成对数据的统计分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章成对数据的统计分析全卷满分150分考试用时120分钟一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.下列说法中错误的是()A.若变量x和y之间的样本相关系数为r=0.992,则变量x和y之间的负相关性很强B.用决定系数R2来比较两个模型拟合效果时,R2越大,残差平方和越小,模型的拟合效果越好C.在经验回归方程y^=23.5x中,当解释变量每增加1个单位时,响应变量平均减少3.5D.经验回归直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(xn,y2.某市2019年至2022年新能源汽车年销量y(单位:千台)与年份代号x的数据如下表:年份2019202020212022年份代号x1234年销量y1520m35若根据表中的数据用最小二乘法求得y关于x的经验回归方程为y^=7x+7.5,则表中m的值为A.25B.28C.30D.323.根据一组样本数据(x1,y1),(x2,y2),…,(xn,yn)的散点图分析x与y之间是否存在线性相关关系,若求得其经验回归方程为y^=0.85x85.7,则在样本点(165,57)处的残差为4.为考察某种药物预防某疾病的效果,进行动物试验,得到如下列联表:单位:只患病未患病总计服药104555未服药203050总计3075105则下列说法正确的是()附:χ2=n(α0.050.010.001xα3.8416.63510.828A.有95%的把握认为药物有效B.有95%的把握认为药物无效C.在犯错误的概率不超过0.05的前提下认为药物无效D.在犯错误的概率不超过0.01的前提下认为药物有效5.2021年3月全国两会上,“碳达峰”“碳中和”备受关注.为应对气候变化,我国提出“二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和”等庄严的目标承诺.在2021年的政府工作报告中,“做好碳达峰、碳中和工作”被列为2021年重点任务之一.“十四五”规划也将“加快推动绿色低碳发展”列入其中.我国自1981年开展全民义务植树运动以来,全国森林面积呈线性增长,第三次全国森林资源清查的时间为1984~1988年,每5年清查一次,历次清查数据如下表:第x次3456789森林面积y(亿平方米)1.251.341.591.751.952.082.20经计算得到y关于x的经验回归方程为y^=0.1675x+a^,据此估算我国森林面积会在第次森林资源清查时首次超过3亿平方米参考数据:∑i=17yA.12B.13C.14D.156.下图为变量x,y的一组成对数据的散点图,去掉D(3,10)后,下列说法错误的是()A.样本相关系数r变大B.残差平方和变大C.决定系数R2变大D.解释变量x与响应变量y的相关性变强7.已知变量y关于x的回归方程为y^=eb^x-0.5,y与x的一组数据如表所示,若x1234yee3e4e6A.e5B.e112C.e78.针对中学生追星问题,某校团委就“学生性别和中学生追星是否有关”进行了一次调查,调查样本中女生人数是男生人数的12,男生追星的人数占男生人数的16,女生追星的人数占女生人数的23,若有95%的把握认为是否追星和性别有关附:χ2=n(α0.0500.0100.001xα3.8416.63510.828A.12人B.11人C.10人D.18人二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的选项中,有多个选项符合题目要求,全部选对的得5分,部分选对的得2分,有选错的得0分)9.下列各组的两个变量中呈正相关的是()A.某商品的销售价格与销售量B.学生的学籍号与学生的数学成绩C.气温与冷饮的销售量D.电瓶车的重量和行驶每千米的耗电量10.某班级学生开展课外数学探究活动,将一杯冷水从冰箱中取出后静置,在25℃的室温下测量水温y(单位:℃)随时间x(单位:min)的变化关系,在测量了15个数据后,根据这些数据(xi,yi)(i=1,2,…,15)得到如下散点图:现需要选择合适的回归模型进行回归分析,则根据散点图,合适的回归模型有(注:c1,c2均为常数)()A.y=25c1e-cC.y=251c1x+c11.随着大众对冰雪运动的关注度不断上升,各地陆续建成众多冰雪设施,使广大市民有条件体验冰雪运动的乐趣.为研究市民性别和喜欢冰雪运动是否有关,某校社团学生在部分市民中进行了一次调查,得到下表:冰雪运动的喜好性别合计男女喜欢140m140+m不喜欢n8080+n合计140+n80+m220+m+n已知男性喜欢冰雪运动的人数占男性人数的710,女性喜欢冰雪运动的人数占女性人数的35,参考公式及数据:χ2=n(ad-bc)2(A.列联表中n的值为60,m的值为120B.依据α=0.05的独立性检验,认为市民性别和喜欢冰雪运动有关系C.随机对一路人进行调查,他喜欢冰雪运动的可能性为95%D.没有99%的把握认为市民性别和喜欢冰雪运动有关系12.已知由成对样本数据(xi,yi),i=1,2,…,n求得的经验回归方程为y^=1.5x+0.5,且x=3,现发现两个样本点(1.2,2.2)和(4.8,7.8)的残差较大,去除后重新求得的经验回归直线l的斜率为1.2,则去除后A.变量x与y具有正相关关系B.新的经验回归方程为y^C.y的估计值的增加速度比原来变快D.样本点(2,3.75)的残差为0.05三、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中横线上)13.下表是关于男婴与女婴出生时间的列联表:单位:人晚上出生白天出生合计男婴45AB女婴E35C合计98D180那么A=,B=,C=,D=,E=.

14.有两个分类变量X和Y,其一组观测值如下面的2×2列联表所示:XY总计y1y2x1a15a15x220a30+a50总计204565其中a,15a均为大于5的整数,则a=时,可在犯错误的概率不超过0.01的前提下认为“X和Y之间有关系”.

附:χ2=n(ad-α0.10.050.0250.010.005xα2.7063.8415.0246.6357.87915.用模型y=aebx拟合一组数据(xi,yi)(i=1,2,…,7),其中x1+x2+…+x7=6,设z=lny,变换后的经验回归方程为z^=x+5,则y1y2…y7=16.已知一组数据(18,24),(13,34),(10,38),(1,m)的经验回归方程为y^=2x+59.5,则该组数据的样本相关系数r=(精确到四、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)17.(10分)某学校高二年级为调查本年度参加学业水平考试的学生是否需要年级提供帮助,从高二年级随机调查了50名学生,其中有20名男同学,下图是根据样本的调查结果绘制的等高堆积条形图.(1)根据已知条件与等高堆积条形图完成下面的2×2列联表:单位:名男同学女同学总计需要帮助不需要帮助总计(2)根据(1)中的2×2列联表及α=0.010的独立性检验,分析该校高二年级学生本年度参加学业水平考试需要年级提供帮助是否与性别有关.附:χ2=n(ad-α0.0500.0100.001xα3.8416.63510.82818.(12分)为了了解人们对某玩偶的需求量,某电商平台开始进行预售,预售时间段为2月5日至2月20日,该电商平台统计了2月5日至2月9日期间到此平台参与预售的人数y(单位:万)的相关数据,如下表所示:日期2月5日2月6日2月7日2月8日2月9日预售第x天12345人数y(单位:万)4556646872(1)依据表中的统计数据,请通过计算样本相关系数r判断该电商平台预售的第x天与到该平台参与预售的人数y(单位:万)是否具有较高的线性相关程度;(若0.30<|r|<0.75,则线性相关程度一般,若|r|≥0.75,则线性相关程度较高.结果精确到0.01)(2)求y关于x的经验回归方程,并用样本估计总体,估计2月20日时到该电商平台参与预售的人数(单位:万).附:∑i=15(yi-y)2=460,∑i=15(xix)(yiy)=66,46≈6.78;样本相关系数r=∑i=1n(x19.(12分)某印刷企业为了研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步整理,得到下面的散点图及一些统计量的值.xyu∑i=17(xi∑i=17(xi·(yiy)∑i=17(ui∑i=17(u·(yiy)53.50.22300.77表中ui=1xi,u=17(1)根据散点图判断,y=a+bx与y=c+dx哪一个更适合作为该图书每册的成本费y与印刷数量x的回归方程类型;(只要求给出判断,不必说明理由(2)根据(1)中判断结果及表中数据建立y关于x的回归方程;(3)若该图书每册的定价为9元,则至少应该印刷多少册图书,才能使销售利润不低于80000元(假设能够全部售出)?附:对于一组数据(w1,v1),(w2,v2),…,(wn,vn),其经验回归直线v^=β^w+α^的斜率和截距的最小二乘估计分别为β^=∑i=120.(12分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层随机抽样的方法从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在25周岁以上(含25周岁)和25周岁以下分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到的频率分布直方图分别如图1,图2所示.图1图2(1)从样本中日平均生产件数不足60的工人中随机抽取2人,求至少抽到一名25周岁以下工人的概率;(2)规定日平均生产件数不少于80者为生产能手,请你根据已知条件列出2×2列联表,并依据α=0.1的独立性检验,分析生产能手与工人所在的年龄组是否有关.附:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828χ2=n(ad-21.(12分)某大型企业对其产品进行研发与创新,根据市场调研与模拟,得到研发投入x(亿元)与研发创新的直接收益y(亿元)的数据统计如下:x2346810132122232425y1322314250565868.56867.56666当0<x≤17时,建立了y与x的两个回归模型:模型①:y^=4.1x+11.8,模型②:y^=21.3x14.4;当x>17时,确定y与x满足的经验回归方程为y^=(1)根据下列表格中的数据,比较当0<x≤17时,模型①和②的决定系数,并选择拟合精度更高、更可靠的模型,预测该企业对产品研发的投入为17亿元时的直接收益;回归模型模型①模型②回归方程y^y^=21.3x∑i=17(yi182.479.2(2)为鼓励科技创新,当研发的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较研发投入17亿元与20亿元时公司实际收益的大小;(3)研发改造后,该公司F产品的效率X大幅提高,X服从正态分布N(0.52,0.012),公司对研发团队的奖励方案如下:若F产品的效率不超过50%,不予奖励;若F产品的效率超过50%但不超过53%,每件F产品奖励2万元;若F产品的效率超过53%,每件F产品奖励5万元.求每件F产品获得奖励的数学期望(保留两位小数).附:①决定系数R2=1∑i=1n(yi-y^i)2∑i=1n(yi-y)2;②b^=∑i=1nxi22.(12分)某班级共有50名同学(男女各占一半),为弘扬传统文化,班委组织了“古诗词男女对抗赛”,将同学随机分成25组,每组男、女同学各一名,每名同学均回答同样的五个不同问题,答对一题得一分,答错或不答得零分,满分为5分.最后25组同学得分如表:组别号12345678910111213男同学得分5455455444554女同学得分4345554555535分差1110101111021组别号141516171819202122232425男同学得分434444555433女同学得分534543553455分差100101002022(1)完成2×2列联表,并依据α=0.1的独立性检验,分析该次对抗赛是否得满分与性别是否有关;(2)某课题研究小组假设各组男、女同学分差服从正态分布N(μ,σ2),首先根据前20组男、女同学的分差确定μ和σ,然后根据后面5组同学的分差来检验模型,检验方法是:记后面5组男、女同学分差与μ的差的绝对值分别为xi(i=1,2,3,4,5),若出现下列两种情况之一,则不接受该模型,否则接受该模型.①存在xi≥3σ;②记满足2σ<xi<3σ的i的个数为k,在服从正态分布N(μ,σ2)的总体(个体数无穷大)中任意取5个个体,其中值在区间(μ3σ,μ2σ)∪(μ+2σ,μ+3σ)内的个体数大于或等于k的概率P≤0.003.该课题研究小组是否会接受该模型?参考公式和数据:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),0.8≈0.894,0.9≈0.949,0.9575≈0.803,43×0.9574≈36,432α0.10.050.01xα2.7063.8416.635

答案全解全析1.D2.C由题表得x=52,∴y=7×52+7.5=25,即15+20+m3.B把x=165代入y^=0.85x85.7,得y^=0.85×16585.7=54.55,所以在样本点(165,57)处的残差为5754.55=2.45.4.A根据题中列联表,计算得χ2=105×(10×30-45×20)255×50×30×75=33655≈6.109,由6.109>3.841=x0.05且6.109<6.635=x0.01可知,有95%5.C由题意可知,x=3+4+5+6+7+8+97=6,y=17∑i=17yi=12.167≈1.7371,则a^=y0.1675x≈1.73710.1675×6=0.732令0.1675x+0.7321>3,得x>13.5397,又x为整数,所以x≥14,x∈N*,所以估算我国森林面积会在第14次森林资源清查时首次超过3亿平方米.故选C.6.B由题图中数据得,x=1+2+3+4+105=4,y=3+4+10+5+125=6.8,∑i=15(xix)(yiy)=45,∑i=15(xi-x)2=50,∑i=15(yi-y)2=62.8,∴样本相关系数r=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2∑i=15(yi-y)2=4550×62.8≈0.8031.设y关于x的经验回归方程为y^=a^+b^x,则b^=∑i=15(xi-x)(yi-y)∑i=15(xi-x)2=4550=0.9,a^=yb^x×4=3.2,即y关于x的经验回归方程为=0.9x+3.2,可得(xi,y^y^i)的各组数据分别为(1,4.1),(2,5),(3,5.9),(4,6.8),(10,12.2),∴残差平方和为∑i=15(yi-y^i)2=22.3,故R2=1∑i=15(yi-y^i)2∑i=15(yi-y)2=122.362.8≈0.6449.去掉D(3,10)后,x'=1+2+4+104=4.25,y'=3+4+5+124=6,则∑7.D对y^=eb^x-0.5的两边同时取自然对数,得lny^=b^x0.5,∴lne+lne3+lne4+lne64=b^·1+2+3+440.5,解得8.A设男生人数为x,依题意可得列联表如下:单位:人追星不追星总计男生x5x女生xxx总计xx3若有95%的把握认为是否追星和性别有关,则χ2≥3.841,由χ2=3x2·x6·x6-5x6·x32x·x2·x29.CD10.AC题中散点图的特点是y随x的增加而增加,增加的速度越来越慢,且y<25.对于A,当c1>0,c2>0时符合题意;对于B,y=25+c1x+c对于C,当c1>0,c2>0时符合题意;对于D,y=c1(x25)+c2的增长速度保持不变,不符合题意.故选AC.11.ABD依题意得140140+n=710,m80+m=3零假设H0:市民性别和喜欢冰雪运动无关系,计算得χ2=400×(140×80−120×60)2260×140×200×200=40091≈4.396>3.841=x0.05,根据小概率值α=0.05的独立性检验,有充足证据推断H0不成立,随机对一路人进行调查,他喜欢冰雪运动的频率为140+120400=1320=0.65,则随机对一路人进行调查,他喜欢冰雪运动的可能性为65%,C由χ2≈4.396<6.635=x0.01,知没有99%的把握认为市民性别和喜欢冰雪运动有关系,D正确.故选ABD.12.AB∵x=3,去除前的经验回归方程为y^=1.5x+0.5,∴y=5.设重新求得的经验回归直线l的方程为y^=a^+b^x,则b^=1.2,∴变量x与y具有正相关关系设新的成对样本数据为(x'i,y'i),i=1,2,…,n2,x'i的平均值为x',y'i的平均值为y',则(n2)x'=nx(1.2+4.8)=3n6=3(n2),(n2)y'=ny(2.2+7.8)=5n10=5(n2),故x'=3,y'=5,∴a^=y'b^x'=5故新的经验回归方程为y^=1.2x+1.4,故B正确∵1.2<1.5,∴去除后y的估计值的增加速度比原来变慢,故C错误.把x=2代入新的经验回归方程中,得y^=3.8,∴样本点(2,3.75)的残差为3.753.8=0.05,故D错误.故选13.答案47;92;88;82;5314.答案9解析由题意知χ2≥6.635,即65×[a(30+a)-(15-a)(20-a)]215×50×20×45=13(13a-60)25400≥6.635,解得a≥8.65或a≤0.58,因为15.答案e41解析因为x1+x2+…+x7=6,所以x=x1+x2+…+x77=67,即z=lny1+lny2所以ln(y1y2…y7)=41,即y1y2…y7=e41.16.答案0.998解析由题意得x=14×(18+13+101)=10,y=14×(24+34+38+m)=96+m4,所以96+解得m=62,故y=792易得∑i=14xiyi=1所以样本相关系数r=∑i=14x17.解析(1)由题意知调查的50名学生中有20名男同学,30名女同学.由题中等高堆积条形图可知,男同学中需要帮助的有4人,不需要帮助的有16人,女同学中需要帮助的有3人,不需要帮助的有27人.(2分)则2×2列联表为单位:名男同学女同学总计需要帮助437不需要帮助162743总计203050(5分)(2)零假设H0:该校高二年级学生本年度参加学业水平考试需要年级提供帮助与性别无关.经计算得χ2=50×(4×27−3×16)27×43×20×30≈0.9967<6.635=x0.010依据α=0.010的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即认为该校高二年级学生本年度参加学业水平考试需要年级提供帮助与性别无关.(10分)18.解析(1)由题表中数据可得x=1+2+3+4+55=3,y=45+56+64+68+72所以∑i=15又∑i=15(yi-y)所以r=∑i=15(xi所以该电商平台预售的第x天与到该平台参与预售的人数y(单位:万)具有较高的线性相关程度.(6分)(2)设y关于x的经验回归方程为y^=b^x+a^由题意得b^=∑i=15(a^=yb^x=616.6×3=41.2,所以y2月20日为预售第16天,令x=16,可得y^=6.6×16+41.2=146.8,(11分故估计2月20日时到该电商平台参与预售的人数为146.8万.(12分)19.解析(1)根据题中散点图判断,y=c+dx更适合作为该图书每册的成本费y与印刷数量x的回归方程类型.(3分(2)令u=1x,则y=c+du,建立y关于u的经验回归方程,由于d^=∑i=17c^=yd^u=3.510×所以y关于u的经验回归方程为y^从而y关于x的回归方程为y^=1.5+10x.(9(3)设印刷x千册图书,依据题意得9x1.5+10xx≥80,解得x≥12,(11所以至少应该印刷12000册图书,才能使销售利润不低于80000元.(12分)20.解析(1)由已知得,样本中有25周岁以上(含25周岁)工人60名,25周岁以下工人40名.结合题图知,样本中日平均生产件数不足60的工人中,25周岁以上(含25周岁)工人有60×0.05=3(名),分别记为A1,A2,A3;25周岁以下工人有40×0.05=2(名),分别记为B1,B2.(2分)从中随机抽取2名工人,所有可能的结果共有10种,分别为(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),其中,至少抽到一名25周岁以下工人的结果共有7种,分别为(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求概率P=710.(5分(2)由题图可知,在抽取的100名工人中,25周岁以上(含25周岁)的生产能手有60×0.25=15(名),25周岁以下的生产能手有40×0.375=15(名),据此可得2×2列联表如下:单位:名生产能手非生产能手合计25周岁以上(含25周岁)15456025周岁以下152540合计3070100(8分)零假设H0:生产能手与工人所在的年龄组无关.计算可得χ2=100×(15×25−45×15)260×40×30×70≈1.786<2.706=x0.1依据α=0.1的独立性检验,没有充分证据推断H0不成立,因此认为H0成立,即认为生产能手与工人所在的年龄组无关.(12分)21.解析(1)由题表得182.4>79.2,即182.4∑i=17(yi-y)2>79.2当x=17时,y^=21.3×1714.4≈21.3×4.1所以预测该企业对产品研发的投入为17亿元时的直接收益为72.93亿元.(4分)(2)当x>17时,由已知可得x20=1+2+3+4+55=3,y60=8.5+8+7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论