




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2讲统计与统计案例[做真题]题型一抽样方法与总体分布的估计1.(2019·高考全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是()A.中位数 B.平均数C.方差 D.极差解析:选A.记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.3.(2019·高考全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解:(1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.题型二变量间的相关关系、统计案例(2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),解:(1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(2)由茎叶图知m=eq\f(79+81,2)=80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于K2=eq\f(40×(15×15-5×5)2,20×20×20×20)=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[山东省学习指导意见]1.随机抽样理解随机抽样的必要性和重要性,学会用简单随机抽样方法从总体中抽取样本,通过对实例的分析,了解分层抽样和系统抽样方法.2.用样本估计总体(1)在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.(2)理解样本数据标准差的意义和作用,学会计算数字特征(如平均数、标准差),并作出合理的解释.(3)会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性.3.统计案例(1)通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,并能初步应用.(2)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.用样本估计总体[典型例题](2019·广东六校第一次联考)某市大力推广纯电动汽车,对购买用户依照车辆出厂续驶里程R(单位:千米)的行业标准,予以地方财政补贴,其补贴标准如下表:出厂续驶里程R/千米补贴/(万元/辆)150≤R<2503250≤R<3504R≥3504.52017年底某部门随机调查该市1000辆纯电动汽车,统计其出厂续驶里程R,得到频率分布直方图如上图所示,用样本估计总体,频率估计概率,解决如下问题:(1)求该市每辆纯电动汽车2017年地方财政补贴的均值;(2)某企业统计2017年其充电站100天中各天充电车辆数,得如下频数分布表:辆数[5500,6500)[6500,7500)[7500,8500)[8500,9500]天数20304010(同一组中的数据用该组区间的中点值作代表)2018年2月,国家出台政策,将纯电动汽车财政补贴逐步转移到充电基础设施建设上来,该企业拟将转移补贴资金用于添置新型充电设备.现有直流、交流两种充电桩可供购置,直流充电桩5万元/台,每台每天最多可以充电30辆车,每天维护费用500元/台;交流充电桩1万元/台,每台每天最多可以充电4辆车,每天维护费用80元/台.该企业现有两种购置方案:方案一,购买100台直流充电桩和900台交流充电桩;方案二,购买200台直流充电桩和400台交流充电桩.假设车辆充电时优先使用新设备,且充电一辆车产生25元的收入,用2017年的统计数据,分别估计该企业在两种方案下新设备产生的日利润(日利润=日收入-日维护费用).【解】(1)依题意可得纯电动汽车地方财政补贴的分布列为补贴/(万元/辆)344.5概率0.20.50.3所以该市每辆纯电动汽车2017年地方财政补贴的均值为3×0.2+4×0.5+4.5×0.3=3.95(万元).(2)由频数分布表得每天需要充电车辆数的分布列为辆数6000700080009000概率0.20.30.40.1若采用方案一,100台直流充电桩和900台交流充电桩每天可充电车辆数为30×100+4×900=6600,可得实际充电车辆数的分布列为实际充电车辆数60006600概率0.20.8于是估计在方案一下新设备产生的日利润为25×(6000×0.2+6600×0.8)-500×100-80×900=40000(元).若采用方案二,200台直流充电桩和400台交流充电桩每天可充电车辆数为30×200+4×400=7600,可得实际充电车辆数的分布列为实际充电车辆数600070007600概率0.20.30.5于是估计在方案二下新设备产生的日利润为25×(6000×0.2+7000×0.3+7600×0.5)-500×200-80×400=45500(元).eq\a\vs4\al()(1)统计中的5个数据特征①众数:在样本数据中,出现次数最多的那个数据.②中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.③平均数:样本数据的算术平均数,即eq\o(x,\s\up6(-))=eq\f(1,n)(x1+x2+…+xn).④方差与标准差:s2=eq\f(1,n)[(x1-eq\o(x,\s\up6(-)))2+(x2-eq\o(x,\s\up6(-)))2+…+(xn-eq\o(x,\s\up6(-)))2];s=eq\r(\f(1,n)[(x1-)2+(x2-)2+…+(xn-)2]).(2)从频率分布直方图中得出有关数据的技巧①频率:频率分布直方图中横轴表示组数,纵轴表示eq\f(频率,组距),频率=组距×eq\f(频率,组距).②频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.③众数:最高小长方形底边中点的横坐标.④中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.⑤平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.⑥性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[对点训练]1.(2019·武昌区调研考试)对参加某次数学竞赛的1000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.(1)根据直方图完成以下表格;成绩[50,60)[60,70)[70,80)[80,90)[90,100]频数(2)求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛选手的成绩?解:(1)填表如下:成绩[50,60)[60,70)[70,80)[80,90)[90,100]频数50150350350100(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78,方差s2=(-23)2×0.05+(-13)2×0.15+(-3)2×0.35+72×0.35+172×0.1=101.(3)进入复赛选手的成绩为80+eq\f(350-(380-100),350)×10=82(分),所以初赛成绩为82分及其以上的选手均可进入复赛.(说明:回答82分以上,或82分及其以上均可)2.(2019·昆明市诊断测试)《中国大能手》是央视推出的一档大型职业技能挑战赛类的节目,旨在通过该节目,在全社会传播和弘扬“劳动光劳、技能宝贵、创造伟大”的时代风尚.某公司准备派出选手代表公司参加《中国大能手》职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间(单位:秒)及挑战失败(用“×”表示)的情况如表1:序号123456789101112131415甲×9693×92×9086××8380787775乙×95×93×92×8883×8280807473表1据表1中甲、乙两位选手完成该项关键技能挑战所用时间的数据,应用统计软件得表2:均值/秒方差甲8550.2乙8454表2(1)在表1中,从选手甲完成挑战用时低于90秒的成绩中,任取2个,求这2个成绩都低于80秒的概率;(2)若该公司只有一个参赛名额,以完成该项关键技能挑战所用时间为标准,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.解:(1)选手甲完成挑战用时低于90秒的成绩共有6个,其中低于80秒的成绩有3个,分别记为A1,A2,A3,其余的3个分别记为B1,B2,B3,从6个成绩中任取2个的所有取法有:A1A2,A1A3,A1B1,A1B2,A1B3,A2A3,A2B1,A2B2,A2B3,A3B1,A3B2,A3B3,B1B2,B1B3,B2B3,共5+4+3+2+1=15(种),其中2个成绩都低于80秒的有A1A2,A1A3,A2A3,共3种,所以所取的2个成绩都低于80秒的概率P=eq\f(3,15)=eq\f(1,5).(2)甲、乙两位选手完成关键技能挑战的次数都为10,挑战失败的次数都为5,所以只需要比较他们完成关键技能挑战的情况即可,其中eq\o(x,\s\up6(-))甲=85(秒),eq\o(x,\s\up6(-))乙=84(秒),seq\o\al(2,甲)=50.2,seq\o\al(2,乙)=54.答案①:选手乙代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,但eq\o(x,\s\up6(-))甲>eq\o(x,\s\up6(-))乙,乙选手平均用时更短.答案②:选手甲代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,虽然eq\o(x,\s\up6(-))甲>eq\o(x,\s\up6(-))乙,但两者相差不大,水平相当,seq\o\al(2,甲)<seq\o\al(2,乙),表明甲选手的发挥更稳定.答案③:选手乙代表公司参加职业技能挑战赛比较合适,因为在相同次数的挑战中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,但x乙<x甲,乙选手平均用时更短,从表1中的数据整体看,甲、乙的用时都逐步减少,seq\o\al(2,乙)>seq\o\al(2,甲),说明乙选手进步幅度更大,成绩提升趋势更好.(答案不唯一,可酌情给分)回归分析[典型例题]命题角度一线性回归分析某地1~10岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i=1,2,…,10)如下表:x/岁12345678910y/cm76.588.596.8104.1111.3117.7124.0130.0135.4140.2对上表的数据作初步处理,得到下面的散点图及一些统计量的值.eq\o(x,\s\up6(-))eq\o(y,\s\up6(-))eq\o(∑,\s\up6(10),\s\do4(i=1))(eq\o(x,\s\up6(-))i-x)2eq\o(∑,\s\up6(10),\s\do4(i=1))(yi-eq\o(y,\s\up6(-)))2eq\o(∑,\s\up6(10),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))(yi-eq\o(y,\s\up6(-)))5.5112.4582.503947.71566.85(1)求y关于x的线性回归方程(线性回归方程系数精确到0.01);(2)某同学认为y=px2+qx+r更适宜作为y关于x的回归方程类型,他求得的回归方程是eq\o(y,\s\up6(^))=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?附:回归方程eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x中的斜率和截距的最小二乘估计公式分别为:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-)(yi-),\o(∑,\s\up6(n),\s\do4(i=1))(xi-)2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).【解】(1)eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(10),\s\do4(i=1))(xi-)(yi-),\o(∑,\s\up6(10),\s\do4(i=1))(xi-)2)=eq\f(566.85,82.50)≈6.871≈6.87,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))=112.45-6.871×5.5≈74.66,所以y关于x的线性回归方程为eq\o(y,\s\up6(^))=6.87x+74.66.(2)若回归方程为eq\o(y,\s\up6(^))=6.87x+74.66,当x=11时,eq\o(y,\s\up6(^))=150.23.若回归方程为eq\o(y,\s\up6(^))=-0.30x2+10.17x+68.07,当x=11时,y=143.64.|143.64-145.3|=1.66<|150.23-145.3|=4.93,所以回归方程eq\o(y,\s\up6(^))=-0.30x2+10.17x+68.07对该地11岁男童身高中位数的拟合效果更好.eq\a\vs4\al()求回归直线方程的关键及实际应用(1)关键:正确理解计算eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二非线性回归分析某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.eq\o(x,\s\up6(-))eq\o(y,\s\up6(-))eq\o(u,\s\up6(-))eq\o(∑,\s\up6(8),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))2eq\o(∑,\s\up6(8),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))·(yi-eq\o(y,\s\up6(-)))eq\o(∑,\s\up6(8),\s\do4(i=1))(ui-eq\o(u,\s\up6(-)))2eq\o(∑,\s\up6(8),\s\do4(i=1))(ui-eq\o(u,\s\up6(-)))·(yi-eq\o(y,\s\up6(-)))15.253.630.2692085.5-230.30.7877.049表中ui=eq\f(1,xi),eq\o(u,\s\up6(-))=eq\f(1,8)eq\o(∑,\s\up6(8),\s\do4(i=1))ui.(1)根据散点图判断:y=a+bx与y=c+eq\f(d,x)哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?(假设能够全部售出,结果精确到1)附:对于一组数据(w1,v1),(w2,v2),…,(wn,vn),其回归直线eq\o(v,\s\up6(^))=eq\o(α,\s\up6(^))+eq\o(β,\s\up6(^))w的斜率和截距的最小二乘估计分别为eq\o(β,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(wi-)(vi-),\o(∑,\s\up6(n),\s\do4(i=1))(wi-)2),eq\o(α,\s\up6(^))=eq\o(v,\s\up6(-))-eq\o(β,\s\up6(^))eq\o(w,\s\up6(-)).【解】(1)由散点图判断,y=c+eq\f(d,x)更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.(2)令u=eq\f(1,x),先建立y关于u的线性回归方程,由于eq\o(d,\s\up6(^))=eq\f(\o(∑,\s\up6(8),\s\do4(i=1))(ui-)(yi-),\o(∑,\s\up6(8),\s\do4(i=1))(ui-)2)=eq\f(7.049,0.787)≈8.957≈8.96,所以eq\o(c,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(d,\s\up6(^))·eq\o(u,\s\up6(-))=3.63-8.957×0.269≈1.22,所以y关于u的线性回归方程为eq\o(y,\s\up6(^))=1.22+8.96u,所以y关于x的回归方程为eq\o(y,\s\up6(^))=1.22+eq\f(8.96,x).(3)假设印刷x千册,依题意得10x-eq\b\lc\(\rc\)(\a\vs4\al\co1(1.22+\f(8.96,x)))x≥78.840,解得x≥10,所以至少印刷10000册才能使销售利润不低于78840元.eq\a\vs4\al()求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.命题角度三回归分析与正态分布的综合问题某地一商场记录了12月份某5天当中某商品的销售量y(单位:kg)与该地当日最高气温x(单位:℃)的相关数据,如下表:x119852y7881012(1)试求y与x的回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^));(2)判断y与x之间是正相关还是负相关;若该地12月某日的最高气温是6℃,试用所求回归方程预测这天该商品的销售量;(3)假定该地12月份的日最高气温X~N(μ,σ2),其中μ近似取样本平均数x,σ2近似取样本方差s2,试求P(3.8<X<13.4).附:参考公式和有关数据eq\b\lc\{(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n,\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-nx2)=\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-)(yi-),\o(∑,\s\up6(n),\s\do4(i=1))(xi-)2),\o(a,\s\up6(^))=-\o(b,\s\up6(^)))),eq\r(10)≈3.2,eq\r(3.2)≈1.8,若X~N(μ,σ2),则P(μ-σ<X<μ+σ)=0.6827,且P(μ-2σ<X<μ+2σ)=0.9545.【解】(1)由题意,eq\o(x,\s\up6(-))=7,eq\o(y,\s\up6(-))=9,eq\o(∑,\s\up6(n),\s\do4(i=1))xiyi-neq\o(x,\s\up6(-))eq\o(y,\s\up6(-))=287-5×7×9=-28,eq\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-neq\o(x,\s\up6(-))2=295-5×72=50,eq\o(b,\s\up6(^))=-eq\f(28,50)=-0.56,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))x=9-(-0.56)×7=12.92.所以所求回归直线方程为eq\o(y,\s\up6(^))=-0.56x+12.92.(2)由eq\o(b,\s\up6(^))=-0.56<0知,y与x负相关.将x=6代入回归方程可得,eq\o(y,\s\up6(^))=-0.56×6+12.92=9.56,即可预测当日该商品的销售量为9.56kg.(3)由(1)知μ≈eq\o(x,\s\up6(-))=7,σ≈eq\r(s2)≈3.2,所以P(3.8<X<13.4)=P(μ-σ<X<μ+2σ)=eq\f(1,2)P(μ-σ<X<μ+σ)+eq\f(1,2)P(μ-2σ<X<μ+2σ)=0.8186.eq\a\vs4\al()解决与正态分布有关的问题,在理解μ,σ2意义的情况下,记清正态分布的密度曲线是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2019·山东八所重点中学联考)某部门经统计,客户对不同款型理财产品的最满意度百分比和对应的理财总销售量(单位:万元)如下表(最满意度百分比越高时总销售量越高):产品款型ABCDEFGHIJ最满意度百分比/%20342519262019241913总销售量/万元80898978757165626052设x表示理财产品最满意度的百分比,y为该理财产品的总销售量(单位:万元),这些数据的散点图如图所示.(1)在5份A款型理财产品的客户满意度调查资料中只有一份是最满意的,从这5份资料中任取2份,求含有最满意客户资料的概率.(2)我们约定:相关系数的绝对值在0.3以下是无线性相关,在0.3以上(含0.3)至0.75是一般线性相关,在0.75以上(含0.75)是较强线性相关,y与x是否达到较强线性相关?若达到,请求出线性回归方程;若没有达到较强线性相关,则采取“末位”剔除制度(即总销售量最少的那一款型产品退出理财销售),请求在剔除“末位”款型后的线性回归方程(系数精确到0.1).数据参考计算值:eq\o(x,\s\up6(-))eq\o(y,\s\up6(-))eq\o(∑,\s\up6(10),\s\do4(i=1))xeq\o\al(2,i)-10eq\o(x,\s\up6(-))2eq\r(\o(∑,\s\up6(10),\s\do4(i=1))yeq\o\al(2,i)-102)eq\o(∑,\s\up6(10),\s\do4(i=1))xiyi-10eq\o(x,\s\up6(-))·eq\o(y,\s\up6(-))eq\r(288.9)参考计算值21.972.1288.937.16452.117.00附:线性相关系数r=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n·,\r(\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n2)\r(\o(∑,\s\up6(n),\s\do4(i=1))yeq\o\al(2,i)-n2)),回归直线方程eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x的斜率和截距的最小二乘法估计分别为eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n·,\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).解:(1)在5份A款型理财产品的客户资料中只有1份是最满意的,把最满意客户资料记为a,其余客户资料记为b,c,d,e.则任取2份资料的基本事件有(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个.含有a的基本事件有(a,b),(a,c),(a,d),(a,e),共4个.则含有最满意客户资料的概率为eq\f(4,10)=eq\f(2,5).(2)线性相关系数r=eq\f(\o(∑,\s\up6(10),\s\do4(i=1))xiyi-10·,\r(\o(∑,\s\up6(10),\s\do4(i=1))xeq\o\al(2,i)-102)\r(\o(∑,\s\up6(10),\s\do4(i=1))yeq\o\al(2,i)-102))=eq\f(452.1,17×37.16)≈0.72∈[0.3,0,75),即y与x具有一般线性相关关系,没有达到较强线性相关关系.由“末位”剔除制度可知,应剔除J款型理财产品,重新计算得x′=eq\f(10×21.9-13,9)=eq\f(206,9)≈22.89,eq\o(y,\s\up6(-))′=eq\f(10×72.1-52,9)=eq\f(669,9)≈74.33,eq\o(∑,\s\up6(9),\s\do4(i=1))xeq\o\al(2,i)-9eq\o(x,\s\up6(-))′2=288.9+10×21.92-132-9×22.892≈200.43,eq\o(∑,\s\up6(9),\s\do4(i=1))xiyi-9eq\o(x,\s\up6(-))′·eq\o(y,\s\up6(-))′=452.1+10×21.9×72.1-13×52-9×22.89×74.33≈253.28.eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(9),\s\do4(i=1))xiyi-9′·′,\o(∑,\s\up6(9),\s\do4(i=1))xeq\o\al(2,i)-9′2)=eq\f(253.28,200.43)≈1.26≈1.3.eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))′-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))′=74.33-1.26×22.89≈45.5.所求线性回归方程为eq\o(y,\s\up6(^))=45.5+1.3x.(注:若用eq\o(b,\s\up6(^))=1.3计算出a≈44.6,即eq\o(y,\s\up6(^))=44.6+1.3x不扣分)独立性检验[典型例题](2019·江西八所重点中学联考)2019年2月25日,第11届罗马尼亚数学大师赛(简称RMM)于罗马尼亚首都布加勒斯特闭幕,最终成绩揭晓,以色列选手排名第一,而中国队无一人获得金牌,最好成绩是获得银牌的第15名,总成绩排名第6.在分量极重的国际数学奥林匹克(IMO)比赛中,过去拿冠军拿到手软的中国队,已经连续4年没有拿到冠军了.人们不禁要问“中国奥数究竟怎么了?”,一时间关于各级教育主管部门是否应该下达“禁奥令”成为社会讨论的热点.某重点高中培优班共50人,现就这50人对“禁奥令”的态度进行问卷调查,得到如下的列联表:不应下“禁奥令”应下“禁奥令”总计男生5女生10总计50若按对“禁奥令”的态度采用分层抽样的方法从50人中抽出10人进行重点调查,知道其中认为不应下“禁奥令”的同学共有6人.(1)请将上面的列联表补充完整,并判断是否有99%的把握认为对下“禁奥令”的态度与性别有关?说明你的理由;(2)现从这10人中抽出2名男生、2名女生,记此4人中认为不应下“禁奥令”的人数为ξ,求ξ的分布列和数学期望.参考公式与数据:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))P(K2≥k0)0.1000.0500.0100.001k02.7063.8416.63510.828【解】(1)由题意将列联表补充如下:不应下“禁奥令”应下“禁奥令”总计男生20525女生101525总计302050所以K2=eq\f(50×(20×15-5×10)2,25×25×30×20)≈8.333>6.635,所以有99%的把握认为对下“禁奥令”的态度与性别有关.(2)由题意,可知在这10人中,男、女生各5人,其中男生有4人、女生有2人认为不应下“禁奥令”,ξ的所有可能取值有1,2,3,4.P(ξ=1)=eq\f(Ceq\o\al(1,4)Ceq\o\al(1,1)Ceq\o\al(2,3),Ceq\o\al(2,5)Ceq\o\al(2,5))=eq\f(12,100);P(ξ=2)=eq\f(Ceq\o\al(2,4)Ceq\o\al(2,3)+Ceq\o\al(1,4)Ceq\o\al(1,1)Ceq\o\al(1,2)Ceq\o\al(1,3),Ceq\o\al(2,5)Ceq\o\al(2,5))=eq\f(42,100);P(ξ=3)=eq\f(Ceq\o\al(1,4)Ceq\o\al(1,1)Ceq\o\al(2,2)+Ceq\o\al(2,4)Ceq\o\al(1,2)Ceq\o\al(1,3),Ceq\o\al(2,5)Ceq\o\al(2,5))=eq\f(40,100);P(ξ=4)=eq\f(Ceq\o\al(2,4)Ceq\o\al(2,2),Ceq\o\al(2,5)Ceq\o\al(2,5))=eq\f(6,100).所以ξ的分布列是ξ1234Peq\f(12,100)eq\f(42,100)eq\f(40,100)eq\f(6,100)所以E(ξ)=eq\f(12+2×42+3×40+4×6,100)=2.4.eq\a\vs4\al()独立性检验的关键(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.[对点训练](2019·武汉市调研测试)2019年,在庆祝中华人民共和国成立70周年之际,又迎来了以“创军人荣耀,筑世界和平”为口号的第七届世界军人运动会(以下简称“军运会”).据悉,这次军运会将于2019年10月18日至27日在美丽的江城武汉举行,届时将有来自100多个国家的近万名军人运动员参赛.相对于奥运会、亚运会等大型综合赛事,军运会或许对很多人来说还很陌生,所以武汉某高校为了在学生中更广泛地推介普及军运会相关知识内容,特在网络上组织了一次“我所知晓的武汉军运会”知识问答比赛.为便于对答卷进行对比研究,组委会抽取了1000名男生和1000名女生的答卷,他们的成绩(单位:分)频率分布直方图如下:(注:答卷满分100分,成绩≥80的答卷为“优秀”等级)(1)从现有1000名男生和1000名女生的答卷中各取一份,分别求答卷成绩为“优秀”等级的概率;(2)求下面列联表中a,b,c,d的值,并根据列联表回答:能否在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”?男女总计优秀aba+b非优秀cdc+d总计100010002000(3)根据男、女生成绩频率分布直方图,对他们的成绩的优劣进行比较.附:P(K2≥k0)0.050.0250.010k03.8415.0246.635K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.解:(1)男生答卷成绩为“优秀”等级的概率P=(0.058+0.034+0.014+0.010)×5=0.58,女生答卷成绩为“优秀”等级的概率P=(0.046+0.034+0.016+0.010)×5=0.53.(2)男女总计优秀5805301110非优秀420470890总计100010002000所以a=580,b=530,c=420,d=470.由K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))得,K2=eq\f(2000×(580×470-530×420)2,1110×890×1000×1000)≈5.061>5.024,所以在犯错误的概率不超过0.025的前提下认为“答卷成绩为‘优秀’等级与性别有关”.(3)根据男、女生成绩频率分布直方图可得,男、女生成绩的中位数均在80到85之间,但男生的成绩分布集中程度较女生成绩分布集中程度高,因此,可以认为男生的成绩较好且稳定.[A组夯基保分专练]一、选择题1.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢4800720064001600电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为()A.25,25,25,25 B.48,72,64,16C.20,40,30,10 D.24,36,32,8解析:选D.法一:因为抽样比为eq\f(100,20000)=eq\f(1,200),所以每类人中应抽选出的人数分别为4800×eq\f(1,200)=24,7200×eq\f(1,200)=36,6400×eq\f(1,200)=32,1600×eq\f(1,200)=8.故选D.法二:最喜爱、喜爱、一般、不喜欢的比例为4800∶7200∶6400∶1600=6∶9∶8∶2,所以每类人中应抽选出的人数分别为eq\f(6,6+9+8+2)×100=24,eq\f(9,6+9+8+2)×100=36,eq\f(8,6+9+8+2)×100=32,eq\f(2,6+9+8+2)×100=8,故选D.2.(2019·湖南省五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为()A.39 B.35C.15 D.11解析:选D.由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78,所以成绩在[13,15)内的频率为1-0.78=0.22,则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.3.(2019·武汉市调研测试)某学校为了了解本校学生的上学方式,在全校范围内随机抽查部分学生,了解到上学方式主要有:A—结伴步行,B—自行乘车,C—家人接送,D—其他方式.并将收集的数据整理绘制成如下两幅不完整的统计图.请根据图中信息,求本次抽查的学生中A类人数是()A.30 B.40C.42 D.48解析:选A.由条形统计图知,B—自行乘车上学的有42人,C—家人接送上学的有30人,D—其他方式上学的有18人,采用B,C,D三种方式上学的共90人,设A—结伴步行上学的有x人,由扇形统计图知,A—结伴步行上学与B—自行乘车上学的学生占60%,所以eq\f(x+42,x+90)=eq\f(60,100),解得x=30,故选A.4.(2019·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:x(单位:℃)171410-1y(单位:kW·h)243438a由表中数据得线性回归方程eq\o(y,\s\up6(^))=-2x+60,则a的值为()A.48 B.62C.64 D.68解析:选C.由题意,得x=eq\f(17+14+10-1,4)=10,y=eq\f(24+34+38+a,4)=eq\f(96+a,4).样本点的中心(x,y)在回归直线eq\o(y,\s\up6(^))=-2x+60上,代入线性回归方程可得eq\f(96+a,4)=-20+60,解得a=64,故选C.5.(2019·郑州市第二次质量预测)将甲、乙两个篮球队各5场比赛的得分数据整理成如图所示的茎叶图,由图可知以下结论正确的是()A.甲队平均得分高于乙队的平均得分B.甲队得分的中位数大于乙队得分的中位数C.甲队得分的方差大于乙队得分的方差D.甲、乙两队得分的极差相等解析:选C.由题中茎叶图得,甲队的平均得分x甲=eq\f(26+28+29+31+31,5)=29,乙队的平均得分x乙=eq\f(28+29+30+31+32,5)=30,x甲<x乙,选项A不正确;甲队得分的中位数为29,乙队得分的中位数为30,甲队得分的中位数小于乙队得分的中位数,选项B不正确;甲队得分的方差seq\o\al(2,甲)=eq\f(1,5)×[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=eq\f(18,5),乙队得分的方差seq\o\al(2,乙)=eq\f(1,5)×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2,seq\o\al(2,甲)>seq\o\al(2,乙),选项C正确;甲队得分的极差为31-26=5,乙队得分的极差为32-28=4,两者不相等,选项D不正确.故选C.6.(多选)CPI是居民消费价格指数(consumerpriceindex)的简称.居民消费价格指数是一个反映居民家庭一般所购买的消费品和服务项目价格水平变动情况的宏观经济指标.如图是根据国家统计局发布的2017年6月—2018年6月我国CPI涨跌幅数据绘制的折线图(注:2018年6月与2017年6月相比较,叫同比;2018年6月与2018年5月相比较,叫环比),根据该折线图,则下列结论错误的是()A.2018年1月至6月各月与去年同期比较,CPI有涨有跌B.2018年2月至6月CPI只跌不涨C.2018年3月以来,CPI在缓慢增长D.2017年8月与同年12月相比较,8月环比更大解析:选ABC.A选项,2018年1月至6月各月与去年同期比较,CPI均是上涨的,故A错误;B选项,2018年2月CPI是增长的,故B错误;C选项,2018年3月以来,CPI是下跌的,故C错误;D选项,2017年8月CPI环比增长0.4%,12月环比增长0.3%,故D正确.故选ABC.二、填空题7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________,平均数为________.解析:把10场比赛的所得分数按顺序排列为5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为eq\f(14+16,2)=15,平均数为eq\f(1,10)(5+8+9+12+14+16+16+19+21+24)=14.4.答案:1514.48.已知一组数据x1,x2,…,xn的方差为2,若数据ax1+b,ax2+b,…,axn+b(a>0)的方差为8,则a的值为________.解析:根据方差的性质可知,a2×2=8,故a=2.答案:29.给出下列四个命题:①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,如果7号、33号、46号同学在样本中,那么样本中另一位同学的编号为23;②一组数据1,2,3,3,4,5的平均数、众数、中位数都相同;③若一组数据a,0,1,2,3的平均数为1,则其标准差为2;④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为eq\o(y,\s\up6(^))=eq\o(a,\s\up6(^))+eq\o(b,\s\up6(^))x,其中eq\o(a,\s\up6(^))=2,x=1,y=3,则eq\o(b,\s\up6(^))=1.其中真命题有________(填序号).解析:在①中,由系统抽样知抽样的分段间隔为52÷4=13,故抽取的样本的编号分别为7号、20号、33号、46号,故①是假命题;在②中,数据1,2,3,3,4,5的平均数为eq\f(1,6)(1+2+3+3+4+5)=3,中位数为3,众数为3,都相同,故②是真命题;在③中,因为样本的平均数为1,所以a+0+1+2+3=5,解得a=-1,故样本的方差为eq\f(1,5)[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2,标准差为eq\r(2),故③是假命题;在④中,回归直线方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+2,又回归直线过点(x,y),把(1,3)代入回归直线方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+2,得eq\o(b,\s\up6(^))=1,故④是真命题.答案:②④三、解答题10.(2019·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:平均每周进行长跑训练天数不大于23或4不少于5人数3013040若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?热烈参与者非热烈参与者总计男140女55总计附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))(n为样本容量)P(K2≥k0)0.5000.4000.2500.1500.1000.0500.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20000×eq\f(40,200)=4000.(2)2×2列联表为热烈参与者非热烈参与者总计男35105140女55560总计40160200K2=eq\f(200×(35×55-105×5)2,40×160×140×60)≈7.292>6.635,故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.11.(2019·武汉市调研测试)中共十九大以来,某贫困地区扶贫办积极贯彻落实国家精准扶贫的要求,带领广大农村地区人民群众脱贫奔小康.经过不懈的奋力拼搏,新农村建设取得巨大进步,农民年收入也逐年增加.为了更好地制定2019年关于加快提升农民年收入,力争早日脱贫的工作计划,该地扶贫办统计了2018年50位农民的年收入(单位:千元)并制成如下频率分布直方图:(1)根据频率分布直方图,估计50位农民的年平均收入x(单位:千元)(同一组数据用该组数据区间的中点值表示).(2)由频率分布直方图,可以认为该贫困地区农民年收入X服从正态分布N(μ,σ2),其中μ近似为年平均收入x,σ2近似为样本方差s2,经计算得s2=6.92.利用该正态分布,解决下列问题:(i)在2019年脱贫攻坚工作中,若使该地区约有占总农民人数的84.14%的农民的年收入高于扶贫办制定的最低年收入标准,则最低年收入大约为多少千元?(ii)为了调研“精准扶贫,不落一人”的落实情况,扶贫办随机走访了1000位农民.若每个农民的年收入相互独立,问:这1000位农民中年收入不少于12.14千元的人数最有可能是多少?附:参考数据与公式eq\r(6.92)≈2.63,若X~N(μ,σ2),则①P(μ-σ<X≤μ+σ)≈0.6827;②P(μ-2σ<X≤μ+2σ)≈0.9545;③P(μ-3σ<X≤μ+3σ)≈0.9973.解:(1)x=12×0.04+14×0.12+16×0.28+18×0.36+20×0.10+22×0.06+24×0.04=17.40(千元).(2)由题意,X~N(17.40,6.92).(i)P(X>μ-σ)≈eq\f(1,2)+eq\f(0.6827,2)≈0.8414,μ-σ≈17.40-2.63=14.77,即最低年收入大约为14.77千元.(ii)由P(X≥12.14)=P(X≥μ-2σ)≈0.5+eq\f(0.9545,2)≈0.9773,得每个农民的年收入不少于12.14千元的事件的概率为0.9773,记这1000位农民中年收入不少于12.14千元的人数为ξ,则ξ~B(103,p),其中p=0.9773,于是恰好有k位农民的年收入不少于12.14千元的事件的概率是P(ξ=k)=Ck103pk(1-p)103-k,从而由eq\f(P(ξ=k),P(ξ=k-1))=eq\f((1001-k)×p,k×(1-p))>1,得k<1001p,由eq\f(P(ξ=k),P(ξ=k+1))=eq\f((k+1)(1-p),(1000-k)p)>1,得k>1001p-1,而1001p=978.2773,所以,977.2773<k<978.2773,由此可知,在所走访的1000位农民中,年收入不少于12.14千元的人数最有可能是978.12.(2019·洛阳市统考)某学校高三年级共有4个班,其中实验班和普通班各2个,且各班学生人数大致相当.在高三第一次数学统一测试(满分100分)成绩揭晓后,教师对这4个班的数学成绩进行了统计分析,其中涉及试题“难度”和“区分度”等指标.根据该校的实际情况,规定其具体含义如下:难度=eq\f(4个班平均分,100),区分度=eq\f(实验班平均分-普通班平均分,100).(1)现从这4个班中各随机抽取5名学生,根据这20名学生的数学成绩,绘制茎叶图如下:请根据以上样本数据,估计该次考试试题的难度和区分度;(2)为了研究试题的区分度与难度的关系,调取了该校上一届高三6次考试的成绩分析数据,得到下表:考试序号123456难度x0.650.710.730.760.770.82区分度y0.120.160.160.190.200.13①用公式r=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-x)(yi-y),\r(\o(∑,\s\up6(n),\s\do4(i=1))(xi-x)2\o(∑,\s\up6(n),\s\do4(i=1))(yi-y)2))计算区分度y与难度x之间的相关系数r(精确到0.001);②判断y与x之间相关关系的强与弱,并说明是否适宜用线性回归模型拟合y与x之间的关系.参考数据:eq\o(∑,\s\up6(6),\s\do4(i=1))xiyi=0.7134,eq\r(\o(∑,\s\up6(6),\s\do4(i=1))(xi-x)2\o(∑,\s\up6(6),\s\do4(i=1))(yi-y)2)≈0.0092.解:(1)由茎叶图知,实验班这10人的数学总成绩为860分,普通班这10人的数学总成绩为700分,故这20人的数学平均成绩为eq\f(860+700,20)=78(分),由此估计这4个班的平均分为78分,所以难度=eq\f(78,100)=0.78.由eq\f(860,10)=86估计实验班的平均分为86分,由eq\f(700,10)=70估计普通班的平均分为70分,所以区分度=eq\f(86-70,100)=0.16.(2)①由于eq\o(∑,\s\up6(n),\s\do4(i=1))(xi-x)(yi-y)=eq\o(∑,\s\up6(n),\s\do4(i=1))(xiyi-yxi-xyi+xy)=eq\o(∑,\s\up6(n),\s\do4(i=1))xiyi-yeq\o(∑,\s\up6(n),\s\do4(i=1))xi-xeq\o(∑,\s\up6(n),\s\do4(i=1))yi+nxy=eq\o(∑,\s\up6(n),\s\do4(i=1))xiyi-nxy-nxy+nxy=eq\o(∑,\s\up6(n),\s\do4(i=1))xiyi-nxy,且eq\o(∑,\s\up6(6),\s\do4(i=1))xiyi=0.7134,eq\r(\o(∑,\s\up6(6),\s\do4(i=1))(xi-x)2\o(∑,\s\up6(6),\s\do4(i=1))(yi-y)2)≈0.0092,6xy=6×0.74×0.16=0.7104,所以r=eq\f(\o(∑,\s\up6(6),\s\do4(i=1))(xi-x)(yi-y),\r(\o(∑,\s\up6(6),\s\do4(i=1))(xi-x)2\o(∑,\s\up6(6),\s\do4(i=1))(yi-y)2))=eq\f(\o(∑,\s\up6(6),\s\do4(i=1))xiyi-6xy,\r(\o(∑,\s\up6(6),\s\do4(i=1))(xi-x)2\o(∑,\s\up6(6),\s\do4(i=1))(yi-y)2))≈eq\f(0.7134-0.7104,0.0092)≈0.326.②由于r≈0.326∈[0.30,0.75),故两者之间相关性非常一般,不适宜用线性回归模型拟合y与x之间的关系,即使用线性回归模型来拟合,效果也不理想.[B组大题增分专练]1.(2019·济南市七校联合考试)“黄梅时节家家雨”“梅雨如烟暝村树”“梅雨暂收斜照明”……江南梅雨的点点滴滴都流润着浓烈的诗情.每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:(1)“梅实初黄暮雨深”,请用样本平均数估计Q镇明年梅雨季节的降雨量;(2)“江南梅雨无限愁”,Q镇的杨梅种植户老李也在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成),而乙品种杨梅2009~2018年的亩产量(单位:kg)与降雨量的发生频数(年)如2×2列联表所示(部分数据缺失),请你帮助老李排解忧愁,他来年应该种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)降雨量亩产量[200,400)[100,200)∪[400,500]总计<6002≥6001总计10附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.P(K2≥k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706解:(1)频率分布直方图中第四组的频率为1-100×(0.002+0.004+0.003)=0.1.所以用样本平均数估计Q镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.降雨量亩产量[200,400)[100,200)∪[400,500]总计<600224≥600516总计7310K2=eq\f(10×(2×1-5×2)2,7×3×4×6)=eq\f(80,63)≈1.270<1.323.故认为乙品种杨梅的亩产量与降雨量有关的把握不足75%.而甲品种杨梅受降雨量影响的把握超过八成,故老李来年应该种植乙品种杨梅受降雨量影响更小.2.(2019·佛山模拟)表中的数据是一次阶段性考试某班的数学、物理原始成绩:学号12345678910111213141516171819202122数学1171289611313613912412412111511512312511712312213212996105106120物理80848385898191788591727687827982848963737745学号23242526272829303132333435363738394041424344数学1081378795108117104128125748113510197116102761006286120101物理7680715772656979055567763707563596442627765用这44人的两科成绩制作如下散点图:学号为22号的A同学由于严重感冒导致物理考试发挥失常,学号为31号的B同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将A,B两同学的成绩(对应于图中A,B两点)剔除后,用剩下的42个同学的数据作分析,计算得到下列统计指标:数学学科平均分为110.5,标准差为18.36,物理学科的平均分为74,标准差为11.18,数学成绩x与物理成绩y的相关系数r=0.8222,回归直线l(如图所示)的方程为eq\o(y,\s\up6(^))=0.5006x+18.68.(1)若不剔除A,B两同学的数据,用全部44人的成绩作回归分析,设数学成绩x与物理成绩y的相关系数为r0,回归直线为l0,试分析r0与r的大小关系,并在图中画出回归直线l0的大致位置.(2)如果B同学参加了这次物理考试,估计B同学的物理分数(精确到个位).(3)就这次考试而言,学号为16号的C同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平,可按公式Zi=eq\f(xi-x,s)统一化成标准分再进行比较,其中xi为学科原始成绩,x为学科平均分,s为学科标准差)解:(1)r0<r,说明理由可以是①离群点A,B会降低变量间的线性关联程度;②44个数据点与回归直线l0的总偏差更大,回归效果更差,所以相关系数更小;③42个数据点与回归直线l的总偏差更小,回归效果更好,所以相关系数更大;④42个数据点更加贴近回归直线l;⑤44个数据点与回归直线l0更离散.其他言之有理的理由均可.(直线l0的斜率须大于0且小于l的斜率,具体位置稍有出入没关系,无需说明理由)(2)将x=125代入eq\o(y,\s\up6(^))=0.5006x+18.68中,得y=62.575+18.68≈81,所以估计B同学的物理分数大约为81分.(3)由表中数据知C同学的数学原始成绩为122分,物理原始成绩为82分,则数学标准分Z16=eq\f(x16-x,s1)=eq\f(122-110.5,18.36)=eq\f(11.5,18.36)≈0.63,物理标准分Z′16=eq\f(y16-y,s2)=eq\f(82-74,11.18)=eq\f(8,11.18)≈0.72,因为0.72>0.63,所以C同学物理成绩比数学成绩要好一些.3.(2019·济南市模拟考试)某客户准备在家中安装一套净水系统,该系统为三级过滤,使用寿命为十年.如图所示,两个一级过滤器采用并联安装,二级过滤器与三级过滤器为串联安装.其中每一级过滤都由核心部件滤芯来实现.在使用过程中,一级滤芯和二级滤芯都需要不定期更换(每个滤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育行业2025年数字化营销与招生策略在创业培训领域的应用报告
- 二零二五年度电网建设电气安装工程分包合同
- 二零二五年度物联网设备采购及集成服务合同范本
- 二零二五年度木门行业电商平台合作协议
- 2025版办公楼水电设备安装与系统集成承包合同
- 二零二五年花卉种子种植技术培训与购销合同
- 二零二五年度住宅室内外装饰设计施工合同
- 二零二五年度OEM食品加工委托合作合同模板
- 2025版物流运输行业劳务派遣用工服务协议范本
- 2025年特色餐厅与旅行社定制旅游合作协议
- 交管12123驾驶证学法减分练习题库(1000题版)
- 预防艾滋病梅毒和乙肝母婴传播实施方案
- 《眼内炎患者的疾病》课件
- 《石油和化工行业产品碳足迹核算指南》
- 临时厕所施工方案
- 《工会基础知识》考试题库300题(含答案)
- 昆明理工大学《大学物理》2021-2022学年第一学期期末试卷
- 足浴城租赁合同范例
- 国际货物运输管理制度
- 《安全监察概论》课件
- 智能物业管理大数据应用方案
评论
0/150
提交评论