版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2课时成对数据的统计分析编写:廖云波【回归教材】1.变量间的相关关系(1)相关关系的定义相关关系是非确定性关系,因变量的取值具有一定的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为和.(2)散点图将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.(3)正相关与负相关①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为.②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为.2.相关系数(1)样本相关系数r的计算公式我们可以利用相关系数来定量地衡量两个变量之间的线性相关关系,计算公式为.(2)样本相关系数r的性质①;②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;③|r|越接近于1,表明两个变量的线性相关性越;④|r|越接近于0,表明两个变量的线性相关性越.3.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的的方法叫做最小二乘法.(2)经验回归方程若变量x与y具有线性相关关系,有n个样本数据,.则经验回归方程中,.称为样本点的中心.其中,4.刻画回归效果的方式方式方法计算公式刻画效果越接近于1,表示回归的效果越好残差图称为相应于点的残差,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.残差平方和残差平方和越小,模型的拟合效果越好5.独立性检验(1)分类变量:变量的不同“值”表示个体所属的,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2×2列联表构造一个随机变量,其中n=为样本容量.(3)独立性检验利用随机变量来判断“两个分类变量”的方法称为独立性检验.(4)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定k0.②利用公式计算随机变量K2的k.③如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中支持结论“X与Y有关系”.
【典例讲练】题型一变量的相关关系【例1-1】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(
)A.B.C.D.【例1-2】如图,在一组样本数据,,,,的散点图中,若去掉后,则下列说法正确的为(
)A.样本相关系数r变小B.残差平方和变大C.相关指数变小D.自变量x与因变量y的相关程度变强【例1-3】下列命题是真命题的有(
)A.经验回归方程至少经过其样本数据点中的一个B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱C.在回归分析中,决定系数的模型比决定系数的模型拟合的效果要好D.残差平方和越小的模型,拟合的效果越好归纳总结:【练习1-1】已知变量与相对应的一组数据为,变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则和0三者之间的大小关系是___________.(用符号“<”连接).【练习1-2】【多选题】变量与的成对数据的散点图如下图所示,并由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为;经过残差分析确定第二个点为离群点(对应残差过大),把点去掉后,再用剩下的7组数据计算得到回归直线的方程为,相关系数为,决定系数为.则以下结论中正确的是(
)A. B. C. D.题型二一元线性回归模型【例2-1】我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(亿元)与产品的直接收益y(亿元)的数据进行统计,得到下表:年份2015201620172018201920202021x234681013y15222740485460根据数据,可建立y关于x的两个回归模型:模型①:;模型②:.(1)根据表格中的数据,分别求出模型①,②的相关指数的大小(结果保留三位有效数字);(2)(i)根据(1)选择拟合精度更高、更可靠的模型;(ii)若2022年该公司计划投入研发费用17亿元,使用(i)中的模型预测可为该公司带来多少直接收益.回归模型模型①模型②79.1318.86附:.【例2-2】如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.归纳总结:【练习2-1】某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表海水浓度x(%)34567亩产量y(t)0.560.520.460.350.31残差0.01mn0.01绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为(1)求,m,n的值;(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?附:残差,相关指数,其中题型三一元非线性回归模型【例3-1】5G网络是指第五代移动网络通讯技术,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通讯技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居,智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.月份x123456收入y611233772124(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数);(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).参考公式及参考数据:回归方程中斜率和截距的最小二乘估计公式为:,;3.545.53.3417.5393.510.63239.85其中,().归纳总结:【练习3-1】红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.表Ⅰ温度x/℃20222527293135产卵数y/个711212465114325(1)请借助表Ⅱ中的数据,求出回归模型①的方程:表Ⅱ(注:表中)18956725.271627810611.06304041.86825.09(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.参考数据:.附:回归方程中,相关指数.
题型四独立性检验【例4-1】观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是(
)A.B.C.D.【例4-2】在某次社会机构的招聘考试中,参加考试的文科大学生与理科大学生的人数比例为,且成绩(单位:分)分布在,为调研此次考试的整体状况,按文理科用分层抽样的方法抽取160人的成绩作为样本,得到成绩的频率分布直方图如图所示,且规定70及其以上为优秀.(1)填写列联表;文科生理科生合计优秀4不优秀合计160(2)通过计算判断是否有90%的把握认为成绩优秀与大学生的文理科有关.参考公式:,其中.0.150.100.050.0250.012.0722.7063.8415.0246.635参考数据:归纳总结:【练习4-1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是(
)A.是否倾向选择生育二胎与户籍无关B.是否倾向选择生育二胎与性别有关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数【练习4-2】电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的列联表;非体育迷体育迷总计男女1055总计(2)据此资料你是否认为在犯错误的概率不超过0.10的前提下,“体育迷”与性别有关?附:参考公式:,其中【完成课时作业(六十四)】
【课时作业(六十四)】A组础题巩固1.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是(
)A.样本数据由正相关变成负相关 B.样本的相关系数不变C.样本的相关性变弱 D.样本的相关系数变大2.在一组样本数据互不相等的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为(
)A. B. C. D.13.下列四个命题:①由样本数据得到的回归直线方程至少经过样本点中的一个;②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;③回归直线一定经过样本点的中心;④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.正确命题的个数为(
)A.1 B.2 C.3 D.44.下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是(
)A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数5.下列说法正确的个数是(
)(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位A.2 B.3 C.4 D.16.某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:0.150.100.050.0250.0102.0722.0763.8415.0246.635则下列说法中正确的是:(
)A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”B.有99%的把握认为“学生对2022年冬奥会的关注与性别有关”C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”7.【多选题】下列命题中正确的是(
)A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大8.已知回归直线的斜率的估计值为1.27,样本点的中心为,则回归直线方程为__________.一级品二级品合计甲机床15050200乙机床12080200合计2701304009.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:10.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:样本号i12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6材积量0.250.400.220.540.510.340.360.460.420.403.9并计算得.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数.B组挑战自我1.一只红铃虫的产卵数y和温度x有关,现收集了6组观测数据,y(单位:个)与温度x(单位:℃)得到样本数据(,2,3,4,5,6),令,并将绘制成如图所示的散点图.若用方程对y与x的关系进行拟合,则(
)A.,B.,C., D.,2.某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是(
)参考公式:,.A.参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多C.若调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关D.无论调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关3.新能源汽车的核心部件是动力电池,电池占了新能源整车成本的大头,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格一路水涨船高,下表是2022年某企业的前5个月碳酸锂的价格与月份的统计数据:月份代码12345碳酸锂价格(万元/kg)0.50.611.5根据表中数据,得出y关于x的经验回归方程为,根据数据计算出在样本点处的残差为,则表中______.4.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.46.65636.8289.81.61469108.8表中,.(1)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立关于的回归方程;(3)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:(i)年宣传费时,年销售量及年利润的预报值是多少(ii)年宣传费为何值时,年利率的预报值最大?附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为:第2课时成对数据的统计分析编写:廖云波【回归教材】1.变量间的相关关系(1)相关关系的定义相关关系是非确定性关系,因变量的取值具有一定的_随机性__,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.(2)散点图将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.(3)正相关与负相关①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.2.相关系数(1)样本相关系数r的计算公式我们可以利用相关系数来定量地衡量两个变量之间的线性相关关系,计算公式为.(2)样本相关系数r的性质①;②当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;③|r|越接近于1,表明两个变量的线性相关性越强;④|r|越接近于0,表明两个变量的线性相关性越弱.3.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.(2)经验回归方程若变量x与y具有线性相关关系,有n个样本数据,.则经验回归方程中,.称为样本点的中心.其中,4.刻画回归效果的方式方式方法计算公式刻画效果越接近于1,表示回归的效果越好残差图称为相应于点的残差,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.残差平方和残差平方和越小,模型的拟合效果越好5.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2×2列联表构造一个随机变量K2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d为样本容量.(3)独立性检验利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(4)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【典例讲练】题型一变量的相关关系【例1-1】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是(
)A.B.C.D.【答案】A【分析】利用正负相关与线性相关的强弱进行求解即可【详解】都是正线性相关,所以,并且相关性最强,所以;都是负线性相关并,所以,且相关性强,所以,所以;所以;故选:A【例1-2】如图,在一组样本数据,,,,的散点图中,若去掉后,则下列说法正确的为(
)A.样本相关系数r变小B.残差平方和变大C.相关指数变小D.自变量x与因变量y的相关程度变强【答案】D【分析】根据散点图结合相关系数,相关系数及残差平方和的意义判断即得.【详解】从散点图分析可知,只有D点偏离直线较远,去掉D点后,x与y的线性相关程度变强,所以相关系数r变大,相关指数变大,残差平方和变小,故选:D.【例1-3】下列命题是真命题的有(
)A.经验回归方程至少经过其样本数据点中的一个B.可以用相关系数r来刻画两个变量x和y线性相关程度的强弱,r的值越小,说明两个变量线性相关程度越弱C.在回归分析中,决定系数的模型比决定系数的模型拟合的效果要好D.残差平方和越小的模型,拟合的效果越好【答案】D【分析】根据经验回归方程、相关系数、决定系数、残差等知识确定正确答案.【详解】对于A,经验回归方程是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过,所以A是假命题;对于B,由相关系数的意义,当越接近1时,表示变量y与x之间的线性相关程度越强,所以B是假命题;对于C,用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好,所以C是假命题;由残差的统计学意义知,D为真命题.故选:D归纳总结:【练习1-1】已知变量与相对应的一组数据为,变量与相对应的一组数据为表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则和0三者之间的大小关系是___________.(用符号“<”连接).【答案】【分析】根据已知分析两组数据中变量的相关关系,从而判断出相关系数的符号,即可得出的结论.【详解】解:由已知中的数据可知,第一组数据中变量与间呈正相关,相关系数,第二组数据中变量与间呈负相关,相关系数,所以.故答案为:.【练习1-2】【多选题】变量与的成对数据的散点图如下图所示,并由最小二乘法计算得到回归直线的方程为,相关系数为,决定系数为;经过残差分析确定第二个点为离群点(对应残差过大),把点去掉后,再用剩下的7组数据计算得到回归直线的方程为,相关系数为,决定系数为.则以下结论中正确的是(
)A. B. C. D.【答案】BD【分析】根据点的特点判断选项AB,由于去掉,其它点的线性关系更强,从而可判断CD选项【详解】因为共8个点且离群点的横坐标较小而纵坐标相对过大,去掉离群点后回归方程的斜率更大,而截距变小,所以正确,而错误;去掉离群点后相关性更强,拟合效果也更好,且还是正相关,所以,故错误,D正确.故选:BD题型二一元线性回归模型【例2-1】我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(亿元)与产品的直接收益y(亿元)的数据进行统计,得到下表:年份2015201620172018201920202021x234681013y15222740485460根据数据,可建立y关于x的两个回归模型:模型①:;模型②:.(1)根据表格中的数据,分别求出模型①,②的相关指数的大小(结果保留三位有效数字);(2)(i)根据(1)选择拟合精度更高、更可靠的模型;(ii)若2022年该公司计划投入研发费用17亿元,使用(i)中的模型预测可为该公司带来多少直接收益.回归模型模型①模型②79.1318.86附:.【答案】(1)模型①:;模型②:(2)(i)模型②;(ii)72.93亿元【分析】(1)根据所给数据公式求相关系数;(2)(i)比较相关系数可得;(ii)代入模型①回归方程计算.(1)因为,所以,则模型①的相关指数,模型②的相关指数;(2)(i)由(1)知,,所以模型②的拟合精度更高、更可靠;(ii)由回归方程,可得当时,,所以若2022年该公司计划投入研发费用17亿元,大约可为该公司带来72.93亿元的直接收益.【例2-2】如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.相关公式:,参考数据:.回归方程中,【答案】(1)相关系数,可用线性回归模型拟合y与x的关系(2),吨【分析】(1)代入数据,算出相关系数r,将其绝对值与比较,即可判断可用线性回归模型拟合y与x的关系.(2)先求出回归方程,求出当时的值,即为预测值.(1)由折线图得如下数据计算得:,,,所以相关系数,因为,所以可用线性回归模型拟合y与x的关系(2),所以回归方程为,当时,,所以预测年产量为10吨时的污水排放量为吨归纳总结:【练习2-1】某种农作物可以生长在滩涂和盐碱地,它的灌溉方式是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(t)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表海水浓度x(%)34567亩产量y(t)0.560.520.460.350.31残差0.01mn0.01绘制散点图发现,可以用线性回归模型拟合亩产量y(t)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为(1)求,m,n的值;(2)统计学中常用相关指数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?附:残差,相关指数,其中【答案】(1),,;(2),亩产量的变化有是由浇灌海水浓度引起的.【分析】(1)求出样本中心点代入回归方程求,再利用残差公式求m、n即可.(2)根据相关指数公式求,进而写出结论即可.(1)由题设,,,所以,可得,,.(2)由(1)知:,,所以,故亩产量的变化有是由浇灌海水浓度引起的.题型三一元非线性回归模型【例3-1】5G网络是指第五代移动网络通讯技术,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通讯技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居,智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表所示,并根据数据绘制了如图所示的散点图.月份x123456收入y611233772124(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数);(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).参考公式及参考数据:回归方程中斜率和截距的最小二乘估计公式为:,;3.545.53.3417.5393.510.63239.85其中,().【答案】(1)更适合(2)(3)239.85万元【分析】(1)由散点图可知;(2)的两边取自然对数,把非线性回归方程转化为线性回归方程,用最小二乘法计算得解;(3)根据(2)的方程进行预测.(1)由散点图可知,更适合作为经济收入y关于月份x的回归方程类型.(2)的两边取自然对数,得.因为,,,,所以,,所以,所以经济收入y关于月份x的回归方程为.(3)当时,.预测该公司7月份的经济收入约为239.85万元.归纳总结:【练习3-1】红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度和产卵数的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①与回归模型②中选择一个来进行拟合.表Ⅰ温度x/℃20222527293135产卵数y/个711212465114325(1)请借助表Ⅱ中的数据,求出回归模型①的方程:表Ⅱ(注:表中)18956725.271627810611.06304041.86825.09(2)类似的,可以得到回归模型②的方程为,试求两种模型下温度为时的残差;(3)若求得回归模型①的相关指数,回归模型②的相关指数,请结合(2)说明哪个模型的拟合效果更好.参考数据:.附:回归方程中,相关指数.【答案】(1)(或)(2)模型①:1.54;模型②:65.54(3)模型①【分析】(1)利用两边取自然对数,利用表中的数据即可求解;(2)分别计算模型①、②在时残差;(3)根据相关指数的大小判断摸型①、②的残差平方和,再得出那个模型的拟合效果更好.(1)由,得,令,得,由表Ⅱ数据可得,,,所以,所以回归方程为(或).(2)由题意可知,模型①在时残差为,模型②在时残差为.(3)因为,即模型①的相关指数大于模型②的相关指数,由相关指数公式知,模型①的残差平方和小于模型②的残差平方和,因此模型①得到的数据更接近真实数据,所以模型①的拟合效果更好.题型四独立性检验【例4-1】观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是(
)A. B.C. D.【答案】B【分析】直接由等高条形图中所占比例相差越小,随机变量的观测值越小判断即可.【详解】等高的条形图中所占比例相差越小,随机变量的观测值越小.故选:B.【例4-2】在某次社会机构的招聘考试中,参加考试的文科大学生与理科大学生的人数比例为,且成绩(单位:分)分布在,为调研此次考试的整体状况,按文理科用分层抽样的方法抽取160人的成绩作为样本,得到成绩的频率分布直方图如图所示,且规定70及其以上为优秀.(1)填写列联表;文科生理科生合计优秀4不优秀合计160(2)通过计算判断是否有90%的把握认为成绩优秀与大学生的文理科有关.参考公式:,其中.参考数据:0.150.100.050.0250.012.0722.7063.8415.0246.635【答案】(1)列联表见解析;(2)有90%的把握认为成绩优秀与大学生的文理科有关.【分析】(1)利用分层抽样求出文理科人数,再根据频率分布直方图求出优秀的人数,完善列联表作答.(2)计算的观测值,再与临界值表比对即可作答.(1)由题意可知,文理科人数的比例为且按分层抽样抽取160人,则文科生有人,理科生有人,70分及以上为优秀,则优秀的共有人,所以列联表为:文科生理科生合计优秀42832不优秀3692128合计40120160(2)由(1)知,,所以有90%的把握认为成绩优秀与大学生的文理科有关.归纳总结:【练习4-1】为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是(
)A.是否倾向选择生育二胎与户籍无关B.是否倾向选择生育二胎与性别有关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数【答案】D【分析】结合所给比例图,依次分析判断4个选项即可.【详解】对于A,城镇户籍中选择生育二胎,农村户籍中选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A错误;对于B,男性和女性中均有选择生育二胎,则是否倾向选择生育二胎与性别无关,B错误;对于C,由于男性和女性中均有选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C错误;对于D,倾向选择不生育二胎的人员中,农村户籍有人,城镇户籍有人,农村户籍人数少于城镇户籍人数,D正确.故选:D.【练习4-2】电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.(1)根据已知条件完成下面的列联表;非体育迷体育迷总计男女1055总计(2)据此资料你是否认为在犯错误的概率不超过0.10的前提下,“体育迷”与性别有关?附:参考公式:,其中参考数据:0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828【答案】(1)填表见解析(2)在犯错误的概率不超过0.10的前提下可以认为“体育迷”与性别有关【分析】(1)由频率分布直方图可求得“体育迷”人数,即可得“非体育迷”人数,完成联表即可.(2)将表中数据代入公式,求得的值,分析即可得答案.(1)由所给的频率分布直方图知,“体育迷”人数为,“非体育迷”人数为75,则据题意完成2×2列联表:非体育迷体育迷总计男301545女451055总计7525100(2)将2×2列联表的数据代入公式计算:.所以在犯错误的概率不超过0.10的前提下可以认为“体育迷”与性别有关.【完成课时作业(六十四)】
【课时作业(六十四)】A组础题巩固1.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是(
)A.样本数据由正相关变成负相关 B.样本的相关系数不变C.样本的相关性变弱 D.样本的相关系数变大【答案】D【分析】由正负相关、相关系数的含义及相关性强弱依次判断即可.【详解】由题意,去掉离群点后,仍然为正相关,相关性变强,相关系数变大,故A、B、C错误,D正确.故选:D.2.在一组样本数据互不相等的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为(
)A. B. C. D.1【答案】D【分析】根据所有样本点都在直线上可知样本数据完全正相关,相关系数取到最大值,可得答案.【详解】由题意可知,所有样本点都在直线上,则这组样本数据完全正相关,且相关系数为1,故选:D3.下列四个命题:①由样本数据得到的回归直线方程至少经过样本点中的一个;②在回归分析中,若模型一的相关指数,模型二的相关指数,则模型一的拟合效果比模型二的好;③回归直线一定经过样本点的中心;④在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高.正确命题的个数为(
)A.1 B.2 C.3 D.4【答案】C【分析】根据回归直线方程的特点依次判断即可.【详解】回归直线方程经过样本中心点,不一定过样本点,所以①错误,③正确;在回归分析中,模型的相关指数越大拟合效果越好,所以②正确.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,所以④正确.故选:C.4.下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是(
)A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数【答案】B【分析】根据折线图数据变化趋势,结合回归分析思想即可逐项判断.【详解】因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份正相关,,故CD错误.故选:B.5.下列说法正确的个数是(
)(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位A.2 B.3 C.4 D.1【答案】A【分析】根据残差分析的性质判断(1),(3)选项,由概率的意义判断(2)选项,根据回归直线方程的意义判断(4).【详解】解:对(1),在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故错误;对(2),概率只说明事件发生的可能性,某次事件不一定发生,所以并不能说明天气预报不科学,故错误;对(3),在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故正确;对(4),在回归直线方程,当解释变量每增加1个单位时,预报变量增加0.1个单位,故正确.故选:A.6.某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:0.150.100.050.0250.0102.0722.0763.8415.0246.635则下列说法中正确的是:(
)A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”B.有99%的把握认为“学生对2022年冬奥会的关注与性别有关”C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”【答案】C【分析】根据独立性检验的方法即可求解.【详解】由题意可知,,所以在犯错误的概率不超过的前提下可认为“学生对2022年冬奥会的关注与性别有关”.故选:C.7.【多选题】下列命题中正确的是(
)A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大【答案】ABD【分析】根据相关系数、决定系数、残差平方和,以及统计量的意义直接判断可得.【详解】相关系数的绝对值越大,相关程度越强,A正确;决定系数越大,拟合效果越好,故B正确;残差平方和越小,模拟效果越好,故C错误;统计量的值越大,分类变量X与Y相互独立的概率越小,即判断“X与Y有关系”的把握程度越大,故D正确.故选:ABD8.已知回归直线的斜率的估计值为1.27,样本点的中心为,则回归直线方程为__________.【答案】【分析】本题考查线性回归直线方程,可根据回归直线方程一定经过样本中心点这一信息,即可求出答案.【详解】解:设回归直线方程为,因为样本点的中心为,所以,解得,所以,故答案为:【点睛】本题考查运用了样本中心点的坐标求回归直线方程,属于基础题.9.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:0.0500.0100.001k3.8416.63510.828【答案】(1)75%;60%;(2)能.【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为,乙机床生产的产品中的一级品的频率为.(2),故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.10.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:样本号i12345678910总和根部横截面积0.040.060.040.080.080.050.050.070.070.060.6材积量0.250.400.220.540.510.340.360.460.420.403.9并计算得.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数.【答案】(1);(2)(3)【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)代入题给相关系数公式去计算即可求得样本的相关系数值;(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.(1)样本中10棵这种树木的根部横截面积的平均值样本中10棵这种树木的材积量的平均值据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 劳务分包沥青路面施工合同
- 药品采购合同书范本
- 爱情的誓言忠诚保证
- 信息服务合同范本示例
- 石料订购合同范本
- 江西省房产交易合同的范本
- 汽车融资租赁合同协议签订失败原因
- 离校安全责任书
- 展会服务合同中的展会指导
- 终止劳务承包合作合同
- 第三单元分数除法(单元测试)-2024-2025学年六年级上册数学人教版
- 江西省南昌市(2024年-2025年小学四年级语文)人教版期中考试(上学期)试卷及答案
- 2024年8-9月高三名校模考语用题精(四)含答案
- 2024年商业摄影师(高级)职业鉴定理论考试题库(含答案)
- GB/T 44457-2024加氢站用储氢压力容器
- 2024酒店与单位协议价合同范本
- 2024江西南昌市政公用集团招聘58人(高频重点提升专题训练)共500题附带答案详解
- 留置胃管课件
- 承包学校印刷合同协议书
- 上海,家用充电桩安装申请流程
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
评论
0/150
提交评论