高三文科复习-统计与统计案例【考点3】变量相关性最小二乘法及统计案例(解析版)概述_第1页
高三文科复习-统计与统计案例【考点3】变量相关性最小二乘法及统计案例(解析版)概述_第2页
高三文科复习-统计与统计案例【考点3】变量相关性最小二乘法及统计案例(解析版)概述_第3页
高三文科复习-统计与统计案例【考点3】变量相关性最小二乘法及统计案例(解析版)概述_第4页
高三文科复习-统计与统计案例【考点3】变量相关性最小二乘法及统计案例(解析版)概述_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2015年高三文科复习——统计与统计案例:【考点3】变量的有关性、最小二乘法及统计案例(剖析版)概括.2015年高三文科复习——统计与统计案例:【考点3】变量的有关性、最小二乘法及统计案例(剖析版)概括.2015年高三文科复习——统计与统计案例:【考点3】变量的有关性、最小二乘法及统计案例(剖析版)概括.统计与统计案例【考点3:变量的有关性与统计案例】[概括·知识整合]1.两个变量的线性有关正有关:在散点图中,点散布在从左下角到右上角的地域,对于两个变量的这类有关关系,我们将它称为正有关.负有关:在散点图中,点散布在从左上角到右下角的地域,两个变量的这类有关关系称为负有关.(3)线性有关关系、回归直线,就称这两个变量之间拥有线性有关关系,这条直线叫做回若是散点图中点的散布从整体上看大概在一条直线周边归直线.[研究]有关关系和函数关系有何异同点?提示:(1)相同点:两者均是指两个变量的关系.不相同点:①函数关系是一种确定的关系,而有关关系是一种非确定的关系.②函数关系是一种因果关系,而有关关系不用然是因果关系,也可能是陪伴关系.2.回归方程最小二乘法:求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.回归方程:^^^^^方程y=bx+a是两个拥有线性有关关系的变量的一组数据(x1,y1),(x2,y2),,(xn,yn)的回归方程,其中a,b是待定参数.nn?=i(xix)(yiy)xiyinxy?1=i1?xbnn;a=y-b(xix)22nx2xii1i13.回归剖析定义:对拥有有关关系的两个变量进行统计剖析的一种常用方法.样本点的中心^^^对于一组拥有线性有关关系的数据(x1,y1),(x2,y2),,(xn,yn),其回归直线y=bx+a的斜率和截距的最小二乘预计分别为:nn?=i(xix)(yiy)xiyinxy?1=i1?xbnn,a=y-b(xix)2xi2nx2i1i1nn其中x=1y1x,y).∑i=∑i称为样本点的中心ni=1x,ni=1y,((3)有关系数nn∑(xi-x)(yi-y)∑xiyi-nxy①r=i=1=i=1;nnnn∑(xi-x)2∑(yi-y)2(∑xi2-nx2)(∑yi2-ny2)i=1i=1i=1i=1②当r>0时,表示两个变量正有关;当r<0时,表示两个变量负有关.r的绝对值越凑近于1,表示两个变量的线性有关性越强.r的绝对值越凑近于0,表示两个变量之间_几乎不存在线性有关关系_.平常|r|大于时,以为两个变量有很强的线性有关性.(4)有关指数残差:对于样本点(x1,y1),(x2,y2),,(xn,yn),它们的随机误差为^^^ei=yi-bxi-a,i=1,2,,n,其预计值为ei=yi-yi=yi-b^^xi-a,i=1,2,,n,ei称为相应于点(xi,yi)的残差.1n^2∑(yi-yi)=.有关指数:R2=1-in1∑(yi-y)2i=1R2越大,意味着残差平方和越小,即模型的拟合收效越好;R2越小,残差平方和越大,即模型的拟合收效越差.在线性回归模型中,R2表示讲解变量对于预告变量变化的贡献率,R2越凑近于1,表示回归的收效越好.4.独立性查验分类变量:变量的不相同“值”表示个体所属的不相同种类,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假定有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:y1y2总计x1aba+bx2cdc+d2总计a+cb+da+b+c+dK2=nad-bc(其中n=a+b+c+d为样本容量),则利用独立性查验判断表来判断“Xa+ba+cb+dc+d与Y的关系”[题型剖析]题型1:变量的有关关系的判断【典型例题】1.山东鲁洁棉业企业的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,获取以下表所示的一组数据(单位:kg).施化肥量x15202530354045棉花产量y330345365405445450455画出散点图;判断可否拥有有关关系.解(1)散点图以以下列图(2)由散点图知,各组数据对应点大概都在一条直线周边,所以施化肥量x与产量y拥有线性有关关系.2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性有关系数,r2表示变量V与U之间的线性有关系数,则()A.r2<r1<0<r2<r1C.r2<0<r12=r1剖析:选C对于变量Y与X而言,Y随X的增大而增大,故Y与X正有关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负有关,即r2<0,所以有r2<0<r1.【变式训练】1.以下关系中,是有关关系的为()①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.A.①②B.①③C.②③D.②④剖析:选A①中学生的学习态度与学习成绩之间不是因果关系,但拥有有关性是有关关系.②教师的执教水平与学生的学习成绩之间的关系是有关关系.③④都不具备有关关系.22.察看以下各图形:其中两个变量x、y拥有有关关系的图是()A.①②B.①④C.③④D.②③剖析:选C有关关系有两种情况:所有点看上去都在一条直线周边颠簸,是线性有关;若所有点看上去都在某条曲线(不是一条直线)周边颠簸,是非线性有关.①②是不有关的,而③④是有关的.题型2:线性回归方程及回归剖析【典型例题】1.某种产品的广告费支出x与销售额(单位:百万元)之间有以下对应数据:x24568y3040506070若是y与x之间拥有线性有关关系.(1)作出这些数据的散点图;(2)求这些数据的线性回归方程;(3)展望当广告费支出为9百万元时的销售额.解:(1)(2)^^-^-^x=5,y=50,b=7,a=y-bx=15,∴线性回归方程为y=7x+15.(3)^9百万元时,销售额为78百万元.当x=9时,y=78.即当广告费支出为2.某工厂为了对新研发的一种产品进行合理订价,将该产品按起初拟定的价钱进行试销,获取以下数据:单价x(元)89销量y(件)908483807568(1)^--求回归直线方程y=bx+a,其中b=-20,a=y-bx;(2)预计在此后的销售中,销量与单价仍旧遵照(1)中的关系,且该产品的成本是4元/件,为使工厂获取最大收益,该产品的单价应定为多少元?(收益=销售收入-成本)11+y6)=80.[自主解答](1)因为x=(x1+x2+x3+x4+x5+x6)=8.5,y=(y1+y2+y3+y4+y566所以a=y-bx=80+20×=250,进而回归直线方程为^y=-20x+250.(2)设工厂获取的收益为L元,依题意得L=(x-4)(-20x+250)=-20x2+330x-1000332=-20x-4+361.25.当且仅当x=8.25时,L获取最大值.故当单价定为8.25元时,工厂可获取最大收益.3.(1)对于回归剖析,以下说法错误的选项是()A.在回归剖析中,变量间的关系若是非确定性关系,那么因变量不能够由自变量唯一确定线性有关系数能够是正的或负的C.回归剖析中,若是r2=1或r=±1,说明x与y之间完好线性有关D.样真有关系数r∈(-1,1)答案:D3(2)两个变量y与x的回归模型中,分别选择了4个不相同模型,它们的有关指数R2以下,其中拟合收效最好的模型是()A.模型1的有关指数R2为B.模型2的有关指数2R为C.模型3的有关指数R2为D.模型4的有关指数2R为答案:A【变式训练】1.已知回归直线的斜率的预计值为1.23,样本点的中心为(4,5),则回归直线方程为()^^A.y=+4B.y=+5^^=+D.y=+剖析:选C因回归直线方程必过样本点的中心(x,y),将点(4,5)代入A、B、C查验可知.2.经检查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)拥有线性有关关系,并获取y对于x的线性回归直^,家庭年收入每增加1万元,年饮食支出平均增加________万元.线方程:y=+0.321,由回归直线方程可知^1万元,年饮食支出平均剖析:x变为x+1,y=0.245(x+1)+=++0.245,所以家庭年收入每增加增加0.245万元.答案:3.(2012课·标全国)在一组样本数据(x1,y1),(x2,y2),,(xn,yn)(n≥2,x1,x2,,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,,n)都在直线1()y=x+1上,则这组样本数据的样真有关系数为12A.-1C.2剖析:选D因为所有的点都在直线上,所以它就是确定的函数关系,所以有关系数为1.4.①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是对于有关系数r的几种说法,其中正确的序号是________.答案:①③5.以下四个命题,其中正确的选项是()①从匀速传达的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量有关性越强,则有关系数的绝对值越凑近于1;^^③在线性回归方程y=+12中,当讲解变量x每增加一个单位时,预告变量y平均增加0.2个单位;④对分类变量X与Y,它们的随机变量K2的察看值k来说,k越小,“X与Y有关系”的掌握程度越大.A.①④B.②④C.①③D.②③答案:D6.某电脑企业有6名产品销售员,其工作年限与年销售金额的数据以下表:销售员编号12345工作年限x/年35679销售金额y/万元23345以工作年限为自变量x,销售金额为因变量y,作出散点图;求年销售金额y对于工作年限x的线性回归方程;(3)若第6名销售员的工作年限为11年,试预计他的年销售金额.解:(1)依题意,画出散点图以以下列图,(2)从散点图能够看出,这些点大概在一条直线周边,设所求的线性回归方程为^^^y=bx+a.^10^^-=0.4,则b=20=0.5,a=y-bx∴年销售金额y对于工作年限x的线性回归方程为4^y=+0.4.(3)由(2)可知,当x=11时,^y=+=0.5×11+=5.9(万元).∴能够预计第6名销售员的年销售金额为5.9万元.题型3:独立性查验及其应用【典型例题】1.经过随机咨询110名性别不相同的行人,对过马路是愿意走斑马线仍是愿意走人行天桥进行抽样检查,获取以下的列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=nad-bc2,算得K2=110×40×30-20×202b+d≈7.8.a+bc+da+c60×50×60×50附表:P(K2≥k)k比较附表,获取的正确结论是()A.有99%以上的掌握以为“选择过马路的方式与性别有关”B.有99%以上的掌握以为“选择过马路的方式与性别没关”C.在犯错误的概率不高出0.1%的前提下,以为“选择过马路的方式与性别有关”D.在犯错误的概率不高出0.1%的前提下,以为“选择过马路的方式与性别没关”剖析:选A∵K2=110×40×30-20×202≈7.8>6.635,∴有99%以上的掌握以为“选择过马路的方式与性别有关”.60×50×60×502.在检查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性查验的方法来判断色盲与性别可否有关?你所获取的结论在什么范围内有效?解依照题目所给的数据作出以下的列联表:色盲不色盲总计男38442480女6514520总计449561000依照列联表作出相应的等高条形图,以以下列图.从等高条形图来看,男性患色盲的频次要高一些,所以直观上能够以为色盲与性别有关.依照列联表中所给的数据能够有a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000,代入公式K2=n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)得K1000×(38×514-6×442)22=≈27.1.480×520×44×956因为K2=27.1>10.828,所以我们有99.9%的掌握以为性别与患色盲有关.5这个结论只对所检查的480名男人和520名女人有效.3.(2012·南联考湖)衡阳市第一次联考后,某校订甲、乙两个文科班的数学考试成绩进行剖析,规定:大于或等于120分为优异,120分以下为非优异.统计成绩后,获取以下的2×2列联表,且已知在甲、乙两个文科班所有110人中3随机抽取1人为优异的概率为11.优异非优异共计甲班10乙班30共计110请达成上面的列联表;依照列表中的数据,若按99.9%的可靠性要求,可否定为“成绩与班级有关系”;K2=nad-bc2参照公式与临界值表:a+bc+da+cb+dP(K2≥k0)k0[自主解答](1)列联表以下:优异非优异共计甲班105060乙班203050共计30801102110×10×30-20×502(2)依照列联表中的数据,获取=≈<10.828.K60×50×30×80所以按99.9%的可靠性要求,不能够以为“成绩与班级有关系”.【变式训练】1.在抽烟与患肺病这两个分类变量的计算中,以下说法正确的选项是()A.若K2的察看值为k=6.635,我们有99%的掌握以为抽烟与患肺病有关系,那么在100个抽烟的人中必有99人患有肺病B.从独立性查验可知,有99%的掌握以为抽烟与患肺病有关时,我们说某人抽烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的掌握以为抽烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确剖析:选C依照独立性查验的思想知.2.为了判断高中三年级学生可否选修文科与性其他关系,现随机抽取50名学生,获取以下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.2依照表中数据,获取K2=50×13×20-10×7≈4.844.则以为选修文科与性别有关系犯错的可能性为________.23×27×20×30剖析:k≈4.844,这表示小概率事件发生.依照假定查验的基本源理,应当判断“可否选修文科与性别之间有关系”成立,而且这类判断犯错的可能性约为5%.答案:5%3.(2012辽宁改编)电视传媒企业为认识某地域观众对某类体育节目的收视情况,随机抽取了100名观众进行检查,其中女性有55名.下面是依照检查结果绘制的观众日均收看该体育节目时间的频次散布直方图:6将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)依照已知条件达成下面的2×2列联表,并据此资料判断可否有95%的掌握以为“体育迷”与性别有关?非体育迷体育迷共计男女共计将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中随意采用2人,求最罕有1名女性观众的概率.附K2=nad-bc2,a+bc+da+cb+dP(K2≥k)k[正确规范答题]由频次散布直方图可知,在抽取的100人中,“体育迷”有25人,进而达成2×2列联表以下:非体育迷体育迷共计男301545女451055共计7525100,得K2=100×30×10-45×152将2×2列联表中的数据代入公式计算=100<3.841,所以我们没75×25×45×5533≈3.030.因为有95%的掌握以为“体育迷”与性别有关.由频次散布直方图可知,“超级体育迷”为5人,进而所有可能结果所组成的基本事件为(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),其中ai表示男性,i=1,2,3,bj表示女性,j=1,2.由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,最罕有1人是女性”这一事件,则A为(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),?(11分)由7个基本事件组成,所以P(A)=7.10【高考真题综合训练】1.[2014重·庆卷]已知变量x与y正有关,且由察看数据算得样本平均数x=3,y=3.5,则由该察看数据算得的线性回归方程可能是()A.y^=+B.y^=2x-C.y^=-2x+D.y^=-+答案:A[剖析]因为变量x与y正有关,则在线性回归方程中,x的系数应大于零,除去B,D;将x=3,y=3.5分别代入A,B中的方程只有A知足,应选A.2.[2014泰·安一模]为了检查某地域老年人可否需要志愿者供应帮助,用简单随机抽样的方法从该地域检查了500位老人,其结果以下表:性别可否需要男女志愿者7^y=-85.71,给出以下结论:需要4030不需要1602702n(ad-bc)2由K=(a+b)(c+d)(a+c)(b+d),得K2=500×(40×270-30×160)2≈9.967.200×300×70×430附表:P(K2≥k)k参照附表,可获取的结论是()A.在犯错误的概率不高出0.1%的前提下,以为“需要志愿者供应帮助与性别有关”B.在犯错误的概率不高出0.1%的前提下,以为“需要志愿者供应帮助与性别没关”C.有99%以上的掌握以为“需要志愿者供应帮助与性别有关”D.有99%以上的掌握以为“需要志愿者供应帮助与性别没关”答案:C[剖析]由数据知,选项C正确.3.[2014韶·关一模]设某大学的女生体重y(kg)与身高x(cm)拥有线性有关关系,依照一组样本数据(xi,yi)(i=1,2,,n),用最小二乘法成立的线性回归方程为y与x拥有正的线性有关关系;②回归直线过样本点的中心(x,y);③若该大学某女生身高增加1cm,则其体重约增加0.85kg;④若该大学某女生身高为170cm,则可判断其体重必为58.79kg.其中,正确结论的序号是______________.答案:①②③[剖析]利用有关见解可知,①②③正确.4.[2014湖·北卷]依照以下样本数据x345678y---获取的回归方程为^)\s\up6(^(^)y=bx+a,则(A.a>0,b<0B.a>0,b>0<0,b<0D.a<0,b>0答案:A[剖析]作出散点图以下:^由图像不难得出,回归直线\s\up6(^(^)y=bx+a的斜率b<0,截距a>0,所以a>0,b<0.应选A.5.(2013年高考福建卷(文))某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量可否与年纪有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,尔后按工人年纪在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,在将两组工人的日平均生产件数分红5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,获取以以下列图的频次散布直方图.(1)从样本中日平均生产件数不足8060件的工人中随机抽取2人,求最少抽到一名“25周岁以下组”工人的频次.(2)规定日平均生产件数很多于,90%的件者为“生产妙手”,请你依照已知条件达成22的列联表并判断可否有掌握以为“生产妙手与工人所在的年纪组有关”?8附表:【答案】解:(Ⅰ)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有3(人),记为A1,A2,A3;25周岁以下组工人有2(人),记为B1,B2从中随机抽取2名工人,所有可能的结果共有10种,他们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)其中,最少出名“25周岁以下组”工人的可能结果共有7种,它们是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率:P710(Ⅱ)由频次散布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产妙手15(人),“25周岁以下组”中的生产妙手400.37515(人),据此可得22列联表以下:生产妙手非生产妙手共计25周岁以上组15456025周岁以下组152540共计3070100所以得:K2n(adbc)2100(15251545)225(ab)(cd)(ac)(bd)6040307014因为,所以没有90%的掌握以为“生产妙手与工人所在的年纪组有关”.6.[2014安·徽卷]某高校共有学生15000人,其中男生10500人,女生4500人.为检查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)依照这300个样本数据,获取学生每周平均体育运动时间的频次散布直方图(如图1-4所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].预计该校学生每周平均体育运动时间高出4小时的概率.图1-49(3)在样本数据中,有60位女生的每周平均体育运动时间高出4小时,请达成每周平均体育运动时间与性别列联表,并判断可否有95%的掌握以为“该校学生的每周平均体育运动时间与性别有关”.P(K2≥k0)k0附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解:(1)300×4500=90,所以应收集90位女生的样本数据.000由频次散布直方图得每周平均体育运动高出4小时的频次为1-2×+0.025)=0.75,所以该校学生每周平均体育运动时间高出4小时的概率的预计值为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论