版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1本资料来源1本资料来源新课标高中一轮总复习新课标高中一轮总复习第七单元计算原理、概率与统计第七单元第55讲变量的相关性、回归分析、独立性检验第55讲变量的相关性、回归分析、独立性检验1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的含义,知道什么是2×2列联表.4.会运用独立性检验的方法判断事件A与B的关系.5.会求回归方程模型,并能进行相关性检验.6.掌握相关性检验的步骤.1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的1.下列两个变量之间的关系是相关关系的是()AA.人的年龄和身高B.正方形的边长和面积C.正n边形的边数与其内角和D.某角度与它的余弦值人的年龄和身高是一种不确定的关系,其他三组两个变量之间都是确定的函数关系,故选A.1.下列两个变量之间的关系是相关关系的是()AA.2.回归直线方程表示直线必定过点()DA.(0,0)B.(,0)C.(0,)D.(,)回归直线必定经过样本中心点(,).2.回归直线方程表示直线必定过点()DA.(0,3.某装饰品的广告费投入x(单位:万元)与销售y(单位:万元)之间有如下表所示的对应数据:则回归直线方程为()x34567y4060657570AA.
=7.5x+24.5B.
=7.5x-24.5C.
=-7.5x+24.5D.
=-7.5x-24.5通过公式b=,,a=-b,求之.3.某装饰品的广告费投入x(单位:万元)与销售y(单位:万元4.下列说法中正确的是()CA.K2在任何相互独立问题中都可以用于检验有关还是无关B.K2的值越大,两个事件的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2的观测值k=4.下列说法中正确的是()CA.K2在任何相互5.用A和B两种药物各治疗9个病人,结果如下:则这两种药物的疗效
显著差别.(答“有”或“无”)痊愈未愈合计A药729B药279合计9918由表中看出,使用A药痊愈的概率高于B药,故可以粗略估计两种药的疗效是有显著差别的.有5.用A和B两种药物各治疗9个病人,结果如下:痊愈未愈合计A1.两个变量间的相关关系如果两个变量之间确实存在关系,但又没有函数关系所具有的确定性,它们的关系带有随机性,则称这两个变量具有①
.有相关关系的两个变量,若一个变量的值由小到大时,另一个变量的值也是由小到大,这种相关称为②
;反之,一个变量的值由小到大,另一个变量的值由大到小,这种相关称为③
.相关关系正相关负相关1.两个变量间的相关关系相关关系正相关负相关2.散点图在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的图形叫做④
.如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有⑤
,这条直线叫做⑥
,方程为=bx+a,其中b==,a=-b.散点图线性相关关系回归直线2.散点图散点图线性相关关系回归直线3.最小二乘法使残差平方和Q=(yi-bxi-a)2为最小的方法,叫做⑦
.4.线性回归模型(1)样本的相关系数r=.最小二乘法3.最小二乘法最小二乘法当r>0时,表示两个变量正相关,当r<0时,表示两个变量负相关,|r|越近于1,表明两个变量的线性相关性越强:|r|越近于0,表明两个变量之间几乎不存在线性相关关系.(2)线性回归模型y=bx+a+e(e为随机误差).(3)总体偏差平方和=(yi-)2,残差=yi-,残差平方和(yi-)2,回归平方和=⑧
.总偏差平方和-残差平方和当r>0时,表示两个变量正相关,当r<0时,表示两个变量负相5.相关指数R2=1-.用R2来刻画回归的效果,R2⑨
,表示⑩
.6.分类变量变量的不同“值”,表示个体所属的不同类别.越大拟合效果越好5.相关指数越大拟合效果越好7.列联表(即列出两个分类变量的频率表)其中n为样本容量.8.建立回归模型的基本步骤(1)确定研究对象,明确解释变量与预报变量;(2)画出解释变量与预报变量的散点图;(3)由经验确定回归方程的类型;(4)估计回归方程中的参数;A合计BabA+bBcdC+d合计a+cb+dn7.列联表(即列出两个分类变量的频率表)A合计BabA+bB(5)分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适等.9.利用随机变量K2进行判断检验K2=.先假设两个分类变量x与y无关系,若K2的值较大,则拒绝假设,只要K2>2.706,就认为x与y有关系.利用K2来确定在多大程度可以认为“两个分类变量有关系”的方法称为独立性检验.(5)分析残差图是否异常,若存在异常,则检查数据是否有误,或题型一变量的相关性例1汽车的重量和汽车消耗一升汽油所行驶的路程成负相关,这说明()A.汽车越重,每消耗1升汽油所行驶的路程越短B.汽车越轻,每消耗1升汽油所行驶的路程越短C.汽车越重,消耗汽油越多D.汽车越轻,消耗汽油越多A要透彻理解一些常见参概念的意义.题型一变量的相关性例1汽车的题型二回归分析例2某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,根据试验数据得到如下图所示的散点图,其中x表示零件的个数,y表示加工时间.(1)求出y关于x的线性回归方程=bx+a;(2)试预测加工10个零件需多长时间?题型二回归分析例2某车间为了规定工(1)==3.5,==3.5,所以b===0.7,a=-b=3.5-0.7×3.5=1.05,所以线性回归方程为=0.7x+1.05.(1)=(2)当x=10时,=0.7×10+1.05=8.05,故加工10个零件大约需8.05小时.求出回归直线方程后,往往用来作为现实生产中的变量之间相关关系的近似关系,从而可用来指导生产实践.(2)当x=10时,=0.7×10+1.05=8.05,为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:(1)以x为解释变量,y为预报变量作这些数据的散点图;(2)求y关于x的回归方程.天数(x)123456繁殖细菌个数(y)612254995190为了研究某种细菌随时间x变化繁殖用所学函数看变化趋势.(1)画散点图用所学函数看变化趋势.(1)画散点(2)若建立线性模型=a+bx,则得到=-56.467+34.086x,若建立指数函数模型=menx,则得到=3.0519e0.6902x.回归方程不一定惟一,该题还可以用二次函数为模型.(2)若建立线性模型=a+bx,则得到=-题型二独立性检验例2在对人群的休闲方式的一次调查中,共调查了124人,其中女性70人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中21人主要的休闲方式是看电视,其余男性的主要休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;(2)判断性别与休闲方式是否有关系,并说明理由.题型二独立性检验例2在对人群是否有关系取决于K2的大小.(1)2×2列联表为看电视运动总计女432770男213354合计6460124是否有关系取决于K2的大小.(1)(2)
K2==≈6.2设H1:性别与不同运动方式有关系.假设H0:性别与不同的运动方式没有关系,在H0的前提下,K2应该很小,而P(K2≥5.024)≈0.025.所以有97.5%的把握认为性别与不同的运动方式之间有关系.对判断过程和计算方式要清楚,计算K2时勿将(ad-bc)2中的平方运算漏掉.(2)K2=对判断过程和计算方下面是两个变量间的一组数据:x1.04.06.010.014.0y19.044.040.052.053.0(1)在同一直角坐标系中画出散点图、直线=24+2.5x和曲线=;(2)比较所画直线与曲线,哪一条更能表现这组数据之间的关系?(3)分别计算用直线方程与曲线方程得到在5个x点处的预测值与实际预测之间的误差,比较两个误差绝对值之和的大小.下面是两个变量间的一组数据:x1.04.06(1)所求作图型如下:(1)所求作图型如下:(2)从图形上看,曲线=比直线=24+2.5x更能表现这组数据间的关系.(3)用直线=24+2.5x近似数据时,误差绝对值的和为27.5,用曲线=时,误差绝对值的和为12.5,比前者小得多.由散点图可比较直观地看出更能表现所给数据的关系的曲线,再通过比较误差绝对值之和的大小,则显得更有说服力.(2)从图形上看,曲线=比直线=1.计算回归直线方程中的参数a、b时应分层进行,避免因计算错误而产生误差.2.求线性回归方程之前,应对数据进行线性相关分析.3.回归分析的关键是根据散点图选择函数模型,用相关系数判定哪种模型更好.4.独立性检验不能用比例余数来判定,a、b、c、d成比例扩大,K2的值是不同的,正确列出2×2列联表是解题的关键步骤.1.计算回归直线方程中的参数a、b时应分层进行,避免因计算错学例1(2009·辽宁卷)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:学例1(2009·辽宁卷)某企业甲厂:乙厂:分组频数[29.86,29.90)12[29.90,29.94)63[29.94,29.98)86[29.98,30.02)182[30.02,30.06)92[30.06,30.10)61[30.10,30.14)4分组频数[29.86,29.90)29[29.90,29.94)71[29.94,29.98)85[29.98,30.02)159[30.02,30.06)76[30.06,30.10)62[30.10,30.14)18甲厂:乙(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并分析是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂合计优质品非优质品合计(1)试分别估计两个分厂生产的零件的优质品率;甲厂乙厂合计优P(K2≥k)0.050.01k3.8416.635附:K2=,P(K2≥k)0.050.01k3.8416.635附:K2(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.(1)甲厂抽查的产品中有360件优(2)2×2列联表如下:K2=≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂合计优质品360320680非优质品140180320合计5005001000(2)2×2列联表如下:甲厂乙厂合计优质品36032068演讲完毕,谢谢观看!演讲完毕,谢谢观看!39本资料来源1本资料来源新课标高中一轮总复习新课标高中一轮总复习第七单元计算原理、概率与统计第七单元第55讲变量的相关性、回归分析、独立性检验第55讲变量的相关性、回归分析、独立性检验1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的含义,知道什么是2×2列联表.4.会运用独立性检验的方法判断事件A与B的关系.5.会求回归方程模型,并能进行相关性检验.6.掌握相关性检验的步骤.1.会作两个有关联变量数据的散点图,会利用散点图认识变量间的1.下列两个变量之间的关系是相关关系的是()AA.人的年龄和身高B.正方形的边长和面积C.正n边形的边数与其内角和D.某角度与它的余弦值人的年龄和身高是一种不确定的关系,其他三组两个变量之间都是确定的函数关系,故选A.1.下列两个变量之间的关系是相关关系的是()AA.2.回归直线方程表示直线必定过点()DA.(0,0)B.(,0)C.(0,)D.(,)回归直线必定经过样本中心点(,).2.回归直线方程表示直线必定过点()DA.(0,3.某装饰品的广告费投入x(单位:万元)与销售y(单位:万元)之间有如下表所示的对应数据:则回归直线方程为()x34567y4060657570AA.
=7.5x+24.5B.
=7.5x-24.5C.
=-7.5x+24.5D.
=-7.5x-24.5通过公式b=,,a=-b,求之.3.某装饰品的广告费投入x(单位:万元)与销售y(单位:万元4.下列说法中正确的是()CA.K2在任何相互独立问题中都可以用于检验有关还是无关B.K2的值越大,两个事件的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2的观测值k=4.下列说法中正确的是()CA.K2在任何相互5.用A和B两种药物各治疗9个病人,结果如下:则这两种药物的疗效
显著差别.(答“有”或“无”)痊愈未愈合计A药729B药279合计9918由表中看出,使用A药痊愈的概率高于B药,故可以粗略估计两种药的疗效是有显著差别的.有5.用A和B两种药物各治疗9个病人,结果如下:痊愈未愈合计A1.两个变量间的相关关系如果两个变量之间确实存在关系,但又没有函数关系所具有的确定性,它们的关系带有随机性,则称这两个变量具有①
.有相关关系的两个变量,若一个变量的值由小到大时,另一个变量的值也是由小到大,这种相关称为②
;反之,一个变量的值由小到大,另一个变量的值由大到小,这种相关称为③
.相关关系正相关负相关1.两个变量间的相关关系相关关系正相关负相关2.散点图在平面直角坐标系中描点,得到关于两个变量的一组数据的图形,这样的图形叫做④
.如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有⑤
,这条直线叫做⑥
,方程为=bx+a,其中b==,a=-b.散点图线性相关关系回归直线2.散点图散点图线性相关关系回归直线3.最小二乘法使残差平方和Q=(yi-bxi-a)2为最小的方法,叫做⑦
.4.线性回归模型(1)样本的相关系数r=.最小二乘法3.最小二乘法最小二乘法当r>0时,表示两个变量正相关,当r<0时,表示两个变量负相关,|r|越近于1,表明两个变量的线性相关性越强:|r|越近于0,表明两个变量之间几乎不存在线性相关关系.(2)线性回归模型y=bx+a+e(e为随机误差).(3)总体偏差平方和=(yi-)2,残差=yi-,残差平方和(yi-)2,回归平方和=⑧
.总偏差平方和-残差平方和当r>0时,表示两个变量正相关,当r<0时,表示两个变量负相5.相关指数R2=1-.用R2来刻画回归的效果,R2⑨
,表示⑩
.6.分类变量变量的不同“值”,表示个体所属的不同类别.越大拟合效果越好5.相关指数越大拟合效果越好7.列联表(即列出两个分类变量的频率表)其中n为样本容量.8.建立回归模型的基本步骤(1)确定研究对象,明确解释变量与预报变量;(2)画出解释变量与预报变量的散点图;(3)由经验确定回归方程的类型;(4)估计回归方程中的参数;A合计BabA+bBcdC+d合计a+cb+dn7.列联表(即列出两个分类变量的频率表)A合计BabA+bB(5)分析残差图是否异常,若存在异常,则检查数据是否有误,或模型是否合适等.9.利用随机变量K2进行判断检验K2=.先假设两个分类变量x与y无关系,若K2的值较大,则拒绝假设,只要K2>2.706,就认为x与y有关系.利用K2来确定在多大程度可以认为“两个分类变量有关系”的方法称为独立性检验.(5)分析残差图是否异常,若存在异常,则检查数据是否有误,或题型一变量的相关性例1汽车的重量和汽车消耗一升汽油所行驶的路程成负相关,这说明()A.汽车越重,每消耗1升汽油所行驶的路程越短B.汽车越轻,每消耗1升汽油所行驶的路程越短C.汽车越重,消耗汽油越多D.汽车越轻,消耗汽油越多A要透彻理解一些常见参概念的意义.题型一变量的相关性例1汽车的题型二回归分析例2某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,根据试验数据得到如下图所示的散点图,其中x表示零件的个数,y表示加工时间.(1)求出y关于x的线性回归方程=bx+a;(2)试预测加工10个零件需多长时间?题型二回归分析例2某车间为了规定工(1)==3.5,==3.5,所以b===0.7,a=-b=3.5-0.7×3.5=1.05,所以线性回归方程为=0.7x+1.05.(1)=(2)当x=10时,=0.7×10+1.05=8.05,故加工10个零件大约需8.05小时.求出回归直线方程后,往往用来作为现实生产中的变量之间相关关系的近似关系,从而可用来指导生产实践.(2)当x=10时,=0.7×10+1.05=8.05,为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:(1)以x为解释变量,y为预报变量作这些数据的散点图;(2)求y关于x的回归方程.天数(x)123456繁殖细菌个数(y)612254995190为了研究某种细菌随时间x变化繁殖用所学函数看变化趋势.(1)画散点图用所学函数看变化趋势.(1)画散点(2)若建立线性模型=a+bx,则得到=-56.467+34.086x,若建立指数函数模型=menx,则得到=3.0519e0.6902x.回归方程不一定惟一,该题还可以用二次函数为模型.(2)若建立线性模型=a+bx,则得到=-题型二独立性检验例2在对人群的休闲方式的一次调查中,共调查了124人,其中女性70人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中21人主要的休闲方式是看电视,其余男性的主要休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;(2)判断性别与休闲方式是否有关系,并说明理由.题型二独立性检验例2在对人群是否有关系取决于K2的大小.(1)2×2列联表为看电视运动总计女432770男213354合计6460124是否有关系取决于K2的大小.(1)(2)
K2==≈6.2设H1:性别与不同运动方式有关系.假设H0:性别与不同的运动方式没有关系,在H0的前提下,K2应该很小,而P(K2≥5.024)≈0.025.所以有97.5%的把握认为性别与不同的运动方式之间有关系.对判断过程和计算方式要清楚,计算K2时勿将(ad-bc)2中的平方运算漏掉.(2)K2=对判断过程和计算方下面是两个变量间的一组数据:x1.04.06.010.014.0y19.044.040.052.053.0(1)在同一直角坐标系中画出散点图、直线=24+2.5x和曲线=;(2)比较所画直线与曲线,哪一条更能表现这组数据之间的关系?(3)分别计算用直线方程与曲线方程得到在5个x点处的预测值与实际预测之间的误差,比较两个误差绝对值之和的大小.下面是两个变量间的一组数据:x1.04.06(1)所求作图型如下:(1)所求作图型如下:(2)从图形上看,曲线=比直线=24+2.5x更能表现这组数据间的关系.(3)用直线=24+2.5x近似数据时,误差绝对值的和为27.5,用曲线=时,误差绝对值的和为12.5,比前者小得多.由散点图可比较直观地看出更能表现所给数据的关系的曲线,再通过比较误差绝对值之和的大小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论