




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6讲
回归分析与独立性检验考纲要求考点分布考情风向标1.会作两个有关联变量的数据的散点图,会利用散点图2012年新课标第3题考查样本的相关系数;由于该部分内容的特殊
性,高考对该部分的考查一直非常慎重.高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.因此,复习时要掌握好回归分析和独立性检验的基本思
想、方法和基本公式.此部分内容也可能结合概率统计的其他内容命制综合解答题.另外,复习时要把独立性检验作为重点认识变量间的相关关系.2014
年新课标Ⅱ第19
题考查非2.了解最小二乘法的思想,能线性拟合、线性回归方程求法,根据给出的线性回归方程系利用回归方程进行预报预测;数公式建立线性回归方程.2015
年新课标Ⅰ第19
题考查非3.
了解下列一些常见的统计线性拟合、线性回归方程求法,方法,并能应用这些方法解利用回归方程进行预报预测;决一些实际问题.2016
年新课标Ⅲ第18
题考查非(1)了解独立性检验(只要求2线性拟合、线性回归方程求法,×2
列联表)的基本思想、方利用回归方程进行预报预测;法及其简单应用.2017
年新课标Ⅰ第19
题(1)考查(2)了解回归的基本思想、方样本的相关系数;新课标Ⅱ第法及其简单应用19
题考查独立性检验1.变量间的关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.正相关、负相关.①在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.②在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.2.回归分析定义:对具有相关关系的两个变量进行统计分析的一种常用方法.线性相关关系:观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归直线的求法:n对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),通过求偏差的平方和Q=(yi-b^xi-a^)2
的最小值而i=1回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法,则回归直线方程^y=b^x+a^
的系数为:22nn
iii=1(x
-
x)2x
-
nx(xi
-
x)(
yi
-
y)
xi
yi
-
nxynni=1b
=
i=1
=
i=1 a
=
y
-
b
x—1其中x
=nnii=1x
,—y
=1nni=1-
-yi
,(x
,y
)称作.
样本点的中心
(4)线性相关强度的检验:①r=2
2nn
nii(x
-
x)(
y
-
y)(xi
-
x)(
yi
-
y)
i=1
2222niii=1y
-
ny
)n(
x
-
nx
)(i=1i=1
i=1n
xi
yi
-
nxy=
i=1
叫做y
与x
的相关系数,简称相关系数.22r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75
时,认为两个变量有很强的线性相关性.(5)相关指数:ni
ini=1R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2
越接近于1,表示回归的效果越好.(
y
-
y
)(
y
-
y)
iR2=1-
i=1
.②当
r>0
时,表明两个变量正相关;当
r<0
时,表明两个变量
负相关
.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d3.独立性检验分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X
和Y,它们的可能取值分别为{x1,x2}和{y1,
y2},其样本频数列联表(称为2×2
列联表)为2×2列联表构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中
n=
a+b+c+d
为样本容量.(3)独立性检验:利用随机变量K2
来判断“两个分类变量有关系”的方法称为独立性检验.1.第31届夏季奥林匹克运动会,中国获26金,18
银,26铜共70
枚奖牌居奖牌榜第二,并打破3
次世界纪录.由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2548
名男性公民中有1560
名持反对意见,2452
名女性公民中有1200
人持反对意见,在运用这些数据说明中国的奖牌数是否与中国进入体育强国有无关系时,用什么方法最有说服力(A.平均数与方差C.独立性检验)B.回归直线方程
D.概率解析:由于参加讨论的公民按性别被分成了两组,而且每一组又被分成了两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2
列联表的要求.故用独立性检验最有说服力.答案:C2.已知变量x
与y
正相关,且由观测数据算得样本平均数x=3,y
=3.5
,则由该观测数据算得的线性回归方程可能是(B.^y=2x-2.4D.^y=-0.3x+4.4A
)A.^y=0.4x+2.3
C.^y=-2x+9.5解析:因为变量x
和y
正相关,则回归直线的斜率为正,故可以排除选项C
和D.因为样本点的中心在回归直线上,把点(3,3.5)分别代入选项A
和B
中的直线方程进行检验,可以排除B.故选A.项目男女总计爱好402060不爱好203050总计60501103.通过随机询问110
名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得:K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是(
A
)有99%以上的把握认为“爱好该项运动与性别有关”有99%以上的把握认为“爱好该项运动与性别无关”在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”P(K2≥k)0.0500.0100.001k3.8416.63510.828A.-1
B.0
C.12D.14.(2012
年新课标)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(x
,y
)(i=1,2,…,n)都在直线
y
1
+1
上,则这组样本i
i
=2x数据的样本相关系数为(
D
)解析:由题设知,这组样本数据完全正相关,故其相关系数为1.故选D.x123456y021334考点1相关关系判断)例1:已知x
与y
之间的几组数据如下表:假设根据上表数据所得回归直线方程为
^y=b^x+a^
.若某同学根据上表中前两组数据(1,0)和(2,2)求得的回归直线方程为
y=b′x+a′,则以下结论正确的是(A.b^>b′,a^>a′
C.b^<b′,a^>a′B.b^>b′,a^<a′
D.b^<b′,a^<a′21
7-y13解析:由表格知,-x
=
6
=2, =
6
.^则b=1×0+2×2+3×1+4×3+5×3+6×4-67
13×2×
67212+22+32+42+52+62-6×
2513
5
7
1=7,a^=-y
-b^-x
=
6
-7×2=-3.23由两组数据(1,0)和(2,2),得-x
′=,-y
′=1.答案:C则b′=
2
31×0+2×2-2×
×13212+22-2×
2=2,3a′=-y
′-b′-x
′=1-2×
=-2.2综上所述,b^<b′,a^>a′.故选C.【规律方法】回归直线方程为^y
=
b^
x
+a^
,其中b^
=22n
ni
i=1
i=1
xi
yi
-
nxy
x
-
nx,a=
y
-^
-
^-
-b
x
.其中x
=1nnii=1—x
,y
=1nnii=1—y
,点(x
,-y
)称为样本点的中心,回归直线都经过样本点的中心.x345678y4.02.5-0.50.5-2.0-3.0【互动探究】1.根据如下样本数据:得到的回归方程为^y=b^x+a^,则(
)A.a^>0,b^<0C.a^<0,b^<0B.a^>0,b^>0D.a^<0,b^>0图D68答案:A解析:依题意,画散点图,如图D68,两个变量负相关,所以b^<0,a^>0.x173170176y1701761822.某数学老师身高176
cm,他爷爷、父亲和儿子的身高分别是
173
cm、170
cm
和
182
cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为
cm.解析:由题意父亲身高x
cm
与儿子身高y
cm
对应关系如下表:则x
=173+170+1763=173,
y
=170+176+1823=176,3i=1(
xi-
x
)(yi-
y
)=(173-173)×(170-176)+(170-173)×(176-176)+(176-173)×(182-176)=18,3(
xi-
x
)2=(173-173)2+(170-173)2+(176-173)2=18.i=118^
^∴b^=18=1.∴a=
y
-b x
=176-173=3.∴回归直线方程为^y=b^x+a^=x+3.∴可估计孙子身高为182+3=185(cm).答案:185考点2回归分析的综合运用例2:(2015
年新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8
年的宣传费xi
和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图(如图961)及一些统计量的值.图961xyw8(
xi--x
)2i=18(
wi--w
)2i=18(
xi--x
)(yi--y
)i=18(
wi--w
)(yi--y
)i=146.65636.8289.81.61469108.8表中wi=18i=1xi
,
w
=8wi
.根据散点图判断,y=a+bx
与
y=c+d
x,哪一个适合作为年销售量y
关于年宣传费x
的回归方程类型(给出判断即可,不必说明理由);根据(1)的判断结果及表中数据,建立y
关于x
的回归方程;2nni(u
-
u)(3)已知这种产品的年利润z
与x,y
的关系为z=0.2y-x,根据(2)的结果回答下列问题:①当年宣传费x=49
时,年销售量及年利润的预报值是多少?②当年宣传费x
为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α^
+β^
u
的斜率和截距的最小二乘估计公式分别为(ui
-
u)(ui
-u)i=1β^=
i=1
,α^=-υ
-β^-u.解:(1)由散点图可以判断,y=c+dx适合作为年销售y关于年宣传费用x
的回归方程类型.(2)令w=
x,先建立y
关于w的线性回归方程.882ii=1(wi
-
w)(
yi
-
y)(w
-
w)∵d^=
i=1
=108.81.6=68,∴^c=-y
-d^-w
=563-68×6.8=100.6.∴y
关于w
的线性回归方程为^y=100.6+68w.∴y关于
x
的回归方程为^y=100.6+68
x.(3)①由(2)知,当x=49
时,年销售量y
的预报值为:^y=100.6+68
49=576.6,^z=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z
的预报值为:^z=0.2(100.6+68
x)-x=-x+13.6
x+20.12.∴当x=13.62^=6.8,即x=46.24
时,z取得最大值.故年宣传费用为46.24
千元时,年利润的预报值最大.【规律方法】(1)求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意回归直线方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同)(2)回归分析是处理变量相关关系的一种数学方法.主要解决:①确定特定量之间是否有相关关系,如果有,就找出它们之间的数学表达式;②根据一组观察值,预测变量的取值及判断变量取值的变化趋势;③求出回归直线方程.【互动探究】A.160
B.163
C.1663.(2017
年山东)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y
与x
之间有线性相关关系,设其10
10回归直线方程为^y=b^x+a^.已知
xi
=225,
yi
=1600,b^=4.i=1
i=1该班某学生的脚长为
24,据此估计其身高为(
C
)D.170解析:由已知x
=22.5,y
=160,∴a^=160-4×22.5=70,y=4×24+70=166.故选C.年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.94.(2014
年新课标Ⅱ)某地区2007
年至2013
年农村居民家庭纯收入y(单位:千元)的数据如下表:求y
关于t
的线性回归方程;利用(1)中的回归方程,分析2007
年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015
年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:2nni(t
-
t)(ti
-
t)(
yi
-
y)i=1b^=
i=1
,a^=-y
-b^-t
.1解:(1)由所给数据计算得t
=7(1+2+3+4+5+6+7)=4,17y
=7(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,(ti-
t
)2=9+4+1+0+1+4+9=28,t
=17t
=1(ti-
t
)(yi-
y
)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14.772ii=1(t
-
t)(ti
-
t)(
yi
-
y)b^=
i=1
=1428=0.5,a^=
y
-b^-t
=4.3-0.5×4=2.3.所求回归方程为^y=0.5t+2.3.(2)由(1)知,^b=0.5>0,故2007
年至2013
年该地区农村居民家庭人均纯收入逐年增加,平均每年增加500
元.将2015
年的年份代号t=9
代入(1)中的回归方程,得^y=0.5×9+2.3=6.8.故预测该地区2015
年农村居民家庭人均纯收入为6800
元.考点3独立性检验例3:(2017年新课标Ⅱ)海水养殖场进行某水产品的新、
旧网箱养殖方法的产量对比,收获时各随机抽取了100
个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图962
如下:图962记A
表示事件“旧养殖法的箱产量低于50
kg”,估计A的概率;填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50
kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:P(K2≥k)0.0500.0100.001k3.8416.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)箱产量<50
kg箱产量≥50kg总计旧养殖法6238100新养殖法3466100总计96104200解:(1)旧养殖法的箱产量低于50
kg
的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62因此,事件A
的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表K2=
200×(
62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50kg
到55
kg之间,旧养殖法的箱产量平均值(或中位数)在45kg
到50
kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【规律方法】解决独立性检验问题的一般步骤:①制作列联表;精确到小数点后三位;③查表得出结论,要选择满足条件P(K2>k0)=α的k0作为拒绝域的临界值.②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算,近似计算要项目不及格及格总计男61420女102232总计163652【互动探究】5.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52
名中学生,得到统计数据如表1至表
4,则与性别有关联的可能性最大的变量是(
)表1成绩项目不及格及格总计男41620女122032总计163652项目不及格及格总计男81220女82432总计163652表2表3视力智商项目不及格及格总计男14620女23032总计163652表4A.成绩C.智商阅读量B.视力D.阅读量解
析
:
由
公
式
K2
=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算得52×82
52×1122
52×962A.16×36×20×32,B.16×36×20×32,C.16×36×20×32,52×4082D.16×36×20×32.显然D
的值最大,说明阅读量与性别有关联的可能性最大.答案:D使用年数x234567售价y201286.44.43z=ln
y3.002.482.081.861.481.10易错、易混、易漏⊙对回归分析的理解例题:(2017年广东汕头一模)二手经销商小王对其所经营的A
型号二手汽车的使用年数x
与销售价格y(单位:万元/辆)进行整理,得到如下数据:下面是z关于x
的折线图963:图963由折线图可以看出,可以用线性回归模型拟合z与x
的关系,请用相关系数加以说明;求y
关于x
的回归方程并预测某辆A
型号二手汽车当使用年数为9
年时售价大约为多少?(^b,a^小数点后保留两位有效数字);(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考公式:回归方程^y=b^x+^a中斜率和截距的最小二乘估计公式分别为:i(x
-
x)2ni=122n
n
ix
-
nx(xi
-
x)(
yi
-
y)
xiyi
-
nxyni=1b^=
i=1
=
i=1
,22nn
ni(x
-
x)(
yi
-
y)(xi
-
x)(
yi
-
y)i=1i=1a^=
y
-b^
x
.r=
i=1
.参考数据:6i
ii=1x
y
=187.4,6i
ii=1x
z
=47.64,62ii=1x
=139,62ii=1(
x
-
x)
=4.18,62ii=1(
y
-
y)
=13.96,62
ii=1(
z
-
z)
=1.53,ln1.46≈0.38,ln
0.7118≈-0.34.z与x
的相关系数大约为-0.99,相关系数的绝对值约等于1,说明z与x
的线性相关程度很高.解:(1)由已知:x
=4.5,z
=2,i
ii=1
x
z
=47.64,6
62ii=1(
x
-
x)=4.18,62ii=1(
z
-
z)
=1.53,66
622(x
-
x)(z
-
z)(xi
-
x)(zi
-
z)
ii=1
ii=1所以
r=
i=1
=47.64-6×4.5×24.18×1.53=
6.36
6.36-6.3954或-6.40≈-0.99.6ii=1(x
-
x)2(xi
-
x)(zi
-
z)66
22ix
-
6x
xi
zi
-
6xz6i=1(2)b^
=
i=1
=
i=1
=47.64-6×4.5×2139-6×4.526.36=-17.5≈-0.36.a^=
z
-b^
x
=2+0.36×4.5=3.62.所以z
关于x
的线性回归直线方程为^z=-0.36x+3.62=ln
y.所以y关于x的回归方程为^y=e-0.36x+3.62,当x=9
时,^y=e0.38≈1.46.所以预测某辆A
型号二手车当使用年数为9
年时售价大约为1.46
万元.(3)令^y≥0.7118,即e-0.36x+3.62≥0.7118=eln
0.7118≈e-0.34,所以-0.36x+3.62≥-0.34,解得x≤11.因此预测在收购该型号二手车时车辆的使用年数不得超过11
年.【方法点拨】判断两个变量是否线性相关及相关程度通常有两种方法:①利用散点图直观判断;②将相关数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北海市初中数学试卷
- 豆类项目风险识别与评估综合报告
- 边坡锚杆锚索腰梁施工方案
- 浙江油田油管清洗施工方案
- 房屋地面铺装工程施工方案
- 三水装配式检查井施工方案
- “油茶+N”混交造林模式的技术创新与应用实践的效益详述
- 智能制造与供应链管理的策略及实施路径
- 数字化改造的必要性与挑战
- 变电站巡检的重要性
- 管护员考勤管理制度
- 国家级自然保护区不可避让论证报告-概述说明以及解释
- 新教材统编版高中语文古代诗歌阅读讲与练 22 从七大常见题材入手把握诗歌内容情感
- 2024-2025学年天津市和平区天津一中高三综合测试英语试题试卷含解析
- 2024-2030年中国地铁广告行业市场现状供需分析及投资评估规划分析研究报告
- 高等职业学校人工智能技术应用专业实训教学条件建设标准
- 2024年水利安全员(B证)考试题库-上(单选题)
- 2025年高考生物总复习:减数分裂和受精作用
- 辐射防护试题库+答案
- DWI高信号常见疾病的鉴别诊断课件-2
- 酸碱滴定分析与讨论实验报告
评论
0/150
提交评论