




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3节成对数据的统计分析
睡课程标准要求
1.会作两个相关变量的数据的散点图,能根据最小二乘原理建立经验
回归方程并进行预测,了解样本相关系数的统计含义和残差分析.
2.了解独立性检验的基本思想,2X2列联表的统计意义,能对两个分
类变量进行独立性检验.
①超激材夯实国基
必备知识•课前回顾
朕知识梳理
1.成对数据的统计相关性
(1)变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一
个的程度,这种关系称为相关关系.
⑵散点图
每一个序号下的成对样本数据都可用直角坐标系中的点表示出来,由
这些点组成了统计图.我们把这样的统计图叫做散点图.
⑶正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈
现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增
加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
(4)线性相关与曲线相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在二
条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这
两个变量非线性相关或曲线相关.
⑸样本相关系数
n__n
一W(阳田优司一岳阳y「n石
l~nTH~I~n-n
J.£(%/-%)区⑶厂歹)J(昌*位)(昌*-n歹)
我们称r为变量x和变量y的样本相关系数.样本相关系数r的取值
范围为[T,□.
当r>0时,称成对样本数据正相关,这时一,当其中一个数据的值变小时,
另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数
据的值通常也变大.
当r<0时,称成对样本数据负相关,这时一,当其中一个数据的值变小时,
另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数
据的值通常会变小.
■释疑
样本相关系数r的绝对值大小可以反映成对样本数据之间线性木标
的程度:当Ir|越接近1时,成对样本数据的线性相关程度越强;引肩
越接近0时,成对样本数据的线性相关程度越弱]
2.一元线性回归模型及其应用
(1)一元线性回归模型
我们称式子{短)匕:/为丫关于x的一元线性回归模型,
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模
型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间
的随机误差.
(2)一元线性回归模型参数的最小二乘估计
,人71
.£(%j-x)(yry)
b=仁、~~,n
当a,b的取值为《i=i(xr%)时,Q=£达到最小.
八-曰
、a=y-bx
此时.,我们将y=bx+a称为Y关于x的经验回归方程,也称经验回归函
数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程
的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计.
⑶残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程
得到的y称为预测值,观测值减去预测值称为残差.残差是随机误差
的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及
判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
■释疑
如果在残差的散点图中,残差比较均匀地分布在横轴两边,说明残差
比较符合一元线性回归模型的假定,是均值为。方差为。2的随机变
量的观测值.
(4)决定系数R2及其意义
n-2
E(yi_y>)
我们也用决定系数R2=l-早一二来比较两个模型的拟合效果.在R2
区(y「y)
nn*2
表达式中,Z(y「歹)2与经验回归方程无关,残差平方和Z(%-力)与
经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合
效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
3.分类变量与列联表
(1)我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,
这类随机变量称为分类变量.
(2)按研究问题的需要,将数据分类统计,并做成表格加以保存.这种
形式的数据统计表称为2义2列联表,关于分类变量X和Y的抽样数据
的2义2列联表如下:
Y
X合计
Y=0Y=1
x=oaba+b
X=1cdc+d
合计a+cb+dn=a+b+c+d
4.独立性检验
(1)独立性检验的概念
利用x2的取值推断分类变量X和Y是否独立的方法称为x,独立性检
验,读作“卡方独立性检验”,简称独立性检验.
⑵独立性检验的计算公式
2
x---、山。"°。)1---其中n=a+b+c+d).
(a+匕)(c+d)(a+c)(b+d)
(3)独立性检验基于小概率值a的检验规则
当x2》x0时,我们就推断H。不成立,即认为X和Y不独立,该推断犯错
误的概率不超过a;
当X2<x.时,我们没有充分证据推断Ho不成立,可以认为X和Y独立.
(4)x2独立性检验中常用的小概率值和相应的临界值.
a0.10.050.010.0050.001
Xa2.7063.8416.6357.87910.828
■释疑
(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其
是否有关系的判断.
⑵根据X2的值可以判断两个分类变量有关的可信程度,若X2越天
则两分类变量有关的把握越大.
度重要结论
1.通常|r|大于0.75时一,认为两个变量有很强的线性相关性.
2.经验回归直线一定过样本中心点(五歹).
n人
3.可以通过比较残差的平方和S。「了尸来比较两个模型的效果,残
i=l
九-2
£(y;-y)
差平方和越小,拟合效果越好,也可以用R2比较,R2=l-方R2越
春“)2
大,效果越好.
4.应用独立性检验应首先提出零假设:X和Y相互独立.
帚点自藏
1.为调查中学生近视情况,测得某校男生150名中有80名近视,在140
名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,
用下列哪种方法最有说服力(C)
A.回归分析B.均值与方差
C.独立性检验D.概率
解析:“近视”与“性别”是两类变量,其是否有关,应用独立性检验
判断.故选C.
2.(2020•全国I卷)某校一个课外学习小组为研究某作物种子的发
芽率y和温度x(单位:C)的关系,在20个不同的温度条件下进行种
子发芽实验,由实验数据(Xi,yj(i=l,2,…,20)得到如图的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜
作为发芽率y和温度x的回归方程类型的是(D)
A.y=a+bxB.y=a+bx2
C.y=a+bexD.y=a+blnx
解析:由散点图可以看此点大致分布在对数型函数的图象附近.
故选D.
3.(多选题)(2021•山东济宁一中期末)给出以下四个说法,其中正确
的是(BD)
A.由样本数据得到经验回归方程)7=匕*+。至少经过点区,“),(X2,y2),
…,(xn,yn)中的一个
B.在回归分析中,用决定系数R2来比较两个模型拟合效果,R2越大,表
示残差平方和越小,即模型的拟合效果越好
C.在经验回归方程y=-o.5x+0.7中,当解释变量X每增加一个单位时,
响应变量y平均增加0.5个单位
D.若变量y和x之间的样本相关系数为r=-0.9872,则变量y和x之
间的负线性相关很强
解析:经验回归直线y=bx+a经过点(元歹),不一定经过样本点,故A
不正确;用决定系数R?来比较两个模型的拟合效果,R2越大,表示残差
平方和越小,即模型的拟合效果越好,故B正确;在经验回归方程
y=-Q.5x+0.7中,当解释变量x每增加1个单位时,响应变量y平均减
少0.5个单位,故C不正确;若变量y和x之间的样本相关系数为
r=-0.9872,则变量y和x之间的负线性相关很强,故D正确.故选BD.
4.为了判断某高中三年级学生是否选修文科与性别的关系.现随机抽
取50名学生,得到如表所示的2义2列联表.
选修
性别合计
理科文科
男131023
女72027
合计203050
已知P(x841)Q0.05,P(x2>5.024)^0.025.
根据表中数据,经计算得到
2
X-4.844,则认为选修文科与性别有关系出错的可
23X27X20X30
能性为.
解析:x2心4.844>3.841,这表明小概率事件发生.根据假设检验的基
本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种
判断出错的可能性约为5%.
答案:5%
5.已知变量x和y的统计数据如表所示.
X34567
y2.5344.56
根据上表可得经验回归方程为y=bx-0.25,据此可以预测当x=8
时,y=.
解析:由题中图表可知,元=5,歹=4,因为经验回归方程经过样本的中心
(x,歹),则4=5b-0.25,得b=0.85,则经验回归方程为y=0.85x4).25,
再将x=8代入方程,得y=6.55.
答案:6.55
美小考点气窠四鬟
关键能力•课堂突破
糜考点一成对数据的统计相关性判断
1.对变量x,y有观测数据(x“yi)(i=l,2,-,10),得散点图如图①,对
变量U.V有观测数据(Ui,Vi)(i=l,2,…,10),得散点图如图②.由这两
个散点图可以判断(C)
r
30
2550
2040
1530
1020
510
°01234567%001234567〃
①②
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:由散点图可得两组数据均线性相关,且图①的经验回归方程斜
率为负,图②的经验回归方程斜率为正,则由散点图可判断变量x与y
负相关,u与v正相关.故选C.
2.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计数
据如表所示.
月份123456
人均销售额658347
利润率/%12.610.418.53.08.116.3
根据表中数据,下列说法正确的是(A)
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人
均销售额成正相关关系.故选A.
0人均销售额/千元
3.(多选题)四名同学根据各自的样本数据研究变量x,y之间的相关
关系,并求得经验回归方程,分别得到以下四个结论,其中一定不正确
的结论是(AD)
A.y与x负相关且y=2.347x-6.423
B.y与x负相关且y=-3.476x+5.648
C.y与x正相关且y=5.437x+8.493
D.y与x正相关且y=-4.326x-4.578
解析:y与x负相关且y=2.347x-6.423,A结论错误,由经验回归方程
知,此两变量的关系是正相关;
y与x负相关且y=-3.476x+5.648,B结论正确,经验回归方程符合负
相关的特征;
y与x正相关且y=5.437x+8.493,C结论正确,经验回归方程符合正相
关的特征;
y与x正相关且y=-4.326x-4.578,D结论错误,经验回归方程符合负
相关的特征.故选AD.
4.变量X与Y相应的一组数据为
(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的
一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,D.n表示变
量Y与X之间的线性相关系数,n表示变量V与U之间的线性相关系
数,则(C)
A.r2<ri<0B.0<r2<ri
C.r2<0<riD.r2=ri
解析:对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即
n>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即
.故选C.
一题后悟通:
判断线性相关关系中正相关与负相关的三种方法
(1)散点图法:点的分布从左下角到右上角,两个变量正相关;点的分
布从左上角到右下角,两个变量负相关.
(2)相关系数法:当|r|越趋近于1相关性越强.当残差平方和越小,相
关指数心越大,相关性越强.若r>0,则正相关;若r<0,则负相关.
(3)经验回归方程法:当b>0时,正相关;当匕<0时,负相关.
席考点二独立性检验
口角度-独立性检验的简单应用
CSH)(2020•全国HI卷)某学生兴趣小组随机调查了某市100天中每
天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表
(单位:天):
锻炼人次(200,(400,
[0,200]
空气质量等级400]600]
1(优)21625
2(良)51012
3(轻度污染)678
4(中度污染)720
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用
该组区间的中点值为代表);
⑶若某天的空气质量等级为1或2,则称这天“空气质量好”;若某
天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数
据,完成下面的2X2列联表,并根据列联表,判断是否有95%的把握认
为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次W400人次>400
空气质量好
空气质量不好
2
附.y2-n{ad-bc)______
(a+匕)(c+d)(a+c)(匕+d)'
P(Y》k)0.0500.0100.001
k3.8416.63510.828
解:(1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的
估计值如表:
空气质量等级1234
概率的估计值0.430.270.210.09
(2)一天中到该公园锻炼的平均人次的估计值为
高X(100X20+300X35+500X45)=350.
(3)根据所给数据,可得2X2列联表:
人次W400人次〉400
空气质量好3337
空气质量不好228
2
根据列联表得G5.820.
55x45x70x30
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次
与该市当天的空气质量有关.
"解题策略1
1.在2X2列联表中,如果两个变量没有关系,则应满足ad-bc^0.
Iad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变
量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结
论.独立性检验的一般步骤:
(1)根据样本数据制成2X2列联表.
2
2
⑵根据公式X三(a+匕,「)(c+匕d)(a+c)(b+d小)计算X的值.
(3)比较x2与临界值的大小关系,作统计推断.
口角度二独立性检验的综合应用
(SH)(2021•河南洛阳统考)某共享单车经营企业欲向甲市投放单
车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单
车使用情况调查.调查过程分随机问卷、整理分析及开座谈会三个阶
段.在随机问卷阶段,A,B两个调查小组分赴全市不同区域发放问卷并
及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针
对15至45岁的人群,按比例随机抽取了300份,进行数据统计,具体
情况如表所示.
A组统计结果B组统计结果
组别
经常使偶尔使经常使偶尔使
年龄
用单车用单车用单车用单车
[15,25)27人13人40人20人
[25,35)23人17人35人25人
[35,45]20人20人35人25人
⑴先用分层随机抽样的方法从上述300人中按“年龄是否达到35岁”
抽出一个容量为60人的样本,再用分层随机抽样的方法将“年龄达到
35岁”的被抽个体分配到“经常使用单车”和“偶尔使用单车”
中去,
①求这60人中“年龄达到35岁且偶尔使用单车”的人数;
②为听取对发展共享单车的建议,调查小组专门组织所抽取的“年龄
达到35岁且偶尔使用单车”的人员召开座谈会.会后共有3份礼品赠
送给其中3人,每人1份(其余人员仅赠送骑行优惠券).已知参加座谈
会的人员中有且只有4人来自A组,求A组这4人中得到礼品的人数
X的分布列和数学期望.
(2)从统计数据可直观得出“经常使用共享单车与年龄达到m岁有关”
的结论.在用独立性检验的方法说明该结论成立时一,为使犯错误的概
率尽可能小,年龄m应取25还是35?请通过比较x2的大小加以说明.
2
2_n(ad-bc)
参考公式:其中n=a+b+c+d.
(a+匕)(c+d)(a+c)(b+d)'
解:(1)①从300人中抽取60人,其中“年龄达到35岁”的人数为
100X^=20,再将这20人用分层随机抽样法按“是否经常使用单车”
进行名额划分,其中“年龄达到35岁且偶尔使用单车”的人数为
20X—45=9.
100
②A组这4人中得到礼品的人数X的所有可能取值为0,1,2,3,相应概
率为P(X=0)=g噎P(X=D=等/P(X=2)=甯*P(X=3)得小
故其分布列为
X0123
51051
P
42211421
所以E(X)=OX?1X挣2义33义导:
(2)按“年龄是否达到35岁”对数据进行整理,得到如表所示的列
联表.
使用单车
是否达到35岁合计
经常偶尔
未达到12575200
达到5545100
合计180120300
/\2Q
、nln-1*4日2300x(125x45-75x55)300X150025
当in=35时,口J求得;---------------=-------------=—.
711200X100X180X120200x100x180x12016
按“年龄是否达到25岁”对数据进行整理,得到如表所示的列联表.
使用单车
是否达到25岁合计
经常偶尔
未达到6733100
达到11387200
合计180120300
当m=25时,可求得
行300X(67X87-33X113)2=300X2]。。?二竺,
人“100x200x180x120100x200x180x12016
所以4>好.
欲使犯错误的概率尽可能小,需取m=25.
[针对训练]
(2021•山东青岛高三二模)现对某市工薪阶层对于“楼市限购令”的
态度进行调查,随机抽调了50人,他们月收入(单位:百元)的频数分
布及对“楼市限购令”赞成人数如表所示.
月收入[25,35)[35,45)[45,55)[55,65)[65,75)[75,85]
频数510151055
赞成
4812521
人数
(1)根据以上统计数据完成2X2列联表,并问能否有97.5%的把握认
为“某市工薪阶层对于'楼市限购令’的态度与月收入以6500元为
分界点有关”?
月收入
态度不低于低于合计
65百元65百元
赞成
不赞成
合计
(2)若对月收入在[55,65)和[65,75)的被调查人中各随机选取两人进
行追踪调查,求在选中的4人中有人不赞成的条件下,赞成“楼市限购
令”的人数&的分布列及数学期望.
2
附:Lj)(±X3"a+b+c+d.
a0.0500.0250.0100.0050.001
Xa3.8415.0246.6357.87910.828
解:⑴由题意列联表如表:
月收入
态度不低于低于合计
65百元65百元
赞成32932
不赞成71118
合计104050
2
x2=50X(3X11-7学9)--6.27>5,024,
32X18X10X40
所以有97.5%的把握认为“某市工薪阶层对于'楼市限购令'的态度
与月收入以6500元为分界点有关”.
(2)&的所有可能取值为0,1,2,3,
P(€=0)=C5C3_30_3
C^CFCICI_44O-44,
储储鬣+髭禺禺_
P(€=l)=-135_27
CioCs-C5C244088
篇鬣犯升篇
P(1=2)=+CKKC£190_19
C2QC2_C2C2碗—北
髭禺+解禺第一
P(g=3)=685_17
Cl0Cj-ClCl-440-88
所以g的分布列为
€0123
3271917
P
44884488
E(>OX?1X念2法+3义3
慢考点三一元线性回归模型及残差分析
口角度-线性回归分析
(2021•云南昆明高三三模)我国脱贫攻坚战取得全面胜利,现
行标准下农村贫困人口全部脱贫,消除了绝对贫困.某村40户贫困家
庭在扶贫工作组的帮助下于2017年全面脱贫,该工作组为了了解脱
贫家庭的收入、消费支出、食品支出的关系,在这些脱贫家庭中利用
简单随机抽样方法抽取了8户,调查统计这8户家庭每户2019年的年
收入X,消费支出y,食品支出z(单位:千元),整理数据
(X"yD(i=l,2,•••,8)得到下面的折线图,由数据(y,,Zi)(i=l,2,•••,8)
的经验回归方程丫="+。(精确到0.01),并解释b的现实生活意义;
(2)恩格尔系数,是食品支出额占家庭消费支出总额的比重.通常一个
家庭收入越少,家庭收入中(或总支出中)用来购买食物的比重越大;
一个家庭收入越多,家庭收入中(或总支出中)用来购买食物的比重越
小,所以该系数是衡量居民生活水平的有效指标.根据联合国粮农组
织提出的标准,恩格尔系数在59%以上为贫困,50%〜59%为温饱,40%〜
50%为小康,30%〜40%为富裕,低于30%为最富裕.根据上述样本数据,
请估计该村脱贫家庭中达到最富裕的家庭户数.
8888
参考数据:EXi=360,£yi=288,Zx=13310,Sxf=16714.附:回归
i=li=li=liiy=il"
方程y^x+a中斜率和截距的最小二乘估计公式分别为
八n
ZXiyt-nx・y
a=y-bx.
88
解:⑴由题,可知三=0^=吧=45,歹==*-288=36,
8888
八8
匕匚I、I,香产沙厂8%•9310-8x45x36175„„八门
------=-13---------=——仁0.681^0.68,
5避-8元216714-8X452257
1=11
故(1二歹一匕元、36-0.681X4545.36.
所以y关于x的经验回归方程为y=0.68x+5.36.
匕的现实意义为年收入每增加1千元,估计消费支出增加0.68千元.
⑵由题意可知,8户脱贫家庭的恩格尔系数如表所示.
家庭12345678
⑴
恩格尔
33.3%33.3%33.3%37.1%32.4%27.5%28.6%27.3%
系数
所以样本中达到最富裕的家庭有3个,
估计该村脱贫家庭中达到最富裕的家庭户数为[X40=15(户).
O
解题策略I
1.经验回归方程中系数的两种求法
(1)公式法:利用公式,求出回归系数b,a.
⑵待定系数法:利用回归直线过样本点中心(元y)求系数.
2.回归分析的两种策略
(1)利用经验回归方程进行预测:把经验回归方程看作一次函数,求函
数值.
(2)利用经验回归直线判断正、负相关:决定正相关还是负相关的是回
归系数匕.
幅度二非线性回归分析
CSO(2021•安徽宿州高三三模)某电影院统计了某部电影上映高
峰后连续10场的观众人数,其中每场观众人数y(单位:百人)与场次x
的统计数据如表:
X12345678910
y2.7721.921.361.121.090.740.680.620.55
通过散点图可以发现y与x之间具有相关性,且满足关系式y=aebx,设
w=lny.
⑴利用表格中的前8组数据求样本相关系数r,并判断是否有99%的
把握认为x与3之间具有线性相关关系(当样本相关系数满足
|r|>0.789时,则有99%的把握认为两个变量具有线性相关关系);
⑵利用x与3的相关性及表格中的前8组数据求出y与x之间的经
验回归方程;(结果保留两位小数)
⑶如果每场观众人数不足0.7(单位:百人),称为“非满场”.从表格
中的10组数据中随机选出8组,设&表示“非满场”的数据组数,求
€的分布列及数学期望.
附:闻心6.48,76^2.45,71770^1.30,el*Q3.22.前8组数据的相
8888
关量及公式:EXi=36,Eyi=ll.68,E3产2.18,E(x;-x)2=42,
8i=li=li=li=l
E88
(y-y)2^3.61,E(3[石)2^1.7O,E(X-X)(y-y)=-11.83,
I•-
8i=li=l
z
(Xi-X)(Wj-co)仁-8.35,对于样本(V"Ui)(i=l,2,•••,n),其经验回
-
-n
E(Vf-v)(Uj-u)
归直线的斜率和截距的最小二乘估计公式分别为———=
E(vv)2
i=lr
n__n
,a-u-bv,样本相关系数
nvnv22
忑i-J2切-访22(uru)
8
E(%j-x)(co厂7J)
解:(1)因为"号・•99,
82
E(3「初
i=i
所以|r|-0.99>0.789,
所以有99%的把握认为x与3之间具有线性相关关系.
(2)因为y=aebx,所以Iny=lna+bx,
八8
b:*§:-.=*-620,
L(xi-x)
i=i
a=7ji)-bx^l.17,
所以3=-0.20x+l.17=lny,
所以y=ea2°x”"=3.22e-0-20x.
⑶&=1,2,3,
P(g=1)=星U一i
c?015,
德第一
P(1=2)=7
C5015'
P(g=3)=c阳一7
C?o15'
&的分布列为
€123
177
P
151515
所以E()=1X^+2X^+3X^=2.4.
解题策略!
求非线性经验回归方程的步骤
⑴确定变量,作出散点图.
⑵根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,
并求出经验回归方程.
(4)分析拟合效果,通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性经验回归方程.
口角度三残差分析
(SOBMI指数是用体重公斤数除以身高米数的平方得出的数值,是
国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.某中小学
生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,
其身高和体重的数据如表所示:
编号12345678
身高x/cm166167160173178169158173
体重y/kg5758536166575066
(1)根据最小二乘法的思想与公式可求得经验回归方程为y=0.8x-
75.9,请利用已经求得的经验回归方程,完善残差表,并求解释变量
(身高)对于响应变量(体重)变化的贡献率R?;(保留两位有效数字)
编号12345678
身高x/cm166167160173178169158173
体重y/kg5758536166575066
残差e/kg0.10.30.9-1.5-0.5
(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在
样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数
据的体重应该为58kg.请重新根据最小二乘法的思想与公式,求出男
体育特长生的身高与体重的经验回归方程.
n-nn
公七八22('「九)2工,(工「对)歹)
参考公式:R2=l-号----7/士力------
n9
E(yry)s(Xi-x)Exj-nx
1=11=1i=l1
a=y-bx,ei=yrbxra.
88
参考数据:EXiyi=78880,X々2=226
i=li=l
82
112,x=168,y=58.5,Z(yy)=226.
i=lr
解:(1)由题意知经验回归方程为y=0.8x-75.9,
计算66=57-0.8X169+75.9=-2.3,
e7=50-0.8X158+75.9=-0.5,
e8=66-0.8X173+75.9=3.5.
完善残差表如下,
编号12345678
身高x/cm166167160173178169158173
体重y/kg5758536166575066
残差e/kg0.10.30.9-1.5-0.5-2.3-0.53.5
计算
2工⑶厂外)1,.
R2=l-------=1--(0.01+0.09+0.81+2.25+0.25+5.29+0.25+12.25)
i(yry)2226
1=1
^l-o.09=0.91,所以解释变量(身高)对于响应变量(体重)变化的贡
献率R2^0.91.
(2)通过残差分析知,残差的最大(绝对值)的那组数据为第8组,且
88
yk58,由.Ex〉尸78880,计算修订后.EXiyJ=78880-173X66+173X
i=li=l
81
58=77496,又£工产=226112,运168,修订后歹'=-X(8X58.5-66+
i=l8
八Tl人人
58)=57.5,所以"X'=77496-8x168x5,6=0.575a=y'一底=
y.2_2226112-8X1682,
L人Y>1nIXV.
i=l
57.5-0.675X168=-55.9,所以x关于y的经验回归方程是y=0.675x-
55.9.
-懈题策略I
决定系数V对回归模型的检验
n-2
(1)我们可以用决定系数R2=l-号——来刻画回归的效果.
区仇方)
(2)在线性回归模型中,R2表示解释变量对于响应变量变化的贡献
率,R2越接近于1,表示回归的效果越好.
[针对训练]
某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售
量的数据确定此次广告费支出.广告费支出x(单位:万元)和销售量
y(单位:万台)的数据如表所示.
年份2011201220132014201520162017
广告费
1246111319
支出X
销售量y1.93.24.04.45.25.35.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的经验回归
方程;
(2)若用y=c+d«模型拟合y与x的关系,可得回归方程y=l.63+
0.99底,经计算线性回归模型和该模型的R?分别约为0.75和0.88,
请用R2说明选择哪个回归模型更好;
⑶已知利润z与x,y的关系为z=200y-x.根据⑵的结果回答下列
问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费X为何值时,利润的预报值最大?(精确到0.01)
参考公式:经验回归直线y=a+bx的斜率和截距的最小二乘估计分别
n__n
E(%>-%)(y>-y)Ex^yi-nxy
=i_________________—t=i_____________
为bn~n~a=y-bx.参考数据:巡Q2.24.
£(Xj-x)Ex?-nx
i=li=l
解:(1)因为x=8,y=4.2,
77
身疗279.4,界=7。8,
n
色产、厂nxy279.4-7X8X4.2
所以八n=0.17,
9708-7X82
Lxj-nx
i=il
a=y-bx=4.2-0.17X8=2.84,
所以y关于x的经验回归方程为y=0.17x+2.84.
⑵因为0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果
越好,所以选用y=l.63+0.99a更好.
⑶由⑵知,
①当x=20时,
销售量的预报值y=L63+0.99720^6.07(万台),
利润的预报值z=200X(1.63+0.99720)-20^1193.04(万元).
②z=200(l.63+0.99so-x=-x+198V%+326=-(V%)2+198V%+326=
-(V%-99)2+10127,
所以当6=99,即x=9801时,利润的预报值最大,故广告费为9801
万元时,利润的预报值最大.
啜考点四成对数据分析中的探究创新题
CW(2021•福建南平高三二模)近年来,我国加大5G基站的建设力
度,基站已覆盖所有地级市,并逐步延伸到乡村.
(1)现抽样调查某市所辖的A地和B地5G基站的覆盖情况,各取100
个村,调查情况如表.
已覆盖未覆盖
A地2080
B地2575
视样本的频率为总体的概率,假设从A地和B地所有村中各随机抽取
2个村,求这4个村中A地5G已覆盖的村比B地多的概率;
⑵该市2020年已建成的5G基站数y与月份x的数据如表,
X123456789101112
111223
y283340428547701905
151423721109601381
探究表中的数据发现,因年初受新冠肺炎疫情影响,5G基站建设进度
比较慢,随着疫情得到有效控制,5G基站建设进度越来越快,根据散点
图分析,已建成的5G基站数呈现先慢后快的非线性变化趋势,采用非
线性回归模型y=a^拟合比较合理,请结合参考数据,求5G基站数y
关于月份x的经验回归方程.(6的值精确到0.01)
附:设u=lny,贝lja=lny£(y=l,2,12),y^l299.17,u^6.88,
121212
£(x-%)=143,E(Xi-x)・(y]歹…37238,E(x-x)(u-u)^32.43,
i=li=li=l
对于样本(x“yi)(i=l,2,…,n)的经验回归方程y=bx+a有
人nA
(xj-x)(yj-y)八__
b=l^n--------,a^y-bx.
£(xx)
i=ir
[思路导引](1)利用二项分布、彼此互斥和相互独立事件的含义及概
率计算公式,即可解得;
(2)利用换元,设u=lny,则u=lna+bx,可得u与x是线性相关关系,
再根据最小二乘法求经验回归方程.
解:(1)用样本估计总体,抽到A地5G覆盖的村的概率为也抽到B地5G
覆盖的村的概率为"设A地抽到的2个村中5G基站覆盖的村的个数
为X,则X服从二项分布B(21),
P(X=i)=c£g)ig)匕i=o,1,2.
设B地抽到的2个村中5G基站覆盖的村的个数为Y,则Y服从二项分
布B&,;),
4
P(Y=i)=©(”沪,i=0,1,2.
从A地和B地各随机抽取2个村,这4个村中A地5G覆盖的村比B地
5G覆盖的村多的概率为
P=P(X=l)P(Y=0)+P(X=2)P(Y=0)+P(X=2)P(Y=l)=C,g)(|)(^)2+(1)2
・(!)2+就禺(6・(|)=为
(2)由指数模型y=aebx,设u=lny,则u=lna+bx,则u与x是线性相关
关系.
因为底=1+2+:;“+12=6.5,正心6.88,
1212
£(x-%)(Ui-u)^32.43,E(x-%)2=143,
i=li=l
入n
匚口、1,区(阳㈤(U厂访32.43noo
所以budfj-------弋----^0.23,
E(xx)2©
i=lr
Ina^u-bx^6.88-0.23X6.5^5.39,
539+023x
即〃=5.39+0.23x,gpy=e--.
[反思提升]本题考查二项分布、互斥事件、相互独立事件及回归分
析等基础知识,求解时应注意概率模型、回归分析模型的建立与应用,
本例可以对数学建模、数据分析、逻辑推理与数学运算的数学学科素
养的提升有极大的帮助.
[针对训练]
(2021•四川攀枝花高三二模)2020年3月,工业和信息化部发布《工
业和信息化部关于推动5G加快发展的通知》鼓励基础电信企业通过
套餐升级优惠、信用购机等举措,促进5G终端消费,加快用户向5G迁
移.为了落实通知要求,掌握用户升级迁移情况及电信企业服务措施,
某市调研部门随机选取了甲、乙两个电信企业的用户共165户作为样
本进行满意度调查,并针对企业服务措施设置了达标分数线,按照不
低于80分的为满意,低于80分的为不满意,调研人员制作了如表所示
的2X2列联表.已知从样本的165户中随机抽取1户为满意的概率是
9
11
满意度
用户合计
I两思不满意
甲企业用户75
乙企业用户20
合计
(1)将2X2列联表补充完整,并判断能否有95%的把握认为“满意度
与电信企业服务措施有关系”?
⑵视样本的频率为概率,在该市乙企业的所有用户中任取3户,记取
出的3户中不满意的户数为自,求&的分布列和数学期望.
临界值表仅供参考:
a0.10.050.010.0050.001
Xa2.7063.8416.6357.87910.828
2
(参考公式:X2-.._—其中n=a+b+c+d)
(a+匕)(c+d)(a+c)(b+d)
解:⑴设样本中乙企业用户中满意的有x户,结合列联表知P=Z爰=,
16511
解得x=60,所以2义2列联表为
满意度
用户合计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 杭州河道护坡施工方案
- 土方开挖阶段施工方案
- 水工程施工方案
- 平整小院地面施工方案
- 屋顶粉刷砂浆施工方案
- 水泵安装施工方案
- TSHZJRXH 001-2024 石河子自助银行建设规范
- 二零二五年度退房流程规范合同
- 二零二五年度未成年人特殊监护协议书
- 二零二五年度钢琴考级辅导班报名合同书
- 医院设施日常巡查管理制度
- 2025年太仓市文化旅游发展集团限公司及子公司公开招聘12名高频重点提升(共500题)附带答案详解
- 机械制图题库及答案
- 安装承包合同(2025年)
- 云上贵州大数据(集团)有限公司招聘笔试冲刺题2024
- 人教版四年级下册数学第二单元观察物体(二) 单元测试
- 建筑工程公司绩效考核制度范本
- 保育员与教师协作配合的技巧与案例
- 2024-2030年中国实验室家具行业发展规划及投资前景预测报告版
- 绿色金融案例分析
- 【MOOC】运动安全与健康-浙江大学 中国大学慕课MOOC答案
评论
0/150
提交评论