版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章统计案例⑴
§1.1回归分析的基本思想及其初步应用(1)
§1.2独立性检验的基本思想及其初步应用(8)
章末整合提升(15)
章末达标测试(18)
第二章推理与证明(23)
§2.1合情推理与演绎推理(23)
§2.1.1合情推理(23)
§2.1.2演绎推理(29)
§2.2直接证明与间接证明(34)
§2.2.1综合法与分析法(34)
§2.2.2反证法(39)
章末整合提升(43)
章末达标测试(45)
第三章数系的扩充与复数的引入(49)
§3.1数系的扩充和复数的概念(49)
§3.1.1数系的扩充和复数的概念(49)
§3.1.2复数的几何意义(53)
§3.2复数代数形式的四则运算(57)
§3.2.1复数代数形式的加减运算及其几何意义(57)
§3.2.2复数代数形式的乘除运算(61)
章末整合提升(66)
章末达标测试(68)
第四章框图(71)
§4.1流程图(71)
§4.2结构图(77)
章末整合提升(83)
章末达标测试(86)
模块综合检测(90)
第一章
统计案例
I§1.1回归分析的基本思想及其初步应用
[课标解读]
1.了解随机误差、残差、残差分析的概念.(难点)
2.会用残差分析判断线性回归模型的拟合效果.(难点)
3.掌握建立回归模型的步骤.(重点、易混点)
4.通过对典型案例的探究,了解回归分析的基本思想方法和初步应用.(重
点、难点)
溪前顽凰翳4素养养成通教材/理知识/记要点
II基础知识整合
1.回归分析
回归分析是对具有的两个变量进行统计分析的一种常用方法,回归
分析的基本步骤是,,并用回归方程进行预报.
2.线性回归模型
⑴在线性回归方程3=2+源中,b=,a=,其中三=
,?=,(7,亍)称为变量_______,回归直线过样本点的中
心.
(2)线性回归模型y=bx+a+e,其中e称为,自变量x称为
变量,因变量y称为变量.
3.刻画回归效果的方式
残差把随机误差的估计值)称为相应于点8,九的残差
作图时纵坐标为_______,横坐标可以选为________,或________,
残差图
或________等,这样作出的图形称为残差图
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合
残差图法
适,这样的带状区域的宽度_______,说明模型拟合精度越高
残差平方和残差平方和为_____,残差平方和_________,模型拟合效果越好
犬2=1-________,/表示________变量对________变量变化的贡
相关指数叱
献率,川越接近于1,表示回归的效果越好
答案1.相关关系画出两个变量的散点图求回归方程
Jr..T)(y,V)__
2.(1------Z-----ybx
X(j:j—a-)2
J-1
」~£吃样本点的中心
ni-1ni-1
(2)随机误差解释预报
3.残差样本编号身高数据体重估计值越窄
.£(»—V.)2
^(y-y,)2越小V---------解释预报
-、、(—~\9
口核心要点探究
»知识点一回归分析的相关概念
【探究11相关关系与函数关系的区别与联系.
提示(1)两者之间的区别
①相关关系是一种非确定性关系,如人的身高与年龄.而函数关系中的两个
变量是一种确定性关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系.
(2)两者之间的联系
相关关系与函数关系有着密切的联系,在一定条件下可以相互转化.例如正
方形的面积S与其边长X之间虽然是一种确定性关系,但在每次测量时,由于测
量误差等原因,其数值大小又表现出一种随机性,而对于具有相关关系的两个变
量来说,当求得其回归直线方程后,我们又可以用一种确定的关系对这两个变量
间的关系进行估计.
【探究2]线性回归模型是函数关系吗?
提示y=bx+a+e与函数关系不同.在回归模型中,y的值由x和随机误差
e共同确定,即x只能解释部分y的变化.因此有时把x称为解释变量,把y称
为预报变量.
»知识点二回归分析
【探究1]回归分析中,利用线性回归方程求出的函数值一定是真实值吗?
为什么?
提示不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,
例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受
其他因素的影响,如饮食,是否喜欢运动等.
【探究2】回归模型£=源+2+2中2是什么,它有怎样的作用?
提示2是随机误差.它的主要作用是提供选择模型的准则以及在模型合理
的情况下探求最佳估计值味,合的工具.
【探究3]相关指数R2的作用是什么?
提示利用相关指数甯可以刻画数据拟合效果的好坏.在线性回归模型中,
W的值越接近1,说明残差平方和越小,即说明模型的拟合效果越好.
【归纳提高】
对回归分析的三点说明
(1)回归分析的前提是两个变量之间具有相关关系.
(2)对两个变量之间数量变化进行一般关系的测定,确定一个相应的数学表达
式,即线性回归方程,达到由一个已知量推测或控制另一个变量的值的目标,是
统计的一个重要方法.
(3)线性回归方程是根据样本数据得到的一个确定性的函数关系,是用来对未
知变量进行预测的,为了预测的效果更好,减小误差,应在求回归方程时尽量多
地选取样本,选择代表性较强的样本,使得预测值尽量地接近真实值.
霭总能短嵬翳素养提升探新知/悟方法/学审答
题型一回归分析的有关概念
[例1]有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学
方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系
表示;③通过回归方程£=源+3可以估计和观测变量的取值和变化趋势;④因
为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检
验.
其中正确命题的个数是
A.1B.2C.3D.4
【自主解答】解答本题时可先逐一核对相关概念及其性质,然后再逐一作
出判断,最后得出结论.
①反映的正是最小二乘法思想,故正确.
②反映的是画散点图的作用,故正确.
③解释的是回归方程£=源+2的作用,故也正确.
④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关
系.
【答案】C
方法规律
回归分析的过程
(1)随机抽取样本,确定数据,形成样本点.
(2)由样本点形成散点图,判断是否具有线性相关关系.
(3)由最小二乘法确定线性回归方程.
(4)由回归方程观察变量的取值及变化趋势.
O变式训练
1.关于变量y与X之间的回归直线方程叙述正确的是
A.表示y与x之间的一种确定性关系
B.表示y与x之间的相关关系
C.表示y与x之间的最真实的关系
D.表示y与x之间真实关系的一种效果最好的拟合
解析回归直线方程能最大可能地反映y与x之间的真实关系,故选项D正
确.
答案D
题型二线性回归方程及回归分析
[例2]⑴已知一个回归方程为j=1.5x+45,x£{l,7,5,13,19),则亍=
A.9B.45C.58.5D.1.5
⑵如图所示的是四个残差图,其中回归模型的拟合效果最好的是
CD
(3)PM2.5是指大气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒
物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某
一时间段车流量与PM2.5的数据如表:
时间周一周二周三周四周五
车流量x(万辆)5051545758
PM2.5的浓度y6970747879
(微克/立方米)
①根据上表数据,请在下列坐标系中画出散点图.
②根据上表数据,用最小二乘法求出y关于x的线性回归方程£=源十2
③若周六同一时间段车流量是25万辆,试根据②求出的线性回归方程预测,
此时PM2.5的浓度为多少?(保留整数)
【自主解答】⑴由回归方程£=1.5x+45知金=1.5,a=45,又工=
1+7+5+13+19—AA—
---------------------=9,由公式得y=a+bx=45+1.5X9=58.5.
(2)选项A和B中的残差图都是水平带状分布并且选项B的残差图散点分布
集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好.
(3)①散点图如图所示.
50+51+54+57+58
②因为三=------------£------------=54
-69+70+74+78+79
y=c=74,
3)(yiv)=4X5+3X4+3X4+4X5=64,
i-1.
S(Xi—式)2=(-4*+(—3)2+32+42=50,
i一।
、(阳G(y:y)6A
A—A一
a=y-bx=74-1.28X54=4.88,
A
故y关于x的线性回归方程是y=1.28x+4.88.
③当x=25时,£=1.28X25+4.88=36.88=37,
所以可以预测此时PM2.5的浓度约为37微克/立方米.
【答案】(1)C(2)B(3)见自主解答
方法技巧
(1)求线性回归方程的三个关键点,关键点一
(2)解决线性回归问题的思路
首先通过散点图来分析两变量间是否线性相关,然后利用求回归方程的公式
求解回归方程,最后借助回归方程对实际问题进行分析.
O变式训练
2.(2018•全国卷II)如图是某地区2000年至2016年环境基础设施投资额y(单
位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了j与时间变量t的两
个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,
17)建立模型①:£=-30.4+13.51;根据201()年至2016年的数据(时间变量,的
值依次为1,2,7)建立模型②:j=99+17.5/.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解析(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为£=
-30.4+13.5X19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为£=99+
17.5X9=256.5(亿元).
⑵利用模型②得到的预测值更可靠.
理由如下:
解法一从折线图可以看出,200()年至2016年的数据对应的点没有随机散
布在直线y=-30.4+13.5/上下,这说明利用2000年至2016年的数据建立的线
性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境
基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的
附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,
利用2010年至2016年的数据建立的线性模型£=99+17.5t可以较好地描述2010
年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可
靠.
解法二从计算结果看,相对于2016年的环境基础设施投资额220亿元,
由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值
的增幅比较合理,说明利用模型②得到的预测值更可靠.
题型三非线性回归分析
[例3](1)两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是
0.*
A.y=a-xh
B.j=a+Z>lnx
C.y=a-ebx
h
D.y=a-ex
⑵下表为收集到的一组数据:
X21232527293235
y711212466115325
①作出x与y的散点图,并猜测“与y之间的关系;
②建立x与7的关系,预报回归模型并计算残差;
③利用所得模型,预报x=40时y的值.
【解析】(1)由散点图知,此曲线类似对数函数型曲线,可用B项函数进行
拟合.
(2)①作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据
已有知识可以发现样本点分布在某一条指数函数曲线y=CiecM的周围,其中白、
C2为待定的参数.
y
350
300
250
200
150
100,
50.,
0।一•二,—~_--■_1-
20222426283032343638人
②对两边取对数把指数关系变为线性关系,令z=lny,
则有变换后的样本点应分布在直线Z=Z>x+%a=lnclfb=C2的周围,这样
就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化
为:
X21232527293235
Z1.9462.3983.0453.1784.1904.7455.784
求得回归直线方程为2=0.272X-3.849,:.y=e0-272x-3!!49.
残差
711212466115325
A6.44311.10119.12532.95056.770128.381290.325
A
Zi0.557-0.1011.875-8.9509.23-13.38134.675
2r
③当x=40时,y=e"27T84955sli31.
规律总结
非线性回归方程的求法
(1)作散点图:根据原始数据(X,y)作出散点图.
⑵选择函数模型:根据散点图选择恰当的拟合函数.
⑶变换:作恰当的变换,将其转化成线性函数,求线性回归方程.
⑷还原:在(3)的基础上通过相应变换,即可得非线性回归方程.
O变式训练
3.在一次抽样调查中,测得样本的5个样本点的数值如下表:
X0.250.5124
y1612521
试写出y与x之间的回归方程.
解析根据表中的数据作图,其散点图如图所示.
根据散点图可知,y与x近似地呈反比例函数关系,设令,=;,则y
=kt,可得下表:
根据上表的数据作出散点图如图所示.
根据散点图可以看出y与,近似地呈线性相关关系,列表如下:
itiyittyiti*
2212244144
3155125
40.5210.254
50.2510.250.06251
z7.753694.2521.3125430
5才•》
,一I.
——A£6"
所以£=1.55,y=7.2,b=一'=4.1344,
A—A—A
a=y-bt«0.7917,所以y=4.1344/+0.7917,
A41344
所以y与x之间的回归方程是y=±手上+0.7917.
一皴粉敷翳,素养培优练规范/套模板/会应用
易错误区1对回归直线的性质认识不清
O典题示例
[典例]废品率X%和每吨生铁成本y(元)之间的回归直线方程为£=256+3X,
表明
A.废品率每增加1%,生铁成本增加259元
B.废品率每增加1%,生铁成本增加3元
C.废品率每增加1%,生铁成本平均每吨增加3元
D.废品率不变,生铁成本为256元
【规范解答】回归方程的系数》表示x每增加一个单位,金平均增加》,当
x为1时,废品率应每增加1%,故当废品率为1%时,生铁成本平均每吨增加3
元.
【答案】C
[易错防范]
理解回归方程中系数的含义
金表示自变量x每变动一个单位时,♦的平均变动值,也可认为是直线的斜
率.如本例》的含义是X每增加一个单位,£平均增加金.
O典题试解
根据如下样本数据
X345678
y4.02.5—0.50.5-2.0—3.0
得到的回归方程为£=源+3则
AAAA
A.a>0,6>0B.a>0,bVO
AAAA
C.aVO,b>0D.〃V0,b<a
解析画出散点图如图所示,y的值大致随x的增加而减小,所以2vo,a>
0.
5
4
3
2
1
-1
-2
-3
-4
答案B
震肩握雅匏,素养达成做练习/夯基础/提技能
[限时45分钟;满分80分]
一'选择题(每小题5分,共30分)
1.有关回归方程的叙述正确的是
A.回归方程只适用于所研究的样本
B.回归方程都有时间性
C.样本的取值范围会影响回归方程的适用范围
D.回归方程是反映总体的唯一的回归模型
解析回归方程是由样本求出,利用它来研究整体的,它不一定都有时间性,
也不是唯一的回归模型,但是样本的取值范围是回归方程的适用范围.
答案C
2.某车间加工零件的数量x与加工时间j的统计数据如表:
零件数x(个)102030
加工时间y(分钟)213039
现已求得上表数据的线性回归方程£=源+2中的金值为0.9,则据此回归模型
可以预测,加工100个零件所需要的加工时间约为
A.84分钟B.94分钟C.102分钟D.112分钟
解析由表中数据得:7=20,y=30,又金值为0.9,故1=30—0.9X20=
A
12,所以y=0.9x+12.
将x=10()代入线性回归方程,得£=().9X100+12=102(分钟).所以预测加
工100个零件需要102分钟.
答案C
3.下列三个说法:
①残差平方和越小的模型,拟合的效果越好;
②用W来刻画回归的效果时,W的值越小,说明模型拟合的效果越好;
③直线£=源+1和各点(X”Jl),(x2»力),…,(X",%)的偏差£"/=1回一
(金乐+1)]2是该坐标平面上所有直线中与这些点的偏差最小的直线.
其中正确的个数为
A.1B.2C.3D.4
解析由於的定义可知:/越接近于1,表明两个随机变量线性相关性越强,
所以(2)不正确,其余说法正确.
答案B
4.已知变量x与y正相关,且由观测数据算得样本平均数工=3,丁=3.5,
则由该观测数据测算的线性回归方程可能是
AA
A.y=0.4x+2.3B.y=2x~2.4
AA
C.y=-2x+9.5D.j=-0.3x+4.4
解析由正相关可知斜率为正,故可排除C,D两项,又因为£=0.4X+2.3
经过点(3,3.5),故A项正确.
答案A
5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5
户家庭,得到如下统计数据表:
收入x(万元)8.28.610.011.311.9
支出y(万元)6.27.58.08.59.8
根据上表可得回归直线方程y=Ax+a,其中。=0.76,a=y—bx.据此估计,
该社区一户年收入为15万元家庭的年支出为
A.11.4万元B.11.8万元
C.12.()万元D.12.2万元
解析由题意得
-8.2+8.64-10.0+11.3+11.9
x==10,
-6.2+7.5+8.0+8.5+9.8
y=s=8,
所以2=8-0.76义10=0.4,
AA
所以y=0.76x+0.4,把x=15代入得到y=11.8.
答案B
6.已知x与y之间的几组数据如下表:
X123456
y021334
假设根据上表数据所得线性回归直线方程为£=源+能若某同学根据上表中
的前两组数据(1,0)和(2,2)求得的直线方程为了="*+〃,则以下结论正确的是
AAAA
k.b>b\a>afB.b>b\a<af
AAAA
C.b<b',a>a'D.b<b',a<a'
解析过(1,0)和(2,2)的直线方程为y=2x-2,
画出六点的散点图,回归直线的大概位置如图所示,
AA
显然,>b,a>a'.
答案C
二、填空题(每小题5分,共15分)
7.某校高二(8)班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单
位:分)构成如下数据(15,79),(23,97),(16,64),(24,92),(12,58),求得
的回归直线方程为£=2.5X+2,则某同学每周学习2()小时,估计数学成绩约为
________分,
解析7=|x(15+23+164-24+12)=18,
7=jx(79+97+64+92+58)=78,
.——AA,八
把(x,y)代入y=2.5x+a,可求得a=33,
.AA
把x=20代入y=2.5x+33得y=2.5X20+33=83.
答案83
8.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万
元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y
对x的回归直线方程:^=0.254x4-0.321,由回归直线方程可知,家庭年收入每
增加1万元,年饮食支出平均增加万元.
解析由题意知其回归系数为().254,故家庭年收入每增加1万元,年饮食
支出平均增加().254万元.
答案0.254
9.改革开放以来,我国高等教育事业迅速发展,为调查西部某省从2008年
到2018年农村18到24岁的青年人每年考入大学的百分比,把2008年到2018
年的年号依次编号为0,1,…,10作为自变量X,把每年考入大学的百分比作为
因变量y,进行回归分析,得线性回归方程j=1.8()+0.42x.
①每年升入大学的百分比为1.80;②升入大学的18岁到24岁的人数按大约
每年0.42%的速率递增;③2008年升入大学的百分比约为1.80%,2018年升入
大学的百分比约为6%;④从2008年到2018年升入大学的人数成等距离增加.
上面对数据解释正确的是.
解析2008年升入大学的百分比为
j=1.80+0.42X0=1.80,
即1.80%,2018年升入大学的百分比为
j=1.80+0.42X10=6.0,
即6.0%,...①错③对.
对于②,自变量x每增加1个单位,
A
则y增加0.42%,
②对.④金表示考入大学的百分比,,④错.
答案②③
三'解答题(本大题共3小题,共35分)
10.(10分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产
量直吨)与相应的生产能耗y(吨)标准煤的几组对照数据
X3456
Y2.5344.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程£=分
A
x+a;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出
的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准
煤?
(参考数据:3X2.5+4X3+5X4+6X4.5=66.5)
解析(1)由题设所给数据,可得散点图如图.
攵(生产能耗:吨标准煤)
4.5----------------------------1
4--------------------------?
2.;二二二一:i
Ol__.__._!__I__i_I______
0123456H产量:吨)
4
(2)由数据,计算得:Zx:=86,
«=i
-34-4+5+6_-2.5+3+44-4.5_
x==4.5,y=4=3.5.
4A
又已知Exji=66.5,所以由最小二乘法确定的回归方程的系数为:b=错误!=
i=i
66.5-4X4.5X3.5
~~“一人—=0.7,a=V—bx=3.5—0.7X4.5=0.35,
86—4X4.5'
因此,所求的回归直线方程为Q=0.7X+0.35.
(3)由⑵的回归方程及技改前生产10()吨甲产品的生产能耗,得降低的生产能
耗为9()一(0.7X100+0.35)=19.65(吨标准煤).
1L(12分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡
居民人民币储蓄存款(年底余额)如下表:
年份20142015201620172018
时间代号t12345
储蓄存款y(千亿元)567810
(1)求y关于t的回归方程y=
⑵用所求回归方程预测该地区2019年e=6)的人民币储蓄存款.
附:回归方程£=备+2中,]=错误!,错误!=错误!一错误!错误!.
解析(1)列表计算如下:
itiMgtiyi
11515
226412
337921
4481632
55102550
I153655120
_1J5—136
这里/z=5,t=-52〃/=电=飞-=3,y=-51〃/=初=三=7.2・
H3H3
又〃£2=55—5x32=10,lty=Xnyi=ltiy—nty
=120-5X3X7.2=12,
从而号A『L2,
A—A一
a=y-bt=7.2-1.2X3=3.6,
故所求回归方程为£=12+3.6.
(2)将t=6代入回归方程可预测该地区2019年的人民币储蓄存款为£=1.2X6
+3.6=10.8(千亿元).
12.(13分)假设关于某设备的使用年限x和所支出的维修费用y(万元),有如
下的统计资料:
使用年限X23456
维修费用y(万元)2.23.85.56.57.0
若由资料知,y对x呈线性相关关系.试求:
(1)线性回归方程y=》x+a的回归系数》、a;
⑵求残差平方和;
⑶求相关指数於;
(4)估计使用年限为10年时,维修费用是多少?
解析y对x呈线性相关关系,转化为一元线性相关的方法,根据公式分别
计算.
(1)由已知数据制成下表.
——A
a=y-Z>x=5-1.23X4=0.08,Aj=1.23x4-0.08.
(2)由公式=1.23X2+0.08=2.54,
j2=1.23X3+0.08=3.77,
j3=1.23X4+0.08=5,
A
>4=1.23X5+0.08=6.23,
js=1.23X6+0.08=7.46,
A
•••ei=2.2-2・54=-0.34,
A
。2=3.8—3.77=0.03,
A
。3=5・5—5=0.5,
e4=6.5-6.23=0.27,
A
。5=7・0—7・46=—0.46・
...残差平方和为
2
(-0.34)+0.032,|_052_|_o272+(-0.46)2=0651
0.651
(3)W=I
(-2.8)2+(-1.2)2+0.52+1.52+2.02=0.9587.
(4)回归直线方程为£=1.23X+0.08,当x=10时,j=1.23X10+0.08=
12.38(万元),即估计使用10年时维修费用是12.38万元.
§1.2独立性检验的基本思想及其初步应用
[课标解读]
1.了解独立性检验的基本思想、方法及初步应用;了解独立性检验的常用方
法:等高条形图及片统计量法.(重点)
2.了解实际推断原理和假设检验的基本思想、方法及初步应用.(难点)
3.能运用自己所学知识对具体案例进行检验.(难点)
爆前颁现死,素养养成通教材/理知识/记要点
II基础知识整合
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的,像这样的变量称为分类变量.
⑵列联表
①定义:列出的两个分类变量的,称为列联表.
②2X2列联表.
一般地,假设有两个分类变量X和匕它们的取值分别为{xi,肛}和{以,”},
其样本频数列联表(称为2X2列联表)为
J1J2总计
X1aha+b
X2Cdc+d
总计a+cb+da+b+c+d
2.等高条形图
⑴等高条形图和表格相比,更能直观地反映出两个分类变量间是否
,常用等高条形图展示列联表数据的.
(2)观察等高条形图发现和相差很大,就判断两个分类变量
之间有关系.
3.独立性检验
定义利用随机变量片来判断“两个分类变量有关系”的方法称为独立性检验
2____________〃(ad-be)2__________甘小
*(a+A)(c+d)(〃+c)(B+d)'〃
公式
①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误
概率的上界a,然后查表确定_______;
具体②利用公式计算随机变量K2的_______;
步骤③如果________,就推断“X与y有关系”,这种推断_______不超过a;
否则,就认为在犯错误的概率不超过a的前提下不能推断“X与y有关
系”,或者在样本数据中________支持结论“X与y有关系”
答案1.⑴不同类别⑵①频数表
2.(1)相互影响频率特征⑵士士
a-rbc-ra
3.a+b+c+d临界值k。观测值kk,ko犯错误的概率没有发现足
够证据
口核心要点探究
•►知识点一分类变量、列联表与等高条形图
[探究1]分类变量的值就是指的一些具体实数吗?
提示这里的“变量”和“值”都应作为广义的变量和值来理解,只要不属
于同种类别都是变量和值,并不一定是取具体的数值,如:男、女;上、下;左、
右等.
【探究2】在交通事故中,司机的血液中是否含有酒精和是否有事故责任
是分类变量吗?
提示是.是否含有酒精,其取值为含有酒精和不含有酒精;是否有责任,
其取值为有责任和无责任.
【探究3】利用等高条形图能否精确地判断两个分类变量是否有关系?为
什么?
提示不能,因为通过等高条形图,可以粗略地判断两个分类变量是否有关
系,但这种判断无法精确地给出所得结论的可靠程度.
»知识点二独立检验的基本思想
【探究1]利用列联表及等高条形图判断两个分类变量是否有关有什么优
缺点?
提示优点:比较直观.
缺点:缺少精确性和可靠性.
【探究2】随机变量片有何作用?
提示利用随机变量4(平)建二)用
(其中〃=a+Z>+c+d为样本容量)可以来确定在多大程度上可以认为“两个
分类变量有关系”.
【探究3】独立性检验的必要性为什么不能只凭列联表的数据和图形下结
论?
提示列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需
要用列联表检验的方法确认所得结论在多大程度上适用于总体.
【探究4】在片运算时,在判断变量相关时,若公的观测值左=56.632,
则P(K2^6.635)^0.01和尸(片210.828)^0.001,哪种说法是正确的?
提示两种说法均正确.P(K226.635)=0.01的含义是在犯错误的概率不超
过0.01的前提下,认为两变量相关;而尸(片》1().828)q().001的含义是在犯错误
的概率不超过().001的前提下,认为两变量相关.
【拓展提高】
独立性检验的基本思想与反证法的思想的相似之处
反证法假设检验
要证明结论A要确认“两个分类变量有关系”
在A不成立的前提下假设该结论不成立,即假设结论”两个分类变量没有关
进行推理系”成立,在该假设下计算改
推出矛盾,意味着结论由观测数据计算得到的片的观测值左很大,则在一定可
A成立信程度上说明假设不合理
没有找到矛盾,不能对根据随机变量K2的含义,可以通过概率产(代》公)的大小
A下任何结论,即反证来评价该假设不合理的程度有多大,从而得出“两个分
法不成功类变量有关系”这一结论成立的可信程度有多大
瀑堂^窕翳,素养提升探新知/悟方法/学审答
题型一列联表和等高条形图的应甬
[例1](I)观察下列各图,其中两个分类变量X,y之间关系最强的是
CD
⑵某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,
共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸
烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患
病),不吸烟的295人中有21人患病,274人未患病.
根据这些数据能否断定“患呼吸道疾病与吸烟有关”?(用列联表和等高条
形图说明).
【自主解答】(1)在四幅图中,选项D的图中两个深色条的高相差最明显,
说明两个分类变量之间的关系最强.
⑵①作出列联表如下:
患病未患病总计
吸烟37183220
不吸烟21274295
总计58457515
在吸烟的人中,有丸弋16.82%的人患病,在不吸烟的人中,有淑弋7.12%
的人患病.由上可以看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有
很大的差异,故“患呼吸道疾病与吸烟可能有关”.
②画出等高条形图如下:
S9
S8
S7
S6
5的不患病
0S.4
S3口患病
2
0S.1
0
吸烟不吸烟
通过上面的等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患
病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关
方法技巧
利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断
变量相关的常见方法之一.一般地,在等高条形图中,篇与冷相差越大,两
个分类变量有关系的可能性就越大.在作等高条形图时可以用列联表来寻找相关
数据,作图要精确,且易于观察,以便对结论的判断不出现偏差.
O变式训练
1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向
的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在
考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有
关系.
解析作列联表如下:
性格内向性格外向总计
考前心情紧张332213545
考前心情不紧张94381475
总计4265941020
相应的等高条形图如图所示:
1.0
0.9匚二I性格外向
°考前心情紧张考前心情不紧张
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图
中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中
性格内向占的比例大,可以认为考前紧张与性格类型有关.
题型二独立1^检验
[例2](1)在独立性检验中,统计量片有三个临界值:2.706,3.841和6.635;
当片>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当
片>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当片V
2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000
人,经计算片=20.87,根据这一数据分析,认为打鼾与患心脏病之间
A.在犯错误的概率不超过0.05的前提下认为两者有关
B.约有95%的打鼾者患心脏病
C.在犯错误的概率不超过().01的前提下认为两者有关
D.约有99%的打鼾者患心脏病
(2)国家虽然出台了多次限购令,但各地房地产市场依然热火朝天,主要是利
益的驱使,有些开发商不遵守职业道德,违规使用未经淡化海砂;为了研究使用
淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京工业大学《自动化》2022-2023学年第一学期期末试卷
- 南京工业大学《药物商品学》2023-2024学年第一学期期末试卷
- 南京工业大学《水工程施工》2022-2023学年第一学期期末试卷
- 南京工业大学《企业战略管理》2022-2023学年第一学期期末试卷
- 南京工业大学《机械设计基础》2023-2024学年第一学期期末试卷
- 南京工业大学《环境法与资源保护法》2022-2023学年第一学期期末试卷
- 南京工业大学《管理科学与工程类专业写作》2023-2024学年第一学期期末试卷
- 技师岗评网格化复习测试卷含答案
- 南京工业大学《高电压技术》2022-2023学年第一学期期末试卷
- 信息素养抽测专项测试题附答案
- 中山大学PPT模板-中山大学01
- 中国特色社会主义理论与实践研究智慧树知到答案章节测试2023年北京交通大学
- 黑龙江省哈尔滨市八年级上学期物理期中测试试卷四套含答案
- 一年级上册数学《认识钟表》教学课件-A3演示文稿设计与制作【微能力认证优秀作业】
- 五年级上册阅读理解20篇(附带答案解析)经典1
- 2023年国家电投校园招聘笔试题库及答案解析
- GB/T 28035-2011软件系统验收规范
- 《经济学基础》试题库(附答案)
- 学前教育论文范文8000字(通用九篇)
- 小学数学北师大五年级上册数学好玩 图形中的规律-
- 《富饶的西沙群岛》说课稿(优秀3篇)
评论
0/150
提交评论