第九章 第3讲 成对数据的统计分析_第1页
第九章 第3讲 成对数据的统计分析_第2页
第九章 第3讲 成对数据的统计分析_第3页
第九章 第3讲 成对数据的统计分析_第4页
第九章 第3讲 成对数据的统计分析_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章统计与成对数据的统计分析第3讲成对数据的统计分析

课标要求命题点五年考情命题分析预测1.了解样本相关系数

的统计含义,了解样

本相关关系与标准化

数据向量夹角的关

系;会通过相关系数

比较多组成对数据的

相关性.成对数据

的相关性2023天津T7,2022全

国卷乙T19;2020全国

卷ⅡT18本讲是高考命题热点.

对于回归分析,主要考

查散点图,回归方程类

型的识别,求相关系数

和回归方程,利用回归

方程进行预测等;课标要求命题点五年考情命题分析预测2.了解一元线性回归模型的含义,

了解模型参数的统计意义,了解最

小二乘原理,掌握一元线性回归模

型参数的最小二乘估计方法;针对

实际问题,会用一元线性回归模型

进行预测.回归模型

及其应用2020全国卷

ⅠT5对于独立性检验,

主要考查列联表和

依据小概率值的独

立性检验,常与概

率综合命题.题型以

解答题为主,难度

中等.课标要求命题点五年考情命题分析预测3.理解2×2列联表的

统计意义;了解2×2

列联表独立性检验及

其应用.列联表与

独立性检

验2023全国卷甲T19;2022新

高考卷ⅠT20;2022全国卷

甲T17;2021全国卷甲

T17;2020新高考卷ⅠT19;

2020全国卷ⅢT18预计2025年高考会

以创新生产生活实

践情境为载体考查

回归分析和独立性

检验.

学生用书P2171.变量的相关关系(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也

呈现①

的趋势,我们就称这两个变量②

⁠;当一个变量的值增加

时,另一个变量的相应值呈现③

的趋势,则称这两个变量④

⁠.(2)线性相关:一般地,如果两个变量的取值呈现⑤

相关或⑥

⁠相关,而

且散点落在⑦

附近,我们就称这两个变量线性相关.(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,

那么我们就称这两个变量非线性相关或曲线相关.增加

正相关

减小

负相关

一条直线

正相关

负相关

预测值

4.列联表与独立性检验(1)2×2列联表一般地,假设有两个分类变量

X

Y

,它们的取值为{0,1},其样本频数列联表(称

为2×2列联表)为:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d

(3)临界值对于任何小概率值α,可以找到相应的正实数

xα,使得

P

(

X

2≥

xα)=α成立,我们称

xα为α的临界值,这个临界值可作为判断

X2大小的标准.概率值α越小,临界值

⁠.下表给出了

X

2独立性检验中5个常用的小概率值和相应的临界值.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828越大

(4)基于小概率值α的检验规则当

X

2≥

xα时,我们就推断

H

0⑮

,即认为

X

Y

⁠,该推断

犯错误的概率不超过α;当

X

2<

xα时,我们没有充分证据推断

H

0不成立,可以认为

X

Y

⁠.说明若

X

2越大,则两个分类变量有关的把握越大.不成立

不独立

独立

1.下列四个散点图中,变量

x

y

之间具有负的线性相关关系的是(

D

)D12342.下列说法正确的是(

D

)B.若两个变量的相关性越强,则r越接近于1C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟合的效果

要好D.残差平方和越小的模型,拟合的效果越好

D1234

营养品身高合计有明显增长无明显增长食用a1050未食用b3050合计60401001234D

12344.[2023福州5月质检]已知变量

x

y

的统计数据如下表:x678910y3.54566.5

-0.1

1234

学生用书P219命题点1

成对数据的相关性角度1

判断两个变量的相关性例1(1)已知变量

x

y

近似满足关系式

y

=-0.1

x

+1,变量

y

z

正相关.下列结论中

正确的是(

C

)A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关C例1例2训练1例3例4训练2例5训练3[解析]由

y

=-0.1

x

+1,知

x

y

负相关,即

y

x

的增大而减小,又

y

z

正相

关,所以

z

y

的增大而增大,随

y

的减小而减小,所以

z

x

的增大而减小,

x

z

负相关.例1例2训练1例3例4训练2例5训练3(2)[2023湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四

组数据的相关系数分别为

r

1,

r

2,

r

3,

r

4,对各组的相关系数进行比较,正确的是

(

C

)第一组第二组第三组第四组CA.r3<r2<0<r1<r4B.r4<r1<0<r2<r3C.r2<r3<0<r4<r1D.r1<r4<0<r3<r2例1例2训练1例3例4训练2例5训练3[解析]

由题图可知,第一、四组数据均正相关,第二、三组数据均负相关,当相

关系数的绝对值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组

强,则

r

1>

r

4>0,第二组数据的线性相关性较第三组强,则|

r

2|>|

r

3|,且

r

2<0,

r

3<0,则

r

2<

r

3<0.因此,

r

2<

r

3<0<

r

4<

r

1.故选C.例1例2训练1例3例4训练2例5训练3方法技巧判断两个变量相关性的3种方法画散点图若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左

上角到右下角,则两个变量负相关.利用样本

相关系数r>0时,正相关;r<0时,负相关;|r|越接近于1,线性相关性越

强.利用经验

回归方程例1例2训练1例3例4训练2例5训练3角度2

相关系数的计算例2[2022全国卷乙]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计

一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面

积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9例1例2训练1例3例4训练2例5训练3

(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.

例1例2训练1例3例4训练2例5训练3(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).

例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3训练1变量

X

Y

相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),

(13,5);变量

U

V

相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,

2),(13,1).

r

1表示变量

Y

X

之间的线性相关系数,

r

2表示变量

V

U

之间的线性

相关系数,则(

C

)A.r2<r1<0B.0<r2<r1C.r2<0<r1D.r2=r1[解析]由题中的数据可知,变量

Y

X

正相关,相关系数

r

1>0,变量

V

U

负相

关,相关系数

r

2<0,即

r

2<0<

r

1.故选C.C例1例2训练1例3例4训练2例5训练3命题点2

回归模型及其应用角度1

一元线性回归模型

例1例2训练1例3例4训练2例5训练3(1)请用相关系数

r

判断该组数据中

y

x

之间线性相关关系的强弱(若|

r

∈[0.75,1],相关性较强;若|

r

|∈[0.30,0.75),相关性一般;若

r

∈[-0.25,

0.25],相关性较弱).

例1例2训练1例3例4训练2例5训练3(2)求

y

关于

x

的线性回归方程.

例1例2训练1例3例4训练2例5训练3(3)若该省北部某城镇2024年的人口约为5万人,根据(2)中的线性回归方程估计该城

镇2024年的GDP.

例1例2训练1例3例4训练2例5训练3

(2)利用经验回归方程进行预测:直接将已知的自变量的某个数值代入经验回归方程

求得特定要求下的预测值.(3)判断回归模型的拟合效果:利用残差平方和或决定系数

R

2判断,

R

2越大,表示

残差平方和越小,即模型的拟合效果越好.例1例2训练1例3例4训练2例5训练3角度2

非线性回归模型例4[2023重庆市三检]已知变量

y

关于

x

的经验回归方程为

y

=e

bx

-0.6,若对

y

=e

bx

-0.6两边取自然对数,可以发现lny

x

线性相关,现有一组数据如表所示:x12345yee3e4e6e7则当x=6时,预测y的值为(

C

)A.

9B.

8C.

e9D.

e8C例1例2训练1例3例4训练2例5训练3[解析]对y=

ebx-0.6两边取自然对数,得

ln

y=bx-0.6,令z=

lny,则

z=bx-

0.6,数据为x12345yee3e4e6e7z13467

解得b=1.6,所以z=1.6x-0.6,即y=

e

1.6x-0.6.当x=6时,y=

e

1.6×6-0.6=

e

9,故选

C

.

例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3训练2[2023合肥市质检]研究表明,温度的突然变化会引起机体产生呼吸道上皮组织

的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲

研究昼夜温差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连

续六天的昼夜温差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊

的人数(假设患感冒必到校医务室就诊),得到资料如下:日期第一天第二天第三天第四天第五天第六天昼夜温差x/℃47891412新增就诊人数y/位y1y2y3y4y5y6例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3命题点3

列联表与独立性检验例5[2022全国卷甲改编]甲、乙两城之间的长途客车均由

A

B

两家公司运营.为了

解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得

到下面列联表:准点班次数未准点班次数A24020B21030例1例2训练1例3例4训练2例5训练3(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;

例1例2训练1例3例4训练2例5训练3(2)依据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与

客车所属公司有关.

α0.10.0500.0100.001xα2.7063.8416.63510.828例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3方法技巧独立性检验的一般步骤(1)提出零假设

H

0;(2)根据样本数据制成2×2列联表;

(4)比较

X

2与临界值

x

α的大小关系,根据检验规则得出推断结论.例1例2训练1例3例4训练2例5训练3训练3某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查

的1000名骑行人员中,记录其年龄(单位:岁)和是否佩戴头盔情况,得到如图所示

的统计图:(1)估算该市电动自行车骑乘人员的平均年龄.[解析]

(1)该市电动自行车骑乘人员的平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(岁).例1例2训练1例3例4训练2例5训练3(2)根据所给的数据,完成下面的列联表:单位:名年龄/岁是否佩戴头盔合计是否[20,40)[40,70]合计例1例2训练1例3例4训练2例5训练3[解析]

(2)依题意,完成列联表如下:单位:名年龄/岁是否佩戴头盔合计是否[20,40)54060600[40,70]34060400合计8801201000例1例2训练1例3例4训练2例5训练3(3)根据(2)中的列联表,依据α=0.010的独立性检验,能否认为遵守佩戴安全头盔规

则与年龄有关?

α0.0500.0100.001xα3.8416.63510.828例1例2训练1例3例4训练2例5训练3

例1例2训练1例3例4训练2例5训练3

1.[命题点1角度1/2023天津高考]调查某种群花萼长度和花瓣长度,所得数据如图所

示.其中相关系数

r

=0.8245,下列说法正确的是(

C

)A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈负相关C.花瓣长度和花萼长度呈正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245C123[解析]因为相关系数

r

=0.8245>0.75,所以花瓣长度和花萼长度的相关性较强,

并且呈正相关,所以选项A,B错误,选项C正确;因为相关系数与样本的数据有

关,所以当样本发生变化时,相关系数也会发生变化,所以选项D错误.故选C.2.[命题点1,2/2024济南市摸底考试]随着科技的发展,网购成了人们购物的重要选

择,并对实体经济产生了一定影响.为了解实体经济的现状,某研究机构统计了一个

大商场2018—2022年的线下销售额,如下表:年份编号x12345年份20182019202020212022销售额y/万元1513146512021060860(1)由表中数据可以看出,可用经验回归模型拟合销售额

y

与年份编号

x

的关系,请

用相关系数加以说明;123

123(2)建立

y

关于

x

的经验回归方程,并预测2024年该商场的线下销售额.参考公式及数据:

123

1233.[命题点3/2021全国卷甲改编]甲、乙两台机床生产同种产品,产品按质量分为一级

品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产

品,产品的质量情况统计如下表:单位:件一级品二级品合计甲机床15050200乙机床12080200合计270130400123

(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?123(2)依据小概率值α=0.01的独立性检验,分析甲机床的产品质量与乙机床的产品质量

是否有差异.

α0.0500.0100.001xα3.8416.63510.828123

123

学生用书·作业帮P3781.在用经验回归方程研究四组数据的拟合效果时,分别作出下列四个关于四组数据

的残差图,则用线性回归模型拟合效果最佳的是(

A

)ABA12345678910111213141516CD[解析]

用残差图判断模型的拟合效果时,残差点比较均匀地落在水平的带状区域

中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合效果越好.故

选A.123456789101112131415162.[全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率

y

和温度

x

(单位:℃)

的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(

xi

yi

)(

i

=1,

2,…,20)得到如图所示的散点图.由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率

y

温度

x

的回归方程类型的是(

D

)DA.y=a+bxB.y=a+bx2C.y=a+bexD.y=a+blnx[解析]由散点图可以看出,随着温度

x

的增加,发芽率

y

增加到一定程度后,变化

率越来越慢,符合对数型函数的图象特征.123456789101112131415163.[2024江苏徐州模拟]如图,在一组样本数据

A

(2,2),

B

(4,3),

C

(6,4),

D

(8,

7),

E

(10,6)的散点图中,若去掉

D

(8,7),则下列说法正确的为(

D

)A.样本相关系数r变小B.残差平方和变大C.决定系数R2变小D.自变量x与因变量y的相关程度变强[解析]由散点图分析可知,只有

D

点偏离直线较远,去掉

D

点后,

x

y

的线性相

关程度变强,且为正相关,所以样本相关系数

r

变大,决定系数

R

2变大,残差平方

和变小,故选D.D123456789101112131415164.[2024青岛市检测]已知某设备的使用年限

x

(年)与年维护费用

y

(千元)的对应数据

如下表:x24568y34.56.57.59

A.0.75B.0.85C.0.95D.1.05

B12345678910111213141516

BD12345678910111213141516

12345678910111213141516

12345678910111213141516表(2)α0.050.010.001xα3.8416.63510.828BC表(1)单位:人班级成绩合计优秀生潜力生甲班10b乙班c30合计105A.列联表中c的值为30,b的值为35B.列联表中c的值为20,b的值为45C.根据列联表中的数据,有95%的把握认为成绩与班级有关D.根据列联表中的数据,没有95%的把握认为成绩与班级有关

12345678910111213141516

x681012y6m32A.变量x与y正相关B.实数m的值为5C.该经验回归直线必过点(9,4)D.相应于(10,3)的残差为0.3BC12345678910111213141516

123456789101112131415168.[2024海南月考]某高校“统计初步”课程的教师随机调查了选该课的一些学生的

情况,具体数据如下表:

单位:人

性别专业合计非统计专业统计专业男131023女72027合计20305012345678910111213141516

附:α0.100.050.0100.001xα2.7063.8416.63510.828[解析]因为

X

2>3.841=

x

0.05,所以依据小概率值α=0.05的独立性检验,认为主修

统计专业与性别有关,出错的可能性最大为5%.5

123456789101112131415169.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国

内、国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所

示的等高堆积条形图.根据等高图,依据小概率值α=0.005的独立性检验,

(填

“能”或“不能”)认为持乐观态度和国内外差异有关.

α0.010.0050.001xα6.6357.87910.82812345678910111213141516

[解析]零假设为

H

0:持乐观态度和国内外差异无关.由题填写2×2列联表如下,单位:名潜在客户态度合计乐观不乐观国内代表6040100国外代表4060100合计1001002001234567891011121314151610.[2024武汉部分学校调考]某校为考查学生对紧急避险知识的掌握情况,从全校学

生中选取200名学生进行紧急避险知识测试,其中男生110名,女生90名.所有学生的

测试成绩(单位:分)都在区间[50,100]内,由测试成绩数据作出如图所示的频率分

布直方图.(1)若从频率分布直方图中估计出样本的平均数与中位数相等,求图中

m

的值;12345678910111213141516

12345678910111213141516(2)规定测试成绩不低于80分为优秀,已知共有45名男生测试成绩优秀,完成下面的

列联表,并根据小概率值α=0.05的独立性检验,能否推断男生和女生的测试成绩优

秀率有差异?

单位:人性别测试成绩合计优秀不优秀男生45女生合计12345678910111213141516

α0.10.050.01xα2.7063.8416.63512345678910111213141516性别测试成绩合计优秀不优秀男生4565110女生256590合计70130200

性别测试成绩合计优秀不优秀男生4565110女生256590合计70130200[解析]

(2)零假设

H

0:男生和女生的测试成绩优秀率没有差异.测试成绩优秀的总人数为200×10×(0.025+0.01)=70.得到列联表:

单位:人12345678910111213141516

12345678910111213141516(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种

野生动物数量的平均数乘地块数).

(2)求样本(

xi

yi

)(

i

=1,2,…,20)的相关系数(精确到0.01).

12345678910111213141516(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得

该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并

说明理由.

(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层

随机抽样.理由如下:由(2)知,各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由

于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,

采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本

的代表性,从而可以获得该地区这种野生动物数量更准确的估计.12345678910111213141516

12.[2024内江模拟]某网络直播平台调研“大学生是否喜欢观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100人进行问卷调查,得到如下数据(5≤m

≤15,m∈N).通过计算,有95%以上的把握认为大学生喜欢观看体育比赛直播与性别有关,则在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为(

C

)喜欢观看不喜欢观看男生80-m20+m女生50+m50-m

12345678910111213141516α0.150.100.050.0100.001xα2.0722.7063.8416.63510.828A.55B.57C.58D.60C

1234567

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论