新教材一轮复习人教A版第9章第3节成对数据的统计分析学案_第1页
新教材一轮复习人教A版第9章第3节成对数据的统计分析学案_第2页
新教材一轮复习人教A版第9章第3节成对数据的统计分析学案_第3页
新教材一轮复习人教A版第9章第3节成对数据的统计分析学案_第4页
新教材一轮复习人教A版第9章第3节成对数据的统计分析学案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节成对数据的统计分析

-----------\必备知识•回顾教材重“四基”/------------

一'教材概念・结论•性质重视

1.相关关系

两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程

度,这种关系称为相关关系.

2.散点图

将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数

据的图形,这样的图形叫做散点图.利用散点图,可以判断两个变量是否相关,

相关时是正相关还是负相关.

3.正相关和负相关

(1)当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们

就称这两个变量正相关.

(2)负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,

则称这两个变量负相关.

微提醒・・・一

相关关系与函数关系的区别与联系

(1)相同点:两者均是指两个变量的关系.

(2)不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系;

②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随

关系.

^~4.线性相关和非线性相关

(1)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条

直线附近,我们就称这两个变量线性相关.

(2)一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这

两个变量非线性相关或曲线相关.

5.样本相关系数

n

∑(Xi-X)(W—ɪ)

(I>=∕Z^_∣

ʌ/Σ(xj—x)2Λ/Σa(v/-ɪK

ΣXiyi-nxy

=一"_”_,称「为变量X和变量y的样本相关系数∙

、!占An72、JjWV一石2

(2)样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对

值的大小可以反映成对样本数据的变化特征:

①当r>0时,称成对样本数据亚相关;

②当r<0时,称成对样本数据负相关.

(3)样本相关系数r的取值范围为样本相关系数r的绝对值大小可

以反映成对数据之间线性相关的程度:

①当团越接近1时,成对数据的线性相关程度越强;

②当团越接近0时,成对数据的线性相关程度越弱.

6.经验回归方程

我们将£=源+2称为Y关于X的经验回归方程,也称经验回归函数或经验回

∑(∙Γ.∙-χ')(yi—y)

ʌZ=I

b=---------------------------------

归公式,其图形称为经验回归直线,其中支F)2

i=}

a=^y-bX.

微提醒・・・

(1)经验回归方程不一定都有实际意义.回归分析是对具有相关关系的两个

变量进行统计分析的方法,只有在散点图大致呈线性时,求出的经验回归方程才

有实际意义.

(2)根据经验回归方程进行预报,得到的仅是一个估计值,而不一定是真实

发生的值.

(3)经验回归直线一定过样本点的中心.

7.利用R2刻画回归效果

,ΛC

Σ(ʃ/-ʃ/)

i=ln

R2的计算公式为R2=l----------------,其意义是R2越大,残差平方和E(W

n.

Σ(ʃ/-y)2J

/=1

一工)2越小,即模型的拟合效果越野;R2越小,残差平方和越大,即模型的拟合

效果越差.

8.独立性检验

rd∩d—

(I)/2的计算公式:iβn=a+b+c+d,则—=/、小(二-

ʌʌ(α十⅛>)(c十G(α十C)(匕十d)

(2)利用χ2的取值推断分类变量X和Y是否独立的方法称为Z2独立性检验,

读作“卡方独立性检验”,简称独立性检验.

(3)应用独立性检验解决实际问题包括以下几个环节:

①提出零假设H。:X和Y相互独立,并给出在问题中的解释;

②根据抽样数据整理出2X2列联表,计算/的值,并与临界X“值比较;

③根据检验规则得出推断结论;

④在X和y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y

间的影响规律.

微提醒・・・

2

根据好的值可以判断两个分类变量有关的可信程度.若z的值越大,则两

个分类变量有关系的把握越大.

二'基本技能・思想・活动体验

1.判断下列说法的正误,对的打“,错的打“X”.

(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关

系.(J)

(2)通过经验回归方程£=源+2可以估计预报变量的取值和变化趋势.(J)

(3)经验回归方程£=源+2中,若短0,则变量X和y负相关.(X)

(4)因为由任何一组观测值都可以求得一个经验回归方程,所以没有必要进

行相关性检验∙(X)

2.(多选题)关于回归分析,下列说法正确的是()

A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自

变量唯一确定

B.线性相关系数可以是正的也可以是负的

C.在回归分析中,如果r2=l或r=±l,说明X与y之间完全线性相关

D.样本相关系数rG(-l,l)

ABC解析:选项D中,样本的相关系数应满足一IWrW1,故D错误,ABC

都正确.

3.甲、乙、丙、丁四位同学在建立变量X,y的回归模型时,分别选择了4

种不同模型,计算可得它们的心分别如下表:

甲乙丙ɪ

R28

建立的回归模型拟合效果最好的是()

A.甲B.乙C.丙D.T

A解析:R2越大,表示回归模型的拟合效果越好.

4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格

统计人数后,得到如下列联表:

优秀及格总计

甲班113445

乙班83745

总计197190

则随机变量Z2的值约为()

A.C.

A解析:根据列联表中的数据,可得格=9°:8)2-0.600.故

4□ʌ4□^IyAZ1

选A.

5.若变量y与X的非线性回归方程是£=25一1,则当£的值为2时,X的

估计值为.

9ɪ.L99

4解析:由2山一1=2,得X=不即X的估计值为不

∖关键能力•研析考点强“四翼”/

考点1相关关系的判断——基础性

「多维训练」

1.(多选题)下列变量之间的关系是相关关系的是()

A.二次函数y=加+bx+c中,α,c是已知常数,取。为自变量,因变量

是判别式/=∕-4αc

B.光照时间和果树亩产量

C.降雪量和交通事故发生率

D.每亩田施肥量和粮食亩产量

BCD解析:在A中,若Z?确定,则α,b,C•都是常数,/=∕-44c•也就

唯一确定了,因此,这两者之间是确定性的函数关系.一般来说,光照时间越长,

果树亩产量越高;降雪量越大,交通事故发生率越高:施肥量越多,粮食亩产量

越高,所以B,C,D是相关关系.

2.以下是在某地搜集到的不同楼盘房屋的销售价格》(单位:万元)和房屋面

积x(单位:π?)的数据:

房屋面积x∕m211511080135105

销售价格W万元44

⑴画出数据对应的散点图.

⑵判断房屋的销售价格和房屋面积之间是否具有相关关系.如果有相关关

系,是正相关还是负相关?

解:⑴数据对应的散点图如图所示.

60

50

4()

30

20

IO

07090IIO130150χ∕m2

(2)通过以上数据对应的散点图可以判断,房屋的销售价格和房屋面积之间

具有相关关系,并且是正相关.

解题通法

两个变量是否相关的两种判断方法

(1)根据实际经验,借助积累的经验进行分析判断.

(2)通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.

考点2一元线性回归模型及其应用——应用性

「典例引领」

考向1线性回归分析

例维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这

个指标越高,耐热水性能也越好.而甲醛浓度是影响缩醛化度的重要因素,在生

产中常用甲醛浓度x(g∕L)去控制这一指标,为此必须找出它们之间的关系.现安

排一批实验,获得如下数据:

甲醛浓度(g∕L)18202224262830

缩醛化度(克分

子%)

⑴画散点图,并判断成对样本数据是否线性相关;

⑵求相关系数r(精确到0∙01),并通过样本相关系数判断甲醛浓度与缩醛化

度的相关程度和变化趋势的异同.

解:⑴画出散点图如图所示.

+缩醛化度(克分子%)

30■β•••

28-**

26-,

Ol18202224262830'

甲醛浓度(β∕L)

由散点图可以看出,成对数据呈现出相关关系.

(2)X=亍=24,y=,7),Zx,y,=4900.16,∑xτ=4-144,Ey七5892,

/i=lZ=IZ=I

由此推断,甲酉荃浓度与缩醛化度正线性相关,即甲醛浓度与缩醛化度有相同

的变化趋势,且相关程度很强.

考向2非线性回归分析

例❷,(2020∙南平质检)千百年来,人们一直在通过不同的方式传递信息.在

古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛传知;第二次工业

革命后,科技的进步带动了电讯事业的发展,电报、电话的发明让通信领域发生

了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”

变为现实……此时此刻,5G的到来即将给人们的生活带来颠覆性的变革.“5G

领先”一方面是源于我国顶层设计的宏观布局,另一方面则来自政府高度重视、

企业积极抢滩、企业层面的科技创新能力和先发优势.某科技创新公司基于领先

技术的支持,丰富的移动互联网应用等明显优势,随着技术的不断完善,该公司

的5G经济收入在短期内逐月攀升.业内预测,该创新公司在第1个月至第7个

(1)为了更充分运用大数据、人工智能、5G等技术,公司需要派出员工实地

检测产品性能和使用状况.公司领导要从报名的五名科技人员A,B,C,D,E

中随机抽取3个人前往,则A,B同时被抽到的概率为多少?

(2)根据散点图判断,y=0x+Z?与y=c∙∕(α,8,c,d均为大于零的常数)哪

一个适宜作为5G经济收入y关于月份X的经验回归方程类型?(给出判断即可,

不必说明理由)并根据你判断结果及表中的数据,求出y关于X的回归方程.

⑶请你预测该公司8月份的5G经济收入.

参考数据:

777

部ΣXiVi1010

VZ=1

2535

O=Igy,Vi=↑gyi.

参考公式:对于一组具有线性相关关系的数据3,w)(z=1,2,3,…,〃),其

经验回归直线,=&+2的斜率和截距的最小二乘估计公式分别为?=

Il_____

∑xivi-nXV

i=lΛ------A——

na=V—B%.

ΣXι,-∏X2

i=l

解:(1)从报名的科技人员A,B,C,DfE中随机抽取3个人,则所有的情

况为{A,B,C},{A,B,D],{A,B,E},{A,C,D},{A,C,E},{A,D,

E},{B,C,D},{B,C,E},{B,D,E},{C,D,E],共10种.记“A,B

同时被抽到”为事件Q,则事件Q包含的样本点为{A,B,C},{A,B,D},{A,

3

B,E],共3个,故P(Q)=而

(2)根据散点图判断,y=c∙/适宜作为5G经济收入y关于月份X的回归方程

类型.由y=c∕,两边同时取常用对数得Igy=Ig(Cd)=lgc+xlg

设Igy=所以O=Igc+xlgd.

因为嚏=∣×(1+2+3+4+5+6+7)=4,

-I7I717

所以V=∙=∑vi=^∑lgyi=^×10.78=1.54,∑χ}=l2÷22+32+42÷52÷62+

∕z=l/i=∖//=1

72=140,

7_____

ΛWXM—7Xy50.12-7×4×7

所以Igd=-=140-7×42=28=0-25-

Σ√-7X2

/=I

-----AAA

把样本中心(4,1.54)的坐标代入V=Igc+lgd∙x,得1.54=Igc×4,

ΛA

所以Igc=0.54,所以O%

A

所以Igyx,

所以y关于X的回归方程为£=IOrXIQ'

A

(3)当x=8时,y=10-10*8=347,

所以预测8月份的5G经济收入为347百万元.

解题通法

非线性回归分析的步骤

非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点

图,把它与学过的各种函数(幕函数、指数函数、对数函数等)图象作比较,挑选

一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性

回归分析问题,使之得到解决.其一般步骤如下:

“作散、根据原始数据(x,y)作出散点图

Λ图

函药才根据散点图,选择恰当的拟合函数

∕x≤≥∖作恰当的变换,将其转化成线性函

、求解数,求经验回归方程

Y4

在上面的基础上通过相应的变换,

即可得非线性回归方程

「多维训练」

(2020.广州一模)某种昆虫的日产卵数和时间变化有关,现收集了该昆虫第1

5555

ΣXiΣXι,部”)5si"。

Z=IZ=I

1555

⑴根据散点图,利用计算机模拟出该种昆虫日产卵数y关于X的经验回归方

程为y=e“+收其中e为自然对数的底数),求实数α,b的值(精确到0.1).

(2)根据某项指标测定,若日产卵数在区间T,e》上的时段为优质产卵期.利

用(1)的结论,估计在第6天到第10天中任取2天,其中恰有1天为优质产卵期

的概率.

附:对于一组数据(01,川),(02,〃2),…,(Mμn),其经验回归直线的斜率

n

∑viui-nV»λ_A_

和截距的最小二乘估计公式分别为夕=、------,«=u-β∙V.

∑vl-nV2

Z=I

解:(1)因为y=e。+”两边取自然对数,得Iny=笈.

令根=犬,"=Iny,得〃=Q+∕WI.

λ54.75-5×y×

因为2=--------------:-,55-5×32)=,10)=0.693,

所以⅛¾0.7.

Λ—Λ

因为α=n—bm=,5)×3=1.088,

所以gjM.l,即∕J≈0.7.

(2)根据⑴得y=e∖

由e6<e'Ve8,得7VχV竽.

所以在第6天到第10天中,第8,9天为优质产卵期.

从未来第6天到第10天中任取2天的所有可能事件有(6,7),(6,8),(6,9),

(6,10),(7,8),(7,9),(7,10),(8,9),(8,10),(9,10),共10种.

其中恰有1天为优质产卵期的有(6,8),(6,9),(7,8),(7,9),(8,10),(9,10),

共6种.

设从未来第6天到第10天中任取2天,其中恰有1天为优质产卵期的事件

为A,

则P(A)=K=|.

所以从未来第6天到第10天中任取2天,其中恰有1天为优质产卵期的概

考点3残差分析——基础性

r典例引领」

例目,2020.聊城6月高三模拟)2019年上半年我国多个省市暴发了“非洲猪

瘟”疫情,生猪大量病死,存栏量急剧下降,一时间猪肉价格暴涨,其他肉类价

格也跟着大幅上扬,严重影响了居民的生活.为了解决这个问题,我国政府一方

面鼓励有条件的企业和散户防控疫情,扩大生产;另一方面积极向多个国家开放

猪肉进口,扩大肉源,确保市场供给稳定.某大型生猪生产企业分析当前市场形

势,决定响应政府号召,扩大生产决策层调阅了该企业过去生产相关数据,就“一

天中一头猪的平均成本与生猪存栏数量之间的关系”进行研究.现相关数据统计

如下表:

生猪存栏数量χ(千头)23458

头猪每天平均成本吠元)2

⑴研究员甲根据以上数据认为y与X具有线性回归关系,请帮他求出y关于

X的线性回归方程佻)=源+氤计算结果精确到0.01).

(2)研究员乙根据以上数据得出y与尤的回归模型:夕2)=/),请完成以下任

务:

①完成下表(计算结果精确到0∙01)(备注:,称为对于点3,V)的残差);

生猪存栏数量X(千头)23458

头猪每天平均成本y(元)2

估计值制)

模型甲

残差一)

估计值例2

模型乙

残差ef2)000

②分别计算模型甲与模型乙的残差平方和。及0,并通过比较Q2的

大小,判断哪个模型拟合效果更好.

(3)根据市场调查,生猪存栏数量达到1万头时,,饲养一头猪每一天的平均

收入为7.2元.若按(2)中拟合效果较好的模型计算一天中一头猪的平均成本,问:

该生猪存栏数量选择1万头还是1.2万头能获得更多利润?请说明理由.(利润=

收入一成本)

5__5_

参考数据:∑(χ-X)(ʃɪ-y,W(H—%)2=21.2.

∕=1Z=I

解:(1)由题知:1=4.4,~y=2.2,

n

∑(xi-X)(y,-y)

八I=I

=

b~1=,21.2)=-0.25,

∑(Xi-X)2

ι=l

AΛ,

a—y—bx×4.4=3.30,

故夕以+3.30.

⑵①经计算,可得下表:

生猪存栏数量X(千头)23458

头猪每天平均成本y(元)2

模型估计值W'

甲残差副

模型估计值y超2

乙残差热000

222222

Qi=(0.40)+(-0.15)+(-0.30)+(-0.15)+(0.20),Q2=(0.14)+

(O.1)2Q∣>02,故模型?2)=,X)+0.8的拟合效果更好.

(3)若生猪存栏数量达到1万头,由(2)中模型乙可知,每头猪的成本为,10)+

0.8=1.28(元),这样一天获得的总利润为(7.5—1.28)X10000=62200(元);

,由(2)中模型乙可知,每头猪的成本为,12)+0.8=1.2(元),这样一天获得的

总利润为(7.2—1.2)X12000=72OoO(元).

因为72000>62200,所以选择生猪存栏数量1.2万头能获得更多利润.

解题通法

在进行线性回归分析时,要按线性回归分析步骤进行.在求N时,通常采

用分步计算的方法,心越大,模型的拟合效果越好.

「多维训练」

关于X与y有如下数据:

X245ɪ8

y^30^^40^ɪ^50^^70^

有如下的两个线性模型:

(I)Jx+17.5;(2)J=7x+17.试比较哪一个拟合效果更好.

ʌ--

解:由⑴可得y—y与y—y的关系如下表:

Λ

y-yi10

yt-y-20-io10020

55_

所以EcyLV)2=(—0.5)2+(—3.5)2+1。2+(—65)22=155,Σ(y-y)2=(-

Z=Ii=1i

20)2+(-IO)2+102+02+202=1000.

5Λ,

∑(yi-y∖)ιss

所以K=I-—5=1-"J^^QQ0Ξ≈0-845.

∑.yA

/=I

A——

由Q)可得》一»与y—y的关系如下表:

Λ

y-yi-i-58-9-3

y-y-20-1010020

5

所以E(M-Qi)2=(—1)2+(—5)2+82+(—9)2+(—3)2=180,

Z=I

5Λ,

ιζ(yi-yι)-180

所以虺=1-―5=1-]000=O'82∙

∑(ʃʃ-yA

/=1

所以招>∕⅛

所以⑴的拟合效果更好.

考点4列联表与独立性检验——综合性

「典例引领」

例0,某省进行高中新课程改革已经四年了,为了了解教师对新课程教学模

式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进

行了问卷调查.共调查了50人,其中有老教师20人,青年教师30人.老教师

对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模

式赞同的有24人,不赞同的有6人.

(1)根据以上数据建立一个2X2列联表;

(2)依据小概率ɑ,能否推断青年教师和老教师在新课程教学模式的使用上有

差异?

解:(1)2X2列联表如下所示.

赞同不赞同总计

老教师101020

青年教师24630

总计341650

⑵假设H0i青年教师和老教师在新课程教学模式的使用上没有差异.

/口,50×(10×6-24×10)2

2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论