概率统计第十章教学课件回归分析_第1页
概率统计第十章教学课件回归分析_第2页
概率统计第十章教学课件回归分析_第3页
概率统计第十章教学课件回归分析_第4页
概率统计第十章教学课件回归分析_第5页
已阅读5页,还剩161页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计的基本概念参数估计方差分析回归分析假设检验回归分析回归分回析

归分析回归分析一、回归分析与相关分析确定性关系变量间的关系相关关系一、回归分析与相关分析确定性关系确定性关系一、回归分析与相关分析确定性关系Y

X 半径:

X面积:

YY

=

p

X

2已知一个或几个变量的值,能严格计算出另一个变量的值.例如:一、回归分析与相关分析确定性关系已知一个或几个变量的值,能严格计算出另一个变量的值.m速度X动能Y22Y

=

1

m

X例如:

一质量为常数m的物体,

沿直线进行运动,m一、回归分析与相关分析变量间的关系相关关系高等数学数理统计确函定数性关关系系相关关系变量之间有一定的内在联系;由一个或几个变量的值,不能准确求出另一变量的值;例如:相关关系变量之间有一定的内在联系;由一个或几个变量的值,不能准确求出另一变量的值;例如:相关关系变量之间有一定的内在联系;由一个或几个变量的值,不能准确求出另一变量的值;例如:施肥量X苹果产量Y相关关系变量之间有一定的内在联系;由一个或几个变量的值,不能准确求出另一变量的值;例如:父亲身高1X母亲身高2X孩子身高为Y相关关系变量之间有一定的内在联系;由一个或几个变量的值,不能准确求出另一变量的值;例如:父亲身高1X母亲身高X2孩子身高为Y已知X1和X

2Y一、回归分析与相关分析变量间的关系相关关系高等数学数理统计确定性关系一、回归分析与相关分析相关关系数理统计回归分析相关分析回归分析在几个变量中要明确因变量和自变量,通过建立回归方程研究因变量与自变量间的数量联系.相关分析不必确定因变量和自变量,通过相关系数研究随机变量线性依存关系的紧密程度.一、回归分析与相关分析回归与相关一元回归与相关多元回归与相关两个变量两个以上变量线性第一节非线性第二节线性第三节一、回归分析与相关分析寻求描述随机变量间数学关系的模型——回归方程;利用回归方程对变量进行预测与控制;在影响因变量的诸多自变量中,分析其主次顺序.多元回归二、一元线性回归方程2cm5cm9cm14cm19cm25cm引例1

观察某种作物株高y

(单位:

cm)与苗龄x(单位:

天)之间的关系,

得到如下结果:33cm5天

10天

15天

20天

25天

30天

35天如何建立株高y与苗龄x间的近似函数关系——yˆ

=

f

(

x)1.

列数据表如引例1中可得数据表如下:苗龄x(d)5101520253035株高y(cm)25914192533确定变量之间的函数类型可根据专业知识、理论推导或实践经验确定;可根据散点图的分布趋势确定函数类型;设

(X,

Y)

是反映总体的两个特征的指标,

对(X,Y)进行n次观察,

获得观测值

(

xi

,

yi

),

i

=

1,

2,

,

n,以

xi

值为横坐标,

yi

值为纵坐标,

从而得到平面上的n个点,

称为观测值的散点图.在n较大时,如果有一条曲线基本通过n个点,或使大部分点偏离曲线不远,则称这条曲线为观测值的拟合曲线或称为y对x的回归曲线.若曲线方程能表示成y=f(x),则称之为y对x的回归方程.观察散点图的变化趋势,

若符合常见函数图像的形态,可利用常见函数进行拟合,建立两个变量间的一元回归方程

=

f

(

x),

其中

称为

X

=

x0

时变量Y的预测值.引例1

观察某种作物株高y

(单位:

cm)与苗龄x(单位:

天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533作散点图:.ox....251914952.

.5

10

15

20

25

30

35y33经观察,

散点图呈线性,

用近似线性方程:yˆyˆ

==

bb00

++bb11xx进行拟合,

称为y对x的一元线性回归方程.ox....

..

.y332519149525

10

15

20

25

30

35经观察,

散点图呈线性,

用近似线性方程:yˆyˆ

==

bb0

++bb1

xx进行拟合,

称为y对x的一元线性回归方程.ox....

..

.y332519149525

10

15

20

25

30

35yyˆˆ

==

bb0

++

bb1

xx经观察,

散点图呈线性,

用近似线性方程:进行拟合,

称为y对x的一元线性回归方程.3.

确定b0,b1的值一般情况下,对(X,Y)进行n次观察,获得n对观测值(

xi

,

yi

),

i

=

1,

2,

,

n如何确定b0、b1的值,建立y对x的一元线性回归方程yˆ

=

b0

+

b1

x在回归关系中,设因变量y是随机变量,因变量y的变化依赖于自变量x的变化,但不能由x唯一确定,若两者间的内在联系是线性的,则有如下线性模型:y

=

b0

+

b1

x

+

e其中,ε为随机变量,称为剩余误差,是试验中各种复杂的随机因素造成的.如果将n对观测值

(

xi

,

yi

),

i

=

1,

2,

,

n,

代入上式,可得一元线性回归的数学模型:yi

=

b0

+

b1

xi

+

ei

,

i

=

1,

2, L

,

n,(三)在回归关系中,设因变量y是随机变量,因变量y的变化依赖于自变量x的变化,但不能由x唯一确定,若两者间的内在联系是线性的,则有如下线性模型:y

=

b0

+

b1

x

+

e其中,ε为随机变量,称为剩余误差,是试验中各种复杂的随机因素造成的.如果将n对观测值

(

xi

,

yi

),

i

=

1,

2,

,

n,

代入上式,可得一元线性回归的数学模型:yi

=

b0

+

b1

xi

+

ei

,

i

=

1,

2, L

,

n,(三)如果将n对观测值

(

xi

,

yi

),

i

=

1,

2,

,

n,

代入上式,可得一元线性回归的数学模型:yi

=

b0

+

b1

xi

+

ei

,

i

=

1,

2, L

,

n,其中β0,

β1为未知参数,

称为回归系数,

ε1

,

ε2,

…,εn是相互独立的随机误差,且服从数学期望为0,方差为σ2的正态分布,

即εi~N(0,

σ2).如果可以得到模型中β0,β1的估计值b0,b1,则可建立y对x的一元线性回归方程.假定有某种方法可以得到上述模型中回归系数β0,β1的估计值b0,b1,则y的观测值可表示为:yi

=

b0

+

b1

xi

+

ei

,

i

=

1,

2, L

,

n,这里,ei是εi的估计值,称为残差或剩余.记yˆi

为yi

的估计值,则有:yˆi

=

b0

+

b1

xi

,yˆi所以

ei

=

yi

-=

yi

-

(b0

+

b1

xi

)(i

=

1,

2, L

,

n)ox....

..

.xi0

1yˆ

=

b

+

b

xyyiiyˆie(xi

,

yi

)*(xi

,

yˆi

)假定有某种方法可以得到上述模型中回归系数β0,β1的估计值b0,b1,则y的观测值可表示为:yi

=

b0

+

b1

xi

+

ei

,

i

=

1,

2, L

,

n,这里,ei是εi的估计值,称为残差或剩余.记yˆi

为yi

的估计值,则有:yˆi

=

b0

+

b1

xi

,yˆi所以

ei

=

yi

-=

yi

-

(b0

+

b1

xi

)(i

=

1,

2, L

,

n)ox....

..

.xi0

1yˆ

=

b

+

b

xyyiiyˆie(xi

,

yi

)*(xi

,

yˆi

)记yˆi

为yi

的估计值,则有:yˆi

=

b0

+

b1

xi

,yˆi所以

ei

=

yi

-=

yi

-

(b0

+

b1

xi

)(i

=

1,

2, L

,

n)ox....

..

.xi0

1yˆ

=

b

+

b

xyyiiyˆie(xi

,

yi

)*(xi

,

yˆi

)选取b0,b1,使残差平方和iy-

(b

+

b

x

)222iii

iee2n

ni

00

0

11

i

i

1

ix

)]i=

1

i=

1==

[

y-[y(b-

+(bb

+x

b)]å

åQ

=达到最小,这种求回归系数估计值的方法称为最小二乘法.选取b0,b1,使残差平方和ni

0

1

ii=

1Q

=å0

1nb

,b

Î

Ri=

1[y

-

(b

+

b

x

)]2=

min[y

-

(b

+

b

x

)]2i

0

1

iå由多元函数的极值原理可知,b0,b1应满足方程组:

¶Q=

0

¶b0

¶Q

=

0

¶b1

ni=

1(

yi

-

b0

-

b1xi

)

=

0

åni=

1(

yi

-

b0

-

b1xi

)

xi

=

0

å选取b0,b1,使残差平方和ni

0

1

ii=

1Q

=å0

1nb

,b

Î

Ri=

1[y

-

(b

+

b

x

)]2=

min[y

-

(b

+

b

x

)]2i

0

1

iå上式整理后得:nni=

1i=

1

nb0

+

b1

邋xi

=

yi01nnniii

i

bx

yi=

1i=

1x

+

bx2

=邋?i=

1称此方程组为正规方程组.解正规方程组得:11nnni

in

nin(

x

)2ini=

1x

y

-b1

=x2

-邋(

xi

)(?

yi

)邋ni

i=

1

ni=

1

i=

1(

xi

-

x)(

yi

-

y)

i=

1

i=

1

i=

1

=(

x

-

x)2ååb0

=

y

-

b1

x.ni=

12(

xi

-

x)

,Sxx

=

åni=

1Sxy

=

åi=

12(

yi

-

y)

,S

yy

=

åni=

1(

yi

-

yˆi

)

.2(

xi

-

x)(

yi

-

y),

Se

=

å其中,

x

,

y

为样本均值.令:n则:1xy

,xxSSb

=b0

=

y

-

b1

x.b0,

b1分别称为回归系数β0,

β1的最小二乘估计(

LSE:Least Square

Estimate)

.可以证明:1.

b0,

b1分别是β0,

β1的无偏估计;00xxxx21

x2.

bn

SSs

2~

N

(b

,

(+

)s

2

),

b

~

N

(b

,

);1

13.

Ses

2~

c

2

(n

-

2),Se且

E(sˆ

2

)

=

E()

=

s

2

.n

-

2则:1xy

,xxSSb

=b0

=

y

-

b1

x.b0,

b1分别称为回归系数β0,

β1的最小二乘估计(

LSE:Least Square

Estimate)

.1n

nnxyi

ini=

1i=

1S

=x

y

-邋(

xi

)(?

yi

)1ni=

1nxxii(

x

)2ni=

1i=

1S

=x2

-邋1nxini=

1x

=å1nyini=

1y

=å三、回归模型的统计检验无论x和y之间的线性关系是否密切,总可以由以上公式求出b0和b1,从而可以得到回归方程:yˆ

=

b0

+

b1

x

.但当对回归模型的基本假定不成立时,上面求得的方程是无意义的.因此,必须检验“y与x之间存在线性关系”这一假设是否合理.根据一元线性回归的模型可知,原假设为经检验,若H0

:

b1

=

0.𝟎被接受,就可以认为y对x的线性依赖程度不高,

此时称回归方程不显著;

若 𝟎被拒绝,

便可认为y与x之间存在某种程度的线性相关性,此时称回归方程是显著的.对回归方程的检验,

即检验

H0

:

b1

=

0,检验方法为方差分析法(F检验).•

•••••

•xyOyˆ

=

b0

+

b1

xxiyiiyˆy

=

yyiiyˆy

-iyˆ

-

y定义总平方和为:ni=

1S

yy

=

å

(

y

-

y)2i它反映了观测值y1,y2,…,yn总的离散程度.对回归方程的检验,

即检验

H0

:

b1

=

0,检验方法为方差分析法(F检验).•

•••••

•xyOyˆ

=

b0

+

b1

xxiyiiyˆy

=

yyiiyˆy

-iyˆ

-

y定义总平方和为:ni=

1S

yy

=

å

(

y

-

y)2i它反映了观测值y1,y2,…,yn总的离散程度.对回归方程的检验,

即检验

H0

:

b1

=

0,检验方法为方差分析法(F检验).定义总平方和为:ni=

1(

yi

-ni=

1[(

yi

-

yˆi

)

+

(

yˆi

-

y)]2S

yy

=

å

y)

=

å2ni=

1(

yi

-ni=

1(

yˆi

-ni=

1(

yi

-

yˆi

)(

yˆi

-

y)=

å

yˆi

)

+

å

y)

+

2å2

2=0ni=

1(

yi

-ni=

1(

yˆi

-

y)2=

å

yˆi

)

+

å2即:nni=

1i=

1(

yˆi

-

y)2S

yy

=

邋(

yi

-

yˆi

)

+2记ni=

1称为回归平方和,

它反映了自变量x的变化引起y波动的大小;ni=

1(

yˆi

-

y)

,2SR

=

å试验误差和其他未加控制的随机因素引起的.所以,Syy

=

SR

+

Se记

Se

=

å

(

yi

-

yˆi

)

(=

Q),

称为剩余平方和,

它是由2因此可以证明,

𝟎成立时,

有:S

yy~

c

2

(n

-

1),

Ses

2

s

2~

c

2

(n

-

2),

SRs

2~

c

2

(1),由Cochran定理可得:SRF

=~

F

(1,

n

-

2)Se

/

(n

-

2)则可通过计算F值进行F检验.检验的具体步骤如下:因此可以证明,

𝟎成立时,

有:S

yy~

c

2

(n

-

1),

Ses

2

s

2~

c

2

(n

-

2),

SRs

2~

c

2

(1),由Cochran定理可得:SRF

=~

F

(1,

n

-

2)Se

/

(n

-

2)则可通过计算F值进行F检验.检验的具体步骤如下:检验的具体步骤如下:1.

分解平方和1(nSyy

=

SR

+

Sennyyiiiy

)2

,ni=

1i=

1i=

1其中,

S

=(

y

-

y

)2

=

y2

-邋?,nRi1

xyi=

1S

=(

-y

)2

=

b

SåeyyRS

=

S

-

S

.2.

分解自由度f

yy

=

fR

+

fe其中,

f

yy

=

n

-

1,

fR

=

1,fe

=

n

-

2.检验的具体步骤如下:3.

计算F值并确定F分布临界值当

𝟎成立时,F

=~

F

(1,

n

-

2)SR

1Se

/

(n

-

2)查F分布表求自由度为(1,

n-2)

的F分布临界值

𝜶.4.

F检验若F>

𝜶,

则拒绝原假设,

认为回归方程是显著的;若F

𝜶,

则接受原假设,

认为回归方程不显著.根据一元线性回归模型,也可对自变量x的回归系数的H0

:

b1

=

0.可以证明,当显著性进行检验,即检验该检验为t检验过程.b1𝟎成立时,

有:

t

=

~

t(n

-

2)2若

t

>

ta

(n

-

1),

则拒绝x与y之间存在显著的线性关系;

否则,

则接受

𝟎,

认为回归系数不显著.2𝟎,认为回归系数是显著的,即Se(n

-

2)Sxx计算t值及求自由度为(n-2)

的t分布的临界值点t

>ta(n-1),四、相关系数及其统计检验XYcov(

X

,Y

)D(

X

)

D(Y

)r

=复习:

两个随机变量X与Y之间的总体相关系数为四、相关系数及其统计检验若对(X,

Y)

进行n次观察,

获得n对观测值(

xi

,

yi

),i

=1,

2,

,

n,

则可定义样本相关系数为:nni=

1(

xi

-

x)(

yi

-

y)R

=2(

yi

-

y)ån邋(

xi

-

x

)2i=

1xySSxx

S

yy i=

1

=R2称为决定系数或确定系数.因为xyS

2R2

=Sxx

×S

yyS

S=xy

?

xy1

xyb

S=RSSxx

S

yy

S

yy

S

yy=£

1所以样本相关系数有以下性质:- 1

R

1;|R|的大小表明了x与y之间线性相关关系的强弱.当|R|=1时,称x与y完全相关;当R=0时,称x与y不相关.当R>0时,称x与y正相关;当R<0时,称x与y负相关.R的符号与b1的符号一致.由计算公式可知,两者同为正或同为负.对相关系数显著性的检验即x与y之间是否存在显著的线性相关关系.则原假设与备择假设分别为:H0

:

rXY

=

0,

H1

:

rXY

¹

0.Sxy计算R统计量的值:

R

=

.Sxx

Syy查相关系数检验表,

确定临界值

𝜶

(n-2).若|R|>Rα(n-2),

则拒绝

𝟎,

认为相关系数是显著的,即x与y之间存在显著的线性关系;

否则,则接受

𝟎,

认为相关系数不显著,即x与y之间无显著的线性关系.以上检验过程用R统计量进行检验,称为R检验.例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(1)

利用最小二乘法建立线性回归方程;7ii=

1å717i=

1x

= 5

+

10

+

L +

35

=

140,

x

=xi

=

20,å7ii=

1å717i=

1y

= 2

+

5

+

L +

33

=

107,

y

=yi

=

15.286,å例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(1)

利用最小二乘法建立线性回归方程;7x2

= 52

+

? 352

=

3500,iåi=

172855,i=

1xi

yi

=

5?

2?

35?

33å苗龄x(d)5101520253035株高y(cm)259141925337

7

7i=1

i=1

i=1例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:试建立y与x的一元线性回归方程并进行显著性检验.(1)

利用最小二乘法建立线性回归方程;Sxy

=

å

xi

yi

–(å

xi

)(å

yi

)

/

7=

2855-

140?

107

/

7

7157

717xxiiSx2

–i=

1i=

1=(

x

)2

=

3500- 1402

/

7

=

700邋例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(1)

利用最小二乘法建立线性回归方程;从而得到回归系数

b1

=

Sxy

/

Sxx

= 715

/

700

=

1.02b0

=

y

-

b1

x

=

15.286

-

1.02?

20

-

5.14因此得到苗龄x与株高y的一元线性回归方程为:yˆ

=

-

5.14

+

1.02

x.苗龄x(d)5101520253035株高y(cm)25914192533例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法1回归方程的显著性检验(方差分析法);1.

分解平方和:yyReS

=

S

+

S717nyyii(

y

)2i=

1

i=

1S

=y2

-邋745.43,=

(22

+

L

+

332

)

-

1

?

107270H

:ba=0,H

:b„0例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法1回归方程的显著性检验(方差分析法);1.

分解平方和:Syy

=

SR

+

SeSR

=

b1

Sxy

=

1.02?

715

729.3,Se

=

Syy

-

SR

=

745.43

-

729.3

=

16.13.例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法1回归方程的显著性检验(方差分析法);2.

分解自由度:f

yy

=

n

-

1

=

7

-

1

=

6,fR

=

1,

fe

=

n

-

2

=

7

-

2

=

5.f

yy

=

fR

+

fe例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法1

回归方程的显著性检验(方差分析法);3.

计算F值:16.13

/5F

==

=

226.07.SR

1

729.3Se

/

(n

-

2)例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法1回归方程的显著性检验(方差分析法);4.

统计推断:

0.05,

查F分布表得临界值F0.05

(1,5)

=

6.61,F

=

226.07

>

6.61,所以回归方程显著,即苗龄与株高有显著的线性关系.例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法2t

=回归系数的显著性检验(t检验);H0b:1

b=0,=Ha:b1„.002Se

16.13=

15.13,(n

-

2)Sxx

(7

-

2)?

715取

0.05,

查t分布表得临界值

t0.05

2

(5)

=

2.5706,t

=15.13

>

2.5706,故回归系数显著.例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533试建立y与x的一元线性回归方程并进行显著性检验.(2)

显著性检验;方法3相关系数的显著性检验(R检验);0XYH

:

r=1

XYxySSxx

S

yyR

=0,

=

H

:

7r15

¹

0.

=

0.9898.700´

745.43取

0.05,查相关系数检验表,

临界值R0.05(5)=0.7545.|R|=0.9898>r0.05(5)=0.7545,

所以x与y相关关系显著.注1

可以证明:(n

-

2)R2F

=(1-

R2

)

,,R2

=F(n

+

F

-

2)t

=

F

,因此在一元线性回归中,F检验、t检验和R检验,其检验效果是一致的,实际中检验其一即可.注2

若检验结果为不显著,可以考虑以下两个原因:x与y无内在联系,需要重新选择变量;x与y有内在联系,但非线性关系,需要进行曲线 回归(第二节).若检验结果显著,则可根据线性回归模型进行预测和控制.五、预测与控制若回归方程检验结果为显著,则可根据回归方程对于给定的x值得到y值,这即为预测问题.若给定x=x0,

则y的预测值为

yˆ0

=

b0

+

b1

x0

,

此值即为点预测(估计).由于y是随机变量,给出y0的区间预测(估计)更为合理.对置信度为1-,

其置信区间为

[

yˆ0

-

l,

yˆ0

+

l],

0

xxnSa2S

1 (

x

-

x)2l

=

t

(n

-

2)1

+

+

e

n

-

2其中:五、预测与控制若回归方程检验结果为显著,则可根据回归方程对于给定的x值得到y值,这即为预测问题.若给定x=x0,

则y的预测值为

yˆ0

=

b0

+

b1

x0

,

此值即为点预测(估计).由于y是随机变量,给出y0的区间预测(估计)更为合理.对置信度为1-,

其置信区间为

[

yˆ0

-

l,

yˆ0

+

l],

0

xxnSa2S

1 (

x

-

x)2l

=

t

(n

-

2)1

+

+

e

n

-

2其中:五、预测与控制对置信度为1-,

其置信区间为

[

yˆ0

-

l,

yˆ0

+

l],

0

xxnSa2S

1 (

x

-

x)2l

=

t

(n

-

2)1

+

+

e

n

-

2其中:xyOyˆ

=

b0

+

b1

xx0𝟎l(𝒙

)1e

02

xaS

1(x-x)l=t(n-2)

++n-2nS显然,预测区间的精度与x0有关,x0越靠近

,预测区间长度越短,

精度越高;

反之,

x0越远离

,预测精度越差.2l(𝒙𝟎)五、预测与控制控制问题是预测问题的反问题.具体来讲,当要求y的观测值以置信度1−α在某区间(y1,y2)内取值时,问相应的

x0应控制在什么范围内?求xk的控制区间的方法是解方程组:2

ya2=

b0

+

b1

x2+

t

(n

-

2)n

-

21

0

1

1Sea2

y

=

b

+

b

x

-

t

(n

-

2)n

-

2Se五、预测与控制控制问题是预测问题的反问题.具体来讲,当要求y的观测值以置信度1−α在某区间(y1,y2)内取值时,问相应的

x0应控制在什么范围内?解之得:1

1

01Sa2

x

=

(

y

-

b

+

t

e

)/

b212n

-

2Se

x)

/

ba=

(

y2

-

b0

-

tn

-

2当b1>0时x的控制区间为(x1,x2),当b1<0时x的控制区间为(x2,x1).例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533(1)求苗龄x0=28天时,株高y的95%的预测区间.上面已得到苗龄x与株高y的一元线性回归方程为:yˆ

=

-

5.14

+

1.02

x.经检验回归方程显著,苗龄与株高有显著的线性关系.x0

=

28,

yˆ0

=

-

5.14

+

1.02?

28

23.42.571516.13

1

(20-

28)2l

=

t0.05

(5)21+

+ =

5.147例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533(1)求苗龄x0=28天时,株高y的95%

的预测区间.yˆ0

-

l

=

23.42-

5.14

=

18.28,yˆ0

+

l

=

23.12+

5.14=

28.56.即当苗龄为28天时,株高的95%

预测区间为[18.28,28.56]厘米.例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)259141925332(2)当株高y以95%的置信度在区间(20,22)内取值时,求相应的苗龄x的取值范围.苗龄x与株高y的一元线性回归方程为:yˆ

=

-

5.14

+

1.02

x.经检验回归方程显著,苗龄与株高有显著的线性关系.b0

=

-

5.14,

b1

=

1.02

>

0,

t0.05

(5)

=

2.5706,代入计算公式:例1

观察某种作物株高y

(单位:cm)与苗龄x(单位:天)之间的关系,

得到如下结果:苗龄x(d)5101520253035株高y(cm)25914192533(2)当株高y以95%的置信度在区间(20,30)内取值时,求相应的苗龄x的取值范围.1

1

01)

/

ba2

x

=

(

y

-

b

+

t212n

-

2Se

x)

/

ba=

(

y2

-

b0

-

tn

-

2

Se

x1

=

29.1736

x2

=

29.9245即当株高y以95%的置信度在区间(20,

30)

内取值时,相应的苗龄x的范围为(29.1736,29.1736).注意

当n较小时,

控制问题无实际意义.

因此,

通常在n较21Sea2y

>

2tn

-

2大,且

y

-的情况下考察控制问题.小结回归分析与相关分析变量间的关系,

回归与相关分类.一元线性回归方程一元线性回归模型,回归系数的最小二乘估计(公式).回归方程的统计检验F检验,

t检验.相关系数及其统计检验相关系数的定义及性质,

相关系数的R检验.预测与控制回归分析一、曲线回归概述在许多问题中,两个变量之间并不一定是线性关系,而是某种非线性关系.此时若将n对观测数据(xi,yi)绘制成散点图,则n个点的图像很明显不是一条直线.如下例:引例1

在进行米氏方程和米氏常数推算时,

观测酶比活力y与底物浓度x

(单位:mmol/L)之间的关系,

测得9对数据如下表:一、曲线回归概述在许多问题中,两个变量之间并不一定是线性关系,而是某种非线性关系.此时若将n对观测数据(xi,yi)绘制成散点图,则n个点的图像很明显不是一条直线.如下例:引例1

在进行米氏方程和米氏常数推算时,

观测酶比活力y与底物浓度x

(单位:mmol/L)之间的关系,

测得9对数据如下表:一、曲线回归概述引例1

在进行米氏方程和米氏常数推算时,

观测酶比活力y与底物浓度x

(单位:mmol/L)之间的关系,

测得9对数据如下表:底物浓度x1.251.431.662.002.503.305.008.0010.00酶比活力y17.652226.3235455255.735960试对x和y的关系进行回归分析.问题背景x与y的散点图如下:xy....

.

.

...3526.322217.65o

1.2151.4.6362.20.050

3.305.0055.7352458.005910.0060底物浓度x1.251.431.662.002.503.305.008.0010.00酶比活力y17.652226.3235455255.735960x与y的散点图如下:显然,x和y之间的关系不是线性的,应进行曲线回归.oxy.........通常,进行曲线回归时,需要进行以下两个步骤:1.

确定变量之间的函数类型如果两个变量间的关系是非线性的,需要首先确定可以表示变量关系的函数类型,常见方法有以下几种:可根据专业知识、理论推导或实践经验确定;可根据散点图的分布趋势确定函数类型;用多项式逼近.注意在进行一元曲线回归时,一般情况下,可根据散点图的形状,与已知的常见函数图像对比,选择一条较为相似的曲线进行拟合.通常,进行曲线回归时,需要进行以下两个步骤:2.

确定方程(函数)中的未知参数一般仍可采用最小二乘法.若某些非线性函数能够通过变量代换转化为线性函数关系,

则仍可用线性回归方法;若不能转化为线性函数,则需采用最优化方法求解.二、几种可直线化的曲线类型若令

yⅱ=

1

,

x

=

1

,y

x则

yⅱ=

a

+

bx

.x𝟏𝒂o

െ𝒂(a>0,b<0)x表达式:

1

=

a

+

b

,

函数图像:y

xy

yെ

𝒃

o𝒂(a>0,b>0)𝟏𝒂表达式:y

=

axb

,函数图像:若令

yⅱ=

ln

y,

x

=

ln

x,

a?=

ln

a,

yⅱ=

a

+

bx?.等式两边取对数得:ln

y

=

ln

a

+

b

ln

x,oxy1(b>0)ab>1b=10<b<1.oxyb=-1b<-1-1<b<01(b<0)a.(1)表达式:

y

=

aebx

,函数图像:若令

yⅱ=

ln

y,

a

=

ln

a,

yⅱ=

a

+

bx.等式两边取对数得:ln

y

=

ln

a

+

bx,oxy(b>0)aoxy(b<0)a(2)表达式:

y

=

aeb/

x

,

函数图像:x若令

yⅱ=

ln

y,

a

=

ln

a,

x?=

1

,则等式两边取对数得:1,xyⅱ=

a

+

bx?.ln

y

=

ln

a

+

boxya(b>0)oxya(b<0)表达式:

y

=

a

+

b

ln

x,

函数图像:若令x¢=

ln

x,则y

=

a

+

bx¢.oxy(b>0)oxy(b<0)1表达式:

y

=a

+

be-

x,函数图像:1

=

a

+

be-

x

,y若令

yⅱ=

1

,

x

=

e-

x

,因为则yyⅱ=

a

+

bx

.oxy𝟏𝒂三、应用实例例1

在进行米氏方程和米氏常数推算时,观测酶比活力y与底物浓度x(单位:mmol/L)之间的关系,

测得9对数据如下表:底物浓度x1.251.431.662.002.503.305.008.0010.00酶比活力y17.652226.3235455255.735960试对x和y的关系进行回归分析.1.

根据散点图的形态确定函数类型;x与y的散点图如下:y.....

.

.

..o

x从图像看,与双曲线函数、对数函数及幂函数比较相似.2.

通过变量变换将曲线问题直线化,建立回归方程;(1)

选双曲线模型

1/y=a+b/xx¢与y¢为线性关系,利用最小二乘法建立线性回归方程.y

x将原始数据(xi,yi)转换为(xi¢,yi¢)=(1/xi,1/yi),由(xi¢,yi¢)求参数a、b,转换后的数据为:令

yⅱ=

1

,

x

=

1

,则yⅱ=

a

+

bx

.x¢=1/x0.800.700.60……0.130.10y¢=1/y0.05670.04550.0380……0.01690.01672.

通过变量变换将曲线问题直线化,建立回归方程;(1)

选双曲线模型

1/y=a+b/xx¢与y¢为线性关系,利用最小二乘法建立线性回归方程.y

x将原始数据(xi,yi)转换为(xi¢,yi¢)=(1/xi,1/yi),由(xi¢,yi¢)求参数a、b,转换后的数据为:令

yⅱ=

1

,

x

=

1

,则yⅱ=

a

+

bx

.x¢=1/x0.800.700.60……0.130.10y¢=1/y0.05670.04550.0380……0.01690.0167x¢与y¢为线性关系,利用最小二乘法建立线性回归方程.x¢=1/x0.800.700.60……0.130.10y¢=1/y0.05670.04550.0380……0.01690.01671

10.4144,9n

=

9,

x'

= ?

3.73y'

= ?

0.2617

0.0291,99

9iixⅱx

i=

1

i=

1xⅱ2

(S

=x

)2

/

9

=

2.06

-

3.732

/

9

=

0.5141,邋99

9i=

1yi

) /

9

=

0.1366-

3.73?

0.2617

/

9

0.0281Sx¢y¢

xiⅱyi

–(邋xiⅱ)(i=

19

i=

19iiyⅱy

i=

1i=

1yⅱ2

(S

=y

)2

/

9

=

2

/

n

=

0.00929

-

0.26172

/

9

=

0.0017.邋2.

通过变量变换将曲线问题直线化,建立回归方程;(1)

选双曲线模型

1/y=a+b/xx¢=1/x0.800.700.60……0.130.10y¢=1/y0.05670.04550.0380……0.01690.0167因此得回归方程:yˆ

'

=

0.0064

+

0.0547

x

'.x¢与y¢为线性关系,利用最小二乘法建立线性回归方程.从而得到回归系数:b

=

Sxⅱy

Sxⅱx

=

0.0281

/

0.5141

=

0.0547,a

=

y

'-

bx

'

=

0.0291-

0.0547?

0.4144

0.0064.2.

通过变量变换将曲线问题直线化,建立回归方程;(1)

选双曲线模型

1/y=a+b/xx¢=1/x0.800.700.60……0.130.10y¢=1/y0.05670.04550.0380……0.01690.0167x¢与y¢为线性关系,利用最小二乘法建立线性回归方程.对此回归方程检验(F检验、t检验、R检验选其一即可)用相关系数R检验:0.0281Sx

'

y'Sx¢x¢Sy¢y'0.514·0.0017查相关系数检验表,R0.01(7)=0.798,|R|=0.9505>R0.01(7)=0.798,所以回归方程极显著.2.

通过变量变换将曲线问题直线化,建立回归方程;(1)

选双曲线模型

1/y=a+b/xR

=

= =

0.9505

**x¢与y¢为线性关系,利用最小二乘法建立线性回归方程.x¢=1/x0.800.700.60……0.130.10y¢=1/y0.05670.04550.0380……0.01690.0167因此线性回归方程为:令yⅱ=

1

,

x

=

1

,y

xyˆ

'

=

0.0064

+

0.0547

x

'.代入方程,.x则x与y的曲线回归方程为:

=0.0064x

+

0.05472.

通过变量变换将曲线问题直线化,建立回归方程;(1)

选双曲线模型

1/y=a+b/x.x(1)

选双曲线模型

1/y=a+b/xyˆ

'

=

0.0064

+

0.0547

x

',

=0.0064x

+

0.0547R

=

0.9505(2)选对数模型令x¢=lgx,则y=a+blgxy=a+bx¢计算出回归方程:

=

18.6864

+

47.6485lg

x.

(过程略)R

=

0.9412两边取对数

lny=lna+blnx,

y¢=lny,

a¢=lna,x¢=lnx,则

y¢=a¢+bx¢计算出回归方程:yˆ

'

=

3.0332

+

0.5504x'.(过程略)经检验,相关系数极显著.(3)

选幂函数模型

y=axb经检验,相关系数极显著.R

=

0.8992******.x(1)

选双曲线模型

1/y=a+b/xyˆ

'

=

0.0064

+

0.0547

x

',

=0.0064x

+

0.0547R

=

0.9505(2)选对数模型令x¢=lgx,则y=a+blgxy=a+bx¢计算出回归方程:

=

18.6864

+

47.6485lg

x.

(过程略)R

=

0.9412两边取对数

lny=lna+blnx,

y¢=lny,

a¢=lna,x¢=lnx,则

y¢=a¢+bx¢计算出回归方程:yˆ

'

=

3.0332

+

0.5504x'.(过程略)经检验,相关系数极显著.(3)

选幂函数模型

y=axb经检验,相关系数极显著.R

=

0.8992******(1)

选双曲线模型1/y=a+b/x(2)

选对数模型y=a+blgxR

=

0.9412(3)

选幂函数模型

y=axbR

=

0.8992******三种模型的检验结果均极显著,但比较R值,选双曲线模型效果更好,即:.xyˆ

=0.0064x

+

0.0547思考该模型实际拟合效果如何?是否为最好的?R

=

0.√9505xyˆ

=0.0064x

+

0.0547R=0.9505**xyoR=0.9946**xx22yˆ

=0.0145

xx22

+

0.0638xyoR=0.9954**x3yˆ

=0.01751xx33

+

0.08002xoyyˆ

=0.016+

0.07144R=0.9984**x2.523xx2.52.5xoy小结曲线回归概述适用情况,一般步骤.几种可直线化的曲线类型双曲函数,幂函数,指数函数,对数函数,S型曲线化曲线回归为直线回归的方法.应用实例注意正确理解方程检验结果显著的意义,寻求最优的函数类型,并通过改进参数值得到拟合效果最好的模型.回归分析一、多元线性回归概述论多个变量之间的关系.例如:在许多问题中,需要讨若设因变量为y,而p个且它们之间的关系是线性自变量分别设为x1,x2,…,xp,的,则可进行多元线性回归分析.多元线性回归的统计思想与处理方法与一元线性回归基本相同.只不过自变量不只一个而已.父母身高孩子身高设因变量y与p个自变量x1

,

x2

, L

,

xp之间有线性关系:y

=

b0

+

b1

x1

+

L

+

bp

xp

+

e其中e为随机变量,称为剩余误差.将n次观测数据(

xi1

,

xi

2

, L

,

xip,

yi

),

i

=

1,

2, L

,

n,代入上面的方程,可得多元线性回归的数学模型:ìï

y1

=

b0

+

b1

x11

+

L

+

bp

x1

p

+

e1ïí

2

0

1

21

p

2

p

y

=

b

+

b

x

+

L

+

b

x

+

L

Lïî

yn

=

b0

+

b1

xn1

+

L

+

bp

xnp

+

en其中

b0

,

b1

, L

,

bp为p+1个未知参数,

称为回归系数;1

2

ne

,

e

,

L

,

e2为n个独立的随机误差且同服从分布N(0,s

).骣y1

÷çç

y

÷÷çç

y

÷桫nç

M÷若引入矩阵记号:骣b0

֍Y

=

ç

2

÷,

b

=

ç÷ççb

֍

M÷n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论