《回归分析》 课件 第6章 模型选择_第1页
《回归分析》 课件 第6章 模型选择_第2页
《回归分析》 课件 第6章 模型选择_第3页
《回归分析》 课件 第6章 模型选择_第4页
《回归分析》 课件 第6章 模型选择_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

全模型和选模型全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*小结与评注模型选择应用回归分析李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院1

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注NBA实例现搜集到NBA

2018-2019赛季中100个球员的球场表现,一个球员的球场表现显然会影响其综合实力.因变量为“霍林格效率值”(PER),是前ESPN撰稿人霍林格 发明的根据当赛季所有球员表现,来综合评定某一位球员赛 季表现的进阶数据.自变量来源于该赛季的基础数据,能够直接反映球场上的表 现。包括年龄(Age)、场均上场时间(MP)、场均得分(PTS)、 场均投篮命中率(FG)、场均失误次数(TOV)、场均三分命 中率(X3P)、场均二分命中率(X2P)、场均罚球命中率(FT)、 场均篮板(TRB)、场均助攻(AST)、场均抢断(STL)、场均盖 帽(BLK)以及场均犯规次数(PF)共13个变量.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院2

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注NBA实例为反映球员的球场表现对其综合实力的影响,用13个自变量对PER建立模型.用哪些自变量建立模型.建立什么模型.线性?非线性(指数,多项式,......)?由于本课程所讨论的范围均是在线性回归模型的框架下,因 此模型形式固定,本章涉及到的模型选择仅包括自变量的选 择.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院3

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注目录全模型和选模型全子集回归逐步回归基于惩罚的模型选择模型选择的评价准则*小结与评注李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院4

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型全子集回归逐步回归基于惩罚的模型选择模型选择的评价准则*小结与评注李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院5

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注全模型

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院6

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注选模型

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院7

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注全模型和选模型

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院8

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注误用选模型I其中,矩阵B的第i

列是选模型中的变量XA

对全模型中变量Xp+i

建立的回归方程的系数:若想选模型的估计是无偏的,需要选模型中的变量XA对Xp+1,...,Xm中任何一个变量建立的回归方程的系数都为0.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院9

/

69

全模型和选模型

全子集回归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注误用选模型II仅考虑第一个变量X1对应的回归系数的方差2

p其中Z

=(X

,...,X

),而

恰是变量2X

,

.

.

.

,

X归方程的残差平方和

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院10

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注全模型和选模型

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院11

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注全模型和选模型若丢掉了一些对因变量有影响的自变量,选模型估计的保留 变量的回归系数的方差,要比全模型所估计的相应变量的回 归系数的方差小,但其付出的代价是估计量有偏.若在模型中多引入了一些没有影响或者影响不大的自变量, 虽然不会产生估计的偏差,但是会增大估计的方差,降低估计 的有效性.在建立模型时选择自变量的准则应该是小而精,尽可能剔除那些影响不大的可有可无的自变量.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院12

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型全子集回归逐步回归基于惩罚的模型选择模型选择的评价准则*小结与评注李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院13

/

69全模型和选模型全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全子集

归因变量Y

和m个可供选择的自变量记为X1,X2,...,Xm.对于Y

建立的回归模型有2m种可能的情况(去掉仅含常数项的情况有2m

−1种).全子集回归是在可能的这些回归子集中,按照某种准则寻找一个最优的子集.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院14

/

69基于惩罚的模型选择

模型选择的评价准则*

小结与评注全模型和选模型

全子集

逐步

归关于自变量选择的几个准则

若以SSE或R2作为准则,则会一味的引入自变量无论其是否重要.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院15

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注调整的R2•2

2a调整的R

(R

)••a2

2R

R

(习题6.2),且2aR

随着自变量的增加不一定增大.所有回归子集中,2aR

最大者对应的回归方程就是“最优”的.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院16

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注σ2的无偏估计从另外一个角度考虑回归的拟合效果,回归误差项方差σ2的无偏估计不同于SSE,σˆ2随着自变量的增加不一定减小.a2

2实际上,用R

或者σˆ

作为准则是等价的(习题6.3),因为有由上述等价性可知,σˆ2最小者对应的回归方程就是“最优”的.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院17

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注AIC准则赤池信息量准则(Akaike

information

criterion,AIC)

是日 本统计学家赤池(Akaike)于1974年提出的一种模型选择准 则。AIC准则还可以用于时间序列中确定自回归模型阶数,因子分析模型中选择公共因子个数等。其发展过程可参考Burnham&

Anderson

(1998).1设模型的似然函数为L(θ,x),θ是维数为p的参数,θˆL为θ的最大似然估计,x为随机样本,则AIC定义为1Burnham,

K.

P.

and

Anderson,

D.

R.

(1998)

Model

Selection

and

Inference:

a

Practical

Information-theoretic

Approach.

New

York:

Springer.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院18

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注AIC准则假定回归模型的随机误差项ϵ服从正态分布,即ϵ

∼N(0,σ2),对数似然函数L

n将σˆ2

=1

SSE代入得李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院19

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注AIC准则ˆL代入公式AIC

=−2

log

L(θ

,x)+2p,似然函数的未知参数个数为p

+2,略去与p无关的常数,得到回归模型的AIC准则公式为AIC

=

n

log(SSE)

+

2p.

(3)对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院20

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注BIC准则贝叶斯信息准则(Bayes

Information

Criterion,BIC)是Schwarz在19提出的另一种常用的模型选择准则.设模型的似然函数为L(θ,x),θ是维数为p的参数,θˆL为θ的最大似然估计,x为随机样本,则BIC定义为BIC=

−2

log

L(θˆL,

x)

+

log(n)p.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院21

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注BIC准则在随机误差项ϵ服从正态分布时,回归模型的BIC准则公式为BIC

=

n

log(SSE)

+

log(n)p.

(4)对每一个回归子集计算BIC,

其中BIC最小者所对应的模型是“最优”回归模型.与AIC准则相比,

BIC准则的第二项也会随着样本量的增加而增加.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院22

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注Cp

准则Cp

统计量是1964年马洛斯(Mallows)从预测的角度提出的 一个可以用来选择自变量的统计量。Cp

准则不仅可以用来选 择自变量,它也是模型平均领域中选择各模型权重的一个常 用的准则.对于一个回归模型Y

=Xβ

+ϵ,考虑其偏差平方和E

(Y)

2

=

µ

Xβˆ

2其中µ

=E

(Y)=Xβ.Cp

准则的原理就是最小化E

−Xβˆ

2).李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院23

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注Cp

准则

Cp

统计量其中σˆ2常用全模型中σ2的无偏估计,所有回归子集中,Cp

最小者对应的回归方程就是“最优”方程.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院24

/

69

全模型和选模型全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全子集

归流程图

1:全子集回归流程图李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院25

/

69逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型

全子集

归例-全子集

归例表6.1给出了某地区2018年某种消费品销售情况资料。其中y

表示某种消费品的销售额(百万元),x1表示居民可支配收入(元),

x2表示该类消费品的价格指数(%),x3表示其他消费品平均价格指数(%)。试建立该地区该消费品销售额预测方程。李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院26

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*小结与评注例-全子集

归表

1:表6.1

某地区2018年某种消费品销售表序号x1x2x3y序号x1x2x3y181.285.087.07.810126.4101.5101.212.3282.992.094.08.411131.2102.0102.513.5383.291.595.08.712148.0105.0104.014.2485.992.995.59.013153.0106.0105.914.9588.093.096.09.614161.0109.0109.515.9699.996.097.010.315170.0112.0111.018.57102.095.097.510.616174.0112.5112.019.58105.395.697.010.917185.0113.0112.319.99117.798.998.011.318189.0114.0113.020.5李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院27

/

69逐步

归基于惩罚的模型选择

模型选择的评价准则*小结与评注全模型和选模型

全子集

归例-全子集

归表

2:表6.2

全子集回归确定回归方程自变量子集R2a

Cp

AIC

BIC0.971

6.134

43.114

45.785{x1}{x2}{x3}{x1,

x3}{x1,

x2}{x2,

x3}0.954

18.153

51.540

54.2110.948

22.453

53.799

56.4710.976

4.006

40.984

44.5460.971

6.736

43.819

47.3800.952

19.463

53.150

56.711

{x1,

x2,

x3}

0.977

4.000

40.574

45.026

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院28

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型全子集回归逐步回归基于惩罚的模型选择模型选择的评价准则*小结与评注李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院29

/

69逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型

全子集

归逐步

归思想当可供选择的自变量个数m较大时,构造所有可能的回归方程应用全子集回归比较困难.需要较为快速的方法选择自变量子集,常用的方法有前进法后退法逐步回归法李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院30

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注偏F统计量回顾偏F检验,与t检验等价,用来检验自变量Xj

对因变量Y

的影响是否显著。偏F统计量李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院31

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注前进法前进法的思想是从一个空模型开始,将变量由少到多的引入模型当中,每次引入一个变量,直至没有可引入的变量为止.步骤1:将全部m个自变量分别对因变量Y

建立m个一元回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为

给定显著性水

则首先将X

引入回归方程。为了方便,设Xj

就是X1.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院32

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注前进法步骤2:

将因变量Y

分别与(X1,X2),(X1,X3),·

·

·

,(X1,Xm)建立m−1个二元线性回归方程,对这m−1个回归方程中X2,X3,·

·

·

,X回归系数进行偏F检验,计算偏F统计量的值,记为

,则继续将Xj

引入回归方程.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院33

/

69

全模型和选模型全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注前进法步骤3:重复上个步骤,直至所有未被引入方程的自变量的 偏F统计量的值均小于Fα(1,n

−p

−1)时为止。这时得到的回归方程即为最终确定的方程.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院34

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注后退法

选择其最小者记为

,则首先将X

从回归方程中剔除,为了方便,设Xj

就是Xm.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院35

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注后退法步骤2:将其余的m

−1个自变量重新建立一个回归方程,计算m

−1个回归系数的偏F统计量,记为

则将Xj

剔除.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院36

/

69

全模型和选模型全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注后退法步骤3:重复步骤上一个步骤,直至回归方程中所剩余的p个 自变量的偏F统计量均大于临界值Fα(1,n−p−1),没有可剔除的自变量为止。这时得到的回归方程即为最终确定的方 程.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院37

/

69逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注全模型和选模型

全子集

归逐步

归在前进法中,一个变量一旦被引入回归方程后就不会再被剔除出去.在后退法中,一个变量一旦被剔除也就再没有机会进入回归方程了.逐步回归的思想是有进有出,

将变量一个一个引入,

每引 入一个自变量后,对已选入的变量要进行逐个检验,当原引 入的变量由于后面变量的引入而变得不再显著时,就将其剔 除.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院38

/

69逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型

全子集

归逐步

归步骤1:

按照前进法选择偏F统计量最大的自变量Xj

若其1jαin偏F统计量F

F

(1j,n

−2),则将X

引入回归方程.步骤2:接着按照前进法引入第二个变量,然后对第一步引j入的变量X

进行偏F检验,若其偏F统计量2jαoutF

F

(1,

n

−j2j3),则将X

剔除;若F

>Fαout(1,

n

−3

),则继续引入第三个变量.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院39

/

69逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型

全子集

归逐步

归步骤3:重复上一个步骤直到既无变量引入又无变量被剔除 为止。每次引入一个新的变量都要对回归方程中原有的变量 进行偏F检验,以确保方程中只包含显著的变量,最终得到 的回归方程即为最终确定的方程。李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院40

/

69逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型

全子集

归逐步

归引入自变量的显著性水平αin小于剔除剔除自变量的显著性水平αoutαin

<

αout.否则若αin

≥αout

,可能产生某个自变量的显著性P值在αin与αout

之间,那么这个自变量将被引入、剔除、再引入、再剔除,进入“死循环”。李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院41

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注Toy

example若αin

=0.1,αout

=0.05李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院42

/

69全模型和选模型全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注例-逐步

归例模拟生成一个服从正态分布N(0,Σ)的自变量X

=(X1,...,X10),误差项ϵ

N(0,

1.5),真实的

归系数β

=(1,2,−1,1,−1.5,−0.01,0.5,−0.5,0.01,0.0001)⊤,因变量由Yi

=

Xi

β

+

ϵi

,

i

=

1,

.

.

.

,

n

=

100生成,当自变量间不相关时,即Σ

=I时,三种方法的过程见表6.3左半边;当自变量间存在相关性,即设定X的协方差矩阵为Σ

=(σij

)10×10

=0.5|i−j|时,三种方法的过程见表6.3右半边.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院43

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注例-逐步

归表6.3

逐步回归模拟结果李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院44

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型全子集回归逐步回归基于惩罚的模型选择模型选择的评价准则*小结与评注李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院45

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注目标函数全子集回归和逐步回归都是分步式的过程,估计和选择是分步进行的。另一种思路是通过求解目标函数同时实现变量选择和系数估计.目标函数:损失函数

+惩罚函数(7)其中,

ρλ(β)即为惩罚函数,

调节系数λ代表惩罚力度的大小.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院46

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注LassoLasso

(Least

absolute

shrinkage

and

selection

operator)是Tibshirani (1996)首次提出的一种压缩估计,惩罚函数采用L1范数

,这里的惩罚函数等价于约束

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院47

/

69

全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注Lasso李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院48

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注岭估计岭估计实际上就是最小化带有惩罚项的目标函数得到的估计,此时的惩罚项是系数β的L2

范数

其中

2

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院49

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注Lasso和岭估计Lasso可以将某些变量的系数压缩到0以实现自变量的选择,而岭估计不可以.OsOsss图

2:Lasso和岭回归目标函数的求解示意图李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院50

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注自适应Lasso自适应Lasso(Adaptive

Lasso)是Zou

(2006)为了解决Lasso中随着βj

的增大惩罚力度一直增大这一问题而提出的.其惩罚项与Lasso相比多了一个权重向量w

=(w1,w2,...,wm)⊤,通常定义w

=1/|βˆ|γ

,其中βˆ可以取最小二乘估计值.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院51

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注SCADSCAD(Smoothly

Clipped

Absolute

Deviation)是Fan和Li

(2001)年提出的

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院52

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注MCPMCP(Minimax

Concave

Penalty)是Zhang

(2010)提出的

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院53

/

69全模型和选模型全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注弹性网弹性网(Elastic

net)是Zou和Hastie

(2005)年提出的,它能够解决当自变量之间的相关性比较强时的变量选择问题

李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院54

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*小结与评注惩罚函数比较−6−4−202460

1

2

3

4

5

Lasso

Enet

MCP

SCAD图

3:多种变量选择方法的惩罚函数曲线固定λ

=1,a

=3.7

(SCAD),γ

=2.5

(MCP),λ1

=λ2

=0.5(Elastic

net).李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院55

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注Oracle性质Oracle性质是2001年Fan和Li在提出SCAD时首先说明的。若 真模型集合,即真实回归系数不为0的自变量组成的集合记 为Oracle性质第一点针对变量的选择,表示选择出的自变量集合就是真模型集合.Oracle性质第二点针对系数的估计,表示对于非零系数的估计和已知真模型时的估计一样好.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院56

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*小结与评注Oracle性质并非所有的变量选择方法都有Oracle性质,例如Lasso.图

4:多种变量选择方法系数估计值示意图李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院57

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注例-变量选择例NBA数据集:用13个自变量,包括年龄(Age)、场均上场时间(MP)、场均得分(PTS)、场均投篮命中率(FG)、场均失误次数(TOV)、场均三分命中率(X3P)、场均二分命中率(X2P)、场均罚球命中率(FT)、场均篮板(TRB)、场均助攻(AST)、场均抢断(STL)、场均盖帽(BLK)以及场均犯规次数(PF)与因变量“霍林格效率值”(PER)建立线性

归模型,采用不同的变量选择方法得到的

归模型如下表6.4.李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院58

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注例-变量选择表6.4

不同变量选择方法的系数估计值李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院59

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择模型选择的评价准则*小结与评注全模型和选模型全子集回归逐步回归基于惩罚的模型选择模型选择的评价准则*小结与评注李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院60

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注模型选择准确性当真实模型已知时,可以通过变量选择的准确性来评价各方法的准确性.准确率(precision):选择出的变量是真实重要变量的比例召回率(recall):真实重要变量被选择出来的比例李扬/林存洁/王菲菲/孙韬/廖军模型选择中国人民大学统计学院61

/

69全模型和选模型

全子集

归逐步

归基于惩罚的模型选择

模型选择的评价准则*

小结与评注模型选择不确定性通常同一个变量选择方法在来自同一个总体的不同数据集上的选择结果也不同,这就是因为变量选择方法的不确定性.若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论