《回归分析》 课件 第7章 广义线性回归_第1页
《回归分析》 课件 第7章 广义线性回归_第2页
《回归分析》 课件 第7章 广义线性回归_第3页
《回归分析》 课件 第7章 广义线性回归_第4页
《回归分析》 课件 第7章 广义线性回归_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注广义线性回归应用回归分析李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院1

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型从泰坦尼克号说起1912年4月14日,当时世界上体积最庞大、内部设施最豪华的客运轮船,号称“永不沉没”的泰坦尼克号因为与一座冰山相撞,在船体受损后沉入大西洋底。图

1:泰坦尼克号李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院2

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型从泰坦尼克号说起在这一事件中,社会学家感兴趣的问题可能是:是否可以根据乘客的社会属性(如性别、年龄等)来预测其 是否存活?女士优先,相比于男性乘客,女性乘客是否拥有更高的存活概率,如果是,大概高多少?尊老爱幼,

相比于青壮年,

老人和小孩是否更可能存活下来?性别因素是否还与其他因素如年龄、社会地位起到交互作用?李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院3

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型从泰坦尼克号说起在分析这些问题时,就会发现:响应变量是服从伯努利分布的二分类名义变量(1

表示存活,0

表示遇难),而不是服从正态分布的连续变量。响应变量的条件均值(存活概率)也不是预测变量的线性函 数,否则极有可能会出现不合理的结果(存活概率小于0或 大于1

)。设第

i

个样本点的响应变量服从均值为

pi

的伯努利分布,对不同的样本点,由于均值

pi

不同,方差

pi

(1

−pi)也不相同,即存在异方差性。由于数据不满足一般线性回归模型最基本的两大假定,也不满足同方差假设,不适合继续使用一般线性回归模型进行分析。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院4

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型广义线性回归模型的意义当响应变量为非正态分布,或者因变量的条件均值为预测变量的非线性函数时,需要引入广义线性回归模型。广义线性回归模型适用于响应变量为连续型、二分类名义型、多分类名义型(有序和无序)、计数型等多种类型的情形,特别地,当假设响应变量为服从正态分布的连续型变量时,则等价于一般线性回归模型。广义线性回归模型使研究者可以对现实生活中类型繁多的数据进行建模,并进行统计推断和预测,在生物、医学和社会经济数据的统计分析上,具有重要的意义。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院5

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注目录模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院6

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院7

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注指数分布族广义线性回归模型的一个基本假设是响应变量所服从的分布属于指数分布族。而在一般线性回归模型中,通常假设在给定预测变量的条件下,响应变量服从正态分布。正态分布也属于指数分布族,所以说广义线性回归模型是对一般线性回归模型的推广,正如指数分布族是对正态分布的推广。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院8

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型指数分布族一览图

2:常见指数族分布及其联系李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院9

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型指数分布族的形式称变量

Y

为指数分布族随机变量,如果其概率密度函数

f

(y;θ,ϕ)具有以下形式:其中:θ

为标准参数,是随机变量

Y

的期望

µ

的函数,记为

θ(µ)b(θ)为标准参数θ

的函数a(ϕ)>0

为规模参数

ϕ

的函数,与

Y

的方差有关c(y,ϕ)则为观测值与规模参数的函数该分布中随机变量

Y

的值域

A

应不依赖于

θ

。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院10

/

105

多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特例:正态分布不难验证正态分布属于指数分布族。设正态分布随机变量

Y的概率密度函数为:则该密度函数可以改写成指数分布族的形式,即:其中,y

∈R

不依赖于未知参数

µ

σ2

。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院11

/

105

多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特例:二项分布对于二项分布,设响应变量

Y

表示在

m

次试验中成功次数,且单次成功概率为

p,则其概率密度函数为:f

(y;

p)

=

Cy

py

(1−

p)m−ym将其改写成指数分布族的形式,即:其中,y

∈{0,1,...,m}不依赖于未知参数

p。

11为了保持统一,下文将二项分布的均值

mp

表示为

µ,特别地,如果

m

=1,二项分布退化为伯努利分布,则有

µ

=p

。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院12

/

105

多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特例:泊松分布f

(y;

µ)

=对于泊松分布,设响应变量

Y

的均值和方差为

µ,则其概率密度函数为:µye−µy!将其改写成指数分布族的形式,即:f

(y;

µ)

=

exp[y

log

µ−

µ

log(y!)]其中,y

∈{0,1,2,...}不依赖于未知参数

µ

。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院13

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型常见分布的指数族形式

李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院14

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型指数分布族的性质指数分布族具有良好的分析性质。假设

Y

为服从指数分布族的随机变量,可以证明:分布均值为

E(Y

)=b′(θ)分布方差为

Var(Y

)=a(ϕ)b′′(θ)b′′(θ)可以表示为关于

µ

的函数,即方差函数

V

(µ)对上述三种常见的分布验证这一结论,可以得到下表中的结果。分布

E(Y

)

Var(Y

)

V

(µ)σ2正态

µ

1二项2mpmp(1

p)µ(m

µ)/m泊松µµµ2m=1

时,µ

=p,方差函数为

µ(1

−µ)=p(1

−p)。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院15

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注模型构成广义线性回归模型包含以下三个组成部分:随机成分:表示响应变量的随机变量

Yi

∼f

(yi;θi,ϕ),其中f

(·)是一个指数分布族的概率密度函数。系统成分:预测变量的线性组合,设存在

p

个预测变量,则系统成分为pη

=

X

β

=

β

Xi

i

j

ij3j=03

连接函数:连接响应变量的条件均值

µi

和系统成分

ηi

的函数

g(·),使得

ηi

=g

(µi)3为避免混淆,本章规定:

Xij

表示变量

j

在第

i

个样本点上的取值;

Xj表示第

j

个随机变量;

粗体的

Xi

表示第

i

个样本点的取值向量,即

Xi

=

(1,Xi1,·

·

·

,Xip);粗体的

X

=(X1,...,Xn)⊤表示

n

×(p

+1)

维的设计矩阵;β

=(β0,β1,...,βp)⊤表示系数向量。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院16

/

105

模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注确定连接函数在广义线性回归模型中,系统成分是事先给定的,随机成分的分布需要基于数据作出假设,而由这两者可以确定相应的连接函数。当

Yi

是服从指数分布族的随机变量时,µi

=E

(Yi)=b′(θi),因此,也可以说连接函数

g(·)在参数

θi

与系统成分

ηi

之间建立了连接,即

ηi

=g(b′(θi))。4特别地,称使得

ηi

=θi

成立的

g(·)为典型连接函数(canonicallink

function)。这意味着,ηi

=g(b′(θi))=θi,因此

g(b′(·))必须为等值函数,即

g

(b′(x))=x。4通常假定

g(·)是一个一一对应、连续且可微的函数,存在逆函数

g−1(·)。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院17

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注确定连接函数根据

g(b′(x))=x,对于响应变量服从不同分布的情形,可以反解出对应的典型连接函数(以下简称连接函数)。eθ1+eθ例如,

当响应变量服从伯努利分布时,

b′(θ)

=

,

可知连接函数满足

geθ1+eθ(

)i

i

pi

1−pi=

θ,

于是有

η

=

g

(p

)

=

log

,

通常称为

logit

连接函数。通过类似的简单推导,可以得到响应变量服从正态分布或泊松分布时,对应的连接函数。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院18

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特定模型的具体构成综上,当假设响应变量服从正态分布、伯努利分布、泊松分布时,对应的广义线性回归模型中三个组成部分的具体形式如下表所示。55省略系统成分李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院19

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型再谈泰坦尼克号在泰坦尼克数据中,可以假设响应变量(1表示存活,0表示遇难)是服从伯努利分布的随机变量,并通过

logit连接函数将预测变量(性别、年龄等)的线性组合与其建立联系,拟合广义线性回归模型,这就是二分类

Logistic回归模型。正如一般线性回归模型,在拟合该模型时需要回答以下问题:如何估计模型中的系数,得到模型的具体表达式?如何判断模型中系数是否显著不为

0

,从而推断预测变量对响应变量的影响?如何根据模型对新样本的结局进行预测,并评估模型的预测能力?下面以二分类

Logistic回归模型为例,介绍如何在广义线性回归模型中拟合模型,进行参数估计与模型诊断,并对响应变量进行预测。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院20

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院21

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注模型形式二分类

Logistic回归模型属于广义线性回归模型,适用于分析响应变量为服从伯努利的二分类变量的数据,例如患者在服用某种药物后是否痊愈、在临床试验中被分到实验组的小白鼠是否增加体重等。响应变量

Y

表示研究者所感兴趣的事件发生或者不发生,分别用

1

0

表示,假设有

n

个这样的随机变量

y1,...,yn,彼此独立,并且有

P

(yi

=1)=pi

。已知预测变量观测值

X1,...,Xn

。响应变量

Y

的概率密度函数为:f

(y;

p)

=

py

(1

p)1−y,

y

{0,

1}模型的连接函数为:李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院22

/

105

模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注参数估计对于广义线性回归模型中的系数,通常无法得到类似于一般线性回归模型中那样的显示解。例如,在二分类

Logistic

回归模型中,由连接函数,可知logit

(P

(yi

=

1))

=

Xiβ显然系数无法直接由

yi

Xi

解析得到。回顾一般线性回归模型,使用极大似然法进行系数的估计,可以证明最终系数估计值等价于最小二乘估计,即那么,在广义线性模型中,同样使用极大似然法,可否得到类似形式的估计?如果该估计不具有显式解,具体如何求解?李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院23

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注极大似然法考虑极大似然法,似然函数为:因此,对数似然函数可表示为:分别对

βj

(j

=0,1,...,p)求导,令导数为

0

,就可以求解出对应的估计值

βˆj

(j

=0,1,...,p)。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院24

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注似然函数求导李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院25

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注加权最小二乘李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院26

/

105

模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注

李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院27

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注迭代求解算法由上述推导过程可知,对于特定的广义线性回归模型:W

z

的取值依赖于

µµ

=

g−1(η)ηi

=

Xiβ也就是说,目标

β

的估计依赖于

W与

z,而要估计

W与

z,又需要先估计

β,这就形成了一个

"鸡生蛋,蛋生鸡"的循环,因此可以使用迭代算法进行求解:先给定

β的初始估计值更新

W

z更新

β

的估计值重复以上步骤

2

3

直至估计值收敛李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院28

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注迭代求解算法图

3:迭代加权最小二乘算法李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院29

/

105Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二分类Logistic回归模型系数求解在二分类

Logistic

回归模型中(µi

=pi):由

g

(pi)=log(pi/(1

−pi)),可得

g−1(η)=exp(η)/(1+

exp(η))。由

a(ϕ)=1,V

(pi)=pi

(1

−pi),且

g′(pi)=1/pi

(1

−pi),可得

wi

=1/V

(pi)a(ϕ)(g′(pi))2

=pi

(1

−pi)。图

4:迭代加权最小二乘算法李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院30

/

105Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二分类Logistic回归模型系数求解图

5:二分类Logistic

回归模型系数求解函数(R

代码)李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院31

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注置信区间在得到系数的点估计后,可以构造其置信区间:如果响应变量服从正态分布,给定置信水平,则可以显式地写出区间的上下界,并基于样本进行估计。如果响应变量服从其它分布,其置信区间的构建通常需要依赖基于中心极限定理的大样本性质。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院32

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注置信区间当响应变量是独立的指数分布族随机变量时,广义线性回归模型的系数估计具有以下大样本性质:可以证明,在广义线性回归模型中,信息矩阵即为:I(β)

=X⊤W

Xa(ϕ)李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院33

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注置信区间李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院34

/

105

多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特例:一般线性回归模型由于

σ2

未知,可以用其估计值

σˆ2

代替,在大样本条件下可以用正态分布构造置信区间,样本量较小时使用

t

分布。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院35

/

105在二分类

Logistic

回归模型中,由于

a(ϕ)=1,于是有:其中,权重矩阵

W

=diag(w1,...,wn),wi

=pi

(1

−pi)。注意到,wi

的取值与

pi

有关,而

pi

是未知量,因此

W

也需要估计。实际上,在加权迭代最小二乘算法中,每一步更新

β后,由

pi

=g−1

(ηi)=g−1

(Xiβ)可以更新

pi

的取值,同时更新矩阵

W

,随着系数估计越来越稳定,W的取值也会收敛,最后一步得到的

W便可以代入上式,计算出相应的置信区间。Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二元Logistic回归模型中的置信区间李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院36

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注假设检验在求解出系数的估计值后,研究者希望能像分析一般线性回归模型一样,进行统计推断,对模型中的系数进行显著性检验,以分析各个预测变量对于响应变量的解释作用,以及模型对数据的拟合程度。由大样本性质,对于单个系数,可以基于正态分布的假设进行检验(参照置信区间的构造过程)。而对于模型整体的显著性检验,需要基于似然函数构建检验统计量。在一般线性回归模型中,通常通过残差平方和来判断模型拟合程度的好坏并基于此进行拟合优度检验,

而在广义线性回归模型中,

要实现与之等价的检验,

对应的指标为偏差(deviance),也被称为对数似然统计量。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院37

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注偏差偏差实质上是当前模型(使用部分变量拟合模型)与全模型(包含所有变量,且响应变量完全由系统成分决定)的对数似然之差。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院38

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特例:一般线性回归模型可以看到,此时偏差恰好等价于残差平方和。实际上,偏差正是一般线性回归模型中的残差平方和在广义线性回归模型中的推广。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院39

/

105

Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二分类Logistic回归模型中的偏差值得注意的是,此时,响应变量只能取

0

1,使得

log

yi

或log

(1

−yi)不存在,所以需要根据极限值来定义其取值。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院40

/

105Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二分类Logistic回归模型中的偏差当

yi

=0

时,有:yi→0iy

ipˆilim

y

log

=

limyi→0log

yi

pˆi

1yi=

limpˆi

1y

pˆi

iyi→0

1

y2iyi→0i=

lim

−y

=

0.pˆi因此,当

yi

=0

时,可定义

yi

log

yi

=0

。i

i(同理,当

y

=1

时,可定义

(1

−y

)log1−yi1−pˆi)=0,由此实现偏差的计算。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院41

/

105Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二分类Logistic回归模型中的偏差综上,在二分类

Logistic

回归模型中,可以将偏差简洁地表示为:ni

i

i

iD(y,

pˆ)

=

−2 [y

log

(pˆ

)

+

(1

y

)

log

(1

)]i=1可以这样理解偏差:当

yi

=1

时,偏差的每一项退化为

−2

log(pˆi),如果

pˆi

接近1,那么偏差会接近

0,反之,pˆi

越接近

0,则偏差越大当

yi

=0

时,偏差的每一项退化为

−2

log

(1

−pˆi),如果

pˆi接近

0,则偏差接近

0,反之,pˆi

越接近

1,则偏差越大李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院42

/

105

模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注偏差的性质注意到,在上述偏差的定义中,除了求两个模型的对数似然之差外,还乘上

a(ϕ)进行标准化,故也称之为标准化偏差。如果不考虑标准化,那么近似有:D(y,

µˆ)=

2[l(θ˜)

l(θˆ)]

χ2(p

m)a(ϕ)其中,p

表示全模型中的变量总数,m

表示当前模型中所包含变量个数。例如,在一般线性回归模型中,有D(y,µˆ)

a(ϕ)=ni=1σ2(yi−µˆi)2

服从自由度为

p

−m的卡方分布,与多元回归中的结论是一致的。而在二分类

Logistic

回归模型中,由于

a(ϕ)=1,所以有ni=1i

i

i

i2−2 [y

log

(pˆ

)

+

(1

y

)

log

(1

)]

χ

(p

m)李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院43

/

105

模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注假设检验流程假设模型

M0

中包含

m0

个变量,模型

M1

中包含

m1

个变量。不失一般性,令所有非

0的系数排列在最前面,考虑如下假设检验问题:李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院44

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注假设检验流程当模型对数据的拟合程度较好时,有

D0

∼χ2

(p

−m0)与

D1

a(ϕ)a(ϕ)∼χ2

(p

−m1),

因此在变量满足独立性条件时,

有T

∼χ2

(m1−m0)。当由样本计算得到的检验统计量

T

的值大于

χ2

(m1−m0)的

100

×α%分位点时,就以

α

显著性水平拒绝原假设,说明相比模型

M0

,模型

M1

在对数据的拟合优度上存在显著性的优势,所以应该使用后者,反之,如果不拒绝原假设,则说明两个模型在拟合优度上不存在显著差异,倾向于选择更为简单的模型

M0

。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院45

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注模型解释在得到系数的估计值并通过假设检验验证其显著性后,研究者通常希望借此解释对应的预测变量对响应变量的影响。回顾一般线性回归模型,系数

βj表示的含义是

"在控制其它变量保持不变时,变量

Xj每增加一个单位,预测响应变量平均变化的程度"。而在二分类

Logistic

回归模型中,系数

βj

表示的含义与优势比

(odds

ratio,以下简称

OR)有关。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院46

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注优势比的定义对于第

i

个观测,设

P

(Yi

=1)=pi,则定义优势

(odd)为1−pi

pi

,即

Yi

1

相对于

Yi

0

"优势"。1+exp(Xiβ)由

pi

=

exp(Xiβ)

,可知

oddi

=exp(Xiβ)。定义观测

i

相对于

j

的优势比为

OR=oddi

=exp[(Xi

−Xj

)β]。oddj优势比大于

1,表明第i

个观测个体相比于第j

个观测,其响应变量

Y

1

的可能性更大。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院47

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注优势比的解释在数据分析中,研究者感兴趣的是某个变量

Xj变化时对应的优势比,它可以反映该变量对响应变量的影响程度,所以需要控制其它变量保持不变,计算当

Xj增加一个单位时,相比于增加前的优势比。例如,在泰坦尼克号的例子中,如果要研究性别因素对于乘客是否存活的影响,应该控制年龄、舱位档次这两个变量不变,计算男性乘客相比于女性乘客的优势比。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院48

/

105Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型优势比的解释(以泰坦尼克为例)设模型为logit

(pi)

=

β0+β1

Age

i+β2

Gender

i+β3

Pclass2i

+β4

Pclass3i其中:性别(Gender)是二分类变量,取

1

表示男性,取

0

表示女性年龄(Age)是连续型变量舱位档次

(Pclass)是有序变量,可以将其视为一个三分类变 量,用两个哑变量表示,Pclass2

1

表示乘客来自二等舱, Pclass3取1表示乘客来自三等舱,这两个变量都取

0表示乘客 来自一等舱李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院49

/

105Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型优势比的解释(以泰坦尼克为例)不妨设存在这样两名乘客

A

B,年龄均为

30

岁,均乘坐一等舱,A

为男性,B

为女性。那么,根据上述定义,乘客

A

存活的

"优势"为:oddA

=

exp

(β0

+

30β1

+

β2)而乘客

B

存活的

"优势"为:oddB

=

exp

(β0

+

30β1)优势比

OR

为:OR

=

oddA

/

oddB

=

exp

(β2)显然,如果

β2

显著大于

0,OR会显著大于

1,表示在其他条件相同时,男性存活的可能性显著大于女性。反之,如果

β2显著小于

0,则表示女性乘客存活下来的

"优势"更大。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院50

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注优势比的解释特别地,如果

Xj是一个二分类的变量(比如用

1

0

分别表示男性和女性),优势比显著大于

1则说明取值为

1所表示的那一类(男性)相比于取值为

0所表示的那一类(女性)发生事件的概率要更高。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院51

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注预测在广义线性回归模型中,预测实际上是对条件均值

µi

的预测。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院52

/

105

多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型特例:一般线性回归模型李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院53

/

105

Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型

多分类Logistic回归模型二分类

Logistic

回归模型中的预测对于二分类

Logistic

回归模型,响应变量表示感兴趣的事件是否发生(用

1

0

表示),假设其服从伯努利分布,连接1−pi函数为:ηi

=g(pi)=log

pi

,其逆函数为:pi

=g−1

(ηi)=eηi1+eηi.模型的预测值为:生的概率(即响应变量取

1

的概率)。6以泰坦尼克号的例子为例,若

1

表示存活,0

表示遇难,则预测值为乘客存活的概率。进一步,

若需要作出明确的预测,研究者可以确定一个阈值

δ

来判断乘客是否能存活。例如,当阈值设为

0.5

时,若某位乘客对应的预测值为

0.7,则预测其能够存活。6注意到其取值确实在区间

(0,1)内,与通常对概率的定义相符合。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院54

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注混淆矩阵将预测值与实际值进行比对,可以得到混淆矩阵,其中:TP(True

Positive)为真阳性,即实际取

1

且预测为

1

的观测FP(False

Positive)为假阳性,即实际为

0

但预测为

1

的观测FN(False

Negative)为假阴性,即实际取1但预测为0的观测TN(True

Negative)为真阴性,即实际取

0

预测为

0

的观测图

6:混淆矩阵李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院55

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注根据混淆矩阵,整体的预测准确率为acc

=

(TP

+

TN

)/(TP

+

FN

+

FP

+

TN

)当样本中取

1

和取

0

的观测数量存在不平衡现象时,整体准确率并不是一个合适的评价指标。假设存在这样一个模型,无论输入什么数据,预测值都为

1,而某样本中包含

100

个观测,99

个响应变量取值为

1,仅有1个取值为

0,那么这个模型在该样本内可以达到99%的准确率。但是,这一模型并不是研究者想要的,因为它实际上对于响应变量取值为

1

的样本没有任何识别能力。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院56

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型灵敏度与特异度要综合评价模型的预测能力,需要引入更全面的指标:真阳性率

(True

Positive

Rate,TPR),或称灵敏度

(Sensitivity), 指的是实际上取值为

1

的观测中预测值也为

1

的那部分所 占的比例,表达式为TPR=TP/(TP

+FN

),真阳性率越高, 表明模型对取值为

1

的样本的识别能力越强。真阴性率

(True

Negative

Rate,TNR),也称特异度

(Speci- ficity),指的是实际上取值为

0

的观测中预测值也为

0

的 那部分所占的比例,表达式为

TNR=TN/(TN

+FP

),真阴 性率越高,表明模型对取值为

0

的样本的识别能力越强。对于某个特定的问题,研究者对两类样本的预测精度的要求可能是不同的。例如,在预测犯罪行为时,通常会对模型将非犯罪分子错分为犯罪分子的错误有更高的容忍度,后续再对模型筛选出的可疑对象进行人工甄别,以此提高对犯罪分子的打击覆盖率。研究者需要根据所研究问题的实际情况,确定灵敏度与特异度在模型评价时的权重。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院57

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注ROC曲线研究者通过阈值

δ

来确定模型对单个样本点的预测结果,如果

pi

>δ,则预测

yˆi

=1,否则预测

yˆi

=0

。显然,调节阈值

δ

时,模型对整个样本的预测结果会发生变化,灵敏度和特异度也随着改变,得到多组结果。以特异度为横轴,以灵敏度为纵轴,可以得到受试者工作特征曲线

(简称

ROC)。图

7:ROC曲线李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院58

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注ROC曲线如果模型在取不同的阈值时,特异度和灵敏度都较高,曲线中的点会集中分布于坐标轴的左上角,使得整条曲线下方的面积接近1;而如果是随机猜测,则对应对角线,曲线下面积为0.5。因此,当存在多个备选模型时,研究者可以根据ROC

曲线下面积(AUC)来比较不同模型的预测能力。图

8:ROC曲线李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院59

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型示例:泰坦尼克数据R包titanic

所提供的数据记录了著名的泰坦尼克号沉没事件中各位乘客的存活信息,以及相关的个人信息,例如性别、年龄、舱位档次(分一等、二等和三等)等,如表所示。将乘客是否存活视为服从伯努利分布的随机变量,

使用乘客的个人信息作为预测变量,拟合二分类Logistic回归模型,可以预测不同的乘客在这起海难中被救下的概率,并比较各个变量所发挥的作用。

IDAgePclassGenderSurvived1223male02381female13263female14351female15353male06541male0李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院60

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注可视化探索在拟合模型前,可以先简单探索预测变量与乘客是否存活的关系。取性别(Gender)、舱位档次(Pclass)以及是否存活(Survived)这三个变量,得到列联表如下所示。图

9:乘客性别、舱位档次、是否存活列联表李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院61

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注可视化探索为了更直观地反映这一结果,还可以画出如下图所示的马赛克图。图

10:乘客性别、舱位档次、是否存活马赛克图李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院62

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注可视化探索结合图表信息,可以得到以下初步结论:不管是在哪个档次的舱位中,女性的存活率都要明显高于男性 的:在一等舱中,女性的存活率为

82/(3+82)≈96.47%,而 男性存活的比例只有

40/(61+40)

≈39.60%

,确实体现了女 性优先的原则。不同的舱位档次之间,存活比例的差异也很明显:在三等舱 中,女性存活比例为

47/(55+47)

≈46.08%

,而男性则为 38/(215+38)

≈15.02%

,均远远低于一等舱的。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院63

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注拟合模型在该数据集中,响应变量为二分类变量,适用二分类

Logistic回归模型。预测变量中:

性别(Gender)是二分类变量,取

1

表示男性,

0

表示女性;

年龄(Age)

是连续型变量;

而舱位档次(Pclass)是有序变量,为了方便起见,可以将其视为一个三分类变量,在拟合模型时用两个哑变量表示,Pclass2取

1

表示乘客来自二等舱,Pclass3

1

表示乘客来自三等舱,这两个变量都取

0

表示乘客来自一等舱。使用

logit

连接函数,模型可以表示为:logit

(pi)

=

β0+β1

Age

i+β2

Gender

i+β3

Pclass2i

+β4

Pclass3i李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院64

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注拟合结果分析模型的拟合结果如下表所示。图

11:二分类Logistic

回归模型拟合结果(泰坦尼克数据)李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院65

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注性别考虑性别因素,男性(Gender

取1)相比女性

(Gender

0)存活的优势比为

eβ2

,其估计值

eβˆ2

=e−2.523

≈0.080

。而性别

(Gender)所对应的系数估计值为

βˆ2

=−2.523,其标准误为

0.207,则

95%

置信区间为(−2.523

z0.975

×

0.207,

−2.523

+

z0.975

×

0.207)

=

(−2.929,

−2.117)因此,男性(Gender

1)相比于女性(Gender

0)的存活优李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院66

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注舱位档次考虑舱位档次(经济能力)对存活率的影响。由于设置了哑变量

Pclass2与

Pclass3,相当于是以一等舱的乘客为参照,所以在估计优势比时应该明确是相对于一等舱乘客的优势比。Pclass2

对应的系数估计值为

βˆ3

=−1.310,因此二等舱相对于一等舱的存活优势比的估计值为

eβˆ3

=e−1.310

≈0.270

。同理,Plass3

对应的系数估计值为

βˆ4

=−2.581,因此三等舱相对于一等舱的存活优势比的估计值为

eβˆ4

=e−2.581

≈0.076

。两个系数的估计值都是统计学显著的,可以推断,无论是二等舱还是三等舱,乘客存活下来的可能性都要显著低于一等舱。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院67

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注年龄年龄对于存活率也有一定的影响,由其系数估计值为负值,可以推断,当控制其它变量不变时,年龄越大者的存活可能性越低。值得注意的是,

此处为了方便展示,

只是把年龄当成一个连续变量,而实际上,由于儿童和老者都会在救援中受到优待,存活率随年龄的增长应该是有先下降后上升的趋势的。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院68

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注预测在模型中用系数的估计值代替其真值,代入每个乘客的个人信息,得到存活概率的预测值。取阈值0.5,在训练集上,可以得到预测结果与真实值所构成的混淆矩阵(Confusion

matrix),如下图所示。整体的预测准确率为

(356+207)/714

≈78.85%

。图

12:混淆矩阵(泰坦尼克数据)李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院69

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院70

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注多分类问题在实际数据分析中,

有时响应变量可能存在多个无序的类别,例如,当电影公司想要通过观众的性别、年龄、社会地位等背景信息预测其最喜爱的电影类型时,响应变量就是一个多分类的变量,其不同取值代表各种类型片。此时,研究者需要借鉴二分类Logistic

回归模型的思想,使用多分类Logistic

回归模型进行分析。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院71

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注解决方案基于广义线性回归模型,目前主要有两种思路:把多分类问题拆解为多个二分类问题,分别拟合二分类Logistic 回归模型,而后通过类似机器学习中的弱分类器集成的方式,由 多个模型投票预测样本所属的类别。直接假定响应变量服从多项分布,建立相应的广义线性回归模型,直接进行预测。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院72

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型拆解为二分类问题借助二分类Logistic

回归模型解决多分类问题,有“一对一”和“一对其他”

这两种具体的方法。一对一:每次取两个类别的样本,拟合二分类

Logistic

回归模型。如果有

K

个类别,则一共要拟合

C2

个模型。每个模型K都会预测样本属于两类中的一类,给对应的类

"记上一票"。统计所有模型的投票结果,票数最多的那一类就是样本所属类的预测值。一对其他:每次指定

K个类别的其中一类作为正样本,以所 有其他类作为负样本,视为二分类问题,拟合二分类

Logistic 回归模型。如果有

K个类别,则一共要拟合

K个模型。每 个模型都可以得到样本属于所指定类别的概率预测值,比较

K

个预测值,以最大值对应的类作为样本所属类的预测值。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院73

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型多分类Logistic回归模型多分类

Logistic

回归模型直接假定响应变量

Y

是服从重复次数为

1

的多项分布的随机变量,一共可取

{1,2,...,K}共K

个值,表示

K

个不同的类别,且有将

Yi

取值为

k

的概率表示为以下对数一般线性回归模型的形式:log

(P

(Yi

=

k))

=

Xiβk

log(Z)其中

Xi

表示第

i

行观测数据,

βk

表示第

k

类特定的系数向量,

−log(Z)是为了保证取各个类的概率加和为

1

而引入的正则项。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院74

/

105

多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型多分类Logistic回归模型由上式,有:与二分类

Logistic

回归模型的

logit

连接函数相对应,该式连接了预测变量的线性组合与响应变量取某一值的概率,被称作

softmax

连接函数。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院75

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型多分类Logistic回归模型在实际应用中,为了使系数估计能够被唯一确定,通常需要指定一个类别作为参照水平,将其对应的系数都设为

0,在此基础上估计其他类别对应的系数向量。不失一般性,假定选择将第一个类别作为参照水平,则上述模型可改写为:当响应变量只包含两个类别时,该式与

logit连接函数是完全等价的,因此,多分类

Logistic

回归模型可以看作是二分类

Logistic

回归模型的推广。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院76

/

105多分类Logistic回归模型Possion回归模型小结与评注模型的一般形式

二分类Logistic回归模型示例:学生项目数据UCLA

提供的学生项目数据记录了200

名学生在开学后选择的项目类型(prog),包括综合型(general)、学术型(academic)和职业型(vocation)。此外,还记录了可能对选择结果有影响的两个因素:家庭在社会中的经济地位(ses,分高中低三档)、学生本人的写作分数(score)。李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院77

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注可视化探索选择学术型项目的学生写作分数普遍更高,而选择职业型项目的学生分数最低。图

13:不同项目组学生写作分数分布箱线图李扬/林存洁/王菲菲/孙韬/廖军广义线性回归中国人民大学统计学院78

/

105模型的一般形式二分类Logistic回归模型多分类Logistic回归模型Possion回归模型小结与评注可视化探索家庭经济条件较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论