课程数据-玩转statalesson_第1页
课程数据-玩转statalesson_第2页
课程数据-玩转statalesson_第3页
课程数据-玩转statalesson_第4页
课程数据-玩转statalesson_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课后练习:计算鱼塘的另一个重要指标“

感”后的period2阶段,感(happiness2)是否存在感(happiness2)是否显著的高于6?差异?如果存在,这个差异是显著的么?时的

感(happiness1)是否有显著差异?如果有,是显著的1.t检验鱼在进入鱼的鱼现在

感(happiness2)与刚入高了,还是低了?感(happiness2)是否受到

(sex)的影响?感(happiness2)是否t同时受到(sex)、(sex)、(age)的影响?(age)、刚入2.ANOVA/F检验鱼在阶段二的鱼在阶段二的鱼在阶段二的 感(happiness2)是否t同时受到(happiness1)的影响?时的感////*practises*/////*one-samplettest

happiness2

==6parison

test(单样本t检验)*//* parisontest(单样本分组均值比较)*/ttest

happiness2==sex/*two-sample

mean

comparison

test(双样本均值比较)*/ttest

happiness1==happiness2,

unpaired

unequal

welch/* ysis

of

variance*/anova

happiness2

sexanova

happiness2

sex

ageanova

happiness2

sex

age

happiness1STATA

DO文件中

令Lesson

5.

用STATA建模鱼子民的 感呢?感的“ ”——普通最小二乘法5.1

建立模型的标准:我该用什么模型来分析5.2

为连续变量建模:以鱼居民的体重为(ordinary

least

square

(OLS))5.3

为分类和等级变量建模5.3.1

等级逻辑回归(ologit):以鱼居自曝的

感(1—10等)为5.3.2

二元逻辑回归(logistics):以鱼居民是否“离塘出走”为感的“感的“

””5.3.3

多元逻辑回归(mlogit):鱼们的拥有什么不同特征导致出走不同的目的地5.1建立模型的标准:我该用什么模型来分析鱼子民快不 呢?、困惑举个例子:社会经济地位的测量。社会资本的测量。人力资本的测量1

确立研究问题:2获得数据。研究者个人收集一手数据;使用组织/机构收集的数据问卷设计影响数据质量:选择偏差+答率;使得结果整体发生偏离;比如多重共线性、对回归结果影响很大的值等等,就算 的模型也是无计可施的。员偏差:来自不同社会背景的人对问题有不一样的理解3模型设定:解释变量选择不当、测量误差、函数形式不妥等,则会出现较大的测量误差(specification

error)。5.1.1模型设定中的问题以及解决策略遗漏变量。加入尽可能多的控制变量/使用“实验与自然实验。变量”/工具变量/使用面板数据/随机无关变量。致使估计值方差变大。参考相关研究理论的指导。多重共线性。不必理会(仅考虑整体模型的解释,不影响关注的解释变量)/增大样本容量、剔除导致共线的变量、进行模型重新设定。数据。画散点图以矫正或剔除/

个案背景,必要时剔除个案/输出“全样本”和剔除 值的“子样本”,让读者来判断。解释变量个数的选择。使用信息准则AIC、BIC(越小越好,说明建模损失的信息越好)。函数形式检验。Ramsey’s

RESET

检验,是否遗漏非线性的变量。建模策略——“从大到小”还是“从小到大”。折中两种方案。休息片刻继续下一节内容5.1.1模型设定中的问题以及解决策略遗漏变量。加入尽可能多的控制变量/使用“实验与自然实验。变量”/工具变量/使用面板数据/随机无关变量。致使估计值方差变大。参考相关研究理论的指导。多重共线性。不必理会(仅考虑整体模型的解释,不影响关注的解释变量)/增大样本容量、剔除导致共线的变量、进行模型重新设定。数据。画散点图以矫正或剔除/

个案背景,必要时剔除个案/输出“全样本”和剔除 值的“子样本”,让读者来判断。解释变量个数的选择。使用信息准则AIC、BIC(越小越好,说明建模损失的信息越少)。函数形式检验。Ramsey’s

RESET

检验,是否遗漏非线性的变量。建模策略——“从大到小”还是“从小到大”。折中两种方案。5.1.2“好模型”的特征节省性(parsimony):相对精确而简单的反应现实。可识别性(identifiability):给定一组数据,估计的参数有唯一确定值。高拟合性(goodness

of

fit):模型整体的解释力以及主要研究变量的解释力。理论一致性(theoreticalconsistency):即使模型拟合性很高,但是如果模型中出现变量的系数的估计值与现实不符合,那么这个模型还是失败的。能力(predicative

power):“对假设的真实性唯一有效的检验就是将

值与经验值相比较”——

。5.1.3经典线性回归模型的基本假设:模型的数学表达:y=b+a1x1+a2x2+...+anxn

+ε线性性和可加性线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的。自变量之间相互独立若不满足这一特性,(3)误差项(ε)独立若不满足这一特性,称模型具有多重共线性性(Multicollinearity)。称模型具有自相关性(Autocorrelation)。(4)误差项(ε)的方差为常数若满足这一特性, 称模型具有同方差性(Homoskedasticity),若不满足,则为异方差性(Heteroskedasticity)。往往需要重点关注一(5)误差项(ε)呈正态分布如果误差项不呈正态分布,意味着置信区间会变得很不稳定,些异常的点(误差较大但出现频率较高),来得到更好的模型。5.1.4

两类线性回归模型介绍一般线性回归(普通最小二乘法):因变量是定比、定距变量逻辑回归:因变量是分类(包括二分类、多分类)、等级变量我研究问题是:我鱼子民的

感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的

感(受社会渴望影响)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)逻辑回归(logistics)5.2

以鱼居民的体重为

感的“

”——普通最小二乘法(ordinary

least

square

(OLS))被解释变量:体重解释变量: 、入池模型选择:OLS、入池时长及入池时长的平方项、种类OLS回归模型的基本假设线性性、可加性自变量之间互相独立。cov(x1,x2)=0误差项(ε)独立。cov(

εi

,εj

)=0误差项(ε)的方差为常数。误差项(ε)服从正太分布,ε~N(0,σ2)Stata5.2

以鱼居民的体重为 感的“

”——普通最小二乘法(ordinary

least

square

(OLS))kdensity

weight2//*anova

testto

see

if

the

variables

involved

in

themodel

are

statistically

related

to

thedependent

variable*//anova

weight2

i.sex

age

period2

species//OLSregression*//xi:reg

weight2

i.sex

age

period2

i.species//*test

whether

the

model

setting

*///*lingk

test*/linktest/*Ramsey's

RESET

test_test

whether

the

model

needs

quadratic/cubic

term*//estatovtest

/*使用被解释变量的2次,3次以及4次项作为解释变量加入到模型中*/estatovtest,rhs

/*使用解释变量的幂次作为非线性项*/xi:reg

weight2

i.sex

age

age2

period2

i.specieslinktestestat

ovtest休息片刻继续下一节内容Stata5.2

以鱼居民的体重为 感的“

”——普通最小二乘法(ordinary

least

square

(OLS))kdensity

weight2//*anova

testto

see

if

the

variables

involved

in

themodel

are

statistically

related

to

thedependent

variable*//anova

weight2

i.sex

age

period2

species//OLSregression*//xi:reg

weight2

i.sex

age

period2

i.species//*test

whether

the

model

setting

*///*lingk

test*/linktest/*Ramsey's

RESET

test_test

whether

the

model

needs

quadratic/cubic

term*//estatovtest

/*使用被解释变量的2次,3次以及4次项作为解释变量加入到模型中*/estatovtest,rhs

/*使用解释变量的幂次作为非线性项*/xi:reg

weight2

i.sex

age

age2

period2

period2_square

i.specieslinktestestat

ovtest//*choosing

the

number

of

explaining

variables

the

lowerAIC/BIC,

the

better

the

model

is*//qui

xi:reg

weight2

i.sex

age

period2

i.speciesestat

icqui

xi:reg

weight2

i.sex

age

period2

i.species

weight1

happiness1estat

ic/*multiple

collinearity_smaller

than

10,

there

is

no

collinearity*/qui

xi:reg

weight2

i.sex

age

period2

i.species

weight1

happiness1vif/*extrme

values*/qui

xi:reg

weight2

i.sex

age

period2

i.species

weight1

happiness1predict

lev,leveragegsort

-

levsum

levdisr(max)/r(mean)gsort

-

levlist

lev

in

1/5/*normal

distribution

test

of

residuals*/xi:reg

weight2

i.sex

age

period2

i.species

weight1

happiness1predict

resid,residualssktest

resid/*heteroskedasticity

test*/qui

xi:reg

weight2

i.sex

age

period2

i.species

weight1

happiness1hettestWeight2=b+

α1sex+

α2age

+

α3period2

+

α4species_2

+

α5species_2

+

α6species_3+

α7species_4+α8weight1

+α9happiness1+ε我研究问题是:我鱼子民的

感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的

感(社会渴望)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)逻辑回归(logistics)休息片刻继续下一节内容我研究问题是:我鱼子民的

感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的

感(社会渴望)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)二元逻辑回归(logistics)5.3.0

离散选择模型/定性反应模型最常见:二值选择模型(binarychoices):考研或不考研;通过/不通过;成功/失败;工作或待业;出国或不出国; 或者和平;生或者死;“离塘出走或不离塘出走”。又可以被称为“线性概率模型”(Linear

Probability

Model,LPM),logistics多值选择模型(multiple

choices),可以理解为二值选择模型的自然推广,其中可分为无等级的和有等级的。无等级,只有类别的差异(multiple

logit,mlogit);如:出门可以是走路、骑自行车、坐

车、开车等可以穷尽的选择。有等级(ordered

logit,ologit):社会声望/教育水平可分为高中低;

感分为1-10类,也可以分为高中低。ቊ𝑃

𝑦

=

1

𝑥 =

𝐹(𝑥,

𝛽)𝑃

𝑦

=

0

𝑥 =

1

𝐹

𝑥,

𝛽Logistic

分布函数P(y=1|x)=F(x,β)=

𝑥′β =

exp

𝑥′β

/1+

exp

𝑥′βp=exp

𝑥′β

/(1+

exp

𝑥′β

);1-p=1/(1+

exp

𝑥′β𝒑

𝒑𝟏−𝒑

𝟏−𝒑=

𝐞𝐱𝐩

𝒙′𝜷

;

odds

ratio

=e^β

;

𝜷

=ln(

)Odds=pr/(1-pr)ln(odds)=logit

转化5.3.2

二元逻辑回归(logistics):以鱼居民是否“离塘出走”为

感的“

”𝒚ෝ=𝑎+𝑥1𝑖𝑏1

+𝑥2𝑖𝑏2+…𝑥𝑛𝑖𝑏𝑛转化为logit模型后为:ln(𝒚ෝ)

=

ln(𝑎)

+

ln(𝑥1𝑖

𝑏1)+

ln(𝑥2𝑖

𝑏2)+…

ln(𝑥𝑛𝑖𝑏𝑛)被解释变量:是否离家出走(是=1vs.否=0)解释变量: 、入池 、入池时长及入池时长的平方项、种类(与扰动项不相关)模型选择:logisticsLogistics

回归模型的基本假设线性性、可加性自变量之间互相独立。cov(x1,x2)=0误差项(ε)独立,cov(εi

,εj)=0;服从两点分布,而非正态分布;存在异方差,应使用稳健回归。Statahist

leavexi:logistic

leave

i.sex

age

period2

period2_squar

i.species

,rxi:logistic

leave

i.sex

age

period2

period2_squar

i.species

happiness2

weight2,r5.3.2

二元逻辑回归(logistics):以鱼居民是否“离塘出走”为

感的我研究问题是:我鱼子民的

感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的

感(社会渴望)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)二元逻辑回归(logistics)5.3.1Ologit(等级逻辑回归):以鱼居自曝的幸福感(1—10等)为 感的“

”𝒚ෝ=𝑎+𝑥1𝑖𝑏1

+𝑥2𝑖𝑏2+…𝑥𝑛𝑖𝑏𝑛转化为logit模型后为:ln(𝒚ෝ)

=

ln(𝑎)

+

ln(𝑥1𝑖

𝑏1)+

ln(𝑥2𝑖

𝑏2)+…

ln(𝑥𝑛𝑖𝑏𝑛)被解释变量:自曝的解释变量:

、入池模型选择:ologit感(1-10等级)、入池时长及入池时长的平方项、种类(与扰动项不相关)ologit回归模型的基本假设线性性、可加性自变量之间互相独立。cov(x1,x2)=0误差项(ε)独立,cov(

εi

,εj

)=0Stata5.3.1

Ologit(等级逻辑回归):以鱼居自曝的幸福感(1—10等)为

感的“

”//////*order

ologit ysis

of

happiness2*//////kdensity

happiness2xi:

anova

happiness2

i.sex

age

period2

i.speciesxi:ologit

happiness2

i.sex

age

period2

i.species//*test

whether

the

model

setting

*///*lingk

test*/linktest//*choosingthe

number

of

explainingvariables

the

lower

AIC/BIC,

the

better

the

model

is*//xi:ologit

happiness2

i.sex

age

period2

period2_squa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论