




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1史方法基本概念1史统计分析法讲课提纲斯坦福大学周雪光讲座提纲第一讲史分析法的研究对象、资料要求、统计基础第二讲史方法中离散时间统计模式 (discrete-time hazard model) 史方法中的COX模型 (The Cox proportional hazard model) 史分析法中的参数方程 (Parametric hazard models)史方法在实际研究中的应用第三讲第四讲第五讲课程的重点史统计方法的基本概念和模型·· 动手能力:建构史资料、应用统计分析工具、解释统计结果阅读材料1统计方法参考资料粱在。“史分析”。Hans-Peter Blossfe
2、ld and Gotz Rohwer. 2002. Techniques of Event History Modeling: New Approaches to Causal Analysis. NJ: Lawrence Erlbaum Associates.Mario A. Cleves, William W. Gould, and Roberto G. Gutierrez. 2002. An Introduction to Survival Analysis Using STATA. College Station, Texas: Stata Corporation.2研究应用的例子周雪
3、光、候立仁。1999。“中的孩子们当代中国的与生命历程。”中。(译自Xueguang Zhou and: The State and Life Course国学第二卷,第372-407页。上海Liren Hou. 1999. “Children of the in PRC.” ASR 64: 12-36.)Jesper B. Sorensen. 2000. “The Longitudinal Effects of Group Tenure Composition on Turnover.” American Sociological Review 65: 298-310.1史方法基本概念2第一
4、讲、史分析的基本概念、资料要求、描述性统计本讲提纲1 为什么需要史分析方法?234史分析的基本概念史分析的资料要求史分析中的描述性统计1为什么使用史分析方法? 史分析:研究现象动态过程的一类统计模式§§§理论:研究现象变迁的过程因果关系的模式化(时间序列)控制潜在特质的影响(能力与、提干之间关系)例子:一个人在劳动力市场上的就业过程(就业、换工作、再就业) 职位提升:何时、为什么?§§人口学:§出生、结婚、离婚等发生的时间性和原因组织§§§学:升迁、调动一个组织类型的产生、扩展、:时间性和原因组织采纳某种
5、形式(M-form)或做法(组织制度)的原因其他:§§成人重新就学的时间性和原因、培训机会等1史方法基本概念3这些现象(因变量)的特点§因变量:(离散型变量)o 可数、整数、是/否,存在/不存在§时间序列过程是关注点:时间性的因素(timing)o 提升:是否、什么时间o 何时:时间维度需要多长时间才能经历到如此o 时间不是原因,但是因果关系体现在时间维度?§为什么:产生这些现象的因果过程:o 提升:历史背景、是否党员、类型,等等o 结婚:教育程度、就业状况、历史背景,等等一个例子:(是/否):· 建立“理论”模型o 因变量:与否o
6、解释变量:、教育、工作、父亲地位· 使用cross-sectional资料进行分析o 为什么有问题?o 变量之间关系不是发生时的关系:教育、工作· 使用史分析方法1史方法基本概念4 的史的描述ID演变的时间序列123400000000000000000010005001.时间x censoredo 经历了“” x x x ox o时间1史方法基本概念52.史分析方法的基本概念§:1. 离散型变量: 0/12. 变量值随着时间而变化§例子:结婚、提升、换工作,等等史 :有关变化和相应时间性的时间序列的。§· 例子:有关一个人工作经历历史
7、的类型和时间)(第一次工作,工作变化的§非重复性(出生、)、重复性(提升、结婚)§“风险集”的概念§在某一时间点上(或时间区间内)所有可能经历某一本)的集合。风险集的概念十分重要例子:的人(样§§ððð结婚教育机会§资料的考虑:§§§使用了的信息:是否发生、何时发生、因果关系的时间性对资料有很高的要求对资料的设置有很高的要求删截:§左删节 很难在统计上处理; 右删节: 常见。§§ðð随观察(资料收集)结束而结束;随机现象;系统
8、偏差:时间追踪的姻问题:样本的人可能有婚§§中间删节:史过程中的某一部分时间段不详。可以处理。有关删截的进一步讨论1史方法基本概念6不同“删截”情形的讨论:A没有进入抽样框架,没有观察,左删截。B“左删截”。C全部过程完全观察到,在统计上没有问题;D观察到开始及大部分过程,但从样本“消失”(drop out)。是否随机? E“右删截”,可以统计处理。F没有进入抽样框架,右删截。G开始与结束没有观察到,“左、右删截”。§§注意:我们假设,如果“右删截”发生,这是一个随机过程;中间删截:知道“”发生,但是不知道过去的确切时间。1史方法基本概念7§因
9、果过程的时间性:(统计意义上)§§§连续型离散型在概念上,总是连续型的§解释变量:§§不随时间变化:随时间变化:收入、职务§史研究:有关史的统计分析方法。 要考虑的问题:§理论上:什么样的因果过程导致了我们观察到的这些实证状况?o 就业、换工作的状况o的分布状况统计上:§o什么样的统计分布过程(统计模型)可以描述我们在资料中看到的这些模式?我们需要什么样的资料/信息才能对这类现象进行统计分析? 我们怎样处理这些“删节”的案例?我们需要什么样的统计(估测estimation)方法来分析资料? 怎样解释统计分
10、析的结果?o o o o§我们的讲座主要是讨论“统计”方面的问题,特别是有关统计模式、统计分析、和统计解释这些方面的问题。1史方法基本概念83史方法的统计基础描述和概括史资料有着三个基本的统计函数-分布函数、生存函数、风险函数1. 生命时间T (duration 持续期)的概率函数(Probability Functions of Lifetime T (duration))设 T为有关某量,t为T的实现。设 f(t) 和 F(t)发生的时间的随分别为T的概率密度函数和累积概率函数。 我们有如下公式:F(t) 是有关该变量小于或等于我们所选定的某一值t的概率的函数。如果我们知道有关t
11、的每一个值所相应的F函数值,那么,我们有了关于T分布的 全部信息。概率密度函数(Probability density functionp.d.f.)p.d.f. 的定义为(2)也就是说,p.d.f. 是c.d.f. 的导数或斜率slope。p.d.f. 与我们直观上的概率分布性状的关联更为直接。例如,我们通常所说的钟型正态分布是概率的 密度函数,而不是累积概率函数。2. 生存函数(Survival Function )在生存函数分析中,我们常常使用一个密切相关的函数生存函数(3)1史方法基本概念9如果我们关心的点t及以后的概率。是“”,那么,生存函数提供了有关生存到时间注意:如果 f(t)
12、是连续的,且在t = 0 and ¥之间不为0, 那么 S(t) 是一个单调下降的连续性函数,S(0) = 1 and S(¥) = lim t¥ S(t) = C. (对于所有à,C 为0.)无法避免的,如人或动物的10¥ t3. 风险函数( Hazard Function )定义:某一在时间t尚未发生,在t和t+Dt 之间发生的概率。(4)h(t) 是建立史统计模型的关键所在。对以上公式的讨论:在时间t发生的瞬息风险的定量化。因为时恰恰在时间t发生的概率为0。但是,我们可§这一定义的目的是对某间是连续性变量,一在t和t+Dt 之间
13、极小间隔时间内发生的概率。我们需要以考虑该考虑这一的条件概率,即生存到时间t之后再可能经历的概率。如果一个人在t时间前已经“”,那么,他就已经不在风险集内了。因此,我们只考虑那些“生存”到时间区域(t, t+Dt)开始时的式上:: Pr(t£T<t+Dt).那些人。这些考虑反映在以上公式的现在考虑分母。首先,概率是关于Dt的函数,或单调上升,或不下降§(nondecreasing)。时间区间越长,就越可能在这一区间发生。针对这一情况,我们需要在分母中除以Dt。第二,我们要的是事1史方法基本概念10件在时间 t上的风险度,而不是t开始的某一区间。因此,我们让Dt 趋于0
14、,使得这一区间越来越小。风险率的解释:§§“风险率”作为概率函数,是不能观察到的,但可以加以测算。不能为负,但没有上限。如果是连续性函数,h(t)可以大于1。率中,假设我们有,在 20-24h(t) = .460即,我们期待每个妇女-年,有 .460 个例子:在段,。§ 设E(T)为等待时间的期待值。如果 h(t)在t区间不变,那么 E(T) =l/h(t);在这里,T 是该发生前的等待时间。.例子.h(t) = .460, 时间是“年”,那么 1/.460 = 2.174 年,即一个生所期待的等待时间。发§ 我们通常假定风险随着时间 t 变化。如果在t
15、维度的变化是连续性的,那么这是连续时间的风险模型。如果变化是离散性的(即在某一小区间内为常量),那么我们需要离散性时间的风险模型。不同函数之间的关系我们以上讨论的各种函数, f(t), F(t), S(t), h(t) ,都是关于T的分布的各种描述,它们在数学上都是相同的,可以互为推导的。(5)(6)1史方法基本概念11换言之: 对 h(x)的模型化与对 f(t), or S(t), or F(t)的模型化都是相当的.其他几个有用的公式:Integrating both sides àwhereWhy are they useful?S(t)可以从实际资料中测算出来,我们可以随之建立
16、有关h(t)的模型。1史方法基本概念124。史资料的结构和处理1特点:时间性变量可以随时间变化因变量是 “生命时间”(持续期duration)2一个例子id开始年份结束年份持续期教育程度9122129441122? 1?现在考虑解释变量34不随时间变化的变量:随时间变化的变量:教育程度为了将随时间变化的变量结合进来,我们需要相应的资料结构,例如id=29(Appendix资料结构)我们可以考虑更为复杂的资料结构。· competing risks· 不同时间区间(· 不同群体间的比较段、不同历史时期)1史方法基本概念13史资料的设置:STATA的STSET程序
17、167;§§资料的结构风险集的建立STSET 的设置:生命时间变量Time-of-failure/censoring-variable 生命时间起点origin(time riskyear)idfailure(party)每个时间段的起点time0(t0)o o o o oSTSET后的检查§Stset后的output:o List 变量、查看资料结构o Stdes:描述资料Stvary§4 风险率的描述性统计1. Kaplan-Meier 方法 (Product-limit method)S(t) 是一个时间大于t的概率;t可能是任何一个非负的数字。在
18、没有删节的情况下,KM参数计量S(t)正是样本中时间大于t时的比例 。例如,如果我们的观察中有75%的样本的时间大于5,那么S(5) = .75。对于删节的资料,假设有k个不同的我们说,有nj个个人有可能经历该,t1 < t2 < t3 < tk. 在每一个时间tj,。“有可能经历” 意思是他们在 tj之前”的个人数目,KM没有经历该,而且也没有被删节。设dj为在时间tj “ 参数的定义为,for t1 £ t £ tk用语言来表述,就是说,在一个具体的时间t,把所有小于或等于t的时间放在一起。对于这些时间的每一个时间,计算在括号内的量,这可以解释为生存到
19、时间tj后又生存到时间tj+1的条件概率。然后,所有的这些条件概率相乘。1史方法基本概念142 累积风险函数我们在上面写下了如下的关系,该式左方的log生存函数被称之为累积(或整合)风险率,用 L(t)代表 . 如果 h(t)是常量,有着l的值(这意味着一个 exponential 函数),那么,累积风险函数是L(t) = lt. 这个结果意味着 log S(t) 在 t轴上的图形是从坐标0出发的一条直线。因此,我们画出log-生存函数图形可以帮助我们辨认风险率是随着时间而不变,上升、或下降。风险率的描述性统计可以提供许多信息§例子o o o o第一次的风险率第一次工作的风险率职务提
20、升的风险率第一胎的风险率1史方法基本概念151史方法基本概念161史方法基本概念17STATA output. * We can perform simple test about stratified hahzard rates,> using information on survival estimates;. sts test sex, logrank;failure _d: party analysis time _t: (year-origin)origin: time riskyear id: idLog-ranktest forequality of survivorfu
21、nctions|+Events observedEvents expectedsex男女|+663043.6052.40Total |9696.00chi2(1) Pr>chi2=21.280.0000. * We can crate strata test;of theoreticalinterest toconductstraified.genage = year - birth;.genage2 = age*age/100;.genagegrp = 1;.replace agegrp = 2 if age>= 30;(8928 real changes made). tab1
22、 agegrp;-> tabulationofagegrpagegrp|+Freq.PercentCum.12|+6,7318,92842.9857.0242.98100.00Total|15,659100.00. sts test sex,logrank strata(agegrp)detail;failure _d: analysis time _t:origin:id:party(year-origin) time riskyear idStratified log-rank test for equality of survivor functions1史方法基本概念18->
23、; agegrp = 1|+Events observedEvents expectedsex男女|+41922.9027.10Total |5050.00chi2(1) Pr>chi2=26.640.0000-> agegrp= 2|+Events observedEvents expectedsex男女|+252120.7025.30Total |4646.00chi2(1) Pr>chi2=1.640.2004-> Total|+Events observedEvents expected(*)sex男女|+663043.6052.40Total |9696.00
24、(*) sumover calculationswithinagegrpchi2(1) = Pr>chi2 =21.280.00001史方法基本概念19风险率模型的建立:以下讲座的概括介绍1从描述统计到因果分析§§对风险率的进一步分析,描述性统计为什么男女的风险率不同?教育水平,工作,。2 对风险率建立模型第一步:将风险率作为时间和解释变量的函数。最为常用的例风险模型(the Cox model),法是:比ln h(t, x) = a(t) +bx在上式中, a(t)是一个没有具体确定的时间函数,b 是一组需要在统计分析中加以估测的参数。下一步:对 a(t) 进行模型
25、化第一种情形: 简单的情形风险率为常量·h(t) = lè log h(t) = m è S(t) = e-ltè f(t) = l e-lt- t-constant意义:风险率为常量意味着从开始到(exponential)函数分布。发生的时间是一个指数第二种情形。假设风险率的自然对数( the natural log of the hazard rat)是时间的线形函数·log h(t) = m+ at è h(t) = lgt在这里 l=emandg=ea èthe Gompertz model第三种情形。假设·
26、;1史方法基本概念20log h(t) = m + a log t=> h(t) = ltawith l=emð Weibull model 史模型的统计估测史分析中的一个问题是,我们无法观察到那些被删截的样本的时间T。但是最大似然值法使得我们可以充分使用这些样本的已有信息。这些删截的 样本的似然该式如下,用语言来表达,如果一个样本的时间T可以观察到,那么它对似然估算的贡 献是T的密度函数;如果一个样本的时间T无法观察到,即在 ti 被删截,那么它的贡献是1-累布函数。小结基本概念资料要求描述性统计分析1史方法基本概念21作业1:史的资料结构和描述性统计选择一个研究(例如,结婚
27、、就业等),和几个相关的解释变量(包括·随时间变化、和不随时间变化的变量);采用“stset”程序建立一个可供史分析的资料;··对选择的研究提供描述性统计分析;o KM 生存函数o 风险函数o 累积风险函数写一个简要的报告(不超过两页):(1)解释在设置“stset”的考虑;(2)对描述性统计的结果加以分析解释。·1史方法基本概念22附录:史资料结构. list id party t0 sex educ in 1/144, nolab;+|+idpartyt0sexeduc|1.2.3.4.5.999990000019821983198419851986
28、1111111222|6.7.8.9.10.9999900000198719881989199019911111122222|11.12.13.14.15.9999900000199219931994199519961111122222|16.17.18.19.20.9999900000199719981999200020011111122222|21.22.23.24.25.9912121200000200220031964196519661111122111|26.27.28.29.30.121212121200000196719681969197019711111111111|31.32
29、.33.34.35.121212121200000197219731974197519761111111111|36.37.38.39.40.121212121200000197719781979198019811111111111|41.42.43.44.45.121212121201111198219831984198519861111111111|46.47.48.49.50.121212121211111198719881989199019911111111111|51.121199211|1史方法基本概念2352.53.54.55.|1212121211111993199419951
30、99611111111|56.57.58.59.60.121212121211111199719981999200020011111111111|61.62.63.64.65.121221212111000200220031981198219831122211222|66.67.68.69.70.212121212100000198419851986198719882222244444|71.72.73.74.75.212121212100000198919901991199219932222244444|76.77.78.79.80.21212121210000019941995199619
31、9719982222244444|81.82.83.84.85.212121212100000199920002001200220032222244444|86.87.88.89.90.292929292900000195119521953195419552222212228|91.92.93.94.95.292929292900000195619571958195919602222288888|96.97.98.99.100.292929292900000196119621963196419652222288888|101.102.103.104.105.292929292900000196
32、619671968196919702222288888|106.107.108.109.110.292929292900000197119721973197419752222288888|1史方法基本概念24111.112.113.114.115.|+292929292900000197619771978197919802222288888|116.117.118.119.120.292929292900000198119821983198419852222288888|121.122.123.124.125.292929292900000198619871988198919902222288
33、888|126.127.128.129.130.292929292900000199119921993199419952222288888|131.132.133.134.135.292929292900000199619971998199920002222288888|136.137.138.139.140.292929363600000200120022003199819992221188822|141.142.143.144.363636360000200020012002200311112888|+1史方法基本概念25/*/*/*/*/*/*/*/*/*/*/*/*/*/*/*/*/*
34、/*/*/*/*/*/EHA_DESC.DOThis program prepares the data set and descriptive statistics for event history analysis.For illustration purpose, we use "party membership" as the "event" to be analyzed.12/16/04 xz;/*/#delimit ; clear;set mem 50m; set more off;set matsize 800; set more off
35、;* First, link to the dataset, and define working directory;* use c:datasample600_eha, clear;global log c:data; global data c:data;cap log close;log using $logeha_desc.log, replace; use $datasample600_eha;/*/*/* The program below uses STATA's 'stset' procedure to define event history/* d
36、ataset. Once the event history data are properly defined in STATA, you/* can conduct various statistical analyses using the dataset./*/*/*/*/*/*/* An illustration using party membership as dependent var */* One of the most important tasks in EHA data construction is to define appropriate "risks
37、et". The program below carries out this task. Essentially, we keep any respondent whose age is at or above 18. There are more than one way toplish this task. Below is one way to do so.First, define a variable 'riskyear' for the year when one enters the riskset: age=18, then keep those r
38、ecords when the respondent is in the riskset;1史方法基本概念26gen riskyear = birth + 18; keep if t0 >= riskyear;* First, prepare "marker" variables to facilitate the preparation of EHA data: Year - the ending time (time unit = year) for each spellt0- the beginning time (year) for each spell;*
39、Below we define the beginning and ending time for each spell; gen year = t0;replace t0 = year - 1;* In the following 'stset' procedure, we define the following 'marker' variables: 'year' - defines time-of-failure/censoring-variable (the ending time of eachspell)'origin (t
40、ime riskyear) - defines the origin time to be the year when the respondent is 18 years old (the beginning time of lifetime)'failure(party) - defines the 'event variable' 1=event, 0=no event 'id(id)' - defines the 'id' variable'time0(t0) - specifies the beginning of th
41、e spell;stset year, origin(time riskyear) id(id) failure(party) time0(t0);* Now check the data to make sure that the 'stset' procedure works properly. Also we take advantage of 'stset' procedure to get information about the data we just defined;list id party t0 year _t0 _t _d _st in
42、1/50; summarize _st;stdes; stvary; sts list;* Below, we turn to conduct descriptive statistical (nonparametric) analysis;* First, we calculate and plot Kaplan-Meirer survival estimator; sts graph;gr save km.gph, replace; /* save graph for later use */* Second, we plot K-M survival function, by sex;
43、sts graph, by (sex);gr save km_sex.gph, replace;* Now, we plot Nelson-Aalen cumulative hazard estimates; sts graph, by (sex) na;gr save na_sex.gph, replace;* Finally, we plot Smoothed N-A hazard rate; sts graph, hazard by (sex);1史方法基本概念27gr save hazard_sex.gph, replace;* We can perform simple test a
44、bout stratified hahzard rates, using information on survival estimates;sts test sex, logrank;* We can crate strata of theoretical interest to conduct straified test;gen age = year - birth; gen age2 = age*age/100;gen agegrp = 1;replace agegrp = 2 if age >= 30;tab1 agegrp;sts test sex, logrank stra
45、ta(agegrp) detail;* Below we prepare future use;indepedent variables and save the new dataset forgen govt = 0;gen firmst = gen firmcl = gen firmpr = gen firmfo = gen public =0;0;0;0;0;gen firmoth = 0;replace govt = replace firmst replace firmcl replace firmpr replace firmfo replace public1=if wkunit = 1;11111if if if if ifwkunit = 2;wkunit = 4;wkunit = 5 | wkunit = 6; wkunit = 7;wkunit = 3;replace firmoth = 1 if wkun
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扬州市职业大学《儿童教育机构创办与品牌创建》2023-2024学年第一学期期末试卷
- 安徽水利水电职业技术学院《中外文学素养》2023-2024学年第二学期期末试卷
- 安徽省砀山县联考2025年初三下学期中考模拟(三)英语试题含答案
- 辽宁铁道职业技术学院《多媒体系统综合设计》2023-2024学年第二学期期末试卷
- 江西理工大学《养殖水环境化学》2023-2024学年第二学期期末试卷
- 2024-2025学年重庆江北区高三第二学期期末检测试题语文试题含解析
- 浙江省2021届高三生物上学期期中联考试题及答案4份
- 法式护墙施工方案
- 2025民间工程合同范本
- 示例:2025研究开发委托合同(中英文对照)
- 2024年云南省昆明市五华区小升初数学试卷
- 2025年全球创新生态系统的未来展望
- 艺术色彩解读
- 体育业务知识培训课件
- 《淞沪会战》课件
- 《社区共治共建共享研究的国内外文献综述》4300字
- 软件代码审计与测试作业指导书
- 上消化道出血护理疑难病例讨论记
- 城市轨道交通自动售票机
- 环境设计专业考察课程教学大纲
- 2024版互联网企业股东合作协议书范本3篇
评论
0/150
提交评论