第4讲 数据操作和数据管理2(共13页)_第1页
第4讲 数据操作和数据管理2(共13页)_第2页
第4讲 数据操作和数据管理2(共13页)_第3页
第4讲 数据操作和数据管理2(共13页)_第4页
第4讲 数据操作和数据管理2(共13页)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五讲 数据(shj)操作和数据管理二一、数据(shj)的追加(zhuji)与合并1D append . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Append datasets命令描述:把磁盘上的数据集追加到内存数据集的末尾,其中内存数据集称作主数据集,磁盘数据集称作追加数据集。数值型和字符型变量保留更精确的存储类型。主数据集定义的变量标签和数据集标签不改变。进一步讨论:如果追加数据集包含字符串变量,合并后的数据集在这个变量的附加数据将有数

2、字缺失值;追加数据集的字符串变量的内容将被忽略。如果追加数据集包含数值变量,合并后的数据集将有在这个变量的附加数据的空字符串;追加数据集的数值变量的内容被忽略。(这说明追加合并前需要保证变量类型一致)例1:use even,clearlistdescribe using odd (using的使用,summarize和list不能用)append using oddlist例2:(同例1,追加合并与变量的顺序无关)use odd,clearlistdescribe using evenappend using evenlist例3:(同例1,无论(wln)主数据(shj)集或追加数据集,都保留

3、(boli)更精确的存储类型)use even, clearappend using odddescribe例4:(添加值标签)use capoplistdescribe using ilpopdescribe using txpopappend using ilpop txpop, generate(state)label define statelab 0 CA 1 IL 2 TXlabel values state statelablist2D merge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4、. . . . . . . . . . . . . . . . . . . Merge datasetsmerge Merge datasets (合并数据集。匹配于一个或多个指定的关键变量,合并主数据集和从数据集的对应观测值。append是为已有变量增加新观测值)(合并从主数据集的第1个观测值开始,对于主数据集的每1个观测值,合并在从数据集中找到的对应观测值,记录匹配或不匹配的结果。对主数据集的第2个观测值重复上述操作,直到主数据集的匹配检查全部完成。最后再检查从数据集中未与主数据集匹配的观测值。默认情况下,未匹配的观测值保留在合并数据集中,无论他们来自主数据集或从数据集。) 参考文献:Go

5、uld, W. W. 2011a. Merging data, part 1: Merges gone bad. The Stata Blog: Not Elsewhere Classified./2011/04/18/merging-data-part-1-merges-gone-bad/Gould, W. W. 2011b. Merging data, part 2: Multiple-key merges. The Stata Blog: Not Elsewhere Classified./2011/05/27/merging-data-part-2-multiple-key-merge

6、s/1:1 merges原理(yunl)关键变量同时出现在两个数据集中,并且(bngqi)分别对应唯一的观测值。假设有两个数据集:输入(shr):merge 1:1 id using filename输入(面板数据的例子):merge 1:1 pid time using filenamem:1 merges原理(yunl)关键变量同时出现在两个数据集中(jzhng),并且在主数据(shj)集中对应多个观测值,在从数据集中对应唯一观测值。假设有两个数据集:merge m:1 region using filename1:m merges原理类似于merge m:1,只是转换主数据集和从数据集的

7、位置。merge 1:m region using filename需要(xyo)注意的是,Stata不建议(jiny)使用m:m merges,这种合并不是一个好主意。你需要首先(shuxin)处理数据,然后使用1:m merge或 m:1 merge。序贯合并(Sequential merges)和m:m merges同样有风险。排除故障m:m merges1.有时间变量:假设一个面板数据,每个id变量/标识符对应4个观测值。 merge m:m subjectid using filename (错误)merge 1:m subjectid time using filename(加入时

8、间变量,正确)2.没有时间变量:假设数据集没有时间变量,但有一个序列的概念,记录了观测值的顺序。首要目标应该是从当前顺序创建明确的序列变量来解决这个问题。sort subjectid, stable (不要省略stable选项,这保证观测值在每个id中有同样的顺序。保存数据。在从数据集执行相同的操作。)by subjectid: gen seqnum = _nmerge 1:m subjectid seqnum using filename例1:(merge 1:1模式)use autosize,clearlistuse autoexpense,clearlist(仔细观察数据(shj)集,关

9、键变量make同时出现(chxin)在两个数据集中,并且分别对应唯一的观测值,所以应当使用merge 1:1模式(msh)。)use autosize,clearmerge 1:1 make using autoexpenselisttabulate _mergelist if _merge 3drop if _merge 3listuse autosize, clear merge 1:1 make using autoexpense, keep(match) nogenerate list例2:(merge m:1模式)use sforce, clearlistuse dollars,cl

10、ear list(仔细观察数据(shj)集,关键变量region同时(tngsh)出现在两个数据集中,在主数据(shj)集sforce中,region对应多个观测值;在从数据集dollars中,region对应唯一观测值,所以应当使用merge m:1模式。)use sforce,clear merge m:1 region using dollarslist例3-例6是关于重叠变量,不作为重点。例3:(对于匹配的id,主数据集的数据享有优先保存权,重叠变量x1和x2仍然是主数据集的值。)use overlap1, clear list, sepby(id)use overlap2,clear

11、list(仔细观察数据集,id是关键变量,x1和x2是重叠变量。)use overlap1,clearmerge m:1 id using overlap2list, sepby(id)例4:(update选项,使用从数据集的值替换主数据集的缺失值)use overlap1, clearmerge m:1 id using overlap2, updatelist, sepby(id)例5:(replace选项,使用(shyng)从数据集的值替换主数据(shj)集的对应(duyng)值)use overlap1, clearmerge m:1 id using overlap2, update

12、 replacelist, sepby(id)例6:use overlap1, clearmerge m:1 id using overlap2, update keep(3 4 5)list, sepby(id)二、数据集的转置1D reshape . . . . . . . . . . . . . . . . . . . . Convert data from wide to long form and vice versareshape Convert data from wide to long form and vice versa(转换数据从宽格式到长格式,反之亦然)示例:使用命令

13、reshape之前,需要确定数据的格式是长还是宽,还要确定逻辑观测值(i)和次级观测值(j),如面板数据。基本命令:reshape long inc, i(id) j(year) (从宽到长)( i()可代表一个id变量或多个id变量。多个id变量的例子是每个医院的医院id和病人id,i(hid pid)。hid和pid的唯一组合定义了组间变量)reshape wide inc, i(id) j(year) (从长到宽)例1:观测(gunc)数据Xij,其中(qzhng)i是逻辑(lu j)观测变量,或组间标识符。j是次级观测变量,或组内标识符。宽形数据由逻辑观测变量组织,所有数据存储在一行观

14、测值中。长形数据由次级观测变量组织,数据存储在多行观测值中。 有宽形数据,记录个人ID、性别和19801982年的年收入。有两个Xij变量。use reshape1,clearlistreshape long inc ue, i(id) j(year) (宽转长。原始的宽形数据没有year变量,转换后的长形数据有新变量year)list, sep(3)reshape wide inc ue, i(id) j(year) (长转宽)list例2:(变量id不唯一识别观测值,也就是说,在宽形数据中变量i()必须唯一)use reshape2, clearlistreshape long inc,

15、i(id) j(year)例3:(在长形数据(shj)中,变量i(id)不必(bb)唯一,但j(year)在i()中必须唯一(wi y)识别观测值。)use reshapexp1,clearlistreshape wide inc, i(id) j(year)reshape error例4:use reshape6,clearlist in 1/4reshape wide inc, i(id) j(year) (错误)reshape wide inc ue, i(id) j(year) (正确,ue在i(id)中不是常量)总之,有三种情况,reshape将拒绝数据转换:1.宽形数据,i(id)

16、不唯一。 2.长形数据,j(year)在i()中不唯一。 3.长形数据,未指定的变量在i()中不是常量。例5:(Xij变量中缺少了变量ue)use reshape1,clearlistreshape long inc, i(id) j(year)list, sep(3)reshape wide(返回原始的宽形数据)reshape long inc ue, i(id) j(year)list, sep(3)小结:如果得到一个意想不到的结果,如何撤消它: 1. 如果输入reshape long语句,输入reshape wide(不带参数)撤消它。 2. 如果(rgu)输入reshape wide语

17、句(yj),输入reshape long(不带参数(cnsh))撤消它。例6:(缺失的变量被视为变量有缺失值)use reshape1, cleardrop ue81listreshape long inc ue, i(id) j(year)list, sep(3)reshape wide inc ue, i(id) j(year)list, sep(3) (数据集发生了变化:建立ue81变量,包含全部缺失值)例7:use reshape3, clearlistreshape long incr ue, i(id) j(year) (通配符代表数字。在宽形数据中,incr表示变量名inc#r

18、;在长形数据中,incr表示incr )list, sep(3)reshape wide incr ue, i(id) j(year)list, sep(3)例8:(选项string允许j()指定字符变量)use reshape4, clearlistreshape long inc, i(id) j(sex) string (sex是字符变量)list, sep(2)reshape wide inc, i(id) j(sex) string listreshape long inc, i(id) j(sex) string (通配符代表(dibio)字符。符号(fho)的位置(wi zhi)取决于变量名)list, sep(2)例9:第二层嵌套数据可能包含两个以上的j()变量,例如同时具有year变量和sex变量。数据的逻辑观测值能用四种形式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论