结构方程中软件操作过程_第1页
结构方程中软件操作过程_第2页
结构方程中软件操作过程_第3页
结构方程中软件操作过程_第4页
结构方程中软件操作过程_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

结构方程中的缺失数据处理EM、FIML、MI--软件操作与理论探讨李晓煦2006/10/06香港中文大学教育心理系lixiaoxu@.hk第一部分分:软件件操作LISREL8.7..2-------专业业的结构构方程分分析软件件FIML,EMSAS9.1..3----胜胜任大规规模的数数据,高高强度的的运算MI,EMR2.3..1-------开源源的公共共软件,,灵活的的自由编编程EM,MILISREL提提供的例例子浏览LISREL的安安装目录录打开子目目录……\MISSINGEX\把数据文文件grant.dat和和程序序文件MISSEX2A.ls8复复制到自自己创建建的临时时练习目目录中在应用任任何一方方法之前前检查数据据是否因因为缺失失而错列列看最后几列数据的的缺失率率是否特特别大检查缺失失值的标标记,把把不合理理的数值值改为缺缺失用直方图图、散点点图概览览(尤其是是数据量很大时)Excel中的的数据预预览如何导入入自由格格式、列列对齐格格式数据据到Excel(数据获取外外部数据据导入入文本文文件)如何在Excel中看看直方图图与描述述统计量量(工具加载宏宏勾选选“分分析工具具库”,,确定;工具数据分分析选选需要的的统计分分析功能能,点““确定””在弹弹出窗口口点“帮帮助”))当数据量量大于65526或者者变量多多于256时,,需要用用LISREL或者SAS、、R之类类的软件件LISREL中中的数据据预览导入数据据:FileImportData选数据据文件,,确认设定临临时数据据文件名名,确认认手工工设定变变量个数数、首行行是否变变量名看多变量量散点图图、单变变量直方方图Graphs…留意散点点图中对对鼠标右右键功能能的提示示;留意直方方图中的的样本量量NLISREL中中需要定定义缺失失值DataDefineVariables选选变量,,点MissingValuesLISREL图图形界面面中的缺缺失值设设置*全部的的缺失值值都写在在下方Globalmissingvalues一一栏;如如果写在在上方Missingvalues栏,,Lisrel8.7..2会在某些些场合不不认。*除了设设置缺失失值,DefineVariables窗口中中,还要要点VariableTypes设置变变量类型型“EM””的两层层意思Expectation-Maximization((EM))是源自自缺失数数据处理理的一种种参数估估计算法,在许多多广泛应应用的模模型(比比如HLM)上上有重要要的应用用缺失数据据中的EM方法法特指用用EM算算法从含含缺失的的数据估估计出协协方差//相关系系数矩阵阵、均值值向量。。大部分分多元统统计模型型只需要要协方差差和均值值输入。。SEM只是其其中一种种。LISREL8.7..2中的EM方法标记好缺缺失数据据后,就就可以在在图形界界面作EM估计计(StatisticsMultipleImputation在在弹出的的窗口按按缺省设设置点run拷贝编编辑..out文件件输出的的协方差差矩阵,,作为..ls8文件的的输入数数据MI实际际上是MultipleImputation的缩写写。但LISREL8.7..2并不提供供完整的的MI功功能。EM是三三个方法法中最容容易实现现的方法法,所以以FIML和MI都缺缺省地利利用EM方法来来提供迭迭代的初初值。什么是FullInformationMaximizing--Likelihood与EM、、MI方方法不同同,FIML缺缺失数据据方法只只针对SEM。。假如所有有的观测测缺失的的变量都都相同,,等同于于缺失的的变量从从模型里里去掉。。按缺失的的模式把把所有的的观测分分组,每每组内的的数据缺缺失的变变量都相相同。分分组建模模,再限限制各组组的参数数相等,,就是FIML方法。。FIML方法的的具体实实现变化化很多,,不同的的软件有有所差别别。LISREL8.7..2中的FIML法法FIML方法不不计算协协方差矩矩阵,而而是直接接对样本本数据建建模。看看例子MISSEX2A.ls8DANI=6…MI=--9RAFI=GRANT.datRA就是是Rawdata,,FI就就是File;;这一句句取代了了通常CM/KM语句句的协方方差矩阵阵输入。。此外,在在DA句句中MI就是MissingValue,表示示数据中中-9用用来标记记缺失数数据。MultipleImputation方法与SingleImputation对比比--SingleImputation就是把所所有缺失失位置给给一个修修补的数数值,用用修补的的结果建建模MultipleImputation就是按某某种特定定的随机机抽样法法则去修修补。对对多个修修补的版版本分别别建模,,然后汇汇总各个个版本的的参数估估计结果果。SAS中中的MI与EM方法SAS是是昂贵的的商业软软件,胜胜任大规规模(比比如样本本量超过过10万万)或高高运算量量的数据据处理与与统计。。

SAS的的帮助文文档内容容翔实,,范例很很具体。。但规模模太大,,组织稍稍有些乱乱,初学学者往往往不能迅迅速查到到。MI方法法适用于于一般的的多元统统计模型型,比如如多层分分析。SAS9的MI方法((附带EM)子子程序序是ProcMI,,能提供供原始数数据替算算缺失值值的多组组采样版版本,此此外还提提供了ProcMIANALYZE用于于合并各各个采样样版本对对应的模模型估计计结果。。SAS提供的EM与MI的范例EM方法法的范例例/rnd/app//da//new/802ce/stat//chap9//sect32.htmEM是适适用一般般多元统统计模型型的缺失失数据处处理方法法。最后后输出的的是均值值与方差差矩阵的的(无偏偏)估计计值。MI方法法的范例例/rnd/app//da//new/802ce/stat//chap10/sect2.htmMI输出出的中间间结果是是原始数数据替算算缺失值值后的多多个(缺缺省为5个)采采样版本本。这些些版本的的数据逐逐一用于于模型估估计,得得到的估估计参数数分为两两类:一一类是均均值估计计,一类类是协方方差、方方差估计计。这两两类参数数都输入入给ProcMIANALYZE汇总为为最后的的结果。。*例子中中做的是是多元回回归模型型。SAS中分分析结构构方程模模型的子子程序是是ProcCALIS,参参考http:///v8doc../sashtml/stat//chap19/sect2.htm*例子中中的ProcMIAnalyze中要把把旧版本本的var改成成新版本本的modeleffectsSAS的的MI范范例解析析原始含缺缺失的数数据(ProcMI)抽样m份修补补的数据据(模型估计计)m份参数数估计结结果(ProcMIAnalyze)合并一份份最终结结果R中的EM、MI方法法Copyleftv.s..CopyrightCopyleft,或或译为““公共版版权”、、“版权权左派””。Copyleft软件件提供源源代码,,允许用用户修改改、传播播,但禁禁止化公公为私。。任何人人利用Copyleft源代代码创作作的软件件也必须须按Copyleft条款发发布。但但只限于于软件,,不包含含书籍文文章。R程序任任何的扩扩展程序序包都免免费并开开放源代代码。但但关于R的文章章或书籍籍仍可以以有版权权。参考:/wikipedia/zh/wiki/Copyleft/在R中安安装norm程程序包要在R中中应用EM方法法,需要要安装专专门处理理缺失数数据多元元统计的的norm程序序包。norm包的主主页是::/src/contrib/Descriptions/norm.html可以下载载norm压缩缩包,把把压缩包包里的norm文件夹夹保存到到R安装装目录的的子目录录....\library\\下;;也可以以在主窗窗口菜单单下选择择更新网网站的镜镜像PackagesSetCRANMirror,然后点点PackagesInstallPackage((s),在弹出出的程序序包选项项里选择择需要添添装的项项目)。。在R中启启动程序序包每次启动动norm程序序包,需需要在主主窗口菜菜单点Packages->>Loadpackage....在弹出的的窗口中中选norm,然然后点确认。在命令窗窗里输入入:help(em.norm))回车,弹弹出的帮帮助窗口口解释em.norm的用法。。首先从从最后一一段的实实例入手手。这段段例子可可以直接接copy运行行,得到到EM估估计的协协方差矩矩阵:>data(mdata)##这一一句把数数据框mdata载入入

>s<--prelim.norm(mdata)##dopreliminarymanipulations

>thetahat<<-em.norm(s))##computemleIterationsofEM:1....2....3....4....5....6....7....8....9....10....11....12....13....14....15....16....17....>getparam..norm(s,thetahat,corr==TRUE)$$r##lookatestimatedcorrelations[,1]][[,2]][[,,3][[,,4][[,,5][[1,,]1.000000000.88753257-0.096423420..48891760.7145953

[2,]0..887532571.000000000.093452970.51977210..5429959[[3,]]-0.096423420..093452971..000000000.2930083-0.3598209[[4,,]0.488917590.519772070.293008261..00000000.3029066

[5,]0..714595290.54299589--0.359820940.30290661..0000000R中的EM方法法R中的数数据框agehageweduinckid1343012400001245441660150334242175530024302212602002553461065800463335123450027674412835005828281641000393028151500001043NANA412602113430175500011240NA7670503136755NA78000314343016NA215252612NA1164440206780021736NA18832001184237NANA319222273200022038NA02500032165NA57000042234361285000123403516NANA2438381895000225413712NA2在命令窗窗口输入入:mdata回回车,看这个例例子所用用的数据据。其中中NA在在R中标标记缺失失数据。。实际应用用中,用用户还需需要掌握握与R交交换数据据的技术术,把自自己的数数据输入入到R形形成例子子中的mdata数据据框,把把计算出出来的相相关系数数矩阵存存成外部部文件。。*建议初初次接触触R的读读者首先先花一个个学时,,通过在在R中作练习,学学习李东东风老师师的在线入门门讲义前半部分分(至《《输入输输出》一一节)。。R中的“缺失模模式”报告注意语句句>s<<-prelim..norm(mdata)##dopreliminarymanipulations输入s回车车看这个个预处理理的结果果[,1]][,,2][[,3][[,4]][,,5]1411111410111111011110011311101111001111100[,1]][[,2]][[,,3][[,4][[,5]][1,]]-0.53008882-0.63531440-0.1731410--0..8248034--1.1088319[2,]]0.410391341.058857330.67332600..11215610.6652991…[14,,]--0.188096030.332783731.09655951.7326544--0..2217664[15,,]--0.01709964NA--1.23122460.43300080..6652991…[18,,]2.12035526NA--1.65445810.57017361..5523647[19,,]2.291351652.38999225NA0.94216740..6652991[20,,]0.23939495NANA-0.7662143--0..2217664….R的MI方法与与sem包R的norm包包还提供供了应用用于一般般MI方方法的子子程序。。在命令令窗里输输入help((mi..inference)和help(imp.norm)看相相关的帮帮助。更更专业的的MI方方法软件件包是mitools。在R中分分析结构构方程模模型,需需要安装装运行sem程序包,,参考Fox,,J..(2006),StructuralequationmodelingwiiththesempackageinR.StructuralEquationModeling,13:465-486第二部分分:理论论背景与与方法比比较理念与现现状Rubin的理理论框架架EM、FIML、MI各自的的原理三种方法法对比无偏性与与效率软件界面面便利性性相互关系系实质性困困难现状:缺缺失数据据常见,,令人满满意的处处理报告告却罕见见最糟糕::修饰数数据为整整齐,不不报告缺缺失数据据差强人意意:报告告用列删删法(LD)、、对删法法(PD)、或或者单次次替算((SI))法专业水准准:采用用近年受受到推荐荐的FIML、、EM或或者MI方法不同报告告背后的的理念对对比整理修饰饰的数据据信息不完完整、形形式整齐齐含缺失的的原数据据形式不整整齐、信信息完整整影响专业业方法普普及的因因素软件界面面对方法法普及作作用最关关键最直接的的因素是是审稿人人的标准准--正正在变化化不理想的的方法并并不是在在所有情情况下都都必定导导致致命命错误不同缺失失模式的的实际例例子学生可能能因为漏漏交答题题纸而没没有成绩绩;* 可能能因为平平时作业业成绩优优秀被豁豁免参加加考试;;* 可能能因为某某一科发发挥太差差而放弃弃剩下科科目;**可可能因为为看到考考卷太难难而索性性交白卷卷Rubin经典典框架的的思路最大似然然估计是是否可以以不受缺缺失机制制影响??只要缺失模式式的概率率由模式式中观测测位的变变量值确确定,独独立于缺缺失位的的值IgnorableMissingMissingatRandom(MAR))MCARMNARMCAR,缺失失模式的的概率与与任何变变量值无无关MNAC,=NotMARMCAR、MNAR与与MAR关系系Expectation-Maximization((EM))算法的突突破:Rubin等人(1977)思想:已已知模型型参数时时可以反反过来计计算缺失失位置上上观测值值的分布布迭代/wikipedia/en/wiki/Expectation-maximization_algorithmMultipleImputation(MI)Rubin(1987)给出出MI算算法的关关键基础础需要抽样样多少次次?如何何汇总方方差估计计?思想:多多次抽样样,类似似蒙特卡卡罗法。与常见见的蒙特特卡罗法法相比,,MI需需要的抽抽样次数数很小。。MI抽样样环节是是否最大大似然法法则抽样样?是否否抽均值值估计点点?否!MI抽样样是随机机多次抽抽,每次次抽样之之间互相相独立。。不是只只抽取似似然函数数最大值值点。MI不是是将抽样样作平均均后代入入模型,,而是逐逐一代入入。SEM中中的FIML大约在1987年这个个方法成成熟了,在各软软件中的的具体实实现不尽尽相同思想把数据按按缺失模模式分组组,然后后在组内内建立子子模型应用SEM中的的多组模模型,约约束各组组的参数数相等。。SEM中中的比较较:估计的无无偏性与与效率EMFIMLMI对饱和模型是最大似然估计趋近最大似然估计,但要求样本量大非最大似然估计。但相对效率可以接近相等*最大似似然估计计意味着着最优效效率和MAR下下的无偏偏软件界面面的便利利性EMFIMLMI最方便;主流通用统计软件与主流SEM软件都有实现;而且便于添加辅助变量在主流SEM软件中有实现;但不方便添加辅助变量最不便。主流SEM软件中没有实现;需要配合其它软件使用但便于添加辅助变量相互关系系EMFIMLMI其特例MCEM中用到MI思想算法具体步骤可用到EM算法,参数初值可用EM估计抽样所需要的分布的初值可以用EM估计困难:缺少样本本量的调调整估计计拟合指标EMFIMLMI只能给出协方差矩阵离差F0,参数的标准误差上下界估计偏差太大只能给出似然比估计的p值,参数的标准误差估计优于EM目前有估计似然比p值的方法,但未有方便的软件实现;可以无偏地估计参数标准误差NO=??样本量量更大好好还是更更小好名义上的的样本量量对参数数的均值值估计、、拟合指指标F0没有影响响。协方方差与均均值就完完全决定定了这些些报告值值。样本越多多,协方方差和均均值估计计越精确确参数均方方误差估估计与输输入的样样本量直直接有关关;绝大大部分拟拟合指标标是F0和输入的的样本量量、模型型自由度度的函数数,因此此受输入入的样本本量影响响。用部分数数据计算算出的协协方差建建模,输输入全部部数据的的样本量量,会使使模型的的报告

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论