外文科技文献及翻译SAS统计分析软件和Logistic回归_第1页
外文科技文献及翻译SAS统计分析软件和Logistic回归_第2页
外文科技文献及翻译SAS统计分析软件和Logistic回归_第3页
外文科技文献及翻译SAS统计分析软件和Logistic回归_第4页
外文科技文献及翻译SAS统计分析软件和Logistic回归_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、百度文库-好好学习,天天向上 SAS统计分析软件和Logisti回归1概况:SAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为版,大小约为1G。经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国,能熟练使用SAS

2、进行统计分析是许多公司和科研机构选材的条件之一。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。在此仅举一例如下:在以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也不行!由此可见SAS的权威地位。SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASESAS模块。BASESAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也

3、就是说,SAS系统的运行,首先必须启动BASESAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。SAS系统具有灵活的功能扩展接口和强大的功能模块,在BASESAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS

4、/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。SAS有一个智能型绘图系统,不仅能绘各种统计图,还能绘出地图SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。2操作方式:SAS是由大型机系统发展而来,其核心操作方式就是程序驱动,经过多年的发展,现在已成为一套完整的计算机语言,其用户界面也充分体现了这一特点:它采用MDI(多文档界面),用户在PGM视窗中输入程序,分析结果以文

5、本的形式在0UTPUT视窗中输出。使用程序方式,用户可以完成所有需要做的工作,包括统计分析、预测、建模和模拟抽样等。但是,这使得初学者在使用SAS时必须要学习SAS语言,入门比较困难。SAS的Windows版本根据不同的用户群开发了几种图形操作界面,这些图形操作界面各有特点,使用时非常方便。但是由于国内介绍他们的文献不多,并且也不是SAS推广的重点,因此还不为绝大多数人所了解。SAS系统基本操作及基本概念:数据集(dataset)和库:统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中oSAS中的库分为永久性和临时性两种。顾名思义,存在

6、于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个存放数据集的目录。数据集的结构完全等同于我们一般所理解的数据表,由字段和记录所构成,在统计学中我们习惯将字段称为变量,在后面的内容中字段和变量我们就理解为同一种东西吧!建立数据集的方法很多,编程操作中有专门的数据读入方法来建立数据集,但需要将数据现场录入,费时费力。如果数据量大,我劝各位还是先以其它方法将数据集建好,否则程序语句的绝大部分会浪费在数据的输入上。SAS程序概述:和其它计算机语言一样,SAS语言(称为SCL语言,SASComponen

7、tLanguage)也有其专有的词汇(即关键字)和语法。关键字、名字、特殊字符和运算符等按照语法规则排列组成SAS语句,而执行完整功能的若干个SAS语句就构成了SAS程序。SAS程序包括多个步骤和一些控制语句,一般情况下均包括数据步和过程步,一个或多个、数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行(SAS每看到一个分号,就将其以前、上一个分号以后的所有东东当作一条语句来处理,而不管他们处

8、在多少个不同的行中)SAS语句对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。Logistic回归:Logistic回归是一类统计模型称为广义线性模型。这一模型包括单一回归,包括普通的回归和方差分析,以及多元统计等变数和对数线性回归。一个很好使用线性模型的例子为莱斯蒂。Logistic回归允许一个预测离散成果,如组成员,来自于一组变量,可能是连续的,离散的,二分,或混合任何这些。一般情况下,因变量是二分变量,如在场/缺席或成功/失败。判别分析是用来预测组成员只有两个群体。然而,判别分析只能用连续独立变量。因此,在独立的变量是一个绝对的,或混合的连续和明确情况,Logistic回归

9、是首选。模型:因变量的logistic回归通常是二分变量,就是因变量值为1是事件发生,值为0是事件不发生。这种类型的变量被称为伯努利(或二元)变量。虽然不是常见的,也不是在事件中讨论,应用Logistic回归也已扩大到情况下,因变量是两个以上的情况下,这种情况被称为多项式或多级Tabachnick和费德尔(1996年)使用的术语polychotomous。如前所述,独立的或预测变量Logistic回归可以采取任何形式。也就是说,Logistic回归是不作任何假设的分布的独立变量。他们不必正态分布,线性关系或平等的差额在每个组之间的关系,预测和因变量不是一个线性函数的logistic回归,代替他

10、的是,Logistic回归函数的使用是对数函数的变换:百度文库-好好学习,天天向上百度文库-好好学习,天天向上 - Q-e(a+卩lxl+卩2x2+卩pxp)1十e(a+卩1X1+卩2x2+卩pxp)这里Q=截距项,0=自变量的预测系数。另一种形式的Logistic回归方程为:log0(x)二log一e(x)1=a+0 x+0 x+.+0 x1-1-0(x)1122ppLogistic回归的目的是正确预测出一个模型,这个模型适用与大哥事件发生概率的预测。为了实现这一目标,建立一个模型,这个模型包括一个因变量和多个自变量,多个自变量被用于预测因变量的结果。在模型建立过程中几个不同的选择被利用。变

11、量在指定的顺序可进入模型由研究员或logistic回归可以测试适合的模式后,每一个系数为增加或删除,呼吁逐步回归。逐步回归被使用在研究探索阶段,但我们不建议用于理论测试(梅纳尔1995年)。理论测试是测试各个变量之间关系的变数。探索性测试是测试给定观测值各个变量之间的关系,因此,逐步回归的目标是发现因变量与各个自变量之间的关系。向后逐步回归似乎是首选方法探索分析,在分析,首先是全部或饱和模型和变量排除在模型中的一个反复的过程。合适的模型进行测试后,消除每个变量,以确保该模型仍能充分符合数据.当没有变量可以从模型中删除时,整个统计分析工作就完成了。这里是logistic回归的两种主要用途。首先是

12、预测组成员。由于Logistic回归计算概率或失败之上的概率,分析结果是以优势率形式进行的。例如,Logistic回归经常被用于流行病学研究,分析结果是在控制其他的风险因素前提下啦预测癌症的发病率。Logistic回归还提供了变量之间关系的只是(例如,吸10包烟癌症的发病率将高于你在棉矿中工作的癌症发病率)。这个过程,系数测试几个不同的技术,所有这些将在下文讨论。Wald检验:Wald检验是用来测试的统计意义的每一个自变量的系数(B)在该模型中是否是为0。Wald检验计算的Z是通过以下的公式得出的:Z=BSEZ值再平方,产生了瓦尔德统计与卡方分布。然而,一些作者已查明了使用Wald检验的缺陷。

13、梅纳(1995)警告说,系数不变,标准误差增大,降低了Wald统计值。莱斯蒂指出,最大似然度对于大规模样本要比使用Wald测试更有效。最大似然度检验:最大似然使用的比例,以最大化的价值,似然函数为充分模型(L1)的最大化价值的似然函数的简单的模型(L0)。的似然比检验统计量等于:-2log0)=-2log(L)-log(L)-2(L-L)L10101这个记录的可能性转变职能产生的卡方统计。这是推荐的检验统计时使用的模式,通过建设落后的逐步消除。霍斯默-Lemshow拟合优度检验:该霍斯默-Lemshow统计评估拟合优度,创造10命令群体的主题,然后比较实际的人数在各组(观察)的数量预测的Log

14、istic回归模型(预测)。因此,检验统计量是卡方统计与理想的结果非意义,这表明该模型预测并没有显着不同的观察。排列的10个团体的基础上创建自己的估计概率;那些估计概率低于形成一组,依此类推,直至与概率至。每一类又分为两组,根据实际观察到的结果变量(成功,失败)。预期的频率为每一个细胞都得到模式是好的,那么大多数的主题成功属于较高风险和那些失败的风险较低。科技外文文献SASStatisticalAnalysisSoftwareAndLogisticRegressionI.Overview:SASiscalledtheStatisticsAnalysisSystem,thefirstfromth

15、eUniversityofNorthCarolinastwopost-graduatepreparationofbiostatistics,andin1976theInstituteofSASsoftwareisestablishede,theformalSASsoftwarelaunched.SASisalarge-scaledecisionsupportforintegratedinformationsystems,butthesoftwaresystemfunctionslimitedtothefirststatisticalanalysis,sincethestatisticalana

16、lysisisstillanimportantpartofitscorefunctionality.thecurrentSASversionisversion,thesizeisabout1G.Afteryearsofdevelopment,SAShasbeenaroundmorethan120countriesandregions,nearly30,000institutionsthathaveadirectusersoverthreemillionpeople,acrossthefinancial,medicalandhealth,production,transport,communic

17、ations,governmentandeducationandscientificresearch.InBritainandtheUnitedStatesandothercountries,skilledusingSASforstatisticalanalysisistheconditionsformanycompaniesandresearchinstitutionsselection.Indataprocessingandstatisticalanalysis,SASsystemknownastheinternationalstandardsoftwaresystems,andin969

18、7yearshasbeenselectedasthefirstchoicefortheestablishmentofadatabaseproduct.SASiscalledtheBigMacstatisticalsoftwaresector.Theotherexampleofthisisasfollows:inaharshstrictworld-famous.FDAdrugapprovalprocess,thestatisticalanalysisofthedrugtestresultsiscarriedoutSASandothersoftwarewillbevoided!Evenasimpl

19、eandstandarddeviationarevoid!ThisshowstheauthorityoftheSAS.SASisacombinationofSASsoftwaresystem,whichisacombinationofmultiplefunctionalmodules,thebasicpartofBASESASmodule.BASESASmoduleisthecoreoftheSASsystem,whichassumethemaintaskofdatamanagementandusermanagementenvironmentfortheconductoftheuserofla

20、nguageprocessing,calltheotherSASmodulesandproducts.Inotherwords,SASsystems,westarttheBASESASmodule,whichinadditionhasitsowndatamanagement,programmingandcomputingdescriptivestatistics,theSASsystemorthecentraldispatchingroom.Itcanstandalone,butalsowithotherproductsormodulestogetherformacompletesystem.

21、Eachmodulecanbeinstalledandupdatedthroughtheinstallationprocessveryeasy.SASsystemhasaflexibleinterfaceandpowerfulextensionofthefunctionalmodulesinthebasisofBASESAS,youcanaddthefollowingdifferentmodulesandavarietyofnewfeatures:SAS/STAT(statisticalanalysismodule),SAS/GRAPH(graphicsmodule),SAS/QC(quali

22、tycontrolmodule),SAS/ETS(Econometricandtimeseriesanalysismodule),SAS/OR(operationsresearchmodule),SAS/IML(interactivematrixprogramminglanguagemodule),SAS/FSP(fastdata-processingmoduleoftheinteractivemenusystem),SAS/AF(interactivefull-screenapplicationsystemsoftwaremodules)andsoon.SAShasaintelligentd

23、rawingsystem,itnotonlypaintedavarietyofcharts,butalsodrawthemap.SASprovidesawiderangeofstatisticalprocess,eachprocesscontainsagreatdealofanyoption.Userscansetaseriesofdataprocessingtorealizemorecomplexstatisticalanalysis.Inaddition,SASalsooffersavarietyofprobabilityanalysisfunction,quantilefunction,

24、thesamplestatisticsfunctionsandrandomnumbergeneratorfunction,sothatuserscanrequesteasilyspecialstatistics.2.operationSASwasdevelopedfromthemainframesystem,thecoreoperationistheprocess-driven,aftermanyyearsofdevelopment,SAShasnowbecomeacompletesetofcomputerlanguage,anditsuserinterfaceisalsofullyembod

25、iedthecharacteristics:ItusesMDI(MultipleDocumentinterface),theuserinputprograminthePGMwindow,theresultsoftheanalysisintheformoftextoutputintheOUTPUTwindow.usingtheprogram,userscancompleteallthework,includingstatisticalanalysis,forecasting,modelingandsimulation,samplingandsoon.However,thismakesthebeg

26、innerstolearnSASlanguage,entryismoredifficult.TheWindowsSASversionaccordtodifferentusergroupstodevelopanumberofgraphicaluserinterface,graphicaluserinterfaceofthesedifferentcharacteristics,useveryconvenient.However,duetolimit,andnottopromotethefocusofSAS,sothevastmajorityofpeopledonotunderstand.basic

27、operationandbasicconceptsofSASDataset(dataset)andthedatabaseStatisticsarefortheoperationofthedata,fileswhichisfilledwithSAShecapacityasthedatasets,datasetsalsoincludedindifferentlibrary(forthetimebeingitunderstoodasadatabase).SASinthelibraryisdividedintotwotypesofpermanentandte

28、mporary.Asthenamesuggests,theexistenceofapermanentlibraryinthedatasetispermanent(aslongasyoudonotdeleteit),temporarylibraryinthedatasetsfromtheSASyouautomaticallybedeleted.AsfortheconceptofSASinthedatabase,thesimplesttounderstandisadirectory,adirectoryofstoreddatasets.Thestructureofadatasetexactlyth

29、esameasournormalunderstandingofdatatables,fieldsandrecordsbythecomposition,inthestatisticalfield,weusedtobeknownasthevariablecontentinthebackofthefieldandweunderstandthevariablesforthesamekindsofthingsnow!Theestablishmentofadatasetofthemanywaysintheprogrammingoperationofthedatareadintothespecialized

30、approachtotheestablishmentofadataset,butthesceneneedstobedataentry,time-consumingandlaborious.Iftheamountofdata,andIadviseyouortoothermethodstodatasetswillbecompleted,otherwisetheprocesswillbeawasteofthevastmajorityofstatementsintheinputdataSASlanguageAndothercomputerlanguages,SASLanguage(knownasthe

31、SCLlanguage,SASComponentLanguage)alsohasitsproprietaryterms(iekeywords)andgrammar.Keywords,names,specialcharactersandoperators,suchasthecompositioninaccordancewiththegrammarruleswithSASstatements,andtheimplementationofthefullfunctionalityofanumberofSASstatementsconstitutetheSASprocedure.SASprocedure

32、s,includinganumberofstepsandanumberofcontrolstatements,thegeneralcase,includingdataandprocessstep-by-stepstep-by-step,oneormore,thedatastep-by-steporstep-by-stepprocess,inanyformbetweenthemmaybecomeasectionofacombinationofSASprocedures,aslongastheycanbecompletedacompletefunction.SASproceduresusually

33、includeanumberofthewholestatement,tocontrolproceduresthroughouttheSASsomeoptions,variableorprogramenvironment.SASproceduresbeginskeywordandendssemicolon,astatementcanbeaccountedmulti-line(SASseeasemicolon,itwillbethepast,afterasemicolonSASwilltakeastatementtoprocess,regardlessoftheirnumberindifferen

34、tlines).SASstatementsonthecaseinsensitiveletters,youmaydecideaccordingtopersonalhabitsoftheupperorlowercaseletters.RegressionLogisticregressionispartofacategoryofstatisticalmodelscalledgeneralizedlinearmodels.ThisbroadclassofmodelsincludesordinaryregressionandANOVA,aswellasmultivariatestatisticssuch

35、asANCOVAandloglinearregression.AnexcellenttreatmentofgeneralizedlinearmodelsispresentedinAgresti(1996).Logisticregressionallowsonetopredictadiscreteoutcome,suchasgroupmembership,fromasetofvariablesthatmaybecontinuous,discrete,dichotomous,oramixofanyofthese.Generally,thedependentorresponsevariableisd

36、ichotomous,suchaspresence/absenceorsuccess/failure.Discriminantanalysisisalsousedtopredictgroupmembershipwithonlytwogroups.However,discriminantanalysiscanonlybeusedwithcontinuousindependentvariables.Thus,ininstanceswheretheindependentvariablesareacategorical,oramixofcontinuousandcategorical,logistic

37、regressionispreferred.TheModel:Thedependentvariableinlogisticregressionisusuallydichotomous,thatis,thedependentvariablecantakethevalue1withaprobabilityofsuccess0,orthevalue0withprobabilityoffailure1-0.ThistypeofvariableiscalledaBernoulli(orbinary)variable.Althoughnotascommonandnotdiscussedinthistrea

38、tment,applicationsoflogisticregressionhavealsobeenextendedtocaseswherethedependentvariableisofmorethantwocases,knownasmultinomialorpolytomousTabachnickandFidell(1996)usethetermpolychotomous.百度文库-好好学习,天天向上百度文库-好好学习,天天向上- #- Asmentionedpreviously,theindependentorpredictorvariablesinlogisticregressionc

39、antakeanyform.Thatis,logisticregressionmakesnoassumptionaboutthedistributionoftheindependentvariables.Theydonothavetobenormallydistributed,linearlyrelatedorofequalvariancewithineachrelationshipbetweenthepredictorandresponsevariablesisnotalinearfunctioninlogisticregression,instead,thelogisticregressi

40、onfunctionisused,whichisthelogittransformationof0:0=e(a+卩ixi+卩2x2+-+卩pxp)1+e(a+卩ixi+卩2x2+卩pxp)Wherea=theconstantoftheequationand,卩=thecoefficientofthepredictorvariables.Analternativeformofthelogisticregressionequationis:log0(x)=log=a+卩x+卩x+.+卩xL1-0(x)1122ppThegoaloflogisticregressionistocorrectlypre

41、dictthecategoryofoutcomeforindividualcasesusingthemostparsimoniousmodel.Toaccomplishthisgoal,amodeliscreatedthatincludesallpredictorvariablesthatareusefulinpredictingtheresponsevariable.Severaldifferentoptionsareavailableduringmodelcreation.Variablescanbeenteredintothemodelintheorderspecifiedbythere

42、searcherorlogisticregressioncantestthefitofthemodelaftereachcoefficientisaddedordeleted,calledstepwiseregression.Stepwiseregressionisusedintheexploratoryphaseofresearchbutitisnotrecommendedfortheorytesting(Menard1995).Theorytestingisthetestingofa-prioritheoriesorhypothesesoftherelationshipsbetweenva

43、riables.Exploratorytestingmakesnoa-prioriassumptionsregardingtherelationshipsbetweenthevariables,thusthegoalistodiscoverrelationships.Backwardstepwiseregressionappearstobethepreferredmethodofexploratoryanalyses,wheretheanalysisbeginswithafullorsaturatedmodelandvariablesareeliminatedfromthemodelinani

44、terativeprocess.Thefitofthemodelistestedaftertheeliminationofeachvariabletoensurethatthemodelstilladequatelyfitsthenomorevariablescanbeeliminatedfromthemodel,theanalysishasbeencompleted.Therearetwomainusesoflogisticregression.Thefirstisthepredictionofgroupmembership.Sincelogisticregressioncalculates

45、theprobabilityorsuccessovertheprobabilityoffailure,theresultsoftheanalysisareintheformofanoddsratio.Forexample,logisticregressionisoftenusedinepidemiologicalstudieswheretheresultoftheanalysisistheprobabilityofdevelopingcanceraftercontrollingforotherassociatedrisks.Logisticregressionalsoprovidesknowl

46、edgeoftherelationshipsandstrengthsamongthevariables.,smoking10packsadayputsyouatahigherriskfordevelopingcancerthanworkinginanasbestosmine).Theprocessbywhichcoefficientsaretestedforsignificanceforinclusionoreliminationfromthemodelinvolvesseveraldifferenttechniques.Eachofthesewillbediscussedbelow.WaldTest:AWaldtestisusedtotestthestatisticalsignificanceofeachcoefficient(卩)inthemodel.AWaldtestcalculatesaZstatistic,whichis:Z=BS.EThiszvalueisthensquared,yieldingaWaldstatisticwithachi-squaredistributio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论