现场调查数据分析演示文稿_第1页
现场调查数据分析演示文稿_第2页
现场调查数据分析演示文稿_第3页
现场调查数据分析演示文稿_第4页
现场调查数据分析演示文稿_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现场调查数据分析演示文稿当前1页,总共37页。(优选)第六讲现场调查数据分析当前2页,总共37页。现场调查数据的处理分析

SurveyDataAnalysis寇长贵(讲师)Tel行病与卫生统计学教研室吉林大学公共卫生学院当前3页,总共37页。主要内容常用统计学软件介绍调查数据的分析策略Logistic回归介绍实习当前4页,总共37页。研究设计设计“问卷”实施调查收集数据分析资料结果解释撰写论文分析数据数据录入数据管理……当前5页,总共37页。

EpiInfoSASSTATASPSSEpiCalc……数据分析常用统计分析软件当前6页,总共37页。SAS当前7页,总共37页。SAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。缺点:高昂的价格、不太友好的界面、非统计学专业人员不容易上手!

当前8页,总共37页。STATA当前9页,总共37页。Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(ComputerResourceCenter)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。当前10页,总共37页。SPSS当前11页,总共37页。SPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。最近,伴随SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已决定将之英文全称更改为StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在作出重大调整。

20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;其输出结果虽然漂亮,但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题当前12页,总共37页。EpiInfov3.3当前13页,总共37页。开发:(1)WHO的AIDS病全球控制小组(2)CDC流行病学室免费获得(2)最新版本:EpiInfoTMVersion3.3当前14页,总共37页。基本流程空白调查表编码建立调查表(.Qes)MakeView生成数据库生成逻辑检查文件(.Chk)CheckData1Data2原始资料比较修改Enter(.Rec)双重输入ValidationAnalyze统计分析当前15页,总共37页。当前16页,总共37页。当前17页,总共37页。当前18页,总共37页。当前19页,总共37页。当前20页,总共37页。当前21页,总共37页。选择合适的数据管理与分析软件SAS、SPSS、Epi-Info、STATA录入后数据的检查错误,遗漏的研究变量取值采取补救措施更改,再次询问,查阅档案,重新检测调查数据的分析策略当前22页,总共37页。数据的检查与核对检查数据的结构观测数,变量名称、数量检查各变量的取值情况取值范围数值变量最小值(minimum),最大值(maximum)均值(mean),中位数(median),发现异常值(outlier)分类变量其它发现异常的方法:图示法,回归诊断等调查数据的分析策略当前23页,总共37页。数据的整理数据的分组分类变量/有序变量按照实际的类别进行分组若有必要和合理,可将性质相近的类别合并数值变量按照实际的生理,病理,临床和公共卫生意义分组分位数分组四分位数(quartiles),五分位数(quintiles)使用的方便程度/专业惯例分组例:年龄在某一适宜范围内每5或10岁一组调查数据的分析策略当前24页,总共37页。数据的转换非正态数据的变量转换正态性(normality)检验Univariate过程Q-Qplot对数、平方根和倒数变换分类变量转换为哑变量数据的整理调查数据的分析策略当前25页,总共37页。确定拟分析的自变量和因变量研究设计阶段有助于选择拟研究的变量,指导问卷设计调查数据的分析策略当前26页,总共37页。普查数据分析思路统计应调查人数、实际调查人数,描述漏查率和应答率;描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。计数资料采用构成比(百分比)描述,计量资料采用均数±标准差描述;统计调查人群的总体指标,根据数据类型,分别描述总体的患病率、感染率等频率指标,或总体计量数据的集中和离散趋势指标(均数±标准差、百分位数等);按社会人口学特征或暴露与否分组,统计、描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。当前27页,总共37页。抽样调查数据分析思路一般描述:包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。统计描述:计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述。关联分析:对暴露和疾病的关系可作初步的关联分析如计量资料的比较采用t检验或方差分析(ANOVA),率的比较采用χ2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,关联的统计推断采用χ2检验或Logistic回归分析。当前28页,总共37页。Logistic回归Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性,等等。当应变量只取二个数值时常记为1与0,在SAS的logistic回归中最好记成1与2。Y=1:反应,如:发病,死亡,成功Y=2:不反应,如:不发病,存活,不成功当前29页,总共37页。Y:反应变量(responsevariable)X:协变量(covariate),解释(explanatory)变量,伴随变量等,X可以呈现二值变量的形式,也可以计量的或等级的指标。logistic回归是一种概率模型。设P为Y呈现反应值为1的概率,P=P(Y=1),则Q=1-P,为呈现非反应值的概率,Q=P(Y=2)。P与各协变量Xi之间的关系可用下式表示。

Logistic回归当前30页,总共37页。发病的概率:

P=[exp(b0+b1x1+…+bmxm)]/[1+exp(b0+b1x1+…+bmxm)]不发病的概率:

Q=1-P=1/[1+exp(b0+b1x1+…+bmxm)]P/(1-P)=exp(b0+b1x1+…+bmxm)定义y=ln[P/(1-P)]为logit变换,它是比数的自然对数值,则有

y=ln[p/(1-p)]=b0+b1x1+…+bmxm

Logistic回归当前31页,总共37页。Logistic回归和多元回归一样,也可用逐步剔选的方法选择变量,使方程内变量都显著,方程外变量都不显著,称为逐步Logistic回归。Logistic回归模型既适用于队列研究,又适用于病例对照研究,也适用于现况调查。Logistic回归当前32页,总共37页。Logistic回归的应用在队列研究中用于预测:把各协变量代入方程,得到P值,即发病的概率。因素关联分析:分析哪些因素(协变量)对疾病的发生有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比)比较各因素对于发病的相对重要性:比较各标准化偏回归系数bi绝对值的大小,绝对值大的对发病的作用也大。Logistic回归当前33页,总共37页。如某因素Xi的偏回归系数为bi,

1)则该因素Xi对于发病的比数比为exp(bi)(1)当Xi为二值变量时,如吸烟(1=吸,0=不吸)exp(bi)为吸烟对于发病的比数比(OR)Logistic回归当前34页,总共37页。2)当Xi为等级变量时,如吸烟(0=不吸,1=少量,2=中等,3=大量)。

exp(bi)为每增加一个等级,发病的相对危险度如大量对于不吸其发病的相对危险度为:exp(3bi)3)当Xi为连续变量时,如年龄(岁)

exp(bi)为每增加一岁时,发病的相对危险度如60岁相对于35岁其发病的相对危险度为exp(25bi)Logistic回归当前35页,总共37页。

指标偏回归系数标准误P值标准偏回归系数常数项-2.87702.09540.1697.X3C2.28441.02100.02530.519452X51.01020.31470.00130.931773X61.63210.54490.00270.837360X8-0.57640.18740.0021-0.917033X90.0003860.0001860.03840.392918Logistic回归当前36页,总共37页。各指标的相对危险度:大体类型为浸润对于非浸润3年内死亡的相对危险度为:e2.2844=9.82

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论