




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、现场调查数据分析共40页课程安排第一讲:现场调查技术概述(设计) (2学时)第二讲:现场调查问卷设计 (2学时)第三讲:现场调查的抽样技术 (2学时)第四讲:现场调查的访谈技巧 (4学时)第五讲:现场调查问卷的数据管理 (4学时)第六讲:现场调查数据的处理与分析技术(4学时)第七讲:现场调查的实施与质量控制技术(2学时)第八讲:现场调查中的综合评价方法 (2学时)第九讲:现场调查研究报告的撰写方法 (2学时) 现场调查数据的处理分析 Survey Data Analysis寇长贵(讲师)Tel:ail: koucg流行病与卫生统计学教研室吉林大学公共卫生学院主要内
2、容常用统计学软件介绍调查数据的分析策略Logistic回归介绍实习书上的:P226P232统计应调查人数、实际调查人数,描述漏查率和应答率;0102 胃癌深度级别对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比)如发病与不发病,死与活,成功与失败,阳性与阴性, 等等。6321 0.X5 1.+1.或按疾病有无描述暴露的构成比;血色素每减少1g/L: e0.y=ln(P/(1-P)= -2.0102 0.数据库102(课件文件夹)0210 0.研究设计设计“问卷”实施调查收集数据分析资料结果解
3、释撰写论文分析数据数据录入数据管理 Epi Info SAS STATASPSSEpiCalc数据分析常用统计分析软件SASSAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。缺点:高昂的价格 、不太友好的界面、非统计学专业人员不容易上手! STATAStata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)
4、研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。SPSSSPSS是软件
5、英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。最近,伴随SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已决定将之英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在作出重大调整。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;
6、其输出结果虽然漂亮,但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题Epi Info v3.3/epiinfo/downloads.htm开发:(1)WHO的AIDS病全球控制小组 (2)CDC流行病学室 免费获得 (1) (2)http:/www.epiinfo.it/epiinfo3.asp 最新版本: Epi InfoTM Version3.3 基本流程空白调查表编 码建立调查表(.Qes)Make View生成数据库生成逻辑检查文件(.Chk)CheckData1Data2原始资料比较修改Enter (.Rec)双重输入V
7、alidationAnalyze统计分析Epi Info v3.当应变量只取二个数值时常记为1与0,在SAS的logistic回归中最好记成1与2。书上的:P226P232它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。统计调查人群的总体指标,根据数据类型,分别描述总体的患病率、感染率等频率指标,或总体计量数据的集中和离散趋势指标(均数标准差、百分位数等);X5 1.缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;在队列研究中用于预测:把各协变量代入方程,得到P值,即发病的概率。(2)CDC流行病学室选择合适的数据管理与分析软件0
8、00186 0.指标 偏回归系数 标准误 P值 标准偏回归系数第一讲:现场调查技术概述(设计) (2学时)这些都可以说是SPSS的致命伤。y=ln(P/(1-P)= -2.选择合适的数据管理与分析软件SAS、SPSS、Epi-Info、STATA录入后数据的检查错误,遗漏的研究变量取值采取补救措施更改,再次询问,查阅档案,重新检测调查数据的分析策略数据的检查与核对检查数据的结构观测数,变量名称、数量检查各变量的取值情况取值范围数值变量最小值(minimum), 最大值(maximum) 均值(mean),中位数( median),发现异常值( outlier)分类变量其它发现异常的方法:图示法
9、,回归诊断等调查数据的分析策略数据的整理数据的分组分类变量/有序变量按照实际的类别进行分组若有必要和合理,可将性质相近的类别合并数值变量按照实际的生理,病理,临床和公共卫生意义分组分位数分组四分位数(quartiles),五分位数(quintiles)使用的方便程度/专业惯例分组例:年龄在某一适宜范围内每5或10岁一组调查数据的分析策略数据的转换非正态数据的变量转换正态性(normality)检验Univariate过程Q-Q plot对数、平方根和倒数变换分类变量转换为哑变量数据的整理调查数据的分析策略确定拟分析的自变量和因变量研究设计阶段有助于选择拟研究的变量,指导问卷设计调查数据的分析策
10、略普查数据分析思路统计应调查人数、实际调查人数,描述漏查率和应答率;描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。计数资料采用构成比(百分比)描述,计量资料采用均数标准差描述;统计调查人群的总体指标,根据数据类型,分别描述总体的患病率、感染率等频率指标,或总体计量数据的集中和离散趋势指标(均数标准差、百分位数等);按社会人口学特征或暴露与否分组,统计、描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。抽样调查数据分析思路 一般描述:包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。统计描述:计算有关统计指标,包括患病率、感
11、染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述。关联分析:对暴露和疾病的关系可作初步的关联分析如计量资料的比较采用t检验或方差分析(ANOVA),率的比较采用2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,关联的统计推断采用2检验或Logistic回归分析。 Logistic回归 Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败
12、,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0,在SAS的logistic回归中最好记成1与2。Y=1: 反应,如: 发病,死亡,成功Y=2:不反应,如:不发病,存活,不成功Y:反应变量(response variable)X: 协变量(covariate),解释(explanatory)变量,伴随变量等,X可以呈现二值变量的形式,也可以计量的或等级的指标。logistic回归是一种概率模型。设P为Y呈现反应值为1的概率,P=P(Y=1),则Q=1-P,为呈现非反应值的概率,Q=P(Y=2)。P与各协变量Xi之间的关系可用下式表示。 Logistic回归 发病的概率:P=exp(b0
13、+b1x1+bmxm)/1+exp(b0+b1x1+bmxm)不发病的概率: Q=1-P=1/1+exp(b0+b1x1+bmxm) P/(1-P)=exp(b0+b1x1+bmxm)定义y=lnP/(1-P)为logit变换,它是比数的自然对数值,则有 y=lnp/(1-p)= b0+b1x1+bmxm Logistic回归 Logistic回归和多元回归一样,也可用逐步剔选的方法选择变量,使方程内变量都显著,方程外变量都不显著,称为逐步Logistic回归。 Logistic回归模型既适用于队列研究,又适用于病例对照研究,也适用于现况调查。Logistic回归 Logistic回归的应用在
14、队列研究中用于预测:把各协变量代入方程,得到P值,即发病的概率。因素关联分析:分析哪些因素(协变量)对疾病的发生有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比)比较各因素对于发病的相对重要性:比较各标准化偏回归系数bi绝对值的大小,绝对值大的对发病的作用也大。Logistic回归 如某因素Xi的偏回归系数为bi, 1) 则该因素Xi对于发病的比数比为exp(bi)(1) 当Xi为二值变量时,如吸烟(1=吸,0=不吸) exp(bi)为吸烟对于发病的比数比(OR)Logistic
15、回归 2)当Xi为等级变量时,如吸烟(0=不吸,1=少量, 2=中等,3=大量)。 exp(bi)为每增加一个等级,发病的相对危险度如大量对于不吸其发病的相对危险度为: exp(3bi)3) 当Xi为连续变量时,如年龄(岁) exp(bi)为每增加一岁时,发病的相对危险度如60岁相对于35岁其发病的相对危险度为exp(25bi)Logistic回归 指标 偏回归系数 标准误 P值 标准偏回归系数常数项 -2.8770 2.0954 0.1697 . X3C 2.2844 1.0210 0.0253 0.519452 X5 1.0102 0.3147 0.0013 0.931773 X6 1.6321 0.5449 0.0027 0.837360 X8 -0.5764 0.1874 0.0021 -0.917033 X9 0.000386 0.000186 0.0384 0.392918Logistic回归 各指标的相对危险度:大体类型为浸润对于非浸润3年内死亡的相对危险度为: e2.2844=9.82胃癌深度级别每增加1级: e1.0102=2.75淋巴结转移级别每增加1级: e1.6321=5.11血色素每减少1g/L: e0.5764=1.78白细胞数每增加1000个/mm3:e0.386 =1.47Logistic回归 从标准偏回归系数的绝对值大小可得:胃癌深度级
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态环保教育活动策划计划
- 学期总结与未来工作设想计划
- 财务报告中常见的误区及防范计划
- 年度工作计划的制订与执行
- 职场中的人际关系处理计划
- 公司战略与年度计划的切割与总结
- 中小学生日记与作文的训练方法
- 企业文化在市场拓展中的作用研究
- 互联网金融的风险与防范
- 第01讲 化学给我们带来什么-新九年级化学暑假课(沪教版)(解析版)
- EXCEL宏编程简明教程(有实例)
- 高低压开关柜安装检验记录
- 益生菌精品课件
- 一级公司向二级公司授权管理制度
- 沃尔玛全国的分布
- (自考)财务管理学完整版课件全套ppt教程(最新)
- 第四纪地质与环境:第十一章 第四纪气候变迁及其动力机制
- 小学生心理健康讲座-(精)
- 蝴蝶豌豆花(课堂PPT)
- 数独6×6初级打印版
- 口腔修复学-第七章-牙列缺失的全口义齿修复
评论
0/150
提交评论