医学科研数据统计分析策略课件_第1页
医学科研数据统计分析策略课件_第2页
医学科研数据统计分析策略课件_第3页
医学科研数据统计分析策略课件_第4页
医学科研数据统计分析策略课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1医学科研数据统计分析策略郑州大学公共卫生学院 张卫东教授2医学科研数据分析前的准备工作医学科研数据分析方法的选择医学科研数据分析中存在的问题3一、数据分析前要的准备工作1. 原始数据的检查 错误,遗漏的研究变量 采取补救措施更改,再次询问,查阅档案,重新检测2. 选择合适的数据管理与分析软件 数据管理软件EpidataMicrosoft AcessMicrosoft Excel 数据分析软件SASSPSSEpi-InfoSTATA 通常应用数据管理软件管理数据,应用数据分析软件分析数据563. 数据的计算机录入 给每一个问卷或研究对象编码 识别录入的数据与问卷或研究对象的对应关系,方便以后对

2、输入数据的检查、核对与修改错误 给输入的变量定义名称 中文 拼音 英文:gender (sex), age, height (ht), weight(wt) 变量取值的数量化7 字符型 (character type) 日期型 (date type) 数值型 (numerical type) 数值变量和有序变量 (ordinal variable) 分类变量(categorical variable) 先按照类别编码数量化,如编码为1,2,3,4, 多因素分析模型中转换为哑变量 (dummy variable) 建议除日期型变量外,尽量设计为数值型84. 数据的检查与核对 检查数据的结构 观测

3、数,变量名称、数量 检查各变量的取值情况 取值范围 数值变量 最小值(minimum), 最大值(maximum) 均值(mean),中位数( median),发现异常值( outlier) Proc means n mean median min max data=?;var x1 x2 x3; run; 分类变量列表法、图示法,回归诊断95. 数据的整理 数据的分组 分类变量/有序变量 按照实际的类别进行分组 若有必要和合理,可将性质相近的类别合并 数值变量 按照实际的生理,病理,临床和公共卫生意义分组 分位数分组 四分位数(quartiles),五分位数(quintiles) 使用的方便

4、程度/专业惯例分组 例:年龄在某一适宜范围内每5或10岁一组种族原变量取值(x1)新变量X1_1X1_2X1_3X1_4White10000Black21000Hispanic30100Asian-pacific40010Others5000110 数据的转换非正态数据的变量转换 正态性(normality)检验 对数、平方根和倒数变换分类变量转换为哑变量与分析有关的新变量的产生116. 确定拟分析的自变量(independentvariable)和因变量(dependent variable) 研究设计阶段有助于选择拟研究的变量,指导问卷设计 数据分析阶段指导数据分析方法的选择 因变量是分类

5、变量 因变量是数值变量 建立正确的统计学分析模型 不同教育水平糖尿病病人的血糖控制效果:消除性别、年龄、治疗方法(饮食、口服药物、胰岛素) HbA1C=教育水平、治疗方法、性别、年龄12proc glm data=? noprint;class edu type sex ;model HbA1C=edu typesex age/SS3;Lsmean type/pdiff stderr;run; quit;157.缺失数据(missing data)的处理 缺失数据是指其测量结果缺失 在问卷调查时遗漏出生日期和年龄,调查结束后又无法补救而使个别研究对象的年龄成为缺失数据;血脂或血糖因为血清量不足

6、或研究对象拒绝采血而导致某些研究对象实验室的检测结果成为缺失数据 分析时仅用无任何缺失数据的样本进行分析,或是对缺失数据进行合理的赋值,但这些均具有不合理的一面。因为前者损失了样本量,后者则是在不知其取值情况下进行人为的赋值16现在的数据分析处理件软能够很好地处理这个问题,如SAS软件。SAS可以自动分析处理具有缺失数据的样本,如一个数据库中有性别和年龄等变量,性别有10个缺失数据,年龄有3个缺失数据,则在分析性别时SAS会不包括这10个个体,分析年龄时则不包括缺失年龄的3个个体,当在分析中(如多因素分析)共同使用了性别和年龄这两个变量,则分析的实际样本数量是性别和年龄这两个变量均不含缺失数据

7、的样本221.根据变量的类型选择变量的类型数值变量,numerical (continuous) variable分类变量,categorical (nominal) variable有序变量,ordinal variable生存时间,survival variable二、医学科研数据数据分析方法的选择指南17二、医学科研数据数据分析方法的选择指南1.根据变量的类型选择18192.根据研究设计类型选择成组比较的设计若是两组比较需要应用t检验或2检验多组比较需应用方差分析、行列表2检验配对(自身实验前后)设计配比的t检验,2检验及配对的病例对照研究方法进行数据分析20 重复测量的设计 这类设计方

8、法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度,即为此类设计类型 应用重复测量的方差分析方法进行数据的分析ValueTime21多因素设计若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归

9、,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择例 某地区随机抽取12名贫血儿童的家庭,实行健康教育干预三个月,干预前后儿童的血红蛋白(%)测量结果如表所示,试问干预前后该地区贫血儿童血红蛋白(%)平均水平有无变化? 变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归 ,Pearson相关系

10、数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择 配对设计两样本均数t检验 配对设计有两种情况:(1) 自身配对:同一对象接受两种处理,如同一标本用两种方法进行检验,同一患者接受两种处理方法;(2) 异体配对:将条件相近的实验对象配对 例4-4 某妇产医院的研究者欲探索孕妇在孕期补充钙制剂对血清骨钙素(ng/ml)的影响,选取孕妇的年龄、基础骨钙素值接近,孕周在26-28周的30名孕妇,随机分成两组

11、,每组15人。试验组孕妇补充选定的某种钙制剂,对照组孕妇采用传统膳食。产后40-50天内测定两组孕妇血清骨钙素的改变值(产后骨钙素和产前骨钙素的差值),结果如下:试验组:10.2,8.9,10.1,9.2,-0.8,10.6,6.5,11.2,9.3,8.0,10.7,9.5,12.7,14.4,11.9对照组:5.0,6.7,-1.4,4.0,7.1,-0.6,2.8,4.3,3.7,5.8,4.6,6.0,4.1,5.1,4.7问孕期补钙和传统膳食的产妇骨钙素改变值的总体均数差别有无统计学意义? 变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分

12、析配对t检验重复测量的方差分析线 性 回 归 ,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析244.不同研究设计和数据类型的数据分析方法选择2.4 两样本均数比较的t检验 t检验对两样本均数进行比较时,要求原始数据满足以下三个条件: 独立性(independence):各观察值间是相互独立的,不能相互影响; 正态性(normality):两组均数比较时,要求两组数据服从正态分布;配对设计时,要求差值服从正态分布。可用正态性

13、检验来确认。 方差齐性(homogeneity):两样本所对应的正态总体的方差相等,可由方差齐性检验来认定。 如果两样本方差齐性检验认为两总体方差不等t检验就不适用,此时须用t 检验 例5-1:为研究钙离子对体重的影响作用,某研究者将36只肥胖模型大白鼠随机分为三组,每组12只,分别给予高脂正常剂量钙(0.5%)、高脂中剂量钙(1.0%)和高脂高剂量钙(1.5%)三种不同的饲料,喂养9周,测其喂养前后体重的差值。问三组不同喂养方式下大白鼠体重改变是否不同?如表5-1所示。 变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分

14、析线 性 回 归 ,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择 基本概念完全随机化设计单因素设计 研究对象随机地分配到各处理组,各组分别接受不同的处理,比较各组均数之间的差别有无统计学意义,推断处理因素的效应。应用条件:符合正态分布且方差齐单因素方差分析(one-way classification ANOVA)不符合正态分布或/和方差不齐变量变换或选择非参数检验法(Kru

15、skal-Wills H检验)。 完全随机设计单因素方差分析其结果如下:变异组间变异组内变异SSMSF值P值S Y.X方差分析结果:2.2.2 均数两两比较首先进入单因素方差分析对话框,显示如下: 单击Means单击OK返回上一级窗口单击OK即显示结果 字母相同,无差异字母不同,有差异例5-2 为探索丹参对肢体缺血再灌注损伤的影响,将30只纯种新西兰实验用大白兔,按窝别相同分为10个区组。每个区组的3只大白兔随机接受三种不同的处理,即在松止血带前分别给予丹参2ml/kg、丹参1ml/kg、生理盐水2ml/kg,并分别测定松止血带前及松后1小时后血中白蛋白含量(g/L),算出白蛋白的减少量如表5

16、-2所示。问三种处理效果是否不同?3种处理因素 每因素10个数据集名为eg5_23 随机区组设计两因素方差分析应用条件与单因素相同 存在总的变异。A: 不同区组差异无统计学意义,B: 三种不同的处理组差异有统计学意义。 结果显示有相同字母的两均数之间比较的差异无统计学意义,不同水平下均数由大到小排列,结果在左侧显示字母不同,有统计学意义 5.2 两组重复测量 例5-5 某研究者欲研究青光眼结膜成纤维细胞增殖表达情况,在某医院随机抽取了20例青光眼患者和24例对照,取两组研究对象眼角膜细胞进行培养,分别在3、6、9、12天四个时间点观察平均细胞数(表5-6)。变量类型研究设计类型两组比较两组以上

17、比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归 ,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择主效应交互作用重复测量方差分析例7-4 为了研究与糖尿病患者脂联素相关的因素,某医师收集了30名确诊的糖尿病患者的相关资料,见表7-2,包括体重指数BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/ml)、空腹血糖FPG(

18、mmol/L)、脂联素ADI(ng/ml),试分析糖尿病患者脂联素相关因素。变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归 ,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择参数估计及检验 BMI、LEP偏回归系数均为负值,有显著性,脂联素随瘦素和体重指数的增加而减小,LEP、BMI标准化

19、回归系数的绝对值分别为0.52548、0.3622,瘦素对脂联素的影响大于体重指数;脂联素回归方程为:利用此回归方程可以根据每位糖尿病患者的瘦素和体重指数对其脂联素进行点估计。 偏回归系数标准化回归系数多元线性回归分析 回归分析前提条件(1)线性(linear):应变量与自变量呈线性变化趋势,用偏回归图、残差图判断;(2)独立性(independence):个体间相互独立,通过专业知识和经验来判断,也可计算Durbin-Watson 统计量,取值04,在2附近认为满足独立性;(3)正态性(normality):X为某一定值时,应变量Y服从正态分布,即残差服从正态分布,通过残差图或正态概率图考察

20、;(4)等方差(equal variance):各X水平下Y的总体变异相同,通过残差图判断。 例:在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺用亚硝胺向鼻腔滴注(鼻注组),另一组在鼻注基础上加注维生素B12,实验结果见下表。问两组发癌率的差别有无统计学意义?表8-1 二乙基亚硝胺诱发大白鼠鼻咽癌实验结果变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归 ,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量Mann-Whitney 秩和检验Kruskal-Wallis

21、分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择四格表2检验 四格表2检验的应用条件: 四个格子的理论数T5且四个格子的合计n40。四格表校正2检验 当1T5, n40时,需计算校正2值。四格表Fisher的精确概率检验 当n40或有T ChiSq:P值; Point Estimate:比值比的点估计值95% Confidence Limits:比值比的95%可信区间上限和下限Logistic回归例1 某研究者收集了两组急性淋巴细胞白血病患者治疗后的随访资料,淋巴细胞浸润组(LA)18人,无淋巴细胞浸润组(NLA)25

22、人,生存时间数据如下,不带“”者表示已经死亡,即完全数据,带“”者表示尚存活,即删失数据。试作生存分析。生存时间单位为月。LA组: 1,2,3,4,5,7,8,9,10,11,13,14,15,18,19+,20+,21+,23NLA组: 1,2,3,4,5,7,8,9,10,11,13,14,15,18,19,20+,21,23,26,28,31,37,66,73,124+变量类型研究设计类型两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线 性 回 归 ,Pearson相关系数分类变量2 检验2 检验2配对 检验列联表相关系数有序变量

23、Mann-Whitney 秩和检验Kruskal-Wallis分析Wilcoxon 符号秩和检验Spearman 相关系数生存时间生存分析243.不同研究设计和数据类型的数据分析方法选择 LA(1)与NLA(2)组急性淋巴细胞白血病患者生存曲线 生存分析-生存率比较例10-3 30例大肠癌患者手术后生存资料见表9-3。术后生存时间time以月为单位,status表示随访结局(status1表示病例死亡,为完全数据;status0表示病例失访或尚存活,为删失数据)3个协变量分别为:性别sex(sex0表示女,sex1表示男)、年龄age(岁)和确诊到进行手术的时间dtime(月)。试进行Cox回归分析,找出影响患者生存的因素。 timestatussexagedtimetimestatussexagedtimetimestatussexagedtime61066233110581016115687106721411053919

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论