




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 统统 计计 学学 方方 法法 的的 分分 类类 与与 选选 择择根据研究设计类型选择分析方法根据研究设计类型选择分析方法 (一)、成组比较的设计 在成组比较设计中,若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行列表X2检验或分级的分析方法。(二)、配对(自身实验前后)设计 这种类型的设计需要按照配比的t检验,X2检验及配对的病例对照研究方法进行数据分析。 (三)、重复测量的设计 这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度,即为此类设计类型。对于这种设计类型的数
2、据需应用重复测量的方差分析方法进行数据的分析。(四)、多因素设计 若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。 根据变量的类型选择分析方法根据变量的类型选择分析方法n区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义,首先它有助于选择拟研究的变量,对调查表的设计具有指导作用。n其次数据分析阶段可以指导数据分析方法的选择及模型的建立。若因变量是分类变量,则常考虑应用分类变量的分析方法,如卡方检验,log
3、istic回归分析等。如果因变量是数值变量,则考虑应用数值变量的分析方法如t检验、方差分析,协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。 n因变量应该放在模型的左侧,自变量则放在模型的右侧。n例如欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析,在应用SAS进行分析时,要将血糖水平(因变量)放在模型的左则,而治疗方法或其它协变量(covariate)即性别、年龄和病程放在模型的右侧。又如分析脂蛋白(a)与冠心病发生的关系,则冠心病是否发生为因变量,脂
4、蛋白(a)则为自变量,不可颠倒这种关系。 不同变量类型的数据分析方法选择不同变量类型的数据分析方法选择因变量因变量自变量自变量数值变量数值变量分类变量分类变量有序变量有序变量数值变量数值变量相关分析,多元回相关分析,多元回归分析归分析t t检验检验, ,方差分析,方差分析,协方差分析,多协方差分析,多元回归分析元回归分析相关分析,多元回相关分析,多元回归分析归分析分类变量分类变量t t检验检验, ,方差分析,方差分析,logisticlogistic回归分回归分析析, ,判别分析,判别分析,聚类分析聚类分析c c2 2检验,检验,logisticlogistic回回归分析归分析c c2 2检验
5、检验有序变量有序变量方差分析,方差分析,logisticlogistic回归分回归分析析, ,判别分析,判别分析,聚类分析聚类分析c c2 2检验,检验,logisticlogistic回回归分析归分析相关分析,相关分析,c c2 2检验检验生存时间生存时间生存分析生存分析不同研究设计和数据类型的数据分析方法选择不同研究设计和数据类型的数据分析方法选择 研究设计类型研究设计类型变量类型变量类型两组比较两组比较两组以上比较两组以上比较实验前后比较实验前后比较重复测量重复测量两变量间的联系两变量间的联系重复测量的重复测量的方 差 分方 差 分析析线性回归,线性回归,Pearson相关系数相关系数
6、数值变量数值变量 t检验检验方差分析方差分析配对配对t检验检验 分类变量分类变量 c c2 2检验检验c c2 2检验检验配对配对c c2 2检验检验列联表相关系数列联表相关系数 有序变量有序变量Mann-Whitney秩 和 检秩 和 检验验Kruskal-Wallis分分析析Wilcoxon符号符号秩和检验秩和检验Spearman相关系相关系数数 生存时间生存时间生存分析生存分析数据的分析程序数据的分析程序 数据的转换数据的转换1 )非正态数据的变量转换 多数的统计学分析方法是建立在数据正态分布的基础上的,若数据不符合正态分布,则不能够应用参数检验(parametric test)的方法,
7、只能应用非参数检验(non-parametric test)的方法,而非参数的方法不是对原始数据的检验,如秩和检验就是非参数检验方法之一,它是对原始数据的秩次(rank)进行检验,这样可能损失数据信息,降低检验效率 n 在对数值变量进行分析时,需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检验,如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如SAS软件等 .若经过检验数据不符合使用条件,就需要进行数据的变量变换,变换后符合条件就可以应用参数检验的方法,否则,只有应用非参数检验的方法。n数据变量转换的方法很多,可以根据数据的分布特征,选
8、择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。 2) 分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值,但对于名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。 t t检验的应用条件检验的应用条件n两组数据的比较n1样本量比较小(n50)n2样本来自正态总体n3两样本总体方差齐同n当两样本方差不齐时可以采用t检验,变量变换,或者秩和检验。方差分析的应用条件方
9、差分析的应用条件n两组以上数据的比较n1各样本是相互独立的随机样本;n2各样本要来自正态总体;n3要求各个样本的总体方差齐同。多个样本均数间的两两比较多个样本均数间的两两比较nNewmanKeuls检验,亦称StudentNewmanKeuls(SNK)检验,简称q检验。n最小显著性差距(LSD)t检验。协方差分析协方差分析n定量分析中,进行两个样本或者多个样本的均数比较时,不仅需要使用假设检验判断其差异是否具有统计学差异,还应该考虑他们之间是否存在混杂因素(协变量)的影响。若存在协变量,则应该通过协方差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段 影响观察指标的其他非研究性
10、因素(混杂因素)在统计分析中又称之为协变量;考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法,它将线性回归与方差分析结合起来,检验2个或者多个修正均数之间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系,求得修假定协变量相等时的修正系数,然后用方差分析比较修正均数间的差别。协方差分析的条件协方差分析的条件1各个样本来自方差齐同的正态总体2各组的总体直线回归系数相同,且都不为0。协方差分析的判别步骤:协方差分析的判别步骤:n1正态性和方差齐性检验;n2判断协变量与因变量有无线性关系;n3判断各组回归直线是否平行。直线回归与相关的区别与
11、联系直线回归与相关的区别与联系区别直线相关直线回归变量地位变量 x 变量 y 处于平等的地位,彼此相关关系变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化变量性质所涉及的变量 x 和 y 都是随机变量,要求两个变量服从双变量正态分布因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量实际作用主要是描述两个变量之间线性关系的密切程度(相关系数无单位)揭示变量 x 对变量 y 的影响大小(回归系数有单位),还可以由回归方程进行预测和控制 多元线性回归的基本概念多元线性回归的基本概念 事物间的相互联系往往是多方面的,在很多情况下对应变量y 发生影响
12、的自变量往往不止一个 。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系。mmiixbxbxbxbby 22110标准偏回归系数表示其他自变量固定的情况下,xi改变一个单位,y平均改变bi个单位。多元线性回归的应用条件:多元线性回归的应用条件:n1. 独立性:各观察对象间相互独立。n2. 线性:自变量与应变量间的关系为线性。n3. 正态性:自变量取不同值时,应变量的分布为正态。n4. 方差齐性:自变量取不同值时,应变量的总体方差相等。n5. 当不符合条件时,可对自变量进行变换。 如:23322110)lg(xbxbxbbyn要比较各个自变量对于应变量的作用大小,不
13、能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数.n消除不同单位的影响后,标准偏回归系数的绝对值越大,该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。(2) 对各偏回归系数的显著性检验: F检验与 t检验 1. 计算截距和各偏回归系数。2. 多元回归方程的显著性检验:(1)整个方程的显著性检验:用方差分析。STEPWISE REGRESSIONn一逐步回归分析的基本概念 逐步回归分析的目的是建立“最优”回归方程。 “最优”回归方程是指包含所有对y有显著作用的自变量,而不包含对y作用不显著的自变量的方程。 逐步回归分析的计算方
14、法逐步回归分析的计算方法n 在供选的自变量Xi中,按其对y的作用大小,由大到小地把自变量逐个引入方程, 每引入一个自变量就对它作显著性检验,显著时才引入,而当新的自变量进入方程后, 对方程中原有的自变量也要作检验,并把作用最小且退化为不显著的自变量逐个剔出方程。因此,逐步回归的每一步(引入一个变量或剔除一个变量都称为一步)前后都要作显著性检验,以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去, 直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。 逐步回归分析在医学研究中的应用逐步回归分析在医学研究中的应用及需要注意的几个问题及需要注意的几个问题n1方程
15、“最优”问题,实际是精选自变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。n2逐步回归主要在医学中用于病因探索,临床疗效分析及控制等。n3线性回归模型要注意正态性,方差齐性和独立性,因变量必须是随机变量等。n4入选变量如果明显地与实际问题的专业理论不一致时,首先检查数据是否有异常点,自变量间有无共线性存在,数据输入是否有误等,要结合专业知识作出合理的解释。n5逐步回归在对大量因素进行分析时,可以先进行聚类分析,然后进行逐步回归。通常,观察单位取变量值的510倍为宜。LogisticL
16、ogistic回归分析的基本思想回归分析的基本思想回忆:回忆: 线性回归分析对因变量的要求线性回归分析对因变量的要求因变量因变量y 连续型连续型 服从正态分布服从正态分布胆固醇含量胆固醇含量自变量自变量x数值型数值型 与与Y呈线性关系呈线性关系年龄年龄舒张压舒张压医学研究中经常遇到分类型变量,例如:医学研究中经常遇到分类型变量,例如:n二分类变量:二分类变量:生存与死亡生存与死亡有病与无病有病与无病有效与无效有效与无效感染与未感染感染与未感染n多分类有序变量:多分类有序变量:疾病程度(轻度、中度、重度)疾病程度(轻度、中度、重度)治愈效果(治愈、显效、好转、无效)治愈效果(治愈、显效、好转、无
17、效)n多分类无序变量:多分类无序变量:手术方法(手术方法(A、B、C)就诊医院(甲、乙、丙、丁)就诊医院(甲、乙、丙、丁)n这种回归分析问题不能借助于线性回归模这种回归分析问题不能借助于线性回归模型,因为因变量的假设条件遭到破坏。型,因为因变量的假设条件遭到破坏。n能否找到一种其他形式的模型能否找到一种其他形式的模型y=f(x)来描述来描述分类变量分类变量y和和x之间依存关系呢?之间依存关系呢? 因为从数学角度看,使得因为从数学角度看,使得x取任意值而取任意值而y仅仅 取取1和和0两个值的的函数不存在。两个值的的函数不存在。n转换为分析转换为分析y取取某个值的概率某个值的概率变量变量p与与x的
18、关系的关系不能直接分析不能直接分析变量变量y与与x的关系的关系Logistic回归模型回归模型LogisticLogistic回归分析的分类回归分析的分类n按数据的类型:按数据的类型:非条件非条件logistic回归分析(成组数据)回归分析(成组数据)条件条件logistic回归分析(配对病例回归分析(配对病例-对照数据)对照数据)n按因变量取值个数:按因变量取值个数:二值二值logistic回归分析回归分析多值多值logistic回归分析回归分析n按自变量个数:按自变量个数:一元一元logistic回归分析回归分析多元多元logistic回归分析回归分析 Logistic Logistic
19、回归分析回归分析的数学模型的数学模型1 1、一元、一元logisticlogistic回归模型回归模型 令令y是是1,0变量,变量, x是一个危险因是一个危险因 素;素;p=p(y=1|x) ,那么,二值,那么,二值 变量变量y关于变量关于变量 x的一元的一元logistic 回归模型是:回归模型是:10 xp0.5-/p=p(x)变量变量p与与x的关系的关系 其中,其中,和和是未知参数或待估计的回归系数。该模是未知参数或待估计的回归系数。该模型描述了型描述了y取某个值(这里取某个值(这里y=1)的概率的概率p与自变量与自变量x之间的关系之间的关系2 2、 多元多元logisticlogist
20、ic回归模型回归模型 令令y是是1,0变量,变量,x1,x2,xk是是k个危险因素;个危险因素; p=p(y=1|x1,x2,xk),那么,变量,那么,变量y关于变关于变 量量x1,x2,xk的的k元元logistic回归模型是:回归模型是:Logistic 回归模型的另外一种形式回归模型的另外一种形式它给出变量它给出变量z=logit(p)关于关于x 的线性函数。的线性函数。参数估计的步骤参数估计的步骤 1数据结构 设有P个危险因素X1,X2,Xn及结果分析变量Y,观察例数为n。进行logistic回归时,应将原始资料进行整理,一般格式如下编号因素YX1X2XP1X11X12XP1Y12X2
21、1X22XP2Y2nXn1Xn2Xn3XnPYn 2 参数的估计 Logsitc回归的参数估计常用最大似然估计法。其基本思想是先建立似然函数和对数似然函数,求似然函数或对数似然函数达到极大值时参数的取值,即为参数的最大似然估计值。可求出值。 3 假设检验 求得各个参数的估计值之后,并不意味着每个因素都与因变量有联系,模型中应只保留对因变量有影响 因素,因此要求对方程中的各变量逐一进行检验,剔除对因变量无影响的因素,并对拟和的模型进行检验。 即使用似然比检验法,通过逐步回归筛选自变量,最后得到具有统计学意义的logistic回归方程。该过程很复杂,由计算机完成。n医学中经常需要作配对病例医学中经常需要作配对病例-对照研究。所谓的配对病例对照研究。所谓的配对病例-对照研究指的是在病例对照研究指的是在病例-对照研究中,对每一个病例配以对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个性别、年龄或其它条件相似的一个(1:1)或几个或几个(1:M)对照,对照,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年超低频传感器标定系统项目合作计划书
- 2025年汽车级珠光材料合作协议书
- 化工管道施工规范
- 2025年旅游景区开发运营项目建议书
- 2025年特种铜合金材料项目发展计划
- 心脏内科临床操作指南
- 2025年导电银浆合作协议书
- 学校教育工作总结
- 护理工作工作量统计
- 2025年甾体药物项目构思建设方案
- 电梯安全管理人员测试习题和答案
- 2025年黑龙江省水利投资集团有限公司招聘笔试参考题库含答案解析
- 2025年c语言高级面试题及答案
- 2025年辽宁生态工程职业学院单招职业技能考试题库及答案1套
- 留置导尿管常见问题及相关的护理措施课件
- 中国威海房地产行业市场前景预测及投资价值评估分析报告
- 5-1《阿Q正传》(公开课一等奖创新教学设计)-高二语文同步教学(选择性必修下册)
- JJF 2207-2025医用空气系统校准规范
- 氢能与燃料电池技术 课件 4-储氢技术
- 2025年康复科多学科协作计划
- 2025年河南地矿职业学院单招职业技能测试题库(各地真题)
评论
0/150
提交评论