如何选用统计学方法PPT幻灯片_第1页
如何选用统计学方法PPT幻灯片_第2页
如何选用统计学方法PPT幻灯片_第3页
如何选用统计学方法PPT幻灯片_第4页
如何选用统计学方法PPT幻灯片_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原始数据的记录形式

原始数据的记录形式

原始数据中,变量分为标识变量和分析变量两种。1.标识变量主要用于数据管理,包括数据的核对与增删等,是研究记录中不可缺少的内容,如上表中的“病人编号”和“病案号”即为标识变量。2.分析变量则是数据分析的主要内容,上表中除上述2个标识变量外,其它9个变量均为分析变量。分析变量又被分为反应变量(responsevariable)和解释变量(explanatoryvariable)。反应变量是表示试验效应或观察结果大小的变量或指标。解释变量又称指示变量(indicator)、分组变量(groupingvariable)、分类变量(categoricalvariable)、协变量等。根据研究目的以及变量间的相互关系,各变量的作用并非一成不变。

原始数据的录入

在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:1.数据库文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;2.文本文件,如word文件、WPS文件等;3.统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数据文件等。目前,上述文件类型绝大多数都可以相互转换。录入数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,例如,下图是前表原始数据录入为SPSS数据文件(数据.sav)的形式,录入时,用数值变量取代了字符变量(如图中的“性别”,“肾毒性”,“黄疸”,“昏迷”),可以大大节约录入的时间和费用。(如将性别标记为1=“男”,0=“女”)。数据处理中的几个基本问题2.离群数据的处理当个别数据与群体数据严重偏离时,被称为离群数据(outlier)或极端数据(extremevalue)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,例如,SPSS软件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点;观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。

若有离群数据出现,可分为两种情况处理:一种是,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如此,又无法再找到该病例时,显然这是一个错误的记录,只能删除。另一种是,若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。数据处理中的几个基本问题3.统计方法前提条件的检验:应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。如果要用正态分布法估计参考值范围,首先要检验资料是否服从正态分布。在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。

统计方法选择的基本思路

数据处理中,正确选择统计方法至关重要。选择统计方法可以沿着以下思路进行。第一个层面,看反应变量是单变量、双变量还是多变量。对于前者,第二个层面看属于三种资料类型中的哪一种;第三个层面看单因素还是多因素;第四个层面看单样本、两样本或多样本;第五个层面看是否是配对或配伍设计;第六个层面看是否满足检验方法所需的前提条件。

单变量计量资料的分析

1.样本均数与总体均数比较分析思路为:反应变量为单变量→计量资料→单因素→样本均数与总体均数比较→如果服从正态分布,选用样本均数与总体均数比较的t检验(one-samplet-test);如果不服从正态分布,则考虑用非参数检验方法。2.两个相关样本均数的比较分析思路为:反应变量为单变量→计量资料→单因素→两个相关样本均数比较(因为是配对设计)。如果差值服从正态分布,选用配对t检验(pairedt-test);如果差值不服从正态分布,选用单样本秩和检验(Wilcoxonone-sampletest)。3.两个独立样本均数比较

分析思路为:反应变量为单变量→计量资料→单因素→两个独立样本均数比较。如果方差齐性,且两样本均服从正态分布,选用两样本t检验(two-samplet-test);如果方差不齐,但两样本均服从正态分布,选用t’检验,或两样本秩和检验(Wilcoxontwo-sampletest/Mann-Whitneytest);如果方差不齐,且两样本不服从正态分布,选用两样本秩和检验。本例选两样本t检验。

单变量计量资料的分析4.多个样本均数比较

应变量为单变量,又属计量资料时,多个样本均数比较分为单因素和多因素两种情形。而重复测量资料则被视为多个反应变量的类型。(1)单因素方差分析:若方差齐性,且各样本均服从正态分布,选单因素方差分析(one-wayANOVA);若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验(Kruskal-Wallistest)。若方差分析或秩和检验结果显著,需进一步做多重比较,如SNK法,LSD法,扩展t检验等。(2)两因素方差分析但不分析交互作用:主要是随机区组设计资料,涉及2个因素,即1个处理因素和1个区组因素。如果满足方差齐性和正态分布两个条件,选用两因素方差分析(two-wayANOVA),如果不满足上述两个条件,选用随机区组设计资料的Friedman秩和检验(Friedmantest)。单变量计量资料的分析(3)三因素方差分析但不分析交互作用:主要有拉丁方设计和二阶段交叉设计两种资料类型。对于拉丁方设计资料,涉及3个因素,即1个处理因素和2个区组因素;对于二阶段交叉设计资料,3个因素分别为处理因素、受试者和试验阶段。如果满足方差齐性和正态分布两个条件,拉丁方设计可选用三因素方差分析(three-wayANOVA),如例4-5;二阶段交叉设计可选用广义线性模型的方差分析,如例4-6。如果不满足上述两个条件,选用非参数方法(参见有关文献)。若对处理因素的方差分析或秩和检验结果显著,均需进一步做多重比较。

单变量计量资料的分析(4)多因素方差分析且分析交互作用:此类资料包括析因设计资料(例11-2),正交设计资料(例11-4),嵌套设计资料(例11-6),裂区设计资料(例11-7)等。(5)重复测量资料:单因素重复测量只有1个重复测量因素,如表12-3的数据。多因素重复测量除有1个重复测量因素外,至少还有1个其它处理因素,可分析交互作用,如例12-3。

单变量计数资料的分析

单变量等级资料的分析

若为两组配对等级资料的比较,选Wilcoxon单样本秩和检验;若为两组独立样本等级资料的比较,选Wilcoxon两样本样本秩和检验;若为多组独立样本等级资料的比较,选Kruskal-Wallis秩和检验。

双变量资料的分析

1.简单相关分析

分析两变量的相关关系时,若两变量满足二元正态分布,可选Pearson积矩相关分析(Pearsoncorrelation);若两变量不满足二元正态分布,可选Spearman秩相关分析(Spearmancorrelation)。2.线性回归分析

分析两变量的回归关系时,若两变量关系呈线性趋势,可选简单线性回归分析(linearregression)。3.曲线回归分析

分析两变量的回归关系时,若两变量关系呈曲线趋势,可按曲线类型选指数曲线,多项式曲线,生长曲线,Logistic曲线等。也可选用非线性回归分析方法。多变量资料的分析

1.有应变量的多元分析

若应变量Y为数值型随机变量,且服从正态分布,自变量满足多元正态分布,可选多元回归分析或多元逐步回归分析因变量Y为分类变量(二分类或多分类),且以判别分类为主要目的,自变量满足多元正态分布,可选判别分析或逐步判别分析。若因变量Y为生存时间,并含有截尾数据,可选Cox模型做生存分析,

若因变量Y为二分类变量或多分类变量,且

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论