医学常用统计学方法及SPSS应用_第1页
医学常用统计学方法及SPSS应用_第2页
医学常用统计学方法及SPSS应用_第3页
医学常用统计学方法及SPSS应用_第4页
医学常用统计学方法及SPSS应用_第5页
已阅读5页,还剩179页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学常用统计学方法及SPSS应用杨土保 医学博士中南大学公共卫生学院 副院长流行病与卫生统计学系 教 授2008-09-18内容概要医学科研中的基本统计学概念医学数据的收集与整理医学数据的统计方法选择与SPSS实现 医学科研中常见统计错误医学科研中的基本过程 设计 实施 结果分析报告实验 调查 实验室 现场 论文 总结报告研究设计 调查设计 专业设计设计 实验设计 统计设计 科研设计统计设计专业设计选题、研究方法、对象、指标、质控 抽样、样本、分组、分析方法总体与样本1.总体: 有限总体 无限总体2.样本: 随机样本 非随机样本 医学科研的基本统计学概念sampling总体样本资料的分类与分布

2、类型计量资料:测定每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。例如:身高资料、体重、血压、脉搏、呼吸、常见的生化指标资料统计分析方法的选用与资料类型密切联系 计数资料(enumeration data):将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。 二分类(binary variable):如性别、生死、疾病有无;多分类(multiply variable):如A、B、O、AB血型。等级资料:将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到

3、的资料。其变量值具有半定量性质,表现为等级大小或属性程度。 例如:观察用某药治疗某病患者的疗效,以每名患者为观察单位,结果可分为治愈、显效、好转、无效四级。 表1 108例高血压患者治疗后的临床记录患者编号 年龄(岁) 性别 治疗分组 收缩压 舒张压 心电图 疗效平定 (BH) (X1) (X2) (X3) (X4) (X5) (X6) (X7) 1 37 男 A药 18.67 11.47 正常 治愈 2 45 女 对照 20.00 12.57 正常 有效 3 43 女 B药 17.33 10.93 异常 有效 . . . . . . . . 108 55 女 B药 16.80 11.56 正

4、常 无效资料的分布类型对称分布偏态分布不同分布类型,需要不同的统计方法医学科研常用研究方法 描述性观察法 分析性 临床试验实验法 现场试验 实验室研究病例报告现况研究生态学研究病例对照研究队列研究医学科研常用研究方法观察性研究:研究中不加人为的干预(处理)因素例如: 隐孢子虫病合并肠道细菌感染的临床观察 癌症放疗患者生活质量调查分析 糖尿病预防治疗的费用效益分析 某医院院内感染现状及其影响因素分析 冠心病危险因素的病例对照研究 实验研究:人为施加干预措施例如:水红花子提取物的抗氧化活性益元口服液对辐射损伤小鼠辅助防护的作用益赛普治疗强直性脊柱炎的多中心、随机临床试验 卡托普利早期应用对心肌梗死

5、患者远期病死率影响的随机临床试验 临床医学科研设计分类设计方案病因研究随机对照试验、前瞻性队列研究、病例对照研究临床疗效评估随机对照试验、自身前后对照、交叉研究诊断试验评估与标准诊断(金指标)相对照预后和自然病程评估队列研究疾病在人群中的定量分布横断面研究特殊病例描述和介绍病例报告、病例分析目标人群代表性样本DE在相同时间内 暴露结局现况研究示意图DN目标人群代表性样本YE时间顺序 暴露结局YN队列研究示意图时间病例组对照组研究开始暴露暴露非暴露非暴露调查方向病例对照研究研究原理示意图随机对照试验(RCT)目标人群随机抽样研究对象试验组对照组随机分配阳性阴性阳性阴性临床试验示意图诊断试验示意图

6、医学科研常用研究方法设计类型完全随机设计方法分组方法:先将120名高血脂患者从1开始到120编号;从随机数字表中的任一行任一列开始,如第5行第7列开始,依次读取三位数作为一个随机数录于编号下,见表第二行;然后将全部随机数从小到大编序号(数据相同的按先后顺序编序号),将每个随机数对应的序号记在表第三行;规定序号1-30为甲组,序号31-60为乙组,序号61-90为丙组,序号91-120为丁组,见下表第四行随机区组设计方法 如按随机区组设计,分配5个区组的15只小白鼠接受甲、乙、丙三种抗癌药物? 方法为先将小白鼠的体重从轻到重编号,体重相近的3只小白鼠配成一个区组,在随机数字表中任选一行一列开始的

7、2位数作为1个随机数,如从第8行第3列开始纪录;在每个区组内将随机数按大小排序;各区组中内序号为1 的接受甲药、序号为2的接受乙药、序号为3的接受丙药,分配结果见下表 医学科研数据的收集与整理临床医学数据的基本要求1、准确性2、完整性3、及时性医学科研数据的收集与整理数据的收集来源: 医院常规登记、监测、记录资料(如门诊、住院记录) 专题研究资料(调查数据、实验室检测数据等) 文献数据(如医院报表、已发表论文数据):在循证医学研究中应用。医学科研数据的收集与整理数据的收集方式:1、信访2、电话3、现场询问(包括实验检测记录)医学科研数据的收集与整理临床科研数据的检查、核对 1、内容:调查项目记

8、录的完整性; 数字错误检查; 逻辑检查 2、方式:手工检查 计算机核查医学科研数据中的误差、偏倚及其控制误差、偏倚的概念误差(error):实际值与真值之差; 样本指标与总体指标之差非抽样误差(系统误差):仪器未校正、测量者偏差、标准不统一(偏高或偏低)引起的误差。 偏倚:观察性研究组间不可比引起的系统误差。抽样误差(随机误差):排除系统误差后存在的、由抽样引起的误差。系统误差的来源之一 1)来自被观察者(研究对象) 2)来自研究者 3)来自实验条件系统误差的来源之二 1)设计阶段: 研究对象的总体范围界定不清楚; 研究项目定义不明确; 研究指标选择不恰当; 研究过程中的具体环节考虑不周2)调

9、查阶段 调查者的工作态度与素质; 调查对象是否配合; 调查过程中的质量控制;3)整理与分析阶段 编码过录错误; 汇总、计算中的重复与遗漏;医学科研中常见偏倚(bias)偏倚:歪曲研究结果真实性和可靠性的主要原因选择偏倚:因选择研究对象的方法存在问题而使研究结果偏离真实的情况 1、入院率偏倚 2、现患-新发病例偏倚 3、无应答偏倚信息偏倚(错误分类偏倚):收集研究对象的(暴露、结局)资料时引起的系统误差1、诊断怀疑偏倚2、暴露怀疑偏倚3、回忆偏倚混杂偏倚:某因素既与所研究的疾病有联系,又与所研究的因素有关,由于该因素的存在掩盖或夸大所研究的因素与疾病之间的联系的现象 发生在分析阶段医学科研中常见

10、偏倚的控制选择偏倚的控制1、了解偏倚的来源,在设计中加以避免;2、设立多组对照,多来源选择对象;3、尽量选择新病例;4、设法提高研究对象的应答率信息偏倚的控制1、盲法收集资料;2、尽量收集客观指标的资料;3、收集资料的范围可适当放宽;4、严格调查设计、树立良好的科学态度混杂偏倚的控制1、匹配设计2、标准化3、分层分析4、多因素分析医学科研数据极端值的处理方法极端值:在实验中得到一组数据,往往个别数据离群较远,这一数据称为异常值,又称可疑值或极端值 处理方法: 法 Q 检验法 格鲁布(Grubbs) 法 (34)4与第1种方法所得结论不同 式中分子为异常值与其相邻的一个数值的差值,分母为整组数据

11、的极差。 Q 值越大,说明 Xn离群越远。 Q 称为“舍弃商”。统计学家已经计算出不同置信度时的 Q 值 ( 表 7 一 6) ,当计算所得 Q 值大于表中的 Q 值时,该异常值即应舍去。否则应于保留。 医学科研数据缺失值的处理方法缺失值处理方法:完全对象分析法complete-subject analysis):最简单,剔除有缺失值的记录,均数替代(mean substitute)最后观察值结转法(last observation carried forward, LOCF,该方法主要用于随访资料)期望最大化 (expectation maximization, EM)回归算法(regres

12、sion)多重填补法(multiple imputation, MI)。随机缺失(missing at random, MAR)和非随机缺失(missing not at random, MNAR)医学科研数据库的建立学生编号性别年龄(岁)身高(cm)体重(kg)收缩压(mmHg)舒张压(mmHg)龋齿沙眼贫血1男161645511876有无无2女111334012070有无有3男151575011668无有无4男91293813272无无无200女8953312471有无无医学科研数据的基本统计分析方法描述性统计分析:以统计表、统计图统计指标(如均数、标准差等)对资料的数量特征及其分布规律进

13、行测定和描述。推断性统计分析:如何由样本信息推断总体特征的问题。 参数估计:区间估计(95%CI) 假设检验:t,F,z检验等正确选择统计分析方法不同的研究目的与统计分析方法不同 比较组间所感兴趣结局的差异:例如比较两种药物的治疗效果是否有差异,宜采用优势检验(如t检验、u检验、方差分析等)。 若需要判断两种药物的治疗效果是否相同,或所研究的药物的效果不比对照药物差:采用非劣势检验或等效检验(equivalence test)。 若研究目的是要分析变量之间的相互关系:采用相关与回归分析。 研究事件(如疾病)与危险因素的关联:计算危险度(OR、RR、AR等)。正确选择统计分析方法不同设计类型采用

14、相应的统计分析方法 完全随机设计:对两组计量资料的比较:t检验、完全随机设计方差分析、Kruskal-Wallis 检验; 区组随机设计(或配对设计):配对t检验、区组随机设计的方差分析、Friedman 检验、kappa检验 正确选择统计分析方法不同类型的资料采用不同的统计分析方法计量资料的统计分析方法:t检验、u检验、方差分析、相关与回归分析 计数(人时、纯计数)资料的统计分析方法: 2检验、秩和检验、二项分布和Poission 分布、相关与回归分析 等级资料的统计分析方法:秩和检验 多元统计分析方法医学多元分析数学模型. 分析事物间相依关系. 对资料进行概括综合压缩紧凑;通过降维技术以减

15、少变量数目. 研究事物分类1.多元线性回归2.多元线性相关3.逐步回归4.典型相关分析5.岭回归分析6.Logistic回归7.COX回归8.对数线性模型9.判别分析.主成分分析.因子分析.典型相关分析.判别分析,逐步判别技术.聚类分析. 其他1.时间序列分析(有八种)2.随机过程3.MC-MC法MarckowMonte -carlo4. 趋势面分析描述性统计分析计量资料对称(正态)分布:均数、几何均数、中位数;标准差、极差、四分位间距、变异系数对数正态分布:几何均数;标准差(对数)偏态分布:中位数;极差、四分位间距 SPSS操作分析演示SPSS数据库 操作步骤 1. 建立数据文件“例02-0

16、1.sav”:将101例血清总胆固醇值输成101行1列变量的数值变量。 2. 从菜单中选择:通过“AnalyzeDescriptive StatisticsFrequencies”, 弹出频数分布分析“Frequencies”对话框。在左侧的源变量框中,选胆固醇变量,单击向右箭头,使其进入“Variable(s)”下面的矩形框中。3激活“Display frequency tables”按钮。4单击“Statistics”按钮,弹出“Statistics”对话框,激活要分析的统计量。5单击“Continue”按钮,返回到主 对话框。6单击“Charts”按钮,弹出“Charts”对话框,激活“

17、Histograms”和“With normal curve”按钮。7单击“Continue”按钮,返回到主 对话框。8单击“OK”按钮。计算有关统计量计数资料(含等级资料)常用的相对数指标相对数指标有三种类型:频率(frequency)构成比(proportion)相对比(relative ratio)描述性统计分析常用的相对数指标频率型指标 频率型指标是最常见的, 通常近似地反映某一事件出现的机会大小,如发病概率、死亡概率等 分子是分母的一部分;无量纲,在01范围内取值;K是比例基数,通常取为100%,也可取为1000、1万/1万和10万/10万等,根据习惯用法来决定。 常用的相对数指标例

18、3-3 在某医院的院内感染调查中,5031个病人共观察了127859人日(例均25.4日),其中有596人在医院发生感染, 医院感染率=596/127859=0.0047人/人日 意味着平均每天有0.47%的病人将在医院获得感染。 常用的相对数指标相对比型指标 相对比型指标是指任何两个相关联的变量A与B之比。它表示相对于B的一个(或十个、百个、千个等)单位,A有多少个单位。A和B可以是绝对数、相对数和平均数,A和B的量纲可以不同,也可相同,但A和B互不包含 相对比=A/B 最常见:男女性别比;每千人口的医生数、每千人口的病床数、每医生的门诊工作量常用的相对数指标应用相对数应注意的事项防止概念混

19、淆计算相对数时分母应有足够数量 正确地合并估计频率(或强度)型指标 相对数间的比较要具备可比性:观察的对象是否同质,研究的方法(如检测手段、抽样方法)是否相同,观察的时间是否一致等;被比较的总体是否具有可比性 对相对数的统计推断 统计表是表达统计分析结果中数据和统计指标的表格形式 统计图是用点、线、面等各种几何图形来形象化表达统计数据统计表与统计图统计表的内容(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容 (2)标目:横标目、纵标目,注意标明指标的单位(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表

20、格可再用横线将合计分隔开,或用横线将两重纵标目分割开。(4)数字:用阿拉伯数字表示。无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明1.简单表 统计表的主语只有一个层次统计表的种类表3 某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较2. 组合表 统计表的主语有两个以上层次表4 某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析编制统计表的注意事项 例:某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表5表5 不同心理分值的冠心病危险因素水平

21、比较 问 题将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中互不相容的内容分别占了不同的列,导致表中有许多空格纵横标目倒置内容较多,层次复杂,表格中数据罗列无条理,较难读懂表6 某年某地居民不同心理分值的冠心病危险因素水平比较(XS) 处理办法:将该表资料分别制成两个统计表,见表6和表7表7 某年某地居民不同心理分值的冠心病危险因素水平比较 1统计图的意义 2统计图的种类:常用的统计图有直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等,还有在数据探索性分析中应用的茎叶图、残差图、箱式图等 统计图统计图制作的一般原则 (1)根据资料性质和分析

22、目的正确选用适当的统计图 (2)必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题放在图的下方(3)统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜(4)统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置1直条图(bar chart) 用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种常用统计图图1 某年某地主要死因的死亡率(/10万

23、)2圆图和百分比条图 圆图是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例 百分比条图是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例圆图和百分比条图适合描述分类变量的构成比资料 图3 某年某地城市婴儿死因构成比 图4 20世纪70年代和80年代某地7常见恶性肿瘤发病构成比较 3线图(line graph) 线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势 普通线图:横轴和纵轴都是算术尺度。 半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度

24、的比较 图5 19902000年某沿海城市甲状腺功能亢进发病率变化趋势 图6 19972001年某地艾滋病和梅毒发病率的变化趋势(a)纵轴为算术尺度; (b) 纵轴为对数尺度。4直方图(histogram) 以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。 例 1997年某地共报告乙型病毒性脑炎104例,其年龄分布如表7图7 1997年某地乙型病毒性脑膜炎病例的年龄分布 5统计地图(statistical map) 统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布 例 调查广东省四会市鼻咽癌高发区1990-1999

25、年十年间鼻咽癌的发病数,按镇区用间接法计算标化发病比(SMR),标志在四会市行政地图上,见图8图8 1990-1999年某市鼻咽癌标化发病比的地区分布 1.计量资料单一总体均数的可信区间 推断性统计分析 例3-3 某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为1.20 mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。 故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47, 3.81)mmolL。 例3-4 为了解氨甲喋呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29例( ),采用安慰剂;实

26、验组32例( ),采用小剂量氨甲喋呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10 IU/ml ( ),标准差为7.02 IU/ml ( );试验组治疗前IL-2的均数为16.89 IU/ml ( ),标准差为8.46 IU/ml ( )。问两组治疗前基线的IL-2总体均数相差有多大? 第一步 比较目的 应用条件 统计方法 样本与总体 n大,任意分布 u检验 n小,正态分布 t检验两样本比较 n大,任意分布 u检验 n小,正态分布,方差齐 t检验,秩和 n小,非正态分布或方差不齐 t检验,秩和配对资料 n大,任意分布 u检验 n小,正态分布 t检验, 秩和(非正态)多样本比较

27、正态,方差齐 F检验,秩和(非正态)计量资料假设检验方法选择 t 检验(N30、60)应用条件:来自正态分布的总体; 所比较总体的方差相同。 用途:样本均数与总体均数的比较配对资料差值均数的比较两样本均数的比较计量资料假设检验方法选择样本均数与总体均数的比较配对资料差值均数的比较两样本均数的比较u 检验(N30、60)用途:样本均数与总体均数的比较配对资料差值均数的比较两样本均数的比较F 检验用途:完全随机设计方差分析随机区组设计方差分析多个样本均数间的两两比较非参数检验(秩和 检验)用途:配对资料差值的符号秩和 检验成组设计两样本比较秩和 检验成组设计多样本比较秩和 检验单样本t 检验 例3

28、-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?SPSS统计分析演示分析步骤数据文件:“例03-05.sav”。数据格式:1列36行,1个反应变量,变量名为“hb”。过程:Analyze Compare Means One-sample T TestTest Variable(s):hbTest Value: 140 配对t检验分析步骤 1.建立数据文件: 设置2个反应变量(x1:哥特里-罗紫法、x2:脂肪酸水解法),共10行2列,每行代表1个对子 2.统计分

29、析:Analysis Compare Means paired-Samples T Test Paired Variables:x1-x23.结果及解释 两样本t 检验分析步骤1.建立数据文件: 设置1个反应变量(x:空腹血糖下降值),1个分组变量(group:1代表实验组,2代表对照组),共40行2列 2.统计分析:Analysis Compare Means Independent-Samples T Test Test Variable(s):x Grouping Variable:group3.结果及解释 完全随机设计资料的方差分析 例4-2 某医生为了研究一种降血脂新药的临床疗效,按

30、统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组(具体分组方法见例4-1),进行双盲试验。6周后测得低密度脂蛋白作为试验结果,见表4-3。问4个处理组患者的低密度脂蛋白含量总体均数有无差别?完全随机设计资料的方差分析 分析步骤 1.建立数据文件:1个反应变量,变量名为“ldl_c”;1个分组变量,变量名为“group”,有4个水平。取值1=placebo组, 2=2.4g 组, 3=4.8g 组,4=7.2g组 2.统计分析:Analysis Compare Means One-way ANOVA Dependent List:ldl_c Factor:group Op

31、tions Descriptive Homogeneity-of-variance Means plot Post Hoc LSD/ S-N-K3.结果及解释 随机区组设计资料的方差分析 分析步骤1.建立数据文件:1个反应变量,变量名为“weight”;2个分组变量,变量名为“block”( 5个水平,1-5分别代表5个区组)和“drug” (3个水平,1、2、3分别代表A药、B药、C药)。 2.统计分析:Analysis General linear Models Univariate Dependent Variable(s): weight Fixed Factor(s): drug /

32、 blockModel Custom Model: drug / block Sum of squares: Type III Include intercept in modelPost Hoc Post Hoc Tests for: drug Tukey S-N-KOptions Estimated Marginal Means Display Means for: durg3.结果及解释SPSS统计分析演示2、分类资料1)统计描述:率、构成比、比2)统计推断: 参数估计:点估计 区间估计 假设检验: 2检验、u检验 非参数检验 比较目的 应用条件 统计方法 样本与总体 np5,n(1-P

33、)5 二项分布u检验 n小 二项分布直接法两样本比较 np5,n(1-P)5 二项分布u检验 n40,T5 四格表2检验 n40, 1T5 校正四格表2检验 n40, T40 配对 2检验 b+c1,1T5的格子 行列表2检验(RC表) 数超过1/5 T1 确切概率法 2检验四格表资料的2检验配对四格表资料的2检验行列表的2检验行列表的2分割法频数分布拟合优度的2检验四格表的确切概率法计数资料的2检验四格表资料2检验 分析步骤1.建立数据文件 :3个变量(1)处理组别变量(treat):1代表试验组,2代表对照组。(2)疗效变量(effect):1代表有效,2代表无效。(3)freq为频数变量

34、2.统计分析:DATAWeight Cases打开“Weight Cases”对话框,激活“Weight Case by”选项;从左边源变量名称框中选择频数变量“freq”作为权变量,将其选入”Frequency variable”框中 “Analyze” “Descriptive Statistics” “Crosstabs”打开“Crosstabs” Row(s): treatColumn(s): effectStatistics Chi-squareCells Expected3.结果及解释 配对四格表资料2检验分析步骤数据文件:“例07-03.sav”。数据格式:3列4行。2个分类变量

35、,“免疫荧光”和“乳胶凝集”;1个频数变量“freq”。过程:Data Weight Cases Weight cases by: freqAnalyze Descriptive Statistics CrosstabsRow(s): 免疫荧光Column(s): 乳胶凝集Statistics McNemar多个样本率的比较 2检验分析步骤数据文件:“例07-06.sav”。数据格式:3列6行。2个分类变量,“疗法”和“疗效”;1个频数变量“freq”。过程:Data Weight Cases Weight cases by: freqAnalyze Descriptive Statistic

36、s CrosstabsRow(s): 疗法Column(s): 疗效Statistics Chi-squareCells Expected配对样本比较的Wilcoxon符号秩检验 例8-1 对12份血清分别用原方法(检测时间20分钟)和新方法(检测时间10分钟)测谷-丙转氨酶,结果见表8-1的(2)、(3)栏。问两法所得结果有无差别?配对样本比较的Wilcoxon符号秩检验分析步骤数据文件:“例08-01.sav”。数据格式:2列12行。2个反应变量分别为“原法”和“新法”。过程:Analyze Nonparametric Tests 2 Related SamplesTest Pair(s)

37、 List: 原法新法 Test Type: Wilcoxon 两个独立样本比较的Wilcoxon秩和检验 分析步骤数据文件:“例08-03.sav”。数据格式:2列22行。1个分组变量“group”,1个反应变量 “r1值”。过程:Analyze Nonparametric Tests 2 Independent SamplesTest Variable List: r1值Grouping Variable: group Test Type: Mann-Whitney U 频数表资料和等级资料的两样本比较 分析步骤数据文件:“例08-04.sav”。数据格式:3列8行。1个分组变量“grou

38、p”,1个反应变量 “含量”,1个频数变量“freq”。过程:Data Weight Cases Weight cases by: freqAnalyze Nonparametric Tests 2 Independent SamplesTest Variable List: 含量Grouping Variable: group Test Type: Mann-Whitney U 频数表资料和等级资料的多个样本比较Kruskal-Wallis 检验 分析步骤数据文件:“例08-07.sav”。数据格式:3列16行。1个分组变量“疾病”,1个反应变量 “白细胞”,1个频数变量“freq”。过程:

39、Data Weight Cases Weight cases by: freqAnalyze Nonparametric Tests K Independent SamplesTest Variable List: 白细胞Grouping Variable: 疾病 Test Type: Kruskal Wallis H随机区组设计多个样本比较的Friedman检验 分析步骤数据文件:“例08-09.sav”。数据格式:4列8行。4个反应变量分别为“频率a”,“频率b”,“频率c”和“频率d”。过程:Analyze Nonparametric Tests K Related SamplesTes

40、t Variables: 频率a 频率b / 频率c / 频率d Test Type: Friedman 直线回归分析分析步骤数据文件:“例09-01.sav”。(包含例9-12数据)数据格式:3列18行。1个分组变量“g”,1个自变量“x”,个因变量“y”。过程:Analyze Regression Linear Dependent: y Independent(s): x直线相关分析例9-5 对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。分析步骤Analyze Correlate BivariateVariables: x / yCorrelation Coef

41、ficients Pearson Spearman 医学科研中常见统计错误未明确研究对象是总体还是样本,未区分是随机样本还是非随机样本 在统计分析中,统计描述可应用到任何研究对象,无论是总体还是样本以及何种类型的样本;但统计推断是针对随机样本而言的。 例如,某研究生调查其所在医院卫生服务提供情况,调查获得了卫生人员数、出院人数住院天数,门诊人次数等指标。在进行统计描述后,接着又对各指标进行了相应的统计假设检验。这种做法是不妥的,因为本调查本质上是对一个总体研究对象的描述,不存在抽样的过程,因此不需要进行假设检验。 又如,在某次AIDS患者危险因素的现况调查中,研究者按照立意抽样(purposi

42、ve sampling)的非概率抽样方法选择了850研究对象,获得有关性别、年龄、职业等指标,并对有关指标作了统计推断。这种做法是不正确的,因为本调查所选择样本为非随机样本,不符合统计推断的前提条件。 未能区分研究资料的类型 不同类型资料需要采取相应的统计分析方法。 在实际工作中,经常出现混淆各种资料的类型,选择了不恰当的统计分析方法。例如:某医生对小儿毛细血管瘤孕激素受体进行了研究,得到:毛细血管瘤组(50例)的孕激素受体阳性细胞率为74.88%12.12%;正常皮肤组(10例)的孕激素受体阳性细胞率为9.80%6.70%,通过x2检验,发现两组的孕激素受体阳性细胞率差异有统计学意义。作者错

43、误地将孕激素受体阳性细胞率作为计数资料加以统计分析,误用了x2检验。对于这样以百分率表示的计量资料,根据经验一般需要做平方根反正弦转换,若满足正态性和方差齐性条件,则可用两独立样本的t检验;否则可采用非参数的Mann-Whitney 检验。 忽视假设检验的条件 计量资料进行参数的假设检验的前提条件是正态性和方差齐性。 在实际研究中人们往往忽视了这些条件而直接采用参数检验,如单样本的t检验、成组设计的t检验等。 例如,某作者研究了血清肿瘤标志在直肠癌诊断中的作用,分别检测了60名术前患者、30名术后患者和20名转移复发者的CEA,结果发现三组的CEA(ug/L)含量分别为:32.080.0、2.

44、03.0、88.0110.2。通过t检验发现术前组与其他两组的差异均有统计学意义。从本资料的标准差是均数的2倍以上我们基本可以判断此资料服从偏态资料,而且三组将的标准差也相差很大,也不满足方差齐性,因此不能使用参数检验中的t检验,而且本研究实际是比较三组间的CEA水平有无差别,更不能应用t检验。对于三组或以上的计量资料若满足正态性和方差齐性的条件,则可用方差分析。对本资料应采用非参数检验的Kruskal-Wallis H检验。未注意计数资料的四格表资料x2检验的条件 例如,某医生采用成形术和环切术两种方式治疗小儿包茎,结果得到在52例成形术组中,有并发症者46例,并发症的发生率为88.46%;而在26例环切术组中,有并发症者18例,并发症的发生率为69.23%。通过x2检验,得到x2=4.35, P0.05,尚不能认为两组有差别。四格表资料x2检验公式选择条件为:n40,理论数大于5,使用一般x2检验公式;n40,理论数1且5,则用校正x2检验公式;若n40,或理论数小于1,则用Fisher精确概率法。未区分设计类型:完全随机设计与区组随机设计的统计分析混用 不同的研究设计类型需要采用相应的统计分析。例如,某医生对12份血清分别用原方法(检测时间20分钟)和新方法(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论