版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学数据统计分析方法——基础篇医学数据统计分析方法——基础篇1相关问题一、医学资料类型二、常见医学实验设计类型三、资料的统计描述和结果表达四、常用统计推断方法五、多因素分析方法相关问题一、医学资料类型2一、医学资料类型
1.定量资料(计量资料)2.定性资料(分类资料)
(1)二项分类(计数资料)(2)多项分类无序多分类有序多分类(等级资料)一、医学资料类型
1.定量资料(计量资料)31.定量资料★定义:是对每个观察对象的观察指标用定量方法测定该项指标的数值大小所得的资料,一般有度量衡单位。★举例:
某市某年7岁男孩身高值(120.2cm,118.6cm,121.8cm…)1.定量资料★定义:是对每个观察对象的观察指标用定量方法测定42.定性资料★定义:是先将观察对象的观察指标按性质或类别进行分组,然后清点各组该观察指标的数目所得的资料。★举例:二分类:卫生统计学教研室教师性别构成:男:3人,女:5人2.定性资料★定义:是先将观察对象的观察指标按性质或类别进行5无序多分类:某人群血型构成:A型:25人;B型:20人AB型:10人;O型:30人有序多分类:临床化验中,将化验结果按-(50);+(30);++(20);+++(10);按疗效可分为治愈(10);显效(20);好转(30);无效(15);无序多分类:6
根据分析的需要,计量资料、计数资料等级分组资料可以互相转化。例如每个人的血红蛋白,原属计量资料;若按血红蛋白正常与异常分为两组,得出各组的人数,是计数资料;若按血红蛋白含量的多少分为五个等级:<6(g%)(重度贫血)、6(g%)~(度贫血)、9(g%)~(轻度贫血)12.5(g%)~(血红蛋白正常)、>16(g%)(血红蛋白增高),计算各等级人数,就是等级分组资料。根据分析的需要,计量资料、计数资料7二、常见医学实验设计类型
1.完全随机设计(成组设计)2.配对设计3.随机区组设计(配伍组设计)4.析因设计二、常见医学实验设计类型
1.完全随机设计(成组设计)81.完全随机设计(成组设计):
将受试对象完全随机地分配到各个处理组中或分别从不同总体中随机抽样进行研究。1.完全随机设计(成组设计):将受试对象完全随机92.配对设计
将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。(1)配对两个受试对象A,B处理。(2)同一受试对象或同一样本的两个部分A,B处理。2.配对设计将受试对象按某些重要特征相近的原10(3)同一受试对象处理(实验或治疗)前后比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较,这种配对称为自身对比(self-contrast)。有争议:越来越多的学者认为应该把(3)当做重复测量设计。(3)同一受试对象处理(实验或治疗)前后比较,如对高血压患者113.随机区组设计
又称配伍设计,是配对设计的扩展。先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或对照组。3.随机区组设计又称配伍设计,是配对设计的扩展。124.析因设计是将每个因素的所有水平都互相组合,从而对两个或多个处理进行评价,是一种多因素的交叉分组设计。它不仅可以作每个因素各水平间的比较,而且还可以进行交互作用的分析。通过比较还能寻求最佳组合。
4.析因设计是将每个因素的所有水平都互相组合,13总实验数是各因素水平数的乘积。如四因素同时进行实验,若每个因素取2个水平,实验总数为24=16;若3水平,34=81;若4水平,44=256;因此,析因设计水平不宜太多,一般取2个或3个。总实验数是各因素水平数的乘积。如四因素同时进行实验,若每个因142×2析因设计模式表12×2析因设计2×2析因设计模式15第一组:一般疗法第二组:一般疗法+甲药第三组:一般疗法+乙药第四组:一般疗法+甲药+乙药甲药乙药不用用不用
一组
三组用二组四组甲药乙药不用用16三、资料的统计描述和结果表达
三、资料的统计描述和结果表达
171.各指标的基本情况定量资料:最小、最大值正态分布:均数、标准差、非正态分布:中位数、四分位数间距
定性资料:各类频数各等级频数1.各指标的基本情况定量资料:最小、最大值18正态分布:均数()、标准差()、最小、最大值如:平均年龄:40.5岁年龄():40.53.6岁年龄:40.53.6(min~max:34~60)岁(定量资料的表达1)正态分布:均数()、标准差()、(定量资料的表达19非正态分布:中位数、四分位数间距、最小、最大值病程中位数:M=3.65年病程:M(Q)=3.65(5.12)年
(min~max:2月~12年)
定量资料的表达2非正态分布:中位数、四分位数间距、定量资料的表达220例1:例1:21(图形表达1)—线图(图形表达1)—线图22(图形表达2)—半对数线图(图形表达2)—半对数线图23例2:例2:24(图形表达3)-条图(图形表达3)-条图25例3:例3:26(图形表达4)-百分条图(图形表达4)-百分条图27例4:例4:28(图形表达5)-圆图(图形表达5)-圆图29例5例530(图形表达6)-箱式图(图形表达6)-箱式图31例6例632(图形表达7)-散点图(图形表达7)-散点图33例7例734(图形表达8)-直方图(图形表达8)-直方图35四、常用统计推断方法
1.参数估计2.假设检验3.完全随机设计常用假设检验方法4.配对设计常用假设检验方法5.配伍组设计常用假设检验方法6.析因设计常用假设检验方法四、常用统计推断方法
1.参数估计361.数据的统计推断-参数估计参数估计:估计值,95%CI(可信区间)例如:三个疗程后,试验组比对照组平均降低体重6.25kg(95%CI:4.17~8.27kg)。
1.数据的统计推断-参数估计参数估计:37假设检验:检验统计量,P
值(确切值)例如:用药一个疗程后,试验组的ESS评分的增加比对照组平均提高36.5分(95%CI:18.5~54.5),经t检验两组有统计学差异(t=3.26,P=0.0018)。2.数据的统计推断-假设检验假设检验:2.数据的统计推断-假设检验38假设检验方法的选择依据:
应根据分析目的、设计类型、资料类型、样本含量大小等选用适当的检验方法。假设检验方法的选择依据:应根据分析目的、设计类型、393.完全随机设计假设检验方法3.完全随机设计假设检验方法40
3-1完全随机设计
——两组定量资料比较:①若总体服从正态分布且总体方差齐同,采用成组t检验;②若总体服从正态分布且总体方差不齐同,采用成组检验;③若总体不服从正态分布或/和方差不齐,采用两个独立样本比较的Wilcoxon秩和检验3-1完全随机设计41应用条件验证正态性检验两样本的方差的齐性检验应用条件验证正态性检验42正态性检验即检验样本是否来自正态总体。正态性检验即检验样本是否来自正态总体。43按所取的α水准做出判断结论:(1)若P<,按所取的α水准,拒绝H0,接受H1,可认为总体服从正态分布。(2)若P>
,按所取的α水准,不拒绝H0,则认为总体不服从正态分布。按所取的α水准做出判断结论:44
两样本的方差的齐性检验方差齐性:是指方差相等。适用条件:两样本均来自正态分布总体。
H0:12=22H1:12≠22=0.1
两样本的方差的齐性检验方差齐性:是指方差相等。45按所取的α水准做出判断结论:(1)若P<,按所取的α水准,拒绝H0,接受H1,可认为两总体方差不具有齐性。(2)若P>
,按所取的α水准,不拒绝H0,则认为两总体方差具有齐性。按所取的α水准做出判断结论:46例1:成组t检验例1:成组t检验47医学数据统计分析方法-——基础篇课件48医学数据统计分析方法-——基础篇课件49即:即:50例2:成组检验例2:成组检验51医学数据统计分析方法-——基础篇课件52医学数据统计分析方法-——基础篇课件533-2完全随机设计
——多组定量资料比较:①若正态分布且方差齐同,采用单因素方差分析(one-wayANOVA);②若非正态分布或/和方差不齐,可进行变量变换后采用单因素方差分析或采用完全随机设计多个样本比较的Kruskal-WallisH检验。3-2完全随机设计54
某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组,进行双盲试验。6周后测得低密度脂蛋白作为试验结果(表4-3)。问:4个处理组患者的低密度脂蛋白含量总体均数有无差别?例3:单因素方差分析某医生为了研究一种降血脂新药的例3:单因素55医学数据统计分析方法-——基础篇课件56H0:μ1=μ2=μ3=μ4,即4个试验组的总体均数相等H1:4个试验组的总体均数不全相等α=0.05先进行正态性检验、方差齐性检验,满足应用条件后,进行方差分析先进行正态性检验、方差齐性检验,满足应用条件后,进行方差分57医学数据统计分析方法-——基础篇课件58
多组比较的方差分析方差分析:(ANOVA,Fisher’sFtest)
整体比较(F值,P值)
两两比较:(multiplecomparison)
整体比较有差异后进行两两比较(P值)Tukey,SNK,Dunncan,Dunnett,Scheffe,LSD,Bonferroni,Sidak方差分析:(ANOVA,Fisher’sFtest)593-3完全随机设计
——两组定性资料比较:①计数资料:采用完全随机设计2检验,或Fisher确切概率法;②等级资料:多采用两个独立样本比较的Wilcoxon秩和检验或Ridit分析。3-3完全随机设计60完全随机设计四格表资料χ2检验专用公式:(n≥40且所有的T≥5)
医学数据统计分析方法-——基础篇课件61完全随机设计四格表资料χ2检验的校正公式:(n≥40且某一个理论数1≤T<5)
完全随机设计62最小理论频数TRC的判断:R行与C列中,行合计数中的最小值与列合计数中的最小值所对应格子的理论频数最小。如本例,第2行与第2列所对应的格子理论频数最小(4.67)。
最小理论频数TRC的判断:63
某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果如下表。问两组降低颅内压的总体有效率有无差别?
例4:完全随机设计2检验
—专用公式(非校正公式)某院欲比较异梨醇口服液(试验组)例4:完全随机64
两组降低颅内压有效率的比较
两组降低颅内压有效率的比较65
SPSS实现:SPSS实现:66医学数据统计分析方法-——基础篇课件67医学数据统计分析方法-——基础篇课件68医学数据统计分析方法-——基础篇课件69例5:完全随机设计两组等级资料:例5:完全随机设计两组等级资料:70医学数据统计分析方法-——基础篇课件71◆上表中完全随机设计两组等级资料比较多采用两个独立样本比较的Wilcoxon秩和检验或Ridit分析。◆上表中完全随机设计两组等级资料比较多采用两个独立样本比较的723-4完全随机设计
——多组定性资料比较:①计数资料:采用完全随机设计2检验,或Fisher确切概率法;②等级资料:采用多个独立样本比较的Kruskal-WallisH检验或Ridit分析。3-4完全随机设计73例6:完全随机设计
——行×列表资料2检验多个样本率的比较
某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?例6:完全随机设计
——行×列74三种疗法有效率的比较三种疗法有效率的比较75H0:π1=π2=π3,即三种疗法治疗周围性面神经麻痹的有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等α=0.05=21.04,=2,查界值表得P<0.005。按α=0.05水准,拒绝H0,接受H1,可认为三种疗法治疗周围性面神经麻痹的有效率有差别。
H0:π1=π2=π3,即三种疗法治疗周围性面神经麻痹的有76
行×列表资料χ2检验简化公式:
行×列表资料χ2检验简化公式:77行×列表χ2检验时的注意事项1.不宜有1/5以上的理论频数小于5或有1个格子的理论频数小于1。解决的办法有四种:
(1)性质相近邻行或邻列合并。
(2)增加样本量。
(3)删去理论数太小的行或列。(4)确切概率法
行×列表χ2检验时的注意事项782.单向有序行列表(如下页表所示):(1)效应在构成比上有无差异:
χ2检验。(2)效应有无差异:秩和检验或Ridit分析。2.单向有序行列表(如下页表所示):79疗效A组B组C组治愈显效好转无效合计疗效A组B组C组治愈合计803.双向有序且分类属性不同行列表
(如下页表)(1)粗略分析两个变量有无关系(用χ2检验)(2)详细分析两个变量有无相关关系及相关方向(用Spearman等级相关分析方法)(3)详细分析两个变量是否存在线性变化趋势(用有序分组资料的线性趋势检验)3.双向有序且分类属性不同行列表81眼底动脉硬化级别冠心病诊断结果正常可疑冠心病0ⅠⅡⅢ合计眼底动脉冠心病诊断结果正常可疑冠心病0合计824.双向有序且分类属性相同行列表一致性检验(计算Kappa值)-++++++-++++++合计-++++++-合计835.当多个样本率(或构成比)比较的χ2检验,结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。若想进一步了解哪两者的差别有统计学意义,可用χ2检验多重比较。
5.当多个样本率(或构成比)比较的χ2检验,结论为拒绝检验假84例7:完全随机设计多组等级资料比较
—采用多个独立样本比较的Kruskal-WallisH检验或Ridit分析。
例7:完全随机设计多组等级资料比较
—采用多个独立样本比较的85医学数据统计分析方法-——基础篇课件864.配对设计假设检验方法4.配对设计假设检验方法874-1配对设计
——定量资料比较:①若差值服从正态分布,采用配对t检验;②若差值非正态分布,可进行变量变换后采用配对t
检验或采用配对设计Wilcoxon符号秩检验4-1配对设计88例8:配对t检验—同源配对例8:配对t检验—同源配对89医学数据统计分析方法-——基础篇课件90医学数据统计分析方法-——基础篇课件91
H0:μd=0H1:μd≠00.05
医学数据统计分析方法-——基础篇课件92其中
式中d为每对数据的差值,为差值的样本均数,Sd为差值的标准差,为差值样本均数的标准误,n为对子数。式中d为每对数据的差值,93例9:配对t检验
–异源配对例9:配对t检验–异源配对94医学数据统计分析方法-——基础篇课件95医学数据统计分析方法-——基础篇课件964-2配对设计
——定性资料比较:①计数资料:采用配对设计2检验(McNemar’sTest)或配对设计Wilcoxon符号秩检验;②等级资料:配对设计Wilcoxon符号秩检验4-2配对设计97
某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见下表。问两种方法的检测结果有无差别?
例10:配对设计2检验某实验室分别用乳胶凝集法和例10:配对设计98两种方法的检测结果
两种方法的检测结果99若两种处理方法无差别,总体:B=C。因抽样误差不可避免,样本往往b≠c,需进行假设检验
(McNemartest),检验统计量为。若两种处理方法无差别,总体:B=C。100计算公式
1.b+c≥40时
2.b+c<40时
计算公式101H0:总体B=CH1:总体B≠Cα=0.05b+c=12+2=14<40。=1,查界值表得P<0.05。按α=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检测结果不同。H0:总体B=C=1,查界值表得P<01025.
随机区组设计假设检验方法5.随机区组设计假设检验方法1035.配伍组设计
——定量资料比较:①若正态分布且方差齐同,采用双向分类的方差分析(two-wayclassificationANOVA);②若非正态分布或/和方差不齐,可进行变量变换后采用双向分类的方差分析或采用FriedmanM检验。5.配伍组设计104例11:随机区组设计方差分析
某研究者采用随机区组设计进行实验,比较三种抗癌药物对小白鼠肉瘤抑瘤效果,先将15只染有肉瘤小白鼠按体重大小配成5个区组,每个区组内3只小白鼠随机接受三种抗癌药物,以肉瘤的重量为指标。问三种不同药物的抑瘤效果有无差别?
例11:随机区组设计方差分析某研究者采用随机区组设105医学数据统计分析方法-——基础篇课件106医学数据统计分析方法-——基础篇课件107
SPSS实现:
SPSS实现:108医学数据统计分析方法-——基础篇课件109医学数据统计分析方法-——基础篇课件110医学数据统计分析方法-——基础篇课件111医学数据统计分析方法-——基础篇课件112注意:方差分析的结果若拒绝H0,接受H1,不能说明各组总体均数间两两都有差别。要分析哪些两组间有差别,应进行多个均数间的多重比较。注意:113区组因素应是对试验结果有影响的非处理因素。区组内各试验对象应均衡,区组之间试验对象具有较大的差异为好,这样利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。区组因素应是对试验结果有影响的非处理因素。区组内各试验对象应114当区组间差别有统计学意义时,随机区组设计的误差比完全随机设计小,试验效率得以提高。当区组间差别有统计学意义时,115例12:析因设计方差分析例12:析因设计方差分析116医学数据统计分析方法-——基础篇课件117医学数据统计分析方法-——基础篇课件118
SPSS实现:SPSS实现:119
120医学数据统计分析方法-——基础篇课件121五、多因素分析方法1.多(元)重线性回归2.Logistic回归3.Cox模型五、多因素分析方法1.多(元)重线性回归1221.多(元)重线性回归
多重线性回归(multiplelinearregression)用于分析一个应变量(连续性变量)和多个自变量之间的线性关系.1.多(元)重线性回归
多重线性回归(multipleli123多元线性回归分析一般步骤:(1)根据样本数据求得模型参数的估计值(2)
对回归方程及各自变量做假设检验,并对方程的拟和效果及各自变量的作用大小做出评价。多元线性回归分析一般步骤:(2)对回归方程及各自变量做假设124
决定系数R2
说明自变量能够解释Y变化的百分比。其值越接近于1,说明模型对数据的拟和效果越好.决定系数R2说明自变量能够解释Y变化的百分比。其值125复相关系数可以用来度量应变量Y和多个自变量之间的线性相关程度.如果只有一个自变量时,复相关系数可以用来度量应变量Y和多个自变量之间的线性相关程126标准化回归系数由于各变量的测量单位不同,单从各偏回归系数的绝对值大小来分析难以得出正确的结论。数据标准化:标准化回归系数数据标准化:127
数据标准化得到的回归方程称为标准化回归方程,相应的回归系数即为标准化回归系数。意义:用来比较各自变量对Y的影响强度,通常在有统计学意义前提之下,标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。数据标准化得到的回归方程称为标准化回归方程,相应的回归系128例5-1为了研究影响糖尿病患者糖化血红蛋白(HbA1c)的主要危险因素,研究者收集糖尿病患者的糖化血红蛋白(Y,%)、年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固醇(X3,mmol/L)、收缩压(X4,mmHg)和舒张压(X5,mmHg)等数据资料。现从中随机抽取了20例,数据见表5-1,试作多元线性回归分析。例5-1为了研究影响糖尿病患者糖化血红蛋白(HbA1129
表5-120例糖尿病患者的数据资料编号X1X2X3X4X5Y编号X1X2X3X4X5Y14932.196.0148867.6115323.437.1161867.526724.772.7151987.4124630.562.9146797.336425.247.0151807.4135925.196.0158807.346624.264.8157877.2147627.265.4124856.956830.283.5136837.3156323.936.7133897.564826.187.6137877.6167424.947.9166827.976626.365.9157917.5175222.825.3149717.384732.075.7157897.7186424.342.5126936.896428.446.1154827.3195425.442.6151836.9107530.656.9137867.7207828.987.2147747.5表5-120例糖尿病患者的数据资料编号X1X2X3130
对以上数据通过SPSS软件计算,主要结果如下表:
变异来源SSMSFP回归1.0790650.215817.320.0015残差0.41294140.02950总变异1.4920019表5-2回归方程的方差分析表
对以上数据通过SPSS软件计算,主要结果如下表:变异来源131
表5-3
偏回归系数估计结果自变量偏回归系数标准误t
P
常数项3.875981.011153.830.0018X1-0.001530.00409-0.370.7146X20.031920.013482.370.0328X30.108340.024514.420.0006X40.008500.003682.310.0366X50.010580.006631.600.1328回归方程,方程有统计学意义。由表5-3可见,自变量X2、X3、X4
按水平有统计学义,X1
和X5
无统计学意义。表5-3偏回归系数估计结果自变量偏回归系数标准误tP132例5-227名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖测量值(y)见下页表,试建立血糖与其他几项指标的多元线性回归方程。例5-227名糖尿病患者的血清总胆固醇(x1)、甘油三酯133
SPSS实现:SPSS实现:134医学数据统计分析方法-——基础篇课件135医学数据统计分析方法-——基础篇课件136医学数据统计分析方法-——基础篇课件137医学数据统计分析方法-——基础篇课件138医学数据统计分析方法-——基础篇课件139(1)应用条件Y-连续性变量残差服从正态分布,方差相同应变量的观测值相互独立
(2)样本含量
多元线性回归时,应该注意样本含量n与方程中自变量个数m的比例,经验上n至少应是m
的5~20倍。多元线性回归
(1)应用条件多元线性回归140
(3)定性变量的数量化二分类定性变量处理方法可以用0或1表示,如(3)定性变量的数量化141
多分类定性变量处理方法:如果有k
类,则可用k-1个取值为0或1的哑变量来赋值表达。如常见血型分为4类,A型(100)B型(010)AB型(001)O型(000)
142
有序变量处理方法:可以按“1、2、3、…”的赋值方法直接引入回归模型。如果样本量较大,也可化作哑变量引入回归模型。
有序变量处理方法:可以按“1、2、3、…”的赋值方法直接引143
(4)多重共线性当自变量间存在较强的线性关系时,会使多元回归方程中的参数估计不准确,影响多元线性回归分析的结果。(5)关于变量筛选在自变量较多的情况下,使用逐步回归分析常能使问题得到简化,但不要盲目信任逐步回归得到的结果,最好结合所要研究的问题和专业知识确定应选择的变量。
(4)多重共线性144OR及95%CI
并说明谁与谁比较!2.影响疗效的多因素分析——logistic回归2.影响疗效的多因素分析——logistic回归145Logistic回归模型
设因变量Y是一个二值变量,取值为:
Y=1出现阳性结果(发病、死亡等)
0出现阴性结果(未发病、存活等)Logistic回归模型1出现阳性结果146记在这m个自变量作用下阳性结果发生的概率为
P=P(Y=1|X1,X2,X3,...,Xm),logistic回归模型可表示为
常数项或截距,为回归系数。Logisticregressionanalysis
记在这m个自变量作用下阳性结果发生的概率为常数项或截距,为回147logistic回归模型还可以表示成如下线性形式等号左端为阳性结果与阴性结果发生概率之比的自然对数,称为P
的logit变换,记为logit(P),即logistic回归模型还可以表示成如下线性形式148医学数据统计分析方法-——基础篇课件149
对于发病率较低的慢性疾病如心脑血管疾病、恶性肿瘤等,由于P很小,优势比可以作为相对危险度(RR)的近似估计,即对于发病率较低的慢性疾病如心脑血管疾病、恶性肿瘤等,150例5-3
研究吸烟(X1)、饮酒(X2)与食道癌(Y)关系的病例-对照资料,试作logistic回归分析。表13-2
吸烟与食道癌关系的病例-对照调查资料吸烟X1饮酒X2疾病状态Y观察例数n00163011631014411126500013601010710057110151例5-3研究吸烟(X1)、饮酒(X2)与食道癌(Y)关系151各变量赋值情况如下:各变量赋值情况如下:152
用SPSS统计软件logistic回归过程可得到如下主要结果因素
回归系数标准误Waldχ2P值OR值OR值95%可信区间XbSb下限上限常数项-0.9100.13644.8700.0000.403吸烟0.8860.15034.8620.0002.4241.8073.253饮酒0.5260.15711.2070.0011.6921.2442.303用SPSS统计软件logistic回归过程可得到如下主要结153例5-4
26例冠心病病人和28例对照者进行病例对照研究
例5-4
26例冠心病病人和28例对照者进154例5-4数据录入例5-4数据录入155医学数据统计分析方法-——基础篇课件156(1)logistic回归分析的应用
logistic回归分析可以用于流行病学、临床试验数据分析、药物或毒物的剂量反应和预测与判别等多个方面。
logistic回归应用及注意事项
(1)logistic回归分析的应用logistic回157
(2)自变量的取值二分类变量:可以使用0或1编码无序多分类变量:需要转化为哑变量连续变量:有三种处理方法(1)直接使用原始观测值(2)将连续变量按取值区间分成若干等级组,按给分,然后按连续变量进行处理。(3)将连续变量按不同区间分成g个组后,化作g-1个哑变量处理。(2)自变量的取值158年龄变量离散化处理的赋值方法年龄(岁)X等级变量G哑变量X1X2X3<40100040~210050~301060~4001年龄变量离散化处理的赋值方法年龄(岁)等级变量哑变量X1X2159
(3)样本含量logistic回归的所有统计推断都是建立在大样本基础上的,因此其应用的一个基本条件是要求有足够的样本含量,实际中病例和对照的人数应至少各有30~50例,方程中的变量个数愈多需要的例数也就愈大。对于配对资料,一般样本的匹配组数应为纳入方程中的自变量个数的20倍以上。(3)样本含量1603.反应疗效快慢的多因素分析——
生存分析
生存率或生存曲线
RR及
95%CI
并说明谁与谁比较!3.反应疗效快慢的多因素分析——生存率或生存曲线161
生存分析(Survivalanalysis)是将研究对象的随访结局和随访时间两个因素同时结合起来考虑的一种统计分析方法。(是临床试验和队列研究的一种重要分析手段)
162随访资料数据特点:(1)应变量有两个:生存时间和结局(2)生存时间存在不完全数据(即截尾数据)其数据的特殊性决定了此类资料不能用t-test和F-test。
随访资料数据特点:163
生存时间类型:(1)
完全数据(completedata)(2)
截尾数据(censoreddata)。注意:完全数据提供了病人确切的生存时间,是生存分析的主要依据。截尾数据(删失数据)也提供部分信息,说明病人在某时刻之前没有死亡。
生存时间类型:164(2)半数生存期
又称为中位生存期(Mediansurvivaltime):即寿命的中位数(计算方法不同于普通的中位数),表示有且只有50%的个体可活这么长时间。
(2)半数生存期165生存分析的基本方法非参数法:乘积极限法寿命表法
2.参数法:3.半参数法:COX比例风险模型
生存分析的基本方法166乘积极限法(Kaplan-meier曲线)横轴——生存时间t纵轴——生存率
生存率曲线阶梯形
乘积极限法(Kaplan-meier曲线)横轴——生存时间167寿命表法-生存率曲线
横轴——术后年数t纵轴——k年生存率
生存率曲线折线形横轴——术后年数t168例5-5
SPSS实现:例5-5SPSS实现:169医学数据统计分析方法-——基础篇课件170医学数据统计分析方法-——基础篇课件171医学数据统计分析方法-——基础篇课件172医学数据统计分析方法-——基础篇课件173医学数据统计分析方法-——基础篇课件174医学数据统计分析方法-——基础篇课件175例5-6
SPSS实现:例5-6SPSS实现:176医学数据统计分析方法-——基础篇课件177医学数据统计分析方法-——基础篇课件178医学数据统计分析方法-——基础篇课件179医学数据统计分析方法-——基础篇课件180医学数据统计分析方法-——基础篇课件181生存曲线Log-rank检验时序检验(Log-ranktest):
生存曲线Log-rank检验182例5-7例5-7183医学数据统计分析方法-——基础篇课件184医学数据统计分析方法-——基础篇课件185医学数据统计分析方法-——基础篇课件186医学数据统计分析方法-——基础篇课件187COX比例风险回归模型
在临床医学中,对病人治疗效果的评价有时用时间的长短来衡量,如肺炎病人从治疗开始到退烧所需时间;某癌症病人手术后的生存时间;白血病病人经化疗后的缓解期等,这类时间统称为生存时间。生存时间的长短同病人的治疗措施、病人体质、病情轻重及机体免疫状况等因素有关。我们把这些自变量称为预后因素。COX比例风险回归模型188
由于时间长短不满足于正态分布和方差齐性的要求,不便用多元线性回归来分析生存时间与预后因素之间的关系,所以,COX于1972年提出了比例风险回归来分析生存资料。
由于时间长短不满足于正态分布189
COX比例风险回归模型:
为具有协变量X的个体在时刻t时的风险函数,又称为瞬时死亡率。是所有危险因素为0时的基础风险率,它是未知的,但假定它与是呈比例的。COX比例风险回归模型:190相对危险度估计:点估计:区间估计:相对危险度估计:191例5-8
SPSS实现:例5-8SPSS实现:192医学数据统计分析方法-——基础篇课件193医学数据统计分析方法-——基础篇课件194医学数据统计分析方法-——基础篇课件195
谢谢各位!谢谢各位!196医学数据统计分析方法——基础篇医学数据统计分析方法——基础篇197相关问题一、医学资料类型二、常见医学实验设计类型三、资料的统计描述和结果表达四、常用统计推断方法五、多因素分析方法相关问题一、医学资料类型198一、医学资料类型
1.定量资料(计量资料)2.定性资料(分类资料)
(1)二项分类(计数资料)(2)多项分类无序多分类有序多分类(等级资料)一、医学资料类型
1.定量资料(计量资料)1991.定量资料★定义:是对每个观察对象的观察指标用定量方法测定该项指标的数值大小所得的资料,一般有度量衡单位。★举例:
某市某年7岁男孩身高值(120.2cm,118.6cm,121.8cm…)1.定量资料★定义:是对每个观察对象的观察指标用定量方法测定2002.定性资料★定义:是先将观察对象的观察指标按性质或类别进行分组,然后清点各组该观察指标的数目所得的资料。★举例:二分类:卫生统计学教研室教师性别构成:男:3人,女:5人2.定性资料★定义:是先将观察对象的观察指标按性质或类别进行201无序多分类:某人群血型构成:A型:25人;B型:20人AB型:10人;O型:30人有序多分类:临床化验中,将化验结果按-(50);+(30);++(20);+++(10);按疗效可分为治愈(10);显效(20);好转(30);无效(15);无序多分类:202
根据分析的需要,计量资料、计数资料等级分组资料可以互相转化。例如每个人的血红蛋白,原属计量资料;若按血红蛋白正常与异常分为两组,得出各组的人数,是计数资料;若按血红蛋白含量的多少分为五个等级:<6(g%)(重度贫血)、6(g%)~(度贫血)、9(g%)~(轻度贫血)12.5(g%)~(血红蛋白正常)、>16(g%)(血红蛋白增高),计算各等级人数,就是等级分组资料。根据分析的需要,计量资料、计数资料203二、常见医学实验设计类型
1.完全随机设计(成组设计)2.配对设计3.随机区组设计(配伍组设计)4.析因设计二、常见医学实验设计类型
1.完全随机设计(成组设计)2041.完全随机设计(成组设计):
将受试对象完全随机地分配到各个处理组中或分别从不同总体中随机抽样进行研究。1.完全随机设计(成组设计):将受试对象完全随机2052.配对设计
将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。(1)配对两个受试对象A,B处理。(2)同一受试对象或同一样本的两个部分A,B处理。2.配对设计将受试对象按某些重要特征相近的原206(3)同一受试对象处理(实验或治疗)前后比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较,这种配对称为自身对比(self-contrast)。有争议:越来越多的学者认为应该把(3)当做重复测量设计。(3)同一受试对象处理(实验或治疗)前后比较,如对高血压患者2073.随机区组设计
又称配伍设计,是配对设计的扩展。先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或对照组。3.随机区组设计又称配伍设计,是配对设计的扩展。2084.析因设计是将每个因素的所有水平都互相组合,从而对两个或多个处理进行评价,是一种多因素的交叉分组设计。它不仅可以作每个因素各水平间的比较,而且还可以进行交互作用的分析。通过比较还能寻求最佳组合。
4.析因设计是将每个因素的所有水平都互相组合,209总实验数是各因素水平数的乘积。如四因素同时进行实验,若每个因素取2个水平,实验总数为24=16;若3水平,34=81;若4水平,44=256;因此,析因设计水平不宜太多,一般取2个或3个。总实验数是各因素水平数的乘积。如四因素同时进行实验,若每个因2102×2析因设计模式表12×2析因设计2×2析因设计模式211第一组:一般疗法第二组:一般疗法+甲药第三组:一般疗法+乙药第四组:一般疗法+甲药+乙药甲药乙药不用用不用
一组
三组用二组四组甲药乙药不用用212三、资料的统计描述和结果表达
三、资料的统计描述和结果表达
2131.各指标的基本情况定量资料:最小、最大值正态分布:均数、标准差、非正态分布:中位数、四分位数间距
定性资料:各类频数各等级频数1.各指标的基本情况定量资料:最小、最大值214正态分布:均数()、标准差()、最小、最大值如:平均年龄:40.5岁年龄():40.53.6岁年龄:40.53.6(min~max:34~60)岁(定量资料的表达1)正态分布:均数()、标准差()、(定量资料的表达215非正态分布:中位数、四分位数间距、最小、最大值病程中位数:M=3.65年病程:M(Q)=3.65(5.12)年
(min~max:2月~12年)
定量资料的表达2非正态分布:中位数、四分位数间距、定量资料的表达2216例1:例1:217(图形表达1)—线图(图形表达1)—线图218(图形表达2)—半对数线图(图形表达2)—半对数线图219例2:例2:220(图形表达3)-条图(图形表达3)-条图221例3:例3:222(图形表达4)-百分条图(图形表达4)-百分条图223例4:例4:224(图形表达5)-圆图(图形表达5)-圆图225例5例5226(图形表达6)-箱式图(图形表达6)-箱式图227例6例6228(图形表达7)-散点图(图形表达7)-散点图229例7例7230(图形表达8)-直方图(图形表达8)-直方图231四、常用统计推断方法
1.参数估计2.假设检验3.完全随机设计常用假设检验方法4.配对设计常用假设检验方法5.配伍组设计常用假设检验方法6.析因设计常用假设检验方法四、常用统计推断方法
1.参数估计2321.数据的统计推断-参数估计参数估计:估计值,95%CI(可信区间)例如:三个疗程后,试验组比对照组平均降低体重6.25kg(95%CI:4.17~8.27kg)。
1.数据的统计推断-参数估计参数估计:233假设检验:检验统计量,P
值(确切值)例如:用药一个疗程后,试验组的ESS评分的增加比对照组平均提高36.5分(95%CI:18.5~54.5),经t检验两组有统计学差异(t=3.26,P=0.0018)。2.数据的统计推断-假设检验假设检验:2.数据的统计推断-假设检验234假设检验方法的选择依据:
应根据分析目的、设计类型、资料类型、样本含量大小等选用适当的检验方法。假设检验方法的选择依据:应根据分析目的、设计类型、2353.完全随机设计假设检验方法3.完全随机设计假设检验方法236
3-1完全随机设计
——两组定量资料比较:①若总体服从正态分布且总体方差齐同,采用成组t检验;②若总体服从正态分布且总体方差不齐同,采用成组检验;③若总体不服从正态分布或/和方差不齐,采用两个独立样本比较的Wilcoxon秩和检验3-1完全随机设计237应用条件验证正态性检验两样本的方差的齐性检验应用条件验证正态性检验238正态性检验即检验样本是否来自正态总体。正态性检验即检验样本是否来自正态总体。239按所取的α水准做出判断结论:(1)若P<,按所取的α水准,拒绝H0,接受H1,可认为总体服从正态分布。(2)若P>
,按所取的α水准,不拒绝H0,则认为总体不服从正态分布。按所取的α水准做出判断结论:240
两样本的方差的齐性检验方差齐性:是指方差相等。适用条件:两样本均来自正态分布总体。
H0:12=22H1:12≠22=0.1
两样本的方差的齐性检验方差齐性:是指方差相等。241按所取的α水准做出判断结论:(1)若P<,按所取的α水准,拒绝H0,接受H1,可认为两总体方差不具有齐性。(2)若P>
,按所取的α水准,不拒绝H0,则认为两总体方差具有齐性。按所取的α水准做出判断结论:242例1:成组t检验例1:成组t检验243医学数据统计分析方法-——基础篇课件244医学数据统计分析方法-——基础篇课件245即:即:246例2:成组检验例2:成组检验247医学数据统计分析方法-——基础篇课件248医学数据统计分析方法-——基础篇课件2493-2完全随机设计
——多组定量资料比较:①若正态分布且方差齐同,采用单因素方差分析(one-wayANOVA);②若非正态分布或/和方差不齐,可进行变量变换后采用单因素方差分析或采用完全随机设计多个样本比较的Kruskal-WallisH检验。3-2完全随机设计250
某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组,进行双盲试验。6周后测得低密度脂蛋白作为试验结果(表4-3)。问:4个处理组患者的低密度脂蛋白含量总体均数有无差别?例3:单因素方差分析某医生为了研究一种降血脂新药的例3:单因素251医学数据统计分析方法-——基础篇课件252H0:μ1=μ2=μ3=μ4,即4个试验组的总体均数相等H1:4个试验组的总体均数不全相等α=0.05先进行正态性检验、方差齐性检验,满足应用条件后,进行方差分析先进行正态性检验、方差齐性检验,满足应用条件后,进行方差分253医学数据统计分析方法-——基础篇课件254
多组比较的方差分析方差分析:(ANOVA,Fisher’sFtest)
整体比较(F值,P值)
两两比较:(multiplecomparison)
整体比较有差异后进行两两比较(P值)Tukey,SNK,Dunncan,Dunnett,Scheffe,LSD,Bonferroni,Sidak方差分析:(ANOVA,Fisher’sFtest)2553-3完全随机设计
——两组定性资料比较:①计数资料:采用完全随机设计2检验,或Fisher确切概率法;②等级资料:多采用两个独立样本比较的Wilcoxon秩和检验或Ridit分析。3-3完全随机设计256完全随机设计四格表资料χ2检验专用公式:(n≥40且所有的T≥5)
医学数据统计分析方法-——基础篇课件257完全随机设计四格表资料χ2检验的校正公式:(n≥40且某一个理论数1≤T<5)
完全随机设计258最小理论频数TRC的判断:R行与C列中,行合计数中的最小值与列合计数中的最小值所对应格子的理论频数最小。如本例,第2行与第2列所对应的格子理论频数最小(4.67)。
最小理论频数TRC的判断:259
某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果如下表。问两组降低颅内压的总体有效率有无差别?
例4:完全随机设计2检验
—专用公式(非校正公式)某院欲比较异梨醇口服液(试验组)例4:完全随机260
两组降低颅内压有效率的比较
两组降低颅内压有效率的比较261
SPSS实现:SPSS实现:262医学数据统计分析方法-——基础篇课件263医学数据统计分析方法-——基础篇课件264医学数据统计分析方法-——基础篇课件265例5:完全随机设计两组等级资料:例5:完全随机设计两组等级资料:266医学数据统计分析方法-——基础篇课件267◆上表中完全随机设计两组等级资料比较多采用两个独立样本比较的Wilcoxon秩和检验或Ridit分析。◆上表中完全随机设计两组等级资料比较多采用两个独立样本比较的2683-4完全随机设计
——多组定性资料比较:①计数资料:采用完全随机设计2检验,或Fisher确切概率法;②等级资料:采用多个独立样本比较的Kruskal-WallisH检验或Ridit分析。3-4完全随机设计269例6:完全随机设计
——行×列表资料2检验多个样本率的比较
某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见下表。问三种疗法的有效率有无差别?例6:完全随机设计
——行×列270三种疗法有效率的比较三种疗法有效率的比较271H0:π1=π2=π3,即三种疗法治疗周围性面神经麻痹的有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等α=0.05=21.04,=2,查界值表得P<0.005。按α=0.05水准,拒绝H0,接受H1,可认为三种疗法治疗周围性面神经麻痹的有效率有差别。
H0:π1=π2=π3,即三种疗法治疗周围性面神经麻痹的有272
行×列表资料χ2检验简化公式:
行×列表资料χ2检验简化公式:273行×列表χ2检验时的注意事项1.不宜有1/5以上的理论频数小于5或有1个格子的理论频数小于1。解决的办法有四种:
(1)性质相近邻行或邻列合并。
(2)增加样本量。
(3)删去理论数太小的行或列。(4)确切概率法
行×列表χ2检验时的注意事项2742.单向有序行列表(如下页表所示):(1)效应在构成比上有无差异:
χ2检验。(2)效应有无差异:秩和检验或Ridit分析。2.单向有序行列表(如下页表所示):275疗效A组B组C组治愈显效好转无效合计疗效A组B组C组治愈合计2763.双向有序且分类属性不同行列表
(如下页表)(1)粗略分析两个变量有无关系(用χ2检验)(2)详细分析两个变量有无相关关系及相关方向(用Spearman等级相关分析方法)(3)详细分析两个变量是否存在线性变化趋势(用有序分组资料的线性趋势检验)3.双向有序且分类属性不同行列表277眼底动脉硬化级别冠心病诊断结果正常可疑冠心病0ⅠⅡⅢ合计眼底动脉冠心病诊断结果正常可疑冠心病0合计2784.双向有序且分类属性相同行列表一致性检验(计算Kappa值)-++++++-++++++合计-++++++-合计2795.当多个样本率(或构成比)比较的χ2检验,结论为拒绝检验假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。若想进一步了解哪两者的差别有统计学意义,可用χ2检验多重比较。
5.当多个样本率(或构成比)比较的χ2检验,结论为拒绝检验假280例7:完全随机设计多组等级资料比较
—采用多个独立样本比较的Kruskal-WallisH检验或Ridit分析。
例7:完全随机设计多组等级资料比较
—采用多个独立样本比较的281医学数据统计分析方法-——基础篇课件2824.配对设计假设检验方法4.配对设计假设检验方法2834-1配对设计
——定量资料比较:①若差值服从正态分布,采用配对t检验;②若差值非正态分布,可进行变量变换后采用配对t
检验或采用配对设计Wilcoxon符号秩检验4-1配对设计284例8:配对t检验—同源配对例8:配对t检验—同源配对285医学数据统计分析方法-——基础篇课件286医学数据统计分析方法-——基础篇课件287
H0:μd=0H1:μd≠00.05
医学数据统计分析方法-——基础篇课件288其中
式中d为每对数据的差值,为差值的样本均数,Sd为差值的标准差,为差值样本均数的标准误,n为对子数。式中d为每对数据的差值,289例9:配对t检验
–异源配
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论