SPSS统计方法体系与案例实验进阶 课件 李望晨 第7-14章 列联表资料的检验-聚类分析与判别分析_第1页
SPSS统计方法体系与案例实验进阶 课件 李望晨 第7-14章 列联表资料的检验-聚类分析与判别分析_第2页
SPSS统计方法体系与案例实验进阶 课件 李望晨 第7-14章 列联表资料的检验-聚类分析与判别分析_第3页
SPSS统计方法体系与案例实验进阶 课件 李望晨 第7-14章 列联表资料的检验-聚类分析与判别分析_第4页
SPSS统计方法体系与案例实验进阶 课件 李望晨 第7-14章 列联表资料的检验-聚类分析与判别分析_第5页
已阅读5页,还剩192页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《SPSS统计方法体系与案例实验进阶》第7章列联表资料的检验

调查研究常见计数资料的交叉列联表分析.问卷选择题干是变量名,选项是类别划分.

列联表的行、列属性变量取值是计数资料,即定类(无序)资料或定序(有序)资料.三种类型:双向无序列联表、单向有序列联表及双向有序列联表.调查问卷中多见选择题,题干就是变量、选项就是分类.调查对象组成样本,行列类别交叉制定为表格形式,则选答情况计数填入表格.如根据性别男女+是否吸烟,请推断总体中性别与吸烟之间独立么?卡方检验适于双向无序分类变量独立(相关)检验,行列变量交换不会影响结果.但是,定序分类变量的列联表分析不适用卡方检验.如学业(优秀、良好、中等、较差);疗效(无效、好转、显效、痊愈).(1)单向有序分类资料(行列变量一个有序分类)用秩和检验;(2)双向定序资料(行列变量全为有序分类)用Kappa检验.7.1双向无序列联表的检验一、核心知识双向无序列联表检验:(1)两个分类变量(行列属性)之间的独立性或关联性推断;(2)总体率(发生与不发生)或构成比(类比例)有无差异推断.一般采用列联表的K.Pearson卡方检验.7.1双向无序列联表的检验

原假设H0:行列属性独立或各总体率(构成比)相等(π1=π2=…=πk).当样本量大于等于40,而理论频数大于等于1且小于5时,用校正的卡方统计量;当样本量小于40或理论频数小于1时,要用Fisher精确检验法.【实例1】[问题叙述]研究观察鼻咽癌患者与健康人的血型构成,请推断患鼻咽癌是否与血型有关.血型合计ABABO鼻咽癌648613020300健康人12513821026499合计18922434046799[实验目的]理解双向无序列联表卡方检验适用条件,掌握SPSS操作方法和结果解读.[操作步骤]变量要求:☆原始数据:行、列两个属性变量,数值型;数据为行、列属性取值.☆列联表数据:频数变量、行属性变量及列属性变量;频数变量要加权处理;频数变量取值就是频数,行、列两个属性变量取值是各频数对应的行、列.编码方案:人群类别变量“鼻咽癌=1、健康人=2”;血型类别变量“A=1、B=2、AB=3、O=4”.频数变量“交叉频数”录入列联表的所有频数;行变量“人群类别”和列变量“血型类别”分别录入各频数对应行和列.菜单选择:(1)变量加权“数据(Data)”→“加权个案(Weightcases)”,将频数变量“交叉频数”选入“频率变量(FrequencyVariable)”框,点击“确定(OK)”按钮.(2)双向无序列联表的K.Pearson卡方检验“分析(Analyze)”→“描述统计(DescriptiveStatistics)”→“交叉表(Crosstabs).界面设置:选择行变量“人群类别”进入“行(Row)”框,列变量“血型类别”进入“列(Column)”框(注意:“交叉频数”不要选择);点击“统计量(Statistics)”按钮,选“卡方(Chi-Square)”,在“名义”区域,选“相依系数(ContingencyCoefficient)”,点击”确定(OK)”.[结果分析]

表7-2汇总交叉列联表血型类别合计1234人群类别1648613020300212513821026499合计18922434046799表7-3列联表K.Pearson卡方检验值df渐进Sig.(双侧)Pearson卡方1.921a3.589似然比1.9243.588线性和线性组合1.4521.228有效案例中的N799表7-4相关系数及其检验值近似值Sig.按标量标定相依系数.049.589有效案例中的N799分类数据(如问卷):由SPSS软件自动汇总为交叉列联表形式(见描述性分析).经分析,统计量值=1.921,对应的概率值P=0.589,远大于显著性水平0.05,说明鼻咽癌患者与健康人的血型相关是无统计学意义的,认为血型与是否患鼻咽癌无关.相关系数为0.049(很小),说明相关程度很低,对应的概率值P=0.589,相关系数无统计学意义,认为血型与是否患鼻咽癌无关.7.2单向有序列联表的检验一、核心知识单向有序列联表检验主要指列联表的行变量无序,列变量(多个结果)有序的两组构成比的比较检验.其检验方法常用列联表的秩和检验(类似独立样本的秩和检验).原假设H0:总体的构成比一致.不同于前面给出原始资料情形下的秩和检验,这是经过列联表汇总的计数资料(频数资料)情形下的秩和检验.一般为大样本,SPSS软件结果中一般取统计量值为“Z”,对应的概率值P取“渐近显著性(Asymp.Sig.)”.【实例2】[问题叙述]某医生用A、B两种药物治疗慢性病,疗效评价采取自我评价,共有185人进行了治疗结束后的自我评价.请推断A、B两种药物对该慢性病的总体疗效有无差别.表7-5两种药物疗效比较结果药物疗效合计无效好转显效治愈A1521242989B2033251896合计35544947185[实验目的]理解单向有序列联表秩和检验适用条件,掌握SPSS操作方法和结果解读.[操作步骤]变量要求:☆原始数据:检验变量,变量类型为数值型,取值是两组的所有等级值数据结果;分组变量,变量类型为数值型,取值为数据结果分组编号(如1、2).☆列联表数据:检验变量,变量类型为数值型,取值是各个等级值;分组变量,变量类型为数值型,取值为分组编号(如1、2);频数变量,变量类型为数值型,取值为行、列变量对应的频数.定义三个变量,数值型:“频数”、“疗效”、“种类”.编码方案:种类变量“A药=1、B药=2”;疗效变量“无效=1、好转=2、显效=3、治愈=4”.将数据录入“频数”变量,录入时行、列变量与频数变量取值对应.菜单选择:(1)变量加权“数据(Data)”→“加权个案(Weightcases)”,将频数变量“频数”选入“频率变量(FrequencyVariable)”框,点击”确定(OK)”按钮.(2)单向有序列联表的秩和检验“分析(Analyze)”→“非参数检验(NonparametricTests)”→“两个独立样本(2IndependentSamples)”.界面设置:选择变量“疗效”进入“检验变量列表(TestVariablesList)”框;选择变量“种类”进入“分组变量(GroupingVariable)”框,点击“定义组(DefineGroups)”按钮,在“组1(Group1)”和“组2(Group2)”框中分别输入分组变量的两个取值1和2.点击“确定(OK)”.[结果分析]种类N秩均值秩和疗效A药89101.319016.50B药9685.308188.50总数185检验统计量a疗效Mann-WhitneyU3532.500WilcoxonW8188.500Z-2.103渐近显著性(双侧).035a.分组变量:种类A药和B药两组频数的平均秩分别为101.31和85.30,A药疗效的平均秩较高.统计量值Z=-2.103,对应的概率值P=0.035,小于显著性水平0.05,说明A药和B药两组疗效差异有统计学意义,认为两种药物对疗效有差别.7.3双向有序列联表的检验一、核心知识行、列变量取值有序、一致的行列属性相关检验,如两种治疗方法分类结果符合一致性程度用Kappa法.原假设H0:行列变量的属性值不一致(K=0).注意:Kappa法用于行列属性一致检验;McNemar法用于行列属性差别性检验;前者利用全部信息;后者仅利用非主对角线信息,分析结论会有一定差异.研究者可以从关注一致性,还是差异性来选择方法.【实例3】[问题叙述]收集147例冠心病病人,分别用对比法和核素法检查病人室壁收缩运动情况.请推断两种方法的检查结果是否一致?表7-8两法检查冠心病人室壁收缩运动的符合情况对比法核素法合计正常减弱异常正常582363减弱142750异常891734合计675327147[实验目的]理解双向有序列联表且属性相同的Kappa一致性检验适用条件,掌握SPSS操作方法和结果解读.[操作步骤]变量要求:☆原始数据:行列两个待检验的属性变量,变量类型为数值型或字符型;数据为行列两属性变量取值.☆列联表数据:频数变量、行属性变量及列属性变量,频数变量要加权处理.频数变量取值是列联表的交叉频数,行、列两个属性变量的取值是等级值.本例为汇总列联表数据,定义三个变量:频数变量“交叉频数”录入列联表的所有频数;行属性变量“对比法组”和列属性变量“核素法组”分别录入各等级的取值1,2,3.菜单选择:(1)变量加权主菜单“数据(Data)”→“加权个案(Weightcases)”,将频数变量“交叉频数”选入“频率变量(FrequencyVariable)”框,点击”确定(OK)”按钮.(2)双向有序列联表且属性值相同的Kappa检验“分析(Analyze)”→“描述统计(DescriptiveStatistics)”→“交叉表(Crosstabs)”.界面设置:选择行属性变量“对比法组”进入“行(Row)”框,列属性变量“核素法组”进入“列(Column)”框;点击“统计量(Statistics)”按钮,选“Kappa”,点击“确定(OK)”.[结果分析]

表7-10一致性Kappa系数及其检验对称度量值渐进标准误差a近似值Tb近似值Sig.一致性度量Kappa.681.05011.411.000有效案例中的N147经分析,一致性Kappa系数为0.681,说明两者一致性程度较高;检验统计量T=11.411,对应的概率值P=0.000<0.001,Kappa系数有统计学意义,认为对比法和核素法检查病人的室壁收缩运动的结果一致性较高.【练习1】[问题叙述]

治疗急性无黄疸型病毒性肝炎,请推断疗法疗效差异有无差别?“交叉表卡方检验”组别有效无效西药组5149中药组3545中西结合5915【练习2】[问题叙述]用罗氏培养基(A法)和罗氏+庆大霉素培养基(B法)分别对120只豚鼠皮肤真菌的生长情况进行观察.结果A法阳性率为50%,B法阳性率为25%,共同阳性率为20%.请推断两种培养基对真菌的检出率是否不同?“交叉表卡方检验”

A法B法阳性阴性合计阳性24630阴性365490合计6060120【练习3】[问题叙述]某医疗小组用两种疗法治疗脑血管梗死得到疗效结果.请推断疗法对治疗脑血管梗死的总体疗效有无差别?“交叉表秩和检验”表7-12两种疗法的疗效测定结果疗法疗效合计无效好转显效治愈甲21183230101乙26322717102合计47505947203【练习4】[问题叙述]某抗体间接血凝实验,样品测定方法有血清法、滤片纸法.请推断两种方法结果是否一致?“交叉表Kappa检验”表7-13两种方法的测定结果滤片纸法血清法合计-++++++-80109+0101011++0126229+++01067合计81228856一、核心知识两个定类变量相关性分析,就是双向无序的列联表行、列属性的相关性分析,在第6章介绍过一种卡方检验的非参数检验方法.例如,在交叉列联表界面(主菜单“分析(Analyze)”→“描述统计(DescriptiveStatistics)”→“交叉表(Crosstabs)”,点击“统计量(Statistics)”按钮.相关关系,如:身高与体重、教育程度与收入、学业成就与家庭环境等.8.1计数资料的相关分析8.11定类(名义)资料的相关性分析学习目标:1、熟悉分类变量的相关分析2、掌握数值变量的相关分析重点:数值变量的相关分析第8章资料的相关性分析定类(名义)变量相关性方法:1.相依系数或列联系数(contingencycoefficient):值介于0~1之间,越大表明两变量间相关性越强.2.Phi和Cramer变量(PhiandCramer'sV):φ系数(Phicoefficient),介于0~1之间,值越大则关联程度越强.Cramer'sV是Phi的一个调整.常用相依系数说明定类变量相关程度有无统计学意义.8.12定序(等级)资料的相关性分析指行、列变量双向有序取值情况下,列联表资料的行、列属性的相关性分析.利用交叉列联表界面(主菜单“分析(Analyze)”→“描述统计(DescriptiveStatistics)”→“交叉表(Crosstabs)”,点击“统计量(Statistics)”按钮.1.Gamma系数:描述有序分类数据联系强度的度量,介于-1~1之间.双变量相关界面主菜单“分析(Analyze)”→“相关(Correlate)”→“双变量(Bivariate)”.常用Gamma系数说明定序变量的相关程度有无统计学意义.除外,对于非交叉表(计数资料)形式下的两个定序或等级变量采用Spearman等级相关系数衡量定序变量相关关系,说明相关程度有无统计学意义.【实例1】[问题叙述]某医生观察某种皮肤真菌感染的临床试验.请推断该病的疗效是否与病程有关.病程(月)痊愈好转无效合计<1792481111~30131443~1028330215>6029261065合计24014649435[实验目的]理解计数资料(定序、定序)相关分析的适用条件,掌握SPSS操作方法及结果解读.[操作步骤]变量要求:☆原始数据:定义行、列属性变量,变量类型为数值型.数据分别为行列属性变量的取值.☆列联表数据:定义频数变量、行属性变量及列属性变量,变量类型皆为数值型,且频数变量要加权处理;频数变量取值是频数,行、列属性变量取值是频数对应的行、列等级.病程和疗效都是等级资料,但分类不一致,且为汇总列联表数据.定义三个变量:频数变量“频数”录入列联表的所有频数;行变量“病程”和列变量“疗效”分别录入对应行(1,2,3,4)和列等级(1,2,3).界面设置:选择变量“病程”进入“行(Row)”框,变量“疗效”进入“列(Column)”框;单击“统计量(Statistics)”按钮,在“有序(Ordinal)”区域选择“Gamma”,单击“继续(Continue)”,单击“确定(OK)”按钮.菜单选择:(1)变量加权主菜单“数据(Data)”→“加权个案(Weightcases)”,将“频数”选入“频率变量(FrequencyVariable)”框,点击“确定(OK)”按钮.(2)计算Gamma系数分析“分析(Analyze)”→“描述统计(DescriptiveStatistics)”→“交叉表(Crosstabs)”.(2)Spearman等级相关分析主菜单“分析(Analyze)”→“相关(Correlate)”→“双变量(Bivariate)”.界面设置:

选择变量“病程”、“疗效”进入右侧“变量(Variables)”框;相关系数选择“Spearman”,点击“确定(OK)”按钮.[结果分析](1)Spearman等级相关分析结果病程疗效Spearman的rho病程相关系数1.000.215**Sig.(双侧)..000N435435疗效相关系数.215**1.000Sig.(双侧).000.N435435经分析,病程和疗效的Spearman等级相关系数为0.215,对应的概率值P=0.000<0.001,说明两者相关程度有统计学意义,认为病程和疗效之间有低度相关性.注意:大样本情况下相关系数较低,总体相关却有统计学意义,查公式便知.(2)Gamma系数分析结果表8-3Gamma系数表值渐进标准误差a近似值Tb近似值Sig.按顺序γ.316.0664.676.000有效案例中的N435病程和疗效的Gamma系数为0.316,对应的概率值P=0.000<0.001,远小于0.05,说明两者相关程度较低,但有统计学意义,认为病程和疗效之间有低度相关性.8.2计量资料的相关分析一、核心知识1.Pearson积差相关系数常用于度量定距变量间的线性相关关系,反映两变量线性相关程度的强弱,但不能用于度量两变量之间的非线性关系.皮尔逊线性相关系数特点:X与Y均是服从正态分布的连续型数值变量.(1)对称性:X与Y相关系数和Y与X相关系数相等.(2)无量纲性:r数值大小与X和Y的原点位置及量纲(或单位\尺度)无关.(3)线性关系度量:描述线性关系程度,不能反映非线性关系.(4)非依存关系度量:r是线性“共变”关系的度量.r取值[-1,1];|r|=1完全相关;r>0则两个变量正相关,r<0则两个变量负相关;若不满足应用条件,则用Spearman等级相关系数.2.相关系数显著性检验:样本相关系数r根据样本观测值计算,作为随机变量(统计量)受抽样误差影响,由样本相关系数推断总体相关系数是否为0:(1)

建立原假设H0:

=0(X与Y不相关);备择假设H1:≠0(2)

计算样本相关系数r值;(3)

给定显著性水平,自由度为n-2,查表得临界值r

/2(n-2);(4)

当|r|≥r

/2,则P<,拒绝H0,认为变量X与Y相关性有统计学意义;当|r|<r

/2,则P>,接受H0,认为变量X与Y相关性有统计学意义.3.Spearman相关分析(等级相关分析)【实例2】[问题叙述]研究儿童体重(X)与心脏横径(Y)之间的关系,测量10名8岁正常男童的体重与心脏横径,试分析X和Y相关性.编号12345678910体重(kg,X)25.519.524.020.525.022.021.523.526.523.5心脏横径(cm,Y)9.27.89.48.69.08.89.09.49.78.8非参数法,变量分布无严格要求,范围广,适于非正态分布或定序(等级)资料:如变量X与Y不服从正态分布、分布类型未知、等级资料.将原始数值由小到大排序,编秩,以秩计算Spearman相关系数rs.[实验目的]理解K.Pearson积差相关系数特点、适用范围及条件,掌握SPSS操作方法及结果解读.[操作步骤]变量要求:两个(或多个)检验变量,变量类型为数值型.定义2个变量:体重、心脏横径,变量类型为数值型的;分别录入相关数据.菜单选择:主菜单“分析(Analyze)”→“相关(Correlate)”→“双变量(Bivariate)”.界面设置:选择变量“体重”、“心脏横径”进入右侧“变量(Variables)”框;相关系数选择“Pearson”,点击“确定(OK)”按钮.[结果分析]表8-5K.Pearson相关分析表体重心脏横径体重Pearson相关性1.830**显著性(双侧).003N1010心脏横径Pearson相关性.830**1显著性(双侧).003N1010经分析,“体重”和“心脏横径”的K.Pearson相关系数r=0.830,对应的概率值P=0.003,小于显著性水平0.05,说明两者线性相关程度较高,且有统计学意义,认为儿童体重和心脏横径之间有较明显线性相关关系.【练习1】[问题叙述]研究住户人口密度与婆媳冲突是否相关,住户人口密度分为低(1)、中(2)、高(3)三个级别,婆媳冲突分为低(1)、中(2)、高(3)三个级别.调查某市200个住户,请对住户人口密度与婆媳矛盾进行相关性分析.婆媳冲突住户人口密度合计高中低高2320447中11552894低8272459合计4210256200【练习2】[问题叙述]研究身高和体重关系,调查10名学生身高和体重资料,请进行相关分析.表8-710名学生身高与体重资料编号12345678910身高(cm)171167177154169175163152172162体重(kg)53566449556652475850回归分析中有因变量(被解释变量)和自变量(解释变量),因变量是随机变量,自变量也称为因素变量,是可以加以控制的变量.9.1线性回归分析回归分析中,自变量和因变量之间关系是线性相关关系时,称线性回归分析.按照自变量多少分为一元回归分析和多元回归分析;回归分析步骤:(1)自变量和因变量;(2)模型选择;(3)参数估计;(4)模型检验;(5)模型应用.包括线性回归、曲线回归、二元logistic回归、Probit回归、非线性回归等.学习目标:1、掌握一元线性回归分析2、掌握多元线性回归分析3、熟悉曲线回归分析和非线性回归分析重点:1、一元线性回归分析2、多元线性回归分析第9章回归分析一、核心知识1.1一元线性回归模型仅有一个自变量的线性回归模型,用于揭示因变量与自变量之间线性关系.1.2一元回归分析步骤:(1)绘制散点图,显示变量之间关系;(2)求相关系数,衡量变量之间关系的密切程度;(3)判断变量之间有无因果(或依存)关系;(4)确定自变量x和因变量y;(5)设计回归分析模型结构;(6)估计模型中参数,识别回归方程;(7)回归方程显著性检验;(8)回归模型应用.

1.3多元线性回归模型多元线性回归模型用于揭示因变量与其他多个自变量之间的线性依存关系.模型整体性检验、回归系数检验、残差自相关检验(D-W)、多重共线性分析以及模型的拟合优度分析等.自变量筛选有进入、逐步、删除、向后、向前方法,常用逐步回归法.变量x1,x2,…,xm多重共线性:(1)模型拟合效果很好,但偏回归系数无统计学意义.(2)偏回归系数估计值方差很大.(3)偏回归系数估计值不稳定,随着样本含量增减,偏回归系数变化较大,或当自变量被引入或剔除时其余变量偏回归系数有变化影响.(4)偏回归系数估计值大小和符号与经验难以解释.【实例1】[问题叙述]某地8名14岁男童身高x1(cm),体重x2(kg),肺活量y(L)的实测值数据见表9-1,试对该地区14岁男童肺活量关于身高、体重进行多元线性回归分析.编号12345678身高(x1)135.1163.6156.2167.8145.0165.5153.3154.6体重(x2)32.046.237.141.533.049.541.039.5肺活量(y)1.752.752.752.752.503.002.752.50[实验目的]理解线性回归分析适用条件,掌握SPSS操作方法及结果解读.[操作步骤]

变量要求:一个因变量,变量是服从(或近似服从)正态分布的连续型变量;一个(或多个)自变量,类型可以是连续型变量,也可以是有序变量或分类变量.定义“身高”、“体重”、“肺活量”3个变量,变量类型为数值型的,分别录入.菜单选择:主菜单“分析(Analyze)”→“回归(Regression)”→“线性(Linear)”.界面设置:选择变量“肺活量”进入“因变量(Dependent)”框,选择变量“身高”、“体重”进入“自变量(Independent)”框,在“自变量(Independent)”下方的“方法(Method)”下拉列表中选用“逐步(Stepwise)”法进行回归.单击“统计量(Statistics)”按钮,在”回归系数(RegressionCoefficient)区域,选择“估计(Estimates)”用于估计回归方程系数并检验、“模型拟合度(Modelfit)”用于拟合优度分析、“描述性(Descriptives)”、“共线性诊断(CoffinearityDiagnostics)”用于多重共线性分析;在“残差(Residuals)”区域,选“Durbin-waston”用于残差自相关检验,单击“继续(Continue)”按钮返回主界面;单击“绘制(Plots)”按钮,选用DEPENDENT和*ZPRED作图,在“标准化残差图”区域,选择“直方图(Histogram)”和“正态概率图(Normalprobabilityplots)”(P-P图),单击“继续(Continue)”按钮返回主界面.其它选项默认,点击“确定(OK)”按钮.[结果分析]均值标准偏差N肺活量2.5938.376498身高155.137511.009088体重39.97506.018968(2)变量输入或者移去的情况模型输入的变量移去的变量方法1身高步进(准则:F-to-enter的概率<=.050,F-to-remove的概率>=.100).经分析,采用逐步回归法变量引入和剔除,显示引入与剔除的判别标准(引入标准是P<0.05,剔除标准是P>0.10).自变量“身高”被引入,“体重”没有被引入.(3)模型摘要模型RR方调整R方标准估计的误差Durbin-Watson1.872a.760.720.199132.036经分析,复相关系数(R)为0.872,判定系数(R2)为0.760,调整判定系数(R2)为0.720,从而认为拟合效果较好.由残差自相关系数Durbin-Watson=2.036,认为无自相关性(1.5~2.5则无自相关性).(4)方差分析模型平方和df均方FSig.1回归.7541.75419.023.005残差.2386.040总计.9927经分析,F统计量值为19.023,对应的概率值P=0.005,小于显著性水平0.05,认为回归方程有效,肺活量与身高之间有线性关系.(5)回归方程的系数以及系数检验模型非标准化系数标准系数tSig.共线性统计量B标准误差容差VIF1(常量)-2.0321.063-1.912.104身高.030.007.8724.362.0051.0001.000经分析,偏回归系数、回归系数检验t统计量值、对应的概率值P均已给出.方程的常数项为-2.032,偏回归系数b1为0.030,对应的概率值P=0.005,小于显著性水平0.05,说明有统计学意义.线性回归方程为容差(容忍度)越接近1,方差膨胀因子(VIP)越小,则多重共线性越弱.9.2曲线回归分析一、核心知识1.基本原理变量间的非线性关系可以分为本质线性关系和本质非线性关系.本质线性关系是指可以转化为线性关系,再利用线性回归分析;本质非线性关系是指非线性关系不能转化为线性关系,无法利用线性回归分析建立模型,只能选取非线性回归分析,而由迭代法进行参数识别.首先,作散点图以粗略观察曲线形状;其次,结合专业知识分析,或从长期积累数据中找出变量关系.比如细菌繁殖成倍增长时,细菌总量与时间t有指数函数变化关系.有时难以确定哪种模型更接近,如二次曲线、三次曲线和指数曲线不好选择.不妨首先点选多个模型,再比较优选.模型参数估计并输出回归方程显著性检验的F值和概率值P、判定系数R2,以判定系数R2为依据选择最优模型.以时间t为自变量、数据本身y为因变量确定曲线模型,时间序列拟合及预测.【实例2】[问题叙述]研究发现,锡克氏试验阴性率(y)随儿童年龄(x)增长而升高.已知山东省某地1~7岁儿童资料,请选择合适曲线建立非线性回归分析模型.表9-9儿童锡克氏试验阴性率情况表年龄x(岁)1234567阴性率y(%)56.775.990.893.296.695.796.3[实验目的]理解曲线回归的适用条件,根据样本数据建立曲线回归方程,选择相对最优模型.[操作步骤]变量要求:一个因变量,变量类型为数值型;一个自变量,变量类型为数值型.定义“年龄”和“阴性率”两个变量,两个变量的类型为数值型,录入数据.菜单选择:主菜单“分析(Analyze)”→“回归(Regression)”→“曲线估计(CurveEstimation)”.界面设置:选择变量“阴性率”进入“因变量(Dependent)”框,选择变量“年龄”进入“变量(Variable)”框;在“模型(Models)”区域,选择“线性(Linear)”、“二次项(Quadratic)”、“对数(Logarithmic)”、“立方(Cubic)”.点击“确定(OK)”按钮.[结果分析](1)模型情况表9-11曲线回归估计结果情况因变量:阴性率方程模型汇总参数估计值R方Fdf1df2Sig.常数b1b2b3线性.71512.55315.01763.0005.864对数.91452.99915.00160.99020.911二次.97166.18624.00138.71422.055-2.024三次.995196.22133.00124.71437.999-6.690.389经分析,四个模型判定系数都比较大,模型拟合程度通过显著性检验.三次曲线拟合优度最高(R2=0.995),认为对数据解释能力最强,对应的概率值P=0.001<0.05.三次曲线模型(2)拟合曲线图形圆圈为实际值,三次曲线的拟合效果最好9.3非线性回归分析一、核心知识1.基本原理估计因变量和自变量之间具有任意关系的模型,由迭代法估计参数.(1)函数是否能准确描述因变量x和自变量y的关系.(2)选择初始值重要,如果初始值不合适,则迭代过程不收敛.【实例3】[问题叙述]测得某女童1~9月的身高数据,身高关于时间进行非线性回归分析.时间x(月)123456789身高y(cm)545761636466676869[实验目的]理解非线性回归分析适用条件,根据样本数据选择适当的函数模型和初始值,利用SPSS拟合出因变量关于自变量的非线性回归模型.[操作步骤]变量要求:一个因变量,变量类型为数值型;一个(或多个)自变量,变量类型为数值型.定义“时间”和“身高”两个数值型变量,然后分别录入相关数据.绘制因变量“身高”关于自变量“时间”的散点图,结合经验、专业知识,判断“身高”与“时间”的关系曲线与对数函数曲线接近.菜单选择:主菜单“分析(Analyze)”→“回归(Regression)”→“非线性(Nonlinear)”.界面设置:选择变量“身高”进入“因变量(Dependent)”框;在“模型表达式(ModelExpression)”框中,编辑因变量关于自变量的函数关系式“a+b*ln(时间)”.初始参数设置比较重要,因变量随着自变量增加而增加,初步判断a、b都是正数,不妨先设置初始值a=1,b=1.单击主界面(图9-6)中的“参数(Parameters)”按钮.在“名称(Name)”框输入“a”,然后在“初始值(StartingValue)”框输入“1”,单击“添加(Add)”按钮;同样添加b的初始值为1.[结果分析](1)参数估计值参数估计标准误95%置信区间下限上限a53.204.44152.16154.248b7.043.2806.3807.705(2)最终分析结果非线性回归迭代过程收敛,最优解被找到;拟合优度好,决定系数为0.989;模型参数值有统计学意义.最终模型表达式为:y=53.204+7.043lnx

在实际应用中,经常遇到结局为定类资料情况:二分类变量:

是与否、有与无、阴性与阳性、吸烟与不吸烟、满意与不满意;多分类变量:

血型为“A、B、O和AB型”;疗效为“痊愈、显效、好转、无效”.线性回归无法满足因变量的要求而失效,Logistic回归分析可分析此类问题.1.基本原理已知自变量X1,X2,X3,…,Xm,结局事件Y为二分类因变量,赋值“发生Y=1,未发生Y=0”.自变量X1,X2,X3,…,Xm一般为定类变量或定序变量.记P=P(Y=1)为发生概率,P(Y=0)=1-P为不发生概率,则P取值介于0~1之间.10.1二分类Logistic回归分析一、核心知识表达二分类因变量与多个自变量(影响因素)关系.学习目标:1、熟悉logistic回归分析的提出思想2、掌握二分类logistic回归分析3、熟悉无序多分类logistic回归分析和有序多分类logistic回归分析重点:1、二分类logistic回归分析第10章Logistic回归分析如果建立线性回归方程鉴于自变量可取任意值,则P取值范围变为显然这与P取值[0,1]相互矛盾、无法解释.考虑构造出P的单调函数使之取值为且在P=0或1附近变化敏感.取值范围为称为发生与不发生优势比,流行病学中广泛应用.不妨作变换取值范围构造与m个自变量的回归方程:其中为常数项,为回归系数.取值范围系数解释为自变量X变化一个单位,引起的改变量.回归方程等价形式为模型参数根据样本数据估计得出,因其过程复杂性而由软件完成.2模型参数2.1优势与优势比(1)优势(odds)优势(odds)是指控制其余自变量而某个自变量取值变化,结局事件发生与不发生概率的比值,即,称为比数或比值.(2)优势比(oddsratio,OR)某个影响因素不同水平的优势比值之比,也称为优势比.如有水平值C2和C1,则C2相对于C1的优势比为.OR表示影响因素不同水平变化对结局事件发生影响方向和影响能力.OR>1表示该因素为危险因素;OR<1表示该因素为保护因素;OR=1表示该因素与事件的发生没有关系.2.2系数意义假设自变量Xj有水平值C1、C2,其中C2>C1.也就是P1、P2分别表示Xj取值为C1、C2时的概率.表示控制其他自变量值,自变量Xj值每增加1个单位时变化量.设Xj暴露赋值1、非暴露赋值0,则暴露相对于非暴露的优势比则水平C2相对于水平C1的优势比:回归系数与优势比(OR)j关系为=ln(OR)j.(1)=0时,(OR)j=1,说明因素Xj对事件发生(Y=1)不起作用.(2)>0时,(OR)j>1,

说明Xj是危险因素,Xj取值增大会增加事件(Y=1)概率.(3)<0时,(OR)j<1,说明Xj是保护因素,Xj取值增大会减少事件(Y=1)概率.3.自变量赋值随着自变量赋值方式不同,参数估计值及符号也不同,则结果解释意义也不同.3.1二分类变量赋值较小的水平常作为参照水平,二分类变量X常以0和1赋值.例如“有=1,无=0”;“男=1、女=0”.水平1与水平0的优势比有解释意义.3.2无序多分类变量若为比较无序分类之间的类别变化,可以将所有分类转化设置为哑变量形式.OR用于解释其他类与参照类相比,引起结局事件Y发生与不发生概率的倍数.无序多分类的自变量X转化为哑变量:k个类别等同为k-1个哑变量(同进同出).如教育程度共4个水平(类别):文盲、小学、初中、高中以上.以“文盲”为参照,将教育程度4个水平(类别)转化为3个哑变量X1、X2、X3.表10-1哑变量设置表教育程度X1X2X3“文盲=0”000“小学=1”100“初中=2”010“高中以上=3”001仅考虑教育程度影响,则回归方程:文盲小学初中高中以上以文盲作为参照,比数比无序多分类变量须设置哑变量,以最后一个类别为默认参照.参照选取不同,则OR数值解释也不同,用户根据实际需要选择参照水平,在列表框中设置指示符,点击更改按钮并得以生效.OR值:X1→小学对比文盲、X2→初中对比文盲、X3→高中以上对比文盲.3.3有序多分类变量若为比较有序分类之间的数值变化,可以不设置哑变量,则OR用于解释等级取值每改变一个单位,引起结局事件Y发生与不发生概率的倍数变化.如果设置哑变量,则与无序分类变量相似解释.3.4连续型数值变量若以连续型数值变量作为自变量(少用),解释为取值每改变一个单位,引起结局事件Y发生与不发生概率的倍数变化,OR值变化往往无统计学意义,一般将其转化为有序分类变量(分类水平值),在每个水平值间比较分析.例如,以年龄为连续型数值变量,比较患与不患高血压的风险倍数变化.实际上,由X岁变为X+1岁,1岁增加前后患高血压风险优势比往往无变化.于是,不妨将年龄分组,讨论高年龄组相对于低年龄(参照组)每改变一个级别引起的患高血压风险的优势比,更有实际解释意义.二、应用条件及范围(1)数据来自随机样本,观察对象之间相互独立.(2)因变量为二分类变量.自变量一般为定序变量或定类变量(须转换哑变量).(3)自变量与logit(P)(即)之间为线性表达式关系.(4)样本量足够大,否则参数估计值不稳定现象,有时甚至无法计算.经验认为,试验和对照人数至少为30~50例,样本量至少为自变量数5~10倍.三、Logistic回归分析的应用Logistic回归广泛用于社会、心理或流行病调查领域的影响因素分析.(1)寻找危险(影响)因素,筛选因变量的危险(影响)因素.(2)预测:根据自变量预测某事件发生的概率(3)判别:根据自变量判断属于某事件的概率Logistic回归一般步骤:“变量编码→哑变量设置→自变量单因素分析→变量筛选→交互作用考察→模型优选→模型评价→结果解释”.在专业设计(调查问卷)时有意选择具有实际意义的自变量,在统计设计时首先进行单因素分析(粗选),继续由Logistic回归方法作多因素分析.【实例1】[问题叙述]筛选糖尿病发生的影响因素,由Logistic回归模型进行分析.令X1,X2,...,X7为自变量,Y为因变量(二分类).表10-2糖尿病患病可能影响因素赋值表因素变量名赋值说明年龄(岁)X1连续变量性别X2男=1、女=0糖尿病家族史X3无=0、有=1体重指数X4超重=1、肥胖=2、正常=3吸烟X5不吸烟=0、吸烟=1饮酒X6不饮酒=0、饮酒=1血压X7正常=0、不正常=1糖尿病Y患病=1、不患病=0表10-3糖尿病相关影响因素调查资料(不列出、见数据库)[实验目的]理解二分类Logistic回归分析的基本原理、应用条件、主要用途,掌握模型参数与优势比OR值的关系与含义,利用SPSS根据样本数据建立因变量关于自变量的Logistic回归方程,筛选出主要的影响因素,并解释实际意义.[操作步骤]变量要求:一个因变量,变量类型为数值型或字符型,且是为二分类变量;一个(或多个)自变量,类型可以是连续型变量,也可以是定序变量或定类变量.定义9个变量:编号X1,X2,...,X7,Y,变量类型为数值型的,分别录入关数据.菜单选择:主菜单“分析(Analyze)”→“回归(Regression)”→“二元Logistic(BinaryLogistic)”.界面设置:选择因变量Y进入“因变量(Dependent)”框,选自变量X1,X2,...,X7到“协变量(Covariates)”框;在“方法(Method)”中选择“向前:条件(Forward:Conditional)”方法.自变量筛选方法:进入(强行进入法,所有变量一次全部进入方程)、向前:条件(向前法,基于条件参数似然比检验的结果剔除变量)向前:LR(向前法,基于偏最大似然比检验的结果剔除变量)向前:Wald(向前法,基于Wald统计量的结果剔除变量)向后:条件(后退法,基于条件参数似然比检验的结果剔除变量)向后:LR(后退法,基于偏最大似然比检验的结果剔除变量)向后:Wald(后退法,基于Wald统计量的结果剔除变量).无序多分类自变量X4-体重指数(超重=1、肥胖=2、正常=3),须设置哑变量.在三个以上类别情况下,单击“分类(Categorical)”按钮,设置哑变量.将X4选入“分类协变量(CategoricalCvariates)”框,对比方式以默认“指示符”,参考类别是“最后一个”,点击更改.OR值是以“体重正常”为参照,超重和肥胖相对优势之比.单击“继续(Continue)”;单击“选项(Options)”按钮,选取“exp(B)CI:95%”,生成OR值95%可信区间.单击“确定(OK)”按钮.表10-5哑变量赋值情况频率参数编码(1)(2)体重指数超重101.000.000肥胖8.0001.000正常12.000.000[结果分析]表10-4和表10-5显示因变量Y和哑变量X4的赋值情况.请注意:二分类Logistic过程默认以因变量较大取值的概率P(Y=1),分析结果时要弄清因变量的赋值情况,确保解释正确性;可以设置哑变量的对照类型,默认最后一个.(2)回归方程的检验与分析表10-6模型的整体性检验结果卡方dfSig.步骤1步骤14.4491.000块14.4491.000模型14.4491.000步骤2步骤9.5841.002块24.0332.000模型24.0332.000统计量为24.033,对应的概率值P=0.000<0.001,在显著性水平0.05下模型有统计学意义.表10-7模型拟合优度分析结果步骤-2对数似然值Cox&SnellR方NagelkerkeR方126.605a.382.513217.021b.551.739经拟合优度分析,Cox&SnellR2=0.551,NagelkerkeR2=0.739,越接近1说明拟合优度越好,本例中的拟合优度情况良好.模型回归系数检验方法常用Wald卡方检验.表10-8模型回归系数及其检验和OR值BS.EWald卡方统计量dfSig.Exp(B)即OR值Exp(B)的95%C.I.下限上限步骤1aX33.245.99810.5771.00125.6673.631181.437常量-1.299.6513.9791.046.273步骤2bX1.187.0766.0561.0141.2051.0391.398X33.5521.4026.4181.01134.8802.234544.468常量-9.9323.8016.8281.009.000B、SE、Wald、df、Sig、Exp(B)及95%CI分别表示偏回归系数、标准误、统计量、自由度、P值、OR值及其95%置信区间.经分析,经过2次变量筛选后,X1(年龄)、X3(糖尿病家族史)被引入方程,回归系数的Wald检验,对应的概率值P均小于0.05,说明都有统计学意义.(3)结论Logistic回归方程或影响因素有年龄(OR=1.205)和糖尿病家族史(OR=34.880),OR值均大于1,说明年龄、糖尿病家族史为糖尿病的危险因素,糖尿病家族史是最危险因素.若年龄每增加一岁,患与不患糖尿病风险之比是原来年龄的1.205倍;若有糖尿病家族史,患与不患糖尿病风险之比是无糖尿病家族史的34.880倍.由此认为,有糖尿病家族史的老年居民是糖尿病的高发、易发人群.补充:由经验常识,年龄增长1岁则患与不患糖尿病风险之比往往变化不明显.此题若对年龄按分段组别来划分:(1)如果将年龄组别划分为有序分类数值,则年龄每上升一个等级,患与不患糖尿病风险之比是原来年龄等级的倍数.(2)如果将年龄组别划分为无序分类数值,则不妨以低年龄组作为参照,解释其他年龄组与低年龄组患与不患糖尿病风险的倍数.【练习1】[问题叙述]胃癌手术后预后因素分析资料共98例,指标如下:Y:手术后三年情况(死亡=1、存活=0)X1:胃癌位置(1=胃底、2=胃体、3=胃窦)X2:胃癌大小(0、1、2、3、4、5级)X3:大体类型(1=溃疡、2=肿块、3=浸润)X4:组织学类型(1=腺癌、2=粘液癌、3=未分化癌、4=混合型)X5:深度(1、2、3、4、5、6级)X6:淋巴结转移(0、1、2、3级)X7:手术方式(1=I式、2=Ⅱ式、3=近胃、4=全切除)X8:血色素(g/L)X9:白细胞(个/立方毫米)X10:手术时年令(岁)X11:性别(1=男性、0=女性)X12:是否化疗(1=用化疗、0=未用化疗)请以Y为因变量,X1~X12为自变量,逐步进行Logistic回归.注意:X1、X3、X4和X7为无序多分类变量,应设置为哑变量;X2、X5、X6为有序多分类变量,不必设置为哑变量;X8、X9为连续型数值变量,不必设置为哑变量.不同类型变量筛选中,OR值解释将会有差别.11.1生命表分析一、核心知识生存资料中要获得各时间点上生存函数的估计值,常用寿命表法.特点:疗效指标中既有结局变量、又有时间变量,随访对象可能会释放或死于其他疾病,由于研究经费和时间限制不可能等到所有观察对象都出现结局才终止.生存分析方法既考虑结局Y,又考虑生存时间t.生存时间:从起始事件到终点事件之间所经历的时间跨度.失效事件:反映治疗效果特征的时间,又称死亡事件或终点事件.资料类型:

完全数据或截尾数据.截尾:

失访、退出或终止.学习目标:1、掌握寿命表法和LM法2、掌握COX回归分析重点:1、COX回归分析第11章生存分析1.基本原理寿命表法采用与编制生命表相似的原理计算生存率,通过计数落入区间[t,t+k]内的失效和截尾的观察例数来估计该区间死亡概率,然后根据概率的乘法原则,将不同时期的生存概率相乘,得到自观察开始到指定某一时刻的生存率.2.应用条件(1)寿命表法适用于区间数据:当资料是按照固定时间间隔收集,随访结果是该年或该月期间若干观察人数、出现预期观察结果数和截尾数(删失数),数据总结成若干个时段频数表形式,每位患者确切生存时间未知,应当用寿命表法进行研究;(2)寿命表法适用于观察例数较多而分组的大样本生存资料.

3.适用范围与对象(1)估计某生存时间的生存率,以及生存时间中位数;(2)绘制各种曲线:如生存函数、风险函数曲线等;(3)对某一研究因素不同水平的生存时间分布的比较;(4)控制另一个因素后对研究因素不同水平的生存时间分布的比较;(5)对多组生存时间分布进行两两比较.【实例1】[问题叙述]现有450例肺癌患者的随访资料,请对其生存情况进行描述.表11-1450例肺癌患者的随访资料术后年数012345678910期间死亡人数9082655240302015842期间删失人数324108542121[实验目的]理解寿命表基本思想、应用条件及适用范围,掌握SPSS操作方法和结果解读.[操作步骤]变量要求:将资料整理成频数表形式,时间变量,类型为数值型;频数变量,类型为数值型,加权;结局变量,类型为数值型;还可以有分组变量,类型为数值型.随访时间数据是时间变量取值;随访期间的死亡和删失人数是频数变量取值;结局变量取值为1和0:若频数为死亡则赋值1,若频数为删失(截尾)则赋值0.定义一个时间变量“术后年数”,一个频数变量“人数”,一个结局变量“结局”,并设置其“值(Value)”为“1=死亡,0=删失”.将术后年数录入时间变量,将期间死亡人数和期间删失人数录入频数变量,将频数变量对应的两类数据分别录入1、0至结局变量.菜单选择:(1)变量加权:主菜单“数据(Data)”→“加权个案(WeightCases)”→“加权个案(Weightcasesby)”;选频数变量“人数”到“频率变量(FrequencyVariable)”框,点击“确定(OK)”按钮.(2)生命表分析:主菜单“分析(Analyze)”→“生存函数(Survival)”→“寿命表(LifeTables)”.界面设置:将“术后年数”选入“时间(Time)”栏;在“显示时间间隔(Displaytimeintervals)”区域,在“0到(0through)”框填入最大生存时间的上限10;在“步长(by)”框填入生存时间的组距1;在“状态(Status)”框选入结局变量“结局”,点击“定义事件(DefineEvents)”按钮,在“单值(SingleValue)”框填入1.在主界面中,单击“选项(Option)”按钮,在“图形(Plot)”区域,勾选“生存函数(Survival)”,点击“继续(Continue)”,其它按默认值,点击“确定(OK)”按钮.经分析,中位数生存时间为2.78年,表明术后死亡人数达到一半时间为2.78年.其他指标:☆终结比例,即死亡概率;☆生存比例,即生存概率;☆期末的累积生存比例,即截止本段上限的累积生存概率;☆概率密度指所有个体在时点t后单位时间内死亡概率估计值;☆风险率,表示活过时点t后、单位时间内死亡概率估计值;☆风险率的标准误等.期初时间期初记入数期内退出数历险数期间终结数终结比例生存比例期末累积生存比例概率密度风险率04503448.50090.20.80.80.201.2213572356.00082.23.77.62.184.2622734271.00065.24.76.47.148.27320410199.00052.26.74.35.122.3041428138.00040.29.71.25.100.34594591.50030.33.67.16.080.39659457.00020.35.65.11.058.43735234.00015.44.56.06.047.57818117.5008.46.54.03.027.599928.0004.50.50.02.016.6710312.5002.80.20.00.000.00表11-2肺癌患者术后寿命表图11-2为累积生存率曲线图,横坐标为生存的时间,而纵坐标是生存函数的大小.显然,随着时间流逝,生存的概率递减,曲线呈下降趋势.11.2Kaplan-Meier分析一、核心知识Kaplan-Meier法利用条件概率及概率乘法原理计算生存率及标准误,又称乘积极限法(Product-LimitMethod,P-L法).1.1生存率计算:(1)生存时间由小到大排列;(2)生存时间t对应的死亡人数;(3)期初观察人数;(4)计算条件死亡率及条件生存率;(5)计算活过t时点的生存率.生存率的标准误计算:1.2生存曲线:以生存时间为横轴,生存率为纵轴绘制生存曲线并描述生存过程,又称K—M曲线,分析时应注意曲线高度和下降坡度.1.3中位生存时间(生存时间中位数):50%个体存货期大于该时间.2.应用条件Kaplan-Meier分析适用于小样本或者大样本未分组资料的生存率的估计和组间生存率的比较,主要用于样本含量较小的资料分析.3.适用范围与对象(1)估计各生存时间的生存率和中位生存时间;(2)绘制曲线:如生存函数、风险函数曲线等;(3)某因素不同水平的生存时间有无差异比较;(4)控制某个分层因素后对研究因素不同水平的生存时间分布比较;(5)多组生存时间分布两两比较;(6)各总体分布比较采用Log-rank等非参数方法.【实例2】[问题叙述]中药加化疗(中药组)和化疗(对照组)疗法治疗白血病,随访记录患者生存时间,不带“+”号者表示已死亡,即完全数据;带“+”号者表示尚存活,即截尾数据,请作生存分析.表11-3两组疗法治疗白血病随访资料(单位:月)中药组102+12+13186+19+269+8+6+43+943124对照组2+137+11+61113177[实验目的]理解Kaplan-Meier法基本思想、应用条件及适用范围,掌握SPSS操作方法和结果解读.[操作步骤]变量要求:时间变量,类型为数值型;结局变量,类型为数值型;还可以有分组变量,类型为数值型或字符型.随访时间数据是时间变量取值;结局变量取值为1和0(死亡为1,截尾为0).定义时间变量“生存时间”;结局变量“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论