第九章 高级统计方法概论_第1页
第九章 高级统计方法概论_第2页
第九章 高级统计方法概论_第3页
第九章 高级统计方法概论_第4页
第九章 高级统计方法概论_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章第九章 高级统计方法概论高级统计方法概论本章内容第一节 多重线性回归第二节 logistic回归分析第三节 生存分析第四节第五节 主成分分析与因子分析主成分分析与因子分析第六节第六节 典型相关分析典型相关分析第一节第一节 多重线性回归多重线性回归一、应用范围:一、应用范围:生物医学现象的发生、发展和变化是生物医学现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的结多种因素在一定条件下相互影响、相互制约产生的结果。例如,影响原发性高血压发生的因素有年龄、性果。例如,影响原发性高血压发生的因素有年龄、性别、精神紧张、劳动强度、吸烟状况、家族史等,这别、精神紧张、劳动强度、吸

2、烟状况、家族史等,这些因素中,哪些是主要因素,各因素的大小如何,往些因素中,哪些是主要因素,各因素的大小如何,往往是研究者关心的问题。往是研究者关心的问题。 多重线性回归就是研究多个自变量与一个应多重线性回归就是研究多个自变量与一个应变量间的线性依存关系的统计分析方法。变量间的线性依存关系的统计分析方法。 它可以从一组实际数据出发,研究多个自变它可以从一组实际数据出发,研究多个自变量和一个应变量之间是否存在线性依存关系,若存在量和一个应变量之间是否存在线性依存关系,若存在则找出适当的定量关系式,并对其进行参数估计和假则找出适当的定量关系式,并对其进行参数估计和假设检验,从而推断哪些自变量对应变

3、量的影响是主要设检验,从而推断哪些自变量对应变量的影响是主要的,哪些是次要的,哪些是没有意义的;并可利用回的,哪些是次要的,哪些是没有意义的;并可利用回归方程对所研究的现象进行预测和控制归方程对所研究的现象进行预测和控制二、应用条件二、应用条件01122kkYbb Xb Xb X建立回归方程建立回归方程( (样本样本) )(2)(2)对对回归方程回归方程及及各自变量各自变量做假设检验,并对方做假设检验,并对方程的程的拟合效果拟合效果及及各自变量的作用大小各自变量的作用大小做出评价。做出评价。(1)(1)求截距及偏回归系数求截距及偏回归系数012,kb b bb三、多重三、多重线性回归线性回归的

4、一般步的一般步骤骤标准化偏回归系数标准化偏回归系数R2,等,等方差分析和方差分析和t检验检验四、四、自变量筛选自变量筛选 前述方程中包括的自变量是研究者根据专业知识前述方程中包括的自变量是研究者根据专业知识和经验事先选择好的。然而在许多实际应用中,由于没有和经验事先选择好的。然而在许多实际应用中,由于没有清晰的理论依据,回归模型中包括的自变量难以预先确定,清晰的理论依据,回归模型中包括的自变量难以预先确定,为了避免由于引入一些不重要的自变量,而使模型的精度为了避免由于引入一些不重要的自变量,而使模型的精度降低,因此选择有意义的自变量常常是回归分析的第一步。降低,因此选择有意义的自变量常常是回归

5、分析的第一步。 基本思路:基本思路:尽可能将回归效果显著的自变量选入尽可能将回归效果显著的自变量选入回归方程中,作用不显著的自变量则排除在外。回归方程中,作用不显著的自变量则排除在外。 模型的正确选择:模型的正确选择:根本依赖于所研究问题本身专根本依赖于所研究问题本身专业实践业实践自变量的筛选全局择优逐步选择调整R2CP统计量前进法后退法逐步回归法编号总胆固醇X1甘油三酯X2胰岛素X3糖化血X4血糖Y15.681.94.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.62.324.057.513.4

6、273.841.26.459.610.427名糖尿病人的血糖及有关变量的测量结果五、实例分析五、实例分析ModelVariables EnteredVariables Removed1糖化血X4.2总胆固醇X1.3胰岛素X3.4甘油三酯X2.5. 总胆固醇X10.10.15入出,ModelSummary(f)ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.610(a).372.3472.365062.696(b).484.4412.186723.740(c).547.4882.093514.775(d).601.5282.0

7、09545.773(e).598.5461.97213a Predictors: (Constant), 糖化血b Predictors: (Constant), 糖化血, 总胆固醇c Predictors: (Constant), 糖化血, 总胆固醇, 胰岛素d Predictors: (Constant), 糖化血, 总胆固醇, 胰岛素, 甘油三酯e Predictors: (Constant), 糖化血, 胰岛素, 甘油三酯f Dependent Variable: 血糖ANOVAModelSumofSquaresdfMeanSquareFSig.1Regression82.714182

8、.71414.788.001(a)Residual139.837255.593Total222.552262Regression107.790253.89511.271.000(b)Residual114.762244.782Total222.552263Regression121.748340.5839.260.000(c)Residual100.804234.383Total222.552264Regression133.711433.4288.278.000(d)Residual88.841224.038Total222.552265Regression133.098344.36611.

9、407.000(e)Residual89.454233.889Total222.55226Coefficients(a)Coefficients(a)a Dependent Variable: 血糖六、多重线性回归的应用六、多重线性回归的应用七、多重线性回归应用的注意事项七、多重线性回归应用的注意事项1 1、应满足、应满足LINELINE条件条件 指标的数量化指标的数量化3 3、样本含量、样本含量n =(5n =(510)m10)m。4 4、“最优最优”回归方程的意义回归方程的意义5 5、多重共线性、多重共线性高度相关高度相关(1 1)(2 2)(3 3)(4 4)6 6 、残差分析、残差分析

10、 残差分析是检查资料是否满足回归模型的前提假设残差分析是检查资料是否满足回归模型的前提假设残MSeeii以标准化残差为以标准化残差为纵坐标,为横坐纵坐标,为横坐标作残差图进行标作残差图进行分析分析iY回归分析的步骤模型前提假设第二节第二节 logisticlogistic回归分析回归分析LogisticLogistic回归属于概率型非线性回归,它回归属于概率型非线性回归,它是研究二分类观察结果(应变量)与一些是研究二分类观察结果(应变量)与一些影响因素(自变量)之间关系的一种多变影响因素(自变量)之间关系的一种多变量分析方法。量分析方法。 如食管癌的发生与吸烟、饮酒、不良如食管癌的发生与吸烟、

11、饮酒、不良饮食习惯等危险因素的关系。饮食习惯等危险因素的关系。 由于应变量为二分变量,因此不能用由于应变量为二分变量,因此不能用多重线性回归分析此类资料,但两者的分多重线性回归分析此类资料,但两者的分析思路大致相同。析思路大致相同。什么情况下采用什么情况下采用LogisticLogistic回归回归传统上常使用传统上常使用Mantel-Mantel-HaenszelHaenszel分层分析方分层分析方法,但该方法主要适用于样本含量大、分法,但该方法主要适用于样本含量大、分析因素较少的情况。析因素较少的情况。一、一、logistic回归模型回归模型1 1、概率预报模型、概率预报模型 011011

12、011011()exp()1exp()11exp ()11ppmmmmmmXXXXPXXXXe2 2、logisticlogistic回归模型的线性形式回归模型的线性形式 011lnlogit1mmPPXXPP P的的logitlogit变换变换3 3、logisticlogistic回归模型参数的意义回归模型参数的意义 1. 1. 表示暴露剂量为表示暴露剂量为0 0时个体发病与不发病概时个体发病与不发病概率之比的自然对数。率之比的自然对数。2. 2. 表示某危险因素表示某危险因素Xi增加一个单位时,即增加一个单位时,即Xi=1=1与与Xi=0=0相比,发生结果(相比,发生结果(Y=1=1)优

13、势比的对)优势比的对数值。数值。0i11001001 1001 1/(1)lnln/(1)loglog()()PPORPPitPitPxxxlnORexp( )ORP1(y=1/x=1)的概率)的概率P0(y=1/x=0)的概率)的概率ORe 反映了在其他变量固定后,反映了在其他变量固定后,X=1X=1与与X=0X=0相相比发生比发生Y Y事件的对数优势比。事件的对数优势比。回归系数回归系数与与OR XOR X与与Y Y的关联的关联=0=0,OR=1 OR=1 无关无关 0 0,OROR1 1 有关,危险因素有关,危险因素0 0,OROR1 1 有关,保护因子有关,保护因子i二、二、logis

14、ticlogistic回归模型的参数估计回归模型的参数估计最大似然估计最大似然估计- -需借助统计软件完成需借助统计软件完成三、三、Logistic Logistic 回归模型的假设检验回归模型的假设检验1.1.检验一:对建立的整个模型做检验。检验一:对建立的整个模型做检验。 检验方法检验方法1 1)似然比检验)似然比检验 (likelihood ratio test)(likelihood ratio test)2 2)WaldWald检验检验3 3)计分检验)计分检验(score test)(score test)0:210mH1:12)0jHjm各 (, , 不全为说明自变量说明自变量对

15、对Y的作用的作用是否有统计是否有统计意义。意义。mmXXXPP22110=1ln2.2.检验二:检验模型中某检验二:检验模型中某是否对是否对Y Y有作用。有作用。0:0jH1:0jH22)(jbjSb=1的的2四、四、LogisticLogistic回归对变量做筛选回归对变量做筛选选用的检验统计量选用的检验统计量1 1)似然比检验)似然比检验 (likelihood (likelihood ratio test)ratio test)2 2)WaldWald检验检验3 3)计分检验)计分检验(score test)(score test)例:冠心病的例:冠心病的8 8个可能危险因素与赋值个可能

16、危险因素与赋值冠心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 例:例: 逐步筛选进入方程的自变量及参数估计逐步筛选进入方程的自变量及参数估计/(/3)jjjbbs控制其他因素后,高脂摄入与低脂摄控制其他因素后,高脂摄入与低脂摄入相比,患冠心病的优势比为入相比,患冠心病的优势比为23.0623.06倍倍标准回归系数(标准回归系数(b b) 比较各自变比较各自变量对量对Y Y 的相对贡献的相对贡献logisticlogistic回归的应用及注意事项回归的应用及注意事项对对照照l生存分析生存分析(survival analysissurvival analysis)是将)是将事件

17、的结果(终点事件)和出现这一事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一结果所经历的时间结合起来分析的一种统计分析方法。种统计分析方法。l生存分析不同于其它多因素分析的主生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。测出现某一结局的时间长短。第三节第三节 生存分析生存分析第一节第一节 生存分析基本概念生存分析基本概念一、一、生存时间生存时间( survival timesurvival time,failure time failure time )l终点事件(失效时间)终点事件(失效时间)与与起始

18、事件起始事件之间的之间的时间间隔。时间间隔。l终点事件指研究者所关心的特定结局。终点事件指研究者所关心的特定结局。l起始事件是反映研究对象生存过程的起起始事件是反映研究对象生存过程的起 始特征的事件。始特征的事件。生存时间举例生存时间举例 起始事件起始事件 终点事件终点事件 服药服药 痊愈痊愈 手术切除手术切除 死亡死亡 染毒染毒 死亡死亡 化疗化疗 缓解缓解 缓解缓解 复发复发l终点事件和起始事件是相对而言的,终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,明确规定,并在研究期间严格遵守,不能随意改变。不能随意改

19、变。生存时间的类型生存时间的类型1. 1. 完全数据完全数据(complete datacomplete data)从起点至死亡(死于所研究疾病)所经历从起点至死亡(死于所研究疾病)所经历的时间。的时间。2. 2. 截尾数据截尾数据(删失数据,(删失数据,censored datacensored data)从起点至截尾点所经历的时间。从起点至截尾点所经历的时间。截尾原因:截尾原因:失访、死于其它疾病、观察结失访、死于其它疾病、观察结束时病人尚存活等。束时病人尚存活等。1. 1. 完全数据完全数据(complete datacomplete data)从起点至死亡(死于所研究疾病)所经历从起点

20、至死亡(死于所研究疾病)所经历的时间。的时间。2. 2. 截尾数据截尾数据(删失数据,(删失数据,censored datacensored data)从起点至截尾点所经历的时间。从起点至截尾点所经历的时间。截尾原因:截尾原因:失访、死于其它疾病、观察结失访、死于其它疾病、观察结束时病人尚存活等。束时病人尚存活等。大肠癌患者的随访记录大肠癌患者的随访记录 编号编号 性别性别 年龄年龄 手术日期手术日期 随访终止日期随访终止日期 随访结局随访结局 生存时间生存时间( (天天) )1 1 男男 45 45 1991.05.20 1995.06.04 1991.05.20 1995.06.04 死亡

21、死亡 1476 1476 2 2 男男 50 50 1992.01.12 1998.08.25 1992.01.12 1998.08.25 死亡死亡 2417 2417 3 3 女女 36 36 1991.10.24 1994.03.18 1991.10.24 1994.03.18 失访失访 876876+ + 4 4 男男 52 52 1994.11.02 2000.12.30 1994.11.02 2000.12.30 存活存活 22502250+ + 5 5 女女 56 56 1994.06.25 1995.03.17 1994.06.25 1995.03.17 死亡死亡 265 265

22、 6 6 女女 60 60 1993.12.05 1996.08.16 1993.12.05 1996.08.16 死于其它死于其它 985985+ + 生存时间生存时间l生存时间的度量单位可以是年、月、生存时间的度量单位可以是年、月、日、小时等。常用符号日、小时等。常用符号t t表示,截尾数据在表示,截尾数据在其右上角标记其右上角标记“+ +”。l生存资料的主要特点:生存资料的主要特点:l含有截尾数据。含有截尾数据。l截尾数据的特点:真实的生存时间未知,只知道比截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。观察到的截尾生存时间要长。l生存时间的分布一般不呈正态分布。生

23、存时间的分布一般不呈正态分布。生存时间三要素:生存时间三要素:起始时间、终点事件和时间度量起始时间、终点事件和时间度量二、条件生存概率、生存率、生存曲线二、条件生存概率、生存率、生存曲线l条件生存概率:条件生存概率:(conditional probability of survivalconditional probability of survival)表示某单位时段开始时存活的个体,到该表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。时段结束时仍存活的可能性。年条件生存概率表示年初尚存人口存年条件生存概率表示年初尚存人口存活满活满1 1年的可能性。年的可能性。年初观察例数活

24、满一年例数p期初观察例数年例数活满年生存率33期初观察例数年例数活满年生存率55l生存曲线(生存曲线(survival curvesurvival curve)Survival Functions生存时间50403020100Cum Survival1.0.8.6.4.20.0组别乙疗法组乙疗法组-censored甲疗法组甲疗法组-censored三、中位生存期三、中位生存期l中位生存期(中位生存期(median survival timemedian survival time)又称半数生存期,表示恰好有又称半数生存期,表示恰好有5050的的个体尚存活的时间。个体尚存活的时间。l中位生存期越

25、长,表示疾病的预后越好;中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。中位生存期越短,预后越差。l估计中位生存期常用图解法或线性内插法。估计中位生存期常用图解法或线性内插法。第二节第二节 生存率的估计与生存曲线生存率的估计与生存曲线l估计:估计: Kaplan- MeierKaplan- Meier法(小样本),法(小样本),寿命表法(大样本)寿命表法(大样本)l生存曲线:生存曲线:横坐标为时间,纵坐标为生横坐标为时间,纵坐标为生存率存率l生存曲线比较:生存曲线比较: log-ranklog-rank检验检验第四节第四节 CoxCox比例风险回归模型比例风险回归模型lCoxCo

26、x比例风险回归模型(比例风险回归模型(CoxCoxs proportional s proportional hazards regression modelhazards regression model),简称),简称CoxCox回归模回归模型。型。l 该模型由英国统计学家该模型由英国统计学家D.R.CoxD.R.Cox于于19721972年提出,年提出,主要用于肿瘤和其它慢性病的预后分析,也可用主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点:于队列研究的病因探索。其优点:l多因素分析方法多因素分析方法l不考虑生存时间分布不考虑生存时间分布l利用截尾数据利用截尾数据

27、一、一、CoxCox模型的基本形式模型的基本形式)exp()(),(22110ppXXXthXth二、参数估计与假设检验二、参数估计与假设检验三、因素筛选与最优模型的建立三、因素筛选与最优模型的建立分析结果(结果解释)分析结果(结果解释)01122mmXXXx4RR(x4RR(相对危险度相对危险度)=5.822,)=5.822,说明传统疗法说明传统疗法与新疗法相比,病人死亡的风险为与新疗法相比,病人死亡的风险为5.8225.822倍,倍,X5X5解释同上。解释同上。Variables in the EquationVariables in the Equation1.751.54610.265

28、1.0015.7581.762.54810.3371.0015.822.931.4454.3891.036.394x4Step 1x4x5Step 2BSEWalddfSig.Exp(B)第四节第四节 判别分析与聚类分析判别分析与聚类分析分类学是人类认识世界的基础科学。聚类分析和判别分类学是人类认识世界的基础科学。聚类分析和判别分析是研究分析是研究事物分类事物分类的基本方法,广泛地应用于自然科学、的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。社会科学、工农业生产的各个领域。判别分析判别分析有一些昆虫的性别很难看出,只有通过解有一些昆虫的性别很难看出,只有通过解剖才能够判别;

29、剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了昆虫来进行判别了一、概念一、概念判别分析是根据判别对象

30、若干个指标的观测结果判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。判定其应属于哪一类的统计学方法。二、基本过程二、基本过程1.判别分析是根据表明事物特点的变判别分析是根据表明事物特点的变量值和它们所属的类,求出量值和它们所属的类,求出判别函数判别函数样本的原始分类必须正确无误,否样本的原始分类必须正确无误,否则得不到可靠判别函数则得不到可靠判别函数。2.根据判别函数依据相应的根据判别函数依据相应的判别规则判别规则对未知所属类别的事物进行分类。对未知所属类别的事物进行分类。三、常用方法三、常用方法Fisher判别、最大似然判别法、判别、最大似然判别法、Bayes公式判

31、别法、公式判别法、Bayes判别和逐步判别判别和逐步判别例例1Fisher判别判别1X2X3X收集了收集了2222例某病患者的三个指标(例某病患者的三个指标(X1 1, ,X2 2, ,X3 3 )的资料列于)的资料列于下表,其中前期患者(下表,其中前期患者(A A)类)类1212例,晚期患者(例,晚期患者(B B)类)类1010例。例。试作判别分析。试作判别分析。 1X2X3X判别函数:Z=C1X1+C2X2+CmXm本例判别函数为:Z=-0.07X1+0.225X2-0.318X3判别规择:Zi Zc,判为A类ZiF0.1907536810.4816232.82.00010.886074451.069187.550.39300.960958050.7841560.53690.998558630.111790.7365典型相关系数近似典型相关系数近似F检验检验上述结果显示:只有第一典型相关系数在检验水上述结果显示:只有第一典型相关系数在检验水准准0.05的水平下具有统计学意义,因此只取第一的水平下具有统计学意义,因此只取第一对典型相关变量,即对典型相关变量,即(U1,V1)原始的原始的U典型相关变量典型相关变量U1U2U3U4x10.0004798914-0.001781814-0.003714269-0.0027

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论