高级统计方法概论_第1页
高级统计方法概论_第2页
高级统计方法概论_第3页
高级统计方法概论_第4页
高级统计方法概论_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级统计方法概论第1页,共110页,2023年,2月20日,星期四本章内容第一节

多重线性回归第二节logistic回归分析第三节生存分析第四节

判别分析与聚类分析第五节主成分分析与因子分析第六节典型相关分析第2页,共110页,2023年,2月20日,星期四第一节

多重线性回归一、应用范围:生物医学现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的结果。例如,影响原发性高血压发生的因素有年龄、性别、精神紧张、劳动强度、吸烟状况、家族史等,这些因素中,哪些是主要因素,各因素的大小如何,往往是研究者关心的问题。

多重线性回归就是研究多个自变量与一个应变量间的线性依存关系的统计分析方法。它可以从一组实际数据出发,研究多个自变量和一个应变量之间是否存在线性依存关系,若存在则找出适当的定量关系式,并对其进行参数估计和假设检验,从而推断哪些自变量对应变量的影响是主要的,哪些是次要的,哪些是没有意义的;并可利用回归方程对所研究的现象进行预测和控制第3页,共110页,2023年,2月20日,星期四二、应用条件条件第4页,共110页,2023年,2月20日,星期四建立回归方程(样本)(2)对回归方程及各自变量做假设检验,并对方程的拟合效果及各自变量的作用大小做出评价。(1)求截距及偏回归系数三、多重线性回归的一般步骤标准化偏回归系数R2,等方差分析和t检验第5页,共110页,2023年,2月20日,星期四

四、自变量筛选

前述方程中包括的自变量是研究者根据专业知识和经验事先选择好的。然而在许多实际应用中,由于没有清晰的理论依据,回归模型中包括的自变量难以预先确定,为了避免由于引入一些不重要的自变量,而使模型的精度降低,因此选择有意义的自变量常常是回归分析的第一步。基本思路:尽可能将回归效果显著的自变量选入回归方程中,作用不显著的自变量则排除在外。模型的正确选择:根本依赖于所研究问题本身专业实践第6页,共110页,2023年,2月20日,星期四自变量的筛选全局择优逐步选择调整R2CP统计量前进法后退法逐步回归法第7页,共110页,2023年,2月20日,星期四编号总胆固醇X1甘油三酯X2胰岛素X3糖化血X4血糖Y15.681.94.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.62.324.057.513.4………………273.841.26.459.610.427名糖尿病人的血糖及有关变量的测量结果五、实例分析第8页,共110页,2023年,2月20日,星期四ModelVariablesEnteredVariablesRemoved1糖化血X4.2总胆固醇X1.3胰岛素X3.4甘油三酯X2.5.总胆固醇X1第9页,共110页,2023年,2月20日,星期四ModelSummary(f)ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.610(a).372.3472.365062.696(b).484.4412.186723.740(c).547.4882.093514.775(d).601.5282.009545.773(e).598.5461.97213aPredictors:(Constant),糖化血bPredictors:(Constant),糖化血,总胆固醇cPredictors:(Constant),糖化血,总胆固醇,胰岛素dPredictors:(Constant),糖化血,总胆固醇,胰岛素,甘油三酯ePredictors:(Constant),糖化血,胰岛素,甘油三酯fDependentVariable:血糖第10页,共110页,2023年,2月20日,星期四ANOVAModel

SumofSquaresdfMeanSquareFSig.1Regression82.714182.71414.788.001(a)

Residual139.837255.593

Total222.55226

2Regression107.790253.89511.271.000(b)

Residual114.762244.782

Total222.55226

3Regression121.748340.5839.260.000(c)

Residual100.804234.383

Total222.55226

4Regression133.711433.4288.278.000(d)

Residual88.841224.038

Total222.55226

5Regression133.098344.36611.407.000(e)

Residual89.454233.889

Total222.55226

第11页,共110页,2023年,2月20日,星期四aDependentVariable:血糖ModelBStd.ErrortFSS(XJ)SSESig.1糖化血.978.2543.84514.78882.714139.837.0012糖化血.732.2592.8338.026.009总胆固醇.678.2962.2905.24425.067114.762.0313糖化血.635.2532.5076.285.020总胆固醇.545.2931.8613.463.076胰岛素-.219.122-1.7853.18613.958100.804.0884糖化血.638.2432.6236.880.016总胆固醇.142.366.3900.1520.61388.841.701胰岛素-.271.121-2.2294.968.036甘油三酯.351.2041.7212.96211.96388.841.0995糖化血.663.2302.8808.294.008胰岛素-.287.112-2.5706.605.017甘油三酯.402.1542.6126.823.016第12页,共110页,2023年,2月20日,星期四六、多重线性回归的应用第13页,共110页,2023年,2月20日,星期四七、多重线性回归应用的注意事项1、应满足LINE条件

残差图2、指标的数量化

分类变量的哑变量设置见P3273、样本含量n=(5~10)m。4、“最优”回归方程的意义所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。不同回归方程适应于不同用途,依专业知识定。

第14页,共110页,2023年,2月20日,星期四5、多重共线性即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而t值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。第15页,共110页,2023年,2月20日,星期四6、残差分析残差分析是检查资料是否满足回归模型的前提假设以标准化残差为纵坐标,为横坐标作残差图进行分析第16页,共110页,2023年,2月20日,星期四回归分析的步骤做出散点图(简单线性回归、多重线性回归)考察数据的分布,进行必要的预处理(应变量)进行直线回归分析(模型建立,变量选择等)残差分析(模型前提假设)强影响点的诊断,多重共线性问题的判断结合专业知识对结果进行解释第17页,共110页,2023年,2月20日,星期四第二节logistic回归分析Logistic回归属于概率型非线性回归,它是研究二分类观察结果(应变量)与一些影响因素(自变量)之间关系的一种多变量分析方法。如食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。由于应变量为二分变量,因此不能用多重线性回归分析此类资料,但两者的分析思路大致相同。什么情况下采用Logistic回归第18页,共110页,2023年,2月20日,星期四传统上常使用Mantel-Haenszel分层分析方法,但该方法主要适用于样本含量大、分析因素较少的情况。第19页,共110页,2023年,2月20日,星期四一、logistic回归模型1、概率预报模型第20页,共110页,2023年,2月20日,星期四2、logistic回归模型的线性形式P的logit变换第21页,共110页,2023年,2月20日,星期四3、logistic回归模型参数的意义1.表示暴露剂量为0时个体发病与不发病概率之比的自然对数。2.表示某危险因素Xi增加一个单位时,即Xi=1与Xi=0相比,发生结果(Y=1)优势比的对数值。第22页,共110页,2023年,2月20日,星期四P1(y=1/x=1)的概率P0(y=1/x=0)的概率第23页,共110页,2023年,2月20日,星期四反映了在其他变量固定后,X=1与X=0相比发生Y事件的对数优势比。回归系数β与ORX与Y的关联β=0,OR=1无关β>0,OR>1有关,危险因素β<0,OR<1有关,保护因子第24页,共110页,2023年,2月20日,星期四二、logistic回归模型的参数估计最大似然估计-需借助统计软件完成第25页,共110页,2023年,2月20日,星期四三、Logistic回归模型的假设检验1.检验一:对建立的整个模型做检验。

检验方法1)似然比检验(likelihoodratiotest)2)Wald检验3)计分检验(scoretest)说明自变量对Y的作用是否有统计意义。第26页,共110页,2023年,2月20日,星期四

2.检验二:检验模型中某β是否对Y有作用。

检验假设:检验统计量:主要为Wald检验(SAS软件)ν=1的χ2

第27页,共110页,2023年,2月20日,星期四四、Logistic回归对变量做筛选目的;将回归系数有显著意义的自变量选入模型中,作用不显著的自变量则排除在外。变量筛选算法有:前进法、后退法和逐步法(stepwise)。选用的检验统计量1)似然比检验(likelihoodratiotest)2)Wald检验3)计分检验(scoretest)第28页,共110页,2023年,2月20日,星期四例:冠心病的8个可能危险因素与赋值

因素变量名赋值说明年龄(岁)X1<45=1,4554=2,5564=3,65=4高血压史X2无=0,有=1高血压家族史X3无=0,有=1吸烟X4不吸=0,吸=1高血脂史X5无=0,有=1动物脂肪摄入X6低=0,高=1体重指数(BMI)X7<24=1,24<26=2,26=3A型性格X8是=0,否=1冠心病Y对照=0,病例=1第29页,共110页,2023年,2月20日,星期四冠心病危险因素的病例对照调查资料序号X1X2X3X4X5X6X7X8Y13101001102201100100321010010042001001005300101110第30页,共110页,2023年,2月20日,星期四例:逐步筛选进入方程的自变量及参数估计变量βSbWaldχ2P标准β’OR常数-4.7051.549.300.0023年龄0.9240.4773.760.05250.4012.52X51.4960.7444.040.04430.4064.46X63.1361.2496.300.01210.70323.06X81.9470.8475.290.02150.5237.01控制其他因素后,高脂摄入与低脂摄入相比,患冠心病的优势比为2.4倍标准回归系数(b’)比较各自变量对Y的相对贡献第31页,共110页,2023年,2月20日,星期四

logistic回归的应用及注意事项

一、logistic回归的应用1.流行病学危险因素分析2.临床试验数据分析3.分析药物或毒物的剂量反应4.预测与判别

第32页,共110页,2023年,2月20日,星期四

二、logistic回归的注意事项1.变量的取值形式定量资料最好转化为分类变量资料,以便于解释分类变量仍采用哑变量的赋值方法应变量的编码相反,回归系数仅正负号变化2.样本含量原则:自变量个数越多,例数越多。各组样本例数(对照组和病例组)至少为自变量个数的5-20倍。

第33页,共110页,2023年,2月20日,星期四生存分析(survivalanalysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。第三节生存分析

第34页,共110页,2023年,2月20日,星期四一生存分析基本概念(一)生存时间(survivaltime,failuretime)终点事件(失效时间)与起始事件之间的时间间隔。终点事件指研究者所关心的特定结局。起始事件是反映研究对象生存过程的起始特征的事件。第35页,共110页,2023年,2月20日,星期四生存时间举例起始事件

终点事件服药痊愈手术切除死亡染毒死亡化疗缓解缓解复发第36页,共110页,2023年,2月20日,星期四终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。第37页,共110页,2023年,2月20日,星期四生存时间的类型1.完全数据(completedata)从起点至死亡(死于所研究疾病)所经历的时间。2.截尾数据(删失数据,censoreddata)从起点至截尾点所经历的时间。截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。第38页,共110页,2023年,2月20日,星期四大肠癌患者的随访记录编号性别年龄…

手术日期随访终止日期随访结局生存时间(天)1男45…1991.05.201995.06.04死亡14762男50…1992.01.121998.08.25死亡24173女36…1991.10.241994.03.18失访876+

4男52…1994.11.022000.12.30存活2250+

5女56…1994.06.251995.03.17死亡2656女60…1993.12.051996.08.16死于其它985+

第39页,共110页,2023年,2月20日,星期四生存时间生存时间的度量单位可以是年、月、日、小时等。常用符号t表示,截尾数据在其右上角标记“+”。生存资料的主要特点:含有截尾数据。截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。生存时间的分布一般不呈正态分布。生存时间三要素:起始时间、终点事件和时间度量第40页,共110页,2023年,2月20日,星期四

(二)条件生存概率、生存率、生存曲线条件生存概率:(conditionalprobabilityofsurvival)表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。年条件生存概率表示年初尚存人口存活满1年的可能性。第41页,共110页,2023年,2月20日,星期四生存率:(survivalrate,survivalfunction)指观察对象经历t个单位时段后仍存活的可能性。第42页,共110页,2023年,2月20日,星期四生存率与条件生存概率不同。条件生存率是单个时段的结果,而生存率实质上是累积条件生存概率(cumulativeprobabilityofsurvival),是多个时段的累积结果。例如,3年生存率是第1年存活,第2年也存活,第3年还存活的可能性。第43页,共110页,2023年,2月20日,星期四生存曲线(survivalcurve)以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。第44页,共110页,2023年,2月20日,星期四某医师收集20例脑瘤患者甲、乙两疗法治疗的生存时间(周)如下:甲疗法组13371015152330乙疗法组57+1313233030+38424245+

第45页,共110页,2023年,2月20日,星期四第46页,共110页,2023年,2月20日,星期四(三)中位生存期中位生存期(mediansurvivaltime)又称半数生存期,表示恰好有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。估计中位生存期常用图解法或线性内插法。第47页,共110页,2023年,2月20日,星期四二、生存率的估计与生存曲线估计:

Kaplan-Meier法(小样本),寿命表法(大样本)生存曲线:横坐标为时间,纵坐标为生存率生存曲线比较:

log-rank检验第48页,共110页,2023年,2月20日,星期四三、Cox比例风险回归模型Cox比例风险回归模型(Cox’sproportionalhazardsregressionmodel),简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点:多因素分析方法不考虑生存时间分布利用截尾数据第49页,共110页,2023年,2月20日,星期四(一)Cox模型的基本形式h(t,X)—t时刻风险函数、风险率或瞬时死亡率(hazardfunction)。h0(t)—基准风险函数,即所有变量都取0时t时刻风险函数。X1、X2、…、Xp—协变量、影响因素、预后因素。β1、β2、…、βp—回归系数。第50页,共110页,2023年,2月20日,星期四β>0,说明变量X增加时,危险率增加,即X是危险因素。β<0,说明变量X增加时,危险率下降,即X是保护因素。β=0,说明变量X增加时,危险率不变,即X是危险无关因素。第51页,共110页,2023年,2月20日,星期四(二)参数估计与假设检验1.参数估计偏似然函数2.假设检验似然比检验(likelihoodratiotest)得分检验(scoretest)Wald检验(Waldtest)第52页,共110页,2023年,2月20日,星期四(三)因素筛选与最优模型的建立变量筛选方法向前引入法(前进法)Forward向后剔除法(后退法)Backward逐步引入-剔除法(逐步法)Stepwise第53页,共110页,2023年,2月20日,星期四分析结果(结果解释)与生存相关的因素因素作用大小及方向:保护因素还是危险因素、相对危险度的大小。因素作用大小排序:标准化回归系数的绝对值。第54页,共110页,2023年,2月20日,星期四个体的预后指数及预后分组:预后指数(prognosticindex,PI)

=

预后指数越小,预后越好;预后指数越大,预后越差。第55页,共110页,2023年,2月20日,星期四第56页,共110页,2023年,2月20日,星期四第57页,共110页,2023年,2月20日,星期四第58页,共110页,2023年,2月20日,星期四x4RR(相对危险度)=5.758,说明传统疗法与新疗法相比,病人死亡的风险为5.822倍,↓X5解释同上。第59页,共110页,2023年,2月20日,星期四第四节判别分析与聚类分析

分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。第60页,共110页,2023年,2月20日,星期四判别分析有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了第61页,共110页,2023年,2月20日,星期四一、概念判别分析是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计学方法。

第62页,共110页,2023年,2月20日,星期四二、基本过程1.判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数—样本的原始分类必须正确无误,否则得不到可靠判别函数。2.根据判别函数依据相应的判别规则对未知所属类别的事物进行分类。第63页,共110页,2023年,2月20日,星期四三、常用方法Fisher判别、最大似然判别法、Bayes公式判别法、Bayes判别和逐步判别第64页,共110页,2023年,2月20日,星期四例1Fisher判别收集了22例某病患者的三个指标(X1,X2,X3)的资料列于下表,其中前期患者(A)类12例,晚期患者(B)类10例。试作判别分析。第65页,共110页,2023年,2月20日,星期四第66页,共110页,2023年,2月20日,星期四判别函数:Z=C1X1+C2X2+…+CmXm本例判别函数为:Z=-0.07X1+0.225X2-0.318X3判别规择:Zi>Zc,判为A类Zi<Zc,判为B类Zi=Zc,判为任意一类第67页,共110页,2023年,2月20日,星期四判别效果的评价判别效果一般用误判概率来衡量。误判概率小于0.1或0.2才有应用价值。误判概率可通过前瞻性或回顾性两种方式获得估计,前瞻性误判率估计更客观。样本85%15%建立判别函数考核判别函数的判别效果(前瞻性误判率)第68页,共110页,2023年,2月20日,星期四例2最大似然判别法(定性指标)有人试用7个指标对4种类型的阑尾炎作鉴别诊断,收集的5668例完整、确诊的病史资料归纳余下表。第69页,共110页,2023年,2月20日,星期四第70页,共110页,2023年,2月20日,星期四判别函数:PK=P(X1(Sl1)|YK)·P(X2(Sl2)|YK)···

P(Xm(Slm)|YK)判别规择:第71页,共110页,2023年,2月20日,星期四如某病病人昨晚开始出现右下腹痛、呕吐等症状,大便正常,右下腹部压痛,肌性防御(+),体温36.6℃,白细胞23.7×109/L。是判断其为哪种类型的阑尾炎。第72页,共110页,2023年,2月20日,星期四Bayes公式判别法与最大似然判别法原理相同第73页,共110页,2023年,2月20日,星期四Bayes判别(要求各类近似服从多元正态分布)欲用4个指标鉴别3类疾病,现收集17例完整、确诊的资料,见表18-4。试建立判别Bayes函数。第74页,共110页,2023年,2月20日,星期四4个指标的观测数据与判别结果编号X1X2X3X4原分类后验概率判别结果1类2类3类16.0-11.5199010.9820.0180.00012-11.0-18.525-3630.0000.1400.8603390.2-17.017320.0020.5480.45024-4.0-15.0135410.9700.0300.001150.0-14.0203520.0990.6670.235260.5-11.5193730.0040.4130.58437-10.0-19.021-4230.0000.1510.848380.0-23.05-3510.4270.5200.0532920.0-22.08-2030.5050.4590.037110-100.0-21.47-1510.9770.0230.001111-100.0-21.515-4020.1760.5810.24721213.0-17.218220.0210.6300.350213-5.0-18.5151810.8640.1370.00711410.0-18.0145010.9980.0020.000115-8.0-14.0165610.9040.0920.0051160.6-13.0262130.0000.2610.739317-40.0-20.022-5030.0000.1670.8333判别规则:后验概率最大判别效果评价第75页,共110页,2023年,2月20日,星期四逐步判别法(仅仅是在前面的方法中加入变量选择的功能)第76页,共110页,2023年,2月20日,星期四聚类分析1.聚类分析的目的:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。第77页,共110页,2023年,2月20日,星期四2.聚类分析的应用例子同一种疾病(如肝炎),根据临床表现等将病人分成若干类(甲、乙、丙、丁、戊型肝炎)根据疾病的若干临床表现,将病人分成轻、中、重三型在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类第78页,共110页,2023年,2月20日,星期四3.聚类的种类根据分类的原理可将聚类分析分为:系统聚类与快速聚类(动态样本聚类)根据分类的对象可将聚类分析分为:系统Q型与R型(即样品聚类clusteringforindividuals与指标聚类clusteringforvariables)第79页,共110页,2023年,2月20日,星期四将n个样品各作为一类

3.1系统聚类法

是诸聚类分析方法中使用最多的一种,按下列步骤进行:

计算n个样品两两之间的距离,构成距离矩阵

合并距离最近的两类为一新类

计算新类与当前各类的距离。再合并、计算,直至只有一类为止

画聚类图,解释

第80页,共110页,2023年,2月20日,星期四3.2快速聚类法

(quickclustermethodk-meansmodel

也叫动态聚类、逐步聚类、迭代聚类)样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂,不便于分析第81页,共110页,2023年,2月20日,星期四原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类,……

直至分类达到稳定第82页,共110页,2023年,2月20日,星期四实例分析:系统Q型(样品)聚类第83页,共110页,2023年,2月20日,星期四第84页,共110页,2023年,2月20日,星期四系统聚类第85页,共110页,2023年,2月20日,星期四Q型(样品)聚类R型(变量或指标)聚类第86页,共110页,2023年,2月20日,星期四聚类方法:离差平方和法剂量资料的距离:欧式平方距离第87页,共110页,2023年,2月20日,星期四树状图第88页,共110页,2023年,2月20日,星期四结合图形和专业知识,可以考虑聚为两类:3、7、11、2、5、9、8、15、1、6为一类;4、10、14、12、13为另一类。注意:聚类方法不同,结果也会有差别,最终还要结合专业知识确定哪些聚为一类以及聚几类。第89页,共110页,2023年,2月20日,星期四第五节主成分分析与因子分析

一、主成分分析主成分分析是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量化为少数几个互不相关的综合变量(主成分)的统计方法。第90页,共110页,2023年,2月20日,星期四实例分析

某研究者调查了18名小学三年级学生的数学(X1)、语文(X2)、常识(X3)、音乐(X4)、美术(X5)五个学科的成绩,并测试了智商(X6),所得数据如表20-2,试利用主成分分析找出几个相互独立的主成分,以便进一步对各名学生的学习能力进行综合评价。第91页,共110页,2023年,2月20日,星期四表20-218名小学生6项指标的观测值编号X1X2X3X4X5X61927780959912629775778095125395807078891204757573889811059268727988113690858070781037729375778010088870767281102964706985931051070737087841001178697573899712787271687596137564637673921484667755657615706451606788165872756252751782734050486118456542474360第92页,共110页,2023年,2月20日,星期四主成分的选取原则:(1)主成分的累计贡献率大于70%。(2)特征值≥1。根据上述两个原则综合考虑,本例选择3个主成分。累计贡献率特征值第93页,共110页,2023年,2月20日,星期四因子载荷阵因子载荷阵:反映各主成分与原始指标之间的相互关系第三主成分反映了X1数学成绩的信息(抽象思维能力)第二主成分反映了X2语文成绩的信息(语言文字能力)第一主成分反映了全部原始指标的信息(综合能力)第94页,共110页,2023年,2月20日,星期四在医学研究中有一些现象是难以直接观测的,通常称为不可测现象,他们只能通过其他多个可观测的指标来间接的反应。因子分析就是一种从分析多个原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量,并用这些潜在变量来解释原始指标的的相关性的多元统计分析方法二、因子分析第95页,共110页,2023年,2月20日,星期四实例分析某医院为了合理地评价该院各月的医疗工作质量,搜集了三年有关门诊人次、出院人数、病床利用率、病床周转次数、平均住院天数、治愈好转率、病死率、诊断符合率、抢救成功率等9个指标数据,如表20-8。现采用因子分析方法,探讨其综合评价指标体系。第96页,共110页,2023年,2月20日,星期四门诊人次X1出院人数X2病床利用率X3病床周转次数X4平均住院天数X5治愈好转率X6(%)病死率X7(%)诊断符合率X8(%)抢救成功率X9(%)4.3438999.061.2325.4693.153.5697.5161.663.4527188.280.8523.5594.312.4497.9473.334.38385103.971.2126.5492.534.0298.4876.794.1837799.481.1926.8993.862.9299.4163.164.32378102.011.1927.6393.181.9999.7180.004.1334997.551.1027.3490.634.3899.0363.164.5736191.661.1424.8990.602.7399.6973.534.3120962.180.5231.7491.673.6599.4861.114.0642583.270.9326.5693.813.0999.4870.73省略部分数据第97页,共110页,2023年,2月20日,星期四公因子的选取原则:(1)公因子的累计贡献率大于70%。(2)特征值≥1。根据上述两个原则综合考虑,本例选择4个公因子。累计贡献率特征值第98页,共110页,2023年,2月20日,星期四因子载荷阵因子载荷阵:反映各因子与原始指标之间的相互关系因子3反映了X5、X6、

X7(意义不明显)因子2反映了X1、

X3、

X4、X8、

X9(意义不明显)因子1反映了大部分原始指标的信息(综合因子)因子4反映了X1、X2、X3、

X7(意义不明显)第99页,共110页,2023年,2月20日,星期四旋转后因子的载荷更明显地集中与少数几个指标上。这说明该旋转对因子载荷起到了明显的分离作用,从而使各因子具有了较清晰的专业意义。第100页,共110页,2023年,2月20日,星期四第六节典型相关分析

1.两个随机变量Y与X

简单相关系数2.一个随机变量Y与一组随机变量X1,X2,…,Xp

多重相关(复相关系数)3.一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp

典型(则)相关系数(一)何时采用典型相关分析典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例。第101页,共110页,2023年,2月20日,星期四实例(X与Y地位相同)

X1,X2,…,XpY1,Y2,…,Yq1临床症状所患疾病2原材料质量相应产品质量3居民营养健康状况4生长发育(肺活量)身体素质(跳高)5人体形态人体功能第102页,共110页,2023年,2月20日,星期四(二)典型相关分析的思想采用主成分思想寻找第i对典型(相关)变量(Ui,Vi),利用各对综合变量(典型相关变量)之间的相关性来反映原来两组指标之间的整体相关性。典型相关是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。由Hotelling(1935,1936)最早提出第103页,共110页,2023年,2月20日,星期四(三)实例分析为了探讨小学生的生长发育指标与身体素质的相互关系,某市对小学生的体质进行了调查。现仅对84例10岁男孩的四项生长发育指标:肺活量、身高、体重、胸围与四项反映身体素质的指标:50m跑、跳高、跳远、实心球掷远进行典型相关分析。实测数据如表21-2。第104页,共110页,2023年,2月20日,星期四表21-284名10岁男孩的生长发育指标与身体素质指标的实测值编号肺活量X1(L)身高X2(cm)体重X3(kg)胸围X4(cm)50m跑Y1(s)跳高Y2(cm)跳远Y3(m)实心球掷远Y4(m)11210120.123.861.010.2662.012.7321210120.723.459.811.3681.922.7131040121.222.959.010.1671.922.60………………………831580136.632.367.210.3872.664.04842370147.438.873.010.8912.824.38第105页,共110页,2023年,2月20日,星期四AdjustedApproximateSquaredCanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelation10.8858440.8781070.0236300.78472020.2791520.1670510.1012110.07792630.194049.0.1056310.03765540.037965.0.1096060.001441典型相关系数第106页,共110页,2023年,2月20日,星期四RatioApproxFValueNumDFDenDFPr>F0.1907536810.4816232.82<.00010.886074451.069187.550.39300.960958050.7841560.53690.998558630.111790.7365典型相关系数近似F检验上述结果显示:只有第一典型相关系数在检验水准0.05的水平下具有统计学意义,因此只取第一对典型相关变量,即(U1,V1)第107页,共110页,2023年,2月20日,星期四原始的U典型相关变量

U1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论