




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于临床数据发现预测型知识例1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L )的测量结果 2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.
2、964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26单变量资料例对10例肺癌病人和12例矽肺(硅沉着病)0期工人用X线片测量肺门横径右侧距RD值(cm),结果见下表。问肺癌病人的RD值是否高于矽肺0期工人的RD值?肺癌病人矽肺0期工人RD值RD值2.78 3.23 3.23 3.50 4.20 4.04 4.87 4.15 5
3、.12 4.28 6.21 4.34 7.18 4.47 8.05 4.64 8.56 4.75 9.60 4.82 4.95 5.10 单变量资料表2 12只大白鼠的进食量与体重增加量序号进食量(g)体重增加量(g)1305.723.62188.614.73277.219.24364.827.75285.318.96244.716.17255.917.28149.812.99268.918.310247.617.711168.813.712200.615.6合计2957.9215.6变量y变量x双变量资料医学上,还有许多现象之间也都有类似的或强或弱的相互依存变化的关系,如:身高与体重、体温与
4、脉搏、年龄与血压、胰岛素与血糖水平、癌症病人术后的生存时间和肿瘤级别与年龄等等多变量资料预测型知识预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据。这类知识可以被认为是以时间为关键属性的关联知识,因此关联知识挖掘方法可以应用到以时间为关键属性的源数据挖掘中。分类知识挖掘:分类通常用来预测对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。预测用于预测数据对象的连续取值,如:可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);预测型知识的挖掘预测型知识的挖掘可以利用统计
5、学中的回归方法,通过历史数据直接产生连续的对未来数据的预测值;也可以借助于经典的统计方法、神经网络和机器学习等技术。无论如何,经典的统计学方法是挖掘预测知识的基础。挖掘预测型知识线性回归 (Linear Regression)一元线性回归多元线性回归Cox回归 (Cox Regression) logistic回归 (logistic Regression)目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,
6、如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。线性回归 (Linear Regression) 表 多元线性回归分析的数据结构实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是服从正态分布表 27名糖尿病人的血糖及有关变量的测量结果 缺失值及处理多元线性回归中,由于观察变量较多,容易造成缺失(20%以内)处理:剔除缺失过多的研究对象或变量用均数替代缺失值 -4 -2 0 2 4
7、 42-2-4极端值造成回归线上抬删除该极端值极端值及处理剔除极端值1. 赋值错误2. 单个极端值影响结果明显明显违背理论与常规机制保留极端值极端值较多非强影响值线性回归两变量间存在某种内在联系,且某一变量Y 随着另一变量X 的变动而变动,其散点图呈直线趋势,则统计上把这种描述两变量间依存变化的数量关系的现象称为直线回归数据散点图直线回归方程的一般表达式X:自变量(independent variable),通常也称为“解释变量”(explanatory variable) *只有一个自变量,称简单回归(simple regression) *多个自变量,称多元回归(multiple regr
8、ession)Y:应变量(dependent variable),通常也称为“反应变量”(response variable)a为截距(intercept) ,b为回归系数(regression coefficient)回归系数b的统计学意义:X每增加(或减少)一个单位,Y平均改变b个单位XY原则:各实测点至直线的纵向距离的平方和为最小求解回归直线最小二乘法(least square method)原理回归直线的特性2.若纵、横坐标无折断号时,将回归直线延长与纵轴相交,交点的纵坐标必然等于截距a1.通过点 总离均差平方和的分解:=+即直线回归的统计推断b0原因: 由于抽样误差引起,总体回归系数
9、 b=0 存在回归关系,总体回归系数 b01. 方差分析 2. t 检验(一)回归方程的假设检验一元线性回归的统计量计算多元线性回归的统计量计算应用条件(line):线性(linear) 独立性(independence) 残差e服从正态分布(0,)(normality) 等方差性(equity of variance)多元线性回归分析的注意事项非线性处理:结合专业知识,考虑回归方程中加入变量多次方项。 =a1 + b1 x1+ b2 x1 2对变量数据进行转换对数变换、log变换 等方差性:绘制残差 的散点图考察模型形式及方差齐性。绘制残差的直方图或正态概率图: 判断残差分布正态性及发现异常
10、值;绘制残差与因变量预测值的散点图:残差图呈曲线,提示加入非线性项或做合适的变量变换;残差呈喇叭形,则提示方差不齐;残差与时间呈依赖关系,考虑时间变量或样本的独立性。Matlab实现线性回归b,bint,r,rint,stats= regress( Y ,X)b-a p-by-1 vector of coefficient estimates for a multilinear regression bint-a p-by-2 matrix bint of 95% confidence intervals for the coefficient estimatesn-by-1 vector r
11、 of residualsan n-by-2 matrix rint of intervals that can be used to diagnose outliers. 1-by-4 vector statsthe R2 statistic,the F statistic its p-valuean estimate of the error variance表 27名糖尿病人的血糖及有关变量的测量结果 Matlab实现线性回归load(line_regression_data.mat)%总胆固醇(X1)、甘油三酯(X2)、胰岛素(X3)、糖化血红蛋白(X4)、血糖(Y)b,bint,r,
12、rint,stats=regress(Data(:,5),ones(27,1),Data(:,1:4)b = 5.9433 0.1424 0.3515 -0.2706 0.6382stats =0.520713.4713 0.00004.6378the R2 statistic,the F statistic its p-valuean estimate of the error varianceMatlab实现线性回归b,bint,r,rint,stats=regress(Data(:,5),ones(27,1),Data(:,1,4)%总胆固醇(X1)、糖化血红蛋白(X4)、血糖(Y)sc
13、atter3(Data(:,1),Data(:,4),Data(:,5),filled)hold onx1fit = min(Data(:,1):0.2:max(Data(:,1);x2fit = min(Data(:,4):0.5:max(Data(:,4);X1FIT,X2FIT = meshgrid(x1fit,x2fit);YFIT = b(1) + b(2)*X1FIT + b(3)*X2FIT;mesh(X1FIT,X2FIT,YFIT)xlabel(总胆固醇)ylabel(糖化血红蛋白)zlabel(血糖)view(30,60)挖掘预测型知识线性回归 (Linear Regres
14、sion)一元线性回归多元线性回归Cox回归 (Cox Regression) logistic回归 (logistic Regression)Cox比例风险回归模型在医学中,一方面要看治疗结局的好坏,另一方面还要看生存时间的长短随访研究(follow-up study)是医学中常用前瞻性研究。该类数据通过随访得到,称为随访资料不同方法对某病人(癌症、反复发作疾病)生存时间(缓解时间)与结局(生存率)比较两种方法肾移植病人术后肾的生存时间和结局(生存率)比较生存时间:从起始事件到终点事件之间所经历的时间跨度称为生存时间结局事件:指结局出现的特征,如疾病的死亡、复发、发生( y=1或0) 时间间
15、隔变量 记为(t) t=结局事件出现日期 事件的起始日期疾病确诊 随访时间 死亡治疗开始 随访时间 死亡/治愈生存数据完全和不完全数据一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据另一部分病人由于失访、意外事故或到观察结束时仍存活等原因,无法知道确切的生存时间,提供了不完全的信息,称为不完全数据(截尾数据、删失数据:consor data)时间(t)=截尾事件日期 起始事件日期记为t+。(例:10+月)生存数据的结果变量(Y )有两个:时间(t)值 ,t0结局状态(y )=“ 如死亡或截尾值”随访的方式1.全部观察对象同时接受不同处理(起点相同) 随访方
16、式:多见于动物实验随访的方式2.观察对象在不同时间接受处理因素(起点不同) 随访方式:临床试验研究Cox比例风险回归模型生存时间的长短不仅与治疗措施有关,还可能与病人的体质、年龄、病情的轻重等多种因素有关。如何找出其中那些因素与生存时间有关、哪些无关呢?生存资料的特点生存时间的分布一般为非正态分布含有截尾数据(consored data),信息不完全截尾数据提供的信息虽然是不完全的,但也很有价值,不应随便删除。由于存在不完全数据,不能用多元线性回归分析1972年英国统计学家Cox DR. 提出了一种能处理多因素生存分析数据的比例危险模型 ( Coxs proportional harzard
17、model)。 设含有p个变量x1, x2,xp及时间T和结局C的 n个观察对象. 其数据结构见表3。 表3 COX模型数据结构实验对象 t C X1 X2 X3 . XP 1 t1 1 a11 a12 a13 a1p 2 t2 0 a21 a22 a23 a2p 3 t3 0 a31 a32 a33 a3p n tn 1 an1 an2 an3 anp数据结构Cox回归模型的应用条件自变量可以为定量资料也可为分类资料自变量取值不随时间变化样本含量要足够大,且截尾数据不能过多,死亡数不能过少,因素各水平的例数也不能过少样本量目前尚无公认的方法。一般要求样本含量是要研究因素个数的520倍。样本量
18、少于研究因素个数的5倍,或样本含量少于50例,不宜做多变量分析Cox比例风险回归模型在分析单个因素或同时分析2个或2个以上因素对生存时间影响的时候,我们需要通过Cox比例风险模型来解决这些问题。借助于多元线回归及Logistic模型构造的思想 Logistic模型: lnP/(1-P)=0+1X1+ 2X2 +pXp多元线回归 Y 0 +1X1+2X2+pXp 等式右边不变。能不能左边直接用时间T代替Y或者P?设不存在因素X1、X2 、Xp的影响下,病人t 时刻死亡的风险率为h0(t), 存在因素X1、X2 、Xp t的影响下,t时刻死亡的风险率为h(t)。 COX提出:用死亡风险率的比 h(
19、t)/h0(t) 代替P/(1-P)即得。h(t,x)=h0(t)exp(-0.7169X3b - 1.0077X3c+ 0.3585X4+0.1603X5+0.7019X8c+0.2703X9)Cox比例风险回归模型当事件发生时间与多个影响因素有关时,可用Cox比例风险回归分析影响因素对自变量的影响情况。 可用于研究各种因素对于生存期长短的关系,进行单因素或多因素分析。以风险函数(hazard function)作为应变量,以各影响因素作为自变量,做自然指数回归方程。回归方程的表达式为 X1,X2,Xm是协变量 1 ,2,m是回归系数,由样本估计而得。Cox比例风险回归模型Cox回归分析是生
20、存分析的一种半参数分析方法h0(t)是未知的由于Cox 比例风险模型不是直接利用时间t的全部信息,而只是利用了时间t所提供的顺序统计量的信息,故称之为半参数方法优点:多因素分析方法不考虑生存时间分布利用截尾数据风险函数(风险率)h(t,x)表示当各协变量值X固定时的风险函数,它和h0(t)成比例,所以该模型又称为比例风险模型(proportional hazard model)表示已生存到时间 t 的观察对象,从生存时间 t 到 t +t 这一非常小的区间内死亡的概率极限,即生存时间已达到 t 的一群观察对象在时刻 t 的瞬时死亡率。用来估计死亡风险的大小。表示所有协变量Xi均为0时的危险率,
21、一般是未知的。基础风险率是未知数,但它和风险函数呈比例。H0(t)与时间有关的任意函数,其分布和形状无明确的假定,是非参数的部分。基础风险函数(率) j表示自变量变化一个单位,引起的死亡风险改变倍数的自然对数值。j是模型中参数部分,通过样本观察值估计,j的计算采用偏似然函数。回归系数的意义参数部分j0,表示当Xj增大时,h(t) 也增大,即病人死亡的风险增大,越大使生存时间越短,说明该自变量是死亡的危险因素。j0,表示Xj的变化不会引起病人死亡风险的改变。j0,表示当Xj增大,h(t) 则减小,即病人死亡的风险减小,越大使生存时间越长,说明该自变量是死亡的保护因素。j的假设检验可用最大似然比检
22、验、Wald检验和计分检验,并以此作为筛选变量的依据。回归系数的意义Cox回归模型的检验对Cox模型的检验采用似然比检验。 假设为H0:所有的i 为0 , H1:至少有一个 i 不为0 。将Ho和H1条件下的最大部分似然函数的对数值分别记为 和可以证明在H0成立的条件下,统计量 2-2 - 服从自由度为p的2分布。Cox模型中回归系数的检验 假设为 H0: ,其它参数固定; H1: ,其它参数固定。H0成立时,统计量 Z bkSE(bk) 服从标准正态分布。SE(bk)是回归系数bk的标准误。因素的筛选和最佳模型的建立通过单变量分析筛选有价值的自变量。采用前进法、后退法和逐步回归法筛选进入模型
23、的自变量,建立最佳模型。相对危险度表示其他自变量不变的情况下,某自变量从某个值变化为另一个值时,风险函数的变化情况。这是一个与时间无关的统计量。计算公式为:假定自变量Xj的取值为0和1时,其相对危险度为 变量xj暴露水平时的风险率与非暴露水平时的风险率之比称为风险比HR (hazard ratio) hr= ei hr风险比相对危险度RR风险比HR如果HR/RR接近1,说明该自变量不会影响危险函数;如果大于1,则是危险因素;如果小于1,则是保护因素。COX回归的应用1)因素分析分析哪些因素(协变量)对生存期的长短有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因
24、素与生存期的长短有显著关系。(2)求各因素在排除其它因素的影响后,对于死亡的相对危险度(或比数比)如某因素Xi的偏回归系数为bi, 则该因素Xi对于死亡的相对危险度为exp(bi)当Xi为二值变量时,如转移(1=转移,0=不转移), exp(bi)为转移相对于不转移对于死亡的相对危险度(或比数比)当Xi为等级变量时,如淋巴结转移,分0,1,2,3,4五个等级。exp(bi)为每增加一个等级,死亡的相对危险度,如等级3相对于等级0其死亡的相对危险度为: exp(3bi)当Xi为连续变量时,如年龄(岁)exp(bi)为每增加一岁时,死亡的相对危险度如60岁相对于35岁其死亡的相对危险度为exp(2
25、5bi)3)比较各因素对于生存期长短的相对重要性比较各标准化偏回归系数bi 绝对值的大小,绝对值大的对生存期长短的作用也大。(4) 考察因素之间的交互作用如考察XL和XK之间的交互作用是否显著,再增加一各指标:XLK= XL*XK ,如其偏回归系数bLK显著,则XL和XK之间的交互作用显著。Matlab实现cox回归Coxphfit %Cox proportional hazards regressionb,logL,H,stats = coxphfit(x,y)logL is the log likelihoodH is a two-column matrix containing y va
26、lues in the first column the estimated baseline cumulative hazard in the second column. stats is a structure that contains the fields:beta Coefficient estimates (same as b)se Standard errors of coefficient estimates bz z statistics for b (b divided by standard error)p p-values for bcovb Estimated co
27、variance matrix for bMatlab实现cox回归data=importdata(临床数据.xls);Matlab实现cox回归data=importdata(临床数据.xls); %Sample ID、亚型(数字表示)、age、sex、IDH1 mutation 、Overall survival、Sensor %基于单变量cox回归分析 识别风险因素 result=;for i=1:4 %亚型、age、sex、IDH1 mutation result(i,1)=i; b,logl,H,stats=coxphfit(data.data(:,1+i),data.data(:,
28、6),censoring,data.data(:,7); result(i,2)=stats.beta; %回归系数 result(i,3)=exp(stats.beta); %HR result(i,4)=stats.p; %回归显著性 clear b logl H stats se end 回归系数HRP值亚型-0.07970.92330.5932age0.01551.01560.1370sex0.41211.5100.0569IDH1 mutation0.29761.34670.4196生存分析总流程1.筛选影响生存的风险因素通过单变量分析筛选有价值的自变量,然后通过多变量cox回归考虑
29、因素的独立性采用前进法、后退法和逐步回归法筛选进入模型的自变量,建立最佳模型。2.生存率的估计与生存曲线估计生存函数。比较各组的生存函数。几个率概念死亡率、死亡概率、生存概率、生存率死亡率:表示在单位时间(年)内死亡发生的频率(年平均死亡水平)。死亡概率(F):在某时间 (t)开始存活的个体,死于(t+t)该时段内的可能性。生存概率、生存率生存概率(pi=1-F)指某时间段开始存活的个体到该时间段结束时仍存活的概率。 生存率(survival rate)称为生存函数 记为S(t)指观察对象从起始事件(如手术时间为0点)开始,到t时刻仍存活的概率。常用n年生存率表示。时间ti ,i=1,2,3n
30、例:某病病人术后生存率 生存 期初 死亡 生存 死亡 生存 生存率 时段 人数 人数 人数 概率 概率 0,1 100 10 90 0.1 0.9 0.901,2 90 10 80 0.11 0.89 0.802,3 80 20 60 0.25 0.75 0.60 生存曲线2.生存曲线:(survival curve)指各时点(t)为横轴,生存率S(t)为纵轴,连接一起的曲线图。描述生存率在各时点(t)的变化过程。3.半数生存期(中位数生存时间)即生存率为0.5时对应的时间(t),描述一组数据平均生存时间。注:生存时间(t)是正偏态分布。生存曲线以时间t为横坐标,S(t)为纵坐标所作的曲线称为
31、生存率曲线, 它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。生存率的估计方法 生存率S(t)的估计方法有参数法和非参数法。参数法可求出一个方程表示生存函数S(t)和时间t的关系,画出的生存曲线是光滑的下降曲线。常用非参数法非参数法只能得到某几个时间点上的生存函数,再用直线联起来,画出的生存曲线是呈梯型的。非参数法主要有二个,即,乘积极限法与寿命表法,前者主要用于观察例数较少而未分组的生存资料,后者适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同当分组资料中每一个分组区间中最多只有 1个观察值时,寿命表法的计算结果与乘积极限法完全相同。
32、乘积极限法(Product-Limit Method)简称为积限法或PL法,它是由统计学家Kaplan和Meier于1958年首先提出的, 因此又称为Kaplan-Meier法, 是利用条件概率及概率的乘法原理计算生存率及其标准误的。设S(t)表示t年的生存率,s(ti/ti-1)表示活过ti-1年又活过 ti年的条件概率,例如s(1),s(2)分别表示一年,二年的生存率,而s(2/1)表示活过一年者,再活一年的条件概率,据概率的乘法定律有: S(2)=S(1)S(2/1),一般地有 S(ti)=S(ti-1)S(ti/ti-1)例22.1 用某中药加化疗(中药组)和化疗(对照组)两种疗法治疗
33、白血病后, 随访记录各患者的生存时间,不带+号者表示已死亡,即完全数据,带+ 号者表示尚存活,即截尾数据,试作生存分析。时间单位为月。中药组 10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24对照组 2+,13,7+,11+,6,1,11,3,17,7资料中药组积限法计算生存率时间 状态 期初人数 死亡人数 条件生存率 累积生 di di/ni(ni-di)累积生存 ti si ni di (ni-di)/ni 存率S(ti)ni(ni-di) 率标准误 = 2 活 4 死 15 1 0.9333 0.9333 0.004762 0.004762
34、0.0644 6 活 6 活 8 活 9 死 11 1 0.9090 0.8485 0.009091 0.013853 0.0999 9 活 10 死 9 1 0.8889 0.7542 0.013889 0.027742 0.1256 12 活 13 死 7 1 0.8571 0.6465 0.023810 0.051551 0.1468 18 死 6 1 0.8333 0.5387 0.033333 0.084885 0.1570 19 活 24 死 4 1 0.7500 0.4040 0.083333 0.168218 0.1657 26 死 3 1 0.6667 0.2694 0.16
35、6667 0.334885 0.1559 31 死 2 1 0.5000 0.1347 0.500000 0.834885 0.1231 43 活寿命表法(Life Table Method)适用于随访的病例数较多, 将资料按生存期进行分组,在分组的基础上计算生存率 ,本法也能用于不分组的资料,此时计算结果与积限法相同。 某医院1946年1月1日到1951年12月31日收治的126例胃癌病例,生存情况如表22.2,试用寿命表法估计生存率。 表22.2 126例胃癌患者寿命表法估计生存率 时间(年) 期初例数 死亡例数 失访例数 截尾例数 有效例数 条件生存率 累积生存率 di di/ni(ni
36、-di)累积生存 ti ni di ui wi ni S(ti/ti-1) S(ti) ni(ni-di) 率标准误 = 0- 126 47 4 15 116.5 0.5966 0.5966 5.80510-3 5.80510-3 0.0455 1- 60 5 6 11 51.5 0.9029 0.5386 2.08810-3 7.89310-3 0.0479 2- 38 2 0 15 30.5 0.9344 0.5033 2.30110-3 0.0102 0.0508 3- 21 2 2 7 16.5 0.8788 0.4423 8.35910-3 0.0186 0.0602 4- 10 0
37、 0 6 7.0 1.0000 0.4423 0 0.0186 0.0602 5- 4 0 0 4 2.0 1.0000 0.4423 0 0.0186 0.0602 寿命表法估计生存率步骤如下: 1.将观察例数按时间段(年)0-,1-,2-,划分,分别计数期初例数,死亡,失访, 截尾例数列入表22.2的1-5列。事实上,从第二个时间段开始,期初人数ni 系由下式算得: ni=ni-1-di-ui-wi 例如第二行,即时间段1-,有 n2=126-47-4-15=60 2.计算各时间段期初实际观察例数,(亦称有效例数)ni ni=ni-ui/2-wi/2 上式表明该时间段期初例数中的失访,及截
38、尾例数只计其半时,即得有效例数。 如第一行,n1=126-4/2-15/2=116.5 3.分别用(22.5)(22.6)(22.7)式计算条件生存率S(ti/ti-1),累积生存率s(ti)及其标准误。 计算结果已列于表22.2中,第7,8,11列,表中9,10二列系用于第11列的计算。 例如时间段0-中 S(ti/ti-1)=(116.5-47)/116.5=0.5966 S(ti)=10.5966=0.5966 SE(S(ti)=0.59665.80510-3=0.0455 故一年生存率的估计为0.59660.0455 同样二年生存率的估计为0.53860.0479 由于寿命表法与积限法
39、的累积生存率及其标准误的计算公式完全相同,所以,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法就是积限法。性别做生存分析p = ?第三节 生存曲线的统计检验当有两个或两个以上的生存分布时,我们常需比较它们是否来自同一生存分布,常进行生存率曲线间的比较。方法:时序检验(Log-Rank test),可对两组或多组生存率曲线做比较.检验假设:H0:两总体的生存率曲线相同 H1:两总体的生存率曲线不同=0.05,如P,拒绝H0Logrank检验(Log Rank Test)当比较的几个样本生存分布,全部为完全数据时,本检验又称为Savage检验。Logrank检验的计算步骤如下:1.将两
40、样本的生存数据混合,由小到大排列,并给以秩次i1, 当截尾数据与完全数据数值相同时,截尾数据排列在后。并设两样本含量分别为m1,m2,总例数n=m1+m2。 2.列出所比较的两组中任一个组的序号i2(本处选用中药组),记入表22.3中第3列。3.列出死亡例的序号i3(见表22.3中第4列)。4.计算完全数据各时间点处于危险状态的例数r,它表示该时刻时还剩下多少例数。r系由与i3相应的i1值计算而得。 r=n-i1+1 5.对秩次i1作logrank变换,即计算logrank变换值W,其算法为秩次为i1 的序号为i3非截尾数据的W值为 秩次为i1的截尾数据,首先判断它在那二个非截尾数据之间,如果
41、它在序号i3与i3+1之间则W为 特别地,当截尾数据在第一个非截尾数据之前时,取W=0,几个截尾数据落在同样序号的非截尾数据之间时,它们具有相同的W值。6.计算所指定的组别(本例为中药组,序号为i2)的logrank变换值之和T 上式的连加系在指定的i2范围内相加。其均数与方差分别为 E(T)=m1/n W V(T)=m1m2/n(n-1)(W-E(T)/m1)2 式中连加系在全部观察值上完成,m1系指所指定的组别的例数,(本例为中药组m1=16),n为总例数。 Z=T-E(T)/V(T) Z服从标准正态分布,故可由Z0.05=1.96,Z0.01=2.58作出统计推断。 本例资料有T=3.8
42、22,E(T)=0.440210-6, V(T)=3.1755,Z=2.145,故P0.05, 拒绝H0,认为两种疗法生存分布不相同。Matlab实现%性别x1=find(data.data(:,4)=0);%低风险样本识别x2=find(data.data(:,4)=1);%高风险样本识别 figuretrain_p=logrank(data.data(x1,6:7),data.data(x2,6:7)性别做生存分析p = 0.0679Matlab实现%IDH突变 x1=find(data.data(:,5)=0);%低风险样本识别 x2=find(data.data(:,5)=1);%高风
43、险样本识别 figure train_p=logrank(data.data(x1,6:7),data.data(x2,6:7)%年龄M_age=median(data.data(:,3);x1=find(data.data(:,3)M_age);%高风险样本识别 figuretrain_p=logrank(data.data(x1,6:7),data.data(x2,6:7)年龄做风险因素p = 0.2152IDH突变生存分析p = 0.4434挖掘预测型知识线性回归 (Linear Regression)一元线性回归多元线性回归Cox回归 (Cox Regression) logistic
44、回归 (logistic Regression)logistic回归模型应变量Y是一个二值变量,取值为如果发生为0,未发生为1,则模型中回归系数绝对值不变,但符号相反。自变量X1,X2,Xm。自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。P表示在m个自变量作用下阳性结果发生的条件概率。1-P=P(y=0|x)为不发病概率数据结构概率型非线性回归模型S-形曲线,符合流行病学对危险因素与疾病风险关系的认识 logit变换事件发生概率与未发生概率之比的自然对数,称为P的logit变换,记作logit(P)。概率P的取值范围在01之间,而logit(P)取值是没有界限的。0(常数项):
45、所有影响因素均为 0 时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值。j 的含义:某因素因素 Xj 改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:优势比(odds ratio,OR)结果吸烟不吸烟合计食管癌患者309(a)126(b)435非食管癌患者208(c)243(d)451合计517(a+c)369(b+d)886吸烟与食管癌
46、关系的病例对照调查结果优势比(odds ratio,OR)OR表示影响因素对事件发生的影响方向和影响能力大小。一般地,OR1表示该因素取值越大,事件发生的概率越大,又称危险因素。OR1表示该因素取值越大,事件发生的概率越小,又称保护因素。OR=1表示该因素与事件的发生无关。logistic回归模型的参数估计通常采用最大似然估计(maximum likeli-hood estimate,MLE)估计回归系数,同时得到回归系数的标准误Sb。logistic回归模型的假设检验根据样本得到的logistic回归模型还需经过检验才能说明影响因素对事件发生的影响是否具有统计学意义。假设检验的假设:H0:1
47、=2= m=0(将多个影响因素作为一个整体考虑)常用检验方法:似然比检验、Wald检验根据病例的具体情况,安排某些条件相同的个体作为对照。可以是1:1对照,也可以1个病例选择多个对照,称为1:M对照(M 3)。分析过程与非条件logistic回归相同。条件logistic回归与非条件logistic回归的区别是没有常数项。logistic回归的应用流行病学危险因素分析病例对照研究中探索疾病的发病原因;临床试验数据分析当评价指标为分类数据,而且有其他影响评价指标的影响因素(年龄、病情、病种等)存在时。预测和判别根据个体的特征,判断个体发生某事件的概率;判断个体属于的类型。Matlab实现b,dev,stats = glmfit (x,y,binomial, link, logit)a p-by-1 vector b of coefficient estimates the deviance of the fit at the solution vector. The deviance is a generalization of the residual sum of squares. stats is a str
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年CPMM复习试题与解析答案
- 2024年CPSM考试备考策略与试题及答案
- 重磅解析CPMM考试趋势的试题及答案
- 2025年外转子风机项目建议书
- 2025年永磁无刷直流电动机项目建议书
- 货物运输方式选择试题及答案
- 广东省中山纪念中学2025届高考仿真模拟化学试卷含解析
- 2025江西建设职业技术学院辅导员考试题库
- 2025届吉林省长春汽车经济技术开发区第六中学高考临考冲刺化学试卷含解析
- 仓库三防课件教案小班
- 2025年各专业质控工作改进目标
- 2024年中央戏剧学院招聘笔试真题
- 《基于西门子S7-1200PLC的四层电梯控制系统设计》8900字
- 2025年中国消防器材制造行业发展模式调研研究报告
- 2025年河南测绘职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2023年高考真题-历史(辽宁卷) 含解析
- 各星级酒店功能区面积配置
- 高中生物知识点汇总必修选修
- 河南省农村卫生人才队伍建设工程实施方案
- 成品检验流程图
- 蒸汽计量中作弊现象的分析与应对
评论
0/150
提交评论